مقدمه
پیشرفتهای به وجود امده در جمع آوریداده و قابلیتهای ذخیره سازی در طی دهههای اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینههای مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو میشوند. در مقایسه با بسترهای دادهای قدیمی و کوچکتر، بسترهای دادهای امروزی چالشهای جدیدی در تحلیل دادهها بوجود اوردهاند. روشهای اماری سنتی به دو دلیل امروزه کارایی خود را از دست دادهاند. علت اول افزایش تعداد مشاهدات (observations) است و علت دوم که از اهمیت بالاتری برخوردار است، افزایش تعداد متغیرهای مربوط به یک مشاهده میباشد.
تعداد متغیرهایی که برای هر مشاهده باید اندازهگیری شود، ابعاد داده نامیده میشود. عبارت "متغیر" (variable) بیشتر در امار استفاده میشود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از عبارات "ویژگی" (feature) و یا "صفت" (attribute) استفاده میشود.
بسترهای دادهای که دارای ابعاد زیادی هستند علیرغم فرصتهایی که به وجود میاورند، چالشهای محاسباتی زیادی را ایجاد میکنند. یکی از مشکلات دادههای با ابعاد زیاد این است که در بیشتر مواقع تمام ویژگیهای دادهها برای یافتن دانشی که در دادهها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینهها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است.
استراتژیهای پیشرفته جستجوی ممنوعه
ساختار کلی جستجوی ممنوعه، اغلب جوابگوی مسایل بزرگ نیست. بنابراین به منظور افزایش قدرت الگوریتم، از استراتژیهای زیر که معروف به استراتژیهای پیشرفته جستجوی ممنوعه هستند استفاده میشود [Gend03]:
استراتژی لیست کاندید (Candidate List Strategy): در یک TSعادی، برای حرکت از یک جواب فعلی به یک جواب همسایه، باید مقدار تابع هدف برای هر عنصر از همسایهها ارزیابی شود. این کار میتواند از لحاظ محاسباتی بسیار هزینهبر باشد. روشی دیگر، این است که به جای ان که تمامی همسایهها بررسی شود، تنها یک زیرمجموعه تصادفی از همسایهها در نظر گرفته شود که در نتیجه، هزینه محاسباتی به طور قابل ملاحظهای کاهش مییابد. انتخاب زیرمجموعهای از جوابهای همسایه به صورت تصادفی، میتواند به عنوان یک مکانیزم ضد چرخه عمل کند؛ این کار اجازه میدهد که از لیست ممنوعه کوچکتری نسبت به کل همسایگی، استفاده شود. البته باید در نظر داشت که این کار یک عیب مهم دارد و ان احتمال از دست دادن جوابهای خوب است، بنابراین احتمالهایی را نیز میتوان به کار برد تا معیارهای ممنوعه فعال شود.استراتژی تقویت (Intensification Strategy): استراتژی تقویت به معنای یافتن حرکتهای خوب و افزایش انجام ان حرکتها در الگوریتم است. تقویت، در بسیاری از پیادهسازیهایTSاستفاده میشود، اما همیشه ضروری نیست، زیرا حالتهای بسیاری وجود دارد که در انها جستجوی معمولی کفایت میکند.استراتژی تنوع بخشی (Diversification Strategy): روشهای مبتنی بر جستجوی محلی، انقدر محلی هستند که زمان زیادی و یا تمامی زمان خود را در بخش محدودی از فضای جستجو صرف میکنند. نتیجهای که از این واقعیت میتوان گرفت، این است که هر چند جوابهای خوبی به وسیله این روشها به دست میاید، اما ممکن است جستجو از اکتشاف مناطق بهتر باز بماند و بنابراین به جوابهایی برسد که از جواب بهینه، بسیار دور هستند. تنوعبخشی، یک مکانیزم الگوریتمیک است که برای حل این مشکل تلاش میکند. برای انجام این کار، تنوعبخشی جستجو را مجبور میکند به سوی مناطقی که تاکنون کشف نشده، حرکت کند.
تعداد صفحات 102 word
فهرست
مقدمه. 2
روش های مبتنی بر استخراج ویژگی.. 4
روش های انتخاب ویژگی.. 5
تعاریف.. 6
بررسی توابع مختلف ارزیابی و تولید کننده 10
توابع تولید کننده 11
جستجوی کامل.. 11
جستجوی مکاشفه ای.. 12
جستجوی تصادفی.. 12
توابع ارزیابی.. 12
دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی.. 17
تابع ارزیابی مبتنی بر فاصله - تابع تولید کننده مکاشفه ای.. 18
روش Relief. 18
روش Jakub. 20
تابع ارزیابی مبتنی بر فاصله - تابع تولید کننده کامل.. 21
تابع ارزیابی مبتنی بر اطلاعات - تابع تولید کننده مکاشفه ای.. 23
1) روش درخت تصمیم(DTM) 23
الگوریتم C4.5. 23
2) روش استفاده شده توسط Kollerو Sahami 27
پوشش مارکوف.. 27
تابع ارزیابی مبتنی بر وابستگی - تابع تولید کننده مکاشفه ای.. 30
2) روش PreSet 31
تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده کامل.. 32
1) روش Focus. 32
2) روش Schlimmer 38
3) روش MIFES1. 38
تابع ارزیابی مبتنی بر سازگاری - تابع تولید کننده تصادفی.. 39
تابع ارزیابی مبتنی بر خطای طبقه بندی کننده- تابع تولید کننده مکاشفه ای.. 41
2) روش SBS (Sequential Backward Selection) 41
3) روش SBS-Slash. 41
4) روش PQSS ((p,q) Sequential Search) 42
5) روش BDS (Bi-Directional Search) 42
6) روش Schemata Search. 42
7) روش RC (Relevance in Context) 43
8) روش Queiros and Gelsema. 43
تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده کامل.. 43
تابع ارزیابی مبتنی بر خطای طبقه بندی کننده - تابع تولید کننده تصادفی.. 44
جمع بندی روش های انتخاب ویژگی.. 46
روش های فرا اکتشافی.. 49
روش های مکاشفه ای.. 50
انواع الگوریتمهای مکاشفهای.. 51
پیادهسازی الگوریتم های فرا اکتشافی.. 53
ویژگی های مشترک روش های فرا اکتشافی.. 54
دستهبندی الگوریتمهای فرا اکتشافی.. 54
الگوریتم ژنتیک (Genetic Algorithm) 56
مراحل الگوریتم ژنتیک... 59
انواع کدینگ... 59
روشهای کدینگ... 60
روش های پیاده سازی عملگر ترکیب.. 61
ترکیب تک نقطهای : 61ترکیب دو نقطهای : 62ترکیب یکنواخت: 63ترکیب حسابی: 64انواع روش های جهش... 65
الگوریتم ژنتیک برای انتخاب ویژگی.. 67
الگوریتم بهینه سازی جمعیت مورچگان (ACO) 68
الگوریتم ACO برای انتخاب ویژگی.. 71
الگوریتم بهینه سازی انبوه ذرات (PSO) 74
الگوریتم PSO برای انتخاب ویژگی.. 75
الگوریتم جستجوی ممنوعه (Tabu Search) 79
استراتژیهای پیشرفته جستجوی ممنوعه. 82
حافظه ها در جستجوی ممنوعه. 83
الگوریتم جستجوی ممنوعه برای انتخاب ویژگی.. 84
فهرست منابع و مراجع. 87
فهرست اشکال
شکل 1- فرایند انتخاب ویژگی.. 11
شکل 2- مقایسه توابع ارزیابی مختلف.. 20
شکل 4- الگوریتم Branch and Bound. 26
شکل 5- الگوریتم درخت تصمیم. 30
شکل 9- الگوریتم روش Focus. 36
شکل 10- الگوریتمی دیگر از روش Focus. 37
شکل 11- الگوریتم Focus-2. 38
شکل 12- کلاسهای مورد بررسی در الگوریتم Focus. 39
شکل 13- روند الگوریتم Focus. 40
شکل 14- حل ناسازگاری در الگوریتم Focus. 41
شکل 15- الگوریتم روش LVF. 43
شکل 16- طبقهبندی روشهای مختلف انتخاب ویژگی.. 50
شکل 1- بهینه محلی و بهینه کلی.. 61
شکل 7- ترکیب تک نقطهای.. 65
شکل 12- جهش باینری.. 69
شکل 17- فرایند انتخاب ویژگی در ACO.. 75