پایان نامه داده کاوی Data Mining

چکیده:

در دو دهه قبل توانایی­های فنی بشر برای تولید و جمع­آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب­و­کار، علوم، خدمات­ دولتی و پیشرفت در وسائل جمع­آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره­ای، در این تغییرات نقش مهمی دارند.

              بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی­های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. داده­کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباره­داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

                به لحاظ اینکه در چند سال اخیر مبحث داده­کاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرم­افزار­های آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.

                در این مقاله درفصل مروری بر داده­کاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه داده­ها را ذکر کردیم که داده­کاوی یکی از مراحل آن است.

                در فصل 2 یکی از شیوه­های داده­کاوی که از سبد خرید گرفته شده­ است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دسته­بندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح می­دهیم و در آخر آن دو را با هم مقایسه می­کنیم .

                در فصل 3 مباحث وب­کاوی و متن­کاوی را که در بسیاری از مراجع جزء کاربردهای داده­کاوی به حساب می­آید شرح داده خواهد شد.


تعداد صفحات 91 word

 

فهرست مطالب
فصل1: مقدمه ای بر داده کاوی 
1-1 تعریف داده کاوی  
2-1 تاریخچه داده کاوی  
3-1 چه چیزی سبب پیدایش داده کاوی شده است؟  
4-1 اجزای سیستم داده کاوی  
5-1 جایگاه داده کاوی در میان علوم مختلف  
6-1 قابلیتهای داده کاوی  
7-1 چرا به داده کاوی نیاز داریم؟  
8-1 داده کاوی چه کارهایی نمی تواند انجام دهد؟  
9-1 کاربردهای داده کاوی  
1-9-1 کاربردهای پیش بینی کننده  
2-9-1 کاربردهای توصیف کننده  
10-1 ابزارهای تجاری داده کاوی  
11-1 داده کاوی و انبار داده ها  
1-11-1 تعاریف انبار داده  
2-11-1 چهار خصوصیت اصلی انبار داده  
3-11-1 موارد تفاوت انبار داده و پایگاه داده  
12-1 داده کاوی و OLAP  
1-12-1 OLAP  
2-12-1 انواع OLAP  
13-1 مراحل فرایند کشف دانش از پایگاه داده ها  
1-13-1 انبارش داده ها  
2-13-1 انتخاب داده ها  
3-13-1 پاکسازی- پیش پردازش- آماده سازی  
4-13-1 تبدیل داده ها  
5-13-1 کاوش در داده ها (Data Mining)  
6-13-1 تفسیر نتیجه  

فصل 2: قوانین ارتباطی  
1-2 قوانین ارتباطی  
2-2 اصول پایه  
1-2-2 شرح مشکل جدی  
2-2-2 پیمایش فضای جستجو  
3-2-2 مشخص کردن درجه حمایت مجموعه اقلام  
3-2 الگوریتمهای عمومی  
1-3-2 دسته¬بندی  
2-3-2 BFS و شمارش رویداد¬ها  
3-3-2 BFS و دونیم¬سازی TID-list  
4-3-2 DFS و شمارش رویداد  
5-3-2 DFS و دو نیم¬سازی TID-list 
4-2 الگوریتم Apriori  
1-4-2 مفاهیم کلیدی  
2-4-2 پیاده¬سازی الگوریتم Apriori  
3-4-2 معایب Apriori و رفع آنها  
5-2 الگوریتم رشد الگوی تکرارشونده  
1-5-2 چرا رشد الگوی تکرار سریع است؟  
6-2 مقایسه دو الگوریتم Apriori و FP-growth  
7-2 تحلیل ارتباطات  

فصل 3: وب کاوی و متن کاوی  
1-3 وب کاوی  
1-1-3 الگوریتمهای هیتس و لاگسام  
2-1-3 کاوش الگوهای پیمایش مسیر  
2-3 متن¬کاوی  
1-2-3 کاربردهای متن کاوی  
1-1-2-3 جستجو و بازیابی  
2-1-2-3 گروه بندی و طبقه بندی  
3-1-2-3 خلاصه سازی  
4-1-2-3 روابط میان مفاهیم  
5-1-2-3 یافتن و تحلیل گرایشات  
6-1-2-3 برچسب زدن نحوی (pos)  
7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک  
2-2-3 فرایند متن کاوی  
3-2-3 روشهای متن کاوی  
مراجع 



خرید و دانلود پایان نامه داده کاوی  Data Mining


پایان نامه : داده کاوی در پایگاه داده های بزرگ

پایان نامه :  داده کاوی در پایگاه داده های بزرگ

پایان نامه :  داده کاوی در پایگاه داده های بزرگ

 

شرح مختصر : داده کاوی، فرایند مرتب سازی و طبقه بندی داده های حجیم و آشکارسازی اطلاعات مرتبط باهم می باشد. امروزه داده کاوی به عنوان یکی از ابزارهای بسیار مهم مدیران جهت شناخت وضعیت دقیق تر سازمان و همچنین کمک در اتخاذ تصمیمات مناسب کاربرد دارد. با استفاده از این تکنیک، داده های موجود در سازمان با بکارگیری ابزارهای نرم افزاری، مورد بررسی و تحلیل دقیق قرار می گیرد تا الگوهای پنهان و پیچیده ای که در آنها وجود دارد کشف و استخراج گردد. داده کاوی را می توان نسل سوم تکنولوژیهایی نامید که با داده سروکار دارند. در نسل اول یا نسل سنتی، فقط انجام پرس و جو های ساده امکان پذیر بود، مثلا تعداد فروش یک کالای خاص چقدر است؟ میزان خرید یک مشتری خاص در ماه جاری چه مبلغی است؟ در نسل دوم یا همان پردازش لحظه ای برخط (OLAP) امکان پرس و جوی همزمان چند بعدی فراهم گردید. در این روش به عنوان مثال به سوالاتی مانند: «میزان فروش محصولات به تفکیک فروشنده، خریدار و مسیر خاص چقدر است؟ » بصورت لحظه ای و با استفاده از مکعب تصمیم و گزارش ماتریسی پاسخ داده می شود. اما در نسل سوم یا همان داده کاوی فقط مساله پرس و جو و دریافت گزارش ها از داده ها نیست، بلکه از حجم انبوه داده ها، الگوهایی کشف می شود که هیچ وقت امکان کشف این الگوها در OLAP یا روش سنتی وجود نداشت. انواع اطلاعات و الگوهایی که از طریق داده کاوی بدست می آیند و کاربرد دارند عبارتند از: وابستگی، تسلسل و توالی، طبقه بندی، خوشه بندی و پیش بینی. برای استخراج این الگوها اغلب از روشهای نوینی مانند شبکه عصبی و درختهای تصمیم استفاده می شود. در عمل برای امکان انجام داده کاوی و استفاده از تکنیکهای فوق الذکر، ابتدا باید نسبت به ایجاد یک انبار داده مناسب اقدام کرد. یک انبارداده در حقیقت پایگاه داده ای است که داده های جاری و همچنین سوابق قبلی تراکنشها را در خود ذخیره کرده و با منابع خارج سازمان نیز ارتباط برقرار می کند. اهداف کلی این مقاله عبارتند از ارایه تعریف دقیقی از انبار داده، بررسی تکنیکها و کاربردهای داده کاوی و کاربرد آن در مدیریت، معرفی شبکه عصبی به عنوان یکی از روشهای اجرای داده کاوی و بیان مفهوم درخت تصمیم و ارتباط آن با داده کاوی.

فهرست :

چکیده

مقدمه ای بر داده‌کاوی

فصل اول

 چه چیزی سبب پیدایش داده کاوی شده است

 مراحل کشف دانش

 جایگاه داده کاوی در میان علوم مختلف

 داده کاوی چه کارهایی نمی تواند انجام دهد؟

 داده کاوی و انبار داده ها

 داده کاوی و OLAP

 کاربرد یادگیری ماشین و آمار در داده کاوی

فصل دوم

 توصیف داده ها در داده کاوی

 خلاصه سازی و به تصویر در آوردن داده ها

 خوشه بندی

 تحلیل لینک

فصل سوم

 مدل های پیش بینی داده ها

Classification

Regression

Time series

فصل چهارم

 مدل ها و الگوریتم های داده کاوی

 شبکه های عصبی

Decision trees

Multivariate Adaptive Regression Splines(MARS)

Rule induction

Knearest neibour and memorybased reansoning(MBR)

 رگرسیون منطقی

 تحلیل تفکیکی

 مدل افزودنی کلی (GAM)

Boosting

فصل پنجم

  سلسله مراتب انتخابها

فصل ششم

 مراحل فرایند کشف دانش از پایگاه داده های بزرگ

 انبارش داده ها

انتخاب داده ها

تبدیل داده ها

کاوش در داده ها

تفسیر نتیجه

فصل هفتم

عملیات های داده کاوی

مدل سازی پیشگویی کننده

تقطیع پایگاه داده ها

تحلیل پیوند

فصل هشتم

قابلیت هایdata mainig

داده کاوی وانبار داده ها

داده کاوی آمار ویادگیری ماشین

کاربرد های داده کاوی

داده کاوی موفق

تحلیل ارتباطات

فصل نهم

طبقه بندی

حدس بازگشتی

سری های زمانی

درخت های انتخاب

استنتاج قانون

الگوریتم های ژنتیک

فصل دهم

فرایند های داده کاوی

مدل فرایند دو سویه

فصل یازدهم

ساختن یک پایگاه داده داده کاوی

جستجوی داده

آماده سازی داده برای مدل سازی

ساختن مدل برای داده کاوی

تائید اعتبار ساده

ارزیابی وتفسیر

فصل دوازدهم

ماتریس های پیچیدگی

ایجادمعماری مدل ونتایج

فصل سیزدهم

نتیجه گیری

منابع ومآخذ



خرید و دانلود پایان نامه :  داده کاوی در پایگاه داده های بزرگ