Presentation is loading. Please wait.

Presentation is loading. Please wait.

عنوان پایان نامه : بهبود خوشه بندی داده های حجیم درالگوریتم PSON برای کاوش مجموعه اقلام تکراری استاد راهنما : دکتر تورج بنی رستم نگارش : اکبر خبازیان.

Similar presentations


Presentation on theme: "عنوان پایان نامه : بهبود خوشه بندی داده های حجیم درالگوریتم PSON برای کاوش مجموعه اقلام تکراری استاد راهنما : دکتر تورج بنی رستم نگارش : اکبر خبازیان."— Presentation transcript:

1

2 عنوان پایان نامه : بهبود خوشه بندی داده های حجیم درالگوریتم PSON برای کاوش مجموعه اقلام تکراری استاد راهنما : دکتر تورج بنی رستم نگارش : اکبر خبازیان

3 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات مقدمه بیان مسئله هدف تحقیق سوالات فرضیات

4 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات امروزه با پیشرفت سریع فناوری اطلاعات و با دسترسی به ذخیره ‌ سازهای ارزان و پیشرفت تکنولوژی ‌ های ذخیره ‌ سازی داده ‌ ها، حجم داده های دیجیتال با سرعت زیادی رو به افزایش است. بگونه ای که می توان عصر حاضر را عصر داده های حجیم دانست. دستکاری و پردازش این داده ‌ های عظیم چالشهای جدیدی در داده ‌ کاوی باز کرده ‌ است داده کاوی مراقبت های بهداشتی تامین برق خدمات مالی گردشگری تولید مدیریت ایمنی راه آهن 4

5 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات Data Mining عبارت است از اقتباس يا استخراج دانش از مجموعه ای از داده ها ، به بيان ديگر ، Data Mining فرايندی است که با استفاده از تکنيکهای هوشمند، دانش را از مجموعه ای از داده ها استخراج می کند. Data Mining از ساخت مدل های تحليلی ، دسته بندی و پيش بينی اطلاعات و ارائه نتايج با استفاده از ابزارهای مرتبط استفاده می کند. برای اينکه الگوريتم Data Mining بتواند عمل استخراج دانش را بخوبی انجام دهد، نياز به يک سری پيش پردازش ها بر روی مجموعه آموزشی و يک سری پس پردازش ها بر روی الگوهای استخراج شده دارد. 5

6 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 6

7 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 7

8 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 8

9 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 9

10 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات در میان تکنیک های مختلف داده کاوی، کاوش الگوی تکراری (frequent pattern mining) FPM به دلیل توانایی آن در تعیین روابط تکراری بین آیتم های مختلف در مجموعه داده ها و نشان دادن آنها به صورت قوانین ارتباطی ، یکی از مهم ترین تکنیک ها است. 10

11 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات. تمرکز این پژوهش بر روی نحوه کلاسترینگ داده ورودی است که تاثیر قابل توجهی بر روی عملکرد PFIM دارد. 11

12 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات اهداف تحقیق : در مطالعات مربوط به داده ‌ کاوی، دو مورد همواره مورد بررسی قرار می ‌ گیرد : سرعت پردازش اطلاعات دقت نتایج به ‌ دست ‌ آمده بنابراین هدف ما در این پژوهش به شرح زیر خواهد بود : افزایش سرعت پردازش الگوریتم SON افزایش دقت نتایج حاصل از کاوش الگوهای تکراری الگوریتم SON از طریق خوشه بندی داده های مشابه ورودی که برای نیل به اهداف ذکرشده از بستر توزیع ‌ شده هدوپ و خوشه بندی داده های ورودی الگوریتم PSON استفاده خواهدشد. 12

13 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات اهمیت موضوع و انگیزه انتخاب هدف و اهمیت این پژوهش ارائه یک استراتژی مقیاس ‌ پذیر و موازی کاوش مجموعه اقلام تکراری است. 13

14 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات سوالات و فرضیه های تحقیق : ممشکل کاوش حجم با ی داده ها در داده های حجیم چیست ؟ و چه روشهایی برای حل آن وجود دارد؟ چچگونه می ‌ توان حجم زیادی از داده ‌ ها را با سرعتی مناسب هم ‌ زمان مورد بررسی قرارداد؟ چچگونه می ‌ توان داده ‌ ها را بر روی چند سیستم توزیع کرد؟ چچگونه می ‌ توان داده ‌ های توزیع ‌ شده را باهم خوشه ‌ بندی کرد؟ چچگونه از الگوریتم PSON به عنوان استراتژی پایه در کاوش مجموعه اق م تکراری به صورت توزیع شده استفاده شود؟ چچگونه داده های ورودی الگوریتم PSON پارتیشن بندی شود که هر پارتیشن دارای تراکنشهایی با آیتم­های مشابه باشد؟ ببرای خوشه بندی داده های ورودی الگوریتم از چه روشی استفاده شود ؟ تتاثیر مدل برنامه نویسی موازی Map-Reduce بر سرعت کاوش مجموعه اق م تکراری چیست؟ آآ یا می‌توان با استفاده از P SON روی‌داده‌های حجیم در محیط هدوپ روشی کارا پیدا کرد؟ فرضیه تحقیق: در راستای مسئله بیان ‌ شده در این تحقیق، این فرض در نظر گرفته ‌ شده است که استفاده از الگوریتمهای خوشه بندی بر روی حجم عظیمی از داده‌ها برای داده های ورودی الگوریتم PSONدر محیط هدوپ، آیا در بهبود عملکرد از نظرسرعت و دقت موثر است. همچنین استفاده از برنامه نویسی موازی Map-Reduceدر حل مسئله اکتشاف اق م تکراری موثراست. 14

15 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 15

16 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات تعریف big data: سه واژه هستند که کلان داده (Big Data را تعریف می کنند : Variety تنوع، Velocity سرعت و Volume حجم که در اصطلاح عامیانه به آن ها 3V گفته می شود. 16

17 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 17

18 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 18

19 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات روش تحقیق روش کاربردی گردآوری آطلاعات

20 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 20

21 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 1.طبقه بندی و مقایسه الگوریتم های کاوش اقلام تکراری 1. طبقه بندی و مقایسه الگوریتم های کاوش اقلام تکراری 21

22 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 22 معایب مزایاالگوریتم FPM باید مجموعه بزرگی از کاندیدها را تولید کند اگر k-itemsets بزرگ باشد با استفاده از تکنیک جستجوی تکراری سطح، برای کشف (k +1) -itemsets از k-itemsets Apriori (Agrawal and Srikant 1994) اگر مجموعه داده ها بسیار بزرگ ساختن FP- Tree زمان زیادی مصرف می نماید. حفظ اطلاعات مربوط به ارتباط همه آیتم ستها و کاهش مقدار داده های مورد جستجو FP-Growth (Han and Pei 2000) فضای حافظه و زمان پردازش زیادی برای مجموعه TID متقاطع نیاز است. اسکن پایگاه داده برای یافتن تعداد ساپورت (k +1) -itemsets مورد نیاز نیست. EClaT (Zaki 2000) نمایش های مختلف ادرخت واژگان از لحاظ کارایی مصرف حافظه محدودیت های مختلفی دارد شناسایی آیتم ستهای مکرر به شیوه ای سریع به این دلیل که فقط زیر مجموعه ای از تراکنشها است که احتمالا آیتم ستهای مکرر را نگه می دارد توسط الگوریتم جستجو می شود. TreeProjection (Agarwal et al.2001) عملکرد الگوریتم در صورت مقدار آستانه مینیمم ساپورت پایین، در یک پایگاه اطلاعاتی اسپارس تضعیف می شود استفاده از یک روش هرس برای کاهش قابل توجه استفاده از فضای حافظه با ساخت COFI-Tree های کوچکتر در حین استخراج آیتم ستها مکرر COFI (El-Hajj and Zaiane 2003) از لحاظ سرعت پردازش در مقایسه با الگوریتم FP-Growth هنوز هم آهسته تر فشرده سازی آیتم ستها درون یک لیست از فواصل تراکنش به منظور صرفه جویی زیاد در وقت تقاطع برای استخراج آیتم ستهای مکرر TM (Song and Rajasekaran 2006)

23 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 23 الگوریتم تنها زمانی به حداکثر بهینه سازی میرسد که چندین هسته دردسترس پردازنده باشد. بهینه سازی عملکرد و مقیاس پذیری با استخراج آیتم ستهای مکرر به طور موازی در پردازنده های چند هسته ای P-Mine (Baralis et al. 2013) حافظه باید به طور مداوم آزاد شودبه طوری که آیتم های یک تراکنش در LPN های مختلف ذخیره شوند تولید LP-Tree از طریق ایجاد چندین گره به صورت همزمان با استفاده از روش سریع و یکسری عملیاتهای آرایه ای LP-Growth (Pyun et al. 2014) اگر مقدار آستانه از یک مینیمم ساپورتی پایینتر باشد زمان کاوش طولانی تر ی شود عملرد بهتر الگوریتم نسبت به الگوریتم FP-Growth زمانی که مینیمم ساپورت مقدار آستانه بالایی دارد Can-Mining (Hoseini et al. 2015) اگر تغییری در مجموعه داده ها ایجاد شود برای کاوش و استخراج مجموعه آیتم ستهای مکرر جدید الگوریتم باید دوباره اجرا شود. زمان اجرای کاوش بیش از 300 شی با 10 خصوصیت از 1200 ثانیه تجاوز نمی کند EXTRACT (Feddaoui et al. 2016) هر بار مجموعه هایی کوچک از نامزدها تولید می شود این الگوریتم در مقایسه با الگوریتم های موجود PPMine ، COFI و TFP زمان جستجو و فضای ذخیره سازی را به نحو کارآمد کاهش می دهد SSR(Show-Jane Yen 2012)

24 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات چهارچوب انجام تحقیق جهت انجام این تحقیق، مراحل زیر انجام می ‌ شود :  مطالعه مقالات و کتب مرجع درزمینه روش ‌ های تکاملی و ارتباط آن ‌ ها با داده ‌ های حجیم  انتخاب روش ‌ ها و الگوریتم ‌ های موردنیاز برای پیشبرد اهداف تحقیق  مطالعه الگوریتم son و pson و K-means و کارهای مشابه انجام شده در این زمینه  مطالعه ابزارهای داده ‌ کاوی ازجمله هدوپ و اسپارک و ماهوت و Grid'5000  پیاده ‌ سازی الگوریتم های pson و K-means  پیاده ‌ سازی محیط هدوپ در لینوکس  اجرای الگوریتم روی دیتاست های حجیم

25 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 1. ابزارهای مورد استفاده در تحلیل داده ها 1.هدوپ 1. هدوپ 2.مدلGrid5000 2. مدل Grid5000 3. برنامه نویسی Map Reduce 25

26 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات روش تجزیه و تحلیل داده ها پارامترهای استفاده شده در تحلیل داده ها : پارامترهای زیر برای تحلیل تاثیر توزیع داده های مختلف در عملکرد الگوریتم های مختلف استفاده می شود : T= میانگین اندازه تراکنش، P= حداگثر میانگین طول الگوها، I= تعداد آیتم های مختلف، C= ضریب همبستگی میان الگوها، D= تعداد تراکنشها معیار مورد استفاده در تحلیل داده : تاثیر آستانه مینیمم ساپورت 1.دیتاست و حجم نمونه 1. دیتاست و حجم نمونه wikipedia 50 گیگابایت و متشکل از 6 میلیون مقاله ClueWeb 240 گیگابایت و 228 میلیون عنوان مقاله است 26

27 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات نتایج 27

28 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 28

29 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات

30 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 30

31 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 31

32 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 32

33 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 33

34 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 34

35 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 35

36 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 36 TransactionTID a, b, cT1 a, b, dT2 e, f, gT3 d, e, fT4

37 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات. دلیل اصلی انتخاب الگوریتم PSON اینکه به سربار بالایی بین mapper ها و reducer ها نیاز ندارد. عملکرد الگوریتم PSON به شدت وابسته به توزیع داده میان worker ها است. بنابراین نیاز است یک الگوریتم کلاسترینگ به عنوان پیش پردازش برای پارتیشن بندی داده ‌ ها استفاده شود. 37

38 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 38

39 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 39

40 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 40

41 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 41

42 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 42

43 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 43

44 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات 44

45 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات

46 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات

47 مقدمه مروری بر منابع مواد و روش ها نتایج و بحث نتیجه گیری کلی پیشنهادات


Download ppt "عنوان پایان نامه : بهبود خوشه بندی داده های حجیم درالگوریتم PSON برای کاوش مجموعه اقلام تکراری استاد راهنما : دکتر تورج بنی رستم نگارش : اکبر خبازیان."

Similar presentations


Ads by Google