Presentation is loading. Please wait.

Presentation is loading. Please wait.

سید احمد طباطبائی 86233501 علی مستوفی نژاد 86233502 دیماه 88.

Similar presentations


Presentation on theme: "سید احمد طباطبائی 86233501 علی مستوفی نژاد 86233502 دیماه 88."— Presentation transcript:

1 سید احمد طباطبائی علی مستوفی نژاد دیماه 88

2 Data mining داده کاوی

3 مقدمه: حتماً تاکنون بارها عبارت "انقلاب دیجیتال"  به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه هـای مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایـده انقلاب دیجیتال در زندگی فکر کرده اید؟

4 مقدمه: از سال 1950 به بعد که رایانه ، در تحلیل و ذخیره سازی داده ها به کار رفت ، حجم اطلاعات ذخیره شده درآن پس از حدود 20 سال دو برابر شد و همزمان با پیشرفت فناوری اطلاعات ، حجم داده ها در پایگاه داده ها هر دو سال یک بار ، دو برابر شد و همچنان باسرعت بیش تری نسبت به گذشته حجم اطلاعات ذخیره شده بیش تروبیش تر می شود

5 مقدمه: در این میان سازمانهایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجـام یافته نشان داده است که سازمانها کمتراز1درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند .

6 مقدمه: با وجود شبکه جهانی وب ، سیستم های یکپارچه اطلاعاتی ، سیستم های یکپارچه بانکی ، تجارت الکترونیکی و ... لحظه به لحظه به حجم داده ها در پایگاه داده ها اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است ، به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است .

7 مقدمه: بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولـوژی امروزه دارای کـاربرد بسیار وسیعی در حـوزه های مختلف است به گـونه ای که امروزه حد و مرزی برای کاربرداین دانش در نظر نگرفته و زمینه های کاری این دانش را ازذرات کف اقیانوسها تا اعماق فضا می دانند .

8 مقدمه: نیاز به طراحی سیستم هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه کاربران با تاکید بر حداقل مداخله انسانی باشند از یک سو و روی آوردن به روش های تحلیل متناسب با حجم داده های حجیم ازسوی دیگر ، به خوبــــــی احســاس می شود . در حال حاضر ، داده کاوی مهم ترین فناوری برای بهره وری موثر ، صحیح و سریع ازداده های حجیم است و اهمیت آن رو به فزونی است .

9 مقدمه: امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و مانندآن می باشد.

10 تاریخچه: با توجه به وجود اطلاعات ارزشمند در پایگاه های داده ای در اواخر دهه 80 میلادی ، تلاش برای استخراج و استفاده از اطلاعات پایگاه های داده ای شروع شد . داده کاوی فرایندی است که در آغاز دهه 90 پا به عرصه ظهور گذاشته و با نگرشی نو ، به مسئله استخراج اطلاعــات از پایگـــاه داده ها می پردازد .

11 تاریخچه: در سال 1989 و 1991 کارگاه های کشف دانش از پایگاه داده ها توسط پیاتتسکی و همکارانش و در فاصله سال های 1991 تا 1994 کارگاه های فوق ، توسط فایاد و پیا تتسکی و دیگران برگزار شد . به طور رسمی اصطلاح داده کاوی برای اولین بار توسط « فیاض » در اولیـن کنفرانس بین المللی « کشف دانش و داده کاوی » در سال 1995 مطرح شد . از سال 1995 داده کاوی به صورت جدی وارد مباحث آمار شد و در سال 1996 ، اولین شماره مجله کشف دانش از پایگاه داده ها منتشر شد .

12 تاریخچه: داده کاوی حاصل تحول تدریجی در طول تاریخ بوده و از اوایل دهه 90 همزمان با همه گیر شدن استفاده از پایگاه های داده ای به عنوان یک علم مطرح شده است.

13 داده کاوی چیست؟ بطور کلی داده کـاوی پل ارتباطی میان علم آمـار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فـراگیری مـاشین و بازنمایی بصری داده می باشد. و مانند درختی است که در تکنولوژی های دیگر ریشه دارد مسائل کامپیوتری (نموداری) اعداد visualization آمارstatistics هوش مصنوعی Al(machine Learning) تکنولوژی داده Database Technology

14 داده کاوی چیست؟ داده کاوی یک رشته نسبتا جدید علمی است که از انجام پژوهش ها حداقل در رشته های مختلف آمار ، یادگیــــری ماشین ، علوم رایانه به خصوص مدیریت پایگاه داده ها شکل گرفته است . البته مرزهای این رشته ها در داده کاوی مبهم و بعضی وقت ها دارای اشتراک های فراوانی هستند .

15 داده کاوی چیست؟ داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قـابل درک باشند. داده کـاوی به صورت یک محصـول قـابل خـریداری نمی باشد، بلکه یک رشته علـمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.

16 تعاریف داده کاوی نگاهی به ترجمه لغوی داده کاوی به ما در درک بهتر این واژه کمک می کند . واژه لاتین Mine به معنای استخراج از منابع نهفته و با ارزش زمین اطلاق می شود . ادغام این کلمه با Data به معنی داده بر جستجویی عمیق از داده های قابل دسترس با حجم زیاد برای یافتن اطلاعات مفید که قبلا نهفته بودند ، تاکید دارد

17 تعاریف داده کاوی داده کاوی عبارت از تحلیل و آنالیز مجموعه داده های بزرگ به منظور یافتن ارتباطات غیر قابل انتظار اما قابل فهم و مفید برای صاحب داده میباشد. این ارتباطات پیدا شده را اصطلاحا مدل میگویند. داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.

18 تعاریف داده کاوی داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها

19 داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند،اما دانش نهفته در داده ها با داده کاوی قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.

20 Data mining: From High volume data To High value information

21 کاربردهاي داده کاوي خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد : شناسائی طبقات و گروههای اصلی مشتريان وتعيين الگوهاي خريد مشتريان تجزيه و تحليل سبد خريد بازارتعيين ميزان تاثير عوامل مختلفی نظير تبليغات، تخفيف، ... بر ميزان و الگوهای فروش پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)

22 کاربردهاي داده کاوي بيمه : تجزيه و تحليل دعاوي
پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان

23 کاربردهاي داده کاوي پزشکي :
تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت تشخيص بيماريها براساس انواع اطلاعات (تصاوير پزشکی، مشخصات بيمار احتمالی) تشخيص ناهنجاريهائی که توسط انسان به سختی قابل تشخيص خواهند بود (لکه ها و نقاط خاص داخل چشم که نشانه شروع کوری ناشی از ديابت می باشد)

24 کاربردهاي داده کاوي حوزه کاربردی فضا و سفرهای فضائی
حجم بسيار زيادی از اطلاعات نويز بسيار بالا ارزش بسيار زياد دانش قابل استخراج پردازش اطلاعات جمع آوری شده از فضا پردازش اطلاعات مربوط به سفينه های فضائی ارائه دانش مفيد برای اتخاذ تصميم نهائی جهت پرتاب يا عدم پرتاب يک سفينه به فضا

25 کاربردهاي داده کاوي حوزه اطلاعات جغرافيائی و اقليمی
کشف پديده های اقليمی جديد تکنيکهای بصری سازی و بازنمائی اطلاعات پردازش انواع اطلاعات (تصاوير، اطلاعات به دست آمده از سنجنده ها)

26 کاربردهاي داده کاوي بانکداري :
پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري تشخيص مشتريان ثابت تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي

27 کاربردهای داده کاوی: جمع بندی
حوزه های اصلی شامل کاربردهای علمی، تجاری و امنيتی می باشد. در تمام حوزه ها با حجم بسيار زياد اطلاعات و خصايص متعدد مواجهيم. در تمام حوزه ها با انواع اطلاعات مفيد روبرو هستيم. کاهش شديد هزينه ها، افزايش درآمدها و نجات زندگی انسانها از دستاوردهای داده کاوی در هريک از حوزه های کاربردی آن است. کاربردهای تجاری: تشخيص صحت ادعای خسارت در بيمه، تشخيص سوء استفاده از کارتهای اعتباری، تحليل اطلاعات مشتريان يک سازمان،... کاربردهای علمی: حوزه های پزشکی، جغرافيائی و اقليمی، فضا و سفرهای فضائی کاربردهای امنيتی: مبارزه با تروريسم، مقابله با نفوذگران به شبکه های کامپيوتری

28 مثال در مورد داده کاوی یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند . برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند.

29 مثال در مورد داده کاوی نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند. به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.

30 فواید و نقش داده کاوی در فعالیت شرکتها
داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد. امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می شود، از جمله فروشگاه ها، شرکت های مالی، ارتباطاتی، بازاریابی و غیره. استفاده از داده کاوی به این شرکتها کمک می کند تا ارتباط عوامل داخلی از جمله قیمت، محل قرارگیری محصولات، مهارت کارمندان را با عوامل خارجی از جمله وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند.

31 هدف داده کاوی: Valid معتبر باشد Useful مفید باشد Novel جدید باشد
داده کاوی یک فراینداست وهدفش این است که بتواند یکسری الگو هائی از اعداد بدست بیاورد که خاصیت های زیر را داشته باشند: Valid معتبر باشد Useful مفید باشد Novel جدید باشد Understandable قابل فهم باشد

32 فرآیند داده کاوی Deployment Evaluation Modelling Business
Understanding Data Understanding Data Preparation Deployment Modelling Evaluation

33 Business Understanding
مراحل داده کاوی مرحله اول: این مرحله مهمترین مرحله فرایند می باشد. در ابتدا بـاید صورت مسئله دانسته شود تا پروژه داده کاوی صورت پذیرد. همچنین باید تاثیرگذارهای بر روی پروژه مشخص شوند که چه کسانی می باشند. سپـس باید دانش داده کاوی بـاشد تا چگونگی عمل نیز مشخص شود. Business Understanding

34 مراحل داده کاوی Data Understanding مرحله دوم:
این مرحله مربوط به مفهوم داده ها می باشد. شامل مراحل زیر می باشد: جمع آوری داده های اولیه واصلی شرح وتوصیف داده ها کاوش داده ها تحقیق در مورد کیفیت داده ها Data Understanding

35 مراحل داده کاوی Data Preparation مرحله سوم:
این مرحله مربوط به آماده سازی داده ها می باشد و شامل مراحل زیر می باشد: انتخاب داده ها تمیز کردن داده ها تبدیل داده ها تلفیق داده ها بصورتی که کدگذاری و نام گذاری داده ها حالت استاندارد ویکسان داشته باشد. Data Preparation

36 مراحل داده کاوی Modelling مرحله چهارم :
این مـرحله مربوط به مـدلسازی پس از جمـع آوری داده ها و پیش بینی می باشد . Modelling

37 مراحل داده کاوی Evaluation مرحله پنجم :
در این مرحله مدل را ارزیابی می کنیم. ببینیم آیا به هدف رسیده ایم یا نه؟ درآن قسمتهایی که به هدف نرسیده ایم،بعضی جاها را تکرارکنیم یا بعضی وقتها ممکن است مجبور به تغییرهدف شویم ویا گاهی مجبور به تغییر اعـداد اولیه شویم. Evaluation

38 مراحل داده کاوی Deployment مرحله ششم :
این مرحله،مربوط به چگونگی استفاده ازمدل است. زمانی به این مرحله می رویم که به هدف رسیده باشیم. این مرحله به شرح ذیل است: Deployment گسترش برنامه نگهداری وقوت برنامه تولیدگزارش نهایی تجدیدنظر ونشریه کردن پروژه

39 عناصر داده کاوی توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است. برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:

40   1. انتخاب داده ها  با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود.

41 2. پاک سازی داده ها  این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید.

42 3. غنی سازی داده ها ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند.

43  4. کد گذاری داده ها یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختاربندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود .

44 فنون داده کاوی فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:  

45 1- ابزارهای پرس و جو ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.

46 2- فنون آماری مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید.

47 3- مصور سازی با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.

48 4 - پردازش تحلیلی پیوسته از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا-انتهای پیوسته برای انجام  پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.

49 5- یادگیری مبتنی بر مورد این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد  واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را  برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.

50 6- درختان تصمیم گیری این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند.

51 7- قوانین وابستگی اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.

52 8- شبکه های عصبی این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.

53 9- الگوریتم ژنتیکی این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود  طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.

54 گام نهائی گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.

55 خلاصه ابزارهای داده کاوی میتواند الگوها و روابطی را که خیلی عیان نیستند آشکار کند. این نتایج ممکن است به طراحی دوباره فرایندها و رویه های مرتبط منجر شود ارزیابی و تعدیل نتایج بدست آمده بوسیله چنین ابزارهای خودکاری؛ به آزمایش نیاز دارد تا در برابر کاربردهای غلط محافظت شود. داده کاوی همچنین میتواند بعنوان بخشی از فرایند بزرگتر کشف دانش در بانکهای اطلاعاتی در محیط های مختلف در نظر گرفته شود. البته نباید چنین پنداشت که ابزارهایی مثل داده کاوی نیاز به مداخله انسانی را کاهش خواهد داد.

56 کاربرد داده کاوی با چند عامل محدود شده است.
محدودیت ها کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. محدودیت دیگراز ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد.

57 خسته نباشید


Download ppt "سید احمد طباطبائی 86233501 علی مستوفی نژاد 86233502 دیماه 88."

Similar presentations


Ads by Google