Presentation is loading. Please wait.

Presentation is loading. Please wait.

داده کاوی سئوالات نمونه

Similar presentations


Presentation on theme: "داده کاوی سئوالات نمونه"— Presentation transcript:

1 داده کاوی سئوالات نمونه
داده کاوی سئوالات نمونه دکتر محمدحسین ندیمی دانشکده مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد مجف آباد

2 دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. تلاش دانشجویان درس داده کاوی ترم مهر ماه سال 1392 دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد و اینجانب بر این بوده که اشکالات این نمونه سئوالات در حداقل ممکن باشد ولی مطمئنآ بی اشکال نمی باشد و از شما خواننده محترم خواهشمندیم که در صورت مطمئن شدن وجود هر گونه اشکال در سئوالات، به جهت اصلاح آن، به ما یاری داده و شرح اشکال مذکوررا با ذکر شماره اسلاید آن به آدرس ارسال نمایید. امکان استفاده از این اسلایدها به صورت فعلی و بدون هیچگونه تغییری در آنها برای عموم آزاد است. با سپاس دکتر محمد حسین ندیمی دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد 7 دی ماه سال 1392

3 فصل دوم پیش پـــردازش داده ها Data preprocessing
Data Mining Sample Questions

4 سوال1 : مراحل فرایند تبدیل داده ها را نام برده و توضیح دهید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال1 : مراحل فرایند تبدیل داده ها را نام برده و توضیح دهید. جواب : هموار سازی (Smoothing) : که برای حذف Noise از داده بکار می رود و شامل تکنیک های Regression ,Clustering و bining است. تجمیع (Aggregation): د راین روش عملیات خلاصه صه سازی یا تجمیع داده ها اعمال می شود(جهت ساخت مکعب داده برای تجزیه و تحلیل) تعمیم داده ها (Generalization): داده ها با سطح پایین به داده ها با سطح بالاتر تبدیل می شوند. نرمال سازی (Normalization): درجه بندی داده ها در یک محدوده خاص مثل -1 تا 1. ساخت صفت (جدید) : صفات جدید ایجاد و به مجموعه اضافه می شوند.

5 چارک اول آن 20 و چارک سوم آن 35 است.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 2 : داده های زیر که شامل صفت سن می باشند مفروض است (صعودی) 4- چارک های اول( 𝑄 1 ) و سوم ( 𝑄 3 ) را محاسبه کنید(تقریبی) . 6- تفاوت بین نمودار quantilt-quantile با نمودار quantile چیست؟ 3- مرکزیت دامنه (midrange) دادها را مشخص کنید. 1- میانگین داده ها را حساب کنید؟ میانه کدام است؟ 5- خلاصه سازی 5 عددی را ارائه دهید. 2- مد را مشخص کنید.نوع آن چیست؟ 𝑚𝑒𝑎𝑛: 𝑥 = 1 𝑁 𝑖=1 𝑁 𝑥 𝑖 = =30 𝑚𝑒𝑑𝑖𝑎𝑛:25 Quantile نموداری است برای بررسی و ترسیم توزیع های تک متغیری اما quantile-quantile نموداری است که دارای دو متغییر است و برای بررسی تغییر در حرکت از یک توزیع به توزیع دیگر مورد استفاده قرار می گیرد. خلاصه سازی پنج عددی شامل مقادیر : مینیمم مجموعه ، چارک اول ، میانه ، چارک سوم ، ماکزیمم می باشد که برای این مثال به ترتیب عبارتند از : چارک اول آن 20 و چارک سوم آن 35 است. این مجموعه از داده ها دارای دو عدد است که بیشترین تعداد را دارند بنابراین دارای bimodalمی باشد: 25 و 35 مرکزیت دامنه (midrange) : متوسط بزرگترین و کوچکترین مقدار در مجموعه است. 𝑚𝑖𝑑𝑟𝑎𝑛𝑔𝑒= =41.5

6 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 3 : مجموعه داده های زیر ارائه شده است ، با استفاده از تکنیک bining آ ن ها را در سه طبقه قرار داده و بر اساس مقدار میانگین و مرزهای پایین و بالایی در هر طبقه ، آ ن ها را همو ار سازی کنید. 3 – 7 – – 23 – 25 – 31 – 42 – 47 Bin1 : 3 – 7 – 14 Bin2 : 18 – 23 – 25 Bin3 : 31 – 42 – 47 Bin1 : 8 – 8 – 𝑥 =8 Bin2 : 22 – 22 – 𝑥 =22 Bin3 : 40 – 40 – 𝑥 =40 Bin1 : 3 – 3 – 14 Bin2 : 18 – 25 – 25 Bin3 : 31 – 47 – 47

7 2- استفاده از محتمل ترین ارزش برای آن
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 4 : شما به عنوان یک تحلیل گر داده ها در یک شرکت مشغول به کار می باشید، مجموعه داده ای شامل 100 هزار رکورد جهت تحلیل و داده کاوی در اختیار شما قرار می گیرد ، با بررسی داده ها متوجه می شوید که داده ها دارای Missing Value در یک Attribute می باشند.(ضمنا خود این Attribute نیز دارای 10 کلاس می باشد) رویکرد شما در مواجه با حل این مساله چیست ؟ 1- نادیده گرفتن تاپل ها 2- استفاده از محتمل ترین ارزش برای آن 3 – استفاده از میانگین صفات برای تمام نمونه های متعلق به کلاس 4 – استفاده از یک ثابت سراسری

8 𝑣 = 𝑣−𝑚𝑖𝑛𝐴 𝑚𝑎𝑥𝐴−𝑚𝑖𝑛𝐴 𝑛𝑒𝑤 𝑚𝑎𝑥𝐴−𝑛𝑒𝑤 𝑚𝑖𝑛𝐴 +𝑛𝑒𝑤 min 𝐴
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال5 : مجموعه داده های یک بعدی x={5.0,23.0,17.6,7.32,1.11} مفروض است، با استفاده از نرمال سازی Min-Max بر فاصله [-1,1] آن را نرمال سازی کنید. 𝑣 = 𝑣−𝑚𝑖𝑛𝐴 𝑚𝑎𝑥𝐴−𝑚𝑖𝑛𝐴 𝑛𝑒𝑤 𝑚𝑎𝑥𝐴−𝑛𝑒𝑤 𝑚𝑖𝑛𝐴 +𝑛𝑒𝑤 min 𝐴 𝑣 5 = 5− −(−1) + −1 =−0.64 𝑣 23 =1 𝑣 =0.5 𝑣 =0.43 𝑣 =−1

9 2- استفاده از محتمل ترین ارزش برای آن
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6 : شما به عنوان یک تحلیل گر داده ها در یک شرکت مشغول به کار می باشید، مجموعه داده ای شامل 100 هزار رکورد جهت تحلیل و داده کاوی در اختیار شما قرار می گیرد ، با بررسی داده ها متوجه می شوید که داده ها دارای Missing Value در یک Attribute می باشند.(ضمنا خود این Attribute نیز دارای 2 کلاس می باشد) رویکرد شما در مواجه با حل این مساله چیست ؟ 1- نادیده گرفتن تاپل ها 2- استفاده از محتمل ترین ارزش برای آن 3 – استفاده از میانگین صفات برای تمام نمونه های متعلق به کلاس 4 – استفاده از یک ثابت سراسری

10 فصل سوم olap ، انباره ها و مکعب های داده Data warehouse

11 تعریف جامع انبار داده: سوال 1) انباره داده را تعریف نمائید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 1) انباره داده را تعریف نمائید؟ تعریف جامع انبار داده: یک انباره داده جمع آوری موضوع گرا ، یکپارچه ، متغیر بر اساس زمان و پایدار از داده ها است که امکان حمایت از فرآیند تصمیم گیری مدیران را فراهم می کند.

12 ابعاد یا Dimensions سوال2) اجزای مکعب داده را تشریح نمائید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال2) اجزای مکعب داده را تشریح نمائید؟ ابعاد یا Dimensions دیدگاها یا موجودیت هایی هستند که با توجه با خواسته های یک سازمان به عنوان رکورد نگهداری می شوند . هر بعد ممکن است یک جدول مربوط به خود به نام جدول بعد (dimension table) داشته باشد که این بعد را بیشتر توصیف می کند. حقایق یا Facts حقایق معیارهای عددی هستند که به منظور تحلیل روابط بین ابعاد بکار گرفته می شوند. و با یک جدول حقیقت (Fact table) نشان داده می شوند.

13 نمونه اي از مكعب داده مجموع سراسري زمان محصول كشور مجموع سالانه فروش
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. نمونه اي از مكعب داده مجموع سالانه فروش تلويزيون در آمريكا زمان بهار تابستان پائيز زمستان مجموع تلويزيون محصول آمريكا كامپيوتر ويدئو مجموع كانادا كشور مكزيك مجموع مجموع سراسري

14 شمای دانه برفی یا Snowflake شمای صورت فلکی واقعی یا Fact Constellation
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال3) شماهای پایگاه داده چند بعدی را نام ببرید و با در نظر گرفتن محیط عملیاتی یک فروشگاه قسمت فروش را با استفاده از شماهای موجود پیاده سازی نمائید؟ شمای ستاره ای یا Star شمای دانه برفی یا Snowflake شمای صورت فلکی واقعی یا Fact Constellation

15 از مجموعه ای از شماهای Star تشکیل شده است.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. :Star schema Fact table: یک جدول مرکزی بزرگ که شامل مجموعه ای بدون افزونگی از دادهاست Dimension table:یک مجموعه جداول کوچکتر به ازای هر بعد. :Snowflake schema نوعی از مدل شمای Star است به طوریکه جداول بعد نرمال شده هستند. تفاوت اصلی بین مدل های شمای Star و Snowfalke این است که جداول بعد مدل Snow flake برای حذف افزونگی ها به شکل نرمال شده نگهداری می شوند. این روش باعث کاهش افزونگی و همین طور کارآیی می شود. :Fact Constellation schema از مجموعه ای از شماهای Star تشکیل شده است. برنامه های کاربردی پیچیده تر به چندین جدول حقیقت برای به اشتراک گذاری جداول بعد نیاز دارند: یک شمای Fact Constellation امکان استفاده اشتراکی جداول حقیقت از جداول بعد را میسر می سازد.

16 مدل Star Schema item branch time time_key item_key branch_key location
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل Star Schema time_key day day_of_the_week month quarter year time item_key item_name brand type supplier_type item time_key item_key branch_key branch_key branch_name branch_type branch location_key street city state_or_province country location location_key units_sold dollars_sold avg_sales Measures

17 مدل snowflake schema item supplier branch time Sales Fact Table
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل snowflake schema item_key item_name brand type supplier_key item time_key day day_of_the_week month quarter year time Supplier_key supplier_type supplier Sales Fact Table time_key item_key branch_key location_key City _key city Province country branch_key branch_name branch_type branch units_sold dollars_sold avg_sales location_key street City _key location Measures

18 مدل Fact Constellation Schema
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مدل Fact Constellation Schema time_key day day_of_the_week month quarter year time item_key item_name brand type supplier_type item time_key item_key time_key shipper_key item_key from_location branch_key branch_key branch_name branch_type branch location_key to_location location_key street city province_or_state country location dollars_cost units_sold units_shipped dollars_sold avg_sales shipper_key shipper_name location_key shipper_type shipper Measures

19 سوال4) سلسله مراتب مفهومی را توضیح دهید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال4) سلسله مراتب مفهومی را توضیح دهید. سلسله مراتب مفهومی دنباله ای از نگاشت‌ها را از مجموعه ای از مفاهیم سطح پایین به سطح بالاتر ، که مفاهیم کلی‌تر است تعریف می‌کند. مثل: خیابان<شهر<استان یا ایالت<کشور

20 Roll Up : تجمیع یا کاهش بعد Drill Down : افزایش بعد
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 5 ) عملگرهای OLAP در مدل داده های چند بعدی را نام ببریدویکی از آنها را با رسم شکل تو ضیح دهید. Roll Up : تجمیع یا کاهش بعد Drill Down : افزایش بعد Slice and Dice: selection روی بعد Pivot: عملگر تجسم سازی

21 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

22 سوال 6 ) تفاوت پایگاه داده آماری (SDB) با OLAP را بیان کنید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6 ) تفاوت پایگاه داده آماری (SDB) با OLAP را بیان کنید. 1- سیستم های SDB بر کاربردهای اجتماعی و اقتصادی متمرکز هستند درحالیکه سیستم های OLAPبیشتر برای کاربردهای تجاری هدف گیری میشوند. 2- مسائل مربوط به محرماگی در سلسله مراتب مفهومی یک موضوع مهم در سیستم پایگاه داده ی آماری است. 3- بر خلاف سیستم های پایگاه داده آماری، سیستم OLAP برای مدیریت کارآمد داده های حجیم طراحی می شود.

23 دیدگاه بالا به پایین (Top-down view)
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 7 ) چهار دیدگاه متفاوتی که در طراحی یک انبار داده وجود دارد را بیان نمایید. دیدگاه بالا به پایین (Top-down view) دیدگاه داده‌ای منبع(Data source view) دیدگاه انبار داده(Data warehouse view) دیدگاه پرس و جوی تجاری(Business query view)

24 سوال 8 ) مراحل فرایند طراحی انباره‌های داده را بنویسید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 8 ) مراحل فرایند طراحی انباره‌های داده را بنویسید. 1- انتخاب یک فرایند تجاری برای مدلسازی 2- انتخاب دانه بندی فرایند تجاری 3- انتخاب ابعادی که روی هر رکورد از جدول حقیقت اعمال خواهد شد. 4- انتخاب معیارهایی که هر رکورد در جدول حقیقت قرار می گیرد.

25 سوال 9 ) لایه‌های انبار داده در معماری سه لایه را بیان کنید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 9 ) لایه‌های انبار داده در معماری سه لایه را بیان کنید. 1- پایین‌ترین لایه در معماری انباره‌های داده، سرویس دهنده انبار داده است که تقریبا همیشه یک سیستم پایگاه داده رابطه ای است. 2- لایه میانی که یک سرویس دهنده OLAP است و به 2 مدل تقسیم می‌شود. 1. مدل OLAP رابطه‌ای(ROLAP) 2. مدل OLAP چند بعدی(MOLAP) 3- بالاترین لایه که با کاربر در ارتباط است.

26 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

27 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید. 1- انبار داده تجاری(Enterprise warehouse): يك انبار اينتر پرايز همه اطلاعات در مورد همه موضوعات پوشش دهنده سازمان را جمع آوري مي‌كند. و همچنين داده‌اي يكپارچه در سطح شرکت‌ها فراهم می‌آورد كه معمولاً از يك يا چند سيستم عملياتي يا فراهم کننده‌ی داده‌ی خارجي به دست مي‌آيند و نيز داراي عملكرد متقابل در دامنه مي‌باشد. اين نوع انبار داده معمولاً حاوي داده‌هاي با جزئيات و داده‌هاي خلاصه مي‌باشد و حجم آن نيز مي‌تواند از چند گيگابايت تا چند صد گيگابايت، ترابايت يا فراتر نيز باشد.

28 2- انبار داده اختصاصی(Data Mart):
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید. 2- انبار داده اختصاصی(Data Mart): ديتامارت حاوي بخشي از داده‌هاي در سطح شرکت‌ها مي‌باشد كه فقط براي گروه خاصي از كاربران اهميت دارند. دامنه محدود به موضوعات انتخاب شده و خاص مي‌باشد. ديتامارت ها معمولاً بر روي سرورهاي ارزان قيمت ويندوزي يا لينوكسي / يونيكسي پياده سازي مي‌شوند. چرخه پياده سازي ديتامارت به طور معمول بر حسب هفته اندازه گيري مي‌شود تا ماه يا سال اما پياده سازي ديتامارت مي‌تواند شامل يكپارچه سازي پيچيده و با مدت زمان طولاني همراه باشد

29 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) از نقطه نظر معماری چند مدل انبار داده وجود دارد، آن‌ها را بیان کنید. 3- انبار داده مجازی(Virtual Warehouse): يك انبار مجازي مجموعه‌اي از view ها كه بر روي پايگاه داده‌هاي عملياتي ساخته مي‌شوند مي‌باشد. براي پردازش كارایي پرس و جوها (queries) فقط برخي view هاي خلاصه واقعاً ساخته مي‌شوند. يك انبار مجازي به راحتي ساخته مي‌شود. اما فضاي زيادي را بر روي ديتابيس عملياتي اشغال مي‌كند.

30 سوال 11 ) انواع سرویس دهنده های OLAP را بیان کنید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 11 ) انواع سرویس دهنده های OLAP را بیان کنید. 1- سرویس دهنده‌های OLAP رابطه‌ای(ROLAP) 2- سرور های OLAP چند بعدی(MOLAP) 3- سرویس دهنده‌های OLAP ترکیبی(HOLAP)

31 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12 ) ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می شود؟ 1- ابزارهای دستیابی و بازیاب(access and retrieval tools) 2- ابزارهای گزارش گیری از پایگاه داده‌ها(database reporting tools) 3- ابزارهای آنالیز داده(data analysis tools) 4- ابزارهای استخراج داده(data mining tools)

32 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12 ) ابزارهای انبار کردن داده را نام ببریدوتوضیح دهید در یک سیستم تصمیم گیری بورس از چه ابزاری و به چه دلیل استفاده می شود؟ در یک سیستم تصمیم گیری بورس از ابزار داده کاوی استفاده می شود زیرا داده کاوی کشف دانش را از طریق یافتن الگوهای پنهان و انجمن، ساخت مدل های تحلیلی، انجام طبقه بندی و پیش بینی، و ارائه نتایج کاوش با استفاده از ابزارهای تجسم،پشتیبانی می کند.

33 سوال 13 ) تفاوت بین انبار داده و دیتا مارت را بیان کنید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 13 ) تفاوت بین انبار داده و دیتا مارت را بیان کنید. یک انبار داده، اطلاعات مربوط به موضوعاتی که کل سازمان را پوشش می‌دهند را جمع آوری می‌کند اما یک دیتا مارت،یک بخش زیر مجموعه ای انبار داده است. دیتا مارت روی اشیا ء انتخاب شده تمرکز می‌کند و در نتیجه محدوده‌ی آن، محدوده شعبه است.

34 فصل چهارم استخراج الگوهای پرتکرار، قوانین انجمنی و همبستگی ها Frequent Pattern Mining & Association Rule Mining Data Mining Sample Questions

35 الف-پروسه استخراج قوانین انجمنی شامل چند مرحله میشود نام ببرید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 1 ) الف-پروسه استخراج قوانین انجمنی شامل چند مرحله میشود نام ببرید؟ شامل دو مرحله پیدا کردن تمام اقلام پرتکرار تولید قوانین انجمنی از اقلام پر تکرار ب- خاصیت مهم الگوریتم Apriori چیست ؟ همه ی زیر مجموعه های غیر تهی از اقلام تکراری باید تکراری باشند یا به عبارتی حتی اگر یک زیر مجموعه غیر تهی ازمجموعه ای ,غیر تکراری باشد به طور حتم آن مجموعه تکراری نیست . ج- دومشکل عمده الگوریتم Apriori را نام ببرید. نیاز به تولید حجم زیادی از مجموعه های کاندید دارد. نیاز دارد که به طور تکراری پایگاه داده را اسکن کند و مجموعه بزرگی از کاندیدها را با الگوی تطبیقی بررسی کند.

36 مجموعه های کاندید و مجموعه های L را پیدا کنید
سوال 2) فرض کنید جدول زیر نشان دهنده مجموعه تراکنش های پایگاه داده باشد و min-sup=2 وmin-confidence=50% . TID ITEMS 100 200 300 400 500 A C E B C D E B C D B D C E مطلوب است: مجموعه های کاندید و مجموعه های L را پیدا کنید یکی از قوانین انجمن استنباط شده از این پایگاه را بنویسید و درمورد پذیرش یا عدم پذیرش این قانون بحث کنید....

37 TID ITEMS 100 200 300 400 A B D C1 L1 {B} {C} {D{ {E} 3 4 {B C D}
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. TID ITEMS 100 200 300 400 500 A B C D E C1 L1 ITEMSET Sup.count {A} {B} {C} {D} {E} 1 3 4 Compare candidate support count with min support count ITEMSET Sup.count {B} {C} {D{ {E} 3 4 Scan D for count of cach candidate {B C D} {C D E} {B C} {B D} {C D} {C D} {C E} {D E} × Min_sup=2 C2 C2 L2 ITEMSET {B C} {B D} {B E} {C D} {C E} {D E} ITEMSET Sup.count {B C} {B D} {B E} {C D} {C E} {D E} 2 3 1 Compare candidate support count with min support count ITEMSET Sup.count {B C} {B D} {C D} {C E} 2 3 Generate C2 candidates from L1 Scan D for count of cach candidate Compare candidate support count with min support count Generate C3 candidates from L2 C3 Scan D for count of cach candidate C3 L3 ITEMSET {B C D} ITEMSET Sup.count {B C D} 2 ITEMSET Sup.count {B C D} 2

38 confidence=support(B C D) / support (B C) =2/2=100 %
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. تولید قوانین انجمنی از اقلام پر تکرار: فرض می کنیم L= {B C D} که زیر مجموعه های غیر تهی آن به شکل زیر می باشد {B} , {C} , {D} , {B C} , {B D} , {C D} , {B C D} به طور مثال یکی از قوانین به صورت زیر است که باید با توجه به شرط min-confidence=50% بررسی کنیم که آیا این قانون پذیرفته است یا خیر: L= {B C D} S={B C} s  L-s Conf(A B)=sup (A  B)/sup (A) B^C  D confidence=support(B C D) / support (B C) =2/2=100 % پس این قانون پذیرفته است.

39 نیاز به تولید حجم زیادی از مجموعه های کاندید دارد.
3) دومشکل عمده الگوریتم Apriori را نام ببرید. سپس چهار تکنیک برای بهبود کارایی الگوریتم Apriori را نام برده و ذکر کنید هر کدام از این تکنیک ها چگونه باعث بهبود کارایی الگوریتم Apriori میشوند. پاسخ: نیاز به تولید حجم زیادی از مجموعه های کاندید دارد. نیاز دارد که به طور تکراری پایگاه داده را اسکن کند و مجموعه بزرگی از کاندیدها را با الگوی تطبیقی بررسی کند. تکنیک های بهبود کارایی الگوریتم Apriori : تکنیک مبتنی بر hash با کاهش مجموعه کاندید پارتیشن بندی با کاهش تعداد اسکن بر روی پایگاه داده نمونه گیری محاسبه اقلام پویا

40 4) برای مجموعه تراکنش های پایگاه داده زیر با استفاده از تکنیک hashو تابع hash داده شده با در نظر گرفتن اینکه min-sup=2 است مجموعه کاندید 2-itemset ای را پیدا کنید. h(x, y) = ((order of x) 10+(order of y)) mod 7 TID ITEMS T1 1 4 5 T2 2 4 5 T3 1 2 T4 1 2 3 T5 2 3

41 پاسخ: ابتدا جدولی رسم می کنیم با 7 آدرس باکت (چون تابع hash مد 7 است)بعد از آن تابع hash را برای تک تک 2-itemset ای ها محاسبه کرده و با توجه به عدد بدست آمده آنرا در یکی از آدرس های باکت قرار میدهیم و هر بار که یک 2-itemset ای به ادرس باکتی اضافه میشود شمارنده مربوط به آن ادرس را یکی اضافه می کنیم. به عنوان مثال تابع hash را برای (1 4 ) محاسبه می کنیم که حاصلش 0 میشود بنابراین (1 4 ) در آدرس باکت 0 قرار می گیرد . h(x, y) = ((order of x) 10+(order of y)) mod 7 =(1*10 + 4) mod 7 =0 ادرس باکت 1 2 3 4 5 6 تعداد باکت محتویات باکت 1 1 2 3 1 1 1 (1 4 ) (1 5 ) (2 3 ) (4 5 ) (2 5 ) (1 2 ) (1 3 ) (4 5 ) (2 3 ) (1 2 ) (2 4 ) حال با توجه به min-support که 2 است اقلام در باکت های 0 و1و4و6 پرتکرار نمی باشند بنابراین آنهادر C2 نمی باشند.

42 5) تکنیک پارتیشن بندی به منظور بهبود کارایی الگوریتم Apriori را مختصرا توضیح دهید و شرح دهید کدام مشکل الگوریتم Apriori را حل می کند؟ پاسخ: مشکل نیاز به اسکن مکرر پایگاه داده در الگوریتم Apriori را حل میکند . در تکنیک پارتیشن بندی پایگاه داده تنها دو بار اسکن میشود. پارتیشن بندی شامل دو مرحله است: مرحله اول: الگوریتم, تراکنش ها را در D به n تا پارتیشن جدا از هم تقسیم می کند.اگر حداقل آستانه support برای تراکنش ها در D برابر min-sup باشد.آنگاه حداقل تعداد support برای یک پارتیشن برابر با (تعداد تراکنش ها در آن پارتیشن ضرب در مقدارmin-sup) خواهد بود. مرحله دوم: اسکن دوم D اجرا میشود و support واقعی از هر کاندید برای تعیین اقلام تکراری سراسری ارزیابی می شود.اندازه پارتیشن و تعداد پارتیشن ها تنظیم می شوند به طوریکه هر پارتیشن در حافظه اصلی جای می گیرد بنابراین تنها یکبار در هر مرحله خوانده می شود.

43 1 اسکن 1 اسکن پارتیشن بندی مرحله اول مرحله دوم
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. مرحله اول مرحله دوم ترکیب همه اقلام تکراری محلی به فرم اقلام کاندید تقسیم پارتیشن D به n پارتیشن پیدا کردن اقلام تکراری محلی در هر پارتیشن 1 اسکن پیدا کردن اقلام تکراری در بین کاندیدها 1 اسکن تراکنش ها در D اقلام تکراری در D پارتیشن بندی

44 سوال 6 ) بروي پايگاه داده زير با min Sup=2 قسمتهاي زير را انجام دهيد:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6 ) بروي پايگاه داده زير با min Sup=2 قسمتهاي زير را انجام دهيد: الف)Frequent 1-Itemset (آيتمهاي پرتكرار به طول 1) را بدست آوريد ب)FP tree اين پايگاه را رسم كنيد ج)الگوهاي پايه مشروط (conditional pattern-base)مربوط به آخرين آيتم پرتكرار موجود در Header Table(كه در قسمت قبل كشيده ايم )را بدست آوريد د)الگوهاي پرتكراري(FP) كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست آوريد(روند بازگشتي الگوريتم FP growth را دقيق نشان دهيد) Items Bought TID a ,b ,e T1 b,d T2 b,c T3 a ,b, d T4 a,c T5 T6 a,c,d T7 a,b,c,e T8 a,b,c T9

45 الف)Frequent 1-Itemset (آيتمهاي پرتكرار به طول 1) را بدست آوريد:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. الف)Frequent 1-Itemset (آيتمهاي پرتكرار به طول 1) را بدست آوريد: ابتدا براي اولين بار پايگاه داده اسكن كرده و تعداد تكرار هر آيتم را بدست مي آوريم (1-Itemset) حالا آيتم هاي به طول 1 پرتكرار(Frequent 1-Itemset ) را بدست مي آوريم يعني آيتم هايي كه مقدار Cont supشان كمتر از min-sup است حذف ميشوند ولي هيچكدام از آيتمهاي بالا حذف نميشوند چون Con Sup همه آيتم ها مساوي ويا بشتر 2 است. Items Count Sup a 6 b 7 c d 3 e 2

46 L={(b:7) (a:6) (c:6) (d:3) (e:2)}
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. اين پايگاه را رسم كنيد:FP treeب ) ابتدا آيتمهاي پرتكرار به طول 1 را بدست مي آوريم(كه در قسمت الف بدست آورديم) و سپس آيتم هاي پرتكرار را بر اساس مقدار Cont Sup به صورت نزولي در ليست L مرتب ميكنيم. L={(b:7) (a:6) (c:6) (d:3) (e:2)} سپس با اسكن پايگاه داده براي بار دوم درخت را تشكيل ميدهيم: Null b :5 b :4 b :3 b :1 b :6 b :2 b :7 a:2 a:1 Head Of Node-Link Sup Count Item ID 7 b 6 a c 3 d 2 e c:1 c:2 a:3 a:4 a:1 a:2 d:1 C:2 C:1 d:1 e:1 d:1 C:1 C:2 Header Table e:1

47 Item e’s prefix paths : {<ba:1> , <bac:1>}
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ج)الگوهاي پايه مشروط (conditional pattern-base)مربوط به آخرين آيتم پرتكرار موجود در Header Table(كه در قسمت قبل كشيده ايم )را بدست آوريد: آخرين آيتم در جدول Header آيتم پرتكرار e است. 2تا مسير به آيتم e ختم شده است. بنابراين 2تا الگوي پايه مشروط براي آيتم e داريم: Item e’s prefix paths : {<ba:1> , <bac:1>} Null b :7 a:2 Head Of Node-Link Sup Count Item ID 7 b 6 a c 3 d 2 e c:2 a:4 d:1 C:2 d:1 e:1 d:1 C:2 Header Table e:1

48 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. د)الگوهاي پرتكراري(FP) كه به آخرين آيتم پرتكرار موجود ختم ميشود را بدست آوريد(روند بازگشتي الگوريتم FP growth را دقيق نشان دهيد) FP-Tree آخرين آيتم پرتكرار در جدول Header همانطور كه ديديم e بود. Frequent pattern e b=2 a=2 c=1 null Conditional pattern Base ba:1 bac:1 b:2 Conditional FP-tree e a:2 e <b:2,a:2> mined recursively mine(<b:2,a:2>|e>) null ae:2 be:2 b:2 Frequent Patterns ae b:2 null <b:2> Frequent Patterns Conditional pattern Base Conditional FP-tree mined recursively bae:2 null

49 ba:2 b:2 a:2 ba:1 b:1 ac:1 b:4 FP-Tree Frequent pattern
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. FP-Tree Frequent pattern c d a Conditional pattern Base Conditional pattern Base Conditional pattern Base ba:2 b:2 a:2 ba:1 b:1 ac:1 b:4 Conditional FP-tree Conditional FP-tree Conditional FP-tree <b:4,a:2>,<a:2> <b:2,a:1>,<a:1> <b:4> mined recursively mined recursively mine(<b:2,a:1>,<a:1>|d>) ba:4 mine(<b:4,a:2>,<a:2>|c>) null ac:4 bc:4 ad:2 bd:2 b:2 null b:1 null b:2 b:1 Frequent Patterns Conditional pattern Base Conditional FP-tree mined recursively bac:2 bad:1 null null

50 Frequent Pattern Generate Conditional pattern Base
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Frequent Pattern Generate الگوهاي تكرار شونده توليد شده Conditional FP-tree Conditional pattern Base الگوهاي پايه مشروط Item آيتم Empty b {(ba:4)} {(b:4)} a {(ac:4),(bac:2),(bc:4)} {(ba:2),(b:2),(a:2)} c {(ad:2),(bad:1),(bd:2)} {(ba:1),(b:1),(ac:1)} d {(ae:2),(be:2),(bae:2)} {(ba:1),(bac:1)} e null b:4 a null b=4 a=4 a:2 b:4 c c a:2 c null b=2 a=2 c=1 a:1 b:2 d d a:1 d null b=2 a=2 c=1 b:2 e a:2 e دايره هاي بنفش رنگ ،آيتم پرتكرار در هر گروه(يكي از پايگاه داده هاي شرطي)فرض شده اند كه به آيتم هايمان متصل اند

51 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 7 ) الگوريتم FP growth چه هزينه هايي از الگوريتم Apriori را رفع كرده، نام برده و چگونگي رفع آن توسط الگوريتم FP growth را به مختصر توضيح دهيد. هزينه اول:نياز به توليد حجم زيادي از مجموعه هاي كانديد دارد الگوريتم FP growth با قرار دادن فاز اول(تشكيل درختFP )،فقط آيتمهاي پرتكرار به طول1 را توليد ميكند. هزينه دوم: نياز دارد به طور تكراري پايگاه داده را اسكن كند كه الگوريتم FP growth با كاهش دادن اسكن مداوم پايگاه داده به 2بار اسكن اين هزينه را نيز كاهش داده است سوال 8 ) الگوريتم fp-growth براي پيدا كردن اقلام(الگوها)پرتكرار چندبار پايگاه داده را و هر بار براي چه كاري اسكن ميكند. 2بار پايگاه داده را اسكن ميكند،بار اول براي بدست آوردن آيتم هاي پرتكرار به طول 1 و بار دوم براي تشكيل درخت Frequent Pattern (FP tree)

52 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 9 ) الگوريتم FP growth از چه استراتژي استفاده كرده و فازهاي اين الگوريتم و گامهاي هر فاز را نام برده و به مختصر توضيح دهيد. از استراتژي تقسيم و غلبه استفاده ميكند، 2فاز داريم : فاز اول (Data Capturing by FP-tree) : آيتم هاي تكراري داخل پايگاه داده را در يك درخت frequent-pattern يا fp-tree فشرده ميكند تا اطلاعات وابستگي اقلام را بدست آورد. گام اول:اولين اسكن پايگاه داده به منظور بدست آوردن آيتمهاي پرتكرار به طول1 گام دوم: آيتمهاي پرتكرار به طول 1 در ليست L به صورت نزولي مرتب ميكنيم گام سوم:دومين اسكن پايگاه داده براي تشكيل FP-Tree فاز دوم (Tree Exploration / Tree Traverse): پيمايش درخت براي استخراج الگوهاي پرتكرار توليد شده. گام اول:پايگاه داده ي فشرده شده را به يك مجموعه از پايگاه داده هاي شرطي تقسيم ميكند گام دوم:الگوهاي پايه مشروط هر يك از آيتمهاي پرتكرار را بدست آورده گام سوم:درخت FPمشروط مربوط به الگوهاي پايه گام قبل را رسم كرده گام چهارم:اگر درخت مشروط بيش از يك آيتم دارد تابع بازگشتي Mine را صدا زده كه گام دوم و سوم به صورت بازگشتي اجرا ميشوند تا تمام الگوهاي پرتكرار بدست آيند

53 سوال 11 ) كدام گزينه درست است:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) برای آسان کردن پیمایش درخت FP در الگوريتم FP growth چه تعبيري پنداشته شده است؟ در جدول Header آيتم ها، هر اشاره گر به آيتمي،با يك head of node-link انجام ميشود. سوال 11 ) كدام گزينه درست است: الف)FP tree تسريع کننده در Mining است ولي ضامن كارايي بالا نيست ب) FP tree ضامن كارايي بالا است ولي تسريع کننده در Mining نيست ج) FP tree نه تسريع کننده در Mining است و نه ضامن كارايي بالا د) FP tree هم تسريع کننده در Mining است و هم ضامن كارايي بالا

54 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12) درجه سختي الگوريتم FP growth در هر فاز چقدر است؟ درجه سختي فاز اول كه ساخت درخت FP(data capturing) : چون دوبار اسكن داريم 2n ميباشد ولي از ضريب 2 آن صرف نظر ميشود پس درجه سختي O(n) درجه سختي فاز دوم كه استخراج الگوهاي پرتكرار(data capturing): ذاتاًدر بدترين شرايط 2ⁿ است ولي الگوريتم FP growth در آزمايشها نشان داده فوق العاده كمتر از 2ⁿ است ولي نميتوان گفت دقيقا چقدر(غير قابل محاسبه) ولي درجه سختي مسئله همان O(2ⁿ)است چون از ذات مسئله نشأت ميگيرد سوال 13) مشكلات الگوريتم FP growth نام برده و به اختصار توضيح دهيد؟ الگوريتم FP growth در كارايي (efficiency/performance) خوب عمل ميكند مشكل در Functionality الگوريتم است،كه به دو دسته زير تقسيم ميشود: افزايشي(Incermental):ضعف عمده الگوريتم FP growth ميباشد مثلا بعد از اينكه پايگاه داده ما 2بار اسكن شد و درخت FP كامل تشكيل شد بخواهيم يك پايگاه داده جديدي با يكسري تراكنشها به پايگاه داده قبلي اضافه كنيم(حتي اضافه كردن يك تراكنش) بايد درخت FP از ابتدا ساخته شود،يعني دوباره پايگاه داده را 2بار اسكن كنيم و هر بار اسكن اضافه هزينه زيادي بدنبال دارد تعاملي(Interactive): اشكال ديگري از الگوريتم FP growth است كه زماني خود را نشان ميدهد كه با تعداد زيادي كاربر روبرو باشيم،مثلا زماني كه به عنوان يك كاربر ميخواهيم پارامترها را عوض كنيم كه در اين الگوريتم كاربر،داده را كه نميتواند عوض كند تنها Min-sup است كه اگر كاربر آن را عوض كند درخت FP باز از اول بايد ساخته شود و اين مستلزم 2اسكن ديگر از پايگاه داده است، حالا تصور شود ميليون ها كاربر هردفعه اين مقدار Min-sup را چندبار تغيير دهند،چه فاجعه اي در سرعت به بار مي آيد...

55 پایگاه داده کتابفروشی ما بصورت مقابل است و
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 14 پایگاه داده کتابفروشی ما بصورت مقابل است و Min-support، 50% است. آیتم های پرتکرار را توسط الگوریتم eclat بیابید.

56 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. A: 1 3 4 5 C: D: T: W:

57 ACDTW ACDT ACDW ACTW ADTW CDTW CTW DTW ACD ACT ACW ADT ADW ATW CDT CDW
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ACDTW ACDT ACDW ACTW ADTW CDTW CTW DTW ACD ACT ACW ADT ADW ATW CDT CDW AC AD AT AW CD CT CW DT DW TW A C D T W

58 Class A AC: 1,3,4,5 AD: 4,5 AT: 1,3,5 AW: 1,3,4,5 ACDTW ACDT ACDW ACTW
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Class A AC: 1,3,4,5 AD: 4,5 AT: 1,3,5 AW: 1,3,4,5 ACDTW ACDT ACDW ACTW ADTW ACD ACT ACW ADT ADW ATW AC AD AT AW A

59 Class AC ACD: 4,5 ACT: 1,3,5 ACW: 1,3,4,5 ACDTW ACDT ACDW ACTW
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Class AC ACD: 4,5 ACT: 1,3,5 ACW: 1,3,4,5 ACDTW ACDT ACDW ACTW ACTW: 1,3,5 ACD ACT ACW AC

60 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Class AT ATW ATW: 1,3,5 AT

61 Class C CD: 2,4,5,6 CT: 1,3,5,6 CW: 1,2,3,4,5 CDTW CTW CDT CDW CD CT
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. CDTW CD: 2,4,5,6 CT: 1,3,5,6 CW: 1,2,3,4,5 Class C CTW CDT CDW CD CT CW C

62 Class CD CDT: 5,6 CDW: 2,4,5 CDTW CDT CDW CD
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. CDTW CDT: 5,6 CDW: 2,4,5 Class CD CDT CDW CD

63 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. CTW: 1,3,5 Class CT CTW CT

64 Class D DT: 5,6 DW:2,4,5 DTW DW DT D
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. DTW Class D DT: 5,6 DW:2,4,5 DT DW D

65 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. TW Class T TW: 1,3,5 T

66 ACDTW ACDT ACDW ACTW ADTW CDTW CTW DTW ACD ACT ACW ADT ADW ATW CDT CDW
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ACDTW ACDT ACDW ACTW ADTW CDTW CTW DTW ACD ACT ACW ADT ADW ATW CDT CDW AC AD AT AW CD CT CW DT DW TW A C D T W

67 تراکنش های خرید از فروشگاه ALLElectronic بدین صورت است.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 15 ) تراکنش های خرید از فروشگاه ALLElectronic بدین صورت است. Itemsetهای پرتکرار را با فرمت عمودی داده بیابید. Min-support=2

68 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. I1: T100,T400,T500,T700,T800,T900 I2: T100,T200,T300,T400,T600,T800,T900 I3: T300,T500,T600,T700,T800,T900 I4: T200,T400 I5: T100,T800

69 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. I2,I3 T300,T600,T800,T900 I2,I4 T200,T400 I2,I5 T100,T800 I3,I4 I3,I5 T800 I1,I2 T100,T400,T800,T900 I4,I5 I1,I3 T500,T700,T800,T900 I1,I4 T400 I1,I5 T100,T800

70 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. I1,I2,I3 T800,T900 I1,I2,I5 T100,T800 Data mining , Dr.mohammad hossein nadimi,faculty of computer engineering.najafabad branch,Islamic Azad University

71 جدول مربوط به خرید بازی های کامپیوتری و فیلم ها بدین صورت است.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 16 ) جدول مربوط به خرید بازی های کامپیوتری و فیلم ها بدین صورت است. معیارهای lift، X2، cosine و all-confidence را بیابید.

72 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Lift there is a negative correlation between the occurrence of game and video = = 0.89

73 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

74 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

75 all confidence X = { game , video }
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. all confidence X = { game , video }

76 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. cosine = 0.27 there is a negative correlation between the occurrence of game and video

77 فصل پنجم طبقه بندی و پیش بینی Classification & Prediction
Data Mining Sample Questions

78 1 Data set زیر را در نظر بگیرید: outlook temperature humidity windy
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Data set زیر را در نظر بگیرید: 1 outlook temperature humidity windy play overcast hot high FALSE yes cool normal TRUE mild rainy no sunny

79 درخت تصمیم Data set مفروض را به روش Information Gain ترسیم نمایید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. درخت تصمیم Data set مفروض را به روش Information Gain ترسیم نمایید؟ 1 outlook Info outlook;(D) = 5/ 14 * (-2/ 5 * log (2 / 5) –3/ 5 * log (3 / 5) +4/14 *( -4/4 *log (4/4) – 0/4 *log(0/4) + 5/14 *(- 3/5 *log (3/5) – 2/5 *log(2/5) = bit Gain(outlook)= info(D) –info(age) = = bit Info humidity (D)= 7/14 *( -3/7 *log (3/7) – 4/7 *log(4/7) + 7/14 *( -6/7 *log (6/4) – 1/7 *log(1/7) =0.791 bit Gain(humidity)= info(D) –info(humidity) = =0.149 bit Info temperature (D)= 4/14 *( -2/4 *log (2/4) – 2/4 *log(2/4) + 6/14 *( -4/6 *log (4/6 ) – 2/6 *log(2/6) /14 *( -3/4 *log (3/4) – 1/4 *log(1/4)=0.911 Gain(temperature)= info(D) –info(temperature) = =0.029 bit Info windy (D)= 8/14 *( -6/8 *log (6/8) – 2/8 *log(2/8) + 6/14 *( -3/6 *log (3/6) – 3/6 *log(3/6) =0.892 bit Gain(windy)= info(D) –info(windy) = =0.049 bit overcast overcast hot high F Y cool normal T mild sunny sunny hot H F N T mild cool Y rainy rainy mild high FALSE yes cool normal TRUE no

80 Info(D2)= -3/5 *log(3/5) - (2/5)* log(2/5) = 0.971 bit
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ادامه 1 Info(D2)= -3/5 *log(3/5) - (2/5)* log(2/5) = bit Info temperature (D2)= 3/5 *( - 2/3 *log (2/3) – 1/3 *log(1/3)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) )= bit Gain(temperature )= info(D2) –info(temperature ) = =0.020 bit Info humidity(D2)= 3/5 *( - 2/3 *log (2/3) – 1/3 *log(1/3)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) )= bit Gain(humidity)= info(D2) –info(humidity) = =0.020 bit Info windy(D2)= 3/5 *( -3/3 *log (3/3) – 0/3 *log(0/3)) + 2/5 *( - 0/2 *log (0/2)) - 2/2 *log (2/2) )= 0bit Gain(windy)= info(D2) –info(windy) = = bit Info(D1)= -2/5 *log(2/5) - (3/5)* log(3/5) = bit Info temperature (D1)= 2/5 *( - 0/2 *log (0/2) – 2/2 *log(2/2)) + 2/5 *( - 1/2 *log (1/2)) - 1/2 *log (1/2) ) + 1/5 *(- 1/1 *log (1/1) )= bit Gain(temperature)= info(D1) –info(temperature) = =0.571 bit Info humidity(D1)= 3/5 *( - 0/3 *log (0/3) – 3/3 *log(3/3)) + 2/5 *( - 2/2 *log (2/2)) = 0 bit Gain(humidity)= info(D1) –info(humidity) = = bit Info windy (D1)= 3/5 *( - 1/3 *log (1/3) – 2/3 *log(2/3) )+ 2/5 *( - 1/2 *log (1/2) - 1/2 *log (1/2) ) = bit Gain(windy)= info(D1) –info(windy) = – = bit Info(D3)= -4/4 *log(4/4) - (0/4)* log(0/4) = 0 bit

81 1 ادامه yes no outlook no (2) yes (3) true Yes (4) no (3) yes (2)
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ادامه 1 outlook yes no no (2) yes (3) true false Yes (4) no (3) yes (2) humidity windy sunny rainy overcast

82 درخت تصمیم Data set مفروض را به روش Gini index ترسیم نمایید؟
2 Data mining Classification Outlook={overcast, rainy, sunny} Gini outlook ε (overcast, rainy)=(9/14) Gini (D1)+(5/14)Gini(D2)=(10/14)*0.45+(4/14) *0.48=0.712 Gini(D1)=(1-(7/9)^2 –(2/9) ^2)=0.45 Gini(D1)=(1-(2/5)^2 –(3/5) ^2)=0.48 Gini outlook ε (overcast,sunny)= (9/14)*0.468+(5/14)*0.445=0.717 Gini outlook ε (rainy, sunny)=(10/14)*0.480+ (4/14)*0.376=0.357 Temperature={hot,mild,cool} Gini temperature ε (hot,mild)=(10/14)*0.444 +(4/14)*0.48=0.457 Gini temperature ε (hot,cool)=(8/14)*0.47+ (6/14)*0.44=0.458 Gini temperature ε (mild,cool)=(10/14)*0.197 +(4/14)*0.2=0.198 And Prediction Data mining , Dr.mohammad hossein nadimi,faculty of computer engineering.najafabad branch,Islamic Azad University

83 درخت تصمیم Data set مفروض را به روش Gini index ترسیم نمایید؟
2 Data mining Classification outlook yes no No (2) (3) true false Yes (4) humidity windy humidity={high, normal} Gini humidy ε (high,normal)= (7/14)*0.245+(7/14)*0.490=0.368 Gini(D1)=(1-(7/10)^2 –(3/10) ^2)=0.420 Gini(D1)=(1-(2/4)^2 –(2/4) ^2)=0.5 Gini windyε (false,true)= (8/14)*0.375+(6/14)*0.5=0.429 And sunny rainy Prediction overcast Data mining , Dr.mohammad hossein nadimi,faculty of computer engineering.najafabad branch,Islamic Azad University

84 درخت تصمیم Data set مفروض را به روشGain Ratio ترسیم نمایید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. درخت تصمیم Data set مفروض را به روشGain Ratio ترسیم نمایید؟ 3 outlook yes no no (2) yes (3) true false Yes (4) no (3) yes (2) humidity windy splitInfo A (temperature)= - 4 /14 * log (4 /14) -6 /14 * log (6 /14) -4 /14 * log (4 /14) = 1.556 Gain Ratio(temperature)=0.029 / 1.556= 0.019 splitInfo A (outlook)= - 5 /14 * log (5 /14) - 4 /14 * log (4 /14) - 5 /14 * log (5 /14) = 1.578 Gain Ratio (outlook)=0.246 / 1.578= 0.156 splitInfo A (humidity)= - 7 /14 * log (7/14) - 7 /14 * log (7 /14) = 1 Gain Ratio(humidity )=0.15 / 1= 0.15 splitInfo A (windy)= - 6 /14 * log (6 /14) - 8 /14 * log (8 /14)= 0.985 Gain Ratio(windy )=0.048 / 0.985= 0.049 sunny rainy overcast

85 4 Predicted class total جدول زیر را در نظر بگیرید:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. جدول زیر را در نظر بگیرید: 4 Predicted class total buy_computer = yes buy_computer = no 6954 46 7000 412 2588 3000 total 7366 2634 10000 چه در صدی از پیش بینی ها ی شما صحیح است؟ چه درصدی از نمونه های مثبت تشخیص داده شده اند؟ چه در صدی از پیش بینی های مثبت صحیح می باشند؟ Accuracy=( )/10000 =95.42% Recall =6954/(7000)=99.34% Precision = 6954 / 7366=94.41% Han/Kamber/Pei, Tan/Steinbach/Kumar, and Andrew Mooreمنبع سوال

86 5 A dataset contains 80 records on a particular topic
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. فرضیات زیر را در نظر بگیرید و پارامترهای ارزیابی طبقه کننده را محاسبه نمایید؟ 5 A dataset contains 80 records on a particular topic A search was conducted on that topics and 60 records were retrieved. Of the 60 records retrieved, 45 were relevant. Precision? Recall? A= B(FN) : (80-45) = C: (60-45)=15 Recall = (45 /(45+35)) * 100 =56% Precision= (45/ (45+15)) * 100= 75 %

87 6 با توجه به مجموعه آموزشی داده شده:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 6 با توجه به مجموعه آموزشی داده شده: الف- با استفاده از طبقه بندی Naive Baysian پیش بینی کنید آیا فرد تعیین شده کامپیوتر خواهد خرید؟(income = 50,000$ =medium) ب- اگردر تاپل شماره 7 مقدار income به low تغییر یابد در پیش بینی چه مشکلی ایجاد خواهد شد چه راهکاری را پیشنهاد می دهید؟

88 Buys Computer Creditrating Student Income Age Stno Yes Fair Medium 35
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. Buys Computer Creditrating Student Income Age Stno Yes Fair Medium 35 1 No Average High 30 2 Good low 40 3 4 Low 45 5 Excellent 6 7 8 28 9 10

89 X=(age=35 ,income=medium)
جواب الف- تاپلی که می خواهیم طبقه بندی کنیم عبارت است از: X=(age=35 ,income=medium) x1 x2 صفت بر چسب کلاس buys_computer دو مقدار مجزا (yes , no) M=2 ,i=1,2 C1=buys_computrt =yes P(X|C1 )P(C1) i=1 P(X|Ci )P(Ci) i=2 P(X|C2 )P(C2) C2=buys_computrt =no

90 P(income=medium | buys_computer= yes)
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. P(C1) =P(buys_computer= yes)=6/10=0/6 P(X|C1 )P(C1) P(X|C1 ) = P(age=35 | buys_computer= yes)* P(income=medium | buys_computer= yes) =4/6(0.67) * 3/6(0.5) =0.335 0.201 0.335 * 0.6 =

91 P(X|C2 )P(C2) 0.125* 0.4= = P(C2)=P(buys_computer= NO)= 4/10=0.4
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. P(C2)=P(buys_computer= NO)= 4/10=0.4 P(X|C2 )P(C2) P(X|C2 )= P(age=35 |buys_computer= NO) P(income=medium|buys_computer= NO) =2/4(0.5) * 1/4(0.25)=0.125 = 0.05 0.125* 0.4= را برای تاپل buys_copmuter =yes ،Naive bayesian بنابراین چون طبقه بندی کننده پیش بینی می کندX 0.05<0.20

92 P(income=medium|buys_computer= NO) = 0/4=0
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. جواب ب : بله با احتمال صفر روبرو می شویم P(income=medium|buys_computer= NO) = 0/4=0 از اصطلاح لاپلاسین استفاده می کنیم و وانمود می کنیم یک تاپل بیشتر برای هر مقدار income اتفاق افتاده است

93 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 7 پایگاه داده کوچک زیر داده شده است با توجه به اینکه Drew می تواند هم Male و Fmale باشد جنسیت افسر Drew را پیش بینی کنید.

94 7 تاپل هایی از مجموعه آموزشی Weather داده شده است مطلوب است :
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 7 تاپل هایی از مجموعه آموزشی Weather داده شده است مطلوب است : الف- در طبقه بندی مبنی بر قانون پارامتر های ارزیابی قانون را توضیح دهید ب – مقدار این پارامتر ها را برای قانون R1 بدست آورید. R1: If outlook =sunny and wind = light then playTennis =No

95 الف: هر قانون با پوشش و صحت ارزیابی می شود
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. الف: هر قانون با پوشش و صحت ارزیابی می شود Coverage - قسمتی از رکوردها که مقدم یک قانون را ارضا میکند. Accuracy - قسمتی از رکوردها که هر دوی مقدم و تالی یک قانون راارضا میکند. 𝒏𝒄𝒐𝒗𝒆𝒓𝒔 | 𝑫| Coverage(R ) = =3/14=%0.21 𝒏𝒄𝒐𝒓𝒓𝒆𝒄𝒕 𝒏𝒄𝒐𝒗𝒆𝒓𝒔 Accuracy( R) = =2/3=%0.67

96 ویژگی های الگوریتم پوششی سری را بیان کنید:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 8 ویژگی های الگوریتم پوششی سری را بیان کنید: 1-قوانین IF-THEN به طور مستقیم از داده آموزشی استخراج می شود. 2-بیشتر برای الگوی استخراج مجموعه های منفصل از قوانین طبقه بندی استفاده می شود. 3-قوانین طبقه بندی با استفاده از الگوریتم های طبقه بندی انجمنی تولید می شوند. 4-جفت های صفت-مقداری که به طور فراوان در داده اتفاق می افتند را جستجو می کند.

97 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 9 اگرمسأله ما دارای m ویژگی باشد ارتفاع درخت تصمیم حداکثر چقدر خواهد بود؟با ذکر یک مثال توضیح دهید: درخت تصمیم دارای یک ریشه است که آن خود یک ویژگی است،در سئوال از آن ویژگی به پاسخی می رسیم که آن خود نیز ویژگی است پس حداکثر ارتفاع درخت m خواهد بود. به عنوان مثال اگر داشته باشیم IF…Then loan-desician=accept که قسمتIFخالی است که میتوان هرجفت صفت-مقدار برای آن درنظر گرفت مثلأ income=high و... RID incom Loan-desician age Loan-term 1 high yes youth long 2 medium no senior short 3 excellent middle 4 low

98 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ادامه جواب سوال 2: با توجه به جدول میتوان درخت تصمیم زیر را رسم کرد که حداکثر m ارتفاع درخت خواهد بود.

99 3-معیارهای ارزیابی قانون را نام برده و مختصرا توضیح دید.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 10 3-معیارهای ارزیابی قانون را نام برده و مختصرا توضیح دید. 1-معیار آنتروپی:آنتروپی شرایطی را ترجیح میدهد که تعداد زیادی از تاپلهای فقط یک کلاس و تعداد کمی از تاپلهای کلاسهای دیگر را بپوشاند. 2-معیاری مبنی بر Information gain در FOIL:تاپلهای کلاس برای قوانینی که آموخته می شوند را تاپلهای positive می نامیم و تاپلهای باقیمانده را negative می باشند. 3-معیار statistical test:به یک همبستگی واقعی بین کلاس ها ومقادیر صفت اشاره میکند.

100 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 11 با استفاده ازالگوی مجموعه Rough برای مجموعه X ازسیستم اطلاعاتی زیرومشخص بودن پارامترهای آن مقادیر BX,BX,BNX را به دست آورید: IS=(U,A) U={x1,x2,x3,x4,x5,x6….., x10} A={a1,a2,a3} v1={1,2,3} v2={1,2} v3={1,2,3,4} X={x1,x3,x4,x5,x9}

101 جواب سوال 11 : a1 a2 U/A a1 a2 a3 {X1,X3,X9} 2 1 3 {X2,X7,X10} {X4}
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. جواب سوال 11 : U/A a1 a2 a3 {X1,X3,X9} 2 1 3 {X2,X7,X10} {X4} {X5,X8} 4 {X6} U a1 a2 a3 X1 2 1 3 X2 X3 X4 X5 4 X6 X7 X8 X9 X10

102 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ادامه جواب سوال 11 : تقریب پایینی C شامل تمام تاپلهای داده ای می شود که با توجه به اطلاعات آن صفات حتما متعلق به C هستند بدون هیچ ابهامی BX={X1,X3,X4,X9}

103 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ادامه جواب سوال 11 : تقریب بالایی C شامل تمام تاپلهای داده ای میشود که براساس اطلاعات آن صفات،نمی توانند به عنوان متعلقات C توصیف شوند. BX={X1,X3,X4,X5,X8,X9} مرز بین تقریب پایین وبالا: BNX={X5,X8}

104 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. اطلاعات بیشتر:

105 ویژگی های الگوی مجموعه فازی را بیان کنید:
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 12 ویژگی های الگوی مجموعه فازی را بیان کنید: 1-برای صفاتی با مقادیر گسسته و پیوسته به کار میرود. 2-منطق فازی از مقادیر حقیقی بین 0و1 برای نمایش درجه عضویتی که یک مقدار مشخص در یک گروه داده شده استفاده میکند. 3-از ابزارهای گرافیکی برای کمک به کاربران در تبدیل مقادیر صفت به مقادیر حقیقی فازی استفاده میکند. 4-اجازه می دهد در سطح بالایی از انتزاع کار کنیم. 5-قوانین زبان شناختی ،سیستم کنترل شامل 2قسمت بلوک مقدم (بینIF وThen) ویک بلوک تالی (بعد از Then )میباشد.

106 13 مهمترین مزایا و معایب شبکه های عصبی در طبقه بندی را بیان کنید؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 13 مهمترین مزایا و معایب شبکه های عصبی در طبقه بندی را بیان کنید؟ مزایای شبکه های عصبی : دقت پیش بینی بالا قوی بودن (هنگامی که مثال های آموزشی شامل error هایی هستند،کار می کنند) قابلیت مواجه با داده های مغشوش قابلیت استفاده زمانی که دانش بسیار کمی در مورد مسئله وجود دارد برای هر دو نوع داده کمی و کیفی مناسب است در مسائلی که دانش کمی در مورد مسئله داشته باشیم کاربرد دارد. معایب شبکه های عصبی : 1. زمان آموزش طولانی 2. آموزش این شبکه ها حساس است 3. درک تابع یادگیرنده دشوار است 4. مانند جعبه سیاه عمل می کند

107 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 14 یکی از الگوریتم یادگیری شبکه عصبی را،با ذکر علت انتخاب آن نام ببرید و توضیح دهید چگونه کار می کند؟ الگوریتم Back propagation یا الگوریتم پس انتشار خطا زیرا بر اساس کاهش خطا و بصورت نظارتی شکل گرفته است و موقعی که شما دانش کمی از روابط بین صفات و کلاس ها دارید استفاده می شود. الگوریتم پس انتشار خطا چگونه کار می کند؟ الگوریتم Back propagation یادگیری را روی یک شبکه عصبی feed-forward چند لایه ای انجام می دهد.در این الگوریتم ، وزن ها در شبکه با کوچکترین اعداد تصادفی مقدار دهی اولیه می شوند.در واقع بر اساس وزنهای تصادفی یک پاسخ توسط شبکه تولید می شود و در یک فرآیند تکراری میزان خطای میان خروجی شبکه با مقادیر واقعی بر اساس تغییر وزنها کاهش می یابد در حقیقت شبکه توسط داده ها آموزش داده شده و می تواند برای داده های جدید،همان الگوی قبلی را ارائه دهد

108 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 15 شکل زیر یک شبکه عصبی Feed-Forward چند لایه ای را نشان می دهد.الگوریتم پس انتشار خطا را تا یک مرحله انجام دهید و مقادیر جدید وزن اتصالات هر واحد را بدست آورید؟(نرخ یادگیری=0.9)

109 O6 * (1-O6) (T6-O6) O5 * (1-O5) (ERR6 * W56) O4 * (1-O4) (ERR6 * W46)
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. جواب سوال 15 : w14*o1 + w24*o2+w34*o3 + θ4 w46*o4 + w54*o5+ θ6 w15*o1 + w25*o2+w35*o3 + θ5 O6 * (1-O6) (T6-O6) O5 * (1-O5) (ERR6 * W56) O4 * (1-O4) (ERR6 * W46)

110 W46 + L *ERR6 * O4 W56 + L *ERR6 * O5 θ6 + L *ERR6 جواب سوال 15 :
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. جواب سوال 15 : W46 + L *ERR6 * O4 W56 + L *ERR6 * O5 θ6 + L *ERR6

111 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 16 سه الگوریتم اصلی در طبقه بندی انجمنی را نام ببرید و تفاوت هرکدام را شرح دهید: CPAR(Classification Based On Association Rules) CMAR(Classification Based On Multiple Association Rules) CBA(Classification-Based Association) تفاوت اصلی CBA وCMAR این است که CMAR از قوانین چندگانه استفاده می کند و نتایج تجربی نشان می دهد که CMAR از نظر دقت نسبت به CBA بهتر عمل می کند. ولی وقتی از Data Set بزرگ استفاده می کنیم دو الگوریتم CBAوCMAR در زمینه های تولید قوانین و انتخاب قوانین زمان بر هستند و بهتر است از CPAR برای غلبه بر این مشکل استفاده شود. CPAR دقت و کارایی بیشتر نسبت به بقیه الگوریتم ها دارد زیرا: استفاده از برنامه نویسی پویا جهت پرهیز از تکرار محاسبات در تولید قانون CPAR مجموعه کوچکتری از قوانین با کیفیت بالاتر و افزونگی کمتر تولید می کند.

112 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 17 با استفاده از الگوریتم Rule Generation in Cpar و با در نظر گرفتن جدول زیر چه قوانینی تولید خواهد شد؟(ابتدا قانون A1=2 را انتخاب کنید) قوانین اولیه لیترال های تولید شده 1 A1=2 A2=1 A3=1 2 A4=1 3 A4=2 4 A2=3 (دارای Gain مشابه) (دارای Gain مشابه)

113 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran.

114 18 Row-ID A B C D Class Label 01 a1 b1 c1 d1 02 b2 d2 03 a2 b3 c2 d3
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. 18 با توجه به مجموعه داده آموزشی نشان داده شده در جدول 1 ( min support=2,confidence=50 %) توسط الگوریتم CMARچه قانونی تولید می شود؟ Row-ID A B C D Class Label 01 a1 b1 c1 d1 02 b2 d2 03 a2 b3 c2 d3 04 c3 05

115 ابتدا درختFP-Growth را بر اساس لیست نزولی {a1,b2,c1,d3}ترسیم می کنیم.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. ابتدا درختFP-Growth را بر اساس لیست نزولی {a1,b2,c1,d3}ترسیم می کنیم. (شکل (a) FP-tree) با توجه به درخت رسم شده قوانین تاپل هایی که دارای d3 هستند شامل: (a1,b2,c1,d3):C – (a1,b2,d3):C - d3:A که در تاپل هایی که شامل d3 هستند a1b2 آیتم های پرتکرار هستند.بنابراین می توان قانون a1b2d C را تولید کرد. تمام نودهای دارای d3 با نودهای پدرشان ادغام می شوند و اطلاعات برچسب کلاس های نود d3 در نود والد نوشته می شوند

116 فصل ششم آنالیز خوشه ها cluster analysis
Data Mining Sample Questions

117 سوال 1 ) چه تفاوتی بین خوشه بندی و طبقه بندی وجود دارد؟
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 1 ) چه تفاوتی بین خوشه بندی و طبقه بندی وجود دارد؟ در طبقه‌بندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مي‌يابد ولي در خوشه‌بندي هيچ اطلاعي از کلاسهاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند.

118 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 2 ) با توجه به Data Matrix زیرDissimilarity Matrix براساس فاصله اقلیدسی و مان هاتان بدست آورید. Data Matrix Attribute2 Attribute1 Point 2 1 x1 5 3 x2 x3 4 x4 Dissimilarity Matrix (with Euclidean Distance) x4 x3 x2 x1 L 3.61 5.1 2.24 5.39 1 4.24 Dissimilarity Matrix (with Manhattan) x4 x3 x2 x1 L 5 6 3 7 1

119 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 3 ) فرض کنید جدول زیر شامل رکورد های بیماران باشد: بر اساس داده های باینری، عدم تشابه بیماری بیماران را مشخص کنید؟ متغیرName تعریف کننده اشیا است. متغیر gender یک متغیر متقارن است. دیگر متغیر ها نیز متغیر های دودویی نامتقارن هسستند. برای متغیر های نامتفارن Yبرای حالت های (Yes) و Pبرای (Positive) و برابر1 است. برای متغیر های نامتفارن Nبرای حالت های (No -negative) و برابر0 است. فرض می کنیم فاصله بین اشیا یا تفاوت بین انها هم تنها بر اساس متغیر های نامتقارن محاسبه می شود.

120 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. i i j j i j i j با توجه به نتایج فوق می توانیم پیشنهاد کنیم که : Mary و Jim به بیماری مشابهی مبتلا نیستند به دلیل که بیشترین تفاوت را باهم دارند. Mary وJack به دلیل داشتن فاصله کم ممکن است که به بیماری مشابه مبتلا باشند.

121 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 4 ) بر اساس داده های ترتیبی جدول زیربا استفاده از فاصله اقلیدس ،ماتریس عدم تشابه اشیا را بدست آورید. گام اول: اگر ما هر مقدار test-2 را در rank ان جایگزین کنیم،برای 4 شی بترتیب اعداد 3،1،2،3 اختصاص داده می شود. 1.0 3 0.0 1 0.5 2 گام دوم: بر اساس قاعده ،rank باید بین 0.0 و 1.0نگاشت شود: 2=0.5 و 3 =1.0 و1=0.0 1.0 3 𝟐 . 𝒈𝒐𝒐𝒅= 𝟐−𝟏 𝟑−𝟏 =0.5 3 . 𝒆𝒙𝒄𝒆𝒍𝒆𝒏𝒕= 𝟑−𝟏 𝟑−𝟏 =1.0 𝟏 . 𝒇𝒂𝒊𝒓= 𝟏−𝟏 𝟑−𝟏 =0.0 گام سوم: ما می توانیم بر اساس رابطه فاصله اقلیدس ،ماتریس عدم تشابه به صورت زیر نتیجه می شود. 𝑑 4,2 = (1.0−0.0) 2 =1.0

122 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 5 ) بر اساس داده های ratio-Scaled جدول زیربا استفاده از فاصله اقلیدس ،ماتریس عدم تشابه اشیا را بدست آورید. در این روش از تبدیلات لگاریتمی استفاده می کنیم. Log(445)=2.65 Log(22)=1.34 Log(164)=2.21 Log(1,210)=3.08 𝒅 𝟑,𝟐 = (𝟐.𝟐𝟏−𝟏.𝟑𝟒) 𝟐 =𝟎.𝟖𝟕

123 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 6 ) بر اساس داده های ترکیبی جدول زیر،ماتریس عدم تشابه اشیا را بدست آورید 𝒎𝒂𝒙 𝒉 𝒙 𝒉 − 𝒎𝒊𝒏 𝒉 𝒙 𝒉 = 𝟑.𝟎𝟖−𝟏.𝟑𝟒=𝟏.𝟕𝟒 Log(445)=2.65 𝒎𝒊𝒏 𝒉 𝒙 𝒉 Log(22)=1.34 Log(164)=2.21 𝒎𝒂𝒙 𝒉 𝒙 𝒉 Log(1,210)=3.08 گام اول: تبدیلات لگاریتم مقادیر test-3 را محاسبه می کنیم. گام دوم: مقدار های 𝑚𝑎𝑥 ℎ 𝑥 ℎ و 𝑚𝑖𝑛 ℎ 𝑥 ℎ را محاسبه می کنیم. گام سوم:نرمال کردن مقادیر در یک ماتریس عدم تشابه براساس رابطه اقلیدسی ترکیبی برای test-3نشان می دهیم: گام چهارم: ماتریس عدم تشابه را بر اساس رابطه 7.15 را برای 3 متغیر به صورت زیر محاسبه می کنیم: (p=3) 𝒅 (𝒇) 𝟐𝟏 = |𝟏.𝟑𝟒−𝟐.𝟔𝟓| 𝟏.𝟕𝟒 =𝟎.𝟕𝟓 𝒅 𝟐,𝟏 = 𝟏 𝟏 +𝟏 𝟏 +𝟏(𝟎.𝟕𝟓) 𝟑 =0.92

124 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 7 ) الگوریتم K-means را با فرض K=2 ، m1=3 ، m2=4 بروی مجموعه اشیا P={2,4,10,12,3,20,30,11,25} اعمال کنید : انتخاب تصادفی 2 mean K1={2,3} m1=(2+3)/2=2.5 m1=3 , m2=4 K2={4,10,12,20,30,11,25} m2=16 5 10 15 20 25 30 35 5 10 15 20 25 30 35 2 11 12 3 2 3 4 10 11 12 20 25 30 4 K1={2,3,4} m1=3 K2={10,12,20,30,11,25} m2=18 5 10 15 20 25 30 35 2 3 10 11 12 20 25 30

125 K1={2,3,4,10} m1=4.75 K2={12,20,30,11,25} m2=19.5 5 10 15 20 25 30 35 2 3 10 11 12 20 25 30 K1={2,3,4,10,11,12} m1=7 K2={20,30,25} m2=25 5 10 15 20 25 30 35 2 3 10 11 12 20 25 30

126 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 8 ) معیار هایی که به طور گسترده جهت اندازه گیری فاصله و میزان شباهت دو کلاستر در الگوریتم Hierarchical بکار می روند را توضیح دهید : Single Linkage Complete Linkage Average Linkage

127 سوال 9 ) اگر کلاسترC1={(2,5), (3,2), (4,3)} باشد :
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 9 ) اگر کلاسترC1={(2,5), (3,2), (4,3)} باشد : الف ) CF1 را توسط الگوریتم BIRCH ایجاد کنید : ب ) با فرض CF2=<3, (35, 36), (417, 440)> ، CF3 که از ادغام دو کلاستر C1 و C2 بدست می آید را ایجاد کنید : (الف CF1= <3, (2+3+4,5+2+3),( , )> = <3,(9,10), (29,38)> اگر C3 از ادغامC2 و C1 ایجاد شود ، بنابراین CF3 به صورت زیر خواهد بود : (بCF3 or CF12 = < 3+3, (9+35,10+36),(29+417,38+440)> = <6,(44,46), (446,478)>

128 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 10 ) در شکل زیر نقاط Core ، Noise ، Border را توسط الگوریتم DBSCAN مشخص کنید : 1 2 3 4 5 6 7 8 9 10 MinPts=3

129 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. نقطه A یک نقطه مرکزی است که با توجه به اینکه تعداد نقاط همسایگی بیش از معیار MinPts است ، باعث ایجاد یک خوشه جدید میشود (نقاط قرمز رنگ همگی دارای این خاصیت هستند). MinPts=3 1 2 3 4 5 6 7 8 9 10 نقاط B و C که در همسایگی خود کمتر از MinPts نقطه دارند نقاط مرزی (Border) هستند به طوری که اگر نقاط همسایه آنها در یک خوشه باشند آنها نیز در همان خوشه قرار میگیرند در غیر این صورت به عنوان نویز مشخص می­شوند. در اینجا نقطه B در خوشه بندی قرار میگیرد و نقطه C به عنوان نویز شناخته می­شود . نقاطی مانند نقطه N که هیچ نقطه ای در همسایگی خود ندارند به عنوان نویز شناخته میشوند.

130 ب )reachability-distance بین نقطه یPو q2 را مشخص کنید :
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. الف ) در شکل زیر توسط کدام نقطه فاصله ی Coredistance( 𝜺 ) بدست می آید : ب )reachability-distance بین نقطه یPو q2 را مشخص کنید : الف ) فاصله ی بین نقطه p و نقطه یq3 فاصله Core Distance را تشکیل می دهد یعنی 𝜖=3𝑚𝑚 3mm q3 q4 q5 q6 q7 q8 ب) فاصله ی Reachability distance از رابطه ی زیر بدست می آید : 𝐦𝐚𝐱⁡(𝑪𝒐𝒓𝒆 𝑫𝒊𝒔𝒕𝒂𝒏𝒄𝒆 , 𝑬𝒖𝒄𝒍𝒊𝒅𝒆𝒂𝒏 𝑫𝒊𝒔𝒕𝒂𝒏𝒄𝒆) یعنی فاصله ی ماکزیمم بین 𝜺 ̇ و فاصله اقلیدسی دو نقطه که در اینجا بین دو نقطه ی p و q2 ، ماکزیمم ، فاصله ی اقلیدسی می باشد . ولی بعنوان مثال این فاصله بین دو نقطه یp و q1 برابر با 𝜺 می باشد. به طور خلاصه :

131 مزایا:ساختار شبکه ای اش پردازش موازی را آسان می کند.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 12 ) معایب و مزایای الگوریتم sting را بیان کنید؟ معایب: تمام مرزهای خوشه بندی افقی و عمودی است و مرز مورب بین خوشه ها وجود ندارد. مزایا:ساختار شبکه ای اش پردازش موازی را آسان می کند. پیچیدگی آن o(G) است که G تعداد سلول های پایین ترین لایه است.

132 الگوریتم CLIQUE از کدام تکنیک استفاده می کند؟ Feature transformation
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 13 ) تکنیک های خوشه بندی داده با ابعاد زیاد را بیان کنید؟ Feature transformationقرار دادن داده ها در یک فضای کوچک تر در حالی که فاصله ی نسبی بین اشیا حفظ بماند .این روش زمانی مشکل ایجاد می کند که تعداد زیادی ویژگی های بی ربط وجود داشته باشد. Feature selection حذف یکسری از ابعاد.زیر مجموعه ای از ابعاد انتخاب می شود و روابط بی ربط یا ابعاد زائد حذف می شود الگوریتم CLIQUE از کدام تکنیک استفاده می کند؟ Feature transformation الگوریتم PROCLUS از کدام تکنیک استفاده می کند؟ Feature selection

133 روش های آماری روش های مبتنی بر فاصله روش چگالی روش انحراف استاندارد
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 14 ) روش های آنالیز داده های دور افتاده را نام ببرید؟ روش های آماری روش های مبتنی بر فاصله روش چگالی روش انحراف استاندارد

134 Data Mining Sample Questions, Dr
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 15 ) الگوریتم PCLUSTER چگونه خوشه بندی را انجام می دهد؟ این روش آنالیز خوشه ها را به کمک روش استخراج الگوهای پر تکرار اختصاص دارد. الگوهای پرتکرار می تواند منجر به کشف روابط وابستگی جالب بین داده ها شود.

135 هنگامی که که وجود اشیای مانع روی خوشه بندی ما تاثیر بگذارند.
Data Mining Sample Questions, Dr. Mohammad Hossein Nadimi, Faculty of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran. سوال 16 ) در چه مواردی از خوشه بندی با اشکال مشکل استفاد می شود؟ هنگامی که که وجود اشیای مانع روی خوشه بندی ما تاثیر بگذارند. برای خوشه بندی با اشیاء مانع بهتر از الگوریتم k-means استفاده کنید یا الگوریتم k-medoids؟چرا؟ الگویتم k-medoids چون الگوریتم k-means از میانگین استفاده می کند ممکن است میانگین وسط شی مانع (مثل رودخانه) باشد.


Download ppt "داده کاوی سئوالات نمونه"

Similar presentations


Ads by Google