Data Mining By : Alireza Abazari.

Slides:



Advertisements
Similar presentations
Stranded Costs مقدمه 1 - آشنايی با پديده های غيرخطی ( ياد آوری و تکميل ) 2 - مبانی رياضی ( مهم )
Advertisements

انواع اصلی عامل ها.
1 آزمايشگاه سيستم های هوشمند ( Domain-specific Architecture.
Computer Programming برنامه سازی کامپيوتر1 مدل های رياضی مهندسی يعنی کاربرد علوم مختلف (رياضی، فيزيک) در حل مسائل کاربردی مدل های رياضی برای پيش بينی رفتار.
فاکتورهای مهم در ایجاد یک مقاله علمی
1 بسم الله الرحمن الرحیم. 2 پژوهش های آموزشی فرآیند – محور (POER) علی عمادزاده عضو هیئت علمی EDC
مهندسی نرم افزار مبتنی بر عامل
ارائه روشي براي شناسايي کاراکترهاي دستنويس، برپايه شبکه LVQ.
Decision Tree.
بسم الحق برنامه ارزيابی خارجی کيفيت محسن نوربخش آزمايشگاه بيوشيمی بيمارستان قائم (عج) تيرماه 86.
© 2005 Prentice Hall Inc. All rights reserved. o r g a n i z a t i o n a l b e h a v i o r e l e v e n t h e d i t i o n.
ارائه درس روباتيکز Extended Kalman Filter فريد ملازم استاد مربوطه دکتر شيري دانشگاه امير کبير – دانشکده کامپيوتر و فناوري اطلاعات.
عامل و محيط. آزمایشگاه سیستمهای هوشمند 2 رئوس مطالب عاملها و محيطها مفهوم رفتار عقلانی محيطها ساختارهای مختلف برای عاملها.
بسم الله الرحمن الرحیم. تعريف ارزشيابی ارزشيابی عبارت است ازسنجش عملکرديادگيرندگان و مقايسه نتايج حاصل با هدفهای آموزشی از پيش تعيين شده به منظور تصميم.
نام و نام خانوادگي : فريد ملازم 1 آزمايشکاه سيستم هاي هوشمند ( موضوع ارائه Process and Deployment Design.
1 تدوين راهبرد برای يک برنامه جلب حمايت همه جانبه Mohsen Shams, MD. PhD Candidate in Health Education, School of Public Health, Tehran University of Medical.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي تخصيص منابع.
مراحل مختلف اجرای يک برنامه
روش تحقیق جلسه چهارم دانشگاه صنعتی اصفهان دانشکده کشاورزی
فارسی سازی يکپارچه در سيستم عاملهای OS/390 & Windows واحد 1 مهندسی سيستم Integrated Farsi support on OS/390 & Windows.
آشنايي با سيستم اعداد.
[c.
Business Process Modeling
مکان یابی در شبکه های حسگر بیسیم
دانشکده جغرافیا گروه سنجش از دور و GIS بهینه سازی مسیریابی مبتنی بر خوشه ‌ بندی با تقاضای تصادفی و ظرفیت محدود …. عنوان پیشنهادی رساله: دانشجو:کیوان باقری.
اعتبار طرح های آزمایشی استاد: دکتر بهرام جوکار راضیه هاشمی.
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
تمرین هفتم بسم الله الرحمن الرحیم درس یادگیری ماشین محمدعلی کیوان راد
بنام خدا زبان برنامه نویسی C (21814( Lecture 12 Selected Topics
دانلود جدیدترین مقالات برق الکترونیک و کامپیوتر
Address: Times New Roman, size 34
چگونه بفهمیم آیا ژورنالی ISI است؟ ایمپکت فاکتور دارد یا خیر؟
نرم افزار نگهداری و تعمیرات مبتنی بر مدیریت دانش نت CMMS-MKMS
داده کاوی: مفاهيم، روشها، کاربردها
فصل دوم جبر بول.
تکنیک دیماتل DEMATEL: decision making trial and evaluation laboratory.
VALUE ADDED TAX. VALUE ADDED TAX چیدمان ارائه : 1.تعریف مالیات 2.انواع مالیات 3.هدف از مالیات 4.مالیات در دولت ایران از قبل تا کنون 5.مفهوم مالیات.
SSO Single Sign-on Systems
آموزش و یادگیری Education and Training
تبدیل فوریه (Fourier Transform)
SE Dept.2 تهیه کنندگان: ملیحه اسکندری نسیبه پوتی
کوئیز از جلسه قبل) کارخانه ای در حال خرید قطعه‌ای برای یکی از ماشین‌آلات خود می باشد اگر نرخ بهره 10% برای محاسبات فرض شود، دو مدل از قطعه ماشین در دسترس.
مدارهای منطقی فصل سوم - خصوصیات توابع سويیچی
BSC-Based Framework for E-Business Strategy
آدرس : میدان هفت تیر – بن بست هوشیار – پلاک 5
هیدرولیک جریان در کانالهای باز
1.
Ali Karimpour Associate Professor Ferdowsi University of Mashhad
فصل 4. فصل 4 جمع آوری نیازمندیها و تحلیل سیستم : فاز تولید هر نرم افزار با مرحله ای به نام تعریف مسئله شروع می شود. منظور از تعریف مسئله شناخت محیط.
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
وبلاگ جامع مهندسی برق و الکترونیک
تدريس يار: ميثم نظرياني
به نام خدا اين فايل راهنما جهت آشنايی کاربران گرامی با پايگاه اطلاعاتی Sciencedirect و نحوه جستجوی اطلاعات در آن تهيه شده است لطفاً اسلايدهای بعد را مشاهده.
بسم الله الرحمن الرحیم هرس درخت تصمیم Dr.vahidipour Zahra bayat
جستجوی منابع الکترونیک
به نام خدا Koha برنامه.
فصل ششم مدارهای ترتیبی.
ابزارهای جستجوی پایان نامه
Uniprocessor Scheduling
توزیع میانگین نمونه سعید موسوی.
به نام یکتای دانا فصل اول: متدها و قواعد.
فصل 8 –Process and Deployment
نسبت جرم فرمولی ”جرم اتمی و فرمول تجربی
کتابخانه دانشکده پرستاری و مامایی دانشگاه علوم پزشکی شهید بهشتی
برنامه ریزی خطی پیشرفته (21715( Advanced Linear Programming Lecture 7
مقدمه ای بر مهندسی نرم افزار An Introduction to Software Engineering
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
عنوان پایان نامه : بهبود خوشه بندی داده های حجیم درالگوریتم PSON برای کاوش مجموعه اقلام تکراری استاد راهنما : دکتر تورج بنی رستم نگارش : اکبر خبازیان.
سد خونی- مغزی. تکنولوژی نمایش فاژی و کاربرد آن  مقدمه و تاریخچه  نمایش فاژی در تولید آنتی بادی مونوکونال.
Presentation transcript:

Data Mining By : Alireza Abazari

Data Mining چيست؟ Data Mining عبارت است از اقتباس يا استخراج دانش از مجموعه ای از داده ها ، به بيان ديگر ، Data Mining فرايندی است که با استفاده از تکنيکهای هوشمند، دانش را از مجموعه ای از داده ها استخراج می کند. Data Mining از ساخت مدل های تحليلی ، دسته بندی و پيش بينی اطلاعات و ارائه نتايج با استفاده از ابزارهای مرتبط استفاده می کند. برای اينکه الگوريتم Data Mining بتواند عمل استخراج دانش را بخوبی انجام دهد، نياز به يک سری پيش پردازش ها بر روی مجموعه آموزشی و يک سری پس پردازش ها بر روی الگوهای استخراج شده دارد.

مراحل Data Mining پاک سازی داده ها: در اين مرحله داده های غير معتبر از مجموعه داده های آموزشی خارج می شوند. داده های دارای نويز، اطلاعات ناکامل و ... نمونه هايی از داده هايی هستند که با يد پاکسازی در مورد آنها انجام گردد. يکپارچه سازی داده ها: در اين مرحله، منابع چندگانه داده ای با هم ترکيب می شوند. انتخاب داده ها : داده های مرتبط به فرايند Data Mining از ساير داده ها جدا می شود. اين مبحث را می توان بخشی از فرايند کاهش اطلاعات نيز دانست. تبديل داده ها: داده ها به قالبی قابل استفاده برای Data Mining در می آيند. از اعمالی که در اين مرحله صورت می گيرد ، می توان به خلاصه سازی و يا محاسبه مقادير تجمعی اشاره کرد. Data Mining: بخش اصلی فرايند که در آن با استفاده از روش ها و تکنيکهای خاص ، استخراج الگو های دانش صورت می گيرد. ارزيابی الگوها: تشخيص الگو های صحيح مورد نظر ، از ساير الگو ها در اين مرحله انجام می شود. صحت الگوها بر اساس يک سری معيار های جذابيت سنجيده می شود. بازنمايی دانش: در اين بخش به منظور ارائه دانش استخراج شده به کاربر ، از يک سری ابزارهای بصری سازی استفاده می گردد.

کاهش اطلاعات کاهش اطلاعات عبارت است از توليد يک مجموعه کوچکتر از داده های اوليه که تحت عمليات Data Mining نتايج تقريبا يکسانی با نتايج Data Mining روی اطلاعات اوليه به دست می دهد. اين عمل را می توان از طريق حذف خصيصه های غير مرتبط با نوع عمليات Data Mining مورد نظر انجام داد. حذف خصيصه های مرتبط که در اثر اشتباه در ارزيابی ميزان ارتباط آنها با عمليات Data Mining انجام می گيرد، می تواند منجر به ناکارآمدی فرايند Data Mining و استخراج قوانين ناقص و در نتيجه بی ارزش شود. عدم حذف خصايص غير مرتبط می تواند زمان انجاخم عمليات Data Mining را به طرز قابل ملاحظه ای افزايش دهد. سه روش کلی برای انتخاب خصايص مرتبط با Data Mining وجود دارد: انتخاب پيش رونده: در هر مرحله خصيصه ای که بيشترين ارتباط را دارد، برگزيده می شود. انتخاب عقب رونده: در هر مرحله خصيصه ای که کمترين ارتباط را دارد، انتخاب و حذف می شود. روش ترکيبی : ترکيب هر دو روش پيش رونده و پس رونده سلسله مراتب مفهومی: روشی برای کاهش تعداد مقادير ممکن برای يک خصيصه ارائه می دهد، اگر چه داده های خروجی کلی تر بوده و فاقد برخی جزئيات هستند، اما اين داده ها بسيار ساده تر بوده و در سطح تجريدی بالاتری نسبت به داده های اوليه قرار دارند.

اطلاعات مورد نياز برای عمليات Data Mining داده های مرتبط با فرايند Data Mining: بانک اطلاعاتی ممکن است شامل تعداد زيادی از رکورد ها باشد که تنها بخش کوچکی از آنها با فرايند Data Mining مرتبط هستند. مشخص کردن اين بخش از اطلاعات بايد توسط کاربر انجام گيرد. نوع دانشی که بايد استخراج شود: نوع روتين هايی که بايد بر روی داده های انتخاب شده اعمال شوند، بايد مشخص گردد. دانش زمينه ای : کاربران می توانند، با مشخص کردن دانش زمينه ای فرايند Data Mining را هدايت نمايند، برای نمونه حدس کاربر در مورد رفتار اطلاعات. معيارهای ارزيابی دانش استخراج شده: اين معيارها ممکن است در زمان اجرای فرايند Data Mining و يا پس از پايان Data Mining ، روی دانش استخراج شده اعمال شده و بخش ارزشمند دانش را مشخص نمايند. نحوه ارائه دانش استخراج شده: نمايش دانش و قوانين استخراج شده در قالب های مختلفی نظير جدول ، نمودار ، درخت تصميم گيری و ...

روشهای مختلف Data Mining اين روشها بطور کلی به دو دسته زير تقسيم می شوند: الگوريتمهای يادگيری با نظارت (Prediction Method) الگوريتمهای يادگيری بدون نظارت) (Description Methods در الگوريتمهای يادگيری با نظارت هدف از Data Mining مشخص است و می دانيم که به دنبال چه نوع دانشی می گرديم. مانند دسته بندی. در روشهای يادگيری بدون نظارت، هدف کاملا تعريف شده نيست. مانند خوشه بندی.

روشهای بکار گرفته شده برای Knowledge Discovery دسته بندی(Classification [Predictive]) : در اين روش يک نمونه به يکی از چند دسته از پيش تعريف شده دسته بندی می شود. رگرسيون ( Regression [Predictive] ): پیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر . خوشه بندی ( (Clustering [Descriptive]: يک دسته داده را به يکی از چند خوشه نگاشت می کند. خوشه ها گروه بنديهای دسته های داده ای هستند که بر اساس شباهت برخی از معيارها بوجود می آيند. کشف قواعد وابستگی( Association Rule Discovery [Descriptive] ): روابط وابستگی بين خصيصه های مختلف را بيان می کند. تحليل دنباله : الگوهای دنباله ای همچون سريهای زمانی را مدل می کند.

Classification: Application 1 هدایت بازاریابی (Direct Marketing): اهداف : کاهش هزینه ی پست با موقعیت یابی گروهی از مصرف کنندگان . روش کار : استفاده از اطلاعات یک محصول که قبلا تولید شده به منظور استفاده در نمونه های جدید . ما با توجه به اطلاعات موجود بدانیم که چه فردی بیشتر چه چیزهایی را می خرد و چه چیزهایی را نمی خرد. جمع آوری نمودارهای آماری مختلف و اطلاعات مربوط به تعاملات مشتری و شرکت .

Classification: Application 2 شناسایی تخلف (Fraud Detection): اهداف : شناسایی موارد کلاه برداری در معاملات کارتهای اعتباری . روش کار : استفاده از اطلاعات معاملات کارتهای اعتباری و اطلاعات دارنده ی آن . برچسب زدن به معاملات گذشته به عنوان کلاهبرداری یا معاملات نسبتا خوب. شناسایی یک مدل برای یک رده از معاملات استفاده از این مدل برای تشخیص کلاهبردای با مشاهده ی معاملات کارت اعتباری شخص .

Regression پیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر . مثلا : پیش بینی مقدار فروش یک محصول جدید بر مبنای هزینه تبلیغات پیش بینی سرعت باد به عنوان یک تابع از دما ، رطوبت ، فشار هوا وغیره .

Regression Example Example training database Two predictor attributes: Age and Car-type (Sport, Minivan and Truck) Spent indicates how much person spent during a recent visit to the web site Dependent attribute is numerical

Clustering: Application 1 تقسیم بازار(Market Segmentation): اهداف : تقسیم بازار به زیر مجموعه های مستقل ،مبتنی بر مصرف کنندگان ،جایی که هر زیر مجموعه بتواند به عنوان یک بازار مستقل انتخاب شود . روش کار : جمع آوری مشخصات مختلف مصرف کنندگان بر پایه ی موقعیت جغرافیایی . یافتن گروه مصرف کنندگان مشابه اندازه گیری کیفیت گروه با مشاهده ی الگوهای خرید مصرف کنندگان در یک گروه در مقابل الگوهای دیگر گروه ها .

Clustering: Application 2 خوشه بندی اسناد (Document Clustering) : اهداف : برای پیدا کردن گروهی از اسناد که از لحاظ ظاهر شدن کلمات مهم در آنها شبیه به هم هستند روش کار : برای تشخیص عباراتی که در سند به طور متوالی تکرار میشوند . تشکیل یک مقیاس همانندی بر پایه ی فراوانی عبارات مختلف . استفاده از مقیاس در خوشه بندی .

Association Rule Discovery: Application 1 مدیریت دارایی(Inventory Management) : اهداف : یک شرکت تعمیر وسایل مصرف کنندگان خواستار پیش بینی ماهیت تعمیرات مصرف کنندگان است تا همیشه ماشین های سرویس دهنه اش را مجهز نگه دارد . روش کار : پردازش داده ها – ابزارها و قطعه هایی که که در تعمیرات قبلی در مکان های متفاوت نیاز شده است – و کشف الگوهای رخدادهای مختلف .

Data Mining Software INSIGHTFUL MINER Angoss Knowledge ACCESS ARMiner Eudaptics Viscovery Goal TV MDR Viscovery SOMine SPSS

مشکلات سيستم های Data Mining حجم بالای داده های آموزشی وجود عدم قطعيت در اطلاعات برای رفع مشکلاتی که اين سيستم ها در برخورد با داده های حجيم دارند، معمولا روشهای زير استفاده می گردند: طراحی الگوريتم های سريع: کاهش پيچيدگيها، بهينه سازی، موازی سازی کاهش حجم داده ها: نمونه گيری ، گسسته سازی، کاهش ابعاد و ... بکارگيری يک ارائه رابطه ای: استفاده از قابليتهای ذخيره و بازيابی اطلاعات در پايگاههای داده

امکانات سيستم های مديريت پايگاه داده ها برای بکارگيری امکانات سيستمهای مديريت پايگاههای داده به منظور افزودن قابليت Data Mining ، مجموعه عملياتهای زير را می توان انجام داد: بکارگيری زبان SQL و ساير اشياء پايگاههای داده برای افزودن قابليت Data Mining به سيستم مديريت پايگاه داده طراحی و ايجاد يک زبان پرس و جو همانند SQL برای پشتيبانی از انجام فعاليتهای مختلف Data Mining توسعه مجموعه ای از عبارات به منظور پوشش دادن مجموعه عمليات Data Mining

وجود عدم قطعيت در اطلاعات داده هاي عملياتی موجود در سيستم های اطلاعاتی معمولا دارای عدم قطعيت هستند. عدم قطعيت می تواند به اشکال مختلفی در پايگاههای داده ظهور کند. بطور کلی عدم قطعيت در سيستمهای پايگاه داده به دو دسته تقسيم می شوند: اطلاعات ناکامل (مقادير نامشخص): منظور خصيصه هايی است که مقداری برای آنها ثبت نشده است. اطلاعات ناسازگار: اطلاعاتی که در اثر اندازه گيری نادرست يا بوجود آمدن نويز در داده ها ايجاد شده باشد و مقادير ثبت شده با مقادير واقعی برابر نباشند.

با تشکر از تمام دوستانی که با من همراه بودند سوال ؟؟؟