بسم الله الرحمن الرحیم هرس درخت تصمیم Dr.vahidipour Zahra bayat

Slides:



Advertisements
Similar presentations
124/ Adversarial Search جستجوی تخاصمی Chapter 6 Section 1 – 4 Modified by Vali Derhami.
Advertisements

معاونت درمان امور مامایی اردیبهشت 90. برای ثبت اطلاعات در برنامه نرم افزاری نظام مراقبت مرگ پریناتال ابتدا لازم است برنامه نرم افزار info-path وپرنیان.
انواع اصلی عامل ها.
فاکتورهای مهم در ایجاد یک مقاله علمی
الگوریتم ژنتیکی. تعریف  الگوریتم ژنتیکی، رویه ای تکراری است که راه حل های انتخابیش را بصورت رشته ای از ژنها که کروموزوم نامیده می شوند، بازنمایی می کند.
Decision Tree.
© 2005 Prentice Hall Inc. All rights reserved. o r g a n i z a t i o n a l b e h a v i o r e l e v e n t h e d i t i o n.
Branch replication scheme: José M. Pérez Félix García-Carballeira.
فایل پردازی در C File based Programming in C. انواع فایل متنی –سرعت بالا –حجم کمتر –امکان دسترسی تصادفی –حفظ امنیت داده ها دودویی (باینری) –امکان باز.
1 Network Address Translation (NAT). 2 Private Network شبکه خصوصی شبکه ای است که بطور مستقیم به اینترنت متصل نیست در یک شبکه خصوصی آدرس های IP به دلخواه.
Lesson four Grade three
روش تحقیق جلسه چهارم دانشگاه صنعتی اصفهان دانشکده کشاورزی
تکنیک های پیشرفته در برنامه سازی وب ) اسلايد هفتم ) جوانمرد Website: به نام خدا.
Normal Distribution بسم الله الرحمن الرحیم اردیبهشت 1390.
Arrangements of Lines C omputational Geometry By Samaneh shafi naderi
CS Constraint Satisfaction Constraint Satisfaction Problems Chapter 5 Section 1 – 3 Modified by Vali Derhami.
آشنايي با سيستم اعداد.
[c.
تهیه و تنظیم: فاطمه قاسمی دانشگاه صنعتی شریف – پاییز 86
مکان یابی در شبکه های حسگر بیسیم
دانشکده جغرافیا گروه سنجش از دور و GIS بهینه سازی مسیریابی مبتنی بر خوشه ‌ بندی با تقاضای تصادفی و ظرفیت محدود …. عنوان پیشنهادی رساله: دانشجو:کیوان باقری.
اعتبار طرح های آزمایشی استاد: دکتر بهرام جوکار راضیه هاشمی.
فصل 4- محاسبات زمانی در شبکه AoA
تمرین هفتم بسم الله الرحمن الرحیم درس یادگیری ماشین محمدعلی کیوان راد
هیدروگراف(Hydrograph) تهیه : دکتر محمد مهدی احمدی
ویژگی های DHCP جلوگیری از Conflict سرعت بخشیدن به کارها مدیریت متمرکز
بررسي روش های تحلیل رفتارکاربران در شبکه
بنام خدا زبان برنامه نویسی C (21814( Lecture 12 Selected Topics
SY800 router mode [AD-14-TB ].
Mobile Robot Kinematics
آشنایی مقدماتی با نرم افزار Endnote X4
ساختمان داده‌ها الگوریتمهای کوتاهترین مسیر
آزمایشگاه پایگاه داده ها قیود در جداول یک پایگاه داده در SQL Server
چگونه بفهمیم آیا ژورنالی ISI است؟ ایمپکت فاکتور دارد یا خیر؟
مدیریت مالی و اقتصاد مدیریت موضوع : نقطه سر به سر زمستان 93
منبع: & کتابMICROELECTRONIC CIRCUITS 5/e Sedra/Smith
فصل دوم جبر بول.
Route configuration for 5400W ADSL Router
شبکه های کامپیوتری 2 درس اول چند پخشی.
Natural language Understanding James Allen
کلیات سل و کنترل آن.
SSO Single Sign-on Systems
آشنایی با پایگاه داده mysql
خودآموز آسان ویکی‌پدیای فارسی
قسمت اول ترجمه: زهرا سادات آقامیری
Tree Sort.
کوئیز از جلسه قبل) کارخانه ای در حال خرید قطعه‌ای برای یکی از ماشین‌آلات خود می باشد اگر نرخ بهره 10% برای محاسبات فرض شود، دو مدل از قطعه ماشین در دسترس.
مدارهای منطقی فصل سوم - خصوصیات توابع سويیچی
ساختمان داده‌ها پیمایش درخت دودویی
آشنایی مقدماتی با نرم افزار Endnote X4
اصطکاک Designed By: Soheil Soorghali.
Sparse Coding مهندس فرامرزپور
Bucket sort اكرم منوچهري زهرا منوچهري
فصل 4. فصل 4 جمع آوری نیازمندیها و تحلیل سیستم : فاز تولید هر نرم افزار با مرحله ای به نام تعریف مسئله شروع می شود. منظور از تعریف مسئله شناخت محیط.
راهنمای استفاده از ابزار Mailings در Ms Word
راهبرد شاخه و حد (Branch and bound)
آشنایی مقدماتی با نرم افزار Endnote X4
آشنایی مقدماتی با نرم افزار Endnote
جستجوی منابع الکترونیک
به نام خدا Koha برنامه.
Basic Power Point Guidelines
فصل ششم مدارهای ترتیبی.
Uniprocessor Scheduling
توزیع میانگین نمونه سعید موسوی.
فصل 8 –Process and Deployment
مراحل پیش رو : 1- الگوریتم عقبگرد برای مسئله کوله پشتی صفر و یک
نسبت جرم فرمولی ”جرم اتمی و فرمول تجربی
برنامه ریزی خطی پیشرفته (21715( Advanced Linear Programming Lecture 7
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
Presentation transcript:

بسم الله الرحمن الرحیم هرس درخت تصمیم Dr.vahidipour Zahra bayat بسم الله الرحمن الرحیم هرس درخت تصمیم Dr.vahidipour Zahra bayat Elham saffar

هرس درخت تصمیم در درخت تصمیم مشکلی با نام overfitting مطرح است: ممکن است در ایجاد درخت تعداد زیادی شاخه به وجود آید دلیل آن وجود آنومالی در داده‌ها است آنومالی به دلیل وجود نویز و داده های پرت به وجود آید از طرفی ممکن است درخت ایجاد شده برای داده های جدید ضعیف عمل کند راه حل: هرس نمودن شاخه‌های زائد است اینکار باعث کوچک شدن، ساده شدن و به الطبع فهم آسان درخت خواهد شد. ازجهتی برای داده های تست عملکرد بهتری خواهد داشت

هرس درخت تصمیم برای این منظور دو روش وجود دارد Prepruning Postpruning

هرس درخت تصمیم Prepruning این روش در زمان ساخت درخت اعمال می‌شود درواقع در صورتی که تشخیص داده شود که تقسیم بیشتر یک شاخه بهبودی در دقت نخواهد داشت آن شاخه هرس شده و دیگر تقسیم انجام نمیگیرد کلاس آن شاخه براساس بیشترین تعداد اعضای آن محاسبه می‌شود مثلا درصورتی که بیشتر داده‌های باقی‌مانده در آن شاخه yes باشند، شاخه را دیگر تقسیم نکرده و یک برگ با مقدار برچسب yes قرار میدهیم تقسیم شدن یا نشدن براساس تعیین یک آستانه مناسب است تعیین این آستانه ساده نیست

هرس درخت تصمیم Postpruning روش متداول تر است زمانی که درخت تصمیم ایجاد شد اعمال می‌شود درصورتی که زیر درخت یک گره، هرس شود ؛آن گره تبدیل به برگ می‌شود کلاس این برگ بیشترین درصد کلاس‌های آن زیر درخت خواهد شد این روش از روش قبلی هزینه برتر است

نمونه Postpruning بطور مثال در درخت CART از معیار cast complexity برای پس هرس استفاده می‌شود این معیار توسط دو عامل تعیین می‌شود تعیین برگ های درخت(number of leaves) نسبت خطای درخت(error rate) هرس از پایین درخت شروع می‌شود و براساس این معیار هرس شدن یا نشدن یک شاخه تعیین می‌شود برای تعیین خطای درخت از مجموعه pruning set برای تعیین درصد خطا استفاده میشود

Cost complexity pruning نرخ خطا درخت T با مجموعه داده S به این صورت تعریف میشود: err(T,S) زیر درختی که مقدار زیر را به حداقل برساند برای حذف انتخاب میشود تابع prune(T,t) تعریف میکند درختی را که بوسیله هرس کردن زیر درخت t از درخت T بدست می‌آید

Cost complexity pruning example Yes no Yes no A2 Class B A2 A3 Yes no Yes no no Yes A4 Class A A4 Class A A5 Class B Yes no Yes no Yes no Class A Class B Class A Class B Class B Class A

Reduced error pruning هرس خطای کاهش یافته از پایین به بالا انجام می شود. برای زیر درخت S در درخت ، اگر با جایگزین کردن S بوسیله ی برگ, خطا روی مجموعه هرس بیشتر نشد ؛ زیردرخت s را با برگ جایگزین میکنیم توجه داشته باشید که هرس از پایین به بالا و چپ به راست است.

reduced error pruning example

reduced error pruning example در هر درخت، تعداد نمونه هایی در داده های هرس که توسط گره های فردی اشتباه طبقه بندی می شوند در پرانتز داده می شوند. مرحله اول برای حذف زیر درختی وابسته به گره 3 است از آنجا که خطای زیردرخت در داده های هرس (1 خطا) ، خطای گره 3 خود (oerrors) است، گره 3 به یک برگ تبدیل می شود بعد، گره 6 به همین دلیل با یک برگ جایگزین می شود سپس در رویه هرس ،گره 2 برای حذف انتخاب میشود با این حال، به دلیل اینکه زیر درخت به گره 2 متصل می شود اشتباهات کمتر (0 خطا) از خود گره 2 (1 خطا) است ، زیر درختی باقی می ماند بعد، گره 6 با یک برگ جایگزین می شود با این حال، 2 نمی تواند به یک برگ ساخته شود، زیرا یک خطا را ایجاد می کند، در حالی که به عنوان یک زیر درخت، با برگ های تازه 3 و 6 ایجاد نمی کند.ُ

After pruning