Download presentation
1
ارائه دهنده: علي برادران هاشمي
اتوماتاهاي يادگير ارائه دهنده: علي برادران هاشمي
2
فهرست مطالب مقدمه اتوماتاهاي يادگير محيط اتوماتاهاي يادگير ساختار ثابت
اتوماتاهاي يادگير ساختار متغير الگوريتمهاي يادگيري
3
تعريف يادگيري: فرايندي كه براي تغيير در رفتار موجودات براي سازگاري با محيط ضروري است. اتوماتاهاي يادگير: يك تصميمگيرنده كه در يك محيط [تصادفي] عمل ميكند و بر اساس پاسخي كه دريافت ميكند، استراتژي خود براي انتخاب اقدام(عمل) را بهنگام ميكند. مثال: محیط: شبکه کامپیوتری مورد بررسی پاسخ محیط: دریافت Ack اقدام اتوماتا: انتخاب یک مسیر برای ارسال داده در یک مسیریاب
4
اتوماتاهاي يادگير هدف از طراحي يك اتوماتاي يادگير تشخيص چگونگي انتخاب اقدام بر اساس تجارب گذشته (اقدامها و پاسخها) است. دانش بسيار كمي درباره محيط وجود دارد. محيط ممكن است با گذشت زمان متغير باشد. For lewer level noise may not be the best solution تعداد محدودي اقدام ميتواند در يك محيط اجرا شود. هنگاميكه يك اقدام در محيط اجرا شد، محيط يك پاسخ تصادفي به آن ميدهد. مطلوب نامطلوب
5
محيط (1) يادگيري در رويكرد مبتني بر اتوماتاهاي يادگير، بصورت تشخيص يك اقدام/عمل بهينه از ميان مجموعه اقدامهاي مجاز ميباشد. اين اقدام در يك محيط تصادفي اِعمال ميشود. محيط با توليد يك خروجي به اقدام اعمال شده پاسخ ميدهد.
6
محيط (2) يك سه تايي α مجموعه وروديهاي محيط (اقدامهاي اتوماتاهاي يادگير) β مجموعه پاسخهاي محيط c مجموعه احتمالهاي جريمه ci احتمال دریافت پاسخ نامطلوب از محیط هنگامیکه اقدام i در محیط اعمال میشود. If c(i) is fixed no learning is needed!
7
محيط: مجموعه پاسخها βi ها -پاسخ محيط- اگر:
محيط: مجموعه پاسخها βi ها -پاسخ محيط- اگر: دودويي باشد ( 0 و 1): محيط مدل P β={0,1} تعداد محدود، در بازه [1، 0] باشد: محيط مدل Q مانند β={0,1/4,1/2,3/4,1} يك مقدار تصادفي در بازه [1، 0] باشد: محيط مدل S β=[0,1]
8
محيط: مجموعه جريمهها اگرci ها ثابت و مشخص باشد؟
محيط: مجموعه جريمهها اگرci ها ثابت و مشخص باشد؟ نيازي به يادگيري نيست! اقدام بهينه=اقدامي با كمترين جريمه مسائلی کهci ها ناشناخته هستند مورد نظر میباشند.
9
اتوماتاهای Φ = {Φ1, Φ2,..., Φr} α = {α1, α2,..., αr }
مجموعه وضعيتهاي داخلی اتوماتاها مجموعه اقدامها مجموعه وروديهاي محيط تابع انتقال وضعيت تابع خروجي Φ = {Φ1, Φ2,..., Φr} α = {α1, α2,..., αr } β = {β1, β2,..., βr } F(.,.) : Φ* β →Φ G(.) : Φ→ α
10
دستهبندی اتوماتاها: قطعی و تصادفی
اتوماتاي قطعي (deterministic): اگر F و G هر دو نگاشتهايي قطعي باشند. با اطلاع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط)، وضعیت بعدی اتوماتا و اقدام آن مشخص میباشد. اتوماتاي تصادفي (Stochastic): اگر F يا G تصادفي باشند. با اطلاع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط)، فقط احتمال وضعیت بعدی اتوماتا و اقدام آن مشخص میباشد.
11
دستهبندی اتوماتاها: ساختار ثابت و متغیر
fijβ : احتمال اینکه اتوماتا با دریافت پاسخ β از وضعیت φi به وضعیت φj برود. gij : احتمال اینکه وضعیت φi مطابق با اقدام αj باشد. اتوماتاي ساختار ثابت: اگر احتمال تغيير حالت fijβ و احتمال انتخاب اقدام gij ثابت باشد. اتوماتاي ساختار متغير: اگر احتمال تغيير حالت fijβ و احتمال انتخاب اقدام gij متغير باشد.
12
اتوماتاهاي ساختار ثابت
L2N2 G2N2 Krinsky Krylov
13
اتوماتاي L2N,2 داراي 2N وضعيت و 2 اقدام ميباشد.
زماني كه تعداد جريمهها بيشتر از پاداشها ميگردد، اقدام ديگر را انتخاب ميكند. پاداش β =0 جريمه β =1 اقدام 1 اقدام 2 1 N N+1 2N
14
G2N,2 بعد از يك تغيير اقدام، براي تغيير مجدد نياز به n پاسخ نامطلوب است. پاداش β =0 اقدام 1 اقدام 2 1 N N+1 2N 1 N-1 N 2 3 2N N+2 N+1 2N-1 N+3 جریمه β =1
15
Krinsky براي تغيير وضعيت نياز به n پاسخ نامطلوب است. 1 پاداش اقدام 1
2 3 2N N+2 N+1 2N-1 N+3 1 پاداش β =0 جريمه β =1 مانند L2,N2 اقدام 1 اقدام 2 1 N N+1 2N
16
Krylov هنگاميكه اتوماتا در وضعيت i با يك پاسخ نامطلوب مواجه با احتمال 0.5 به i+1 و با احتمال 0.5 به وضعيت i-1 منتقل ميشود. 1 N-1 N 2 2N N+2 N+1 2N-1 پاداش β =0 مانند L2,N2 1 N-1 N 2 2N N+2 N+1 2N-1 جریمه β =1 0.5
17
Ponomarev
18
اتوماتاي يادگير ساختار متغير
تابع G با بردار احتمال و تابع F نيز با الگوريتم يادگيري جايگزين شدهاند. اگر LA عمل iام را در مرحله n ام انتخاب كند وپاسخ مطلوب از محيط دريافت نمايد، احتمال pi(n) افزايش و ساير احتمالها كاهش مييابد. براي پاسخ نامطلوب pi (n) كاهش و ساير احتمالها افزايش مييابد. در هر حال،تغييرات بگونهاي صورت ميپذيرد كه حاصل جمع تمام pi (n) ها همواره برابر با 1 است.
19
الگوریتم یادگیری الف- پاسخ مطلوب از محيط β(n)=0
توابع و دو تابع غير منفي هستند كه بترتيب توابع پاداش و جريمه ناميده ميشوند
20
الگوريتم يادگيري خطي (محیط مدلP)
الف- پاسخ مطلوب از محيط β(n)=0 ب- پاسخ نامطلوب از محيط β(n)=1 a پارامتر پاداش و b پارامتر جريمه اگر a و b با هم برابر باشند، الگوريتم را LRP مي ناميم. اگر b از a خيلي کوچکتر باشد، الگوريتم را LRεP مي ناميم. اگر b مساوي صفر باشد. الگوريتم را LRI مي نامند.
21
الگوريتم يادگيري خطي (محیط مدلS)
22
LA
23
Select Action
24
Update
25
معیارهای رفتار اتوماتاهای یادگیر(1)
میانگین جریمه دریافت شده توسط اتوماتا ci احتمال جريمه متناظر با اقدام αi در یک اتوماتای شانسی محض
26
معیارهای رفتار اتوماتاهای یادگیر(2)
اتوماتای یادگیر مصلحت اندیشexpedient : اگر اتوماتای یادگیر مصلحت اندیش مطلقAbsolutely expedient :
27
معیارهای رفتار اتوماتاهای یادگیر(3)
اتوماتای یادگیر بهینهOptimal : اگر مناسب در یک محیط ایستا stationary اتوماتای یادگیر ε-Optimal : مناسب در یک محیط غیرایستا non-stationary
28
fijβ : احتمال اینکه اتوماتا با دریافت پاسخ β از وضعیت φi به وضعیت φj برود.
gij : احتمال اینکه وضعیت φi مطابق با اقدام αj باشد.
29
احتمال اینکه اتوماتا در یک حالت مشخص باشد:
30
احتمال انتخاب اقدام iدر زمان n
31
اتوماتای L2,2
33
Extensions of L2,2
35
اتوماتاي يادگير با اقدامهاي متغير
در لحظه اقدام خود را فقط از يك زير مجموعه غير تهي v(n) از اقدامها كه اقدامهاي فعال ناميده ميشوند انتخاب ميكند. انتخاب زیر مجموعه v(n) توسط يك عامل خارجي و بصورت تصادفي انجام ميشود. براي انتخاب يك اقدام در زمان ، ابتدا مجموع احتمال اقدامهاي فعال خود K(n) را محاسبه ميكند و سپس بردارp^(n) را مطابق رابطه زیر محاسبه ميكند. اتوماتای یادگیر يك اقدام از مجموعه اقدامهاي فعال خود را بصورت تصادفي و مطابق بردار احتمال انتخاب كرده و بر محيط اعمال ميكند. پس از دريافت پاسخ محيط، اتوماتا بردار p^(n) را بهنگام میکند. الف- پاسخ مطلوب از محيط ب- پاسخ نامطلوب از محيط سپس بردار p(n) بهنگام میشود.
36
الگوریتم یادگیری Pursuit (1)
مشابه با الگوریتم LRI با این تفاوت که: در LRI بردار احتمال در جهت اقدامی که در آخرین گام پاداش دریافت کرده حرکت داده میشود. در Persuit بردار احتمال در جهت اقدامی که بیشترین تخمین برای دریافت پاداش دارد، حرکت داده میشود.
37
الگوریتم یادگیری Pursuit (2)
a(n) = ai و β(n) = [0, 1) a(n) = ai و β(n) = 1 Wi(n) تعداد دفعاتی است که اقدام i پاداش گرفته است. Zi(n) تعداد دفعاتی است که اقدام i انتخاب شده است. که pk(n) بیشترین تخمین دریافت پاداش dk را دارد.
39
اتوماتاي يادگير توزيع شده
شبكهاي از اتوماتاهاي يادگير كه براي حل يك مساله خاص با يكديگر همكاري ميكنند. هر لحظه، يك اتوماتاي فعال تعداد اقدامهاي هر اتوماتا=تعداد اتوماتاي متصل انتخاب اقدام iام : فعال شدن iامين اتوماتاي متصل.
40
اتوماتاي يادگير توزيع شده (ادامه)
DLA : (A,E)
41
پيدا كردن كوتاهترين مسير در يك گراف تصادفي
تغيير وزن يالها با گذشت زمان توالي اقدامهاي DLA = كوتاهترين مسير استفاده از اندازه مسير بدست آمده توسط DLA براي محاسبه پاسخ محيط (مطلوب يا نامطلوب) پاداش/جريمه براي مسير طي شده
42
پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
ايجاد يك DLA همريخت (isomorphic) با گراف مورد نظر در مرحله kام:
43
پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
44
پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
شرط خاتمه الگوريتم رسيدن احتمال مسير (حاصلضرب احتمال انتخاب يالهاي يك مسير) به يك حد آستانه . بررسي تعداد مسيرهاي مشخص.
45
پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
الگوريتم LRI جلوگيري از ايجاد دور اتوماتاي يادگير با تعداد اقدامهاي متغير غيرفعال كردن اقدام i در كليه اتوماتاها، هنگاميكه يك اتوماتا اقدام i خود را انتخاب ميكند.
46
مساله فروشنده دورهگرد پويا
تغيير وزن يالها نرخ تغييرات DLA همريخت با گراف مساله تغيير شرط پايان الگوريتم
47
مراجع [1] K. S. Narendra and M. A. L. Thathachar, "Learning automata a survey," IEEE Transactions on Systems, Man and Cybernetics, vol. 4, no. 2, pp , 1974. [2] P. Mars, J. R. Chen, and R. Nambiar, learning algorithms, theory and applications in signal processing, control, and communications, CRC Press, 1996. [3] M. Thathachar and P. Sastry, "Varieties of Learning automata: An Overview," IEEE Transactions on Systems, Man and Cybernetics, vol. 32, no. 6, pp , 2002.
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.