Presentation is loading. Please wait.

Presentation is loading. Please wait.

ارائه دهنده: علي برادران هاشمي

Similar presentations


Presentation on theme: "ارائه دهنده: علي برادران هاشمي"— Presentation transcript:

1 ارائه دهنده: علي برادران هاشمي
اتوماتاهاي يادگير ارائه دهنده: علي برادران هاشمي

2 فهرست مطالب مقدمه اتوماتاهاي يادگير محيط اتوماتاهاي يادگير ساختار ثابت
اتوماتاهاي يادگير ساختار متغير الگوريتمهاي يادگيري

3 تعريف يادگيري: فرايندي كه براي تغيير در رفتار موجودات براي سازگاري با محيط ضروري است. اتوماتاهاي يادگير: يك تصميم‌گيرنده كه در يك محيط [تصادفي] عمل مي‌كند و بر اساس پاسخي كه دريافت مي‌كند، استراتژي خود براي انتخاب اقدام(عمل) را بهنگام مي‌كند. مثال: محیط: شبکه کامپیوتری مورد بررسی پاسخ محیط: دریافت Ack اقدام اتوماتا: انتخاب یک مسیر برای ارسال داده در یک مسیر‌یاب

4 اتوماتاهاي يادگير هدف از طراحي يك اتوماتاي يادگير تشخيص چگونگي انتخاب اقدام بر اساس تجارب گذشته (اقدام‌ها و پاسخ‌ها) است. دانش بسيار كمي درباره محيط وجود دارد. محيط ممكن است با گذشت زمان متغير باشد. For lewer level noise may not be the best solution تعداد محدودي اقدام مي‌تواند در يك محيط اجرا شود. هنگاميكه يك اقدام در محيط اجرا شد، محيط يك پاسخ تصادفي به آن مي‌‌دهد. مطلوب  نامطلوب 

5 محيط (1) يادگيري در رويكرد مبتني بر اتوماتاهاي يادگير، بصورت تشخيص يك اقدام/عمل بهينه از ميان مجموعه اقدامهاي مجاز مي‌باشد. اين اقدام در يك محيط تصادفي اِعمال مي‌شود. محيط با توليد يك خروجي به اقدام اعمال شده پاسخ مي‌دهد.

6 محيط (2) يك سه تايي α مجموعه ورودي‌هاي محيط (اقدامهاي اتوماتاهاي يادگير) β مجموعه پاسخهاي محيط c مجموعه احتمالهاي جريمه ci احتمال دریافت پاسخ نامطلوب از محیط هنگامیکه اقدام i در محیط اعمال می‌شود. If c(i) is fixed no learning is needed!

7 محيط: مجموعه پاسخها βi ها -پاسخ محيط- اگر:
محيط: مجموعه پاسخها βi ها -پاسخ محيط- اگر: دودويي باشد ( 0 و 1): محيط مدل P β={0,1} تعداد محدود، در بازه [1، 0] باشد: محيط مدل Q مانند β={0,1/4,1/2,3/4,1} يك مقدار تصادفي در بازه [1، 0] باشد: محيط مدل S β=[0,1]

8 محيط: مجموعه جريمه‌ها اگرci ها ثابت و مشخص باشد؟
محيط: مجموعه جريمه‌ها اگرci ها ثابت و مشخص باشد؟ نيازي به يادگيري نيست! اقدام بهينه=اقدامي با كمترين جريمه مسائلی کهci ها ناشناخته هستند مورد نظر می‌باشند.

9 اتوماتاهای Φ = {Φ1, Φ2,..., Φr} α = {α1, α2,..., αr }
مجموعه وضعيتهاي داخلی اتوماتاها مجموعه اقدامها مجموعه وروديهاي محيط تابع انتقال وضعيت تابع خروجي Φ = {Φ1, Φ2,..., Φr} α = {α1, α2,..., αr } β = {β1, β2,..., βr } F(.,.) : Φ* β →Φ G(.) : Φ→ α

10 دسته‌بندی‌ اتوماتاها: قطعی و تصادفی
اتوماتاي قطعي (deterministic): اگر F و G هر دو نگاشتهايي قطعي باشند. با اطلاع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط)، وضعیت بعدی اتوماتا و اقدام آن مشخص می‌باشد. اتوماتاي تصادفي (Stochastic): اگر F يا G تصادفي باشند. با اطلاع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط)، فقط احتمال وضعیت بعدی اتوماتا و اقدام آن مشخص می‌باشد.

11 دسته‌بندی‌ اتوماتاها: ساختار ثابت و متغیر
fijβ : احتمال اینکه اتوماتا با دریافت پاسخ β از وضعیت φi به وضعیت φj برود. gij : احتمال اینکه وضعیت φi مطابق با اقدام αj باشد. اتوماتاي ساختار ثابت: اگر احتمال تغيير حالت fijβ و احتمال انتخاب اقدام gij ثابت باشد. اتوماتاي ساختار متغير: اگر احتمال تغيير حالت fijβ و احتمال انتخاب اقدام gij متغير باشد.

12 اتوماتاهاي ساختار ثابت
L2N2 G2N2 Krinsky Krylov

13 اتوماتاي L2N,2 داراي 2N وضعيت و 2 اقدام مي‌باشد.
زماني كه تعداد جريمه‌ها بيشتر از پاداش‌ها مي‌گردد، اقدام ديگر را انتخاب مي‌كند. پاداش β =0 جريمه β =1 اقدام 1 اقدام 2 1 N N+1 2N

14 G2N,2 بعد از يك تغيير اقدام، براي تغيير مجدد نياز به n پاسخ نامطلوب است. پاداش β =0 اقدام 1 اقدام 2 1 N N+1 2N 1 N-1 N 2 3 2N N+2 N+1 2N-1 N+3 جریمه β =1

15 Krinsky براي تغيير وضعيت نياز به n پاسخ نامطلوب است. 1 پاداش اقدام 1
2 3 2N N+2 N+1 2N-1 N+3 1 پاداش β =0 جريمه β =1 مانند L2,N2 اقدام 1 اقدام 2 1 N N+1 2N

16 Krylov هنگاميكه اتوماتا در وضعيت i با يك پاسخ نامطلوب مواجه با احتمال 0.5 به i+1 و با احتمال 0.5 به وضعيت i-1 منتقل مي‌شود. 1 N-1 N 2 2N N+2 N+1 2N-1 پاداش β =0 مانند L2,N2 1 N-1 N 2 2N N+2 N+1 2N-1 جریمه β =1 0.5

17 Ponomarev

18 اتوماتاي يادگير ساختار متغير
تابع G با بردار احتمال و تابع F نيز با الگوريتم يادگيري جايگزين شده‌اند. اگر LA عمل iام را در مرحله n ام انتخاب كند وپاسخ مطلوب از محيط دريافت نمايد، احتمال pi(n) افزايش و ساير احتمالها كاهش مي‌يابد. براي پاسخ نامطلوب pi (n) كاهش و ساير احتمالها افزايش مي‌يابد. در هر حال،‌تغييرات بگونه‌اي صورت مي‌پذيرد كه حاصل جمع تمام pi (n) ها همواره برابر با 1 است.

19 الگوریتم یادگیری الف- پاسخ مطلوب از محيط β(n)=0
توابع و دو تابع غير منفي هستند كه بترتيب توابع پاداش و جريمه ناميده مي‌شوند

20 الگوريتم يادگيري خطي (محیط مدلP)
الف- پاسخ مطلوب از محيط β(n)=0 ب- پاسخ نامطلوب از محيط β(n)=1 a پارامتر پاداش و b پارامتر جريمه اگر a و b با هم برابر باشند، الگوريتم را LRP مي ناميم. اگر b از a خيلي کوچکتر باشد، الگوريتم را LRεP مي ناميم. اگر b مساوي صفر باشد. الگوريتم را LRI مي نامند.

21 الگوريتم يادگيري خطي (محیط مدلS)

22 LA

23 Select Action

24 Update

25 معیارهای رفتار اتوماتاهای یادگیر(1)
میانگین جریمه‌ دریافت شده توسط اتوماتا ci احتمال جريمه متناظر با اقدام αi در یک اتوماتای شانسی محض

26 معیارهای رفتار اتوماتاهای یادگیر(2)
اتوماتای یادگیر مصلحت اندیشexpedient : اگر اتوماتای یادگیر مصلحت اندیش مطلقAbsolutely expedient :

27 معیارهای رفتار اتوماتاهای یادگیر(3)
اتوماتای یادگیر بهینهOptimal : اگر مناسب در یک محیط ایستا stationary اتوماتای یادگیر ε-Optimal : مناسب در یک محیط غیرایستا non-stationary

28 fijβ : احتمال اینکه اتوماتا با دریافت پاسخ β از وضعیت φi به وضعیت φj برود.
gij : احتمال اینکه وضعیت φi مطابق با اقدام αj باشد.

29 احتمال اینکه اتوماتا در یک حالت مشخص باشد:

30 احتمال انتخاب اقدام i‌در زمان n

31 اتوماتای L2,2

32

33 Extensions of L2,2

34

35 اتوماتاي يادگير با اقدامهاي متغير
در لحظه اقدام خود را فقط از يك زير مجموعه غير تهي v(n) از اقدامها كه اقدامهاي فعال ناميده مي‌شوند انتخاب مي‌كند. انتخاب زیر مجموعه v(n) توسط يك عامل خارجي و بصورت تصادفي انجام مي‌شود. براي انتخاب يك اقدام در زمان ، ابتدا مجموع احتمال اقدامهاي فعال خود K(n) را محاسبه مي‌كند و سپس بردارp^(n) را مطابق رابطه زیر محاسبه مي‌كند. اتوماتای یادگیر يك اقدام از مجموعه اقدام‌هاي فعال خود را بصورت تصادفي و مطابق بردار احتمال انتخاب كرده و بر محيط اعمال مي‌كند. پس از دريافت پاسخ محيط، اتوماتا بردار p^(n) را بهنگام می‌کند. الف- پاسخ مطلوب از محيط ب- پاسخ نامطلوب از محيط سپس بردار p(n) بهنگام می‌شود.

36 الگوریتم یادگیری Pursuit (1)
مشابه با الگوریتم LRI با این تفاوت که: در LRI بردار احتمال در جهت اقدامی که در آخرین گام پاداش دریافت کرده حرکت داده می‌شود. در Persuit بردار احتمال در جهت اقدامی که بیشترین تخمین برای دریافت پاداش دارد، حرکت داده می‌شود.

37 الگوریتم یادگیری Pursuit (2)
a(n) = ai  و β(n) = [0, 1) a(n) = ai  و β(n) = 1 Wi(n) تعداد دفعاتی است که اقدام i پاداش گرفته است. Zi(n) تعداد دفعاتی است که اقدام i انتخاب شده است. که pk(n) بیشترین تخمین دریافت پاداش dk را دارد.

38

39 اتوماتاي يادگير توزيع شده
شبكه‌اي از اتوماتاهاي يادگير كه براي حل يك مساله خاص با يكديگر همكاري مي‌كنند. هر لحظه، يك اتوماتاي فعال تعداد اقدامهاي هر اتوماتا=تعداد اتوماتاي متصل انتخاب اقدام iام : فعال شدن iامين اتوماتاي متصل.

40 اتوماتاي يادگير توزيع شده (ادامه)
DLA : (A,E)

41 پيدا كردن كوتاهترين مسير در يك گراف تصادفي
تغيير وزن يالها با گذشت زمان توالي اقدامهاي DLA = كوتاهترين مسير استفاده از اندازه مسير بدست آمده توسط DLA براي محاسبه پاسخ محيط (مطلوب يا نامطلوب) پاداش/جريمه براي مسير طي شده

42 پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
ايجاد يك DLA همريخت (isomorphic) با گراف مورد نظر در مرحله kام:

43 پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)

44 پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
شرط خاتمه الگوريتم رسيدن احتمال مسير (حاصلضرب احتمال انتخاب يالهاي يك مسير) به يك حد آستانه . بررسي تعداد مسيرهاي مشخص.

45 پيدا كردن كوتاهترين مسير در يك گراف تصادفي(ادامه)
الگوريتم LRI جلوگيري از ايجاد دور اتوماتاي يادگير با تعداد اقدامهاي متغير غيرفعال كردن اقدام i در كليه اتوماتاها، هنگاميكه يك اتوماتا اقدام i خود را انتخاب مي‌كند.

46 مساله فروشنده دوره‌گرد پويا
تغيير وزن يالها نرخ تغييرات DLA همريخت با گراف مساله تغيير شرط پايان الگوريتم

47 مراجع [1] K. S. Narendra and M. A. L. Thathachar, "Learning automata a survey," IEEE Transactions on Systems, Man and Cybernetics, vol. 4, no. 2, pp , 1974. [2] P. Mars, J. R. Chen, and R. Nambiar, learning algorithms, theory and applications in signal processing, control, and communications, CRC Press, 1996. [3] M. Thathachar and P. Sastry, "Varieties of Learning automata: An Overview," IEEE Transactions on Systems, Man and Cybernetics, vol. 32, no. 6, pp , 2002.


Download ppt "ارائه دهنده: علي برادران هاشمي"

Similar presentations


Ads by Google