Presentation is loading. Please wait.

Presentation is loading. Please wait.

یادگیری تقویتی Reinforcement Learning

Similar presentations


Presentation on theme: "یادگیری تقویتی Reinforcement Learning"— Presentation transcript:

1 یادگیری تقویتی Reinforcement Learning
دانشگاه صنعتی امیرکبیر یادگیری تقویتی Reinforcement Learning استاد درس: منصور فاتح

2 مرجع

3 نحوه ارزیابی 2 نمره حضور در کلاس 2 نمره حل تمرین
6 نمره ارائه و نوشتن گزارش 10 نمره پایان‌ترم حداکثر 3 نمره تهیه مقاله

4 مقاله تهیه شده در درس یادگیری تقویتی

5 فصل اول

6 یادگیری تقویتی در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد می‌گیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.

7 یادگیری تقویتی یادگیری تقویتی از این‌رو مورد توجه است که راهی برای آموزش عامل‌ها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. استراتژی اصلی برای اینکار استفاده از روشهای آماری است.

8

9

10

11

12 مقایسه RL با یادگیری با ناظر
یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد: مثال‌های یادگیری بصورت ورودی/ خروجی مطرح نمی‌شوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت می‌کند و به مرحله بعدی می‌رود. عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالت‌ها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد. تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم بطور همزمان صورت می پذیرد.

13 مقایسه RL با یادگیری با ناظر
Supervised Learning: Example Class Reinforcement Learning: Situation Reward Situation Reward

14 یادگیری با ناظر Error = (target output – actual output)
Training Info = desired (target) outputs Supervised Learning System Inputs Outputs Error = (target output – actual output)

15 یادگیری تقویتی هدف: جمع کردن حداکثر پاداش ممکن
Training Info = evaluations (“rewards” / “penalties”) RL System Inputs Outputs (“actions”) هدف: جمع کردن حداکثر پاداش ممکن هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست. حالت بعدی از روی عمل فعلی تعیین می‌شود. یادگیری مبتنی بر سعی و خطاست.

16 مثال: در یک سوپرمارکت برای کاهش ترافیک چه باید کرد؟ حل مسئله بر اساس طراحی چیدمان
سعی و خطای هدایت شده (guided Trial and error) تنها ترافیک را حل می‌کند و با داده‌های دیگر فروش کاری ندارد. راهی هوشمندانه: اطلاعات خرید هر فرد ذخیره شود. احتمال خرید هر جنس به شرط خرید جنسی دیگر محاسبه شود. بدست آوردن قاعده و قانون از روی احتمالات تصمیم‌گیری از روی قانون‌ها گاهی برای حل مسدله قاعده‌ها را استخراج می‌کنیم و بعد مسئله را حل می‌کنیم. گاهی بدون استخراج قواعد به دنبال حل مسئله هستیم. چیدن تصادفی اجناس چیدمان ساختاریافته

17 اگر پارامترهای دیگری مانند دزدی، سوددهی و ترافیک را بخواهیم بهینه کنیم، پیدا کردن تابع بهینه مشکل‌تر است.

18 مثال: به محض ورود به صفحه‌ی اول وب صفحه‌ی دوم به صورت خودکار دانلود شود.
بر اساس احتمالات شرطی کار کنیم. اضافه کردن ویژگی‌ها تصمیم‌گیری بهتر:

19 مثال:خریدار ماهی خوب و بد را تشخیص نمی‌دهد و آشپز بلد نیست اطلاعات مناسب راجع به ماهی خوب و بد را منتقل چگونه خریدار ماهی خوب خریداری کند..کند دانش ما صریح (explicit) نیست. فضای دانش یا وجود ندارد یا قابل انتقال نیست. راه حل: بر اساس برچسب زنی ماهی خوب می‌خرد. ویژگی‎های مناسب‌تر و بیشتر امکان تفکیک مناسب‌تر دادگان را می‌دهد. چون قواعد و دادگان از بیرون داده شده یادگیری بانظارت در این مسئله وجود دارد. بال قرمز خوب . . . بد . . روشنی چشم . بسیار بد . گوشت سفید

20 مثال: پیش‌بینی بانک از بازپرداخت وام؟
با بررسی موارد غیر عادی 3 حالت اتفاق می‌افتد: ویژگی‌ها کم بوده است. وام‌گیرنده دروغ‌گو بوده. وکیل رشوه گرفته است. ارزش‌گذاری وکیل بانک شغل وام‌گیرنده

21 فصل دوم

22 مسئله ماشین تصادفی در این مسئله در یکی از 4 ماشین سکه می‎اندازیم و ماشین جایزه می‌دهد. با ماشین اول 5 بار بازی شده و مقادیر، 0، 0، 5، 10، 35 جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 10 است. با ماشین دوم 5 بار بازی شده و مقادیر، 15-، 15-، 5، 10، 10- جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 5- است. با ماشین سوم یکبار بازی شده و مقدار 70 برنده شده است. با ماشین چهارم یک بار بازی شده و 5- برنده شده است. اگر ابتدا یک ماشین انتخاب شود و میانگین بالاتر از صفری داشته باشد در صورتی که سیاستی حریصانه (Greedy) داشته باشیم حق انتخاب از بقیه ماشین‌ها گرفته می‌شود. یک فرض برای حل مسئله لحاظ می‌کنیم: بردو باخت‌ها روی دارایی Agent تاثیری نمی‌گذارد.

23 چون بعد از هر عملی به حالت اولیه برمی‌گردیم، مسئله ما تک State است.
چه راه حل‌هایی برای حل مسئله پیشنهاد می‌دهید؟ راه حلی مناسب است که متوسط پاداش‌ها را افزایش دهد. راه حل مناسب: در ابتدای یادگیری تصادفی عمل می‌کنیم تا حق انتخاب به تمام ماشین‌ها داده شود. بعد از مدتی به متوسط پاداش‌ها بیشتر توجه می‌شود. بعد از مدتی از روند یادگیری، سیاست حریصانه (Greedy) را مد نظر قرار می‌دهیم. کاوش (Explore) بر روی عمل‌ها (Action) و انتخاب بهترین‌ها دست‌آوردهای کوتاه مدت فدای مزایای بلند مدت‌تر می‌شوند. احتمال انتخاب ماشین m ام

24 در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد می‌شود.
در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد می‌شود. در جایی که متوسط به اندازه کافی نزدیک به واقعیت شد، تصمیم‌گیری حریصانه آغاز می‌شود. ابتدای یادگیری تصمیم‌گیری حریصانه نقش متوسط پاداش زیاد شده

25 نکاتی راجع به این مسئله تصمیم‌گیری ما داده محور بود.
یادگیری در حین زندگی انجام شد و هر چه جلو رفتیم تصمیم‌گیری مناسب‌تری انجام شد. یادگیری با سعی و خطا بود و ابتدا کار تصادفی انتخاب کردیم. پاداش‌های جزئی داریم و نمی‌دانیم کدام ماشین متوسط بهتری دارد. با توجه به موارد 2، 3 و 4 یک سیاست داده محور یاد می‌گیریم(Policy).

26 مشخصه‌های اصلی یادگیری تقویتی
به یادگیر گفته نمی‌شود که چه عملی را باید انجام دهد. جستجو بر اساس سعی و خطا انجام می‌شود. یادگیر سعی می‌کند اعمالی را یاد بگیرد که بیشترین پاداش را تولید می‌کنند. دست‌آوردهای کوتاه مدت فدای مزایای بلند مدت‌تر می‌شوند. باید بین کاوش موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود. مسئله را بصورت یک عامل هدفمند مرتبط با یک محیط نامعین می‌بیند. اگر توزیع محیط، یکنواخت باشد، خوب است بعد از 1000 بار حریصانه عمل کنیم.

27 بررسی بیشتر ماشین تصادفی
سیاست اتخاذ ماشین‌ها پس نیاز به یادگیری AR و سپس تخمین F داریم. t : زمان را نشان می دهد. :تعداد دفعاتی که با ماشین m ام بازی بازی کرده‌ایم. تخمین متوسط پاداش در زمان t+1 :

28 شرط آنکه به تصمیم‌گیری نهایی برسیم و در زمان مقدار به
نزدیک شود، چیست؟ در مثال ماشین توسط k نقش t را بازی می‌کند. از تعریف اول داریم: پس یکی از کاندیدای :

29 اگر محیط non stationary بود، مقدار آلفا را از مقداری کمتر نمی‌کنیم.

30 سیاست‌های اتخاذی برای حل مسئله
در تصمیم‌گیری احتمالی، یک عدد تصادفی بین صفر تا یک، تولید می‌کنیم و بر حسب عدد تولید شده ماشین را انتخاب می‌کنیم. Greedy : فقط بهترین ماشین را انتخاب می‌کنیم. : با احتمال ماشین‌ها تصادفی انتخاب می‌شوند و با احتمال انتخاب ماشین‌ها با روش است. اوایل یادگیری به یک نزدیک است و هرچه یادگیری افزون می‌شود مقدار آن کاهش می‌یابد. Softmax : احتمال انتخاب هر عمل از رابطه زیر پیروی می‌کند.

31 در زمان طولانی متوسط پاداش بیشتر دارد
کسب دانش و یادگیری بهتر دانش به معنی مقدار Q است. ابتدا با دانش صفر تصمیم‌گیری می‌کنیم و مقدارQ را تصادفی تعیین می‌کنیم. هر چه پیش می‌رویم مقدار Q به مقدار هدف نزدیک می‌شود. چند سوال چگونه نتیجه یادگیری را ارزیابی کنیم و ببینیم که نتیجه یادگیری خوب بوده یا بد؟ روش آنکه ببینیم نتیجه بهتر کدام است، چیست؟ معیارهای مقایسه چه هستند؟ چون هدف ماکزیمم نمودن متوسط پاداش در طول زمان است، منحنی آبی بهتر است. یادگیری در طول زندگی هدف است. سیستمی خوب است که هم سریع باشد و هم به مقدار هدف (نهایی) همگرا شود. AR سریعتر در زمان طولانی متوسط پاداش بیشتر دارد

32 روش‌هایی که به مقدار نهایی همگرا نشوند، روش‌های مناسبی نیستند، هرچند که شاید خیلی سریع باشند.

33 روش رسم منحنی آزمون در بخش آزمون یادگیری نداریم.
در این روش ابتدا روند یادگیری دنبال می‌شود و مقدارهای Q به صورت روبه‌رو اخذ می‌شوند. سپس در بخش آزمون K بار به صورت greedy تصمیم‌گیری می‌شود. متوسط پاداش در زمان آزمون از فرمول زیر محاسبه می‌شود. یادگیری و محاسبه Q آزمون به کمک روش greedy

34 دوباره روند یادگیری دنبال می‌شود و مقدارهای Q به‌صورت روبه‌رو
اخذ می‌شوند. سپس در بخش آزمون K بار به صورت greedy تصمیم‌گیری می‌شود. با توجه به این روند شکل ARtest به صورت زیر است. چه زمانی فرآیند آموزش پایان می‌یابد؟ ARtest نزدیک شود به 100 200 مرتبه بازی

35 در عمل موجود نیست. چه کنیم؟
AR بین دو آزمون اگر ناچیز بود تقریبا یادگیری به مرحله‌ی خوبی رسیده است.

36 معیار Optimal action برای ارزیابی روش یادگیری
در این روش ارزیابی نقطه بهینه را می‌دانیم. می‌خواهیم بررسی کنیم کدام روش بهتر عمل می‌کند. مثلا می‌دانیم ماشین شانس دومی بهترین عملکرد را دارد. می‌خواهیم ببینیم با استفاده از روش‎های یادگیری مختلف در طول زمان یادگیری چند درصد عمل بهینه انتخاب می‌شود. تصمیم‌گیری به سمت greedy می‌رود. وقتی تعداد بازی به سمت بینهایت می‌رود تمام روش‌های دارای به یک نقطه همگرا می‌شوند.

37

38 آیا می‌توان greedy عمل کرد و به مقدار بهینه رسید؟
اگر ماکزیمم مقدار Q را به ازای انتخاب greedy داشته باشیم به مقدار بهینه می‌رسیم. اگر ماشینی را به صورت greedy انتخاب کردیم و میانگین پاداشش از میانگین پاداش بهینه کمتر بود، شانسی به بقیه ماشین‌ها داده نمی‌شود و به مقدار بهینه همگرا نمی‌شویم. آیا می‌توان برای این مشکل کاری کرد؟ یعنی از همان ابتدا greedy عمل کنیم و به مقدار بهینه برسیم؟

39 ابتدا greedy عمل می‌کنیم و یک ماشین را انتخاب می‌کنیم.
سپس بررسی می‌کنیم تا متوسط پاداش به مقدار نهایی خود نزدیک شود. چگونه؟؟ سپس ماشین مربوطه را حذف می‌کنیم و از میان بقیه ماشین‌ها greedy انتخاب می‌کنیم.

40 سوال: در ابتدا چگونه greedy عمل کنیم؟
اگر مقدار اولیه را بزرگ در نظر بگیریم شانس انتخاب را به همه ماشین‌ها می‌دهیم.

41 بررسی تاثیر مقدار دهی اولیه در آموزش
رابطه آخرین مقدار Q به صورت زیر است.

42 باید توجه کرد مجموع ضرایب پشت r و Q برابر با 1 است.
مقدار آلفا عددی ثابت است. خوب است بین 0.7 تا 0.9 باشد. هرچه از یادگیری می‌گذرد تاثیرگذاری Q0 کم می‌شود. تقریبا از جایی که ارزش Q0 به ارزش متوسط پاداش ببازد می‌توان greedy عمل کرد.

43 چرا درصد Optimal action در مورد روند greedy در جایی متوقف می‌شود و دیگر بالا نمی‌رود؟
روش رسم منحنی: در رسم منحنی روند آموزش را حدود 100 بار یا بیشتر از ابتدا تکرار می‌کنیم و میانگین مقادیر بدست آمده را رسم می‌کنیم.

44 چگونگی یادگیری در الگوریتم‌های ارائه شده
در روش‌های یادگیری ارائه شده، متوسط پاداش‌ها را تخمین می‌زدیم و سپس بر مبنای تخمین‌ها تصمیم‌گیری می‌کردیم. مثلا در روش ماشینی با متوسط بالاتر با احتمال بیشتر انتخاب می‌شد و بقیه ماشین‌ها شانس یکسانی برای انتخاب داشتند. روشی دیگر برای یادگیری: عمل‌هایی با پاداش بیشتر با احتمال بیشتر و عمل‌هایی با پاداش کمتر با احتمال کمتر انتخاب شوند.

45 یادگیری با مقایسه‌ی متوسط پاداش تقویتی
عمل‌هایی با پاداش بیشتر با احتمال بیشتر و عمل‌هایی با پاداش کمتر با احتمال کمتر انتخاب شوند. در این روش نیاز به یک مرجع مقایسه داریم تا پاداش کوچک و بزرگ قابل تعریف باشد. متوسط پاداشی که از همه‌ی عمل‌ها گرفتیم، مرجع مناسبی برای مقایسه است. هر چه جلو می‌رویم این معیار دقت بالاتری خواهد داشت. پاداش عمل‌ها انتخاب با احتمال بیشتر متوسط پاداش همه عمل‌ها انتخاب با احتمال کمتر مرتبه بازی

46 متوسط پاداش همه ماشین‌ها
در این روش یادگیری ارزش برای هر عمل ایجاد می‌کنیم و ارزش‌ها به روز می‌کنیم. ارزش متوسط پاداش همه ماشین‌ها تصمیم‌گیری با توجه به ارزش‌دهی به عمل‌ها اوایل یادگیری بتا نزدیک به یک است و هرچه جلو می‌رویم مقدار بتا را کم می‌کنیم. مفهوم ارزیابی(Evaluate) : میزان خوب بودن عمل تعیین شود. یادگیری همراه ارزیابی زمان یادگیری را افزایش می‎دهد.

47 نمودار یادگیری با مقایسه‌ی متوسط پاداش تقویتی

48 روش یادگیری تعقیبی Pursuit method
در این روش عملی که Q ماکزیمم را ایجاد نموده به روز می‌شود. عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب بقیه عمل‌ها سیاست قبلی بعلاوه عملی که Q ماکزیمم را ایجاد نموده به شدت در تصمیم‌گیری دخیل است.

49 مفهوم بتا کوچک و بزرگ چیست؟
بتا بزرگ به مفهوم ترجیح عمل‌های کنونی به عمل‌های قبلی است و مفهوم بتا کوچک به معنی لحاظ کردن همه‌ی عمل‌های قبلی و کنونی در تصمیم‌گیری است. انتخاب بتا به صورت افزایشی بهتر تنظیم پارامتر است.

50

51 فصل سوم مسئله یادگیری تقویتی

52 ساختار کلی مسئله یادگیری تقویتی
در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم: عامل یادگیری را از طریق تعامل با محیط انجام می‌دهد. برای اینکار باید اعمالی که عامل می‌تواند در محیط انجام دهد مشخص باشند.

53 ساختار کلی مسئله یادگیری تقویتی
محیط برای محیط باید مشخصه‌های زیر تعیین شوند: وضعیت(State): برداشت عامل از شرایط محیط و خودش عامل می‌تواند از طریق ورودی‌هایش تشخیص دهد که در چه وضعیتی قرار دارد. در ماشین شانس حالت میزان پول و عمل انتخاب یکی از ماشین‌ها است. در ماشین شانس فرض کردیم که یک حالت وجود دارد و میزان پول با بازی کردن تغییر نمی‌کند. پاداش Y X

54 ساختار کلی مسئله یادگیری تقویتی
عامل در وضعیت St عمل at را انجام می‌دهد. اینکار باعث می‌شود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل پاداش rt+1 را از محیط دریافت می نماید. عمل یادگیری عبارت است از یاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال، منجر به دریافت پاداش حداکثری از محیط گردد. سیاست t . . . s a r t +1 t +2 t +3

55 ساختار کلی مسئله یادگیری تقویتی
احتمال‌ها مبتنی بر ارزش عمل‌ها به‌روز می‌شوند. ارزش انجام عمل وقتی برداشت از عامل است به صورت نمایش داده می‌شود. اگر وضعیت عامل در محیط به‌صورت باشد، بین دو ارزش زیر تفاوتی وجود ندارد.

56 محیط در RLعامل یادگیر بطور سعی‌وخطا با یک محیط پویا درگیر شده و یاد می‌گیرد که برای هر موقعیت چه عملی را انجام دهد. این محیط باید قابل مشاهده یا حداقل تا قسمتی قابل مشاهده برای عامل باشد (partially observable) . اگر برداشت عامل از محیط کامل نباشد یعنی برای دو حالت مختلف یک State داشته باشیم، محیط مشاهده‌ناپذیر است. مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد. در حالت ایده‌ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوری‌های مربوطه بر اساس این فرض بنا شده‌اند.

57 محیط محیط مجموعه‌ای از S حالت ممکن است.
در هر لحظه عامل می‌تواند یکی از A عمل ممکن را انجام دهد. عامل ممکن است در مقابل عمل و یا مجموعه‌ای از اعمالی که انجام می‌دهد پاداش r را دریافت کند. این پاداش ممکن است مثبت یا منفی باشد. در حالت کلی محیط می‌تواند غیر قطعی (non deterministic) باشد. یعنی انجام یک عمل مشابه در یک وضعیت یکسان به وضعیت بعدی یکسان یا مقدار پاداش یکسانی منجر نشود. با این وجود محیط بصورت stationary فرض می‌شود. یعنی احتمال تغییر وضعیت یا دریافت پاداش در طول زمان یکسان فرض می‌شود.

58 محیط فضا پیوسته است ولی برای انجام یادگیری، محیط را بخش‌بندی می‌کنیم. n تعداد بخش‌ها است. زیاد کردن بخش‌ها زمان یادگیری را افزون می‌کند و وقتی در دو بخش حالت عامل عوض نمی‌شود در واقع باید دو بخش را یک بخش نمود. n ..... ... 2 1

59 رفتار عامل عامل در محیط حرکت کرده و حالت‌ها و پاداش‌های مربوطه را به خاطر می‌سپارد. عامل سعی می‌کند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.

60 تابع تقویتی در RLوقتی عامل در یک حالت خاص عملی را انجام می‌دهد، در مقابل پاداش (reward or reinforcement) دریافت می‌کند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید. یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement function مناسب با اهداف عامل است. اینکار به طرق مختلف انجام می‌شود.

61 پاداش اگر دنباله‌ای از پاداش‌ها بصورت زیر موجود باشند:
عامل باید سعی نماید تا پاداشی را که از محیط دریافت می‌کند حداکثر نماید. در واقع امید ریاضی پاداش را به حداکثر رساند. عملیات یادگیری به دو دسته تقسیم می‌شوند: Continual: تا ابد یا تا زمانی که می‌توانیم کار را دنبال می‌کنیم. Episodic : در جایی عملیات تمام می‌شود. در وضعیت نهایی عامل هر عملی انجام دهد به همان وضعیت بر می‌گردد و پاداش صفر را دریافت می‌کند. t . . . s a r t +1 t +2 t +3 E k

62 پاداش پس امکان تبدیلEpisodic بهContinual وجود دارد.
در بسیاری از مسایل، تعامل با محیط بصورت اپیزودی انجام می‌شود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه می‌یابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی (خاتمه اپیزود یادگیری) ST بدست می‌آید برابر است با:

63 در نظر گرفتن پاداش‌های آینده
پاداش Rt : مجموع پاداشی که عامل با شروع از زمانt می‌تواند جمع کند. به روش‌های مختلف می‌توان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداش‌های نزدیک‌تر ارزش بیشتری داده می‌شود. در واقع عامل در لحظه t است و یک پیش‌بینی از آینده خود دارد. +50 -1 +3 r9 r5 r4 r1

64 مدل‌های عملکرد بهینه یکی از نکات مهم در انتخاب عمل، نحوه لحاظ کردن رخدادهای آینده در تصمیم فعلی عامل است. مدل‌های مختلفی برای لحاظ کردن تاثیر رخدادهای آینده در انتخاب عمل وجود دارد : مدل اول : در این مدل تنها پاداش فعلی مهم است و پاداش‌های آینده در تصمیم‌گیری لحاظ نمی‌شوند. در این روش مسیر اول انتخاب می‌شود. t s a +1 t +1 -100 t +2 t a -1 s' t +1 +100 s‘ t +2

65 مدل‌های عملکرد بهینه مدل دوم : این روش بسیار مرسوم بوده و به پاداش‌هایی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداش‌های فوری داده می‌شود. مثلا اگر مسیر اول انتخاب می‌شود. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2

66 مدل‌های عملکرد بهینه مدل سوم (مدل متوسط پاداش) : در این روش فرقی بین پاداش‌های نزدیک و دور در نظر گرفته نمی‌شود. مثلا در شکل زیر مسیرهای اول و دوم تفاوتی ندارند. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2

67 خاصیت مارکوف(Markov) وضعیت مرحله St تمامی اطلاعات لازم را در اختیار عامل قرار می‌دهد. یعنی عامل به اطلاعات دیگری نیاز ندارد. بعبارت دیگر قرار گرفتن در یک وضعیت به معنای داشتن خلاصه گذشته عامل است و نیازی نیست تا از گذشته آن چیز دیگری بدانیم. یعنی اگر احتمال انتقال از یک حالت به حالت دیگر مستقل از کل گذشته‌ باشد، دنباله خصوصیت مارکوف دارد.

68 رباتی در راستای محور X ها حرکت می‌کند،آیا این ربات دارای مشخصه مارکوف است؟
1 2 n معادلات دینامیکی سیستم با توجه به معادله دینامیکی سیستم تنها اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف است.

69 در مسئله قبل اگر باد بوزد و عمل F انجام شود ربات 2 خانه به جلو می‌رود و اگر عمل NA انجام شود 1 خانه به جلو می‌رود و در صورت عدم وزش باد مانند مثال قبلی عمل می‌شود. اگر در 50 درصد مواقع وزش باد وجود داشته باشد آیا محیط مارکوف است؟ با توجه به معادله دینامیکی سیستم، اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف نیست. اگر حالت را درباره یک مورد عقب‌تر هم در نظر بگیریم محیط مارکوف می‌شود:

70 یادگیری خط مشی هدف پیدا کردن یک سیاست بهینه است که Rt را ماکزیمم کند.
هدف یادگیری تقویتی این است که یک خط مشی بهینه‌ای مثل p* پیدا نماید به نحوی‌که مقدار امید ریاضی فوق را برای تمامی حالات ماکزیمم کند. در واقع هدف بدست آوردن، احتمال انجام a به شرط آنکه در حالت ، s باشد، است. نحوه محاسبه Rt در صورتی که مدل دارای مشخصه مارکوف باشد: معادلات دینامیک سیستم به صورت زیر است: اگر مسئله یادگیری تقویتی را روی معادلات بالا حل کنیم در واقع یک مسئله MDP(Markov Decision Process ) را حل کرده‌ایم.

71 در رابطه قبل E ارزش مورد انتظار (expected value) یا امید ریاضی است.
معادلات دینامیکی سیستم بالا اگر در حالتی که از s به s’ می‌رویم در 60% موارد پاداش 10 و در 40% موارد پاداش 1- را بگیریم، معادلات دینامیکی سیستم بالا را چگونه خواهد شد؟ .4 r= 2 S” S a S’ .6 r=1

72

73 تابع مقدار (Value Function )
تابع مقدار عبارت است از نگاشتی ازstates به state values که می‌تواند توسط هر تقریب زننده تابع، نظیر یک شبکه عصبی تخمین زده شود. ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود چقدر است؟ وابسته به طرحی است که برای آینده داریم. پس ارزش را تحت یک سیاست بیان می‌کنیم. بخواهید بازاری شوید. بخواهید شرکت بزنید. بخواهید استاد دانشگاه شوید. ارزش حالت s تحت سیاست π

74 s a +1 2 a -5 s' -10 s‘ در سیاست اول داریم: در سیاست دوم داریم: 1 3 2
4 -10 s‘ در سیاست اول داریم: در سیاست دوم داریم:

75 مثال یک مسئله MDP با 16 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. مقادیر نشان داده شده مقدار مورد انتظار برای هر حالت در صورت انجام یک حرکت تصادفی برای رسیدن به هدف است.

76 در شکل زیر تابع مقدار را بدست آورید؟
چرا گاما در محاسبات تاثیر نداشت؟ چون تعداد مراحل یک بود. .8 r=1 S” .6 S a1 S’ .2 r=-1 .4 S”’ a2 r=-5

77 State action value ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود و تصمیم بگیری درس RL را بگیری، چقدر است؟ در مثال قبل داریم: ارزش حالت s و عمل a تحت سیاست π

78 چگونه تابع مقدار را پیدا کنیم؟
چگونه تابع مقدار را پیدا کنیم؟ A : ارزش مورد انتظار تحت پاداش آنی B : ارزش مورد انتظار تحت پاداش‌های آینده

79 p1 r1 S” .5 S a1 S’ (1-p1) r2 .5 S”’ a2 r3

80 پارامترهای دینامیکی سیستم
منظور از سیاست این است که به هر عمل یک احتمال انتخاب تخصیص می‌دهیم. پس معادله بلمن به شکل زیر بدست می‌آید: ارزش‌های بعدی پارامترهای دینامیکی سیستم سیاست

81 فصل چهارم Dynamic Programming

82 روش Policy Evaluation

83 روش Policy Evaluation

84 روش Policy Evaluation S1 S2 S3

85 روش Policy Evaluation شرط همگرایی

86 چگونه سیاست بهینه را بدست آوریم؟
سیاستی که به ازای تمام موقعیت‌ها مقدار تابع ارزش را ماکزیمم می‌کند، سیاست بهینه است. دنبال روشی هستیم که به صورت هدایت شده در فضای سیاست حرکت کند. معیار هدایت یا نشانه‌های مسیر برای حرکت کردن در فضای سیاست است.

87 فرمول بالا می‌گوید که مقدار ماکزیمم تابع ارزش در هر موقعیت، تابع ارزش نهایی را ماکزیمم می‌کند یعنی در هر موقعیت (state) حریصانه عمل کنید. در مسئله‌ای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟ جواب: باید انتخاب شود.

88 در مسئله‌ای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟
جواب: در این حالت چندین سیاست بهینه می‌توانیم داشته باشیم. مثلا یا

89 مثال یک مسئله MDP با 9 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. رفتن به خانه‌های پر شده، ارزشی برابر با صفر دارد. مقدار گاما یک فرض شود.

90 -1

91 -2 -7/4

92 با نگاه به مقادیر ارزش‌ها می‌توان سیاست بهینه حریصانه را بدست آورد.
-2 -7/4

93 مثال یک مسئله MDP با 16 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است.

94

95

96 Policy improvement در موقعیت، S سیاست را انتخاب کن و از آنجا به بعد با سیاست پیش برو. می‌خواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند.

97

98 در هیچ حالتی نباید از بدتر باشد.
در هیچ حالتی نباید از بدتر باشد. اگر فقط در یک state مقدار نسبت به بهتر بود و اطلاعی راجع به باقی موقعیت‌ها نداشتیم، در همان state به جای از استفاده می‌کنیم و در بقیه‌ی موقعیت‌ها از بهره می‌گیریم. در هر حالت احتمال انتخاب Q ماکزیمم را یک می‌کنیم و باقی احتمالات را صفر قرار می‌دهیم.

99 Policy Iteration دو سیاست متوالی با هم مقایسه می‌شوند اگر متفاوت بود، دوباره مراحل تکرار می‌شوند و در غیر این صورت الگوریتم پایان می‌یابد.

100

101 Value Iteration برای کوتاه کردن برنامه از این روش استفاده می‌شود.

102

103 مثال شخصی در جیبش 1 ، 2 یا 3 تومان پول است. یعنی s={1,2,3} است. با توجه به پولی که در جیبش داردمی‌تواند معادل پول یا کمتر شرط بندی کند یعنی داریم: A(1)={1} A(2)={1,2} A(3)={1,2,3}: اگر 3 تومان در جیبش باشد می‌تواند 1 یا 2 یا 3 تومان شرط بندی کند اگر سکه شیر بیابد معادل مقدار شرط بندی جایزه می‌گیرد و اگر خط بیاید معادل مقدار شرط‌بندی پول از دست می‌دهد. احتمال آمدن شیر 40 درصد است. در ضمن اگر پول‌هایش از 3 بیشتر شود جایزه‌ای ویژه و بسیار زیاد خواهد گرفت و دیگر بازی نخواهد کرد. مشخص کنید که به ازای مقدار پول موجود در جیبش چه میزانی را باید شرط‌بندی کند؟

104 بررسی روش value iteration
جایزه‌ی صفر به‌ازای تمام حرکت‌ها و پایان بازی و برنده شدن و گرفتن جایزه غیر صفر(یک) به‌ازای s’>3 .

105

106 اگر دیگر مسئله تمام است و سیاست بهینه به صورت زیر بدست می‌آید.

107 مثال برای 99 حالت

108 فصل پنجم روش Monte Carlo

109 s r a a s r‘ a r’ a در فصل سوم مدل دینامیکی سیستم را محاسبه می‌کردیم:
اگر بینهایت بار، در موقعیت s1 باشیم و تحت یک سیاست خاص تصمیم‌گیری کنیم، Return های متفاوتی برای هر بار تصمیم‌گیری و رسیدن به پایان اپیزود خواهیم داشت. سمپلی از Return : سمپل دیگری از Return : 1 s r 2 a 3 E a 3 s 1 r‘ 4 a r’ 5 E a

110 در حالت کلی داریم: در واقع برای محاسبه تابع ارزش مدل محیط را محاسبه نمی‌کنیم و با توجه به تجربیات مقدار آن را بدست می‌آوریم. پس زمانی از این روش استفاده می کنیم که مدل محیط را نتوان بدست آورد. با توجه به فرمول‌ها تخمین ارزش در حالت S مستقل از تخمین ارزش دیگر حالت‌ها است. با استفاده از روش مونته کارلو به تخمین تابع ارزش پرداخته می‌شود.

111 Monte Carlo Policy Evaluation
روش first visit MC : فقط متوسط Return هایی که در اولین مرحله S را می‌بینند برای بدست آوردن تابع ارزش استفاده می‌شوند.

112 در این روش، اگر حلقه‌ای وجود داشته باشد، یک بار برای یک Return حلقه محاسبه می‌شود و برای مرتبه‌ی بعدی دیگر محاسبه لازم نیست. 1 s r 2 a 3 a s s 4 E

113 Monte Carlo Estimation of Action Values (Q)
فقط متوسط Return هایی که در اولین مرحله موقعیت S و عمل a را می‌بینند برای بدست آوردن استفاده می‌شوند. الگوریتم‌های این فصل مانند فصل گذشته هستند. تنها مدلی برای محیط در نظر گرفته نمی شود و در واقع نحوه‌ی محاسبه تابع ارزش فرق می کند. MC policy iteration : ابتدا Policy evaluation به کمک MC انجام می شود و در ادامه policy improvement انجام می‌شود.

114 Monte Carlo Control

115

116 انتخاب سیاست می‌تواند بر اساس greedy باشد
انتخاب سیاست می‌تواند بر اساس greedy باشد. انتخاب بر اساس greedy گاهی در یک مینیمم گیر می‌کند و دیگر از آن خارج نمی‌شود. انتخاب بر اساس soft policy یا این مشکل را حل می‌کند.

117 On Policy Monte Carlo Control

118 ما همواره دنبال آن هستیم که بهتر از باشد. یعنی:
در واقع، می‌خواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند که این رابطه را برای greedy ثابت کردیم. حال رابطه را برای نیز ثابت می‌کنیم:

119 در سیاست فرمول زیر را داشتیم و بنابراین فرمول رابطه بالا با هم برابر هستند.

120 برخی از تجزیه و تحلیل‌های روش ارائه شده
در این روش یادگیری در یک محیط stationary به یک سیاست بهینه دست می‌یابیم. در این روش بهترین را می‌یابیم اما بهترین greedy را پیدا نمی‌کنیم. فلسفه یادگیری عدم انتخاب تصادفی عمل‌ها است پس اگر اپسیلون را برابر با صفر بگیریم روش ما به greedy تبدیل می‌شود. ولی با فلسفه یادگیری در تضاد است. Soft policy : سیاستی که در آن تمام state action ها مشاهده می‌شوند. پس روش ارائه شده دارای سیاست soft است.

121 خوب است در روند یادگیری 2 سیاست داشته باشیم
خوب است در روند یادگیری 2 سیاست داشته باشیم. با سیاست soft زندگی کنیم و سیاستی که پس ذهنم evaluate می‌کنیم، بر اساس greedy باشد. : سیاستی که با آن زندگی می‌کنیم. : سیاستی که می‌خواهیم ارزش آن را پیدا کنیم. احتمال ساخت اپیزودی با موقعیت اولیه st :

122 اگر مدل محیط را داشتیم، تابع ارزش از رابطه زیر محاسبه می‌شود:
پس برای تابع ارزش با سیاستی متفاوت داریم: برای نرمالیزه کردن

123 زمانی می‌توان از رابطه مربوطه استفاده نمود که که برای سیاست
این شرط برقرار است. در رابطه زیر مدل محیط حذف می‌شود.

124 Off Policy Monte Carlo Control

125 نکاتی راجع به الگوریتم ارائه شده
با سیاست soft زندگی کنیم و سیاستی که evaluate می‌کنیم، بر اساس greedy می‌باشد. هر بار که اپیزود تمام می‌شود، سیاست بررسی و بهبود داده می‌شود. اپسیلون اوایل یادگیری زیاد است و آرام ، کم می‌شود ولی هیچ‌گاه صفر نمی‌شود. در روش‌های ارائه شده در این فصل Q هر state مستقل از بقیه‌ی Q ها است که این امر الگوریتم را زمان‌بر می‌کند. در روش dynamic programming که در فصل 4 ارائه شد تابع ارزش هر state وابسته به state های دیگر بود که الگوریتم را سریع می‌نمود. در فصل بعد الگوریتم‌هایی را مطرح می‌کنیم که از تخمین تابع ارزش بر مبنای state های دیگر استفاده می‌شود تا سرعت آن افزایش یابد.

126 فصل ششم یادگیری TD (Temporal Difference)

127 یادگیری TD وقتی مدل محیط را نداشتیم از روش مونته کارلو برای تخمین تابع ارزش استفاده می‌کردیم. در واقع به‌ازای هر Return جدید تابع ارزش به اندازه آلفا تغییر می‌کند. به‌ازای دو رابطه بالا با هم برابر می‌شوند. اگر آلفا ثابت باشد، روش ارائه شده تحت عنوان constant- MC است. اگر آلفا متغییر باشد، روش ارائه شده تحت عنوان dynamic- MC است.

128 جایگیزینی رابطه بالا در رابطه زیر:
1 s r 2 a 3 E a

129 خطای TD به صورت روبه‌رو تعریف می‌شود:
این خطا به‌ازای یک مشاهده محاسبه می‌شود. یعنی وقتی در موقعیت S قرار دارید، به ازای یک مشاهده، محاسبه می‌شود که چه پاداشی دریافت می‌شود و به کدام موقعیت می‌روید. سپس تفاوت این مقدار با تخمین تابع ارزش در مرحله‌ی قبل به عنوان خطا محاسبه و به تخمین تابع ارزش اضافه می‌شود. اگر مقدار خطا به سمت صفر نزدیک شود، یادگیری به پایان می‌رسد. در این روش از تک مشاهده بهره گرفته می‌شود و به همین دلیل به این روش TD(0) گفته می‌شود. اگر تعداد مشاهدات 2 باشد به روش TD(1) گفته می‌شود و مقدار Return از عبارت زیر محاسبه می‌شود: در روش مونته کارلو باید یک اپیزود به پایان برسد تا بتوانید روابط را به روز کنید. ولی در این روش یک تخمین را بر روی تخمین دیگر بنا می‌کنیم یا به اصطلاح عمل bootstrap انجام می‌شود و با تغییر موقعیت از S به S’ روابط به‌روز می‌شوند.. پس روش TD سریعتر از مونته‌کارلو است.

130 چه زمانی یادگیری پایان می‌یابد؟
اگر به تعداد کافی از یک نقطه گذر شود، avr.R دقیق‌تر می‌شود و تغییرات آن در هر مرحله کمتر می‌شود. در نتیجه تابع خطا به سمت صفر میل می‌کند و یادگیری پایان می‌پذیرد. اویل یادگیری آلفا زیاد است. ولی هر چه در روند یادگیری پیش می‌رویم، آلفا به سمت صفر نزدیک می‌شود و در نتیجه، نقش پاداش لحظه‌ای کم می‌شود.

131 شبه کد روش TD(0)

132 SARSA در این روش مقدار Q با فرمول زیر، به‌روز می‌شود.
این روش on policy است و سیاست بهینه بر اساس روش تعیین می‌شود.

133 Q-Learning در این روش مقدار Q با فرمول زیر، به‌روز می‌شود.
این روش off policy است و در هر موقعیت با سیاست عمل انتخاب می‌شود. ولی مقدار Q بر اساس سیاست greedy به روز می‌شود. در این روش با یک سیاست Soft زندگی می‌کنیم، ولی یک سیاست greedy را بهبود می‌دهیم.

134 شبه کد روش Q-Learning

135 الگوریتم Actor-Critic
خطای TD به صورت روبه‌رو تعریف می‌شود: تابع ارزش هر موقعیت با توجه به فرمول خطا به‌روز می‌شود: اگر تابع خطا مثبت باشد مقدار تابع ارزش زیاد شده و باید عملی که تابع ارزش را بالا برده با احتمال بیشتری انتخاب شود و اگر تابع خطا منفی باشد مقدار تابع ارزش کم شده و باید عملی که تابع ارزش را پایین برده با احتمال کمتری انتخاب شود: اگر سیاست Gibbs softmax را برای روش برگزینیم. تابع سیاست با فرمول زیر محاسبه می‌شود:

136 دیاگرام روش Actor-Critic
این سیستم درجه آزادی بیشتری نسبت به دو روش قبل دارد. چرا این روش نسبت به دو روش قبل بهتر عمل نمی‌کند؟ چون در این روش پارامترهای بیشتری باید تنظیم شوند و تنظیم این پارامترها مشکل است و به همین دلیل کارایی سیستم کم می‌شود. P(s,a) در اوایل یادگیری برای همه موقعیت‌ها یکسان است.

137 فصل هفتم یادگیری

138 استفاده از مزایایی MC و TD
در روش TD از پاداش کنونی و ارزش state های مجاور برای محاسبه تابع ارزش استفاده می‌شد که در این روش به‌روزرسانی سریع انجام می‌شد اما زمانی زیادی می‌گذرد تا‌ state های بعدی ارزش خود را به‌درستی در محاسبات نشان دهند. می‌خواهیم از مزایای این روش‌ها با هم استفاده کنیم.

139 تخمین Return مقدار Return از رابطه زیر محاسبه می‌شود:
اگر n به سمت T رود روش MC می‌شود و اگر n=1 روش TD است. اگر تفاوت ارزش را به صورت زیر لحاظ کنیم هم از پاداش لحظه‌ای استفاده می‌کنیم و هم از ارزش state های بعدی:


Download ppt "یادگیری تقویتی Reinforcement Learning"

Similar presentations


Ads by Google