Download presentation
Presentation is loading. Please wait.
1
یادگیری تقویتی Reinforcement Learning
دانشگاه صنعتی امیرکبیر یادگیری تقویتی Reinforcement Learning استاد درس: منصور فاتح
2
مرجع
3
نحوه ارزیابی 2 نمره حضور در کلاس 2 نمره حل تمرین
6 نمره ارائه و نوشتن گزارش 10 نمره پایانترم حداکثر 3 نمره تهیه مقاله
4
مقاله تهیه شده در درس یادگیری تقویتی
5
فصل اول
6
یادگیری تقویتی در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
7
یادگیری تقویتی یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. استراتژی اصلی برای اینکار استفاده از روشهای آماری است.
12
مقایسه RL با یادگیری با ناظر
یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد: مثالهای یادگیری بصورت ورودی/ خروجی مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود. عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد. تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم بطور همزمان صورت می پذیرد.
13
مقایسه RL با یادگیری با ناظر
Supervised Learning: Example Class Reinforcement Learning: … Situation Reward Situation Reward
14
یادگیری با ناظر Error = (target output – actual output)
Training Info = desired (target) outputs Supervised Learning System Inputs Outputs Error = (target output – actual output)
15
یادگیری تقویتی هدف: جمع کردن حداکثر پاداش ممکن
Training Info = evaluations (“rewards” / “penalties”) RL System Inputs Outputs (“actions”) هدف: جمع کردن حداکثر پاداش ممکن هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست. حالت بعدی از روی عمل فعلی تعیین میشود. یادگیری مبتنی بر سعی و خطاست.
16
مثال: در یک سوپرمارکت برای کاهش ترافیک چه باید کرد؟ حل مسئله بر اساس طراحی چیدمان
سعی و خطای هدایت شده (guided Trial and error) تنها ترافیک را حل میکند و با دادههای دیگر فروش کاری ندارد. راهی هوشمندانه: اطلاعات خرید هر فرد ذخیره شود. احتمال خرید هر جنس به شرط خرید جنسی دیگر محاسبه شود. بدست آوردن قاعده و قانون از روی احتمالات تصمیمگیری از روی قانونها گاهی برای حل مسدله قاعدهها را استخراج میکنیم و بعد مسئله را حل میکنیم. گاهی بدون استخراج قواعد به دنبال حل مسئله هستیم. چیدن تصادفی اجناس چیدمان ساختاریافته
17
اگر پارامترهای دیگری مانند دزدی، سوددهی و ترافیک را بخواهیم بهینه کنیم، پیدا کردن تابع بهینه مشکلتر است.
18
مثال: به محض ورود به صفحهی اول وب صفحهی دوم به صورت خودکار دانلود شود.
بر اساس احتمالات شرطی کار کنیم. اضافه کردن ویژگیها تصمیمگیری بهتر:
19
مثال:خریدار ماهی خوب و بد را تشخیص نمیدهد و آشپز بلد نیست اطلاعات مناسب راجع به ماهی خوب و بد را منتقل چگونه خریدار ماهی خوب خریداری کند..کند دانش ما صریح (explicit) نیست. فضای دانش یا وجود ندارد یا قابل انتقال نیست. راه حل: بر اساس برچسب زنی ماهی خوب میخرد. ویژگیهای مناسبتر و بیشتر امکان تفکیک مناسبتر دادگان را میدهد. چون قواعد و دادگان از بیرون داده شده یادگیری بانظارت در این مسئله وجود دارد. بال قرمز خوب . . . بد . . روشنی چشم . بسیار بد . گوشت سفید
20
مثال: پیشبینی بانک از بازپرداخت وام؟
با بررسی موارد غیر عادی 3 حالت اتفاق میافتد: ویژگیها کم بوده است. وامگیرنده دروغگو بوده. وکیل رشوه گرفته است. ارزشگذاری وکیل بانک شغل وامگیرنده
21
فصل دوم
22
مسئله ماشین تصادفی در این مسئله در یکی از 4 ماشین سکه میاندازیم و ماشین جایزه میدهد. با ماشین اول 5 بار بازی شده و مقادیر، 0، 0، 5، 10، 35 جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 10 است. با ماشین دوم 5 بار بازی شده و مقادیر، 15-، 15-، 5، 10، 10- جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 5- است. با ماشین سوم یکبار بازی شده و مقدار 70 برنده شده است. با ماشین چهارم یک بار بازی شده و 5- برنده شده است. اگر ابتدا یک ماشین انتخاب شود و میانگین بالاتر از صفری داشته باشد در صورتی که سیاستی حریصانه (Greedy) داشته باشیم حق انتخاب از بقیه ماشینها گرفته میشود. یک فرض برای حل مسئله لحاظ میکنیم: بردو باختها روی دارایی Agent تاثیری نمیگذارد.
23
چون بعد از هر عملی به حالت اولیه برمیگردیم، مسئله ما تک State است.
چه راه حلهایی برای حل مسئله پیشنهاد میدهید؟ راه حلی مناسب است که متوسط پاداشها را افزایش دهد. راه حل مناسب: در ابتدای یادگیری تصادفی عمل میکنیم تا حق انتخاب به تمام ماشینها داده شود. بعد از مدتی به متوسط پاداشها بیشتر توجه میشود. بعد از مدتی از روند یادگیری، سیاست حریصانه (Greedy) را مد نظر قرار میدهیم. کاوش (Explore) بر روی عملها (Action) و انتخاب بهترینها دستآوردهای کوتاه مدت فدای مزایای بلند مدتتر میشوند. احتمال انتخاب ماشین m ام
24
در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد میشود.
در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد میشود. در جایی که متوسط به اندازه کافی نزدیک به واقعیت شد، تصمیمگیری حریصانه آغاز میشود. ابتدای یادگیری تصمیمگیری حریصانه نقش متوسط پاداش زیاد شده
25
نکاتی راجع به این مسئله تصمیمگیری ما داده محور بود.
یادگیری در حین زندگی انجام شد و هر چه جلو رفتیم تصمیمگیری مناسبتری انجام شد. یادگیری با سعی و خطا بود و ابتدا کار تصادفی انتخاب کردیم. پاداشهای جزئی داریم و نمیدانیم کدام ماشین متوسط بهتری دارد. با توجه به موارد 2، 3 و 4 یک سیاست داده محور یاد میگیریم(Policy).
26
مشخصههای اصلی یادگیری تقویتی
به یادگیر گفته نمیشود که چه عملی را باید انجام دهد. جستجو بر اساس سعی و خطا انجام میشود. یادگیر سعی میکند اعمالی را یاد بگیرد که بیشترین پاداش را تولید میکنند. دستآوردهای کوتاه مدت فدای مزایای بلند مدتتر میشوند. باید بین کاوش موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود. مسئله را بصورت یک عامل هدفمند مرتبط با یک محیط نامعین میبیند. اگر توزیع محیط، یکنواخت باشد، خوب است بعد از 1000 بار حریصانه عمل کنیم.
27
بررسی بیشتر ماشین تصادفی
سیاست اتخاذ ماشینها پس نیاز به یادگیری AR و سپس تخمین F داریم. t : زمان را نشان می دهد. :تعداد دفعاتی که با ماشین m ام بازی بازی کردهایم. تخمین متوسط پاداش در زمان t+1 :
28
شرط آنکه به تصمیمگیری نهایی برسیم و در زمان مقدار به
نزدیک شود، چیست؟ در مثال ماشین توسط k نقش t را بازی میکند. از تعریف اول داریم: پس یکی از کاندیدای :
29
اگر محیط non stationary بود، مقدار آلفا را از مقداری کمتر نمیکنیم.
30
سیاستهای اتخاذی برای حل مسئله
در تصمیمگیری احتمالی، یک عدد تصادفی بین صفر تا یک، تولید میکنیم و بر حسب عدد تولید شده ماشین را انتخاب میکنیم. Greedy : فقط بهترین ماشین را انتخاب میکنیم. : با احتمال ماشینها تصادفی انتخاب میشوند و با احتمال انتخاب ماشینها با روش است. اوایل یادگیری به یک نزدیک است و هرچه یادگیری افزون میشود مقدار آن کاهش مییابد. Softmax : احتمال انتخاب هر عمل از رابطه زیر پیروی میکند.
31
در زمان طولانی متوسط پاداش بیشتر دارد
کسب دانش و یادگیری بهتر دانش به معنی مقدار Q است. ابتدا با دانش صفر تصمیمگیری میکنیم و مقدارQ را تصادفی تعیین میکنیم. هر چه پیش میرویم مقدار Q به مقدار هدف نزدیک میشود. چند سوال چگونه نتیجه یادگیری را ارزیابی کنیم و ببینیم که نتیجه یادگیری خوب بوده یا بد؟ روش آنکه ببینیم نتیجه بهتر کدام است، چیست؟ معیارهای مقایسه چه هستند؟ چون هدف ماکزیمم نمودن متوسط پاداش در طول زمان است، منحنی آبی بهتر است. یادگیری در طول زندگی هدف است. سیستمی خوب است که هم سریع باشد و هم به مقدار هدف (نهایی) همگرا شود. AR سریعتر در زمان طولانی متوسط پاداش بیشتر دارد
32
روشهایی که به مقدار نهایی همگرا نشوند، روشهای مناسبی نیستند، هرچند که شاید خیلی سریع باشند.
33
روش رسم منحنی آزمون در بخش آزمون یادگیری نداریم.
در این روش ابتدا روند یادگیری دنبال میشود و مقدارهای Q به صورت روبهرو اخذ میشوند. سپس در بخش آزمون K بار به صورت greedy تصمیمگیری میشود. متوسط پاداش در زمان آزمون از فرمول زیر محاسبه میشود. یادگیری و محاسبه Q آزمون به کمک روش greedy
34
دوباره روند یادگیری دنبال میشود و مقدارهای Q بهصورت روبهرو
اخذ میشوند. سپس در بخش آزمون K بار به صورت greedy تصمیمگیری میشود. با توجه به این روند شکل ARtest به صورت زیر است. چه زمانی فرآیند آموزش پایان مییابد؟ ARtest نزدیک شود به 100 200 مرتبه بازی
35
در عمل موجود نیست. چه کنیم؟
AR بین دو آزمون اگر ناچیز بود تقریبا یادگیری به مرحلهی خوبی رسیده است.
36
معیار Optimal action برای ارزیابی روش یادگیری
در این روش ارزیابی نقطه بهینه را میدانیم. میخواهیم بررسی کنیم کدام روش بهتر عمل میکند. مثلا میدانیم ماشین شانس دومی بهترین عملکرد را دارد. میخواهیم ببینیم با استفاده از روشهای یادگیری مختلف در طول زمان یادگیری چند درصد عمل بهینه انتخاب میشود. تصمیمگیری به سمت greedy میرود. وقتی تعداد بازی به سمت بینهایت میرود تمام روشهای دارای به یک نقطه همگرا میشوند.
38
آیا میتوان greedy عمل کرد و به مقدار بهینه رسید؟
اگر ماکزیمم مقدار Q را به ازای انتخاب greedy داشته باشیم به مقدار بهینه میرسیم. اگر ماشینی را به صورت greedy انتخاب کردیم و میانگین پاداشش از میانگین پاداش بهینه کمتر بود، شانسی به بقیه ماشینها داده نمیشود و به مقدار بهینه همگرا نمیشویم. آیا میتوان برای این مشکل کاری کرد؟ یعنی از همان ابتدا greedy عمل کنیم و به مقدار بهینه برسیم؟
39
ابتدا greedy عمل میکنیم و یک ماشین را انتخاب میکنیم.
سپس بررسی میکنیم تا متوسط پاداش به مقدار نهایی خود نزدیک شود. چگونه؟؟ سپس ماشین مربوطه را حذف میکنیم و از میان بقیه ماشینها greedy انتخاب میکنیم.
40
سوال: در ابتدا چگونه greedy عمل کنیم؟
اگر مقدار اولیه را بزرگ در نظر بگیریم شانس انتخاب را به همه ماشینها میدهیم.
41
بررسی تاثیر مقدار دهی اولیه در آموزش
رابطه آخرین مقدار Q به صورت زیر است.
42
باید توجه کرد مجموع ضرایب پشت r و Q برابر با 1 است.
مقدار آلفا عددی ثابت است. خوب است بین 0.7 تا 0.9 باشد. هرچه از یادگیری میگذرد تاثیرگذاری Q0 کم میشود. تقریبا از جایی که ارزش Q0 به ارزش متوسط پاداش ببازد میتوان greedy عمل کرد.
43
چرا درصد Optimal action در مورد روند greedy در جایی متوقف میشود و دیگر بالا نمیرود؟
روش رسم منحنی: در رسم منحنی روند آموزش را حدود 100 بار یا بیشتر از ابتدا تکرار میکنیم و میانگین مقادیر بدست آمده را رسم میکنیم.
44
چگونگی یادگیری در الگوریتمهای ارائه شده
در روشهای یادگیری ارائه شده، متوسط پاداشها را تخمین میزدیم و سپس بر مبنای تخمینها تصمیمگیری میکردیم. مثلا در روش ماشینی با متوسط بالاتر با احتمال بیشتر انتخاب میشد و بقیه ماشینها شانس یکسانی برای انتخاب داشتند. روشی دیگر برای یادگیری: عملهایی با پاداش بیشتر با احتمال بیشتر و عملهایی با پاداش کمتر با احتمال کمتر انتخاب شوند.
45
یادگیری با مقایسهی متوسط پاداش تقویتی
عملهایی با پاداش بیشتر با احتمال بیشتر و عملهایی با پاداش کمتر با احتمال کمتر انتخاب شوند. در این روش نیاز به یک مرجع مقایسه داریم تا پاداش کوچک و بزرگ قابل تعریف باشد. متوسط پاداشی که از همهی عملها گرفتیم، مرجع مناسبی برای مقایسه است. هر چه جلو میرویم این معیار دقت بالاتری خواهد داشت. پاداش عملها انتخاب با احتمال بیشتر متوسط پاداش همه عملها انتخاب با احتمال کمتر مرتبه بازی
46
متوسط پاداش همه ماشینها
در این روش یادگیری ارزش برای هر عمل ایجاد میکنیم و ارزشها به روز میکنیم. ارزش متوسط پاداش همه ماشینها تصمیمگیری با توجه به ارزشدهی به عملها اوایل یادگیری بتا نزدیک به یک است و هرچه جلو میرویم مقدار بتا را کم میکنیم. مفهوم ارزیابی(Evaluate) : میزان خوب بودن عمل تعیین شود. یادگیری همراه ارزیابی زمان یادگیری را افزایش میدهد.
47
نمودار یادگیری با مقایسهی متوسط پاداش تقویتی
48
روش یادگیری تعقیبی Pursuit method
در این روش عملی که Q ماکزیمم را ایجاد نموده به روز میشود. عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب بقیه عملها سیاست قبلی بعلاوه عملی که Q ماکزیمم را ایجاد نموده به شدت در تصمیمگیری دخیل است.
49
مفهوم بتا کوچک و بزرگ چیست؟
بتا بزرگ به مفهوم ترجیح عملهای کنونی به عملهای قبلی است و مفهوم بتا کوچک به معنی لحاظ کردن همهی عملهای قبلی و کنونی در تصمیمگیری است. انتخاب بتا به صورت افزایشی بهتر تنظیم پارامتر است.
51
فصل سوم مسئله یادگیری تقویتی
52
ساختار کلی مسئله یادگیری تقویتی
در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم: عامل یادگیری را از طریق تعامل با محیط انجام میدهد. برای اینکار باید اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.
53
ساختار کلی مسئله یادگیری تقویتی
محیط برای محیط باید مشخصههای زیر تعیین شوند: وضعیت(State): برداشت عامل از شرایط محیط و خودش عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه وضعیتی قرار دارد. در ماشین شانس حالت میزان پول و عمل انتخاب یکی از ماشینها است. در ماشین شانس فرض کردیم که یک حالت وجود دارد و میزان پول با بازی کردن تغییر نمیکند. پاداش Y X
54
ساختار کلی مسئله یادگیری تقویتی
عامل در وضعیت St عمل at را انجام میدهد. اینکار باعث میشود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل پاداش rt+1 را از محیط دریافت می نماید. عمل یادگیری عبارت است از یاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال، منجر به دریافت پاداش حداکثری از محیط گردد. سیاست t . . . s a r t +1 t +2 t +3
55
ساختار کلی مسئله یادگیری تقویتی
احتمالها مبتنی بر ارزش عملها بهروز میشوند. ارزش انجام عمل وقتی برداشت از عامل است به صورت نمایش داده میشود. اگر وضعیت عامل در محیط بهصورت باشد، بین دو ارزش زیر تفاوتی وجود ندارد.
56
محیط در RLعامل یادگیر بطور سعیوخطا با یک محیط پویا درگیر شده و یاد میگیرد که برای هر موقعیت چه عملی را انجام دهد. این محیط باید قابل مشاهده یا حداقل تا قسمتی قابل مشاهده برای عامل باشد (partially observable) . اگر برداشت عامل از محیط کامل نباشد یعنی برای دو حالت مختلف یک State داشته باشیم، محیط مشاهدهناپذیر است. مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد. در حالت ایدهال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شدهاند.
57
محیط محیط مجموعهای از S حالت ممکن است.
در هر لحظه عامل میتواند یکی از A عمل ممکن را انجام دهد. عامل ممکن است در مقابل عمل و یا مجموعهای از اعمالی که انجام میدهد پاداش r را دریافت کند. این پاداش ممکن است مثبت یا منفی باشد. در حالت کلی محیط میتواند غیر قطعی (non deterministic) باشد. یعنی انجام یک عمل مشابه در یک وضعیت یکسان به وضعیت بعدی یکسان یا مقدار پاداش یکسانی منجر نشود. با این وجود محیط بصورت stationary فرض میشود. یعنی احتمال تغییر وضعیت یا دریافت پاداش در طول زمان یکسان فرض میشود.
58
محیط فضا پیوسته است ولی برای انجام یادگیری، محیط را بخشبندی میکنیم. n تعداد بخشها است. زیاد کردن بخشها زمان یادگیری را افزون میکند و وقتی در دو بخش حالت عامل عوض نمیشود در واقع باید دو بخش را یک بخش نمود. n ..... ... 2 1
59
رفتار عامل عامل در محیط حرکت کرده و حالتها و پاداشهای مربوطه را به خاطر میسپارد. عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.
60
تابع تقویتی در RLوقتی عامل در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید. یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement function مناسب با اهداف عامل است. اینکار به طرق مختلف انجام میشود.
61
پاداش اگر دنبالهای از پاداشها بصورت زیر موجود باشند:
عامل باید سعی نماید تا پاداشی را که از محیط دریافت میکند حداکثر نماید. در واقع امید ریاضی پاداش را به حداکثر رساند. عملیات یادگیری به دو دسته تقسیم میشوند: Continual: تا ابد یا تا زمانی که میتوانیم کار را دنبال میکنیم. Episodic : در جایی عملیات تمام میشود. در وضعیت نهایی عامل هر عملی انجام دهد به همان وضعیت بر میگردد و پاداش صفر را دریافت میکند. t . . . s a r t +1 t +2 t +3 E k
62
پاداش پس امکان تبدیلEpisodic بهContinual وجود دارد.
در بسیاری از مسایل، تعامل با محیط بصورت اپیزودی انجام میشود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه مییابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی (خاتمه اپیزود یادگیری) ST بدست میآید برابر است با:
63
در نظر گرفتن پاداشهای آینده
پاداش Rt : مجموع پاداشی که عامل با شروع از زمانt میتواند جمع کند. به روشهای مختلف میتوان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداشهای نزدیکتر ارزش بیشتری داده میشود. در واقع عامل در لحظه t است و یک پیشبینی از آینده خود دارد. +50 -1 +3 r9 r5 r4 r1
64
مدلهای عملکرد بهینه یکی از نکات مهم در انتخاب عمل، نحوه لحاظ کردن رخدادهای آینده در تصمیم فعلی عامل است. مدلهای مختلفی برای لحاظ کردن تاثیر رخدادهای آینده در انتخاب عمل وجود دارد : مدل اول : در این مدل تنها پاداش فعلی مهم است و پاداشهای آینده در تصمیمگیری لحاظ نمیشوند. در این روش مسیر اول انتخاب میشود. t s a +1 t +1 -100 t +2 t a -1 s' t +1 +100 s‘ t +2
65
مدلهای عملکرد بهینه مدل دوم : این روش بسیار مرسوم بوده و به پاداشهایی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداشهای فوری داده میشود. مثلا اگر مسیر اول انتخاب میشود. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2
66
مدلهای عملکرد بهینه مدل سوم (مدل متوسط پاداش) : در این روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نمیشود. مثلا در شکل زیر مسیرهای اول و دوم تفاوتی ندارند. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2
67
خاصیت مارکوف(Markov) وضعیت مرحله St تمامی اطلاعات لازم را در اختیار عامل قرار میدهد. یعنی عامل به اطلاعات دیگری نیاز ندارد. بعبارت دیگر قرار گرفتن در یک وضعیت به معنای داشتن خلاصه گذشته عامل است و نیازی نیست تا از گذشته آن چیز دیگری بدانیم. یعنی اگر احتمال انتقال از یک حالت به حالت دیگر مستقل از کل گذشته باشد، دنباله خصوصیت مارکوف دارد.
68
رباتی در راستای محور X ها حرکت میکند،آیا این ربات دارای مشخصه مارکوف است؟
1 2 n معادلات دینامیکی سیستم با توجه به معادله دینامیکی سیستم تنها اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف است.
69
در مسئله قبل اگر باد بوزد و عمل F انجام شود ربات 2 خانه به جلو میرود و اگر عمل NA انجام شود 1 خانه به جلو میرود و در صورت عدم وزش باد مانند مثال قبلی عمل میشود. اگر در 50 درصد مواقع وزش باد وجود داشته باشد آیا محیط مارکوف است؟ با توجه به معادله دینامیکی سیستم، اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف نیست. اگر حالت را درباره یک مورد عقبتر هم در نظر بگیریم محیط مارکوف میشود:
70
یادگیری خط مشی هدف پیدا کردن یک سیاست بهینه است که Rt را ماکزیمم کند.
هدف یادگیری تقویتی این است که یک خط مشی بهینهای مثل p* پیدا نماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حالات ماکزیمم کند. در واقع هدف بدست آوردن، احتمال انجام a به شرط آنکه در حالت ، s باشد، است. نحوه محاسبه Rt در صورتی که مدل دارای مشخصه مارکوف باشد: معادلات دینامیک سیستم به صورت زیر است: اگر مسئله یادگیری تقویتی را روی معادلات بالا حل کنیم در واقع یک مسئله MDP(Markov Decision Process ) را حل کردهایم.
71
در رابطه قبل E ارزش مورد انتظار (expected value) یا امید ریاضی است.
معادلات دینامیکی سیستم بالا اگر در حالتی که از s به s’ میرویم در 60% موارد پاداش 10 و در 40% موارد پاداش 1- را بگیریم، معادلات دینامیکی سیستم بالا را چگونه خواهد شد؟ .4 r= 2 S” S a S’ .6 r=1
73
تابع مقدار (Value Function )
تابع مقدار عبارت است از نگاشتی ازstates به state values که میتواند توسط هر تقریب زننده تابع، نظیر یک شبکه عصبی تخمین زده شود. ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود چقدر است؟ وابسته به طرحی است که برای آینده داریم. پس ارزش را تحت یک سیاست بیان میکنیم. بخواهید بازاری شوید. بخواهید شرکت بزنید. بخواهید استاد دانشگاه شوید. ارزش حالت s تحت سیاست π
74
s a +1 2 a -5 s' -10 s‘ در سیاست اول داریم: در سیاست دوم داریم: 1 3 2
4 -10 s‘ در سیاست اول داریم: در سیاست دوم داریم:
75
مثال یک مسئله MDP با 16 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکتها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. مقادیر نشان داده شده مقدار مورد انتظار برای هر حالت در صورت انجام یک حرکت تصادفی برای رسیدن به هدف است.
76
در شکل زیر تابع مقدار را بدست آورید؟
چرا گاما در محاسبات تاثیر نداشت؟ چون تعداد مراحل یک بود. .8 r=1 S” .6 S a1 S’ .2 r=-1 .4 S”’ a2 r=-5
77
State action value ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود و تصمیم بگیری درس RL را بگیری، چقدر است؟ در مثال قبل داریم: ارزش حالت s و عمل a تحت سیاست π
78
چگونه تابع مقدار را پیدا کنیم؟
چگونه تابع مقدار را پیدا کنیم؟ A : ارزش مورد انتظار تحت پاداش آنی B : ارزش مورد انتظار تحت پاداشهای آینده
79
p1 r1 S” .5 S a1 S’ (1-p1) r2 .5 S”’ a2 r3
80
پارامترهای دینامیکی سیستم
منظور از سیاست این است که به هر عمل یک احتمال انتخاب تخصیص میدهیم. پس معادله بلمن به شکل زیر بدست میآید: ارزشهای بعدی پارامترهای دینامیکی سیستم سیاست
81
فصل چهارم Dynamic Programming
82
روش Policy Evaluation
83
روش Policy Evaluation
84
روش Policy Evaluation S1 S2 S3
85
روش Policy Evaluation شرط همگرایی
86
چگونه سیاست بهینه را بدست آوریم؟
سیاستی که به ازای تمام موقعیتها مقدار تابع ارزش را ماکزیمم میکند، سیاست بهینه است. دنبال روشی هستیم که به صورت هدایت شده در فضای سیاست حرکت کند. معیار هدایت یا نشانههای مسیر برای حرکت کردن در فضای سیاست است.
87
فرمول بالا میگوید که مقدار ماکزیمم تابع ارزش در هر موقعیت، تابع ارزش نهایی را ماکزیمم میکند یعنی در هر موقعیت (state) حریصانه عمل کنید. در مسئلهای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟ جواب: باید انتخاب شود.
88
در مسئلهای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟
جواب: در این حالت چندین سیاست بهینه میتوانیم داشته باشیم. مثلا یا
89
مثال یک مسئله MDP با 9 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکتها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. رفتن به خانههای پر شده، ارزشی برابر با صفر دارد. مقدار گاما یک فرض شود.
90
-1
91
-2 -7/4
92
با نگاه به مقادیر ارزشها میتوان سیاست بهینه حریصانه را بدست آورد.
-2 -7/4
93
مثال یک مسئله MDP با 16 حالت داریم.
عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکتها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است.
96
Policy improvement در موقعیت، S سیاست را انتخاب کن و از آنجا به بعد با سیاست پیش برو. میخواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند.
98
در هیچ حالتی نباید از بدتر باشد.
در هیچ حالتی نباید از بدتر باشد. اگر فقط در یک state مقدار نسبت به بهتر بود و اطلاعی راجع به باقی موقعیتها نداشتیم، در همان state به جای از استفاده میکنیم و در بقیهی موقعیتها از بهره میگیریم. در هر حالت احتمال انتخاب Q ماکزیمم را یک میکنیم و باقی احتمالات را صفر قرار میدهیم.
99
Policy Iteration دو سیاست متوالی با هم مقایسه میشوند اگر متفاوت بود، دوباره مراحل تکرار میشوند و در غیر این صورت الگوریتم پایان مییابد.
101
Value Iteration برای کوتاه کردن برنامه از این روش استفاده میشود.
103
مثال شخصی در جیبش 1 ، 2 یا 3 تومان پول است. یعنی s={1,2,3} است. با توجه به پولی که در جیبش داردمیتواند معادل پول یا کمتر شرط بندی کند یعنی داریم: A(1)={1} A(2)={1,2} A(3)={1,2,3}: اگر 3 تومان در جیبش باشد میتواند 1 یا 2 یا 3 تومان شرط بندی کند اگر سکه شیر بیابد معادل مقدار شرط بندی جایزه میگیرد و اگر خط بیاید معادل مقدار شرطبندی پول از دست میدهد. احتمال آمدن شیر 40 درصد است. در ضمن اگر پولهایش از 3 بیشتر شود جایزهای ویژه و بسیار زیاد خواهد گرفت و دیگر بازی نخواهد کرد. مشخص کنید که به ازای مقدار پول موجود در جیبش چه میزانی را باید شرطبندی کند؟
104
بررسی روش value iteration
جایزهی صفر بهازای تمام حرکتها و پایان بازی و برنده شدن و گرفتن جایزه غیر صفر(یک) بهازای s’>3 .
106
اگر دیگر مسئله تمام است و سیاست بهینه به صورت زیر بدست میآید.
107
مثال برای 99 حالت
108
فصل پنجم روش Monte Carlo
109
s r a a s r‘ a r’ a در فصل سوم مدل دینامیکی سیستم را محاسبه میکردیم:
اگر بینهایت بار، در موقعیت s1 باشیم و تحت یک سیاست خاص تصمیمگیری کنیم، Return های متفاوتی برای هر بار تصمیمگیری و رسیدن به پایان اپیزود خواهیم داشت. سمپلی از Return : سمپل دیگری از Return : 1 s r 2 a 3 E a 3 s 1 r‘ 4 a r’ 5 E a
110
در حالت کلی داریم: در واقع برای محاسبه تابع ارزش مدل محیط را محاسبه نمیکنیم و با توجه به تجربیات مقدار آن را بدست میآوریم. پس زمانی از این روش استفاده می کنیم که مدل محیط را نتوان بدست آورد. با توجه به فرمولها تخمین ارزش در حالت S مستقل از تخمین ارزش دیگر حالتها است. با استفاده از روش مونته کارلو به تخمین تابع ارزش پرداخته میشود.
111
Monte Carlo Policy Evaluation
روش first visit MC : فقط متوسط Return هایی که در اولین مرحله S را میبینند برای بدست آوردن تابع ارزش استفاده میشوند.
112
در این روش، اگر حلقهای وجود داشته باشد، یک بار برای یک Return حلقه محاسبه میشود و برای مرتبهی بعدی دیگر محاسبه لازم نیست. 1 s r 2 a 3 a s s 4 E
113
Monte Carlo Estimation of Action Values (Q)
فقط متوسط Return هایی که در اولین مرحله موقعیت S و عمل a را میبینند برای بدست آوردن استفاده میشوند. الگوریتمهای این فصل مانند فصل گذشته هستند. تنها مدلی برای محیط در نظر گرفته نمی شود و در واقع نحوهی محاسبه تابع ارزش فرق می کند. MC policy iteration : ابتدا Policy evaluation به کمک MC انجام می شود و در ادامه policy improvement انجام میشود.
114
Monte Carlo Control
116
انتخاب سیاست میتواند بر اساس greedy باشد
انتخاب سیاست میتواند بر اساس greedy باشد. انتخاب بر اساس greedy گاهی در یک مینیمم گیر میکند و دیگر از آن خارج نمیشود. انتخاب بر اساس soft policy یا این مشکل را حل میکند.
117
On Policy Monte Carlo Control
118
ما همواره دنبال آن هستیم که بهتر از باشد. یعنی:
در واقع، میخواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند که این رابطه را برای greedy ثابت کردیم. حال رابطه را برای نیز ثابت میکنیم:
119
در سیاست فرمول زیر را داشتیم و بنابراین فرمول رابطه بالا با هم برابر هستند.
120
برخی از تجزیه و تحلیلهای روش ارائه شده
در این روش یادگیری در یک محیط stationary به یک سیاست بهینه دست مییابیم. در این روش بهترین را مییابیم اما بهترین greedy را پیدا نمیکنیم. فلسفه یادگیری عدم انتخاب تصادفی عملها است پس اگر اپسیلون را برابر با صفر بگیریم روش ما به greedy تبدیل میشود. ولی با فلسفه یادگیری در تضاد است. Soft policy : سیاستی که در آن تمام state action ها مشاهده میشوند. پس روش ارائه شده دارای سیاست soft است.
121
خوب است در روند یادگیری 2 سیاست داشته باشیم
خوب است در روند یادگیری 2 سیاست داشته باشیم. با سیاست soft زندگی کنیم و سیاستی که پس ذهنم evaluate میکنیم، بر اساس greedy باشد. : سیاستی که با آن زندگی میکنیم. : سیاستی که میخواهیم ارزش آن را پیدا کنیم. احتمال ساخت اپیزودی با موقعیت اولیه st :
122
اگر مدل محیط را داشتیم، تابع ارزش از رابطه زیر محاسبه میشود:
پس برای تابع ارزش با سیاستی متفاوت داریم: برای نرمالیزه کردن
123
زمانی میتوان از رابطه مربوطه استفاده نمود که که برای سیاست
این شرط برقرار است. در رابطه زیر مدل محیط حذف میشود.
124
Off Policy Monte Carlo Control
125
نکاتی راجع به الگوریتم ارائه شده
با سیاست soft زندگی کنیم و سیاستی که evaluate میکنیم، بر اساس greedy میباشد. هر بار که اپیزود تمام میشود، سیاست بررسی و بهبود داده میشود. اپسیلون اوایل یادگیری زیاد است و آرام ، کم میشود ولی هیچگاه صفر نمیشود. در روشهای ارائه شده در این فصل Q هر state مستقل از بقیهی Q ها است که این امر الگوریتم را زمانبر میکند. در روش dynamic programming که در فصل 4 ارائه شد تابع ارزش هر state وابسته به state های دیگر بود که الگوریتم را سریع مینمود. در فصل بعد الگوریتمهایی را مطرح میکنیم که از تخمین تابع ارزش بر مبنای state های دیگر استفاده میشود تا سرعت آن افزایش یابد.
126
فصل ششم یادگیری TD (Temporal Difference)
127
یادگیری TD وقتی مدل محیط را نداشتیم از روش مونته کارلو برای تخمین تابع ارزش استفاده میکردیم. در واقع بهازای هر Return جدید تابع ارزش به اندازه آلفا تغییر میکند. بهازای دو رابطه بالا با هم برابر میشوند. اگر آلفا ثابت باشد، روش ارائه شده تحت عنوان constant- MC است. اگر آلفا متغییر باشد، روش ارائه شده تحت عنوان dynamic- MC است.
128
جایگیزینی رابطه بالا در رابطه زیر:
1 s r 2 a 3 E a
129
خطای TD به صورت روبهرو تعریف میشود:
این خطا بهازای یک مشاهده محاسبه میشود. یعنی وقتی در موقعیت S قرار دارید، به ازای یک مشاهده، محاسبه میشود که چه پاداشی دریافت میشود و به کدام موقعیت میروید. سپس تفاوت این مقدار با تخمین تابع ارزش در مرحلهی قبل به عنوان خطا محاسبه و به تخمین تابع ارزش اضافه میشود. اگر مقدار خطا به سمت صفر نزدیک شود، یادگیری به پایان میرسد. در این روش از تک مشاهده بهره گرفته میشود و به همین دلیل به این روش TD(0) گفته میشود. اگر تعداد مشاهدات 2 باشد به روش TD(1) گفته میشود و مقدار Return از عبارت زیر محاسبه میشود: در روش مونته کارلو باید یک اپیزود به پایان برسد تا بتوانید روابط را به روز کنید. ولی در این روش یک تخمین را بر روی تخمین دیگر بنا میکنیم یا به اصطلاح عمل bootstrap انجام میشود و با تغییر موقعیت از S به S’ روابط بهروز میشوند.. پس روش TD سریعتر از مونتهکارلو است.
130
چه زمانی یادگیری پایان مییابد؟
اگر به تعداد کافی از یک نقطه گذر شود، avr.R دقیقتر میشود و تغییرات آن در هر مرحله کمتر میشود. در نتیجه تابع خطا به سمت صفر میل میکند و یادگیری پایان میپذیرد. اویل یادگیری آلفا زیاد است. ولی هر چه در روند یادگیری پیش میرویم، آلفا به سمت صفر نزدیک میشود و در نتیجه، نقش پاداش لحظهای کم میشود.
131
شبه کد روش TD(0)
132
SARSA در این روش مقدار Q با فرمول زیر، بهروز میشود.
این روش on policy است و سیاست بهینه بر اساس روش تعیین میشود.
133
Q-Learning در این روش مقدار Q با فرمول زیر، بهروز میشود.
این روش off policy است و در هر موقعیت با سیاست عمل انتخاب میشود. ولی مقدار Q بر اساس سیاست greedy به روز میشود. در این روش با یک سیاست Soft زندگی میکنیم، ولی یک سیاست greedy را بهبود میدهیم.
134
شبه کد روش Q-Learning
135
الگوریتم Actor-Critic
خطای TD به صورت روبهرو تعریف میشود: تابع ارزش هر موقعیت با توجه به فرمول خطا بهروز میشود: اگر تابع خطا مثبت باشد مقدار تابع ارزش زیاد شده و باید عملی که تابع ارزش را بالا برده با احتمال بیشتری انتخاب شود و اگر تابع خطا منفی باشد مقدار تابع ارزش کم شده و باید عملی که تابع ارزش را پایین برده با احتمال کمتری انتخاب شود: اگر سیاست Gibbs softmax را برای روش برگزینیم. تابع سیاست با فرمول زیر محاسبه میشود:
136
دیاگرام روش Actor-Critic
این سیستم درجه آزادی بیشتری نسبت به دو روش قبل دارد. چرا این روش نسبت به دو روش قبل بهتر عمل نمیکند؟ چون در این روش پارامترهای بیشتری باید تنظیم شوند و تنظیم این پارامترها مشکل است و به همین دلیل کارایی سیستم کم میشود. P(s,a) در اوایل یادگیری برای همه موقعیتها یکسان است.
137
فصل هفتم یادگیری
138
استفاده از مزایایی MC و TD
در روش TD از پاداش کنونی و ارزش state های مجاور برای محاسبه تابع ارزش استفاده میشد که در این روش بهروزرسانی سریع انجام میشد اما زمانی زیادی میگذرد تا state های بعدی ارزش خود را بهدرستی در محاسبات نشان دهند. میخواهیم از مزایای این روشها با هم استفاده کنیم.
139
تخمین Return مقدار Return از رابطه زیر محاسبه میشود:
اگر n به سمت T رود روش MC میشود و اگر n=1 روش TD است. اگر تفاوت ارزش را به صورت زیر لحاظ کنیم هم از پاداش لحظهای استفاده میکنیم و هم از ارزش state های بعدی:
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.