یادگیری تقویتی Reinforcement Learning

Slides:

Advertisements

Similar presentations

Reinforcement Learning Peter Bodík. Previous Lectures Supervised learning –classification, regression Unsupervised learning –clustering, dimensionality.

Advertisements

Reinforcement learning

Lecture 18: Temporal-Difference Learning

Programming exercises: Angel – lms.wsu.edu – Submit via zip or tar – Write-up, Results, Code Doodle: class presentations Student Responses First visit.

TEMPORAL DIFFERENCE LEARNING Mark Romero – 11/03/2011.

brings-uas-sensor-technology-to- smartphones/ brings-uas-sensor-technology-to-

Monte-Carlo Methods Learning methods averaging complete episodic returns Slides based on [Sutton & Barto: Reinforcement Learning: An Introduction, 1998]

INTRODUCTION TO MACHINE LEARNING 3RD EDITION ETHEM ALPAYDIN © The MIT Press, Lecture.

Università di Milano-Bicocca Laurea Magistrale in Informatica Corso di APPRENDIMENTO E APPROSSIMAZIONE Lezione 6 - Reinforcement Learning Prof. Giancarlo.

Reinforcement Learning Tutorial

CS 182/CogSci110/Ling109 Spring 2008 Reinforcement Learning: Algorithms 4/1/2008 Srini Narayanan – ICSI and UC Berkeley.

Bayesian Reinforcement Learning with Gaussian Processes Huanren Zhang Electrical and Computer Engineering Purdue University.

Reinforcement Learning

Reinforcement Learning Mitchell, Ch. 13 (see also Barto & Sutton book on-line)

לביצוע מיידי ! להתחלק לקבוצות –2 או 3 בקבוצה להעביר את הקבוצות – היום בסוף השיעור ! ספר Reinforcement Learning – הספר קיים online ( גישה מהאתר של הסדנה.

1 Hybrid Agent-Based Modeling: Architectures,Analyses and Applications (Stage One) Li, Hailin.

1 Kunstmatige Intelligentie / RuG KI Reinforcement Learning Johan Everts.

Chapter 6: Temporal Difference Learning

Chapter 6: Temporal Difference Learning

Reinforcement Learning: Learning algorithms Yishay Mansour Tel-Aviv University.

INTRODUCTION TO Machine Learning ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.

1 Reinforcement Learning: Learning algorithms Function Approximation Yishay Mansour Tel-Aviv University.

REINFORCEMENT LEARNING LEARNING TO PERFORM BEST ACTIONS BY REWARDS Tayfun Gürel.

1 ECE-517 Reinforcement Learning in Artificial Intelligence Lecture 11: Temporal Difference Learning (cont.), Eligibility Traces Dr. Itamar Arel College.

Reinforcement Learning 主講人：虞台文 Content Introduction Main Elements Markov Decision Process (MDP) Value Functions.

Bayesian Reinforcement Learning Machine Learning RCC 16 th June 2011.

Reinforcement Learning

CMSC 471 Fall 2009 Temporal Difference Learning Prof. Marie desJardins Class #25 – Tuesday, 11/24 Thanks to Rich Sutton and Andy Barto for the use of their.

Neural Networks Chapter 7

INTRODUCTION TO Machine Learning

Reinforcement Learning 主講人：虞台文大同大學資工所智慧型多媒體研究室.

Schedule for presentations. 6.1: Chris? – The agent is driving home from work from a new work location, but enters the freeway from the same point. Thus,

Monte Carlo Methods. Learn from complete sample returns – Only defined for episodic tasks Can work in different settings – On-line: no model necessary.

CS 484 – Artificial Intelligence1 Announcements Homework 5 due Tuesday, October 30 Book Review due Tuesday, October 30 Lab 3 due Thursday, November 1.

Reinforcement Learning Elementary Solution Methods

Reinforcement Learning: Learning algorithms Yishay Mansour Tel-Aviv University.

Deep Learning and Deep Reinforcement Learning. Topics 1.Deep learning with convolutional neural networks 2.Learning to play Atari video games with Deep.

CS 5751 Machine Learning Chapter 13 Reinforcement Learning1 Reinforcement Learning Control learning Control polices that choose optimal actions Q learning.

Reinforcement Learning

A Comparison of Learning Algorithms on the ALE

Reinforcement learning

A Crash Course in Reinforcement Learning

Chapter 6: Temporal Difference Learning

Petar Kormushev, Sylvain Calinon and Darwin G. Caldwell

Chapter 5: Monte Carlo Methods

CMSC 471 – Spring 2014 Class #25 – Thursday, May 1

Reinforcement Learning

An Overview of Reinforcement Learning

Reinforcement Learning

Deep reinforcement learning

Biomedical Data & Markov Decision Process

Reinforcement Learning

UAV Route Planning in Delay Tolerant Networks

CMSC 671 – Fall 2010 Class #22 – Wednesday 11/17

Reinforcement learning

Instructors: Fei Fang (This Lecture) and Dave Touretzky

Dr. Unnikrishnan P.C. Professor, EEE

Reinforcement Learning

Reinforcement Learning

September 22, 2011 Dr. Itamar Arel College of Engineering

October 6, 2011 Dr. Itamar Arel College of Engineering

Chapter 6: Temporal Difference Learning

Chapter 1: Introduction

Chapter 10: Dimensions of Reinforcement Learning

Deep Reinforcement Learning

Chapter 7: Eligibility Traces

Reinforcement Learning (2)

Reinforcement Learning (2)

Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 7

Presentation transcript:

یادگیری تقویتی Reinforcement Learning دانشگاه صنعتی امیرکبیر یادگیری تقویتی Reinforcement Learning استاد درس: منصور فاتح

مرجع

نحوه ارزیابی 2 نمره حضور در کلاس 2 نمره حل تمرین 6 نمره ارائه و نوشتن گزارش 10 نمره پایان‌ترم حداکثر 3 نمره تهیه مقاله

مقاله تهیه شده در درس یادگیری تقویتی

فصل اول

یادگیری تقویتی در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد می‌گیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.

یادگیری تقویتی یادگیری تقویتی از این‌رو مورد توجه است که راهی برای آموزش عامل‌ها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. استراتژی اصلی برای اینکار استفاده از روشهای آماری است.

مقایسه RL با یادگیری با ناظر یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد: مثال‌های یادگیری بصورت ورودی/ خروجی مطرح نمی‌شوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت می‌کند و به مرحله بعدی می‌رود. عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالت‌ها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد. تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم بطور همزمان صورت می پذیرد.

مقایسه RL با یادگیری با ناظر Supervised Learning: Example Class Reinforcement Learning: … Situation Reward Situation Reward

یادگیری با ناظر Error = (target output – actual output) Training Info = desired (target) outputs Supervised Learning System Inputs Outputs Error = (target output – actual output)

یادگیری تقویتی هدف: جمع کردن حداکثر پاداش ممکن Training Info = evaluations (“rewards” / “penalties”) RL System Inputs Outputs (“actions”) هدف: جمع کردن حداکثر پاداش ممکن هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست. حالت بعدی از روی عمل فعلی تعیین می‌شود. یادگیری مبتنی بر سعی و خطاست.

مثال: در یک سوپرمارکت برای کاهش ترافیک چه باید کرد؟ حل مسئله بر اساس طراحی چیدمان سعی و خطای هدایت شده (guided Trial and error) تنها ترافیک را حل می‌کند و با داده‌های دیگر فروش کاری ندارد. راهی هوشمندانه: اطلاعات خرید هر فرد ذخیره شود. احتمال خرید هر جنس به شرط خرید جنسی دیگر محاسبه شود. بدست آوردن قاعده و قانون از روی احتمالات تصمیم‌گیری از روی قانون‌ها گاهی برای حل مسدله قاعده‌ها را استخراج می‌کنیم و بعد مسئله را حل می‌کنیم. گاهی بدون استخراج قواعد به دنبال حل مسئله هستیم. چیدن تصادفی اجناس چیدمان ساختاریافته

اگر پارامترهای دیگری مانند دزدی، سوددهی و ترافیک را بخواهیم بهینه کنیم، پیدا کردن تابع بهینه مشکل‌تر است.

مثال: به محض ورود به صفحه‌ی اول وب صفحه‌ی دوم به صورت خودکار دانلود شود. بر اساس احتمالات شرطی کار کنیم. اضافه کردن ویژگی‌ها تصمیم‌گیری بهتر:

مثال:خریدار ماهی خوب و بد را تشخیص نمی‌دهد و آشپز بلد نیست اطلاعات مناسب راجع به ماهی خوب و بد را منتقل چگونه خریدار ماهی خوب خریداری کند..کند دانش ما صریح (explicit) نیست. فضای دانش یا وجود ندارد یا قابل انتقال نیست. راه حل: بر اساس برچسب زنی ماهی خوب می‌خرد. ویژگی‎های مناسب‌تر و بیشتر امکان تفکیک مناسب‌تر دادگان را می‌دهد. چون قواعد و دادگان از بیرون داده شده یادگیری بانظارت در این مسئله وجود دارد. بال قرمز خوب . . . بد . . روشنی چشم . بسیار بد . گوشت سفید

مثال: پیش‌بینی بانک از بازپرداخت وام؟ با بررسی موارد غیر عادی 3 حالت اتفاق می‌افتد: ویژگی‌ها کم بوده است. وام‌گیرنده دروغ‌گو بوده. وکیل رشوه گرفته است. ارزش‌گذاری وکیل بانک شغل وام‌گیرنده

فصل دوم

مسئله ماشین تصادفی در این مسئله در یکی از 4 ماشین سکه می‎اندازیم و ماشین جایزه می‌دهد. با ماشین اول 5 بار بازی شده و مقادیر، 0، 0، 5، 10، 35 جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 10 است. با ماشین دوم 5 بار بازی شده و مقادیر، 15-، 15-، 5، 10، 10- جایزه دریافت شده است. متوسط جایزه برنده شده در هر بار 5- است. با ماشین سوم یکبار بازی شده و مقدار 70 برنده شده است. با ماشین چهارم یک بار بازی شده و 5- برنده شده است. اگر ابتدا یک ماشین انتخاب شود و میانگین بالاتر از صفری داشته باشد در صورتی که سیاستی حریصانه (Greedy) داشته باشیم حق انتخاب از بقیه ماشین‌ها گرفته می‌شود. یک فرض برای حل مسئله لحاظ می‌کنیم: بردو باخت‌ها روی دارایی Agent تاثیری نمی‌گذارد.

چون بعد از هر عملی به حالت اولیه برمی‌گردیم، مسئله ما تک State است. چه راه حل‌هایی برای حل مسئله پیشنهاد می‌دهید؟ راه حلی مناسب است که متوسط پاداش‌ها را افزایش دهد. راه حل مناسب: در ابتدای یادگیری تصادفی عمل می‌کنیم تا حق انتخاب به تمام ماشین‌ها داده شود. بعد از مدتی به متوسط پاداش‌ها بیشتر توجه می‌شود. بعد از مدتی از روند یادگیری، سیاست حریصانه (Greedy) را مد نظر قرار می‌دهیم. کاوش (Explore) بر روی عمل‌ها (Action) و انتخاب بهترین‌ها دست‌آوردهای کوتاه مدت فدای مزایای بلند مدت‌تر می‌شوند. احتمال انتخاب ماشین m ام

در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد می‌شود. در ابتدای یادگیری نقش بیشتر است. کم کم نقش AR زیاد می‌شود. در جایی که متوسط به اندازه کافی نزدیک به واقعیت شد، تصمیم‌گیری حریصانه آغاز می‌شود. ابتدای یادگیری تصمیم‌گیری حریصانه نقش متوسط پاداش زیاد شده

نکاتی راجع به این مسئله تصمیم‌گیری ما داده محور بود. یادگیری در حین زندگی انجام شد و هر چه جلو رفتیم تصمیم‌گیری مناسب‌تری انجام شد. یادگیری با سعی و خطا بود و ابتدا کار تصادفی انتخاب کردیم. پاداش‌های جزئی داریم و نمی‌دانیم کدام ماشین متوسط بهتری دارد. با توجه به موارد 2، 3 و 4 یک سیاست داده محور یاد می‌گیریم(Policy).

مشخصه‌های اصلی یادگیری تقویتی به یادگیر گفته نمی‌شود که چه عملی را باید انجام دهد. جستجو بر اساس سعی و خطا انجام می‌شود. یادگیر سعی می‌کند اعمالی را یاد بگیرد که بیشترین پاداش را تولید می‌کنند. دست‌آوردهای کوتاه مدت فدای مزایای بلند مدت‌تر می‌شوند. باید بین کاوش موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود. مسئله را بصورت یک عامل هدفمند مرتبط با یک محیط نامعین می‌بیند. اگر توزیع محیط، یکنواخت باشد، خوب است بعد از 1000 بار حریصانه عمل کنیم.

بررسی بیشتر ماشین تصادفی سیاست اتخاذ ماشین‌ها پس نیاز به یادگیری AR و سپس تخمین F داریم. t : زمان را نشان می دهد. :تعداد دفعاتی که با ماشین m ام بازی بازی کرده‌ایم. تخمین متوسط پاداش در زمان t+1 :

شرط آنکه به تصمیم‌گیری نهایی برسیم و در زمان مقدار به نزدیک شود، چیست؟ در مثال ماشین توسط k نقش t را بازی می‌کند. از تعریف اول داریم: پس یکی از کاندیدای :

اگر محیط non stationary بود، مقدار آلفا را از مقداری کمتر نمی‌کنیم.

سیاست‌های اتخاذی برای حل مسئله در تصمیم‌گیری احتمالی، یک عدد تصادفی بین صفر تا یک، تولید می‌کنیم و بر حسب عدد تولید شده ماشین را انتخاب می‌کنیم. Greedy : فقط بهترین ماشین را انتخاب می‌کنیم. : با احتمال ماشین‌ها تصادفی انتخاب می‌شوند و با احتمال انتخاب ماشین‌ها با روش است. اوایل یادگیری به یک نزدیک است و هرچه یادگیری افزون می‌شود مقدار آن کاهش می‌یابد. Softmax : احتمال انتخاب هر عمل از رابطه زیر پیروی می‌کند.

در زمان طولانی متوسط پاداش بیشتر دارد کسب دانش و یادگیری بهتر دانش به معنی مقدار Q است. ابتدا با دانش صفر تصمیم‌گیری می‌کنیم و مقدارQ را تصادفی تعیین می‌کنیم. هر چه پیش می‌رویم مقدار Q به مقدار هدف نزدیک می‌شود. چند سوال چگونه نتیجه یادگیری را ارزیابی کنیم و ببینیم که نتیجه یادگیری خوب بوده یا بد؟ روش آنکه ببینیم نتیجه بهتر کدام است، چیست؟ معیارهای مقایسه چه هستند؟ چون هدف ماکزیمم نمودن متوسط پاداش در طول زمان است، منحنی آبی بهتر است. یادگیری در طول زندگی هدف است. سیستمی خوب است که هم سریع باشد و هم به مقدار هدف (نهایی) همگرا شود. AR سریعتر در زمان طولانی متوسط پاداش بیشتر دارد

روش‌هایی که به مقدار نهایی همگرا نشوند، روش‌های مناسبی نیستند، هرچند که شاید خیلی سریع باشند.

روش رسم منحنی آزمون در بخش آزمون یادگیری نداریم. در این روش ابتدا روند یادگیری دنبال می‌شود و مقدارهای Q به صورت روبه‌رو اخذ می‌شوند. سپس در بخش آزمون K بار به صورت greedy تصمیم‌گیری می‌شود. متوسط پاداش در زمان آزمون از فرمول زیر محاسبه می‌شود. یادگیری و محاسبه Q آزمون به کمک روش greedy

دوباره روند یادگیری دنبال می‌شود و مقدارهای Q به‌صورت روبه‌رو اخذ می‌شوند. سپس در بخش آزمون K بار به صورت greedy تصمیم‌گیری می‌شود. با توجه به این روند شکل ARtest به صورت زیر است. چه زمانی فرآیند آموزش پایان می‌یابد؟ ARtest نزدیک شود به 100 200 مرتبه بازی

در عمل موجود نیست. چه کنیم؟ AR بین دو آزمون اگر ناچیز بود تقریبا یادگیری به مرحله‌ی خوبی رسیده است.

معیار Optimal action برای ارزیابی روش یادگیری در این روش ارزیابی نقطه بهینه را می‌دانیم. می‌خواهیم بررسی کنیم کدام روش بهتر عمل می‌کند. مثلا می‌دانیم ماشین شانس دومی بهترین عملکرد را دارد. می‌خواهیم ببینیم با استفاده از روش‎های یادگیری مختلف در طول زمان یادگیری چند درصد عمل بهینه انتخاب می‌شود. تصمیم‌گیری به سمت greedy می‌رود. وقتی تعداد بازی به سمت بینهایت می‌رود تمام روش‌های دارای به یک نقطه همگرا می‌شوند.

آیا می‌توان greedy عمل کرد و به مقدار بهینه رسید؟ اگر ماکزیمم مقدار Q را به ازای انتخاب greedy داشته باشیم به مقدار بهینه می‌رسیم. اگر ماشینی را به صورت greedy انتخاب کردیم و میانگین پاداشش از میانگین پاداش بهینه کمتر بود، شانسی به بقیه ماشین‌ها داده نمی‌شود و به مقدار بهینه همگرا نمی‌شویم. آیا می‌توان برای این مشکل کاری کرد؟ یعنی از همان ابتدا greedy عمل کنیم و به مقدار بهینه برسیم؟

ابتدا greedy عمل می‌کنیم و یک ماشین را انتخاب می‌کنیم. سپس بررسی می‌کنیم تا متوسط پاداش به مقدار نهایی خود نزدیک شود. چگونه؟؟ سپس ماشین مربوطه را حذف می‌کنیم و از میان بقیه ماشین‌ها greedy انتخاب می‌کنیم.

سوال: در ابتدا چگونه greedy عمل کنیم؟ اگر مقدار اولیه را بزرگ در نظر بگیریم شانس انتخاب را به همه ماشین‌ها می‌دهیم.

بررسی تاثیر مقدار دهی اولیه در آموزش رابطه آخرین مقدار Q به صورت زیر است.

باید توجه کرد مجموع ضرایب پشت r و Q برابر با 1 است. مقدار آلفا عددی ثابت است. خوب است بین 0.7 تا 0.9 باشد. هرچه از یادگیری می‌گذرد تاثیرگذاری Q0 کم می‌شود. تقریبا از جایی که ارزش Q0 به ارزش متوسط پاداش ببازد می‌توان greedy عمل کرد.

چرا درصد Optimal action در مورد روند greedy در جایی متوقف می‌شود و دیگر بالا نمی‌رود؟ روش رسم منحنی: در رسم منحنی روند آموزش را حدود 100 بار یا بیشتر از ابتدا تکرار می‌کنیم و میانگین مقادیر بدست آمده را رسم می‌کنیم.

چگونگی یادگیری در الگوریتم‌های ارائه شده در روش‌های یادگیری ارائه شده، متوسط پاداش‌ها را تخمین می‌زدیم و سپس بر مبنای تخمین‌ها تصمیم‌گیری می‌کردیم. مثلا در روش ماشینی با متوسط بالاتر با احتمال بیشتر انتخاب می‌شد و بقیه ماشین‌ها شانس یکسانی برای انتخاب داشتند. روشی دیگر برای یادگیری: عمل‌هایی با پاداش بیشتر با احتمال بیشتر و عمل‌هایی با پاداش کمتر با احتمال کمتر انتخاب شوند.

یادگیری با مقایسه‌ی متوسط پاداش تقویتی عمل‌هایی با پاداش بیشتر با احتمال بیشتر و عمل‌هایی با پاداش کمتر با احتمال کمتر انتخاب شوند. در این روش نیاز به یک مرجع مقایسه داریم تا پاداش کوچک و بزرگ قابل تعریف باشد. متوسط پاداشی که از همه‌ی عمل‌ها گرفتیم، مرجع مناسبی برای مقایسه است. هر چه جلو می‌رویم این معیار دقت بالاتری خواهد داشت. پاداش عمل‌ها انتخاب با احتمال بیشتر متوسط پاداش همه عمل‌ها انتخاب با احتمال کمتر مرتبه بازی

متوسط پاداش همه ماشین‌ها در این روش یادگیری ارزش برای هر عمل ایجاد می‌کنیم و ارزش‌ها به روز می‌کنیم. ارزش متوسط پاداش همه ماشین‌ها تصمیم‌گیری با توجه به ارزش‌دهی به عمل‌ها اوایل یادگیری بتا نزدیک به یک است و هرچه جلو می‌رویم مقدار بتا را کم می‌کنیم. مفهوم ارزیابی(Evaluate) : میزان خوب بودن عمل تعیین شود. یادگیری همراه ارزیابی زمان یادگیری را افزایش می‎دهد.

نمودار یادگیری با مقایسه‌ی متوسط پاداش تقویتی

روش یادگیری تعقیبی Pursuit method در این روش عملی که Q ماکزیمم را ایجاد نموده به روز می‌شود. عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب عملی که Q ماکزیمم را ایجاد نموده احتمال انتخاب بقیه عمل‌ها سیاست قبلی بعلاوه عملی که Q ماکزیمم را ایجاد نموده به شدت در تصمیم‌گیری دخیل است.

مفهوم بتا کوچک و بزرگ چیست؟ بتا بزرگ به مفهوم ترجیح عمل‌های کنونی به عمل‌های قبلی است و مفهوم بتا کوچک به معنی لحاظ کردن همه‌ی عمل‌های قبلی و کنونی در تصمیم‌گیری است. انتخاب بتا به صورت افزایشی بهتر تنظیم پارامتر است.

فصل سوم مسئله یادگیری تقویتی

ساختار کلی مسئله یادگیری تقویتی در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم: عامل یادگیری را از طریق تعامل با محیط انجام می‌دهد. برای اینکار باید اعمالی که عامل می‌تواند در محیط انجام دهد مشخص باشند.

ساختار کلی مسئله یادگیری تقویتی محیط برای محیط باید مشخصه‌های زیر تعیین شوند: وضعیت(State): برداشت عامل از شرایط محیط و خودش عامل می‌تواند از طریق ورودی‌هایش تشخیص دهد که در چه وضعیتی قرار دارد. در ماشین شانس حالت میزان پول و عمل انتخاب یکی از ماشین‌ها است. در ماشین شانس فرض کردیم که یک حالت وجود دارد و میزان پول با بازی کردن تغییر نمی‌کند. پاداش Y X

ساختار کلی مسئله یادگیری تقویتی عامل در وضعیت St عمل at را انجام می‌دهد. اینکار باعث می‌شود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل پاداش rt+1 را از محیط دریافت می نماید. عمل یادگیری عبارت است از یاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال، منجر به دریافت پاداش حداکثری از محیط گردد. سیاست t . . . s a r t +1 t +2 t +3

ساختار کلی مسئله یادگیری تقویتی احتمال‌ها مبتنی بر ارزش عمل‌ها به‌روز می‌شوند. ارزش انجام عمل وقتی برداشت از عامل است به صورت نمایش داده می‌شود. اگر وضعیت عامل در محیط به‌صورت باشد، بین دو ارزش زیر تفاوتی وجود ندارد.

محیط در RLعامل یادگیر بطور سعی‌وخطا با یک محیط پویا درگیر شده و یاد می‌گیرد که برای هر موقعیت چه عملی را انجام دهد. این محیط باید قابل مشاهده یا حداقل تا قسمتی قابل مشاهده برای عامل باشد (partially observable) . اگر برداشت عامل از محیط کامل نباشد یعنی برای دو حالت مختلف یک State داشته باشیم، محیط مشاهده‌ناپذیر است. مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد. در حالت ایده‌ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوری‌های مربوطه بر اساس این فرض بنا شده‌اند.

محیط محیط مجموعه‌ای از S حالت ممکن است. در هر لحظه عامل می‌تواند یکی از A عمل ممکن را انجام دهد. عامل ممکن است در مقابل عمل و یا مجموعه‌ای از اعمالی که انجام می‌دهد پاداش r را دریافت کند. این پاداش ممکن است مثبت یا منفی باشد. در حالت کلی محیط می‌تواند غیر قطعی (non deterministic) باشد. یعنی انجام یک عمل مشابه در یک وضعیت یکسان به وضعیت بعدی یکسان یا مقدار پاداش یکسانی منجر نشود. با این وجود محیط بصورت stationary فرض می‌شود. یعنی احتمال تغییر وضعیت یا دریافت پاداش در طول زمان یکسان فرض می‌شود.

محیط فضا پیوسته است ولی برای انجام یادگیری، محیط را بخش‌بندی می‌کنیم. n تعداد بخش‌ها است. زیاد کردن بخش‌ها زمان یادگیری را افزون می‌کند و وقتی در دو بخش حالت عامل عوض نمی‌شود در واقع باید دو بخش را یک بخش نمود. n ........ ..... ... 2 1

رفتار عامل عامل در محیط حرکت کرده و حالت‌ها و پاداش‌های مربوطه را به خاطر می‌سپارد. عامل سعی می‌کند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.

تابع تقویتی در RLوقتی عامل در یک حالت خاص عملی را انجام می‌دهد، در مقابل پاداش (reward or reinforcement) دریافت می‌کند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید. یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement function مناسب با اهداف عامل است. اینکار به طرق مختلف انجام می‌شود.

پاداش اگر دنباله‌ای از پاداش‌ها بصورت زیر موجود باشند: عامل باید سعی نماید تا پاداشی را که از محیط دریافت می‌کند حداکثر نماید. در واقع امید ریاضی پاداش را به حداکثر رساند. عملیات یادگیری به دو دسته تقسیم می‌شوند: Continual: تا ابد یا تا زمانی که می‌توانیم کار را دنبال می‌کنیم. Episodic : در جایی عملیات تمام می‌شود. در وضعیت نهایی عامل هر عملی انجام دهد به همان وضعیت بر می‌گردد و پاداش صفر را دریافت می‌کند. t . . . s a r t +1 t +2 t +3 E k

پاداش پس امکان تبدیلEpisodic بهContinual وجود دارد. در بسیاری از مسایل، تعامل با محیط بصورت اپیزودی انجام می‌شود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه می‌یابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی (خاتمه اپیزود یادگیری) ST بدست می‌آید برابر است با:

در نظر گرفتن پاداش‌های آینده پاداش Rt : مجموع پاداشی که عامل با شروع از زمانt می‌تواند جمع کند. به روش‌های مختلف می‌توان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداش‌های نزدیک‌تر ارزش بیشتری داده می‌شود. در واقع عامل در لحظه t است و یک پیش‌بینی از آینده خود دارد. +50 -1 +3 r9 r5 r4 r1

مدل‌های عملکرد بهینه یکی از نکات مهم در انتخاب عمل، نحوه لحاظ کردن رخدادهای آینده در تصمیم فعلی عامل است. مدل‌های مختلفی برای لحاظ کردن تاثیر رخدادهای آینده در انتخاب عمل وجود دارد : مدل اول : در این مدل تنها پاداش فعلی مهم است و پاداش‌های آینده در تصمیم‌گیری لحاظ نمی‌شوند. در این روش مسیر اول انتخاب می‌شود. t s a +1 t +1 -100 t +2 t a -1 s' t +1 +100 s‘ t +2

مدل‌های عملکرد بهینه مدل دوم : این روش بسیار مرسوم بوده و به پاداش‌هایی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداش‌های فوری داده می‌شود. مثلا اگر مسیر اول انتخاب می‌شود. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2

مدل‌های عملکرد بهینه مدل سوم (مدل متوسط پاداش) : در این روش فرقی بین پاداش‌های نزدیک و دور در نظر گرفته نمی‌شود. مثلا در شکل زیر مسیرهای اول و دوم تفاوتی ندارند. t s a +1 t +1 -1 t +2 t a -1 s' t +1 +1 s‘ t +2

خاصیت مارکوف(Markov) وضعیت مرحله St تمامی اطلاعات لازم را در اختیار عامل قرار می‌دهد. یعنی عامل به اطلاعات دیگری نیاز ندارد. بعبارت دیگر قرار گرفتن در یک وضعیت به معنای داشتن خلاصه گذشته عامل است و نیازی نیست تا از گذشته آن چیز دیگری بدانیم. یعنی اگر احتمال انتقال از یک حالت به حالت دیگر مستقل از کل گذشته‌ باشد، دنباله خصوصیت مارکوف دارد.

رباتی در راستای محور X ها حرکت می‌کند،آیا این ربات دارای مشخصه مارکوف است؟ 1 2 n معادلات دینامیکی سیستم با توجه به معادله دینامیکی سیستم تنها اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف است.

در مسئله قبل اگر باد بوزد و عمل F انجام شود ربات 2 خانه به جلو می‌رود و اگر عمل NA انجام شود 1 خانه به جلو می‌رود و در صورت عدم وزش باد مانند مثال قبلی عمل می‌شود. اگر در 50 درصد مواقع وزش باد وجود داشته باشد آیا محیط مارکوف است؟ با توجه به معادله دینامیکی سیستم، اطلاعاتی که از پیشینه ربات مورد نیاز است، است پس حرکت ربات دارای مشخصه مارکوف نیست. اگر حالت را درباره یک مورد عقب‌تر هم در نظر بگیریم محیط مارکوف می‌شود:

یادگیری خط مشی هدف پیدا کردن یک سیاست بهینه است که Rt را ماکزیمم کند. هدف یادگیری تقویتی این است که یک خط مشی بهینه‌ای مثل p* پیدا نماید به نحوی‌که مقدار امید ریاضی فوق را برای تمامی حالات ماکزیمم کند. در واقع هدف بدست آوردن، احتمال انجام a به شرط آنکه در حالت ، s باشد، است. نحوه محاسبه Rt در صورتی که مدل دارای مشخصه مارکوف باشد: معادلات دینامیک سیستم به صورت زیر است: اگر مسئله یادگیری تقویتی را روی معادلات بالا حل کنیم در واقع یک مسئله MDP(Markov Decision Process ) را حل کرده‌ایم.

در رابطه قبل E ارزش مورد انتظار (expected value) یا امید ریاضی است. معادلات دینامیکی سیستم بالا اگر در حالتی که از s به s’ می‌رویم در 60% موارد پاداش 10 و در 40% موارد پاداش 1- را بگیریم، معادلات دینامیکی سیستم بالا را چگونه خواهد شد؟ .4 r= 2 S” S a S’ .6 r=1

تابع مقدار (Value Function ) تابع مقدار عبارت است از نگاشتی ازstates به state values که می‌تواند توسط هر تقریب زننده تابع، نظیر یک شبکه عصبی تخمین زده شود. ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود چقدر است؟ وابسته به طرحی است که برای آینده داریم. پس ارزش را تحت یک سیاست بیان می‌کنیم. بخواهید بازاری شوید. بخواهید شرکت بزنید. بخواهید استاد دانشگاه شوید. ارزش حالت s تحت سیاست π

s a +1 2 a -5 s' -10 s‘ در سیاست اول داریم: در سیاست دوم داریم: 1 3 2 4 -10 s‘ در سیاست اول داریم: در سیاست دوم داریم:

مثال یک مسئله MDP با 16 حالت داریم. عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. مقادیر نشان داده شده مقدار مورد انتظار برای هر حالت در صورت انجام یک حرکت تصادفی برای رسیدن به هدف است.

در شکل زیر تابع مقدار را بدست آورید؟ چرا گاما در محاسبات تاثیر نداشت؟ چون تعداد مراحل یک بود. .8 r=1 S” .6 S a1 S’ .2 r=-1 .4 S”’ a2 r=-5

State action value ارزش دانشجوی فوق لیسانس در دانشگاه شاهرود و تصمیم بگیری درس RL را بگیری، چقدر است؟ در مثال قبل داریم: ارزش حالت s و عمل a تحت سیاست π

چگونه تابع مقدار را پیدا کنیم؟ چگونه تابع مقدار را پیدا کنیم؟ A : ارزش مورد انتظار تحت پاداش آنی B : ارزش مورد انتظار تحت پاداش‌های آینده

p1 r1 S” .5 S a1 S’ (1-p1) r2 .5 S”’ a2 r3

پارامترهای دینامیکی سیستم منظور از سیاست این است که به هر عمل یک احتمال انتخاب تخصیص می‌دهیم. پس معادله بلمن به شکل زیر بدست می‌آید: ارزش‌های بعدی پارامترهای دینامیکی سیستم سیاست

فصل چهارم Dynamic Programming

روش Policy Evaluation

روش Policy Evaluation

روش Policy Evaluation S1 S2 S3

روش Policy Evaluation شرط همگرایی

چگونه سیاست بهینه را بدست آوریم؟ سیاستی که به ازای تمام موقعیت‌ها مقدار تابع ارزش را ماکزیمم می‌کند، سیاست بهینه است. دنبال روشی هستیم که به صورت هدایت شده در فضای سیاست حرکت کند. معیار هدایت یا نشانه‌های مسیر برای حرکت کردن در فضای سیاست است.

فرمول بالا می‌گوید که مقدار ماکزیمم تابع ارزش در هر موقعیت، تابع ارزش نهایی را ماکزیمم می‌کند یعنی در هر موقعیت (state) حریصانه عمل کنید. در مسئله‌ای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟ جواب: باید انتخاب شود.

در مسئله‌ای اگر مقادیر زیر را داشته باشیم، برای ماکزیمم نمودن تابع ارزش باید چه سیاستی داشته باشیم؟ جواب: در این حالت چندین سیاست بهینه می‌توانیم داشته باشیم. مثلا یا

مثال یک مسئله MDP با 9 حالت داریم. عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است. رفتن به خانه‌های پر شده، ارزشی برابر با صفر دارد. مقدار گاما یک فرض شود.

-1

-2 -7/4

با نگاه به مقادیر ارزش‌ها می‌توان سیاست بهینه حریصانه را بدست آورد. -2 -7/4

مثال یک مسئله MDP با 16 حالت داریم. عامل دارای 4 عمل مختلف است: حرکت به چپ، به راست، به بالاو به پائین. پاداش برای تمامی حرکت‌ها برابر -1 است. هدف رسیدن به دو گوشه سمت راست پائین یا گوشه سمت چپ بالا است.

Policy improvement در موقعیت، S سیاست را انتخاب کن و از آنجا به بعد با سیاست پیش برو. می‌خواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند.

در هیچ حالتی نباید از بدتر باشد. در هیچ حالتی نباید از بدتر باشد. اگر فقط در یک state مقدار نسبت به بهتر بود و اطلاعی راجع به باقی موقعیت‌ها نداشتیم، در همان state به جای از استفاده می‌کنیم و در بقیه‌ی موقعیت‌ها از بهره می‌گیریم. در هر حالت احتمال انتخاب Q ماکزیمم را یک می‌کنیم و باقی احتمالات را صفر قرار می‌دهیم.

Policy Iteration دو سیاست متوالی با هم مقایسه می‌شوند اگر متفاوت بود، دوباره مراحل تکرار می‌شوند و در غیر این صورت الگوریتم پایان می‌یابد.

Value Iteration برای کوتاه کردن برنامه از این روش استفاده می‌شود.

مثال شخصی در جیبش 1 ، 2 یا 3 تومان پول است. یعنی s={1,2,3} است. با توجه به پولی که در جیبش داردمی‌تواند معادل پول یا کمتر شرط بندی کند یعنی داریم: A(1)={1} A(2)={1,2} A(3)={1,2,3}: اگر 3 تومان در جیبش باشد می‌تواند 1 یا 2 یا 3 تومان شرط بندی کند اگر سکه شیر بیابد معادل مقدار شرط بندی جایزه می‌گیرد و اگر خط بیاید معادل مقدار شرط‌بندی پول از دست می‌دهد. احتمال آمدن شیر 40 درصد است. در ضمن اگر پول‌هایش از 3 بیشتر شود جایزه‌ای ویژه و بسیار زیاد خواهد گرفت و دیگر بازی نخواهد کرد. مشخص کنید که به ازای مقدار پول موجود در جیبش چه میزانی را باید شرط‌بندی کند؟

بررسی روش value iteration جایزه‌ی صفر به‌ازای تمام حرکت‌ها و پایان بازی و برنده شدن و گرفتن جایزه غیر صفر(یک) به‌ازای s’>3 .

اگر دیگر مسئله تمام است و سیاست بهینه به صورت زیر بدست می‌آید.

مثال برای 99 حالت

فصل پنجم روش Monte Carlo

s r a a s r‘ a r’ a در فصل سوم مدل دینامیکی سیستم را محاسبه می‌کردیم: اگر بینهایت بار، در موقعیت s1 باشیم و تحت یک سیاست خاص تصمیم‌گیری کنیم، Return های متفاوتی برای هر بار تصمیم‌گیری و رسیدن به پایان اپیزود خواهیم داشت. سمپلی از Return : سمپل دیگری از Return : 1 s r 2 a 3 E a 3 s 1 r‘ 4 a r’ 5 E a

در حالت کلی داریم: در واقع برای محاسبه تابع ارزش مدل محیط را محاسبه نمی‌کنیم و با توجه به تجربیات مقدار آن را بدست می‌آوریم. پس زمانی از این روش استفاده می کنیم که مدل محیط را نتوان بدست آورد. با توجه به فرمول‌ها تخمین ارزش در حالت S مستقل از تخمین ارزش دیگر حالت‌ها است. با استفاده از روش مونته کارلو به تخمین تابع ارزش پرداخته می‌شود.

Monte Carlo Policy Evaluation روش first visit MC : فقط متوسط Return هایی که در اولین مرحله S را می‌بینند برای بدست آوردن تابع ارزش استفاده می‌شوند.

در این روش، اگر حلقه‌ای وجود داشته باشد، یک بار برای یک Return حلقه محاسبه می‌شود و برای مرتبه‌ی بعدی دیگر محاسبه لازم نیست. 1 s r 2 a 3 a s s 4 E

Monte Carlo Estimation of Action Values (Q) فقط متوسط Return هایی که در اولین مرحله موقعیت S و عمل a را می‌بینند برای بدست آوردن استفاده می‌شوند. الگوریتم‌های این فصل مانند فصل گذشته هستند. تنها مدلی برای محیط در نظر گرفته نمی شود و در واقع نحوه‌ی محاسبه تابع ارزش فرق می کند. MC policy iteration : ابتدا Policy evaluation به کمک MC انجام می شود و در ادامه policy improvement انجام می‌شود.

Monte Carlo Control

انتخاب سیاست می‌تواند بر اساس greedy باشد انتخاب سیاست می‌تواند بر اساس greedy باشد. انتخاب بر اساس greedy گاهی در یک مینیمم گیر می‌کند و دیگر از آن خارج نمی‌شود. انتخاب بر اساس soft policy یا این مشکل را حل می‌کند.

On Policy Monte Carlo Control

ما همواره دنبال آن هستیم که بهتر از باشد. یعنی: در واقع، می‌خواهیم سیاست را به نحوی پیدا کنیم که در رابطه زیر صدق کند که این رابطه را برای greedy ثابت کردیم. حال رابطه را برای نیز ثابت می‌کنیم:

در سیاست فرمول زیر را داشتیم و بنابراین فرمول رابطه بالا با هم برابر هستند.

برخی از تجزیه و تحلیل‌های روش ارائه شده در این روش یادگیری در یک محیط stationary به یک سیاست بهینه دست می‌یابیم. در این روش بهترین را می‌یابیم اما بهترین greedy را پیدا نمی‌کنیم. فلسفه یادگیری عدم انتخاب تصادفی عمل‌ها است پس اگر اپسیلون را برابر با صفر بگیریم روش ما به greedy تبدیل می‌شود. ولی با فلسفه یادگیری در تضاد است. Soft policy : سیاستی که در آن تمام state action ها مشاهده می‌شوند. پس روش ارائه شده دارای سیاست soft است.

خوب است در روند یادگیری 2 سیاست داشته باشیم خوب است در روند یادگیری 2 سیاست داشته باشیم. با سیاست soft زندگی کنیم و سیاستی که پس ذهنم evaluate می‌کنیم، بر اساس greedy باشد. : سیاستی که با آن زندگی می‌کنیم. : سیاستی که می‌خواهیم ارزش آن را پیدا کنیم. احتمال ساخت اپیزودی با موقعیت اولیه st :

اگر مدل محیط را داشتیم، تابع ارزش از رابطه زیر محاسبه می‌شود: پس برای تابع ارزش با سیاستی متفاوت داریم: برای نرمالیزه کردن

زمانی می‌توان از رابطه مربوطه استفاده نمود که که برای سیاست این شرط برقرار است. در رابطه زیر مدل محیط حذف می‌شود.

Off Policy Monte Carlo Control

نکاتی راجع به الگوریتم ارائه شده با سیاست soft زندگی کنیم و سیاستی که evaluate می‌کنیم، بر اساس greedy می‌باشد. هر بار که اپیزود تمام می‌شود، سیاست بررسی و بهبود داده می‌شود. اپسیلون اوایل یادگیری زیاد است و آرام ، کم می‌شود ولی هیچ‌گاه صفر نمی‌شود. در روش‌های ارائه شده در این فصل Q هر state مستقل از بقیه‌ی Q ها است که این امر الگوریتم را زمان‌بر می‌کند. در روش dynamic programming که در فصل 4 ارائه شد تابع ارزش هر state وابسته به state های دیگر بود که الگوریتم را سریع می‌نمود. در فصل بعد الگوریتم‌هایی را مطرح می‌کنیم که از تخمین تابع ارزش بر مبنای state های دیگر استفاده می‌شود تا سرعت آن افزایش یابد.

فصل ششم یادگیری TD (Temporal Difference)

یادگیری TD وقتی مدل محیط را نداشتیم از روش مونته کارلو برای تخمین تابع ارزش استفاده می‌کردیم. در واقع به‌ازای هر Return جدید تابع ارزش به اندازه آلفا تغییر می‌کند. به‌ازای دو رابطه بالا با هم برابر می‌شوند. اگر آلفا ثابت باشد، روش ارائه شده تحت عنوان constant- MC است. اگر آلفا متغییر باشد، روش ارائه شده تحت عنوان dynamic- MC است.

جایگیزینی رابطه بالا در رابطه زیر: 1 s r 2 a 3 E a

خطای TD به صورت روبه‌رو تعریف می‌شود: این خطا به‌ازای یک مشاهده محاسبه می‌شود. یعنی وقتی در موقعیت S قرار دارید، به ازای یک مشاهده، محاسبه می‌شود که چه پاداشی دریافت می‌شود و به کدام موقعیت می‌روید. سپس تفاوت این مقدار با تخمین تابع ارزش در مرحله‌ی قبل به عنوان خطا محاسبه و به تخمین تابع ارزش اضافه می‌شود. اگر مقدار خطا به سمت صفر نزدیک شود، یادگیری به پایان می‌رسد. در این روش از تک مشاهده بهره گرفته می‌شود و به همین دلیل به این روش TD(0) گفته می‌شود. اگر تعداد مشاهدات 2 باشد به روش TD(1) گفته می‌شود و مقدار Return از عبارت زیر محاسبه می‌شود: در روش مونته کارلو باید یک اپیزود به پایان برسد تا بتوانید روابط را به روز کنید. ولی در این روش یک تخمین را بر روی تخمین دیگر بنا می‌کنیم یا به اصطلاح عمل bootstrap انجام می‌شود و با تغییر موقعیت از S به S’ روابط به‌روز می‌شوند.. پس روش TD سریعتر از مونته‌کارلو است.

چه زمانی یادگیری پایان می‌یابد؟ اگر به تعداد کافی از یک نقطه گذر شود، avr.R دقیق‌تر می‌شود و تغییرات آن در هر مرحله کمتر می‌شود. در نتیجه تابع خطا به سمت صفر میل می‌کند و یادگیری پایان می‌پذیرد. اویل یادگیری آلفا زیاد است. ولی هر چه در روند یادگیری پیش می‌رویم، آلفا به سمت صفر نزدیک می‌شود و در نتیجه، نقش پاداش لحظه‌ای کم می‌شود.

شبه کد روش TD(0)

SARSA در این روش مقدار Q با فرمول زیر، به‌روز می‌شود. این روش on policy است و سیاست بهینه بر اساس روش تعیین می‌شود.

Q-Learning در این روش مقدار Q با فرمول زیر، به‌روز می‌شود. این روش off policy است و در هر موقعیت با سیاست عمل انتخاب می‌شود. ولی مقدار Q بر اساس سیاست greedy به روز می‌شود. در این روش با یک سیاست Soft زندگی می‌کنیم، ولی یک سیاست greedy را بهبود می‌دهیم.

شبه کد روش Q-Learning

الگوریتم Actor-Critic خطای TD به صورت روبه‌رو تعریف می‌شود: تابع ارزش هر موقعیت با توجه به فرمول خطا به‌روز می‌شود: اگر تابع خطا مثبت باشد مقدار تابع ارزش زیاد شده و باید عملی که تابع ارزش را بالا برده با احتمال بیشتری انتخاب شود و اگر تابع خطا منفی باشد مقدار تابع ارزش کم شده و باید عملی که تابع ارزش را پایین برده با احتمال کمتری انتخاب شود: اگر سیاست Gibbs softmax را برای روش برگزینیم. تابع سیاست با فرمول زیر محاسبه می‌شود:

دیاگرام روش Actor-Critic این سیستم درجه آزادی بیشتری نسبت به دو روش قبل دارد. چرا این روش نسبت به دو روش قبل بهتر عمل نمی‌کند؟ چون در این روش پارامترهای بیشتری باید تنظیم شوند و تنظیم این پارامترها مشکل است و به همین دلیل کارایی سیستم کم می‌شود. P(s,a) در اوایل یادگیری برای همه موقعیت‌ها یکسان است.

فصل هفتم یادگیری

استفاده از مزایایی MC و TD در روش TD از پاداش کنونی و ارزش state های مجاور برای محاسبه تابع ارزش استفاده می‌شد که در این روش به‌روزرسانی سریع انجام می‌شد اما زمانی زیادی می‌گذرد تا‌ state های بعدی ارزش خود را به‌درستی در محاسبات نشان دهند. می‌خواهیم از مزایای این روش‌ها با هم استفاده کنیم.

تخمین Return مقدار Return از رابطه زیر محاسبه می‌شود: اگر n به سمت T رود روش MC می‌شود و اگر n=1 روش TD است. اگر تفاوت ارزش را به صورت زیر لحاظ کنیم هم از پاداش لحظه‌ای استفاده می‌کنیم و هم از ارزش state های بعدی: