”بسمه تعالي“ سمينار درس MPC

Slides:



Advertisements
Similar presentations
Reinforcement Learning: Learning from Interaction
Advertisements

1 Reinforcement Learning (RL). 2 Introduction The concept of reinforcement learning incorporates an agent that solves the problem in hand by interacting.
This research examines the effects of pressure and task difficulty across the lifespan in a history dependent decision-making task, the Mars Farming task.
1 A Semiparametric Statistics Approach to Model-Free Policy Evaluation Tsuyoshi UENO (1), Motoaki KAWANABE (2), Takeshi MORI (1), Shin-ich MAEDA (1), Shin.
Monte-Carlo Methods Learning methods averaging complete episodic returns Slides based on [Sutton & Barto: Reinforcement Learning: An Introduction, 1998]
11 Planning and Learning Week #9. 22 Introduction... 1 Two types of methods in RL ◦Planning methods: Those that require an environment model  Dynamic.
1/03/09 De 89 à 98. 1/03/09 De 89 à 98 1/03/09 De 89 à 98.
INTRODUCTION TO MACHINE LEARNING 3RD EDITION ETHEM ALPAYDIN © The MIT Press, Lecture.
1 Temporal-Difference Learning Week #6. 2 Introduction Temporal-Difference (TD) Learning –a combination of DP and MC methods updates estimates based on.
Markov Decision Processes & Reinforcement Learning Megan Smith Lehigh University, Fall 2006.
COSC 878 Seminar on Large Scale Statistical Machine Learning 1.
Adapted from R. S. Sutton and A. G. Barto: Reinforcement Learning: An Introduction From Sutton & Barto Reinforcement Learning An Introduction.
ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.
Reinforcement Learning Tutorial
Chapter 8: Generalization and Function Approximation pLook at how experience with a limited part of the state set be used to produce good behavior over.
Bayesian Reinforcement Learning with Gaussian Processes Huanren Zhang Electrical and Computer Engineering Purdue University.
Application of Reinforcement Learning in Network Routing By Chaopin Zhu Chaopin Zhu.
Reinforcement Learning Mitchell, Ch. 13 (see also Barto & Sutton book on-line)
Exploration and Exploitation Strategies for the K-armed Bandit Problem by Alexander L. Strehl.
Chapter 6: Temporal Difference Learning
Chapter 6: Temporal Difference Learning
Reinforcement Learning: Learning to get what you want... Sutton & Barto, Reinforcement Learning: An Introduction, MIT Press 1998.
INTRODUCTION TO Machine Learning ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.
Massachusetts,
Chapter 8: Generalization and Function Approximation pLook at how experience with a limited part of the state set be used to produce good behavior over.
© Cambridge University Press 2013 Thomson_alphaem.
© Cambridge University Press 2013 Thomson_Fig
Bayesian Reinforcement Learning Machine Learning RCC 16 th June 2011.
Cognitive Modeling / University of Groningen / / Artificial Intelligence |RENSSELAER| Cognitive Science CogWorks Laboratories › Christian P. Janssen ›
Decision Making Under Uncertainty Lec #8: Reinforcement Learning UIUC CS 598: Section EA Professor: Eyal Amir Spring Semester 2006 Most slides by Jeremy.
Reinforcement Learning
CMSC 471 Fall 2009 Temporal Difference Learning Prof. Marie desJardins Class #25 – Tuesday, 11/24 Thanks to Rich Sutton and Andy Barto for the use of their.
INTRODUCTION TO Machine Learning
CHAPTER 16: Reinforcement Learning. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1) 2 Introduction Game-playing:
Reinforcement Learning with Laser Cats! Marshall Wang Maria Jahja DTR Group Meeting October 5, 2015.
© Cambridge University Press 2013 Thomson_Fig
Introduction to Reinforcement Learning Hiren Adesara Prof: Dr. Gittens.
Computational Modeling Lab Wednesday 18 June 2003 Reinforcement Learning an introduction part 5 Ann Nowé By Sutton.
。 33 投资环境 3 开阔视野 提升竞争力 。 3 嘉峪关市概况 。 3 。 3 嘉峪关是一座新兴的工业旅游城市,因关得名,因企设市,是长城文化与丝路文化交 汇点,是全国唯一一座以长城关隘命名的城市。嘉峪关关城位于祁连山、黑山之间。 1965 年建市,下辖雄关区、镜铁区、长城区, 全市总面积 2935.
Figure 5: Change in Blackjack Posterior Distributions over Time.
Markov Decision Process (MDP)
Online Multiscale Dynamic Topic Models
© Cambridge University Press 2011
Chapter 6: Temporal Difference Learning
CMSC 471 – Spring 2014 Class #25 – Thursday, May 1
An Overview of Reinforcement Learning
نتعارف لنتألف في التعارف تألف (( الأرواح جنود مجندة , ماتعارف منها أئتلف , وماتنافر منها اختلف )) نماذج من العبارات الايجابية.
کنترل پیش بین سیستم های هایبرد و واقعه گسسته ارائه دهنده: شهرام بهمردی کلانتری استاد درس: دکتر توحیدخواه زمستان 89.
UAV Route Planning in Delay Tolerant Networks
Reinforcement learning
Thomson_eeWWtgc © Cambridge University Press 2013.
© University of Cambridge
Thomson_atlascmsEventsAlt
Chapter 2: Evaluative Feedback
یادگیری تقویتی Reinforcement Learning
Chapter 8: Generalization and Function Approximation
October 6, 2011 Dr. Itamar Arel College of Engineering
Chapter 6: Temporal Difference Learning
Chapter 10: Dimensions of Reinforcement Learning
Deep Reinforcement Learning
Chapter 7: Eligibility Traces
Thomson_CandP © Cambridge University Press 2013.
5th International Conference on Engineering and Natural Science
Part 1 Table: current, VBE, Vin vs. Vout Sketch Error estimate Vout1
Thomson_Baryonqq1 © Cambridge University Press 2013.
Thomson_AFBCartoon © Cambridge University Press 2013.
Types of Errors And Error Analysis.
Chapter 2: Evaluative Feedback
Presentation transcript:

”بسمه تعالي“ سمينار درس MPC مدلسازي تصميم‌گيري در مغز انسان با استفاده از يادگيري تقويتي و ايده‌ي MPC مطهره مقتدايي آذرماه 1389

روند سمينار كنترل پيش بين مبتني بر مدل فرآيند تصميم‌گيري ماركوف محدود يادگيري تقويتي تصميم‌گيري در انسان از ديد نوروسايكولوژي مدلسازي

كنترل پيش‌بين عامل با يك سيستم ديناميك قابل كنترل در تعامل قرار دارد. در هر گام تصميم، عامل بر اساس مشاهده‌اش، با يك سياست مشخص، عملي را جهت اعمال بر روي سيستم انتخاب مي‌كند. هدف عامل كنترلي آنست كه سياست‌اي را بيابد كه نهايتا عملكرد كلي سيستم ماكزيمم شود.

كنترل پيش‌بين MPC: مدلي از سيستم: پيش‌بيني رفتار سيستم تحت عملهاي مختلف در يك افق پيش‌بيني (عامل تلاش مي‌كند كه دنباله‌اي از عملها را بيابد كه ضمن برآورده كردن قيود، هم سيستم را به حالت مطلوب برساند و هم آثار منفي ناشي از آن اعمال را مينيمم نمايد.) مدلي از رفتار مطلوب (در غالب تابع عملكرد): يافتن دنباله‌ي مناسب عملها (محاسبه‌ي ارجحيت ماندن در يك حالت و يا تغيير حالت تحت تاثير يك عمل خاص)

كنترل پيش‌بين وظيفه‌ي عامل كنترلي: دنباله‌اي از اعمال را بر اساس پيش‌بيني هايي كه با استفاده از مدل سيستم انجام مي‌دهد تعيين مي‌كند، بطوري كه عملكرد سيستم را در جهت رفتار مطلوب افزايش دهد و در عين حال قيود سيستم را نيز برآورده سازد.

كنترل پيش‌بين بحث افق در کنترل پيش‌بين: افق غلطكي (robustness) افق محدود (حجم محاسباتي)

جمع بندي الگوريتم عامل در هر گام: افق را به گام تصميم‌گيري فعلي مي‌غلطاند. مسئله‌ي بهينه‌سازي را با توجه به قيود مسئله در نظر مي‌گيرد. مسئله‌ي بهينه سازي را با روشهاي حل موجود با در نظرگرفتن قيود مسئله حل مي‌نمايد. عملهايي كه در فرايند بهينه‌سازي يافته است را تا شروع گام تصميم بعدي اعمال مي‌نمايد (عمدتا تنها يك عمل).

فرايند تصميم گيري ماركوف محدود خاصيت مارکوف: ديناميك بعدي سيستم تنها به حالت و عمل فعلي وابسته است. احتمال تحول حالت: پاداش بعدي مورد انتظار:

استفاده از MPC در فرايند تصميم گيري ماركوف غلطاندن افق تا گام تصميم فعلي با مشاهده حالت سيستم، و تعريف مسئله ي بهينه سازي؛ يافتن تمام مسيرهاي با طول Nc و محاسبه عملکرد مورد انتظار براي تک تک آنها و انتخاب دنباله اي از عملها که عملکردشان ماکزيمم است؛ اعمال اولين عمل اين دنباله و رفتن به گام بعدی تصميم؛

توابع ارزش اينكه بودن در يك حالت خاص چقدر براي عامل مطلوبست، توسط تابع ارزش تخمين زده مي‌شود. ارزش حالت s تحت سياست π: ارزش انجام عمل a در حالت s، تحت سياست π:

توابع ارزش بهينه سياست بهينه: تابع ارزش سياستهاي بهينه: تابع ارزش عمل سياستهاي بهينه:

انتخاب عمل روش متوسط-نمونه (sample-average) greedy ارزش عمل a (Q): ميانگين پاداش دريافتي با انتخاب عمل a.

انتخاب عمل روش ε-greedy: هر چند وقت يكبار با احتمال كوچك ε، يك عمل تصادفي و مستقل از ارزش تخمين زده شده را بيازماييم. احتمال انتخاب بهينه به بزرگتر از 1-ε همگرا مي‌شود.

انتخاب عمل روش سافت مكس: احتمال انتخاب عمل a در tامين آزمايش برابر است با (توزيع احتمال بولتزمان):

استفاده از يادگيري تقويتي در MPC ترجيح ميدهيم که در MPC تابع ارزش بصورت بر خط تعليم داده شود، و بنابراين MPC را با روش يادگيري تقويتي ترکيب مينماييم. الگوريتم يادگيري RL، برپايه‌ي تخميني از يك تابع ارزش است.

يادگيري تقويتي در يادگيري تقويتي بررسي مي‌شود كه عامل چطور مي‌تواند يك استراتژي رفتاري بهينه را در تعامل با محيط ياد بگيرد.

يادگيري تقويتي مصالحه بين كاوش و بهره برداری استفاده از ارزيابي اعمال به جای تعليم آنها فيدبك ارزيابي فيدبك معلم حل مسئله به كمك RL يعني يافتن سياستي كه بيشترين پاداش(ارزش) را حول اجراي بلند مدت ارائه دهد.

يادگيري تقويتي اجزا‌ء يادگيري تقويتي: عامل محيط سياست : نگاشتي از حالات درك شده از محيط به اعمال برگزيده است تابع پاداش : تابع پاداش هر حالت (يا هر جفت عمل-حالت) از محيط را به يك عدد ثابت بنام پاداش مي‌نگارد تابع ارزش : كل پاداش مورد انتظار مدل محيط 

حل مسائل RL (برنامه ريزي ديناميک) اين روش با تعريفي براي ارزش سياست شروع مي‌شود. نهايتا تغيير بين گامهاي ارزيابي سياست و بهبود سياست موجب رسيدن به سياست بهينه مي‌شود.

حل مسائل RL (برنامه ريزي ديناميک) تقريب تابع ارزش سياست: بهبود سياست: ارزيابي سياست:

حل مسائل RL (برنامه ريزي ديناميک)

حل مسائل RL (برنامه ريزي ديناميک) معايب: الگوريتم‌هاي برنامه‌ريزي ديناميك نياز به مدل كاملي از تحول حالات محيط دارند. برنامه‌ريزي ديناميك براي مسائلي با تعداد حالات زياد مناسب نيست، چون حل آنها نياز به جستجوي تمام فضاي حالت دارد.

حل مسائل RL (يادگيري تفاضل زماني) (Temporal-Difference Learning ) تكرار ارزش را گام به گام انجام مي‌دهد. نياز به مدل كامل محيط براي يادگيري ندارد. اگر خطاي تفاضل زماني مثبت باشد، تخمين قديمي كمتر از مقدار واقعي است. بنابراين، عمل انتخابي خوب است و الگوريتم بايد ارزش بودن در آن حالت را افزايش دهد. بطور مشابه اگر خطا منفي باشد، تخمين قبلي از ارزش حالت فراتر از مقدار واقعي است. بنابراين آن عمل براي آن حالت مطلوب نيست و ارزش آن حالت براي آن عمل بايد كم شود. New Estimate = Old Estimate + Step Size [Target-Old Estimate] Error>0 Error<0

يادگيري تفاضل زماني(يادگيري Q) اين الگوريتم يادگيري نياز به مدل كامل محيط ندارد. هنگام ارزيابي تابع ارزش دو نگاشت ضروري است. يك نگاشت حالات را به اعمال مربوط مي‌كند، نگاشت ديگر حالات را به ارزشهاي آنها كه اعداد حقيقي‌اند مربوط مي‌كند، يادگيري Q اين دو نگاشت را تحت يك نگاشت تركيب مي‌كند. يادگيري Q به جاي فقط حالت، از جفت‌هاي عمل-حالت استفاده مي‌كند.

يادگيري تفاضل زماني(يادگيري sarsa) قانون به روز سازي تابع ارزش-عمل:

يادگيري تفاضل زماني (روش عملگر-نقاد Actor-Critic) عملگر: ساختار سياست (چون براي انتخاب عمل استفاده مي‌شود) نقاد: تخمين تابع ارزش (چون اعمال انتخابي توسط عملگر را نقد مي‌كند) بعد از هر انتخاب عمل، نقاد حالت جديد را ارزيابي مي‌كند كه آيا بهتر شده يا بدتر.

تصميم‌گيري در انسان تصميم‌گيري فعاليتي است براي انتخاب عملي كه براي موجود به طريقي راضي كننده است. انسان در واقع بر اساس مدلي كه از محيط در ذهن خود دارد، عملهاي آينده‌ي خود را براي رسيدن به هدف انتخاب مي‌كند، و يك گام به جلو مي‌رود و باز به انتخاب عملهاي بهينه در حالت جديد مي‌پردازد.

تصميم‌گيري در انسان نقش پيش‌بيني در تصميمات: رفتار حيوانات تنها بر اساس تجربيات گذشته يا فعلي است. رفتار انسان مطابق با انتظارات آينده شكل مي‌گيرد. رفتار پيش‌بين يك فرايند شناختي است كه نه فقط به وروديهاي حسي فعلي، بلكه به حالات، خواص، و مطلوبيات آينده هم بستگي دارد: پيش‌بيني در پردازشهاي حسي پيش‌بيني در پردازشهاي دروني پيش‌بيني در اجراي رفتار

پيش‌بيني در پردازش حسي پردازشهاي حسي، بخش توجهي سيستم شناختي را تشكيل مي‌دهند. باياس ايجاد شده توسط توجه، مسيرهاي داخلي فعاليت شناختي را متاثر مي‌كند. مزايا: بالا بردن سرعت پردازش پردازش يك تكليف با جزئيات بيشتر براي حسگر انتخابي معايب: تمركز بر روز يك موضوع و چشم پوشي از حوادث مهم ديگر

پيش‌بيني در پردازش دروني نتيجه‌گيري‌ها، ارتباطات و تصورات دروني (مستقل از حسگرهاي بيروني) پردازش دروني به پردازش حافظه در خواب مربوط مي‌شود اما مي‌تواند در هوشياري هم اتفاق بيفتد. مزايا: استقلال آن از ورودي‌هاي حسي فعلي آماده سازي عمومي سيستم براي موقعيت‌هاي ممكن در آينده معايب: نتيجه‌گيري غلط به دليل عدم هدايت مدل داخلي

پيش‌بيني در اجراي رفتار به MPC نزديك است. سيستم، مدل داخلي جلوسويي از محيط را ياد مي‌گيرد و به مرور، كمتر و كمتر به ورودي‌هاي حسي براي اجراي كنترل تكيه مي‌كند. مزايا: افزايش سرعت كنترل استقلال از حسگرهاي معيوب بهبود يافتن پايداري معايب: فراموش كردن اغتشاش‌هاي ممكن همگرا شدن به جوابهاي زير بهينه

نوروسايكولوژي تصميم‌گيري تصميم‌گيري: فرآيند بهينه‌سازي (بيشينه كردن مطلوب بودن نتايج) پردازش‌هاي كليدي در فرآيند تصميم‌گيري: شكل‌گيري اولويت بين اعمال انتخاب و اجراي يك عمل (فرآيند يادگيري تقويتي) ارزيابي نتيجه‌ي تصميم (از طريق تجربه و با توجه به اختلاف بين پاداش بدست آمده و مقدار پيش‌بيني شده) زير ساختهاي نوروني كه در تصميم‌گيري نقش دارند، نواحي وسيعي از ساختارهاي قشري و زير قشري مغز را شامل مي‌شوند كه نكته‌ي مشترك بين تمام آنها رفتارهاي بر پايه‌ي پاداش (تشويق و تنبيه) است.

زير ساخت‌هاي نوروني كه در تصميم‌گيري دخالت دارند قشر پشتي-جانبي پيشاني (DLPFC) قشر سينگوليت قدامي (ACC) قشر اوربيتوفرانتال (OFC) Midbrain: آميگدال نورون‌هاي توليد كننده‌ي دوپامين استرياتوم

قشر پشتي-جانبي پيشاني (DLPFC) مكان آناتوميكي حافظه فعال در اين ناحيه مدلي از محيط تشكيل مي‌شود كه وجود آن براي پيش‌بيني ضروري محسوب مي‌شود. مدل شامل تعداد محدودي حالت محيط است (افق پيش‌بيني). وجود رفتارهاي برمبناي پاداش (روشهاي پيش‌بيني مبتني بر يادگيري تقويتي).

آميگدال (مغز مياني) مرتبط با پردازشهاي احساسي و انگيزشي توليد پاداش يا ميزان مطلوبيت لحظه‌اي انتخاب يك عمل: پاداش دروني مرتبط با پردازشهاي احساسي پاداش خارجي تعيين شده توسط محيط در مدل پاداش منفي معادل جريمه يا تنبيه است.

نورون‌هاي توليد كننده‌ي دوپامين در مغز مياني اين نورونها: در پردازشهاي مربوط به تحريك-پاداش دخالت دارند. توسط تحريك مرتبط با پيش‌بيني پاداش فعال مي‌شوند. خطاي پيش‌بيني پاداش در آينده را بازنمايي مي‌كنند (خطاي تفاضل زماني).

قشر اوربيتوفرانتال (OFC) تخمين ارزش اعمال و حالات و به روز سازي آن با توجه به خطاي پيش‌بيني مخابره شده توسط نورونهاي دوپامين نقش نقاد در روش عملگر-نقاد (حاوي ماتريس ارزش هر حالت)

قشر سينگوليت قدامي (ACC) انتخاب عمل بر اساس ميزان پاداش و خطاي دريافت شده از سيستم دوپامينرژيك و ارزش اعمال (روش سافت مكس: انتخاب عمل براساس تابع وزن اعمال) تعيين ميزان تصادفي بودن اعمال: نورونهاي لوكوس كورولوس و نورآدرنالين ميزان تصادفي بودن در انتخاب عمل را كنترل مي‌كند.

قشر سينگوليت قدامي (ACC) ايفاي نقش عملگر در سيستم عملگر-نقاد مانيتور كردن مداوم نتايج اعمال براي تشخيص رخ دادن خطا (امكان تغيير انتخاب به هنگام رخداد خطا در نتايج كه بعلت درست نبودن مدل محيط و عوض شدن ديناميك محيط رخ مي‌دهد)

استرياتوم (مغز مياني) تصميم‌گيري: سطح بالا (سطح اصلي) شامل اعمال پايه سطح پايين شامل اعمالي كه پس از چندين اجراي متوالي تحت يك عمل برچسب خورده‌اند.

استرياتوم (مغز مياني) پس از تكميل فرآيند يادگيري، دنباله‌هاي موفقيت آميز اعمال توسط اين ناحيه تحت يك عمل برچسب مي‌خورند. و كنترل آن اعمال از سطح شناختي خارج شده و بصورت خودكار در مي‌آيند. پياده‌سازي اين ويژگي در مدل: روش فشرده‌سازي زماني

جمع بندي مراحل تصميم‌گيري

مدل تصميم‌گيري

كاربردهاي مدل با استفاده از اين مدل مي‌توان اثر آسيب هر يك از نواحي مغزي را بررسي كرد. طراحي رباتهاي خود سازمانده و استفاده از آنها به جاي عامل انساني براي تصميم‌گيري در محيط‌هايي خطرناك. طراحي سيستم‌هاي كمك به افراد آلزايمري و سالمند كه دچار فراموشي مي‌شوند و نمي‌توانند كارهاي روزمره‌ي خود را طرح ريزي كنند. شبيه‌سازي رفتار انسانها در محيطهاي مجازي. ...

منابع و مراجع R.R. Negenborn, B. De Schutter, M.A. Wiering, and J. Hellendoorn, “Experience- based model predictive control using reinforcement learning,” Proceedings of the 8th TRAIL Congress 2004 | A World of Transport, Infrastructure and Logistics | CD- ROM, Rotterdam, The Netherlands, Nov. 2004. R.R. Negenborn, B. De Schutter, M.A. Wiering, and H. Hellendoorn,”Learning- based model predictive control for Markov decision processes," Proceedings of the 16th IFAC World Congress, Prague, Czech Republic, July 2005. Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto , MIT Press, Cambridge, Massachusetts , London, England, 2005. رضوان كياني فر،‌ ”مدلسازي نحوه‌ي تصميم‌گيري در انسان با استفاده از فرايند تصميم‌گيري ماركوف و پيش‌بيني مبتني بر مدل“ پايان نامه كارشناسي ارشد، 1388.