”بسمه تعالي“ سمينار درس MPC

”بسمه تعالي“ سمينار درس MPC مدلسازي تصميم‌گيري در مغز انسان با استفاده از يادگيري تقويتي و ايده‌ي MPC مطهره مقتدايي آذرماه 1389

روند سمينار كنترل پيش بين مبتني بر مدل فرآيند تصميم‌گيري ماركوف محدود يادگيري تقويتي تصميم‌گيري در انسان از ديد نوروسايكولوژي مدلسازي

كنترل پيش‌بين عامل با يك سيستم ديناميك قابل كنترل در تعامل قرار دارد.
در هر گام تصميم، عامل بر اساس مشاهده‌اش، با يك سياست مشخص، عملي را جهت اعمال بر روي سيستم انتخاب مي‌كند. هدف عامل كنترلي آنست كه سياست‌اي را بيابد كه نهايتا عملكرد كلي سيستم ماكزيمم شود.

كنترل پيش‌بين MPC: مدلي از سيستم: پيش‌بيني رفتار سيستم تحت عملهاي مختلف در يك افق پيش‌بيني (عامل تلاش مي‌كند كه دنباله‌اي از عملها را بيابد كه ضمن برآورده كردن قيود، هم سيستم را به حالت مطلوب برساند و هم آثار منفي ناشي از آن اعمال را مينيمم نمايد.) مدلي از رفتار مطلوب (در غالب تابع عملكرد): يافتن دنباله‌ي مناسب عملها (محاسبه‌ي ارجحيت ماندن در يك حالت و يا تغيير حالت تحت تاثير يك عمل خاص)

كنترل پيش‌بين وظيفه‌ي عامل كنترلي:
دنباله‌اي از اعمال را بر اساس پيش‌بيني هايي كه با استفاده از مدل سيستم انجام مي‌دهد تعيين مي‌كند، بطوري كه عملكرد سيستم را در جهت رفتار مطلوب افزايش دهد و در عين حال قيود سيستم را نيز برآورده سازد.

كنترل پيش‌بين بحث افق در کنترل پيش‌بين: افق غلطكي (robustness)
افق محدود (حجم محاسباتي)

جمع بندي الگوريتم عامل در هر گام:
افق را به گام تصميم‌گيري فعلي مي‌غلطاند. مسئله‌ي بهينه‌سازي را با توجه به قيود مسئله در نظر مي‌گيرد. مسئله‌ي بهينه سازي را با روشهاي حل موجود با در نظرگرفتن قيود مسئله حل مي‌نمايد. عملهايي كه در فرايند بهينه‌سازي يافته است را تا شروع گام تصميم بعدي اعمال مي‌نمايد (عمدتا تنها يك عمل).

فرايند تصميم گيري ماركوف محدود
خاصيت مارکوف: ديناميك بعدي سيستم تنها به حالت و عمل فعلي وابسته است. احتمال تحول حالت: پاداش بعدي مورد انتظار:

استفاده از MPC در فرايند تصميم گيري ماركوف
غلطاندن افق تا گام تصميم فعلي با مشاهده حالت سيستم، و تعريف مسئله ي بهينه سازي؛ يافتن تمام مسيرهاي با طول Nc و محاسبه عملکرد مورد انتظار براي تک تک آنها و انتخاب دنباله اي از عملها که عملکردشان ماکزيمم است؛ اعمال اولين عمل اين دنباله و رفتن به گام بعدی تصميم؛

توابع ارزش اينكه بودن در يك حالت خاص چقدر براي عامل مطلوبست، توسط تابع ارزش تخمين زده مي‌شود. ارزش حالت s تحت سياست π: ارزش انجام عمل a در حالت s، تحت سياست π:

توابع ارزش بهينه سياست بهينه: تابع ارزش سياستهاي بهينه:
تابع ارزش عمل سياستهاي بهينه:

انتخاب عمل روش متوسط-نمونه (sample-average) greedy
ارزش عمل a (Q): ميانگين پاداش دريافتي با انتخاب عمل a.

انتخاب عمل روش ε-greedy:
هر چند وقت يكبار با احتمال كوچك ε، يك عمل تصادفي و مستقل از ارزش تخمين زده شده را بيازماييم. احتمال انتخاب بهينه به بزرگتر از 1-ε همگرا مي‌شود.

انتخاب عمل روش سافت مكس:
احتمال انتخاب عمل a در tامين آزمايش برابر است با (توزيع احتمال بولتزمان):

استفاده از يادگيري تقويتي در MPC
ترجيح ميدهيم که در MPC تابع ارزش بصورت بر خط تعليم داده شود، و بنابراين MPC را با روش يادگيري تقويتي ترکيب مينماييم. الگوريتم يادگيري RL، برپايه‌ي تخميني از يك تابع ارزش است.

يادگيري تقويتي در يادگيري تقويتي بررسي مي‌شود كه عامل چطور مي‌تواند يك استراتژي رفتاري بهينه را در تعامل با محيط ياد بگيرد.

يادگيري تقويتي مصالحه بين كاوش و بهره برداری
استفاده از ارزيابي اعمال به جای تعليم آنها فيدبك ارزيابي فيدبك معلم حل مسئله به كمك RL يعني يافتن سياستي كه بيشترين پاداش(ارزش) را حول اجراي بلند مدت ارائه دهد.

يادگيري تقويتي اجزا‌ء يادگيري تقويتي: عامل محيط
سياست : نگاشتي از حالات درك شده از محيط به اعمال برگزيده است تابع پاداش : تابع پاداش هر حالت (يا هر جفت عمل-حالت) از محيط را به يك عدد ثابت بنام پاداش مي‌نگارد تابع ارزش : كل پاداش مورد انتظار مدل محيط

حل مسائل RL (برنامه ريزي ديناميک)
اين روش با تعريفي براي ارزش سياست شروع مي‌شود. نهايتا تغيير بين گامهاي ارزيابي سياست و بهبود سياست موجب رسيدن به سياست بهينه مي‌شود.

تقريب تابع ارزش سياست: بهبود سياست: ارزيابي سياست:

معايب: الگوريتم‌هاي برنامه‌ريزي ديناميك نياز به مدل كاملي از تحول حالات محيط دارند. برنامه‌ريزي ديناميك براي مسائلي با تعداد حالات زياد مناسب نيست، چون حل آنها نياز به جستجوي تمام فضاي حالت دارد.

حل مسائل RL (يادگيري تفاضل زماني) (Temporal-Difference Learning )
تكرار ارزش را گام به گام انجام مي‌دهد. نياز به مدل كامل محيط براي يادگيري ندارد. اگر خطاي تفاضل زماني مثبت باشد، تخمين قديمي كمتر از مقدار واقعي است. بنابراين، عمل انتخابي خوب است و الگوريتم بايد ارزش بودن در آن حالت را افزايش دهد. بطور مشابه اگر خطا منفي باشد، تخمين قبلي از ارزش حالت فراتر از مقدار واقعي است. بنابراين آن عمل براي آن حالت مطلوب نيست و ارزش آن حالت براي آن عمل بايد كم شود. New Estimate = Old Estimate + Step Size [Target-Old Estimate] Error>0 Error<0

يادگيري تفاضل زماني(يادگيري Q)
اين الگوريتم يادگيري نياز به مدل كامل محيط ندارد. هنگام ارزيابي تابع ارزش دو نگاشت ضروري است. يك نگاشت حالات را به اعمال مربوط مي‌كند، نگاشت ديگر حالات را به ارزشهاي آنها كه اعداد حقيقي‌اند مربوط مي‌كند، يادگيري Q اين دو نگاشت را تحت يك نگاشت تركيب مي‌كند. يادگيري Q به جاي فقط حالت، از جفت‌هاي عمل-حالت استفاده مي‌كند.

يادگيري تفاضل زماني(يادگيري sarsa)
قانون به روز سازي تابع ارزش-عمل:

يادگيري تفاضل زماني (روش عملگر-نقاد Actor-Critic)
عملگر: ساختار سياست (چون براي انتخاب عمل استفاده مي‌شود) نقاد: تخمين تابع ارزش (چون اعمال انتخابي توسط عملگر را نقد مي‌كند) بعد از هر انتخاب عمل، نقاد حالت جديد را ارزيابي مي‌كند كه آيا بهتر شده يا بدتر.

تصميم‌گيري در انسان تصميم‌گيري فعاليتي است براي انتخاب عملي كه براي موجود به طريقي راضي كننده است. انسان در واقع بر اساس مدلي كه از محيط در ذهن خود دارد، عملهاي آينده‌ي خود را براي رسيدن به هدف انتخاب مي‌كند، و يك گام به جلو مي‌رود و باز به انتخاب عملهاي بهينه در حالت جديد مي‌پردازد.

تصميم‌گيري در انسان نقش پيش‌بيني در تصميمات:
رفتار حيوانات تنها بر اساس تجربيات گذشته يا فعلي است. رفتار انسان مطابق با انتظارات آينده شكل مي‌گيرد. رفتار پيش‌بين يك فرايند شناختي است كه نه فقط به وروديهاي حسي فعلي، بلكه به حالات، خواص، و مطلوبيات آينده هم بستگي دارد: پيش‌بيني در پردازشهاي حسي پيش‌بيني در پردازشهاي دروني پيش‌بيني در اجراي رفتار

پيش‌بيني در پردازش حسي پردازشهاي حسي، بخش توجهي سيستم شناختي را تشكيل مي‌دهند. باياس ايجاد شده توسط توجه، مسيرهاي داخلي فعاليت شناختي را متاثر مي‌كند. مزايا: بالا بردن سرعت پردازش پردازش يك تكليف با جزئيات بيشتر براي حسگر انتخابي معايب: تمركز بر روز يك موضوع و چشم پوشي از حوادث مهم ديگر

پيش‌بيني در پردازش دروني
نتيجه‌گيري‌ها، ارتباطات و تصورات دروني (مستقل از حسگرهاي بيروني) پردازش دروني به پردازش حافظه در خواب مربوط مي‌شود اما مي‌تواند در هوشياري هم اتفاق بيفتد. مزايا: استقلال آن از ورودي‌هاي حسي فعلي آماده سازي عمومي سيستم براي موقعيت‌هاي ممكن در آينده معايب: نتيجه‌گيري غلط به دليل عدم هدايت مدل داخلي

پيش‌بيني در اجراي رفتار
به MPC نزديك است. سيستم، مدل داخلي جلوسويي از محيط را ياد مي‌گيرد و به مرور، كمتر و كمتر به ورودي‌هاي حسي براي اجراي كنترل تكيه مي‌كند. مزايا: افزايش سرعت كنترل استقلال از حسگرهاي معيوب بهبود يافتن پايداري معايب: فراموش كردن اغتشاش‌هاي ممكن همگرا شدن به جوابهاي زير بهينه

نوروسايكولوژي تصميم‌گيري
تصميم‌گيري: فرآيند بهينه‌سازي (بيشينه كردن مطلوب بودن نتايج) پردازش‌هاي كليدي در فرآيند تصميم‌گيري: شكل‌گيري اولويت بين اعمال انتخاب و اجراي يك عمل (فرآيند يادگيري تقويتي) ارزيابي نتيجه‌ي تصميم (از طريق تجربه و با توجه به اختلاف بين پاداش بدست آمده و مقدار پيش‌بيني شده) زير ساختهاي نوروني كه در تصميم‌گيري نقش دارند، نواحي وسيعي از ساختارهاي قشري و زير قشري مغز را شامل مي‌شوند كه نكته‌ي مشترك بين تمام آنها رفتارهاي بر پايه‌ي پاداش (تشويق و تنبيه) است.

زير ساخت‌هاي نوروني كه در تصميم‌گيري دخالت دارند
قشر پشتي-جانبي پيشاني (DLPFC) قشر سينگوليت قدامي (ACC) قشر اوربيتوفرانتال (OFC) Midbrain: آميگدال نورون‌هاي توليد كننده‌ي دوپامين استرياتوم

قشر پشتي-جانبي پيشاني (DLPFC)
مكان آناتوميكي حافظه فعال در اين ناحيه مدلي از محيط تشكيل مي‌شود كه وجود آن براي پيش‌بيني ضروري محسوب مي‌شود. مدل شامل تعداد محدودي حالت محيط است (افق پيش‌بيني). وجود رفتارهاي برمبناي پاداش (روشهاي پيش‌بيني مبتني بر يادگيري تقويتي).

آميگدال (مغز مياني) مرتبط با پردازشهاي احساسي و انگيزشي
توليد پاداش يا ميزان مطلوبيت لحظه‌اي انتخاب يك عمل: پاداش دروني مرتبط با پردازشهاي احساسي پاداش خارجي تعيين شده توسط محيط در مدل پاداش منفي معادل جريمه يا تنبيه است.

نورون‌هاي توليد كننده‌ي دوپامين در مغز مياني
اين نورونها: در پردازشهاي مربوط به تحريك-پاداش دخالت دارند. توسط تحريك مرتبط با پيش‌بيني پاداش فعال مي‌شوند. خطاي پيش‌بيني پاداش در آينده را بازنمايي مي‌كنند (خطاي تفاضل زماني).

قشر اوربيتوفرانتال (OFC)
تخمين ارزش اعمال و حالات و به روز سازي آن با توجه به خطاي پيش‌بيني مخابره شده توسط نورونهاي دوپامين نقش نقاد در روش عملگر-نقاد (حاوي ماتريس ارزش هر حالت)

قشر سينگوليت قدامي (ACC)
انتخاب عمل بر اساس ميزان پاداش و خطاي دريافت شده از سيستم دوپامينرژيك و ارزش اعمال (روش سافت مكس: انتخاب عمل براساس تابع وزن اعمال) تعيين ميزان تصادفي بودن اعمال: نورونهاي لوكوس كورولوس و نورآدرنالين ميزان تصادفي بودن در انتخاب عمل را كنترل مي‌كند.

قشر سينگوليت قدامي (ACC)
ايفاي نقش عملگر در سيستم عملگر-نقاد مانيتور كردن مداوم نتايج اعمال براي تشخيص رخ دادن خطا (امكان تغيير انتخاب به هنگام رخداد خطا در نتايج كه بعلت درست نبودن مدل محيط و عوض شدن ديناميك محيط رخ مي‌دهد)

استرياتوم (مغز مياني) تصميم‌گيري: سطح بالا (سطح اصلي) شامل اعمال پايه
سطح پايين شامل اعمالي كه پس از چندين اجراي متوالي تحت يك عمل برچسب خورده‌اند.

استرياتوم (مغز مياني) پس از تكميل فرآيند يادگيري، دنباله‌هاي موفقيت آميز اعمال توسط اين ناحيه تحت يك عمل برچسب مي‌خورند. و كنترل آن اعمال از سطح شناختي خارج شده و بصورت خودكار در مي‌آيند. پياده‌سازي اين ويژگي در مدل: روش فشرده‌سازي زماني

جمع بندي مراحل تصميم‌گيري

مدل تصميم‌گيري

كاربردهاي مدل با استفاده از اين مدل مي‌توان اثر آسيب هر يك از نواحي مغزي را بررسي كرد. طراحي رباتهاي خود سازمانده و استفاده از آنها به جاي عامل انساني براي تصميم‌گيري در محيط‌هايي خطرناك. طراحي سيستم‌هاي كمك به افراد آلزايمري و سالمند كه دچار فراموشي مي‌شوند و نمي‌توانند كارهاي روزمره‌ي خود را طرح ريزي كنند. شبيه‌سازي رفتار انسانها در محيطهاي مجازي. ...

منابع و مراجع R.R. Negenborn, B. De Schutter, M.A. Wiering, and J. Hellendoorn, “Experience- based model predictive control using reinforcement learning,” Proceedings of the 8th TRAIL Congress 2004 | A World of Transport, Infrastructure and Logistics | CD- ROM, Rotterdam, The Netherlands, Nov R.R. Negenborn, B. De Schutter, M.A. Wiering, and H. Hellendoorn,”Learning- based model predictive control for Markov decision processes," Proceedings of the 16th IFAC World Congress, Prague, Czech Republic, July 2005. Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto , MIT Press, Cambridge, Massachusetts , London, England, 2005. رضوان كياني فر،‌ ”مدلسازي نحوه‌ي تصميم‌گيري در انسان با استفاده از فرايند تصميم‌گيري ماركوف و پيش‌بيني مبتني بر مدل“ پايان نامه كارشناسي ارشد، 1388.

”بسمه تعالي“ سمينار درس MPC

Similar presentations

Presentation on theme: "”بسمه تعالي“ سمينار درس MPC"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

”بسمه تعالي“ سمينار درس MPC

Similar presentations

Presentation on theme: "”بسمه تعالي“ سمينار درس MPC"— Presentation transcript:

Similar presentations

About project

Feedback