”بسمه تعالي“ سمينار درس MPC مدلسازي تصميمگيري در مغز انسان با استفاده از يادگيري تقويتي و ايدهي MPC مطهره مقتدايي آذرماه 1389
روند سمينار كنترل پيش بين مبتني بر مدل فرآيند تصميمگيري ماركوف محدود يادگيري تقويتي تصميمگيري در انسان از ديد نوروسايكولوژي مدلسازي
كنترل پيشبين عامل با يك سيستم ديناميك قابل كنترل در تعامل قرار دارد. در هر گام تصميم، عامل بر اساس مشاهدهاش، با يك سياست مشخص، عملي را جهت اعمال بر روي سيستم انتخاب ميكند. هدف عامل كنترلي آنست كه سياستاي را بيابد كه نهايتا عملكرد كلي سيستم ماكزيمم شود.
كنترل پيشبين MPC: مدلي از سيستم: پيشبيني رفتار سيستم تحت عملهاي مختلف در يك افق پيشبيني (عامل تلاش ميكند كه دنبالهاي از عملها را بيابد كه ضمن برآورده كردن قيود، هم سيستم را به حالت مطلوب برساند و هم آثار منفي ناشي از آن اعمال را مينيمم نمايد.) مدلي از رفتار مطلوب (در غالب تابع عملكرد): يافتن دنبالهي مناسب عملها (محاسبهي ارجحيت ماندن در يك حالت و يا تغيير حالت تحت تاثير يك عمل خاص)
كنترل پيشبين وظيفهي عامل كنترلي: دنبالهاي از اعمال را بر اساس پيشبيني هايي كه با استفاده از مدل سيستم انجام ميدهد تعيين ميكند، بطوري كه عملكرد سيستم را در جهت رفتار مطلوب افزايش دهد و در عين حال قيود سيستم را نيز برآورده سازد.
كنترل پيشبين بحث افق در کنترل پيشبين: افق غلطكي (robustness) افق محدود (حجم محاسباتي)
جمع بندي الگوريتم عامل در هر گام: افق را به گام تصميمگيري فعلي ميغلطاند. مسئلهي بهينهسازي را با توجه به قيود مسئله در نظر ميگيرد. مسئلهي بهينه سازي را با روشهاي حل موجود با در نظرگرفتن قيود مسئله حل مينمايد. عملهايي كه در فرايند بهينهسازي يافته است را تا شروع گام تصميم بعدي اعمال مينمايد (عمدتا تنها يك عمل).
فرايند تصميم گيري ماركوف محدود خاصيت مارکوف: ديناميك بعدي سيستم تنها به حالت و عمل فعلي وابسته است. احتمال تحول حالت: پاداش بعدي مورد انتظار:
استفاده از MPC در فرايند تصميم گيري ماركوف غلطاندن افق تا گام تصميم فعلي با مشاهده حالت سيستم، و تعريف مسئله ي بهينه سازي؛ يافتن تمام مسيرهاي با طول Nc و محاسبه عملکرد مورد انتظار براي تک تک آنها و انتخاب دنباله اي از عملها که عملکردشان ماکزيمم است؛ اعمال اولين عمل اين دنباله و رفتن به گام بعدی تصميم؛
توابع ارزش اينكه بودن در يك حالت خاص چقدر براي عامل مطلوبست، توسط تابع ارزش تخمين زده ميشود. ارزش حالت s تحت سياست π: ارزش انجام عمل a در حالت s، تحت سياست π:
توابع ارزش بهينه سياست بهينه: تابع ارزش سياستهاي بهينه: تابع ارزش عمل سياستهاي بهينه:
انتخاب عمل روش متوسط-نمونه (sample-average) greedy ارزش عمل a (Q): ميانگين پاداش دريافتي با انتخاب عمل a.
انتخاب عمل روش ε-greedy: هر چند وقت يكبار با احتمال كوچك ε، يك عمل تصادفي و مستقل از ارزش تخمين زده شده را بيازماييم. احتمال انتخاب بهينه به بزرگتر از 1-ε همگرا ميشود.
انتخاب عمل روش سافت مكس: احتمال انتخاب عمل a در tامين آزمايش برابر است با (توزيع احتمال بولتزمان):
استفاده از يادگيري تقويتي در MPC ترجيح ميدهيم که در MPC تابع ارزش بصورت بر خط تعليم داده شود، و بنابراين MPC را با روش يادگيري تقويتي ترکيب مينماييم. الگوريتم يادگيري RL، برپايهي تخميني از يك تابع ارزش است.
يادگيري تقويتي در يادگيري تقويتي بررسي ميشود كه عامل چطور ميتواند يك استراتژي رفتاري بهينه را در تعامل با محيط ياد بگيرد.
يادگيري تقويتي مصالحه بين كاوش و بهره برداری استفاده از ارزيابي اعمال به جای تعليم آنها فيدبك ارزيابي فيدبك معلم حل مسئله به كمك RL يعني يافتن سياستي كه بيشترين پاداش(ارزش) را حول اجراي بلند مدت ارائه دهد.
يادگيري تقويتي اجزاء يادگيري تقويتي: عامل محيط سياست : نگاشتي از حالات درك شده از محيط به اعمال برگزيده است تابع پاداش : تابع پاداش هر حالت (يا هر جفت عمل-حالت) از محيط را به يك عدد ثابت بنام پاداش مينگارد تابع ارزش : كل پاداش مورد انتظار مدل محيط
حل مسائل RL (برنامه ريزي ديناميک) اين روش با تعريفي براي ارزش سياست شروع ميشود. نهايتا تغيير بين گامهاي ارزيابي سياست و بهبود سياست موجب رسيدن به سياست بهينه ميشود.
حل مسائل RL (برنامه ريزي ديناميک) تقريب تابع ارزش سياست: بهبود سياست: ارزيابي سياست:
حل مسائل RL (برنامه ريزي ديناميک)
حل مسائل RL (برنامه ريزي ديناميک) معايب: الگوريتمهاي برنامهريزي ديناميك نياز به مدل كاملي از تحول حالات محيط دارند. برنامهريزي ديناميك براي مسائلي با تعداد حالات زياد مناسب نيست، چون حل آنها نياز به جستجوي تمام فضاي حالت دارد.
حل مسائل RL (يادگيري تفاضل زماني) (Temporal-Difference Learning ) تكرار ارزش را گام به گام انجام ميدهد. نياز به مدل كامل محيط براي يادگيري ندارد. اگر خطاي تفاضل زماني مثبت باشد، تخمين قديمي كمتر از مقدار واقعي است. بنابراين، عمل انتخابي خوب است و الگوريتم بايد ارزش بودن در آن حالت را افزايش دهد. بطور مشابه اگر خطا منفي باشد، تخمين قبلي از ارزش حالت فراتر از مقدار واقعي است. بنابراين آن عمل براي آن حالت مطلوب نيست و ارزش آن حالت براي آن عمل بايد كم شود. New Estimate = Old Estimate + Step Size [Target-Old Estimate] Error>0 Error<0
يادگيري تفاضل زماني(يادگيري Q) اين الگوريتم يادگيري نياز به مدل كامل محيط ندارد. هنگام ارزيابي تابع ارزش دو نگاشت ضروري است. يك نگاشت حالات را به اعمال مربوط ميكند، نگاشت ديگر حالات را به ارزشهاي آنها كه اعداد حقيقياند مربوط ميكند، يادگيري Q اين دو نگاشت را تحت يك نگاشت تركيب ميكند. يادگيري Q به جاي فقط حالت، از جفتهاي عمل-حالت استفاده ميكند.
يادگيري تفاضل زماني(يادگيري sarsa) قانون به روز سازي تابع ارزش-عمل:
يادگيري تفاضل زماني (روش عملگر-نقاد Actor-Critic) عملگر: ساختار سياست (چون براي انتخاب عمل استفاده ميشود) نقاد: تخمين تابع ارزش (چون اعمال انتخابي توسط عملگر را نقد ميكند) بعد از هر انتخاب عمل، نقاد حالت جديد را ارزيابي ميكند كه آيا بهتر شده يا بدتر.
تصميمگيري در انسان تصميمگيري فعاليتي است براي انتخاب عملي كه براي موجود به طريقي راضي كننده است. انسان در واقع بر اساس مدلي كه از محيط در ذهن خود دارد، عملهاي آيندهي خود را براي رسيدن به هدف انتخاب ميكند، و يك گام به جلو ميرود و باز به انتخاب عملهاي بهينه در حالت جديد ميپردازد.
تصميمگيري در انسان نقش پيشبيني در تصميمات: رفتار حيوانات تنها بر اساس تجربيات گذشته يا فعلي است. رفتار انسان مطابق با انتظارات آينده شكل ميگيرد. رفتار پيشبين يك فرايند شناختي است كه نه فقط به وروديهاي حسي فعلي، بلكه به حالات، خواص، و مطلوبيات آينده هم بستگي دارد: پيشبيني در پردازشهاي حسي پيشبيني در پردازشهاي دروني پيشبيني در اجراي رفتار
پيشبيني در پردازش حسي پردازشهاي حسي، بخش توجهي سيستم شناختي را تشكيل ميدهند. باياس ايجاد شده توسط توجه، مسيرهاي داخلي فعاليت شناختي را متاثر ميكند. مزايا: بالا بردن سرعت پردازش پردازش يك تكليف با جزئيات بيشتر براي حسگر انتخابي معايب: تمركز بر روز يك موضوع و چشم پوشي از حوادث مهم ديگر
پيشبيني در پردازش دروني نتيجهگيريها، ارتباطات و تصورات دروني (مستقل از حسگرهاي بيروني) پردازش دروني به پردازش حافظه در خواب مربوط ميشود اما ميتواند در هوشياري هم اتفاق بيفتد. مزايا: استقلال آن از وروديهاي حسي فعلي آماده سازي عمومي سيستم براي موقعيتهاي ممكن در آينده معايب: نتيجهگيري غلط به دليل عدم هدايت مدل داخلي
پيشبيني در اجراي رفتار به MPC نزديك است. سيستم، مدل داخلي جلوسويي از محيط را ياد ميگيرد و به مرور، كمتر و كمتر به وروديهاي حسي براي اجراي كنترل تكيه ميكند. مزايا: افزايش سرعت كنترل استقلال از حسگرهاي معيوب بهبود يافتن پايداري معايب: فراموش كردن اغتشاشهاي ممكن همگرا شدن به جوابهاي زير بهينه
نوروسايكولوژي تصميمگيري تصميمگيري: فرآيند بهينهسازي (بيشينه كردن مطلوب بودن نتايج) پردازشهاي كليدي در فرآيند تصميمگيري: شكلگيري اولويت بين اعمال انتخاب و اجراي يك عمل (فرآيند يادگيري تقويتي) ارزيابي نتيجهي تصميم (از طريق تجربه و با توجه به اختلاف بين پاداش بدست آمده و مقدار پيشبيني شده) زير ساختهاي نوروني كه در تصميمگيري نقش دارند، نواحي وسيعي از ساختارهاي قشري و زير قشري مغز را شامل ميشوند كه نكتهي مشترك بين تمام آنها رفتارهاي بر پايهي پاداش (تشويق و تنبيه) است.
زير ساختهاي نوروني كه در تصميمگيري دخالت دارند قشر پشتي-جانبي پيشاني (DLPFC) قشر سينگوليت قدامي (ACC) قشر اوربيتوفرانتال (OFC) Midbrain: آميگدال نورونهاي توليد كنندهي دوپامين استرياتوم
قشر پشتي-جانبي پيشاني (DLPFC) مكان آناتوميكي حافظه فعال در اين ناحيه مدلي از محيط تشكيل ميشود كه وجود آن براي پيشبيني ضروري محسوب ميشود. مدل شامل تعداد محدودي حالت محيط است (افق پيشبيني). وجود رفتارهاي برمبناي پاداش (روشهاي پيشبيني مبتني بر يادگيري تقويتي).
آميگدال (مغز مياني) مرتبط با پردازشهاي احساسي و انگيزشي توليد پاداش يا ميزان مطلوبيت لحظهاي انتخاب يك عمل: پاداش دروني مرتبط با پردازشهاي احساسي پاداش خارجي تعيين شده توسط محيط در مدل پاداش منفي معادل جريمه يا تنبيه است.
نورونهاي توليد كنندهي دوپامين در مغز مياني اين نورونها: در پردازشهاي مربوط به تحريك-پاداش دخالت دارند. توسط تحريك مرتبط با پيشبيني پاداش فعال ميشوند. خطاي پيشبيني پاداش در آينده را بازنمايي ميكنند (خطاي تفاضل زماني).
قشر اوربيتوفرانتال (OFC) تخمين ارزش اعمال و حالات و به روز سازي آن با توجه به خطاي پيشبيني مخابره شده توسط نورونهاي دوپامين نقش نقاد در روش عملگر-نقاد (حاوي ماتريس ارزش هر حالت)
قشر سينگوليت قدامي (ACC) انتخاب عمل بر اساس ميزان پاداش و خطاي دريافت شده از سيستم دوپامينرژيك و ارزش اعمال (روش سافت مكس: انتخاب عمل براساس تابع وزن اعمال) تعيين ميزان تصادفي بودن اعمال: نورونهاي لوكوس كورولوس و نورآدرنالين ميزان تصادفي بودن در انتخاب عمل را كنترل ميكند.
قشر سينگوليت قدامي (ACC) ايفاي نقش عملگر در سيستم عملگر-نقاد مانيتور كردن مداوم نتايج اعمال براي تشخيص رخ دادن خطا (امكان تغيير انتخاب به هنگام رخداد خطا در نتايج كه بعلت درست نبودن مدل محيط و عوض شدن ديناميك محيط رخ ميدهد)
استرياتوم (مغز مياني) تصميمگيري: سطح بالا (سطح اصلي) شامل اعمال پايه سطح پايين شامل اعمالي كه پس از چندين اجراي متوالي تحت يك عمل برچسب خوردهاند.
استرياتوم (مغز مياني) پس از تكميل فرآيند يادگيري، دنبالههاي موفقيت آميز اعمال توسط اين ناحيه تحت يك عمل برچسب ميخورند. و كنترل آن اعمال از سطح شناختي خارج شده و بصورت خودكار در ميآيند. پيادهسازي اين ويژگي در مدل: روش فشردهسازي زماني
جمع بندي مراحل تصميمگيري
مدل تصميمگيري
كاربردهاي مدل با استفاده از اين مدل ميتوان اثر آسيب هر يك از نواحي مغزي را بررسي كرد. طراحي رباتهاي خود سازمانده و استفاده از آنها به جاي عامل انساني براي تصميمگيري در محيطهايي خطرناك. طراحي سيستمهاي كمك به افراد آلزايمري و سالمند كه دچار فراموشي ميشوند و نميتوانند كارهاي روزمرهي خود را طرح ريزي كنند. شبيهسازي رفتار انسانها در محيطهاي مجازي. ...
منابع و مراجع R.R. Negenborn, B. De Schutter, M.A. Wiering, and J. Hellendoorn, “Experience- based model predictive control using reinforcement learning,” Proceedings of the 8th TRAIL Congress 2004 | A World of Transport, Infrastructure and Logistics | CD- ROM, Rotterdam, The Netherlands, Nov. 2004. R.R. Negenborn, B. De Schutter, M.A. Wiering, and H. Hellendoorn,”Learning- based model predictive control for Markov decision processes," Proceedings of the 16th IFAC World Congress, Prague, Czech Republic, July 2005. Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto , MIT Press, Cambridge, Massachusetts , London, England, 2005. رضوان كياني فر، ”مدلسازي نحوهي تصميمگيري در انسان با استفاده از فرايند تصميمگيري ماركوف و پيشبيني مبتني بر مدل“ پايان نامه كارشناسي ارشد، 1388.