دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87
مدلسازي نحوه تصميم گيري انسان با استفاده از پيش بيني مبتني بر مدل و فرآيند تصميم گيري مارکوف دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

عناوين بحث معرفي اجزاي درگير در تصميم گيري در مغز
معرفي يادگيري تقويتي و فرآيند تصميم گيري مارکوف بازبيني مدلهاي ارائه شده کاربردها

مقدمه تصميم گيري يک فرآيند بهينه سازي است.
انسانها يک فرآيند يادگيري تشويقي را براي بهينه کردن انتخابها استفاده مي کنند. تصميم گيرها بايد اطلاعات مختلف راجع به مزايا و معايب و کيفيت و کميت نتيجه پيش بيني شده و کار مورد نياز را ترکيب کنند. فرضياتي مطرح شده که زير بخش هاي مختلف قشر فرانتال ممکن است براي جنبه هاي مختلف تصميم گيري تخصص يافته باشند.

PreFrontal Cortex

روشهاي مطالعه پريفرانتال
قديمي ترين روش براي مطالعه نقش شناختي PFC، سنجش رفتار بيمارانيست که به دليل تصادف يا جراحي، يک يا چندناحيه از PFC را از دست داده اند. نکته تقريبا مشترک درمورد نقص شناختي بيماران پريفرانتال اينست که هوش عمومي آنها (IQ) طبيعي است و توانايي هاي ادراکي و حرکتي آنها نرمال است و نقص آنها بصورت آني و مثلا در شرايط آزمايشگاه قابل فهم نيست بنابراين نياز با انجام تستهاي روانشناسي مي باشد.

بيماري هاي مرتبط با ناحيه پريفرانتال و تصميم گيري
Autism Depression Obsessive-compulsive disorder Schizophernia Attention-deficit hyperactivity disorder Tourette’s syndrome Alzheimer Huntington

تست هاي شناختي word fluency stroop test Hayling Wisconsin card AX-CPT

معايب مطالعه پريفرانتال از روي بيماران
آسيب ها و بيماري هاي رواني نواحي ديگري غير از ناحيه مورد نظر(حتي گاهي کل مغز) را هم درگير مي کنند طوري که نمي توان يک نقص شناختي را به يک ناحيه خاص نسبت داد. ممکن است استراتژي انتخابي شخص بيمار با فرد سالم متفاوت باشد.

روشهاي تصوير برداري امروزه روشهاي جديدي توسعه يافته اند که به ما امکان اندازه گيري تغييرات بزرگ فشار خون مغز را مي دهند(PET, FMRI) و داده هاي متقاعد کننده تري توليد مي کنند. معايب چه ارتباطي بين بالا رفتن فشار خون و و فعاليت الکتروشيميايي سلولها وجود دارد؟ کم بودن سوژه هاي انتخابي وضوح فضايي

ثبت سلولي delayed-response task
فعاليت سلولي PFC از سال 1960 با استفاده از روشهاي الکتروانسفالوگرافيک (EEG) مطالعه شده است. از سال 1970 روشهايي توسعه يافت که مي توانستند فعاليت را در سطح سلولي کشف کنند. delayed-response task بازنمايي حسي اشياء ، يکي براي فعاليت حرکتي جهت اجرا، يکي براي پاداش و نهايتا يکي براي هماهنگي سه قسمت قبلي

اجزاي درگير در تصميم گيري توسط مغز
Dorso Lateral PreFrontal Cortex بسياري نورونهايDLPFC فعاليت تفکيکي براساس زمان پيش بيني شده تحويل پاداش انجام مي دهند.

حافظه فعال(working memory)
DLPFC بخشي از مغز است که درگيرنگهداري از بازنمايي اطلاعات ذخيره شده در نواحي قبلي قشراست و قابليت نگهداري فعال اطلاعات و اداره کردن آنها را براي رسيدن به اهداف دارد. اين نوع فعاليت معادل است با حافظه فعال تفاوت با هيپوکامپ هيپوکامپ چسباندن اطلاعات بهم نسبت به حافظه يک اپيزود است، درحالي که PFC قواعد(قانونها و اهداف) آن اپيزود را استخراج مي کند WM به عنوان بخش فعالي از حافظه بلندمدت تفسير کردند که که خودش بين قسمتهاي مختلف مغز توزيع شده است.

نورونهاي LPFC در حافظه فعال دخالت دارند. اهميت کاربردي اعمال LPFC مي تواند در جمع کردن اعمال انگيزشي و شناختي به منظور انجام يک رفتار هدفمند باشد . LPFC مرحله بعدي عمل را بر اساس اطلاعات ذخيره شده در حافظه فعال آماده مي کند.

OrbitoFrontal Cortex اين ناحيه درپردازش خروجي مطلوب شامل بازنمايي پيش بيني پاداش و ارتباط بين تحريک و پاداش نقش دارد و نورونهاي اين ناحيه مقدار نسبي پاداش را کد مي کنند.

Anterior Cingulate Cortex ACC در استفاده از اطلاعات تشويقي براي کنترل رفتار نقش دارد . ACC در مديريت کردن تضادها دخالت دارد که اين مديريت شامل تضادهايي که پيش بيني مي شود رخ دهند هم خواهد بود.

Limbic System قسمت ليمبيک يک پيش بيني انگيزشي از حالت هدف ايجاد مي کند که بعنوان نقطه کار، براي ارزيابي توسط ACC در طرح ريزي و مانيتورينگ استفاده مي شود.

دياگرام مدل پيشنهادي

آشنايي با اصول يادگيري تقويتي و فرآيند تصميم گيري مارکوف
انواع يادگيري يادگيري با سرپرستي: خروجي مطلوب مشخص است يادگيري بدون سرپرستي: خروجي مطلوب مشخص نيست يادگيري تقويتي: سيستم بجاي دريافت يک خروجي مطلوب داده شده توسط سرپرست، با توجه به نقد عملكرد کنترل آموزش مي بيند

ويژگي هاي يادگيري تقويتي
يکي از مسائل مهم که در RL وجود دارد و در ساير روشهاي يادگيري مطرح نيست، مصالحه بين کاوش (exploration)وبهره برداري(exploitation) است . بناي آموزش تقويتي بر روي اين احساس مشترک است که اگر عملي منجربه بهبود وضعيت گردد ميل به انجام آن تقويت يا تشديد مي شود و در صورت عدم بهبود،امكان انجام آن تضعيف مي گردد. در يادگيري تشويقي دو جنبه مهم و مستقل از هم وجود دارد: يکي يادگيري با روش سعي و خطاست که از مطالعه روي روشهاي يادگيري حيوانات شروع شد و ديگري کنترل بهينه است که شامل يادگيري نمي شود. اين دو جنبه از اواخر سال 1980 با هم تلفيق شدندو RL مدرن را بوجود آوردند.

اجزاي يادگيري تقويتي حالت (state): آنچه كه عامل از محيط حس مي كند ) به جز پاداش و جريمه) عمل(action): عملهايي كه عامل پس از حس محيط بر اساس يك استراتژي مي تواندانجام دهد كه باعث تغيير در محيط گردد سياست(policy): قانوني كه عامل با توجه به حالت در هر لحظه عمل را انتخاب و انجام مي دهد

اجزاي يادگيري تقويتي تابع پاداش(reward function) : يك سيگنال عددي كه خوب يا بد بودن) موفقيت يا شكست(حالت فعلي عامل را به آن نشان مي دهد. تابع ارزش (value function): اين تابع مشخص مي كند كه در بلند مدت چه چيز خوب است. پاداش ها به طور ابتدايي) آني (حس مي شوند در حاليكه ارزش ها پيش بيني پاداش ها در طول زمان هستند. محيط: آن چيزي كه رفتار محيط را تقليد مي كند.

فرآيند تصميم گيري مارکوف

فرمول بندي تابع ارزش- حالت تابع ارزش-عمل

مثال

روشهاي حل 1- برنامه ريزي ديناميک از نظر رياضي به خوبي توسعه يافته ولي نياز به مدل دقيق و کاملي از محيط دارد. 2- روشهاي مونت کارلو نياز به مدل کامل ندارد درک آن ساده است اما نياز به اما نياز به محاسبه گام به گام زايد دارد. 3- يادگيري تفاضل- زماني نه به مدل نياز دارند و نه محاسبات زايد زياد دارند اما تحليلشان پيچيده تر است.

يادگيري تفاضل- زماني(TD-learning)
Q-learning SARSA Actor-Critic

مروري بر مدلهاي ارائه شده در زمينه تصميم گيري

Hierarchical Gesture level Operation level Plan level

Kenji doya2002

N. Pisapia 2004

W.Yoshida et al.2005

MDP tests on human

Ishida, et.al 2008

طرح ريزي با RL عبارت planning، برمي گردد به هرفرآيند محاسباتي که يک مدل را به عنوان ورودي بگيرد و يک سياست را براي تعامل با محيط مدل شده توليد يا بهينه کند بعضي مدلها توصيفي از تمام امکانها و احتمالاتشان دارند که به آنها مدلهاي توزيع مي گويند. بعضي ديگر فقط يکي از امکانها را توليد مي کنند که طبق احتمالات نمونه برداري شده و به آنها مدلهاي نمونه ميگويند

کاربردهاي مدل بررسي تاثير آسيب هريک از نواحي مغزي فوق الذکر
طراحي ربات براي استفاده در محيط هاي پرخطر کمک به افرادي که در طرح ريزي مشکل دارندمثل افراد آلزايمري شبيه سازي رفتار انسان در محيط هاي مجازي

دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

Similar presentations

Presentation on theme: "دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

Similar presentations

Presentation on theme: "دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87"— Presentation transcript:

Similar presentations

About project

Feedback