دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

Slides:



Advertisements
Similar presentations
Queue theory.
Advertisements

Logic Block Architectures. 2 Crosspoint Solution  Requires the use of large amounts of programmable interconnect −  suffer from area-inefficiency 
سازگاري فرايندهاي يادگيري Consistency of Learning Processes ارائه دهنده : الهام باوفای حقیقی استاد درس : آقای دکتر شيري دانشگاه امير كبير دانشكده ‌ مهندسي.
مديريت پروژه‌هاي فناوري اطلاعات سيستم‌هاي و استانداردهاي مديريت پروژه.
1 آزمايشگاه سيستم های هوشمند ( Domain-specific Architecture.
برنامه‌ريزي استراتژيک پيشرفته چارچوب کلي تجزيه و تحليل راهبردي (استراتژيک) سيستم‌ها.
طراحي و مدل کردن مؤلفه ها فصل 7 معماري نرم افزار هاي بزرگ دانيال مؤذن استاد : دکتر عبدالله زاده.
مهندسی نرم افزار مبتنی بر عامل
ارائه روشي براي شناسايي کاراکترهاي دستنويس، برپايه شبکه LVQ.
شنت گذاري  .
ارائه درس روباتيکز Extended Kalman Filter فريد ملازم استاد مربوطه دکتر شيري دانشگاه امير کبير – دانشکده کامپيوتر و فناوري اطلاعات.
سيستمهاي اطلاعات مديريت ارائه كننده : محسن كاهاني.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
نام و نام خانوادگي : فريد ملازم 1 آزمايشکاه سيستم هاي هوشمند ( موضوع ارائه ارتباط بين component ها.
Shiva Vafadar 1 آزمايشکاه سيستم هاي هوشمند ( Requirements Engineering : A Roadmap مقدمه اي بر هوش مصنوعي.
طراحي و ساخت سيستم‌هاي تجارت الکترونيک ساخت سيستم‌هاي تجارت الکترونيک ECSE.
نام و نام خانوادگي : فريد ملازم 1 آزمايشکاه سيستم هاي هوشمند ( موضوع ارائه Process and Deployment Design.
1 تدوين راهبرد برای يک برنامه جلب حمايت همه جانبه Mohsen Shams, MD. PhD Candidate in Health Education, School of Public Health, Tehran University of Medical.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
1 آزمايشگاه سيستم های هوشمند ( ارزيابي معماري نرم افزار.
مديريت پروژه‌هاي فناوري اطلاعات
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي تخصيص منابع.
اصول و مفاهيم جلب حمايت همه جانبه Mohsen Shams, MD. PhD Candidate in Health Education, School of Public Health, Tehran University of Medical Sciences.
تعميم در يادگيري مبتني بر نمونه ها
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي.
نقشه‌برداري و مكان‌يابي همزمان به کمک الگوريتم ژنتيک
Artificial Intelligent Systems Laboratory 1 الگو‌هاي فرايند (Process Patterns) فصل 2 درس مهندسي نرم‌افزار 2 دكتر احمد عبداله زاده بارفروش تهيه كننده :
In the name of God Sharif University of Technology, International Branch, Kish Island Dr. Mohsen Sadighi Moshkenani Chapter 12.
فارسی سازی يکپارچه در سيستم عاملهای OS/390 & Windows واحد 1 مهندسی سيستم Integrated Farsi support on OS/390 & Windows.
ساختارهاي تقسيم كار پروژه
توسعه سازماني براي مشاوران مديريت دوره کوتاه مدت (10 روز )
Solving problems by searching Chapter 3 Modified by Vali Derhami.
1 فصل دوم تبديلات. 2 فصل دوم سرفصل مطالب مقدمه ضرب بردارها دستگاه ‌ هاي مختصات دوران ‌ ها مختصات همگن دوران ‌ ها و انتقال ‌ ها تبديلات تركيبي همگن تبديل.
1/19 Informed search algorithms Chapter 4 Modified by Vali Derhami.
1 فصل سوم سينماتيك مستقيم. 2 محتواي فصل   تعريف مجموعه فازي   تابع عضويت   نمايش مجموعه هاي فازي   برش آلفا   متغيرهاي زباني   ساخت مجموعه.
Image Enhancement in the
Information Retrieval
اصول روان سنجی و روان آزمویی
مديريت پروژه هاي فناوري اطلاعات نويسنده : Jack T. Marchewka ترجمه پاورپوينت فصل سه مترجم : محمد صادق كسلخه ايميل :
مطالعات تحليلي مشاهده اي
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
فلوتاسيون (جلسه پنجم) مهدي نصيري سروي.
اصول کامپيوتر 1 – معرفي درس
ANOVA: Analysis Of Variance
ANOVA: Analysis Of Variance
اهداف، فرضيات و سئوالات
تکنیک دیماتل DEMATEL: decision making trial and evaluation laboratory.
تلفيق اطلاعات سنسوري به منظور حرکت
تبدیل فوریه (Fourier Transform)
نمايش اعداد در کامپيوتر چهار عمل اصلي
بسمه الله الرحمن الرحيم
More About MPIC Applications
به نام خدا برنامه ارزيابي خارجي کيفيت (هماتولوژی- سرولوژی)
سيستمهاي اطلاعات مديريت
مدلسازي تجربي – تخمين پارامتر
هیدرولیک جریان در کانالهای باز
فيلتر كالمن معرفي : فيلتر كالمن تخمين بهينه حالت‌ها است كه براي سيستم‌هاي ديناميكي با اختلال تصادفي در سال 1960 بزاي سيستم‌هاي گسسته و در سال 1961 براي.
استراتژی بهبود فصل هفتم تهیه کننده :
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
Test آزمون نرم افزار Mansooreh Jalalyazdi.
به نام خدا برنامه ارزيابي خارجي کيفيت (هماتولوژی- سرولوژی)
تحليل عملكرد يك سيستم تصويربرداري ديجيتال
فصل ششم مدارهای ترتیبی.
نرم افزار عملي دوره كارداني كامپيوتر دانشگاه کردستان دانشكده فني
مثال : فلوچارتي رسم كنيد كه دو عدد از ورودي دريافت كرده بزرگترين عدد
Stem cell Transplantation
آزمايشگاه مهندسي نرم افزار
گروه كارشناسي ارشد مديريت فنآوري اطلاعات(واحد الكترونيكي تهران)
Presentation transcript:

دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87 مدلسازي نحوه تصميم گيري انسان با استفاده از پيش بيني مبتني بر مدل و فرآيند تصميم گيري مارکوف دانشجو: رضوان کياني فر استاد راهنما: دکتر فرزاد توحيد خواه 12/8/87

عناوين بحث معرفي اجزاي درگير در تصميم گيري در مغز معرفي يادگيري تقويتي و فرآيند تصميم گيري مارکوف بازبيني مدلهاي ارائه شده کاربردها

مقدمه تصميم گيري يک فرآيند بهينه سازي است. انسانها يک فرآيند يادگيري تشويقي را براي بهينه کردن انتخابها استفاده مي کنند. تصميم گيرها بايد اطلاعات مختلف راجع به مزايا و معايب و کيفيت و کميت نتيجه پيش بيني شده و کار مورد نياز را ترکيب کنند. فرضياتي مطرح شده که زير بخش هاي مختلف قشر فرانتال ممکن است براي جنبه هاي مختلف تصميم گيري تخصص يافته باشند.

PreFrontal Cortex

روشهاي مطالعه پريفرانتال قديمي ترين روش براي مطالعه نقش شناختي PFC، سنجش رفتار بيمارانيست که به دليل تصادف يا جراحي، يک يا چندناحيه از PFC را از دست داده اند. نکته تقريبا مشترک درمورد نقص شناختي بيماران پريفرانتال اينست که هوش عمومي آنها (IQ) طبيعي است و توانايي هاي ادراکي و حرکتي آنها نرمال است و نقص آنها بصورت آني و مثلا در شرايط آزمايشگاه قابل فهم نيست بنابراين نياز با انجام تستهاي روانشناسي مي باشد.

بيماري هاي مرتبط با ناحيه پريفرانتال و تصميم گيري Autism Depression Obsessive-compulsive disorder Schizophernia Attention-deficit hyperactivity disorder Tourette’s syndrome Alzheimer Huntington

تست هاي شناختي word fluency stroop test Hayling Wisconsin card AX-CPT

معايب مطالعه پريفرانتال از روي بيماران آسيب ها و بيماري هاي رواني نواحي ديگري غير از ناحيه مورد نظر(حتي گاهي کل مغز) را هم درگير مي کنند طوري که نمي توان يک نقص شناختي را به يک ناحيه خاص نسبت داد. ممکن است استراتژي انتخابي شخص بيمار با فرد سالم متفاوت باشد.

روشهاي تصوير برداري امروزه روشهاي جديدي توسعه يافته اند که به ما امکان اندازه گيري تغييرات بزرگ فشار خون مغز را مي دهند(PET, FMRI) و داده هاي متقاعد کننده تري توليد مي کنند. معايب چه ارتباطي بين بالا رفتن فشار خون و و فعاليت الکتروشيميايي سلولها وجود دارد؟ کم بودن سوژه هاي انتخابي وضوح فضايي

ثبت سلولي delayed-response task فعاليت سلولي PFC از سال 1960 با استفاده از روشهاي الکتروانسفالوگرافيک (EEG) مطالعه شده است. از سال 1970 روشهايي توسعه يافت که مي توانستند فعاليت را در سطح سلولي کشف کنند. delayed-response task بازنمايي حسي اشياء ، يکي براي فعاليت حرکتي جهت اجرا، يکي براي پاداش و نهايتا يکي براي هماهنگي سه قسمت قبلي

اجزاي درگير در تصميم گيري توسط مغز Dorso Lateral PreFrontal Cortex بسياري نورونهايDLPFC فعاليت تفکيکي براساس زمان پيش بيني شده تحويل پاداش انجام مي دهند.

حافظه فعال(working memory) DLPFC بخشي از مغز است که درگيرنگهداري از بازنمايي اطلاعات ذخيره شده در نواحي قبلي قشراست و قابليت نگهداري فعال اطلاعات و اداره کردن آنها را براي رسيدن به اهداف دارد. اين نوع فعاليت معادل است با حافظه فعال تفاوت با هيپوکامپ هيپوکامپ چسباندن اطلاعات بهم نسبت به حافظه يک اپيزود است، درحالي که PFC قواعد(قانونها و اهداف) آن اپيزود را استخراج مي کند WM به عنوان بخش فعالي از حافظه بلندمدت تفسير کردند که که خودش بين قسمتهاي مختلف مغز توزيع شده است.

اجزاي درگير در تصميم گيري توسط مغز نورونهاي LPFC در حافظه فعال دخالت دارند. اهميت کاربردي اعمال LPFC مي تواند در جمع کردن اعمال انگيزشي و شناختي به منظور انجام يک رفتار هدفمند باشد . LPFC مرحله بعدي عمل را بر اساس اطلاعات ذخيره شده در حافظه فعال آماده مي کند.

اجزاي درگير در تصميم گيري توسط مغز OrbitoFrontal Cortex اين ناحيه درپردازش خروجي مطلوب شامل بازنمايي پيش بيني پاداش و ارتباط بين تحريک و پاداش نقش دارد و نورونهاي اين ناحيه مقدار نسبي پاداش را کد مي کنند.

اجزاي درگير در تصميم گيري توسط مغز Anterior Cingulate Cortex ACC در استفاده از اطلاعات تشويقي براي کنترل رفتار نقش دارد . ACC در مديريت کردن تضادها دخالت دارد که اين مديريت شامل تضادهايي که پيش بيني مي شود رخ دهند هم خواهد بود.

اجزاي درگير در تصميم گيري توسط مغز Limbic System قسمت ليمبيک يک پيش بيني انگيزشي از حالت هدف ايجاد مي کند که بعنوان نقطه کار، براي ارزيابي توسط ACC در طرح ريزي و مانيتورينگ استفاده مي شود.

دياگرام مدل پيشنهادي

آشنايي با اصول يادگيري تقويتي و فرآيند تصميم گيري مارکوف انواع يادگيري يادگيري با سرپرستي: خروجي مطلوب مشخص است يادگيري بدون سرپرستي: خروجي مطلوب مشخص نيست يادگيري تقويتي: سيستم بجاي دريافت يک خروجي مطلوب داده شده توسط سرپرست، با توجه به نقد عملكرد کنترل آموزش مي بيند

ويژگي هاي يادگيري تقويتي يکي از مسائل مهم که در RL وجود دارد و در ساير روشهاي يادگيري مطرح نيست، مصالحه بين کاوش (exploration)وبهره برداري(exploitation) است . بناي آموزش تقويتي بر روي اين احساس مشترک است که اگر عملي منجربه بهبود وضعيت گردد ميل به انجام آن تقويت يا تشديد مي شود و در صورت عدم بهبود،امكان انجام آن تضعيف مي گردد. در يادگيري تشويقي دو جنبه مهم و مستقل از هم وجود دارد: يکي يادگيري با روش سعي و خطاست که از مطالعه روي روشهاي يادگيري حيوانات شروع شد و ديگري کنترل بهينه است که شامل يادگيري نمي شود. اين دو جنبه از اواخر سال 1980 با هم تلفيق شدندو RL مدرن را بوجود آوردند.

اجزاي يادگيري تقويتي حالت (state): آنچه كه عامل از محيط حس مي كند ) به جز پاداش و جريمه) عمل(action): عملهايي كه عامل پس از حس محيط بر اساس يك استراتژي مي تواندانجام دهد كه باعث تغيير در محيط گردد سياست(policy): قانوني كه عامل با توجه به حالت در هر لحظه عمل را انتخاب و انجام مي دهد

اجزاي يادگيري تقويتي تابع پاداش(reward function) : يك سيگنال عددي كه خوب يا بد بودن) موفقيت يا شكست(حالت فعلي عامل را به آن نشان مي دهد. تابع ارزش (value function): اين تابع مشخص مي كند كه در بلند مدت چه چيز خوب است. پاداش ها به طور ابتدايي) آني (حس مي شوند در حاليكه ارزش ها پيش بيني پاداش ها در طول زمان هستند. محيط: آن چيزي كه رفتار محيط را تقليد مي كند.

فرآيند تصميم گيري مارکوف

فرمول بندي تابع ارزش- حالت تابع ارزش-عمل

مثال

روشهاي حل 1- برنامه ريزي ديناميک از نظر رياضي به خوبي توسعه يافته ولي نياز به مدل دقيق و کاملي از محيط دارد. 2- روشهاي مونت کارلو نياز به مدل کامل ندارد درک آن ساده است اما نياز به اما نياز به محاسبه گام به گام زايد دارد. 3- يادگيري تفاضل- زماني نه به مدل نياز دارند و نه محاسبات زايد زياد دارند اما تحليلشان پيچيده تر است.

يادگيري تفاضل- زماني(TD-learning) Q-learning SARSA Actor-Critic

مروري بر مدلهاي ارائه شده در زمينه تصميم گيري

Hierarchical Gesture level Operation level Plan level

Kenji doya2002

N. Pisapia 2004

W.Yoshida et al.2005

MDP tests on human

Ishida, et.al 2008

طرح ريزي با RL عبارت planning، برمي گردد به هرفرآيند محاسباتي که يک مدل را به عنوان ورودي بگيرد و يک سياست را براي تعامل با محيط مدل شده توليد يا بهينه کند بعضي مدلها توصيفي از تمام امکانها و احتمالاتشان دارند که به آنها مدلهاي توزيع مي گويند. بعضي ديگر فقط يکي از امکانها را توليد مي کنند که طبق احتمالات نمونه برداري شده و به آنها مدلهاي نمونه ميگويند

کاربردهاي مدل بررسي تاثير آسيب هريک از نواحي مغزي فوق الذکر طراحي ربات براي استفاده در محيط هاي پرخطر کمک به افرادي که در طرح ريزي مشکل دارندمثل افراد آلزايمري شبيه سازي رفتار انسان در محيط هاي مجازي