Presentation is loading. Please wait.

Presentation is loading. Please wait.

Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.

Similar presentations


Presentation on theme: "Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה."— Presentation transcript:

1 Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה

2 מוטיבציה עד עתה עסקנו באלגוריתמים לביצוע פעולות מסוימות. כעת עלינו לעסוק בתהליכים שבוחרים את הפעולות הנכונות. דוגמא : רובוט שרודף אחרי מטרה שעלולה להעלם יכול לבחור בין תנועה לעבר המטרה לבין תנועה לכיוון פינה של האוביקט המסתיר ( כדי שהמטרה לא תעלם ). המטרה נעה ללא ידיעה שרודפים אחריה.

3 תועלת מיידית : אנו מעוניינים לנתח כל דרך פעולה אפשרית מבחינת עלות - תועלת ולבחור את הדרך שתיתן לנו מצד אחד מקסימום תועלת ומצד שני מינימום עלות ( או זמן רדיפה ). זה מסובך. לכן ניסתכל על ערך אחד בלבד שייצג את היחס הזה ונקרא לו תועלת, למשל : אם המטרה נתפסה אחרת

4 התועלת המיידית היא ערך שיקבל השחקן אם יבחר כשהוא במצב כאשר : נתון ע " י המטריצה : הסתברות לעבור מהמצב למצב

5 מדיניות Policy מדיניות היא פונקציה שמתאימה אסטרטגיה בכל זמן לפי התצפית ואסטרטגיות הקודמות : כאשר : נתון ע " י המטריצה ההסתברות לעבור מהמצב למצב לפי האסטרטגיה אלו התצפיות

6 תועלת צפויה באופק תכנון T: תועלת צפויה בתהליך תוך T צעדים ( אופק תכנון T). אם אנו רוצים לעדכן את הבקרה שלנו ואנו יודעים מה הסתברות התוצאות האפשריות, ניתן למקסם את : כאשר הוא פקטור שמוריד משקל למאורעות רחוקים בזמן.

7 Value iteration בניית מדיניות ע " י אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון 1: עבור אופק תכנון T:

8 פונ ' הערך עם אופק 2 עם אופק 7

9 Additional reference Wikipedia All images are taken from Wikipedia


Download ppt "Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה."

Similar presentations


Ads by Google