Download presentation
Presentation is loading. Please wait.
1
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה
2
מוטיבציה עד עתה עסקנו באלגוריתמים לביצוע פעולות מסוימות. כעת עלינו לעסוק בתהליכים שבוחרים את הפעולות הנכונות. דוגמא : רובוט שרודף אחרי מטרה שעלולה להעלם יכול לבחור בין תנועה לעבר המטרה לבין תנועה לכיוון פינה של האוביקט המסתיר ( כדי שהמטרה לא תעלם ). המטרה נעה ללא ידיעה שרודפים אחריה.
3
תועלת מיידית : אנו מעוניינים לנתח כל דרך פעולה אפשרית מבחינת עלות - תועלת ולבחור את הדרך שתיתן לנו מצד אחד מקסימום תועלת ומצד שני מינימום עלות ( או זמן רדיפה ). זה מסובך. לכן ניסתכל על ערך אחד בלבד שייצג את היחס הזה ונקרא לו תועלת, למשל : אם המטרה נתפסה אחרת
4
התועלת המיידית היא ערך שיקבל השחקן אם יבחר כשהוא במצב כאשר : נתון ע " י המטריצה : הסתברות לעבור מהמצב למצב
5
מדיניות Policy מדיניות היא פונקציה שמתאימה אסטרטגיה בכל זמן לפי התצפית ואסטרטגיות הקודמות : כאשר : נתון ע " י המטריצה ההסתברות לעבור מהמצב למצב לפי האסטרטגיה אלו התצפיות
6
תועלת צפויה באופק תכנון T: תועלת צפויה בתהליך תוך T צעדים ( אופק תכנון T). אם אנו רוצים לעדכן את הבקרה שלנו ואנו יודעים מה הסתברות התוצאות האפשריות, ניתן למקסם את : כאשר הוא פקטור שמוריד משקל למאורעות רחוקים בזמן.
7
Value iteration בניית מדיניות ע " י אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון 1: עבור אופק תכנון T:
8
פונ ' הערך עם אופק 2 עם אופק 7
9
Additional reference Wikipedia All images are taken from Wikipedia
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.