Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה.

Slides:



Advertisements
Similar presentations
Completeness and Expressiveness. תזכורת למערכת ההוכחה של לוגיקה מסדר ראשון : אקסיומות 1. ) ) (( 2. )) ) (( )) ( ) ((( 3. ))) F( F( ( 4. ) v) ( ) v ((
Advertisements

מבוא למדעי המחשב לתעשייה וניהול
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
תרגילי חזרה. General Things to Remember Be careful to identify if we’re talking about gains or costs (because the search cost is always negative) Check.
חיפוש בינה מלאכותית אבי רוזנפלד. סוגי חיפוש כלליים UNINFORMED SEARCH -- חיפושים לא מיודעים במרחי מצבים – BFS – DFS INFORMED SEARCH – חיפושים מיודעים –
מבוסס על הרצאות של יורם זינגר, האוניברסיטה העברית י"ם
עיבוד תמונות ואותות בעזרת מחשב
Presentation by Dudu Yanay and Elior Malul 1.  מה משותף לכל אלגוריתם המשתמש ב -Bucket Elimination: ◦ נתון מודל הסתברותי ורשת ביסיאנית מתאימה. ◦ נתונה.
מכונת מצבים תרגול מס' 4 Moshe Malka.
מתמטיקה בדידה תרגול 3.
איפיון השיזור הקוונטי של מצבים טהורים הרצאה למבחן מאסטר ישי שמעוני.
רקורסיות נושאי השיעור פתרון משוואות רקורסיביות שיטת ההצבה
משטר דינמי המשך – © Dima Elenbogen :55 חידה שכדאי לעבור עליה: 2011/ho/WCFiles/%D7%97%D7%99%D7%93%D7%94%20%D7%A2%D7%9D%20%D7%91%D7%95%D7%A0%D7%95%D7%A1.doc.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
תרגול 5 רקורסיות. רקורסיה קריאה של פונקציה לעצמה –באופן ישיר או באופן עקיף היתרון : תכנות של דברים מסובכים נעשה ברור ונוח יותר, מכיוון שזו למעשה צורת.
מה החומר למבחן ? כל החומר שנלמד בהרצאות ובתרגולים. לגבי backtracking: לא תידרשו לממש אלגוריתם, אך כן להבין או להשלים מימוש נתון. אחת משאלות המבחן מבוססת.
אוטומט מחסנית הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 11.
1 Data Structures, CS, TAU, Splay Tree Splay Tree  מימוש של עץ חיפוש בינארי  מטרה לדאוג ל- Amortized Time  פעולה בודדת יכולה לקחת O(N)  אבל כל רצף.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
בהסתברות לפחות למצא בעיה במודל PAC עבור בהסתברות ε הפונקציה f טועה מודל ONLINE 1. אחרי כל טעות הפונקציה משתפרת 2. מספר הטעיות קטן.
מרצה: פרופסור דורון פלד
שאילת שאלות שאלת חקר המפתח למנעול 1. שאילת שאלות – שאלת חקר מה ניתן לשנות ? :  בתנאים : טמפ ' או לחץ או הכלים, או הציוד  בחומרים : איכות או כמות או.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Data Structures, CS, TAU, Splay Tree 1 Splay Tree - עץ חיפוש בינארי - מטרה לדאוג ל - Amortized Time - פעולה בודדת יכולה לקחת O(N) - אבל כל רצף M פעולות.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
תורת הקבוצות חלק ב'. קבוצה בת מניה הגדרה: קבוצה אינסופית X היא ניתנת למניה אם יש התאמה חד-חד ערכית בין X לבין .
Tangent Bug יישום תומר באום Based on ch. 2 in “Principles of robot motion” By Choset et al. ב"הב"ה.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Motion planning via potential fields תומר באום Based on ch. 4 in “Principles of robot motion” By Choset et al. ב"הב"ה.
ערכים עצמיים בשיטות נומריות. משוואה אופינית X מציין וקטור עצמי מציינת ערך עצמי תואם לוקטור.
1 מפרטים פורמאליים תרגול מספר 1 מהות הקורס:כח ביטוי. בעיות מעשיות (ולא הוכחות) מתרגל אחראי:שחר דג מתרגלת:אמיליה כץ אתר:
Kalman Filter תומר באום Based on ch. 8 in “Principles of robot motion” By Choset et al. ב"הב"ה.
CS Introduction to AI Tutorial 6 AB Questions Tutorial 6 AB Questions.
The Cyclic Multi-peg Tower of Hanoi מעגלי חד-כווני סבוכיות הפתרון בגרסאות עם יותר מ-3 עמודים.
טיב פני שטח (טפ"ש) טיב פני שטח- רמת החלקות של המשטח.
Ray 7 דוגמא אלגוריתם 1.קבל דוגמאות 2. פלט f a עבור הדוגמה a המינימלית החיובית ?
משטר דינמי – © Dima Elenbogen :14. הגדרת cd ו -pd cd - הזמן שעובר בין הרגע שראשון אותות הכניסה יוצא מתחום לוגי עד אשר אות המוצא יוצא מתחום.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
עצים בינאריים - תזכורת דרגת צומת שורש עלה צומת פנימי מרחק בין 2 צמתים
Particle Filter תומר באום ב"ה. מוטיבציה אנו רוצים להעריך מצב של מערכת (מיקום,מהירות טמפרטורה וכו') בעזרת מדידות שנעשות בזמנים שונים. ( כמו טווח לנקודות.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
1 Formal Specifications for Complex Systems (236368) Tutorial #3 Z introduction and notation (contd.); Birthday book example (Chapter 1 in the book)
1 מבוא למדעי המחשב backtracking. 2 מוטיבציה בעיית n המלכות: נתון: לוח שחמט בגודל. המטרה: לסדר על הלוח n מלכות כך שאף אחת לא תאיים על השנייה. דוגמא: עבור.
בקרה תומר באום ב"הב"ה. סוגי בקרה חוג פתוח Open-loop control : אנו מכוונים את הרובוט למצב הבא שהוא אמור להיות בו לפי מודל מסוים, כמו שעשינו בקינמטיקה הפוכה.
Extensive Form Game. “Burn the Boats” לעיתים אנחנו שומעים את הביטוי “let’s burn the boats”. מה הכוונה ? –לוותר על אלטרנטיבה B –ובכך לא להותיר ברירה ולנסות.
Presentation by Gil Perry Supervised by Amos Fiat 1.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Costs and Filters Dr. Avi Rosenfeld Department of Industrial Engineering Jerusalem College of Technology
Data Structures Hanoch Levi and Uri Zwick March 2011 Lecture 3 Dynamic Sets / Dictionaries Binary Search Trees.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site:
. Sequence Alignment Tutorial #3 © Ydo Wexler & Dan Geiger.
אביב תשס " ה JCT תיכון תוכנה ד " ר ר ' גלנט / י ' לויאןכל הזכויות שמורות 1 פרק 5 תרשימי מצבים Statecharts למחלקות תגובתיות Reactive Classes הקדמה ודוגמא.
Formal Specifications for Complex Systems (236368) Tutorial #1
מבוא למדעי המחשב סיבוכיות.
SQL בסיסי – הגדרה אינדוקטיבית
תירגול 14: מבני נתונים דינאמיים
חיפוש לוקלי Local Search.
פרוקטוז, C6H12O6 , חד-סוכר מיוחד
ממשקים - interfaces איך לאפשר "הורשה מרובה".
Data Structures, CS, TAU, Splay Tree
Marina Kogan Sadetsky –
משחקים Game playing.
בחירת חומר גלם כתב: עמרי שרון.
A* and AO* Search Algorithm
Presentation transcript:

Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה

מוטיבציה אנו מחפשים תהליכים שבוחרים את הפעולות הנכונות. כאשר המצב נצפה בצורה חלקית ולא מלאה. דוגמא ( המשך מהתרגול הקודם ): רובוט שרודף אחרי מטרה שעלולה להעלם יכול לבחור בין תנועה לעבר המטרה לבין תנועה לכיוון פינה של האוביקט המסתיר ( כדי שהמטרה לא תעלם ). המטרה נעה ללא ידיעה שרודפים אחריה.

Value iteration תזכורת : אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון 1: עבור אופק תכנון T:

מה נשתנה ? הרעיון בתרגול הקודם היה שאנו רוצים לעבור למצב בעל הערך הגבוה ביותר. אבל במקרה שלנו אנו לא יודעים באיזה מצב הרובוט. אלא אנחנו מעריכים מה המצב : פונקציה זו נקראת אמונה belief.

Value iteration בחזרה ל אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון T: בעיה : אוסף ההיפוטזות באינטגרל הוא אינסופי !

דוגמא : התועלת במצבים השונים עם תכסיסים שמסימים את המשחק ( שני סיומים אפשריים ): תכסיס שלישי יאמר שאנו לא מסיימים את המשחק :

הוא בהסתברות גבוהה מחליף את המצב ובשאר המצבים : התכסיס

תצפיות ומדיניות : המדיניות מתאימה לכל ו תכסיס.

מה התועלת הצפויה מתכסיס מסוים ? האמונה היא : התועלת הצפויה מתכסיס מסוים היא :

איזה תכסיס נבחר ?

אסטרטגיות שולטות :

כעת נעבור למערכת שמבצעת תצפיות : נניח שזוהתה התצפית. אז ה belief שלנו יהיה : כאשר : ותועלת חדשה :

וערך :

אם עלינו לתת ערך לפני התצפית ניתן : במקרה שלנו :

שלב החיזוי : כעת עלינו לחזות מה יהיו התוצאות של פעולה אפשרית, נעדכן את ה belief: אם היינו יודעים שאנו במצב אז לפי הנתון : ובאופן כללי :

חיזוי הערך הערך הצפוי מפעולה מתקבל מהצבת ה belief החדש בנוסחא : במקרה שלנו :

אופק תכנון 2: אפשר לעשות אחת משתי פעולות הסיום ( שמפיקות תשלום ) או את פעולת המעבר בין מצבים שלה יש הפסד בטוח 1-:

האסטרטגיות :

מה יקרה אם גם המטרה מנסה להתחמק ? כדאי לעבור לתורת המשחקים !

קצת תורת המשחקים : משחק בצורה אסטרטגית : דוגמא " דילמת האסיר ": שיווי משקל נאש : צמד אסטרטגיות ( אחת לכל שחקן ) שבהינתן שאחד השחקנים לא משנה אסטרטגיה גם לשני לא כדאי לשנות את האסטרטגיה שבחר. אסטרטגיות מעורבות : השחקנים יכולים לבחור הסתברויות לכל מהלך. שחקן 2 מודהשחקן 2 לא מודה שחקן 1 מודה שחקן 1 לא מודה תועלת לשחקן 2 תועלת לשחקן 1

קצת תורת המשחקים : משחק בצורה רחבה : דוגמא פשוטה וסופית : שני שחקנים, לכל שחקן בתורו יש אפשרות לאחד משני תכסיסים אז אפשר לייצג את המשחק ע " י עץ בינארי. כאשר כל זוגיות עומק בעץ תקבע תור מי לקחת החלטה.

משחק חוזר הוא משחק שחוזר על עצמו פעמים רבות ומאפשר למידה והתאמה לתוצאות. אפשר להסתכל על משחק כעל תהליך בזמן שתלוי במצבים בהם השחקנים נמצאים. אם נניח שהפרשי הזמן קטנים אפשר להגדיר נגזרות של המשחק. במקרה שלנו הגיוני להגדיר משחק גזיר בצורה רחבה ולנתח אותו הסתכלו ב :

reference Wikipedia /tutorial/