Download presentation
Presentation is loading. Please wait.
1
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק הוקי - אויר : מגישים עירן חוף אמיר ווינשטוק : מנחה שי מנור הטכניון - מכון טכנולוגי לישראל TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY הפקולטה להנדסת חשמל המעבדה לקרה ורובוטיקה
2
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 2 מטרת הפרויקט תכנון ובניית בקר לומד למשחק הוקי אוויר בעיות עיקריות : מרחב המצבים של המשחק רציף זמן הלימוד ארוך מאוד בחירת הפרמטרים של האלגוריתם אופטימיזציה של המימוש להאצת זמן הריצה (ANN)
3
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 3 רקע : Reinforcement Learning Q-Learning Algorithm Instance-Base function approximate
4
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 4 תאור Instance-Base
5
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 5 1.Start from any Q-factor function Q(s,a) 2.Repeat until policy is optimum (enough): (a) After taking action a in state s, receiving reward r(s,a) and getting to state s, update Q-factor function: (b) Chose action a’ = argmax Q(s’,.) or explore. טבלאי Q-Learning אלגוריתם 1. After taking action a in state s, receiving reward r(s,a) and getting to state s’: (i)Cq = (s,a,Q) (ii)Find NN q set (iii) (iv) (v)Update: (vi)If min( { d(Cq,Ci) | Ci NN q } ) > D add Cq to database (vii)a’ = argmax a' Q(s',a') (viii)Take best action a’ in s’ or explore (ix)Repeat (1) until policy is optimum (enough) אלגוריתם Instance-Base Q-Learning
6
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 6 במהלך הפרויקט מימשנו : 1. בקר בסיסי מבוסס על אלגוריתם Q-Learning עם מימוש טבלאי עבור מודל פשטני 2. בקר השולט על התאוצות השחקן בשני צירים, מבוסס על אלגוריתם Q ואלגוריתם Instace-Based 3. אלגוריתם חמדן לשיפור הפרמטרים הדרושים באלגוריתם Instace-Based 4. אפליקציה מבוססת MFC להצגת המשחק
7
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 7 תוצאות : דוגמאות נבחרות מתוך הדו ” ח עבור הנושאים הבאים : Q-Learning טבלאי עבור מודל מפושט Q-Learning עם קירוב Instance-Base אלגוריתם חמדן
8
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 8 Q-Learning טבלאי מספר השערים כפונקציה של מספר האיטרציות עבור ערכי קצבי עדכון שונים :
9
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 9 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות מספר ה cases לאחר 200000 איטרציות כפונקציה של ערך הסף ( D )
10
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 10 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות מספר הגולים המצטבר כפונקציה של האיטרציות של המודל הפיסיקלי עבור מספר ערכי D
11
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 11 Q-Learning עם קירוב Instanced-Base שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות תלות בפרמטרים : D ערך סף להוספת מקרה חדש K ערך סף למציאת שכנים קרובים גודל צעד יחס חקר (exploration) מטריקה תלות בתגמול
12
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 12 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית באותה מהירות ממקום אקראי כמה דוגמאות לתלות במטריקה : משקול אחיד
13
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 13 משקול יחסי
14
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 14 דוגמא למשחק מול שחקן יוריסטי :
15
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 15 אופטימיזציה לפרמטרים ע ” י אלגוריתם חמדן :
16
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 16 אלגוריתם חמדן המשך
17
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 17 סרט אנימציה...
18
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 18 מסקנות : תלות חזקה בפרמטרים של האלגוריתם. תלות חזקה בפונקצית הגמול. מספר האיטרציות להתכנסות גדול מאוד. במודלים מורכבים מספר המקרים (cases) גדול מאוד ( בעיה חישובית ). שימוש באלגוריתם חמדן למציאת פרמטרים מיטביים משפר את התוצאות.
19
01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 19 נושאים להמשך : אלגוריתם חמדן עם Annealing אלגוריתם חמדן לאופטימיזצית פונקצית הגמול למידת התקפה, מודל היררכי Co - Learning שכלול המודל הפיסיקלי של השולחן ( למשל אלמנטים סטטיסטיים ומכשולים ) מודל של רובוט המדמה זרוע אנושית לימוד של בקרה אנושית למשחק הוקי אוויר מימוש מערכת אמיתית
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.