Download presentation
Presentation is loading. Please wait.
1
עקיבה וזיהוי של פעולות אדם
2
מבנה ההרצאה הצגת הבעיה – והצגת פתרון כללי לבעיות מסוג זה. Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action Recognizing Action at a Distance By Efros, Berg, Mori and Malik סיכום
3
הצגת הבעיה קלט : רצף פריימים ( קטע וידאו ) המכילים דמות אדם או מספר דמויות המבצעים פעולות שונות פלט : זיהוי (קטלוג) הפעולות המבוצעות בכל פריים ע"י הדמות\דמויות. למשל : ריצה ימינה, בעיטה(כדורגל), חבטת פורהנד(טניס).
4
פתרון כללי המשותף לאלגוריתמים מסוג זה : מציאת אזורי התעניינות : נמצא את האזורים(חלונות) שבסביבתם נמצאים הדמות או הדמויות שנרצה לעקוב אחר פעולותיהם.
5
פתרון כללי המשותף לאלגוריתמים מסוג זה (2) : אזור ההתעניינות שנמצא עובר תהליך כלשהו על מנת למצוא יצוג שיאפיין את התנועה או הדמות בכל פריים. דוגמה לייצוג כזה : optical flow. (תהליך זה ספציפי לכל אלגוריתם ומהווה את ההבדל העיקרי בין האלגוריתמים העוסקים בבעיה זו. )
6
פתרון כללי המשותף לאלגוריתמים מסוג זה (3) : הייצוג שנמצא עבור כל פריים\סדרת פריימים מושווה ל DB שמכיל פריימים (ביחד עם הייצוג הספציפי שלהם). הפריימים ב DB מקוטלגים עבור כל פעולה שנרצה לזהות. נקרא לפריימים אלו KeyFrames. תהליך ההשוואה בכל אלגוריתם הוא שונה, מותאם לייצוג שבו משתמש האלגוריתם ( הייצוגים מושווים ולא הפריים עצמו ). כמו כן כולל תהליכים שמיועדים למזער הפרעות כגון רעש ולמזער אפשרויות של טעות בזיהוי (מציאת התאמה לא נכונה ).
7
פתרון כללי המשותף לאלגוריתמים מסוג זה (4) : עפ"י ההתאמה הטובה ביותר ל DB, נבחר ה KeyFrame שהכי קרוב לפריים שנרצה לקטלג. פלט : ה Label של ה KeyFrame הנבחר. (הפעולה שרצינו לפענח מהפריים. לדוגמה : ריצה ימינה ). בדוגמה: שורה עליונה – רצף פריימים שניתן כקלט. שורה תחתונה – ההתאמה שנמצאה מה DB.
8
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action הרעיון המנחה שמאחורי אלגוריתם זה : פעולה כלשהי שמבוצעת עי אדם, אפשרי לזהותה באמצעות פריים בודד, מרצף של פריימים שבהם נראה האדם מבצע את הפעולה. הזיהוי יתבצע עפ"י הפוזה הספציפית של האדם בפריים.
9
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (2) האלגוריתם מבצע חישוב דמיון נקודתי (הסבר בהמשך), בין כל פריים בקלט ל KeyFrames מה DB. כדי שהאלגוריתם יעבוד כראוי, כל פריים בקלט צריך להיות דומה במידה סבירה לאחד ה KeyFrames מה DB. האלגוריתם נבדק על קטע וידאו ממשחק טניס והניב תוצאות מצויינות.
10
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (3) שלבי האלגוריתם בגדול : קלט: פריים מרצף הפריימים שאותו נרצה לקטלג אזור התעניינות נמצא ע"י מציאת הגוף והראש של האדם בפריים ( פרוט בהמשך ). מופעל Canny edge detector בסביבת אזור ההתעניינות על מנת למצוא את קווי המתאר של הדמות. נמצא טופולוגיה של קווי המתאר. הטופלוגיה מכילה מידע על הנקודות המהוות את הקווים ועל הקשר ביניהן ( פרוט בהמשך ). הטופולגיה מושוות לכל ה KeyFrames מה DB כדי למצוא התאמה נקודתית ואת מרחקי ההתאמה בין הפריים לכל KeyFrame. ה KeyFrame שעבורו קיבלנו את ההתאמה הטובה ביותר נבחר כמתאים. פלט : ה LABEL של ה KeyFrame המתאים ( קטלוג הפעולה).
11
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (4) Head and Body Tracker : הראש והגוף מיוצגים כמרובעים, ונמצאים בתמונה עפ"י נתוני הצבע שלהם, ע"י חיפוש מרובעים בעלי הרכב צבעים מתאים.
12
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (5) ייצוג הדמות : (הטופולוגיה שתשמש להשוואה הנקודתית ) מבוסס על כך שב 2 גופים הנחשבים כדומים, נוכל למפות נקודות ספציפיות בגוף אחד לנקודות בגוף האחר. ככל שההתאמה הנקודתית שנמצא בין 2 הגופים היא רבה יותר ( מספר רב יותר של נקודות ש "עוברות בצורה חלקה" בין 2 הגופים ), כך הגופים הם דומים יותר.
13
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (6) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (2): התהליך עצמו של מציאת הטופולוגיה וההשוואה בין הטופולוגיות : 1.לאחר שהפעלנו את Canny edge detector למציאת קווי המתאר של הדמות, ניקח את כל הקומבינציות של 4 נקודות כלשהן מהקווים. תהי A קבוצה המכילה את כל הקומבינציות האפשריות של 4 נקודות כלשהן – כל איבר ב A הוא קבוצה של 4 נקודות כאשר המידע שיש לנו על כל נקודה הוא מיקום הנקודה, והמשיק לקו בנקודה זאת.
14
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (7) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (3): 2.טופולוגיה של 4 נקודות היא : -סדר הנקודות – כאשר אנו מתחילים מהנקודה השמאלית וממשיכים עם כיוון השעון. -מיקום החיתוך היחסי של המשיקים לעומת הנקודות. ל 2 קבוצות הנקודות יש אותו מבנה טופולוגי : -נמספר את הנקודות. -נראה שחיתוך המשיקים ביחס לנקודות הוא זהה: *משיק 1 חותך את משיק 2 מ LD משיק 3 מ L ומשיק 4 מ LU של הנקודות שמהן הם יוצאים. *משיק 2 חותך את משיק 1 מ RU,משיק 3 מ R ואת משיק 4 מ LU. *משיק 3 חותך את משיק 1 מ RU, את 2 מ RU ואת 4 מ LU. *משיק 4 חותך את 1 מ RU את 2 מ RU ואת 3 מ L.
15
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (8) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (4): 3. מטריצת ההתאמה היא מטריצה שכל תא בה הוא שילוב בין 2 נקודות שונות מ 2 הגופים המשווים. -עבור כל 2 קבוצות של 4 נקודות מ 2 הגופים שהטופולוגיה שלהם נמצאה זהה נעלה את המונה ב 4 תאים המתאימים, באופן הבא :
16
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (9) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (5): 5. לאחר שהשוונו בין כל 2 קבוצות של 4 נקודות ב 2 הגופים, ועדכנו את המונה בתאים המתאימים עבור כל התאמה, נשתמש באלגוריתם חמדני על מטריצת ההתאמה הסופית, למציאת ההתאמה הנקודתית בין 2 הגופים: א. מצא ערך תא מקסימלי במטריצה, סמן 2 נקודות המתאימות לתא זה כמתאימות אחת לשניה. ב. מחק ערך זה מהמטריצה. ג. חזור ל א.
17
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (10) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (6): 6.ההתאמה הנקודתית שנמצאה ע"י האלג החמדני נקראת.Correspondence Field כל נקודה בגוף A מותאמת לנקודה בגוף B. ( גוף A הוא גוף מאחד הפריימים שהתקבלו כקלט. וגוף B הוא כל אחד מה KeyFrames. ) בצורה זאת מושווים כל הפריימים לכל ה KeyFrames ועבור כל זוג נמצא ה Correspondence Field המתאים.
18
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (11) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (7): 7.כעת נמצא את המרחק התאמה בין 2 הגופים : min t : הטרנספורמציה המינימלית שתביא את המרחק הכולל בין כל 2 נקודות מתאימות ב Correspondence Field לערך המינימלי. הטרנספורמציה שעבורה נקבל את מינימום המרחק : t הוא הטרנספורמציה שמצאנו, עבורו נחשב את מרחק ההתאמה:
19
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (12) מציאת הטופולוגיה שתשמש להשוואה הנקודתית (8): 8.כעת לאחר חישוב מרחקי ההתאמה (Matching distances ) בין כל 2 נקודות מתאימות ב Correspondence Field. נבחר את ה KeyFrame המתאים ביותר כזה שהמרחק התאמה שלו לפריים הנבדק הוא הקטן ביותר. הפלט יהיה ה LABEL שמתאים ל KeyFrame הנבחר.
20
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (13) שימוש באלגוריתם זה על מנת לעקוב אחרי חלקי הגוף השונים בכל פריים אם נרצה לעקוב אחרי חלקי הגוף השונים (מרפקים,ברכיים,ראש,כפות ידיים,כתפיים,מותניים וכו ), בכל פריים ( מציאת השלד בפריים ). נסמן את הנקודות ידנית בכל KeyFrame. ו"נעביר" את הנקודות לנקודות המתאימות לפי ה Correspondence Field שנמצא.
21
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (14) שימוש באלגוריתם זה על מנת לעקוב אחרי חלקי הגוף השונים בכל פריים (2) על מנת למנוע טעויות בהעברת הנקודות נשתמש במספר אמצעים : 1. Head and Body Tracker נאפס כל תא במטריצת ההתאמה שאחת מ 2 הנקודות בו אינה קרובה לגוף או לראש שאותם מצאנו כדי לקבוע אזור התעניינות. 2.Smoothing - החלקה על מנת למנוע הפרעה ע"י רעשים. 3.הגבלת צבע – בדוגמה ניתן לראות שהנעל לבנה ולכן כל נקודה שנמצאה מתאימה אבל הצבע שלה שונה, תפסל.
22
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (15) תוצאות סופיות :
23
Josephine Sullivan and Stefan Carlson Algorithm of Recognizing and Tracking Human Action (16) תוצאות סופיות(2) :
24
Recognizing Action at a Distance By Efros, Berg, Mori and Malik הקושי בזיהוי פעולה ממרחק הוא הרזולוציה הנמוכה עקב המרחק מהדמות.
25
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (2) כללי : האלגוריתם מבוסס Optical Flow (מאפשר עקיבה אחרי תנועה ללא קשר להופעה ), החידוש בגישה באלגוריתם זה הוא שלא נתייחס לוקטורי הזרימה האופטית במיקומם המדוייק אלא כעל תבנית מרחבית כלשהי המאפיינת את התנועה. גישה זאת פותחה על מנת להתגבר על רעשים ועל חוסר תאימות (דיוק) מרחבי או זמני של התנועה ( של הפעולה ). (לדוגמה : שחקן כדורגל שרץ בזוית מעט שונה מהזווית שבה פעולת הריצה המתאימה לה ב DB שאליה נרצה להשוות,ולקטלג את הפעולה לפיה. - התאמה מרחבית. או לחלופין שחקן שרץ במהירות מעט שונה מהמהירויות שקיימות לפעולות הריצה ב DB - התאמה זמנית ). על מנת לקבל את התבנית המרחבית של התנועה, נבצע טשטוש באמצעות גאוסיין על תמונת ה Optical Flow. וכדי שלא נאבד רכיבים בשל טשטוש הרכיבים החיוביים והשליליים ביחד, נפריד את התמונה ל 4 ערוצים - רכיבים חיוביים ושליליים בנפרד לציר ה X וה Y בנפרד, לפני הטשטוש. לבסוף נקבל מאפייני תנועה שנדגמו במרחב ובזמן ומתארים את התנועה בקטעי זמן. הנקראים - Spatio-Temporal Motion Descriptors.
26
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (3) שלבי האלגוריתם : קלט : רצף פריימים. 1.עקיבה אחר הדמויות, יצוב, ומציאת חלונות של האזורים המעניינים ( שבהן הדמויות ). מתבצע ע"י simple normalized correlation based tracker. (קורלציה פשוטה ) החלונות המעניינים : חלון לכל דמות, לכל חלון כזה נרצה לפענח את הפעולה המתבצעת בו ע"י הדמות.
27
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (4) שלבי האלגוריתם (2) : 2.חישוב optical flow עבור כל פריים באמצעות Lucas-Kanade algorithm. הפרדה לרכיבים אנכיים ואופקיים של הזרימה האופטית. Rectified half-wave : הפרדת כל ערוץ (X,Y) ל2 ערוצים נפרדים שאינם שליליים(שליליים וחיוביים בנפרד). ביצוע Blurring באמצעות גאוסיין, וקבלת 4 הערוצים הסופיים הנקראים Motion Descriptors.
28
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (5) שלבי האלגוריתם (3) : 3.לאחר אפיון התנועה באמצעות מציאת ה Motion Descriptors עבור כל תנועה (פעולה ), נרצה להשוות אותם ל DB, על מנת למצוא התאמה ועל מנת לקטלג את הפעולה בהתאם. נשווה את ה MD שחושבו על רצף הקלט ל MD (המקוטלגים ) שמכיל ה DB שלנו, ע"י גרסה של קורלציה מנורמלת. כדי לחשב דמיון של פריים בודד וכדי למצוא את הפריים המתאים לו מה DB, נשווה בין ה MD שחישבנו עבורו לכל ה MD של הפריימים שב DB. חישוב דמיון בין פריימים J,I : כדי לחשב דמיון בין רצף A לרצף B נמצא את מידת הדמיון בין כל הפריימים של A לפריימים של B. נשווה את MD ( את 4 הערוצים שהוא מכיל ) של כל פריים ב A לפריימים של B. באמצעות סכימה של מידת הדמיון בין כל 2 פריימים מתאימים נמצא את הדמיון הסופי בין 2 הרצפים.
29
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (6) שלבי האלגוריתם (4) : 4. Classifing (קטלוג) יתבצע בשיטת ה K-Nearest Neighbors. נלקחות K ההתאמות הטובות ומתוכם ניקח את ה LABEL ששיך לרוב ההתאמות. -האלגוריתם נבדק על רצפים של כדורגל טניס ובלט והראה תוצאות מצויינות. -בתמונה : שורה עליונה- פריימים מרצף הוידאו. שורה תחתונה- ההתאמה הטובה ביותר מה DB.
30
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (7) ישומים של האלגוריתם : Classification – קטלוג הפעולה – ראינו עד כה. Skeleton Transfer – נרצה למצוא את השלד של דמות האדם – יבוצע ע"י סימונו על הדמויות ב DB, והעברתו לפריים הנבדק, לפי ההתאמה שנמצאה ל DB. בשורה העליונה – רצף הקלט, בשורה האמצעית – ההתאמה שנמצאה מה DB עם השלד שסומן בה. בשורה התחתונה – השלד שסומן ב DB שמועבר לפריים מהקלט.
31
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (8) ישומים של האלגוריתם(2) : “Do As I Do” – קלט: רצף פריימים של פעולה כלשהי (או מספר פעולות) – D (driver). DB : שחקן המבצע פעולות – T (target). D מושווה לכל האלמנטים ב T על מנת למצוא התאמה. פלט : ההתאמה שנמצאה ב T עבור הקלט D מוצגת. רצף הפריימים המתאים מה DB. בתמונה: שורה עליונה – רצף מה DB (של שחקן T ),המתאים לרצף הפעולות של ה driver בשורה התחתונה (אחד מכותבי המאמר ) רצף הפריימים של ה driver הוכנס כקלט לאלגוריתם, עבר תהליך לחישוב ה MD של כל פריים ברצף, פלט : הפריימים המתאימים ביותר מה DB, המרכיבים את רצף הפעולות התואם ע"י השחקן מה DB.
32
Recognizing Action at a Distance By Efros, Berg, Mori and Malik (9) ישומים של האלגוריתם(3) : “Do As I Say” – מתאים למשחקי מחשב הקלט הוא Label של פעולה מסויימת ( למשל :תנועה ימינה – בעקבות לחיצה על מקש במקלדת ). פלט : רצף פריימים מתאים מה DB של שחקן המבצע את הפעולות שמתקבלות כקלט.
33
לסיכום ראינו כיצד ניתן לזהות ולעקוב אחר פעולות אדם ברצף פריימים, כיצד ניתן לעקוב אחר ה"שלד" בכל פריים ולגלות מהי הפעולה המבוצעת. ראינו 2 אלגוריתמים שמבצעים זאת, בעלי נקודות הדומות ונקודות השונות ביניהם. דומות : התהליך עצמו דומה - פריים\מספר פריימים מהקלט עוברים תהליך ומושווים ל DB. שונות : הגישה – אלגוריתם ראשון מנתח פריים פריים עפ"י הפוזה של הדמות בלבד. ואלגוריתם שני מחשב Optical flow ואת התבנית ( המטושטשת ) שלו,ואותה משווה ל DB למציאת התאמה. ראינו את התוצאות של 2 האלגוריתמים ומספר ישומים שלהם.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.