עקיבה אחר אובייקטים בסרט וידאו באמצעות שילוב אלגוריתם Condensation/Particle filter ו –Mean shift מגישים: אור שור תומר מץ מנחה : אריה נחמני
מבנה המצגת : מבוא רקע תיאורטי : - Particle Filter - Mean Shift מבנה מערכת תוצאות סיכום
מטרות הפרויקט: מימוש מערכת לעקיבה אחר אובייקטים בסרט וידאו בעלת מאפיינים המאפשרים עקיבה גם במקרים של - תנאי סביבה משתנים הסתרות מסוגים שונים תנועות מצלמה
מבוא : מוטיבציה – ניצול יתרונותיהן של שיטות שונות תוך צמצום חסרונותיהןתרונותיהןחסרונותיהן
יתרונות וחסרונות של שיטות עקיבה Particle Filter + עקיבה סימולטנית אחר מס' פתרונות אפשריים + הסתברות גבוהה למצוא נקודות מקסימום גלובליות + סיכוי טוב להתאושש ממצבים של הסתרה או אובדן עקיבה - סיבוכיות החישובים עשויה לעלות בצורה מעריכית עם סדר המודל בו משתמשים - תהליך העקיבה מושפע מרעש המצוי מחוץ לסביבתו הקרובה של האובייקט
יתרונות וחסרונות של שיטות עקיבה Mean Shift + צורך ביחסית מעט מדידות בכל זמן נתון – סיבוכיות נמוכה + אין השפעת רעש מחוץ לסביבת האובייקט - נטייה להתכנס לנקודות מקסימום לוקאליות - סבירות גבוהה להיכשל במקרים של אובדן עקיבה זמני
Particle filter מנגנון לחיזוי מצב אובייקט X, במקרה הכללי ללא הנחות מוקדמות לגבי צפיפות ההסתברות שלו ואופי הרעש בתמונה. הבעיה – הערך " המעניין " בתמונה – מצב האובייקט אינו ניתן למדידה ישירה ויש לשערך אותו מתוך מצבים קודמים ומדידות זמינות. מצב אובייקט מדידות
Particle filter תאור המדידה : ככלל, בעקיבה אחרי אובייקט בסרט וידיאו נרצה לשערך את המיקום של אובייקט בזמן, בהינתן סט של תצפיות. תצפיות נגזרות מתוך ה - frame בסרט הוידיאו וניתן להתייחס אליהן כאל סט פרמטרים המייצג את האובייקט ה-,, אחריו מעוניינים לעקוב (סט הפרמטרים יכול להיות מורכב מכל שילוב של מאפיינים הניתנים לזיהוי במסגרת כגון – שפות, מאפייני צבע/רמות אפור, מקדמי התמרת DCT/Wavelet וכו'). נרצה שסט זה ייצג בצורה טובה את האובייקט, במובן שהתצפיות ייצרו אבחנה בין האובייקט ה - לאובייקט ה- ובין ל"הפרעות" כלשהן (כל מה שלא נרצה להתייחס אליו כאובייקט בסרט כגון, צללים, תנועות צמחיה, רעשים וכו ').
Particle filter ע"מ לעקוב אחר האובייקט, האלגוריתם משתמש בגישה סטוכסטית – מיקסום ה- posterior probability (הסתברות בדיעבד) של מיקום האובייקט בהינתן תצפית מסוימת. הערך לא ניתן לחישוב בצורה אנליטית במקרה הכללי ולכן יש לקרב אותו. מכאן, שמטרתנו היא לשערך את מצב האובייקט X בזמן t מתוך מצבו בזמנים קודמים והתצפית הנוכחית. עבור particle filter מניחים את ההנחות הבאות: השתנות הינה תהליך מרקובי התצפיות נגזרות מתוך המצב הנוכחי ולכן תלויות רק בו:
Particle filter factored sampling: במקרה הכללי דגימה הישר מה – posterior הינה בלתי אפשרית, אולם במקום זאת נוכל לייצר סט של N דגימות שיקרבו פונקציה זו כל דגימה תקבל משקלים בצורה הבאה : נוכל לשערך את הערך המבוקש ע"י שימוש בחוק בייס:
פתרון : קרוב ההסברות באמצעות סט של דגימות ממושקלות :
השיטה : הפעלת מודל חיזוי על סט דגימות קיים, הוספת רעש לכל דגימה, נתינת ציון חדש לדגימות וקביעת מיקום האובייקט החדש כתוחלת כל הדגימות.
Mean Shift שיטה למציאת נקודות מקסימום של פילוג הסתברות הנחה – מדידות בתמונה מבטאות דגימות של פילוג הסתברות קיים. פילוג הסתברות חבוי משוער מדידות בתמונה
השיטה : מציאת מרכז מסה בסביבה של נקודה קיימת וייצור וקטור כיוון. חזרה על התהליך עד להתכנסות של מרכז המסה החדש עם המרכז הקודם או עד לערך סף מסוים.
מבנה המערכת
מודול ה- Particle FilterParticle Filter הפעלת מודל החיזוי על כל particle (Prediction) מיקומו האפשרי של האובייקט בפריים הבא נקבע עפ"י מיקומו בפריים הקודם ומהירות התנועה שלו-
מודול ה- Particle FilterParticle Filter הוספת רעש אקראי לכל דגימה (Diffuse) : לכל דגימה מוסף רעש אקראי עם שונות כלשהי עבור הגורם בעל הסדר הגבוה במודל. לאחר שמחושב מיקום האובייקט מוסף שוב רעש (לאו דווקא זהה) לתוצאה.
מודול ה- Particle FilterParticle Filter נתינת ציון לכל דגימה - לקביעת הציון נבחן שימוש בקריטריונים הבאים וקומבינציות שלהם: קורלציה בין היסטוגרמת האובייקט להיסטוגרמת הרקע שימוש ב- Bhattacharyya distance של היסטוגרמת RGB.Bhattacharyya distance קורלציה בין היסטוגרמת האובייקט הנוכחי לבין היסטוגרמת האובייקט המקורית חלוקת האובייקט לחלק עליון ותחתון. מיקום האובייקט החדש נקבע כממוצע משוקלל של הדגימות שהתקבלו ונתוני האובייקט מעודכנים בבסיס הנתונים.
מודול ה- Mean Shift לאחר סיום פעולת ה-Particle Filter יופעל Mean Shift. נבנה חלון חיפוש סביב מיקום האובייקט כפי שהתקבל מה-Particle Filter. נמצא מרכז המסה של חלון החיפוש.
שילוב תוצאת ה-PF עם ה- Mean Shift במידה ותוצא ה-mean shift מקבל ציון גרוע יותר מתוצא ה- particle filter, מעודכן מרכז המסה למחצית המרחק בין התוצאות: תהליך זה יחזור על עצמו עד להתכנסות
Bhattacharyya distance ככלל, נרצה לנסח אמת מידה למידת הדמיון בין אובייקטים לבין מודל מטרה כלשהו. ע"מ לערוך השוואה אחידה בין מס' אובייקטים או מספר מודלים נוח להשתמש במידה של "מרחק" או מטריקה. נגדיר את המרחק בין שני פילוגי הסתברות בדידים (לדוגמא היסטוגרמות p ו-q) כאשר נקרא ה – Bhattacharyya coefficient ומוגדר ע"י – כלומר, סה"כ המרחק בין שתי ההתפלגויות, ה- Bhattacharyya distance
סגמנטציה לעיתים לאחר סיום השלבים הקודמים המלבן החוסם עדיין אינו עוטף את האובייקט בצורה מדויקת ובכל מקרה האינפורמציה שבידנו כוללת רעשים: על מנת לקבל מידע מדויק יותר על האוביקט מבוצעת סגמנטציה בסביבת המיקום החדש של האוביקט.
סגמנטציה (a) האובייקט לפני סגמנטציה (b) תמונת ההפרשים (c)התמונה הבינארית מתוך תמונת הפרשים (d) התמונה הבינארית לאחר ניקוי רעש ו-dilation (e) התמונה לאחר ניקוי רעש ו- erosion (f) סימון האובייקט לאחר הסגמנטציה בסיום הסגמנטציה האוביקט מסומן מחדש ונתוניו מעודכנים בבסיס הנתונים.
תוצאות עקיבה ללא הסתרות:
עקיבה עם הסתרה סטטית: תוצאות
עקיבה עם הסתרה דינאמית: בעיה: אובדן זהות של אובייקטים במיקום קרוב כתוצאה מהבדל בציונים שהם מקבלים ביציאה מן ההסתרה. פתרון אפשרי: הפסקת עדכון המשקלים בזמן ההסתרה והסתמכות על מודל התנועה. תוצאות
עקיבה עם הסתרה דינאמית: בעיה: הפתרון הקודם מתאים רק למקרים פשוטים, ומחייב עקיבה סימולטנית אחרי כל האוביקטים ב-frame. פתרון: הסתמכות על מאפייני צבע. תוצאות
עקיבה עם מצלמה נעה: תוצאות
סיכום מתוך בדיקות המערכת על כ -25 סרטים שונים נתקבלו המסקנות הבאות : 1. המערכת מאפשרת עקיבה מדויקת בתנאי סביבה פשוטים. 2. בחירת הפרמטרים למערכת צריכה להיעשות תוך התחשבות בתנאים המשוערים של הסצנה. 3. בבחירת פרמטרים מתאימה, המערכת מסוגלת להתמודד היטב עם הסתרות סטאטיות לפרקי זמן שאינם ארוכים מאוד. 4. התמודדות עם הסתרות דינאמיות מחייבת הנחות מוקדמות או בניית מודל ייעודי. 5. עקיבה בתנאים של תנועת מצלמה כרוכה באובדן דיוק של העקיבה.
הצעות לשיפור ולהמשך עבודה: 1. שינוי הפרמטרים לעקיבה בצורה דינאמית במהלך הסרט. 2. בחינת שימוש במרחבי צבע שונים ע"מ לייצר אבחנה טובה בין אובייקטים. 3. ביצוע תהליך הדגימה בצורה מקבילית ע"מ לשפר ביצועים. 4. שימוש במודל רקע מסתגל על מנת להפחית רעשים הנגרמים מתנאי הסביבה (צללים, שינויי תאורה, תנועה סטאציונרית של עצמים וכו'). 5. שיערוך תנועת מצלמה והזנת התוצאות כקלט לאלגוריתם. 6. בחינת שילוב מסווג בתהליך העקיבה ע"מ להתמודד טוב יותר עם תנאים של הסתרה דינאמית. סיכום