(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות.

Slides:



Advertisements
Similar presentations
Completeness and Expressiveness. תזכורת למערכת ההוכחה של לוגיקה מסדר ראשון : אקסיומות 1. ) ) (( 2. )) ) (( )) ( ) ((( 3. ))) F( F( ( 4. ) v) ( ) v ((
Advertisements

כריית מידע -- Clustering
מבוא למדעי המחשב לתעשייה וניהול
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
©Silberschatz, Korth and Sudarshan4.1Database System Concepts סכימה לדוגמא.
פונקציונל פונקציה מספר פונקציונל דוגמאות לא פונקציונל פונקציונל.
עיבוד תמונות ואותות בעזרת מחשב
מתמטיקה בדידה תרגול 3.
רקורסיות נושאי השיעור פתרון משוואות רקורסיביות שיטת ההצבה
Inverse kinematics (Craig ch.4) ב"ה. Pieper’s solution נתבונן ברובוט עם 6 מפרקי סיבוב כאשר שלושת הצירים של המפרקים האחרונים נחתכים. נקודת החיתוך נתונה.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
Na+ P-. הפוטנציאל האלקטרוכימי אנרגיה חופשית ל - 1 mole חומר. מרכיב חשמלי מרכיב כימי מרכיבי הפוטנציאל האלקטרוכימי של חומר X: המרכיב הכימי : RTlnC x R –
שאלות חזרה לבחינה. שאלה דיסקים אופטיים מסוג WORM (write-once-read-many) משמשים חברות לצורך איחסון כמויות גדולות של מידע באופן קבוע ומבלי שניתן לשנותו.
The Solar Wind And its consequences. dx dA משוואות בסיסיות בהידרו דינמיקה הכח הפועל כתוצאה מגרדיאנט בלחץ על אלמנט מסה - dm.
אינטרפולציה רועי יצחק.
חורף - תשס " ג DBMS, צורות נורמליות 1 צורה נורמלית שלישית - 3NF הגדרה : תהי R סכמה רלציונית ותהי F קבוצת תלויות פונקציונליות מעל R. R היא ב -3NF.
Robust Characterization of Polynomials 1 Robust Characterization of polynomials “IT DOES NOT MAKE SENCE!” מרצים : אורי גרסטן יניב עזריה Ronitt Rubinfeld.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
(C) סיון טל גילוי מידע וזיהוי תבניות תרגול מס. 4 חזרה על בעיית השערוך, שיטות פרמטריות. שיטת MAP ( בייסיאנית ) לשערוך פרמטרים. שיטת הנראות המירבית. השיטה.
Point-Line incidences via Cuttings By Tatiana Kriviliov.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
משטר סטטי שערים לוגיים Wired Drives – © Dima Elenbogen 2009, Moshe Malka :29.
Formal Specifications for Complex Systems (236368) Tutorial #6 appendix Statecharts vs. Raphsody 7 (theory vs. practice)
תכנות תרגול 6 שבוע : תרגיל שורש של מספר מחושב לפי הסדרה הבאה : root 0 = 1 root n = root n-1 + a / root n-1 2 כאשר האיבר ה n של הסדרה הוא קירוב.
Hunting A Cooperative Hunting Behavior by Mobile-robot Troops (by Hiroaki Yamaguchy) מוגש ע " י רועי ואורן.
1 Formal Specifications for Complex Systems (236368) Tutorial #1 Course site : T.A. :Emilia Katz.
תחשיב הפסוקים חלק ג'. צורות נורמליות א. DF – Disjunctive Form – סכום של מכפלות. דוגמא: (P  ~Q  R)  (R  P)  (R  ~Q  ~P) הגדרה: נוסחה השקולה לנוסחה.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
השוואה בין מערכות למסדי נתונים בשקפים אלו נשווה בין מסד הנתונים של רכבת ישראל למסד של רכבת גרמניה. בהרבה מקרים, המסד של מערכת הרכבות הישראלית לא יכול למצוא.
Motion planning via potential fields תומר באום Based on ch. 4 in “Principles of robot motion” By Choset et al. ב"הב"ה.
דיפרנציאציה ואינטגרציה נומרית
ערכים עצמיים בשיטות נומריות. משוואה אופינית X מציין וקטור עצמי מציינת ערך עצמי תואם לוקטור.
Kalman Filter תומר באום Based on ch. 8 in “Principles of robot motion” By Choset et al. ב"הב"ה.
הפקולטה למדעי המחשב אוטומטים ושפות פורמליות (236353)
טיב פני שטח (טפ"ש) טיב פני שטח- רמת החלקות של המשטח.
Ray 7 דוגמא אלגוריתם 1.קבל דוגמאות 2. פלט f a עבור הדוגמה a המינימלית החיובית ?
Data Structures, CS, TAU, Perfect Hashing 1 Perfect Hashing בעיה : נתונה קבוצה S של n מפתחות מתחום U השוואה ל - Hash : * טבלה קבועה (Hash רגיל - דינאמי.
תכנות תרגול 5 שבוע : הגדרת פונקציות return-value-type function-name(parameter1, parameter2, …) הגדרת סוג הערכים שהפונקציה מחזירה שם הפונקציהרשימת.
1 Data Structures, CS, TAU, Perfect Hashing בעיה: נתונה קבוצה S של n מפתחות מתחום U השוואה ל- Hash : * טבלה קבועה (Hash רגיל - דינאמי) * רוצים זמן קבוע.
תזכורת : אלגברה ליניארית מסקנה קלט : וקטורים פלט : האם u תלוי ליניארית ב קלט : מערכת של n משואות לינאריות ב -m נעלמים. פלט : פתרון, או שאין כזה. אלגוריתם.
מרחב הפאזה פרקים בתנודות וגלים לא ליניאריים פרופ' לזר פרידלנד
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
יחס סדר חלקי.
תחשיב היחסים (הפרדיקטים)
מדדי פיזור פיזור מצביע על מידת ההטרוגניות או ההומוגניות של ההתפלגות. פיזור הוא מדד יחסי, כיוון שאפשר לומר אם הפיזור בהתפלגות רחב או צר, רק ביחס לפיזור.
Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.
Eigenfaces for Recognition
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
1 Peter J. Hass Joseph M. Hellerstein IBM Research Division Computer Science Division University of California Presented By: Michal Ozery.
Points on a perimeter (Convex Hull) קורס – מבוא לעבוד מקבילי מבצעים – אריאל פנדלר יאיר ברעם.
(C) סיון טל גילוי מידע וזיהוי תבניות תרגול מס. 9 גילוי מידע וזיהוי תבניות תרגול מס. 9 דחיסת נתונים מהו קידוד תכונות של קידודים אי - שוויון קרפט.
1 גילוי מידע וזיהוי תבניות תרגול מס. 3 התפלגות נורמלית רב - מימדית Kullback-Leibler Divergence - משפט קמירות - נגזרת שנייה משפט Log sum inequality משפט.
(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 7 מודל הערבוב אלגוריתם EM בעיית תדירות - 0 בשערוך ML שיטות לפתרון בעיית תדירות - 0.
Interpolation Functions in Matlab By Dmitriy Katsif.
הבחנה בין קולות רחרוח וקולות הלחתה של כלבים 1 אופיר אזולאי גיל בלוך מנחה : ד " ר יזהר לבנר.
דיפרנציאציה ואינטגרציה נומרית
Presentation by Gil Perry Supervised by Amos Fiat 1.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
מבוא למדעי המחשב סיבוכיות.
SQL בסיסי – הגדרה אינדוקטיבית
שימוש בשיטה א-פרמטרית להשוואת תוחלות של שתי אוכלוסיות.
ממשקים - interfaces איך לאפשר "הורשה מרובה".
בחירת חומר גלם כתב: עמרי שרון.
ריבועים פחותים – מקרה כללי
מבחן t למדגם יחיד.
NG Interpolation: Divided Differences
Presentation transcript:

(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות

2 The curse of dimensionality ביצועיה של מערכת לומדת לזיהוי תבניות מושפעת לרוב באופן משמעותי ( ולעתים אף דרסטי ) ממספר המימדים של נקודת דגימה. לדוגמה : בשיטת ההיסטוגרמות, שבה מחלקים את תחום המדגם ל -M תאים וסופרים את נקודות המדגם שנופלות בכל תא. כאשר מרחב המדגם הוא d מימדי, יהיו תאים, ונצטרך מדגם גדול יותר כדי לקבל הערכה אפקטיבית של ההתפלגות. גודל המדגם הנדרש גדל אקספוננציאלית עם המימדיות. גם סיבוכיות זמן עלולה להיות מושפעת חזק מהמימדיות.

3 הקטנת המימדיות להקטנת המימדיות יש מחיר. עם נקטין את מספר התכוניות (features), נאבד מידע שעשוי לתרום להערכת ההתפלגות. בכל זאת, בהרבה מקרים נוכל לשפר את ביצועי המערכת ע ” י הקטנת המימדיות, תחת ההנחה כי מדגם הלמידה סופי. המטרה - להקטין את המימדיות כמה שיותר, ולאבד מידע רלבנטי כמה שפחות. נשים לב - יש תכוניות שתורמות יותר לסיווג, ויש כאלה שפחות. היום נראה שיטה אלגברית להקטין את המימדיות ע ” י איתור תכוניות שבהן השונות הגבוהה ביותר, והתמקדות בהן.

4 Principal Component Analysis המטרה : מיפוי של וקטורים במרחב d- מימדי ל - וקטורים במרחב M מימדי כאשר. ראשית, נשים לב כי ניתן לייצג וקטור d- מימדי כצירוף ליניארי של d וקטורים אורטונורמליים

5 כעת נניח כי אנחנו משמרים רק תת - קבוצה בגודל M של וקטורי הבסיס כך שאנחנו משתמשים רק ב -M מקדמים. את יתר המקדמים נחליף בקבועים כך שכל וקטור מקורב ע ” י ביטוי מהצורה : ביטוי זה מייצג הקטנת המימדיות, כי כל וקטור מקורי שיש לו d דרגות חופש מקורב ע ” י וקטור שיש לו M דרגות חופש. כעת נחזור לקבוצת המדגם שלנו. אנחנו שואפים לבחור וקטורי בסיס וקבועים כך ש - הוא קירוב טוב ביותר ל -, בממוצע על כל המדגם. את לא צריך לבחור - הוא נקבע ע ” י

6 השגיאה בוקטור כתוצאה מהקטנת המימדיות היא : נחפש את הקירוב שממזער את סכום ריבועי השגיאות, כלומר נמזער את הביטוי : ( השוויון האחרון - בשל האורטונורמליות של )

7 בחירת הקבועים אם נגזור את לפי נקבל : נשווה את הנגזרת ל -0 ונקבל : נותר לנו לבחור את וקטורי הבסיס

8 בחירת וקטורי הבסיס ראשית נציב היא מטריצת הקו - וואריאנס של וקטורי המדגם.

9 נותר לנו למצוא את קבוצת וקטורי הבסיס שתביא למינימום את ( תחת האילוץ שהוקטורים אורטונורמליים.) הפתרון אינו קל, ונביא כאן רק את התוצאה : המינימום מתקבל כאשר וקטורי הבסיס מקיימים כלומר, כאשר הם הוקטורים העצמיים של. העובדה ש - מטריצה ממשית וסימטרית, מאפשרת ל - להיות אכן קבוצה אורטונורמלית.

10 ע ” י הצבת הפתרון בביטוי עבור השגיאה נקבל : כדי לקבל שגיאה מינימלית עלינו לבחור את (d-M) האינדקסים שבהם הערכים העצמיים המינימליים, ואותם להשמיט.

11 האלגוריתם להקטנת המימדיות חשב את הוקטור הממוצע חשב את מטריצת הקו - וואריאנס חשב את הוקטורים העצמיים והערכים העצמיים בחר את M הוקטורים שהערכים העצמיים שלהם מקסימליים. ההטלה של הוקטורים על M הוקטורים הללו היא קבוצת וקטורים במרחב M- מימדי. קלט : קבוצת מדגם של וקטורים במרחב d- מימדי. פלט : קבוצה של וקטורים במרחב M- מימדי, שנותנת קירוב מקסימלי של קבוצת המדגם.

12 דוגמה :

13 נניח כי נתונה קבוצת מדגם של וקטורים במרחב d- מימדי, ואנחנו מפעילים PCA ומגלים כי יש g ערכים עצמיים גדולים באופן משמעותי מ - d-g האחרים. זה אומר לנו שניתן לייצג את המידע הנתון בקירוב טוב ע ” י הטלה של הוקטורים על הוקטורים העצמיים המתאימים ל -g הע ” ע הגדולים. מצאנו קורלציה בין g מרכיבים לבין d-g האחרים, ומצאנו שהמימדיות האפקטיבית של המידע היא g. בכל - אופן, PCA היא שיטה המוגבלת בשל היותה ליניארית. היא לא מסוגלת לאתר קורלציות לא לינאריות, ובמקרים שקיימות כאלה, שימוש בשיטה יוביל להערכה גבוהה מידי של המימדיות האפקטיבית של המידע.

14 דוגמה :

15 התאמת המידע לשימוש ב - PCA התכוניות השונות, שהן רכיבים של וקטור המדגם, יכולות להיות שונות מאוד זו מזו בטווח הערכים שהן מקבלות. לדוגמה : נניח כי אנו עוסקים בסיווג לויתנים, ווקטור הדגימה מכיל 2 רכיבים : 1 ) משקל בגרמים של לויתן במדגם ( נע בין 1,000,000 ל - 10,000,000). 2 ) מספר השיניים שלו ( 30 או 32). סביר להניח שאם נקטין את מספר המימדים ל - 1 ע ” י PCA, התכונית המתקבלת תייצג כמעט רק את המשקל, למרות שדווקא למספר השיניים עשויה להיות השפעה גדולה יותר. נהוג לנרמל את המידע ע ” י - כך שמכל תכונית נחסר את הממוצע ונחלק בסטיית התקן.

16 חזרה על שיטות לא פרמטריות רוצים לשערך את פונקצית צפיפות ההתפלגות, ללא כל הנחה מוקדמת על הצורה של הפונקציה. שתי שיטות משלימות : Parzen windows, K nearest neighbors. העיקרון הכללי של שתי השיטות : בהינתן מדגם נשערך את הצפיפות על - פי : כאשר הוא מס ’ נק ’ המדגם, הוא מס ’ הנקודות שנופלות בתוך תחום בעל נפח המכיל את

17 שלושה תנאים צריכים להתקיים כדי ש - תתכנס ל - כאשר : (1) (2) (3) תנאי (2) צריך להתקיים כמובן רק כאשר התנאים הם הכרחיים ומספיקים !

18 Parzen windows לכל ( גודל המדגם ) נגדיר את ( ומכאן גם את ), שילך ויקטן. היא פונקצית חלון, ו - היא למעשה פונקציה של מספר נקודות המדגם שנופלות בתוך חלון שמרכזו

19 ניתן גם לבחור פונקציות אחרות. בכל אופן יש לדאוג לכך ש - תקיים את תכונות פונקצית צפיפות. תנאי זה מתקיים אם פונקצית צפיפות, והיחס נשמר. בחירת גודל החלון היא גורם בעל השפעה חשובה על ההתפלגות המשוערכת. חלון גדול מידי יביא לפונקצית צפיפות מוחלקת (biased). נאבד פרטים רלבנטיים של ההתפלגות. חלון קטן מידי יביא לפונקציה עם הרבה “ רעש ”. הפונקציה תקבל ערכים “ מוגזמים ” סביב נק ’ המדגם וזניחים ביתר המקומות.

20 K nearest neighbors במקום לקבוע את גודל החלון ולספור כמה נקודות נופלות בתוכו, קובעים את מספר הנקודות, ונגדיל את החלון עד שמספר זה ייכנס. פונקצית הצפיפות המשוערכת תהיה : נותר רק לקבוע את ( פונקציה של ) ואת האופן שבו נרחיב את. זה יכול להיות היפר - קוביה, היפר - מעגל או כל צורה אחרת.