Presentation is loading. Please wait.

Presentation is loading. Please wait.

Nearest Neighbor in metric Spaces

Similar presentations


Presentation on theme: "Nearest Neighbor in metric Spaces"— Presentation transcript:

1 Nearest Neighbor in metric Spaces
Niv Pekar Oron Mark Daniel geyshis Advisor: Dr. Sivan Sabato בפרויקט שלנו מימשנו וחקרנו את הביצועים של אלגוריתם "Nearest Neighbor in metric Spaces" שפותח במחלקה על ידי סיון סבתו ואריה קנטרוביץ. לצערנו, מפני שיש לנו רק 5 דקות להצגה – אנו לא יכולים להיכנס לכל פרטי האלגוריתם, הניסויים שלנו והאתגרים שהיו לנו בדרך, אלא רק נוכל לנסות לתת אינטואיציה לרעיון האלגוריתם ולתת דוגמא לניסוי שערכנו. ראשית, נסביר קצת על אלגוריתם Nearest Neighbor המקורי, עליו מתבסס האלגוריתם שלנו.

2 psychometric quantitative and verbal test scores from three different departments: computer science, psychology and medicine כדי להסביר את אלגוריתם Nearest Neighbor המקורי – נציג data set דו מימדי ופשוט: ציוני הפסיכומטרי של מספר סטודנטים אשר נבחרו באקראי מהמחלקות: פסיכולוגיה, מדעי המחשב ורפואה.

3 We have the test score of a new student
We have the test score of a new student. We want to try to predict his or her department נניח וקיבלנו את תוצאות ציון הפסיכומטרי של סטודנט נוסף – אנו רוצים לשאר מה הוא לומד. על בסיס מדגם האימון שלנו, אנו יכולים לשאר שהוא כנראה לומד מדעי המחשב וזאת מפני שהסטודנטים אשר קיבלו ציון דומה לציון שלו – גם הם לומדים מדעי המחשב. דרך מסוימת לבצע בחירה דומה לזו היא "אלגוריתם השכן הקרוב ביותר" – אלגוריתם אשר אומר דבר פשוט מאוד – נמצא במדגם האימון את הדוגמה הקרובה ביותר לדוגמה שלנו וניתן לדוגמה שלנו את אותו התיוג.

4 We have the test score of a new student
We have the test score of a new student. We want to try to predict his or her department ובדוגמה שלנו השכן הקרוב ביותר הוא מתויג כסטודנט הלומד מדעי המחשב ולכן נשער כי הסטודנט החדש גם הוא לומד מדעי המחשב.

5 But what if the nearest neighbor is not a good representative ?
אבל מה עם השכן הקרוב ביותר הוא לא מייצג כראוי את הסביבה שבה הוא נמצא – למשל בדוגמה הנוכחית השכן הקרוב ביותר הוא סטודנט הלומד פסיכולוגיה אך בעל תוצאות פסיכומטרי המאפיינות סטודנט לרפואה. יהיה לא חכם מבחינתנו לתייג אותו כלומד פסיכולוגיה. ניתן להגיד כי סטודנט זה הלומד פסיכולוגיה הוא סוג של רעש במדגם שלנו. הגרסה החדשה של Nearest Neighbor שמימשנו מנסה בין היתר להתגבר על בעיתיות זו – כלומר להתגבר על רעש.

6 We would want to make a generalization of the data
כדי להתגבר על רעש הינו רוצים ליצור הכללה מסוימת של הדאטה. להגיד על אזורים שלמים – מה התיוג שמאפיין אותם. וזה בדיוק מה שהאלגוריתם שלנו עושה.

7 create a gamma-net: a subset of the training set in which the distance between every two points is not smaller than gamma האלגוריתם שלנו יוצר גמא-נט מהמדגם. מה היא גמא נט ? תת קבוצה של מדגם האימון אשר מקיימת את התנאי הבא: לכל שתי נקודות בקבוצה- מרחקם גדול או שווה לגמא. ובנוסף: אין במדגם האימון נקודה אשר לא נוכל למצוא לה נקודה בגמא נט אשר מרחקם קטן מגמא.

8 Distribute the training set into sets.
בשלב הבא: כל נקודה בגמא-נט שלנו היא ראש קבוצה. ואנו מקשרים כל נקודה במדגם לקבוצה שלה- נקודה במדגם שייכת לקבוצה אשר המרחק מהנקודה אל נקודת ראש הקבוצה הוא המינימלי מבין כל הקבוצות.

9 Tag the gamma net based on the majority tag of each set
לאחר מכן אנו מתייגים מחדש את ראשי הקבוצות לפי תיוג הרוב בקבוצה שלהן. ועכשיו – מדגם זה ישמש את אלגוריתם השכן הקרוב ביותר כדי לתייג דוגמאות חדשות במקום מדגם האימון המקורי. אך נשאלת השאלה – כיצד נבחר את פרמטר גמא ?

10 large gammas: over-generalization  large error
גמא גדולה מדי תיתן לנו הכללה שגויה של המדגם – תתייחס לנקודות מסוימות כרועשות למרות שהן לא.

11 small gammas: not good enough generalization
small gammas: not good enough generalization. Still very noisy  large error גמא קטנה מדי לא תכליל מספיק את מדגם האימון – היא תשאיר רעש בגמא-נט.

12 Error on distribution as a function of the selected gamma
צריך למצוא את הגמא האידאלית. השגיאה על ההתפלגות מתנהגת לרוב באופן הבא. בעבור גמא אמצעית מסוימת נקבל את השגיאה הטובה ביותר. האלגוריתם שלנו בוחר את פרמטר גמא- הוא מעריך מה היא גמא טובה, אך מפני שזמננו קצר לא נוכל להיכנס לנושא זה כאן.

13 Low noise level  select smaller gamma high noise level  select bigger gamma
אחת ההשערות שלנו מהאלגוריתם היא שככל שהרעש גדול יותר הוא יבחר גמא גדולה יותר כדי להתעלם מרעש רב יותר.

14 החלטנו לבדוק את ההשערה שלנו.
השתמשנו במדגם אימון ובמדגם טסט בגודל 3000 של mnist. Mnist הוא מדגם מתויג של הספרות 0 עד 9 בכתב יד של אנשים. יצרנו 5 מדגמי אימון ו5 מדגמי טסט שונים שהם העתק של המדגמים המקוריים אך עם 10% רעש, 5% רעש, 1% רעש, 0.5% רעש ו0.1% רעש. ובדקנו את תוצאות האלגוריתם שלנו אל מול אלגוריתם השכן הקרוב ביותר המקורי.

15 Error of new Nearest Neighbor
0.1% 0.5% 1% 5% 10% noise 7.3% 8.3% 8.46% 14.83% 21.60% Error of new Nearest Neighbor 7.469% 8.40% 8.76% 15.70% 23.07% Error of Nearest Neighbor 2598 2050 1871 1762 1226 Gamma net size 1054 1317 1402 1432 1609 gamma והנה התוצאות. ניתן לראות כי אכן ההשערה שלנו הייתה נכונה – ככל שהרעש גבוה יותר – כך נבחרת גמא גדולה יותר. ובנוסף האלגוריתם החדש נותן שגיאות טובות יותר, במיוחד על מדגמים רועשים.


Download ppt "Nearest Neighbor in metric Spaces"

Similar presentations


Ads by Google