Presentation is loading. Please wait.

Presentation is loading. Please wait.

אתגרים אלגוריתמיים למנועי חיפוש

Similar presentations


Presentation on theme: "אתגרים אלגוריתמיים למנועי חיפוש"— Presentation transcript:

1 אתגרים אלגוריתמיים למנועי חיפוש
בעיות פתוחות עכשוויות בתורת גרפים הקשורות לחקר ולפיתוח מנועי חיפוש באינטרנט יובל הלר, ינואר 2004 הסתברות על גרפים, אוניברסיטת ת"א אתגרים אלגורתמים למנועי חיפוש ינואר 2004

2 אתגרים אלגורתמים למנועי חיפוש
רקע האינטרנט - הגרף הגדול והחשוב בעולם מנועי חיפוש: אמצעי מרכזי לגלישה ברשת שימוש במנועי חיפוש בארה"ב (ינואר 03, נילסן): 100 מליון משתמשים קבועים 50 מליון שעות חיפוש פוטנציאל עצום: מסחרי: YAHOO 30B$, GOOGLE – 10-20B$ מדעי: מקור מידע עיקרי לחוקרים רבים בעיות חשובות: יישומית: חקר הרשת ופיתוח מנועי חיפוש תיאורטית: תורת הגרפים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

3 אתגרים אלגורתמים למנועי חיפוש
תוכן מנועי חיפוש (רקע) דגימת דפים ברשת דגימה אחידה בגרף גדול להשגת דגימה אחידה מידול הרשת כגרף מקרי מציאת קהילות חבויות מציאת תתי גרפים דו-צדדיים צפופים בתוך גרף כיווני גדול טיוב תשובות בעזרת מטריצות וערכים עצמיים Algorithmic Challenges in Web Search Engines (M. Henzinger, 2003, Internet mathematics journal) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

4 אתגרים אלגורתמים למנועי חיפוש
ינואר 2004

5 אתגרים אלגורתמים למנועי חיפוש
גדלי מנועי החיפוש זמן חיפוש אופייני (google) – 0.2 שניות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

6 אתגרים אלגורתמים למנועי חיפוש
מנועי חיפוש ובעיותיהם זוחל (crawler, spider) מלקט דפים חדשים (ושינויים בקיימים) לקטלוג איך למנוע אפליות ו"חורים שחורים"? מקטלג (indexer) בונה אינדקס נוח לחיפוש של הדפים שלוקטו איך להיפטר מכפילים? מטפל בשאילתות (query handler) עונה לשאילתות חיפוש בעזרת האינדקס איך לבחור מבין אלפי תשובות את הטובות ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

7 אתגרים אלגורתמים למנועי חיפוש
דגימת אתרים ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004

8 אתגרים אלגורתמים למנועי חיפוש
הכרת תכונות הרשת שאלות לא ידועות על הרשת: כמה דפים יש ברשת? כמה מתוכם מקוטלגים ע"י מנועי החיפוש? מה האורך הממוצע של דף ברשת? מה אחוז הדפים העוסקים במדע? כתובים בסינית? התשובות חשובות לחקר הרשת בנוסף, חשיבות למפתחי הזוחלים: השוואת הדפים שהזוחל הגיע אליהם לכלל הדפים גילוי אפליות ו"חורים שחורים" טיוב ה"זוחלים" המענה לשאלות: דגימה אקראית של דף ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004

9 דגימה אקראית (אחידה) של אתרים ברשת
דגימה אקראית (אחידה) של אתרים ברשת נבחן שתי שיטות: בחירה אקראית של כתובות IP (Lawrence & Giles) מהלך מקרי ושקלול עיוותי page Rank אתגרים אלגורתמים למנועי חיפוש ינואר 2004

10 בחירה אקראית של כתובות IP Lawrence & Giles (פברואר 99)
2564 (כ- 4 מיליארד) כתובות IP אפשריות לשרתים (web servers) קל לדגום באקראי כתובות IP ולאמוד את כמות השרתים נבדקו 4 מליון כתובות, כ- 0.4% מתוכן הכילו שרת מסקנה: יש 3 מליון שרתים החוקרים בחרו באקראי 2500 שרתים, מיפו את כל הדפים בתוכם והעריכו: יש 800 מליון דפים ברשת רק 30% מתוכם מקוטלגים במנועי החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

11 מגבלות שיטת Lawrence & Giles
לו יכלנו לסרוק את כל הדפים בשרתים אקראיים, היינו מקבלים דגימה אחידה של דף ברשת לא ידועה שיטה יעילה לסריקת כל הדפים בשרת גדול הסתמכות על "סריקה ידנית" של מעט שרתים עלולה להטעות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

12 אתגרים אלגורתמים למנועי חיפוש
שיטת Henzinger et al. (2000) מהלך מקרי ברשת ובניית מאגר הדפים שביקרנו בהם הערכת הדירוג (פופולריות) של דפי המאגר כמה קישורים נכנסים לדף משקל יתר לקישורים מדפים עם דירוג גבוה דגימת דפים מהמאגר בהסתברות הפוכה לדירוג שלהם אתגרים אלגורתמים למנועי חיפוש ינואר 2004

13 מהלך מקרי על גרף מכוון קשיר
מהלך "הגולש השיכור": לרוב, בוחר באקראי קישור שיוצא מהדף הנוכחי לעיתים רחוקות (15% d ) נמאס מהגלישה, בחירת דף אקראי באינטרנט להתחלת גלישה חדשה בטווח הארוך, מה הסיכוי שהגולש יבקר בדף מסוים? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

14 מהלך מקרי ופונקציית הדירוג
סיכוי הביקור פרופורציוני ל- R(p) (page rank): סימונים: T = גודל הגרף (מס' הדפים=קודקודים) P1, …, pn = הדפים המקושרים לתוך p C(pi) = מס' הקישורים היוצאים מ- pi אתגרים אלגורתמים למנועי חיפוש ינואר 2004

15 למה צריך את d15% (פרמטר הסיכוך)
היחלצות ממבוי סתום ומלולאות סגורות מאפשר חישוב איטרטיבי קצר של R(p): ערך התחלתי (נניח 1) לכל דף שינוי R(p) בהתאם לדירוגי האתרים המקושרים אליו חזרה עשרות בודדות של פעמים מביאה להתכנסות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

16 תכונות פונקציית הדירוג (הזנחת הסיכוך)
דף מחלק את הדירוג שלו לדפים אליהם הוא מקושר דף מקבל דירוג גבוה אם מקושרים אליו: הרבה דפים דפים עם דירוג גבוה טענה: יש מתאם חיובי בין דפים עם דירוג גבוה לדפים שמשתמשים מחשיבים כערכיים (כתשובות מיטביות לשאילתא כללית) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

17 היסטוריית פונקציית הדירוג
הומצאה ב ע"י Brin & Page יישום במנוע החיפוש החדש Google: סיבה מרכזית בהפיכתו למנוע הפופולרי בעולם אתגרים אלגורתמים למנועי חיפוש ינואר 2004

18 ביצוע מהלך מקרי על גרף הרשת
התחלה מזרע (seed) התחלתי קטן כ- 10,000 אתרים שנבחרו באקראי ממהלכים מקריים קודמים ברשת ביצוע מהלך "גולש שיכור" מקורב בחירת דף אקראי (בסיכוי d) מהדפים שבהם ביקרנו עד כה (+ זרע התחלתי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

19 אתגרים אלגורתמים למנועי חיפוש
דגימה בתהפלגות אחידה הסתברות הביקור בדף פרופורציונית לדירוג שלו דגימת הדפים שביקרנו בהם ביחס הפוך לדירוג, נותנת התפלגות (בקירוב) אחידה איך נעריך את הדירוג האמיתי של הדפים? חישוב הדירוג בתת הגרף שנדגם (page rank) מדידת שכיחות הביקורים בדף במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

20 אתגרים אלגורתמים למנועי חיפוש
הטיה לרעת דפים "נדירים" המהלך המקרי יבקר בשיעור זעום של דפים עם דירוג נמוך שיידגמו ב"פוקס" דף שנדגם במהלך יקבל הערכה גבוהה מידי לדירוג כתוצאה מכך, הטייה לרעת דגימת אתרים "נדירים" (אתרים עם דירוג נמוך) המגבלה המרכזית של השיטה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

21 המחשת ההטייה: כדים עם כדורים ממוספרים
המחשת ההטייה: כדים עם כדורים ממוספרים דימוי ה"מהלך המקרי": 10,000 פעמים בוחרים באקראי כד ומוציאים באקראי כדור (עם החזרות) הערכת יתר לדירוג הכדורים הכחולים שנדגמו הטיה לרעתם (הדגימה ביחס הפוך להערכת הדירוג) # כדורים # דגימות אמת 1,000,000 100 מדגם 5,000 הסתברות הביקור בכדור 1/2,000,000 1/200 מדגם (VR) 1/10,000 אתגרים אלגורתמים למנועי חיפוש ינואר 2004

22 אתגרים אלגורתמים למנועי חיפוש
מגבלות נוספות לשיטה הטייה התחלתית (בגלל ה- seed) תלות בין דפים שנדגמים חזרה על לולאות קצרות קפיצות אקראיות (בשיעור d) מתבצעות רק לאתרים שכבר נדגמו דגימה אחידה של דפים ברשת נותרה בעיה פתוחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

23 אתגרים אלגורתמים למנועי חיפוש
מידול הרשת כגרף אתגרים אלגורתמים למנועי חיפוש ינואר 2004

24 אתגרים אלגורתמים למנועי חיפוש
מידול הרשת כגרף מקרי אמפירית, לגרף הרשת יש מבנה ייחודי, לדוגמא: כמות הקישורים מאתר אקראי מתפלגת לפי חוק חזקה: הרבה אתרים עם מעט קישורים מעט אתרים עם הרבה קישורים גם דירוג האתרים מתפלג ע"פ חוק חזקה כמות גדולה של גרפי Ki,j (דו-צדדיים שלמים) איזה מודל של גרף מקרי ידמה תכונות אלו? מודל G(n,p): כמות הקשתות מתפלגת בינומית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

25 מה התועלת במידול כגרף מקרי?
"סימולציה" לאינטרנט בחינת אלגורתמים ב"מגרש משחקים" (הגרף המקרי), על-מנת להעריך את היעילות הצפויה ברשת בדיקה ישירה איטית/יקרה/קשה מידי גילוי תכונות נוספות של הרשת יכולת לחזות את מבנה הרשת בעתיד אתגרים אלגורתמים למנועי חיפוש ינואר 2004

26 אתגרים אלגורתמים למנועי חיפוש
גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) תזכורת למודל ביצוע מהלך מקרי על גרף הרשת ובניית מאגר לדפים שהלכנו בהם הערכת הדירוג (page rank) של כל הדפים במאגר דגימת דפים בהסתברות הפוכה לדירוג שלהם נבחן בגרף מקרי עד כמה ההתפלגות המתקבלת אחידה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

27 אתגרים אלגורתמים למנועי חיפוש
גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) בניית גרף לדימוי ההתפלגות האמפירית של הקישורים היוצאים ברשת: התפלגות קשתות ע"פ חוק חזקה אמפירי: קשתות יוצאות (בתחום 5..20) P(k)=1/k2.38 קשתות נכנסות (בתחום 5..18) 1P(k)=1/k2. התאמת מספר הקשתות היוצאות והנכנסות התאמה אקראית של דרגות לקודקודים חיבור אקראי בין הקודקודים לפי הדרגות התקבל גרף עם 10 מליון קודקודים וכ- 80 מליון קשתות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

28 בחינת יעילות אלגוריתם הדגימה
בניית רשת html סינטטית מהגף המקרי וזחילה בה הזוחל ביקר וקטלג 850,000 אתרים שונים מתוכם נדגמו 2000 אתרים ב- 3 התפלגויות: אחידה הפוכה ל- 2 ההערכות לדירוג האמיתי: דירוג בקטלוג (page rank) שיעור הביקורים במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

29 שיעור הדגימה כתלות בכמות הקשתות היוצאות (out-degree)
כצפוי, אין תלות בין כמות הקשתות היוצאות לשיעור הדגימה בכל השיטות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

30 שיעור הדגימה כתלות בכמות הקשתות הנכנסות (in-degree)
הטייה לרעת דפים עם page rank נמוך שימוש ב- page rank מקטין את ההטייה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

31 שיעור הדגימה כתלות בדירוג (האמיתי) של הדף
שיעור הדגימה כתלות בדירוג (האמיתי) של הדף תוצאה דומה לקשתות הנכנסות (שימוש ב- page rank מקטין את ההטיה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

32 גרף אקראי מורכב יותר (Klienberg at al. 1999)
אתרים חדשים נוטים להעתיק קישורים יוצאים של אתרים קיימים העוסקים בנושאים דומים איך נוכל למדל זאת? האם זה מסביר את המבנה הייחודי של הרשת? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

33 המודל: גרף דינמי עם 4 תהליכים אקראיים
יצירת/הרס קודקוד באקראי ובאופן ב"ת הרס קודקוד מוחק את כל הקשתות הנכנסות אליו תיאום קצבי יצירה/הרס לקבלת גידול אקספוננטיילי מתאים יצירת קשתות בוחרים באקראי קודקוד ומספר k של קשתות להוסיף לו רוב () יוצרי האתרים (מעתיקנים): מעתיקים את הקשתות מקודקוד אקראי w היתר (1- ): יוצרים קשתות באקראי (מקוריים) הרס קשתות: באקראי אתגרים אלגורתמים למנועי חיפוש ינואר 2004

34 אתגרים אלגורתמים למנועי חיפוש
תכונות הגרף המקרי סימולציות וניתוחים סטטיסטיים על הגרף מגלים תכונות דומות לרשת: חוקי חזקה לדרגת היציאה ולדרגת הכניסה של הקודקודים חוקי חזקה לדירוג (page rank) של קודקודים שיעור הולם של גרפים דו צדדיים מלאים Ki,j אתגרים אלגורתמים למנועי חיפוש ינואר 2004

35 אתגרים פתוחים – מידול הרשת כגרף
לרשת תכונות נוספות שטרם הצליחו למדל אותן לדוגמא תכונת השרתים (hosts): כל דף שייך לשרת 75% מהקישורים הם לדפים אחרים בשרת אם ניצור גרף שרתים (איחוד כל הקודקודים השייכים לאותו שרת) נקבל גרף שדרגת קודקודיו מצייתת גם לחוק החזקה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

36 מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים
מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

37 קהילות ברשת Krumar at al 1999
ב הרשת הכילה כמה אלפי קהילות מבוססות דוגמאות: חובבי ליגת NBA, אספני בולים מצויות במדריכי החיפוש (directories) וקיימת מודעות לקיומן במקביל, קיימים ברשת מאות אלפי קהילות צעירות דוגמאות: ארגוני סטודנטים טורקים בארה"ב, חובבי הזמר היפני האקירו שינה לא מצויות כללי במדריכי הרשת לעיתים, חברי הקהילה עדיין לא מודעים לקיומן אתגרים אלגורתמים למנועי חיפוש ינואר 2004

38 אתגרים אלגורתמים למנועי חיפוש
למה לחפש קהילות צעירות? מידע חשוב, אמין ומעודכן לאדם המתעניין בנושא שמאגד קהילה חדשה לרוב, הנושא אינו מצוי במקורות המידע המקובלים תובנות על סוציולוגיית והתפתחות הרשת גילוי הקהילות מאפשר פרסום מאוד ממוקד קהילות צעירות נוטות לשרוד ולגדול (יותר מאתרים אחרים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

39 מה כוללת קהילה (ניתוח גרפי)
קבוצת אתרי חובבים (hubs) החולקים עניין משותף קבוצת מרכזי תוכן (authorities) המספקים מידע ערכי על הנושא תת גרף דו-צדדי כיווני צפוף: קישורי צד המקור = החובבים קישורי צד היעד = מרכזי התוכן אתגרים אלגורתמים למנועי חיפוש ינואר 2004

40 מה כוללת קהילה (ניתוח גרפי)
טענה מתמטית: יהי גרף מקרי דו-צדדי עם L קודקודי מקור, R קודקודי יעד ו- m קשתות. אזי קיימים I, j כך שבסיכוי גבוה R מכיל תת-גרף דו-צדדי שלם Ki,j דוגמא: L=R=10, m=50, בסיכוי 99% קיים K5,5 היפותיזה על הרשת: תת-גרף דו-צדדי אקראי גדול וצפוף מספיק מכיל בסיכוי גבוה גרף דו-צדדי כיווני שלם (שייקרא הליבה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

41 שיטת חיפוש הקהילות במאמר
חקירת קטלוג של מנוע חיפוש משנת 97 (שנה וחצי לפני כתיבת המאמר) המאגר הכיל 200 מליון דפים (1 טרה-בייט) התייחסות רק לגרף הקישורים (התעלמות מהתכנים) חיפוש ליבות Ki,j (גרף דו-צדדי כיווני שלם) מהליבה קל למצוא את הקהילה המכילה אותה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

42 אתגרים אלגורתמים למנועי חיפוש
שיטת חיפוש הקהילות שלב 1: מציאת חובבים פוטנציאלים נדרוש שאתר חובב יכיל לפחות 6 קישורים לאתרים בשרתים אחרים קישורים באותו שרת נובעים לעיתים ממדיניות מרכזית של בעל השרת או משיקולים מסחריים ואינם קשורים לקהילה נמצאו 24 מליון חובבים (פוטנציאלים) שלב 2: היפטרות ממראות אתר שנשמר ב- 3 מראות ייצור ליבה מזויפת של K3,n הופעל אלגוריתם היפטרות ממראות אגרסיבי נותרו 10 מליון חובבים פוטנציאלים, וכ- 100 מליון מרכזים (אתרי תוכן פוטנציאלים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

43 אתגרים אלגורתמים למנועי חיפוש
שיטת חיפוש הקהילות שלב 3 – היפטרות מקהילות מוכרות ומבוססות מחיקת אתרים שדרגת הכניסה שלהם גדולה מ- 50 אתרים מוכרים המצויים כנראה במדריכים ברשת נותרו 2 מליון חובבים עם 60 מליון קישורים ל-20 מליון מרכזים שלב 4 – גזימה נשנית חיפוש עבור Ki,j מחיקת חובבים עם פחות מ- j קישורים יוצאים (ומרכזי תוכן עם פחות מ- i קישורים נכנסים) יישום אלגוריתמי שמאפשר עבודה יעילה בזיכרון ראשי המכיל חלק קטן מהקישורים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

44 אתגרים אלגורתמים למנועי חיפוש
שיטת חיפוש הקהילות שלב 5 – גזימת הכלה-הדחה בכל שלב מוחקים אתר או מוצאים ליבה חיפוש חובבים המוקשרים ל- j אתרי תוכן (בדיוק) האם החובב הוא חלק מליבה? האם יש i-1 חובבים אחרים המקושרים לאותם אתרי תוכן? השלבים הללו: לא מחקו אף ליבה (מבלי שנמצאה) ניתנים לבצוע ביעילות: זמן ריצה לינארי לגודל הקלט אתגרים אלגורתמים למנועי חיפוש ינואר 2004

45 # הקהילות שנמצאו בהכלה-הדחה
# הקהילות שנמצאו בהכלה-הדחה התעלמות מקישורים בתוך השרת (כפתורי ניווט ו"נפוטיזם") סה"כ נמצאו 135 אלף קהילות בהכלה-הדחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

46 אתגרים אלגורתמים למנועי חיפוש
מציאת שאר הקהילות לאחר כל השלבים נותרו 5 מליון קשתות בלבד הופעל אלגוריתם מלא לחיפוש תתי-גרפים כיווניים דו-צדדים מלאים נמצאו 75 אלף קהילות נוספות בשלב זה (סה"כ כ- 200 אלף קהילות) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

47 גדלי ליבות הקהילות שנמצאו בשלב האחרון
אתגרים אלגורתמים למנועי חיפוש ינואר 2004

48 בחינת ליבות הקהילות שאותרו
נדגמו אקראית 400 ליבות: 200 K3,3 ו- 200K3,5 נבדק כמה מהקהילות עדיין חיות (=כל אתרי החובבים עדיין קיימים) לאחר שנה וחצי? 70% מהקהילות חיות מסקנה: שרידות רבה לקהילות (זמן חיים ממוצע ברשת: עד ½ שנה) האם הליבות אכן מהוות קהילות? בדיקה ידנית העלתה ש- 96% מהליבות היוו קהילות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

49 בחינת ליבות הקהילות שאותרו
קל לאלגוריתם חכם לגלות את הקהילות שמסביב לליבות ששרדו (תת-גרף דו-צדדי כיווני גדול יחסית וצפוף למדי) קיום הקהילות במדריכים: ב רק 29% מהקהילות הוכלו (חלקית: לפחות אחד מאתרי הליבה) ב- yahoo ב % מהקהילות הוכלו (חלקית) ב- yahoo משמעות: שיטת החיפוש הביאה למציאת קהילות "נסתרות" רבות קהילות צעירות רבות התפתחו לקהילות מבוססות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

50 אתגרים אלגורתמים למנועי חיפוש
מגבלות שיטת Kumar 1999 השיטה הביאה למציאת קהילות יחסית קטנות (עשרות בודדות של אתרים) בעייה פתוחה: מציאת קהילות גדולות (מאות/אלפי קודקודים בגרף דו-צדדי צפוף למדי) צפוף למדי = שיעור קבוע ממספר הקשתות בגרף המלא לא ידועים אלגוריתמים יעילים (מהירות והעלאת חלק קטן מהגרף בכל פעם לזיכרון) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

51 טיוב תשובות בעזרת מטריצות ווקטורים עצמיים
טיוב תשובות בעזרת מטריצות ווקטורים עצמיים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

52 שאילתות כלליות ופרטניות
שאילתא פרטנית דוגמאות: האם גרסא 5.5 של אינטרנט אקספלורר תומכת ב- http 1.1? מי הוא ראש מחלקת החינוך בעיריית פתח-תקווה? הבעיה: למצוא את מעט האתרים שעונים לשאילתא שאילתא כללית מציאת מידע על נושא כללי: תכנות ב- JAVA, פיזיקה ... מציאת מנועי חיפוש הבעיה: יש המון אתרים שעונים לשאילתא איך להחזיר למשתמש את הטובים ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

53 תשובות מנועי חיפוש לשאילתא כללית (98)
דוגמא: חיפוש אתרים של יצרני מכוניות מונחי החיפוש: automibile manufacturers החזרת אתרים המכילים את מונחי החיפוש תעדוף בין האתרים: כמות ומרכזיות הפעמים שהמונח מופיע באתר מדד לחשיבות הדף: כמות קישורים נכנסים או דירוג (page rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

54 מנועי החיפוש לא מחזירים תשובות מיטביות
לעיתים, אתרי חברות יצרני המכוניות אינן מכילות את המונח "automibile manufacturers" הפופולריות הכללית של האתר ברשת אינה מדד מיטבי לחשיבות שלו לאתר הבית של YAHOO פופולריות כללית רבה. חיפוש מונח שמופיע בו במקרה (נניח privacy), ידרג אותו גבוה מידי מדד משופר: הפופולריות בקרב בעלי העניין (בקהילת האתרים העוסקת בנושא הרלוונטי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

55 גישת Kleinberg (1999) לטיוב תשובות לשאילתות כלליות
שיטה למתן מענה לשאילת חיפוש כללית קצת איטית יותר מתן תשובות רלוונטיות יותר: אתרים שזוכים להערכה בקהילת האתרים הרלוונטית אתרים הנחשבים למקור הסמכות (authorities) בתחום אתגרים אלגורתמים למנועי חיפוש ינואר 2004

56 אתגרים אלגורתמים למנועי חיפוש
שלב 1: שורש ראשוני מציאת תת-גרף עם התכונות הבאות: קטן יחסית (אפשר להפעיל עליו אלגוריתמים ביעילות) עשיר באתרים רלוונטיים מכיל את מירב אתרי התוכן החשובים בתחום שורש ראשוני כ- 200 אתרים המכילים את מונחי החיפוש (בעזרת מנוע חיפוש רגיל) הבעיות בשורש: אינו מכיל חלק ניכר ממרכזי התוכן החשובים "חסר מבנה" לדוגמא 200 התשובות הראשונות ל-censorship הכילו רק 28 קישורים הדדיים (מתוך 200*199=38=9800 קישורים אפשריים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

57 אתגרים אלגורתמים למנועי חיפוש
שלב 2: הרחבת השורש לבסיס הוספה (בעזרת מנוע חיפוש סטנדרטי): כל הקישורים היוצאים מדפי השורש הוספת עד 50 קישורים נכנסים לכל אחד מדפי השורש התעלמות מקישורים בתוך השרת כפתורי ניווט, "נפוטיזם" הבסיס המתקבל: ,000 דפים מכיל את רוב מרכזי התוכן החשובים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

58 שלב 3: מציאת HUBS & Authorities ("חובבים" ומרכזי תוכן)
חישוב 2 מדדים לכל דף: X(0) – HUBמדד Y(0) - Authorityמדד HUB טוב = הרבה קישורים יוצאים לסמכות הטובות (מרכזי תוכן) סמכות טובה = הרבה קישורים נכנסים מ- HUB טובים הסמכויות וה"האבים" עם הדירוג הכי גבוה ישמשו כתשובה לשאליתא הכללית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

59 חישוב איטרטיבי של המדדים
שיטת החישוב: ציון התחלתי Z זהה לכל האתרים (X0, Y0) חישוב Xn בעזרת Yn-1 חישוב Yn בעזרת Xn נרמול (סכום כל ה- Xi = 1) משפט: Xn, Yn מתכנסים הוכחה ומציאת הגבולות (X*, Y*) בעזרת אלגברה לינארית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

60 מציאת הגבול למדדים (X*, Y*)
תהי A מטריצת השכנויות של גרף הבסיס Aij=1 אם יש קישור מ= i ל- j טענה: מסקנה: Yk - וקטור יחידה בכיוון Xk - וקטור יחידה בכיוון אתגרים אלגורתמים למנועי חיפוש ינואר 2004

61 אתגרים אלגורתמים למנועי חיפוש
אלגברה לינארית M=AAT היא מטריצה סימטרית (וא-שלילית) יהי1 … n הע"ע של M המסודרים לפי הסדר נניח כי 2 < 1 (בערך מוחלט) יהי w1 הו"ע המתאים ל- 1 (ו"ע ראשי) משפטים מאלגברה לינארית: יהי v וקטור שאינו ניצב ל- w1, אזי Mk(v) מתכנס ל- w1 (כש –k שואף לאין-סוף) M א-שלילית -> w1 א-שלילי z אינו ניצב ל- w1, ולכן Yk= w1 ובצורה דומה גם Xk מתכנס אתגרים אלגורתמים למנועי חיפוש ינואר 2004

62 אתגרים אלגורתמים למנועי חיפוש
אלגברה לינארית - המשך מסקנות: דירוגי הסמכותיות וה"האביות" מתכנסים דירוג ה"סמכותיות" שווה לוקטור העצמי הראשי של AAT לכן ניתן למצוא את אתרי הסמכות הטובים ביותר, פשוט ע"י מציאת הו"ע הראשי AAT (ולחסוך את החישוב האיטרטיבי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

63 דוגמאות לתוצאות שיטת Kleinberg
מילות החיפוש: search engine 5 האתרים עם דרגת סמכות הכי גבוהה: yahoo, Excite, Magellan. Lycos, Alta-Vista מילות החיפוש: censorship The electronic Frontier Foundation The BR campaign for free speech The Center for Democracy & Technology Voters Telecommunications Watch American Civil Liberties Union רבים מהאתרים לא הכילו את מילות החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

64 בחינת יעילות שיטת Kleinberg
נבחרו 26 מונחי חיפוש (כללייים) לכל נושא חיפשו 10 אתרים העוסקים בו ב- 3 שיטות: מנוע החיפוש Alatavista מדריך yahoo חיפוש ממוחשב (משוכלל יותר) המתבסס על שיטת Kleinberg 40 משתמשים דירגו כל אחד מהאתרים (כמה הם יכולים ללמוד ממנו על המושג) לרוב, החיפוש הממוחשב על בסיס שיטת Kleinberg סיפק את האתרים הטובים ביותר אתגרים אלגורתמים למנועי חיפוש ינואר 2004

65 אתגרים אלגורתמים למנועי חיפוש
התעלמות מכפילים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

66 אתגרים אלגורתמים למנועי חיפוש
מה רע בעותקים כפולים? מוסיפים מעט מידע למשתמש תשובות זהות רבות לשאילתא הדף המבוקש "מתחבא" בערימת שחת מאגר גדול מידי הארכת זמן החיפוש קשיי ניהול אינדקס גדול (מיליארדי דפים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

67 אתגרים אלגורתמים למנועי חיפוש
מציאת מראות (mirrors) מציאת כפילים כללית דורשת משאבי חישוב רבים בעיה פשוטה יותר: מציאת מראות (שרתים כפולים): שני שרתים שמכילים בדיוק אותם דפים שיטה מוצעת (Bhart 2000): כל שרת מיוצג כסקיצה דוגמא: תת-קבוצה של URL או של קישורים פנימיים באתר בחירת סקיצה חכמה מאפשרת: השוואת סקיצות "זולה" (ביחס להשוואת שרתים) בסיכוי גבוה: סקיצות זהות -> אתרים זהים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

68 אתגרים אלגורתמים למנועי חיפוש
סיכום סקרנו בהרצאה מגוון בעיות פתוחות עכשוויות בתורת הגרפים: דגימה אחידה בגרף גדול מידול הרשת כגרף מקרי מציאת קהילות בגרף גדול (תתי גרפים דו-צדדיים צפופים) שימוש במטריצות לטיוב תשובות לשאילתות כלליות התעלמות מכפילים (duplicate hosts/pages) לבעיות אלו חשיבות רבה בחקר רשת האינטרנט וטיוב מנועי חיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

69 התפלגות אמפירית של כמות קישורים נכנסים בגרף האינטרנט (1999)
דרגת כניסה (log) שיפוע קצת מעל 2 שכיחות -log)) אתגרים אלגורתמים למנועי חיפוש ינואר 2004


Download ppt "אתגרים אלגוריתמיים למנועי חיפוש"

Similar presentations


Ads by Google