אתגרים אלגוריתמיים למנועי חיפוש בעיות פתוחות עכשוויות בתורת גרפים הקשורות לחקר ולפיתוח מנועי חיפוש באינטרנט יובל הלר, ינואר 2004 הסתברות על גרפים, אוניברסיטת ת"א אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש רקע האינטרנט - הגרף הגדול והחשוב בעולם מנועי חיפוש: אמצעי מרכזי לגלישה ברשת שימוש במנועי חיפוש בארה"ב (ינואר 03, נילסן): 100 מליון משתמשים קבועים 50 מליון שעות חיפוש פוטנציאל עצום: מסחרי: YAHOO 30B$, GOOGLE – 10-20B$ מדעי: מקור מידע עיקרי לחוקרים רבים בעיות חשובות: יישומית: חקר הרשת ופיתוח מנועי חיפוש תיאורטית: תורת הגרפים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש תוכן מנועי חיפוש (רקע) דגימת דפים ברשת דגימה אחידה בגרף גדול להשגת דגימה אחידה מידול הרשת כגרף מקרי מציאת קהילות חבויות מציאת תתי גרפים דו-צדדיים צפופים בתוך גרף כיווני גדול טיוב תשובות בעזרת מטריצות וערכים עצמיים Algorithmic Challenges in Web Search Engines (M. Henzinger, 2003, Internet mathematics journal) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש גדלי מנועי החיפוש זמן חיפוש אופייני (google) – 0.2 שניות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מנועי חיפוש ובעיותיהם זוחל (crawler, spider) מלקט דפים חדשים (ושינויים בקיימים) לקטלוג איך למנוע אפליות ו"חורים שחורים"? מקטלג (indexer) בונה אינדקס נוח לחיפוש של הדפים שלוקטו איך להיפטר מכפילים? מטפל בשאילתות (query handler) עונה לשאילתות חיפוש בעזרת האינדקס איך לבחור מבין אלפי תשובות את הטובות ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש דגימת אתרים ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש הכרת תכונות הרשת שאלות לא ידועות על הרשת: כמה דפים יש ברשת? כמה מתוכם מקוטלגים ע"י מנועי החיפוש? מה האורך הממוצע של דף ברשת? מה אחוז הדפים העוסקים במדע? כתובים בסינית? התשובות חשובות לחקר הרשת בנוסף, חשיבות למפתחי הזוחלים: השוואת הדפים שהזוחל הגיע אליהם לכלל הדפים גילוי אפליות ו"חורים שחורים" טיוב ה"זוחלים" המענה לשאלות: דגימה אקראית של דף ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004
דגימה אקראית (אחידה) של אתרים ברשת דגימה אקראית (אחידה) של אתרים ברשת נבחן שתי שיטות: בחירה אקראית של כתובות IP (Lawrence & Giles) מהלך מקרי ושקלול עיוותי page Rank אתגרים אלגורתמים למנועי חיפוש ינואר 2004
בחירה אקראית של כתובות IP Lawrence & Giles (פברואר 99) 2564 (כ- 4 מיליארד) כתובות IP אפשריות לשרתים (web servers) קל לדגום באקראי כתובות IP ולאמוד את כמות השרתים נבדקו 4 מליון כתובות, כ- 0.4% מתוכן הכילו שרת מסקנה: יש 3 מליון שרתים החוקרים בחרו באקראי 2500 שרתים, מיפו את כל הדפים בתוכם והעריכו: יש 800 מליון דפים ברשת רק 30% מתוכם מקוטלגים במנועי החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מגבלות שיטת Lawrence & Giles לו יכלנו לסרוק את כל הדפים בשרתים אקראיים, היינו מקבלים דגימה אחידה של דף ברשת לא ידועה שיטה יעילה לסריקת כל הדפים בשרת גדול הסתמכות על "סריקה ידנית" של מעט שרתים עלולה להטעות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שיטת Henzinger et al. (2000) מהלך מקרי ברשת ובניית מאגר הדפים שביקרנו בהם הערכת הדירוג (פופולריות) של דפי המאגר כמה קישורים נכנסים לדף משקל יתר לקישורים מדפים עם דירוג גבוה דגימת דפים מהמאגר בהסתברות הפוכה לדירוג שלהם אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מהלך מקרי על גרף מכוון קשיר מהלך "הגולש השיכור": לרוב, בוחר באקראי קישור שיוצא מהדף הנוכחי לעיתים רחוקות (15% d ) נמאס מהגלישה, בחירת דף אקראי באינטרנט להתחלת גלישה חדשה בטווח הארוך, מה הסיכוי שהגולש יבקר בדף מסוים? אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מהלך מקרי ופונקציית הדירוג סיכוי הביקור פרופורציוני ל- R(p) (page rank): סימונים: T = גודל הגרף (מס' הדפים=קודקודים) P1, …, pn = הדפים המקושרים לתוך p C(pi) = מס' הקישורים היוצאים מ- pi אתגרים אלגורתמים למנועי חיפוש ינואר 2004
למה צריך את d15% (פרמטר הסיכוך) היחלצות ממבוי סתום ומלולאות סגורות מאפשר חישוב איטרטיבי קצר של R(p): ערך התחלתי (נניח 1) לכל דף שינוי R(p) בהתאם לדירוגי האתרים המקושרים אליו חזרה עשרות בודדות של פעמים מביאה להתכנסות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
תכונות פונקציית הדירוג (הזנחת הסיכוך) דף מחלק את הדירוג שלו לדפים אליהם הוא מקושר דף מקבל דירוג גבוה אם מקושרים אליו: הרבה דפים דפים עם דירוג גבוה טענה: יש מתאם חיובי בין דפים עם דירוג גבוה לדפים שמשתמשים מחשיבים כערכיים (כתשובות מיטביות לשאילתא כללית) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
היסטוריית פונקציית הדירוג הומצאה ב- 1998 ע"י Brin & Page יישום במנוע החיפוש החדש Google: סיבה מרכזית בהפיכתו למנוע הפופולרי בעולם אתגרים אלגורתמים למנועי חיפוש ינואר 2004
ביצוע מהלך מקרי על גרף הרשת התחלה מזרע (seed) התחלתי קטן כ- 10,000 אתרים שנבחרו באקראי ממהלכים מקריים קודמים ברשת ביצוע מהלך "גולש שיכור" מקורב בחירת דף אקראי (בסיכוי d) מהדפים שבהם ביקרנו עד כה (+ זרע התחלתי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש דגימה בתהפלגות אחידה הסתברות הביקור בדף פרופורציונית לדירוג שלו דגימת הדפים שביקרנו בהם ביחס הפוך לדירוג, נותנת התפלגות (בקירוב) אחידה איך נעריך את הדירוג האמיתי של הדפים? חישוב הדירוג בתת הגרף שנדגם (page rank) מדידת שכיחות הביקורים בדף במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש הטיה לרעת דפים "נדירים" המהלך המקרי יבקר בשיעור זעום של דפים עם דירוג נמוך שיידגמו ב"פוקס" דף שנדגם במהלך יקבל הערכה גבוהה מידי לדירוג כתוצאה מכך, הטייה לרעת דגימת אתרים "נדירים" (אתרים עם דירוג נמוך) המגבלה המרכזית של השיטה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
המחשת ההטייה: כדים עם כדורים ממוספרים המחשת ההטייה: כדים עם כדורים ממוספרים דימוי ה"מהלך המקרי": 10,000 פעמים בוחרים באקראי כד ומוציאים באקראי כדור (עם החזרות) הערכת יתר לדירוג הכדורים הכחולים שנדגמו הטיה לרעתם (הדגימה ביחס הפוך להערכת הדירוג) # כדורים # דגימות אמת 1,000,000 100 מדגם 5,000 הסתברות הביקור בכדור 1/2,000,000 1/200 מדגם (VR) 1/10,000 אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מגבלות נוספות לשיטה הטייה התחלתית (בגלל ה- seed) תלות בין דפים שנדגמים חזרה על לולאות קצרות קפיצות אקראיות (בשיעור d) מתבצעות רק לאתרים שכבר נדגמו דגימה אחידה של דפים ברשת נותרה בעיה פתוחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מידול הרשת כגרף אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מידול הרשת כגרף מקרי אמפירית, לגרף הרשת יש מבנה ייחודי, לדוגמא: כמות הקישורים מאתר אקראי מתפלגת לפי חוק חזקה: הרבה אתרים עם מעט קישורים מעט אתרים עם הרבה קישורים גם דירוג האתרים מתפלג ע"פ חוק חזקה כמות גדולה של גרפי Ki,j (דו-צדדיים שלמים) איזה מודל של גרף מקרי ידמה תכונות אלו? מודל G(n,p): כמות הקשתות מתפלגת בינומית אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מה התועלת במידול כגרף מקרי? "סימולציה" לאינטרנט בחינת אלגורתמים ב"מגרש משחקים" (הגרף המקרי), על-מנת להעריך את היעילות הצפויה ברשת בדיקה ישירה איטית/יקרה/קשה מידי גילוי תכונות נוספות של הרשת יכולת לחזות את מבנה הרשת בעתיד אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) תזכורת למודל ביצוע מהלך מקרי על גרף הרשת ובניית מאגר לדפים שהלכנו בהם הערכת הדירוג (page rank) של כל הדפים במאגר דגימת דפים בהסתברות הפוכה לדירוג שלהם נבחן בגרף מקרי עד כמה ההתפלגות המתקבלת אחידה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) בניית גרף לדימוי ההתפלגות האמפירית של הקישורים היוצאים ברשת: התפלגות קשתות ע"פ חוק חזקה אמפירי: קשתות יוצאות (בתחום 5..20) P(k)=1/k2.38 קשתות נכנסות (בתחום 5..18) 1P(k)=1/k2. התאמת מספר הקשתות היוצאות והנכנסות התאמה אקראית של דרגות לקודקודים חיבור אקראי בין הקודקודים לפי הדרגות התקבל גרף עם 10 מליון קודקודים וכ- 80 מליון קשתות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
בחינת יעילות אלגוריתם הדגימה בניית רשת html סינטטית מהגף המקרי וזחילה בה הזוחל ביקר וקטלג 850,000 אתרים שונים מתוכם נדגמו 2000 אתרים ב- 3 התפלגויות: אחידה הפוכה ל- 2 ההערכות לדירוג האמיתי: דירוג בקטלוג (page rank) שיעור הביקורים במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שיעור הדגימה כתלות בכמות הקשתות היוצאות (out-degree) כצפוי, אין תלות בין כמות הקשתות היוצאות לשיעור הדגימה בכל השיטות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שיעור הדגימה כתלות בכמות הקשתות הנכנסות (in-degree) הטייה לרעת דפים עם page rank נמוך שימוש ב- page rank מקטין את ההטייה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שיעור הדגימה כתלות בדירוג (האמיתי) של הדף שיעור הדגימה כתלות בדירוג (האמיתי) של הדף תוצאה דומה לקשתות הנכנסות (שימוש ב- page rank מקטין את ההטיה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
גרף אקראי מורכב יותר (Klienberg at al. 1999) אתרים חדשים נוטים להעתיק קישורים יוצאים של אתרים קיימים העוסקים בנושאים דומים איך נוכל למדל זאת? האם זה מסביר את המבנה הייחודי של הרשת? אתגרים אלגורתמים למנועי חיפוש ינואר 2004
המודל: גרף דינמי עם 4 תהליכים אקראיים יצירת/הרס קודקוד באקראי ובאופן ב"ת הרס קודקוד מוחק את כל הקשתות הנכנסות אליו תיאום קצבי יצירה/הרס לקבלת גידול אקספוננטיילי מתאים יצירת קשתות בוחרים באקראי קודקוד ומספר k של קשתות להוסיף לו רוב () יוצרי האתרים (מעתיקנים): מעתיקים את הקשתות מקודקוד אקראי w היתר (1- ): יוצרים קשתות באקראי (מקוריים) הרס קשתות: באקראי אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש תכונות הגרף המקרי סימולציות וניתוחים סטטיסטיים על הגרף מגלים תכונות דומות לרשת: חוקי חזקה לדרגת היציאה ולדרגת הכניסה של הקודקודים חוקי חזקה לדירוג (page rank) של קודקודים שיעור הולם של גרפים דו צדדיים מלאים Ki,j אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים פתוחים – מידול הרשת כגרף לרשת תכונות נוספות שטרם הצליחו למדל אותן לדוגמא תכונת השרתים (hosts): כל דף שייך לשרת 75% מהקישורים הם לדפים אחרים בשרת אם ניצור גרף שרתים (איחוד כל הקודקודים השייכים לאותו שרת) נקבל גרף שדרגת קודקודיו מצייתת גם לחוק החזקה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
קהילות ברשת Krumar at al 1999 ב- 1999 הרשת הכילה כמה אלפי קהילות מבוססות דוגמאות: חובבי ליגת NBA, אספני בולים מצויות במדריכי החיפוש (directories) וקיימת מודעות לקיומן במקביל, קיימים ברשת מאות אלפי קהילות צעירות דוגמאות: ארגוני סטודנטים טורקים בארה"ב, חובבי הזמר היפני האקירו שינה לא מצויות כללי במדריכי הרשת לעיתים, חברי הקהילה עדיין לא מודעים לקיומן אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש למה לחפש קהילות צעירות? מידע חשוב, אמין ומעודכן לאדם המתעניין בנושא שמאגד קהילה חדשה לרוב, הנושא אינו מצוי במקורות המידע המקובלים תובנות על סוציולוגיית והתפתחות הרשת גילוי הקהילות מאפשר פרסום מאוד ממוקד קהילות צעירות נוטות לשרוד ולגדול (יותר מאתרים אחרים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מה כוללת קהילה (ניתוח גרפי) קבוצת אתרי חובבים (hubs) החולקים עניין משותף קבוצת מרכזי תוכן (authorities) המספקים מידע ערכי על הנושא תת גרף דו-צדדי כיווני צפוף: קישורי צד המקור = החובבים קישורי צד היעד = מרכזי התוכן אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מה כוללת קהילה (ניתוח גרפי) טענה מתמטית: יהי גרף מקרי דו-צדדי עם L קודקודי מקור, R קודקודי יעד ו- m קשתות. אזי קיימים I, j כך שבסיכוי גבוה R מכיל תת-גרף דו-צדדי שלם Ki,j דוגמא: L=R=10, m=50, בסיכוי 99% קיים K5,5 היפותיזה על הרשת: תת-גרף דו-צדדי אקראי גדול וצפוף מספיק מכיל בסיכוי גבוה גרף דו-צדדי כיווני שלם (שייקרא הליבה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שיטת חיפוש הקהילות במאמר חקירת קטלוג של מנוע חיפוש משנת 97 (שנה וחצי לפני כתיבת המאמר) המאגר הכיל 200 מליון דפים (1 טרה-בייט) התייחסות רק לגרף הקישורים (התעלמות מהתכנים) חיפוש ליבות Ki,j (גרף דו-צדדי כיווני שלם) מהליבה קל למצוא את הקהילה המכילה אותה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 1: מציאת חובבים פוטנציאלים נדרוש שאתר חובב יכיל לפחות 6 קישורים לאתרים בשרתים אחרים קישורים באותו שרת נובעים לעיתים ממדיניות מרכזית של בעל השרת או משיקולים מסחריים ואינם קשורים לקהילה נמצאו 24 מליון חובבים (פוטנציאלים) שלב 2: היפטרות ממראות אתר שנשמר ב- 3 מראות ייצור ליבה מזויפת של K3,n הופעל אלגוריתם היפטרות ממראות אגרסיבי נותרו 10 מליון חובבים פוטנציאלים, וכ- 100 מליון מרכזים (אתרי תוכן פוטנציאלים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 3 – היפטרות מקהילות מוכרות ומבוססות מחיקת אתרים שדרגת הכניסה שלהם גדולה מ- 50 אתרים מוכרים המצויים כנראה במדריכים ברשת נותרו 2 מליון חובבים עם 60 מליון קישורים ל-20 מליון מרכזים שלב 4 – גזימה נשנית חיפוש עבור Ki,j מחיקת חובבים עם פחות מ- j קישורים יוצאים (ומרכזי תוכן עם פחות מ- i קישורים נכנסים) יישום אלגוריתמי שמאפשר עבודה יעילה בזיכרון ראשי המכיל חלק קטן מהקישורים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 5 – גזימת הכלה-הדחה בכל שלב מוחקים אתר או מוצאים ליבה חיפוש חובבים המוקשרים ל- j אתרי תוכן (בדיוק) האם החובב הוא חלק מליבה? האם יש i-1 חובבים אחרים המקושרים לאותם אתרי תוכן? השלבים הללו: לא מחקו אף ליבה (מבלי שנמצאה) ניתנים לבצוע ביעילות: זמן ריצה לינארי לגודל הקלט אתגרים אלגורתמים למנועי חיפוש ינואר 2004
# הקהילות שנמצאו בהכלה-הדחה # הקהילות שנמצאו בהכלה-הדחה התעלמות מקישורים בתוך השרת (כפתורי ניווט ו"נפוטיזם") סה"כ נמצאו 135 אלף קהילות בהכלה-הדחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מציאת שאר הקהילות לאחר כל השלבים נותרו 5 מליון קשתות בלבד הופעל אלגוריתם מלא לחיפוש תתי-גרפים כיווניים דו-צדדים מלאים נמצאו 75 אלף קהילות נוספות בשלב זה (סה"כ כ- 200 אלף קהילות) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
גדלי ליבות הקהילות שנמצאו בשלב האחרון אתגרים אלגורתמים למנועי חיפוש ינואר 2004
בחינת ליבות הקהילות שאותרו נדגמו אקראית 400 ליבות: 200 K3,3 ו- 200K3,5 נבדק כמה מהקהילות עדיין חיות (=כל אתרי החובבים עדיין קיימים) לאחר שנה וחצי? 70% מהקהילות חיות מסקנה: שרידות רבה לקהילות (זמן חיים ממוצע ברשת: עד ½ שנה) האם הליבות אכן מהוות קהילות? בדיקה ידנית העלתה ש- 96% מהליבות היוו קהילות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
בחינת ליבות הקהילות שאותרו קל לאלגוריתם חכם לגלות את הקהילות שמסביב לליבות ששרדו (תת-גרף דו-צדדי כיווני גדול יחסית וצפוף למדי) קיום הקהילות במדריכים: ב- 1997 רק 29% מהקהילות הוכלו (חלקית: לפחות אחד מאתרי הליבה) ב- yahoo ב- 1999 56% מהקהילות הוכלו (חלקית) ב- yahoo משמעות: שיטת החיפוש הביאה למציאת קהילות "נסתרות" רבות קהילות צעירות רבות התפתחו לקהילות מבוססות אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מגבלות שיטת Kumar 1999 השיטה הביאה למציאת קהילות יחסית קטנות (עשרות בודדות של אתרים) בעייה פתוחה: מציאת קהילות גדולות (מאות/אלפי קודקודים בגרף דו-צדדי צפוף למדי) צפוף למדי = שיעור קבוע ממספר הקשתות בגרף המלא לא ידועים אלגוריתמים יעילים (מהירות והעלאת חלק קטן מהגרף בכל פעם לזיכרון) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
טיוב תשובות בעזרת מטריצות ווקטורים עצמיים טיוב תשובות בעזרת מטריצות ווקטורים עצמיים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שאילתות כלליות ופרטניות שאילתא פרטנית דוגמאות: האם גרסא 5.5 של אינטרנט אקספלורר תומכת ב- http 1.1? מי הוא ראש מחלקת החינוך בעיריית פתח-תקווה? הבעיה: למצוא את מעט האתרים שעונים לשאילתא שאילתא כללית מציאת מידע על נושא כללי: תכנות ב- JAVA, פיזיקה ... מציאת מנועי חיפוש הבעיה: יש המון אתרים שעונים לשאילתא איך להחזיר למשתמש את הטובים ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004
תשובות מנועי חיפוש לשאילתא כללית (98) דוגמא: חיפוש אתרים של יצרני מכוניות מונחי החיפוש: automibile manufacturers החזרת אתרים המכילים את מונחי החיפוש תעדוף בין האתרים: כמות ומרכזיות הפעמים שהמונח מופיע באתר מדד לחשיבות הדף: כמות קישורים נכנסים או דירוג (page rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מנועי החיפוש לא מחזירים תשובות מיטביות לעיתים, אתרי חברות יצרני המכוניות אינן מכילות את המונח "automibile manufacturers" הפופולריות הכללית של האתר ברשת אינה מדד מיטבי לחשיבות שלו לאתר הבית של YAHOO פופולריות כללית רבה. חיפוש מונח שמופיע בו במקרה (נניח privacy), ידרג אותו גבוה מידי מדד משופר: הפופולריות בקרב בעלי העניין (בקהילת האתרים העוסקת בנושא הרלוונטי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
גישת Kleinberg (1999) לטיוב תשובות לשאילתות כלליות שיטה למתן מענה לשאילת חיפוש כללית קצת איטית יותר מתן תשובות רלוונטיות יותר: אתרים שזוכים להערכה בקהילת האתרים הרלוונטית אתרים הנחשבים למקור הסמכות (authorities) בתחום אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שלב 1: שורש ראשוני מציאת תת-גרף עם התכונות הבאות: קטן יחסית (אפשר להפעיל עליו אלגוריתמים ביעילות) עשיר באתרים רלוונטיים מכיל את מירב אתרי התוכן החשובים בתחום שורש ראשוני כ- 200 אתרים המכילים את מונחי החיפוש (בעזרת מנוע חיפוש רגיל) הבעיות בשורש: אינו מכיל חלק ניכר ממרכזי התוכן החשובים "חסר מבנה" לדוגמא 200 התשובות הראשונות ל-censorship הכילו רק 28 קישורים הדדיים (מתוך 200*199=38=9800 קישורים אפשריים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש שלב 2: הרחבת השורש לבסיס הוספה (בעזרת מנוע חיפוש סטנדרטי): כל הקישורים היוצאים מדפי השורש הוספת עד 50 קישורים נכנסים לכל אחד מדפי השורש התעלמות מקישורים בתוך השרת כפתורי ניווט, "נפוטיזם" הבסיס המתקבל: 5000-10,000 דפים מכיל את רוב מרכזי התוכן החשובים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
שלב 3: מציאת HUBS & Authorities ("חובבים" ומרכזי תוכן) חישוב 2 מדדים לכל דף: X(0) – HUBמדד Y(0) - Authorityמדד HUB טוב = הרבה קישורים יוצאים לסמכות הטובות (מרכזי תוכן) סמכות טובה = הרבה קישורים נכנסים מ- HUB טובים הסמכויות וה"האבים" עם הדירוג הכי גבוה ישמשו כתשובה לשאליתא הכללית אתגרים אלגורתמים למנועי חיפוש ינואר 2004
חישוב איטרטיבי של המדדים שיטת החישוב: ציון התחלתי Z זהה לכל האתרים (X0, Y0) חישוב Xn בעזרת Yn-1 חישוב Yn בעזרת Xn נרמול (סכום כל ה- Xi = 1) משפט: Xn, Yn מתכנסים הוכחה ומציאת הגבולות (X*, Y*) בעזרת אלגברה לינארית אתגרים אלגורתמים למנועי חיפוש ינואר 2004
מציאת הגבול למדדים (X*, Y*) תהי A מטריצת השכנויות של גרף הבסיס Aij=1 אם יש קישור מ= i ל- j טענה: מסקנה: Yk - וקטור יחידה בכיוון Xk - וקטור יחידה בכיוון אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש אלגברה לינארית M=AAT היא מטריצה סימטרית (וא-שלילית) יהי1 … n הע"ע של M המסודרים לפי הסדר נניח כי 2 < 1 (בערך מוחלט) יהי w1 הו"ע המתאים ל- 1 (ו"ע ראשי) משפטים מאלגברה לינארית: יהי v וקטור שאינו ניצב ל- w1, אזי Mk(v) מתכנס ל- w1 (כש –k שואף לאין-סוף) M א-שלילית -> w1 א-שלילי z אינו ניצב ל- w1, ולכן Yk= w1 ובצורה דומה גם Xk מתכנס אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש אלגברה לינארית - המשך מסקנות: דירוגי הסמכותיות וה"האביות" מתכנסים דירוג ה"סמכותיות" שווה לוקטור העצמי הראשי של AAT לכן ניתן למצוא את אתרי הסמכות הטובים ביותר, פשוט ע"י מציאת הו"ע הראשי AAT (ולחסוך את החישוב האיטרטיבי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
דוגמאות לתוצאות שיטת Kleinberg מילות החיפוש: search engine 5 האתרים עם דרגת סמכות הכי גבוהה: yahoo, Excite, Magellan. Lycos, Alta-Vista מילות החיפוש: censorship The electronic Frontier Foundation The BR campaign for free speech The Center for Democracy & Technology Voters Telecommunications Watch American Civil Liberties Union רבים מהאתרים לא הכילו את מילות החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004
בחינת יעילות שיטת Kleinberg נבחרו 26 מונחי חיפוש (כללייים) לכל נושא חיפשו 10 אתרים העוסקים בו ב- 3 שיטות: מנוע החיפוש Alatavista מדריך yahoo חיפוש ממוחשב (משוכלל יותר) המתבסס על שיטת Kleinberg 40 משתמשים דירגו כל אחד מהאתרים (כמה הם יכולים ללמוד ממנו על המושג) לרוב, החיפוש הממוחשב על בסיס שיטת Kleinberg סיפק את האתרים הטובים ביותר אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש התעלמות מכפילים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מה רע בעותקים כפולים? מוסיפים מעט מידע למשתמש תשובות זהות רבות לשאילתא הדף המבוקש "מתחבא" בערימת שחת מאגר גדול מידי הארכת זמן החיפוש קשיי ניהול אינדקס גדול (מיליארדי דפים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש מציאת מראות (mirrors) מציאת כפילים כללית דורשת משאבי חישוב רבים בעיה פשוטה יותר: מציאת מראות (שרתים כפולים): שני שרתים שמכילים בדיוק אותם דפים שיטה מוצעת (Bhart 2000): כל שרת מיוצג כסקיצה דוגמא: תת-קבוצה של URL או של קישורים פנימיים באתר בחירת סקיצה חכמה מאפשרת: השוואת סקיצות "זולה" (ביחס להשוואת שרתים) בסיכוי גבוה: סקיצות זהות -> אתרים זהים אתגרים אלגורתמים למנועי חיפוש ינואר 2004
אתגרים אלגורתמים למנועי חיפוש סיכום סקרנו בהרצאה מגוון בעיות פתוחות עכשוויות בתורת הגרפים: דגימה אחידה בגרף גדול מידול הרשת כגרף מקרי מציאת קהילות בגרף גדול (תתי גרפים דו-צדדיים צפופים) שימוש במטריצות לטיוב תשובות לשאילתות כלליות התעלמות מכפילים (duplicate hosts/pages) לבעיות אלו חשיבות רבה בחקר רשת האינטרנט וטיוב מנועי חיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004
התפלגות אמפירית של כמות קישורים נכנסים בגרף האינטרנט (1999) דרגת כניסה (log) שיפוע קצת מעל 2 שכיחות -log)) אתגרים אלגורתמים למנועי חיפוש ינואר 2004