אתגרים אלגוריתמיים למנועי חיפוש

Slides:



Advertisements
Similar presentations
Web Search – Summer Term 2006 VI. Web Search - Ranking (cont.) (c) Wolfgang Hürst, Albert-Ludwigs-University.
Advertisements

CSE 522 – Algorithmic and Economic Aspects of the Internet Instructors: Nicole Immorlica Mohammad Mahdian.
Architecture of the 1st Google Search Engine SEARCHER URL SERVER CRAWLERS STORE SERVER REPOSITORY INDEXER D UMP L EXICON SORTERS ANCHORS URL RESOLVER (CF.
Sigir’99 Inside Internet Search Engines: Fundamentals Jan Pedersen and William Chang.
1 CS 502: Computing Methods for Digital Libraries Lecture 16 Web search engines.
1 ETT 429 Spring 2007 Microsoft Publisher II. 2 World Wide Web Terminology Internet Web pages Browsers Search Engines.
ISP 433/633 Week 7 Web IR. Web is a unique collection Largest repository of data Unedited Can be anything –Information type –Sources Changing –Growing.
1 ICS 215: Advances in Database Management System Technology Spring 2004 Professor Chen Li Information and Computer Science University of California, Irvine.
1 Our Web Part 0: Overview COMP630L Topics in DB Systems: Managing Web Data Fall, 2007 Dr Wilfred Ng.
Technology Guide 51 Information Technology For Management 4 th Edition Turban, McLean, Wetherbe Lecture Slides by A. Lekacos, Stony Brook University John.
Internet Research Search Engines & Subject Directories.
Search Engines and Metasearch Engines From Dr. Gene Jonjsma.
What are search engines? Tools used for locating web pages Automated software programs known as spiders or bots to survey the Web and build their databases.
SEARCH ENGINE By Ms. Preeti Patel Lecturer School of Library and Information Science DAVV, Indore E mail:
How Search Engines Work. Any ideas? Building an index Dan taylor Flickr Creative Commons.
Web Crawling David Kauchak cs160 Fall 2009 adapted from:
Net Search Engines The Which, Why and How Tim Landeck Handouts/PowerPoint available at:
Technology Guide 5 The Internet & the Web.
Using a Web Browser What does a Web Browser do? A web browser enables you to surf the World Wide Web. What are the most popular browsers?
Courtney Forsmann IT Help Desk Manager Lewis-Clark State College October 1, 2014.
Promotion & Cataloguing AGCJ 407 Web Authoring in Agricultural Communications.
Web Searching Basics Dr. Dania Bilal IS 530 Fall 2009.
WHAT IS A SEARCH ENGINE A search engine is not a physical engine, instead its an electronic code or a software programme that searches and indexes millions.
Search Engine Marketing Gay, Charlesworth & Esen Chapter 6.
Week 3 LBSC 690 Information Technology Web Characterization Web Design.
Link Analysis on the Web An Example: Broad-topic Queries Xin.
Search engines are the key to finding specific information on the vast expanse of the World Wide Web. Without sophisticated search engines, it would be.
Search Engine Optimization 101 What is SEM? SEO? How can I use SEO on my blogs and/or my personal web space?
McLean HIGHER COMPUTER NETWORKING Lesson 7 Search engines Description of search engine methods.
Multimedia & The World Wide Web winny HCI 201 Multimedia and the www.
Search Engine Marketing SEM = Search Engine Marketing SEO = Search Engine Optimization optimizing (altering/changing) your page in order to get a higher.
TODAY’S Lesson   Searching on the Internet . VOCABULARY  Search Engine  Web site  Spider  String/Indexer  Server  Link  Boolean  Query.
Internet Basics How Search Engines Work?. Internet Search Engines  Special sites on the web to find information stored on other sites Key words Index.
Hypersearching the Web, Chakrabarti, Soumen Presented By Ray Yamada.
Searching the World Wide Web: Meta Crawlers vs. Single Search Engines By: Voris Tejada.
Chapter 1 Getting Listed. Objectives Understand how search engines work Use various strategies of getting listed in search engines Register with search.
The World Wide Web. What is the worldwide web? The content of the worldwide web is held on individual pages which are gathered together to form websites.
By Pamela Drake SEARCH ENGINE OPTIMIZATION. WHAT IS SEO? Search engine optimization (SEO) is the process of affecting the visibility of a website or a.
How Web Database Architectures Work CPS181s April 8, 2003.
Information Retrieval (9) Prof. Dragomir R. Radev
Setting up a search engine KS 2 Search: appreciate how results are selected.
A s s i g n m e n t W e e k 7 : T h e I n t e r n e t B Y : P a t r i c k O b i s p o.
Web Crawling and Automatic Discovery Donna Bergmark March 14, 2002.
Uploading Web Page  It would be meaningful to share your web page with the rest of the net user.  Thus, we have to upload the web page to the web server.
Week-6 (Lecture-1) Publishing and Browsing the Web: Publishing: 1. upload the following items on the web Google documents Spreadsheets Presentations drawings.
Search Engine and Optimization 1. Introduction to Web Search Engines 2.
+ GOOGLEGOOGLE ANAS AL-JEFRY SULTAN AL-SAAD. + Why Google? In 2010, Google made $
1 Chapter 5 (3 rd ed) Your library is an excellent resource tool. Your library is an excellent resource tool.
SEARCH ENGINE by: by: B.Anudeep B.Anudeep Y5CS016 Y5CS016.
Internet Searching How many Search Engines are there? What is a spider and how is it important to the Internet? What are the three main parts of a search.
CIW Lesson 6 Web Search Engines.
7CCSMWAL Algorithmic Issues in the WWW
Internet.
Web Design/Internet Essentials
Search Engines & Subject Directories
WIRED Week 2 Syllabus Update Readings Overview.
Search Engine 101 Qu, Miao Nov
ما الذي يريد صاحب العمل أن يعرفه؟
شبكة الانترنت العالمية
Computer Networks and Internet
Anatomy of a search engine
ثانيا :أدوات البحث عبر الانترنت
What is a Search Engine EIT, Author Gay Robertson, 2017.
Agenda What is SEO ? How Do Search Engines Work? Measuring SEO success ? On Page SEO – Basic Practices? Technical SEO - Source Code. Off Page SEO – Social.
Search Engines & Subject Directories
Search Engines & Subject Directories
Search Engines and Searching the Web
Searching the Internet
Information Retrieval and Web Design
Digital Libraries IS479 Ranking
Presentation transcript:

אתגרים אלגוריתמיים למנועי חיפוש בעיות פתוחות עכשוויות בתורת גרפים הקשורות לחקר ולפיתוח מנועי חיפוש באינטרנט יובל הלר, ינואר 2004 הסתברות על גרפים, אוניברסיטת ת"א אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש רקע האינטרנט - הגרף הגדול והחשוב בעולם מנועי חיפוש: אמצעי מרכזי לגלישה ברשת שימוש במנועי חיפוש בארה"ב (ינואר 03, נילסן): 100 מליון משתמשים קבועים 50 מליון שעות חיפוש פוטנציאל עצום: מסחרי: YAHOO 30B$, GOOGLE – 10-20B$ מדעי: מקור מידע עיקרי לחוקרים רבים בעיות חשובות: יישומית: חקר הרשת ופיתוח מנועי חיפוש תיאורטית: תורת הגרפים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש תוכן מנועי חיפוש (רקע) דגימת דפים ברשת דגימה אחידה בגרף גדול להשגת דגימה אחידה מידול הרשת כגרף מקרי מציאת קהילות חבויות מציאת תתי גרפים דו-צדדיים צפופים בתוך גרף כיווני גדול טיוב תשובות בעזרת מטריצות וערכים עצמיים Algorithmic Challenges in Web Search Engines (M. Henzinger, 2003, Internet mathematics journal) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש גדלי מנועי החיפוש זמן חיפוש אופייני (google) – 0.2 שניות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מנועי חיפוש ובעיותיהם זוחל (crawler, spider) מלקט דפים חדשים (ושינויים בקיימים) לקטלוג איך למנוע אפליות ו"חורים שחורים"? מקטלג (indexer) בונה אינדקס נוח לחיפוש של הדפים שלוקטו איך להיפטר מכפילים? מטפל בשאילתות (query handler) עונה לשאילתות חיפוש בעזרת האינדקס איך לבחור מבין אלפי תשובות את הטובות ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש דגימת אתרים ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש הכרת תכונות הרשת שאלות לא ידועות על הרשת: כמה דפים יש ברשת? כמה מתוכם מקוטלגים ע"י מנועי החיפוש? מה האורך הממוצע של דף ברשת? מה אחוז הדפים העוסקים במדע? כתובים בסינית? התשובות חשובות לחקר הרשת בנוסף, חשיבות למפתחי הזוחלים: השוואת הדפים שהזוחל הגיע אליהם לכלל הדפים גילוי אפליות ו"חורים שחורים" טיוב ה"זוחלים" המענה לשאלות: דגימה אקראית של דף ברשת אתגרים אלגורתמים למנועי חיפוש ינואר 2004

דגימה אקראית (אחידה) של אתרים ברשת דגימה אקראית (אחידה) של אתרים ברשת נבחן שתי שיטות: בחירה אקראית של כתובות IP (Lawrence & Giles) מהלך מקרי ושקלול עיוותי page Rank אתגרים אלגורתמים למנועי חיפוש ינואר 2004

בחירה אקראית של כתובות IP Lawrence & Giles (פברואר 99) 2564 (כ- 4 מיליארד) כתובות IP אפשריות לשרתים (web servers) קל לדגום באקראי כתובות IP ולאמוד את כמות השרתים נבדקו 4 מליון כתובות, כ- 0.4% מתוכן הכילו שרת מסקנה: יש 3 מליון שרתים החוקרים בחרו באקראי 2500 שרתים, מיפו את כל הדפים בתוכם והעריכו: יש 800 מליון דפים ברשת רק 30% מתוכם מקוטלגים במנועי החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מגבלות שיטת Lawrence & Giles לו יכלנו לסרוק את כל הדפים בשרתים אקראיים, היינו מקבלים דגימה אחידה של דף ברשת לא ידועה שיטה יעילה לסריקת כל הדפים בשרת גדול הסתמכות על "סריקה ידנית" של מעט שרתים עלולה להטעות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שיטת Henzinger et al. (2000) מהלך מקרי ברשת ובניית מאגר הדפים שביקרנו בהם הערכת הדירוג (פופולריות) של דפי המאגר כמה קישורים נכנסים לדף משקל יתר לקישורים מדפים עם דירוג גבוה דגימת דפים מהמאגר בהסתברות הפוכה לדירוג שלהם אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מהלך מקרי על גרף מכוון קשיר מהלך "הגולש השיכור": לרוב, בוחר באקראי קישור שיוצא מהדף הנוכחי לעיתים רחוקות (15% d ) נמאס מהגלישה, בחירת דף אקראי באינטרנט להתחלת גלישה חדשה בטווח הארוך, מה הסיכוי שהגולש יבקר בדף מסוים? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מהלך מקרי ופונקציית הדירוג סיכוי הביקור פרופורציוני ל- R(p) (page rank): סימונים: T = גודל הגרף (מס' הדפים=קודקודים) P1, …, pn = הדפים המקושרים לתוך p C(pi) = מס' הקישורים היוצאים מ- pi אתגרים אלגורתמים למנועי חיפוש ינואר 2004

למה צריך את d15% (פרמטר הסיכוך) היחלצות ממבוי סתום ומלולאות סגורות מאפשר חישוב איטרטיבי קצר של R(p): ערך התחלתי (נניח 1) לכל דף שינוי R(p) בהתאם לדירוגי האתרים המקושרים אליו חזרה עשרות בודדות של פעמים מביאה להתכנסות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

תכונות פונקציית הדירוג (הזנחת הסיכוך) דף מחלק את הדירוג שלו לדפים אליהם הוא מקושר דף מקבל דירוג גבוה אם מקושרים אליו: הרבה דפים דפים עם דירוג גבוה טענה: יש מתאם חיובי בין דפים עם דירוג גבוה לדפים שמשתמשים מחשיבים כערכיים (כתשובות מיטביות לשאילתא כללית) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

היסטוריית פונקציית הדירוג הומצאה ב- 1998 ע"י Brin & Page יישום במנוע החיפוש החדש Google: סיבה מרכזית בהפיכתו למנוע הפופולרי בעולם אתגרים אלגורתמים למנועי חיפוש ינואר 2004

ביצוע מהלך מקרי על גרף הרשת התחלה מזרע (seed) התחלתי קטן כ- 10,000 אתרים שנבחרו באקראי ממהלכים מקריים קודמים ברשת ביצוע מהלך "גולש שיכור" מקורב בחירת דף אקראי (בסיכוי d) מהדפים שבהם ביקרנו עד כה (+ זרע התחלתי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש דגימה בתהפלגות אחידה הסתברות הביקור בדף פרופורציונית לדירוג שלו דגימת הדפים שביקרנו בהם ביחס הפוך לדירוג, נותנת התפלגות (בקירוב) אחידה איך נעריך את הדירוג האמיתי של הדפים? חישוב הדירוג בתת הגרף שנדגם (page rank) מדידת שכיחות הביקורים בדף במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש הטיה לרעת דפים "נדירים" המהלך המקרי יבקר בשיעור זעום של דפים עם דירוג נמוך שיידגמו ב"פוקס" דף שנדגם במהלך יקבל הערכה גבוהה מידי לדירוג כתוצאה מכך, הטייה לרעת דגימת אתרים "נדירים" (אתרים עם דירוג נמוך) המגבלה המרכזית של השיטה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

המחשת ההטייה: כדים עם כדורים ממוספרים המחשת ההטייה: כדים עם כדורים ממוספרים דימוי ה"מהלך המקרי": 10,000 פעמים בוחרים באקראי כד ומוציאים באקראי כדור (עם החזרות) הערכת יתר לדירוג הכדורים הכחולים שנדגמו הטיה לרעתם (הדגימה ביחס הפוך להערכת הדירוג) # כדורים # דגימות אמת 1,000,000 100 מדגם 5,000 הסתברות הביקור בכדור 1/2,000,000 1/200 מדגם (VR) 1/10,000 אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מגבלות נוספות לשיטה הטייה התחלתית (בגלל ה- seed) תלות בין דפים שנדגמים חזרה על לולאות קצרות קפיצות אקראיות (בשיעור d) מתבצעות רק לאתרים שכבר נדגמו דגימה אחידה של דפים ברשת נותרה בעיה פתוחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מידול הרשת כגרף אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מידול הרשת כגרף מקרי אמפירית, לגרף הרשת יש מבנה ייחודי, לדוגמא: כמות הקישורים מאתר אקראי מתפלגת לפי חוק חזקה: הרבה אתרים עם מעט קישורים מעט אתרים עם הרבה קישורים גם דירוג האתרים מתפלג ע"פ חוק חזקה כמות גדולה של גרפי Ki,j (דו-צדדיים שלמים) איזה מודל של גרף מקרי ידמה תכונות אלו? מודל G(n,p): כמות הקשתות מתפלגת בינומית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מה התועלת במידול כגרף מקרי? "סימולציה" לאינטרנט בחינת אלגורתמים ב"מגרש משחקים" (הגרף המקרי), על-מנת להעריך את היעילות הצפויה ברשת בדיקה ישירה איטית/יקרה/קשה מידי גילוי תכונות נוספות של הרשת יכולת לחזות את מבנה הרשת בעתיד אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) תזכורת למודל ביצוע מהלך מקרי על גרף הרשת ובניית מאגר לדפים שהלכנו בהם הערכת הדירוג (page rank) של כל הדפים במאגר דגימת דפים בהסתברות הפוכה לדירוג שלהם נבחן בגרף מקרי עד כמה ההתפלגות המתקבלת אחידה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש גרף מקרי פשטני לבחינת יעילות אלגוריתם דגימת אתרים Henzinger et al. (2000) בניית גרף לדימוי ההתפלגות האמפירית של הקישורים היוצאים ברשת: התפלגות קשתות ע"פ חוק חזקה אמפירי: קשתות יוצאות (בתחום 5..20) P(k)=1/k2.38 קשתות נכנסות (בתחום 5..18) 1P(k)=1/k2. התאמת מספר הקשתות היוצאות והנכנסות התאמה אקראית של דרגות לקודקודים חיבור אקראי בין הקודקודים לפי הדרגות התקבל גרף עם 10 מליון קודקודים וכ- 80 מליון קשתות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

בחינת יעילות אלגוריתם הדגימה בניית רשת html סינטטית מהגף המקרי וזחילה בה הזוחל ביקר וקטלג 850,000 אתרים שונים מתוכם נדגמו 2000 אתרים ב- 3 התפלגויות: אחידה הפוכה ל- 2 ההערכות לדירוג האמיתי: דירוג בקטלוג (page rank) שיעור הביקורים במהלך המקרי (visit rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שיעור הדגימה כתלות בכמות הקשתות היוצאות (out-degree) כצפוי, אין תלות בין כמות הקשתות היוצאות לשיעור הדגימה בכל השיטות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שיעור הדגימה כתלות בכמות הקשתות הנכנסות (in-degree) הטייה לרעת דפים עם page rank נמוך שימוש ב- page rank מקטין את ההטייה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שיעור הדגימה כתלות בדירוג (האמיתי) של הדף שיעור הדגימה כתלות בדירוג (האמיתי) של הדף תוצאה דומה לקשתות הנכנסות (שימוש ב- page rank מקטין את ההטיה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

גרף אקראי מורכב יותר (Klienberg at al. 1999) אתרים חדשים נוטים להעתיק קישורים יוצאים של אתרים קיימים העוסקים בנושאים דומים איך נוכל למדל זאת? האם זה מסביר את המבנה הייחודי של הרשת? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

המודל: גרף דינמי עם 4 תהליכים אקראיים יצירת/הרס קודקוד באקראי ובאופן ב"ת הרס קודקוד מוחק את כל הקשתות הנכנסות אליו תיאום קצבי יצירה/הרס לקבלת גידול אקספוננטיילי מתאים יצירת קשתות בוחרים באקראי קודקוד ומספר k של קשתות להוסיף לו רוב () יוצרי האתרים (מעתיקנים): מעתיקים את הקשתות מקודקוד אקראי w היתר (1- ): יוצרים קשתות באקראי (מקוריים) הרס קשתות: באקראי אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש תכונות הגרף המקרי סימולציות וניתוחים סטטיסטיים על הגרף מגלים תכונות דומות לרשת: חוקי חזקה לדרגת היציאה ולדרגת הכניסה של הקודקודים חוקי חזקה לדירוג (page rank) של קודקודים שיעור הולם של גרפים דו צדדיים מלאים Ki,j אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים פתוחים – מידול הרשת כגרף לרשת תכונות נוספות שטרם הצליחו למדל אותן לדוגמא תכונת השרתים (hosts): כל דף שייך לשרת 75% מהקישורים הם לדפים אחרים בשרת אם ניצור גרף שרתים (איחוד כל הקודקודים השייכים לאותו שרת) נקבל גרף שדרגת קודקודיו מצייתת גם לחוק החזקה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים מציאת קהילות ברשת בעזרת תתי גרפים דו-צדדיים צפופים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

קהילות ברשת Krumar at al 1999 ב- 1999 הרשת הכילה כמה אלפי קהילות מבוססות דוגמאות: חובבי ליגת NBA, אספני בולים מצויות במדריכי החיפוש (directories) וקיימת מודעות לקיומן במקביל, קיימים ברשת מאות אלפי קהילות צעירות דוגמאות: ארגוני סטודנטים טורקים בארה"ב, חובבי הזמר היפני האקירו שינה לא מצויות כללי במדריכי הרשת לעיתים, חברי הקהילה עדיין לא מודעים לקיומן אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש למה לחפש קהילות צעירות? מידע חשוב, אמין ומעודכן לאדם המתעניין בנושא שמאגד קהילה חדשה לרוב, הנושא אינו מצוי במקורות המידע המקובלים תובנות על סוציולוגיית והתפתחות הרשת גילוי הקהילות מאפשר פרסום מאוד ממוקד קהילות צעירות נוטות לשרוד ולגדול (יותר מאתרים אחרים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מה כוללת קהילה (ניתוח גרפי) קבוצת אתרי חובבים (hubs) החולקים עניין משותף קבוצת מרכזי תוכן (authorities) המספקים מידע ערכי על הנושא תת גרף דו-צדדי כיווני צפוף: קישורי צד המקור = החובבים קישורי צד היעד = מרכזי התוכן אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מה כוללת קהילה (ניתוח גרפי) טענה מתמטית: יהי גרף מקרי דו-צדדי עם L קודקודי מקור, R קודקודי יעד ו- m קשתות. אזי קיימים I, j כך שבסיכוי גבוה R מכיל תת-גרף דו-צדדי שלם Ki,j דוגמא: L=R=10, m=50, בסיכוי 99% קיים K5,5 היפותיזה על הרשת: תת-גרף דו-צדדי אקראי גדול וצפוף מספיק מכיל בסיכוי גבוה גרף דו-צדדי כיווני שלם (שייקרא הליבה) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שיטת חיפוש הקהילות במאמר חקירת קטלוג של מנוע חיפוש משנת 97 (שנה וחצי לפני כתיבת המאמר) המאגר הכיל 200 מליון דפים (1 טרה-בייט) התייחסות רק לגרף הקישורים (התעלמות מהתכנים) חיפוש ליבות Ki,j (גרף דו-צדדי כיווני שלם) מהליבה קל למצוא את הקהילה המכילה אותה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 1: מציאת חובבים פוטנציאלים נדרוש שאתר חובב יכיל לפחות 6 קישורים לאתרים בשרתים אחרים קישורים באותו שרת נובעים לעיתים ממדיניות מרכזית של בעל השרת או משיקולים מסחריים ואינם קשורים לקהילה נמצאו 24 מליון חובבים (פוטנציאלים) שלב 2: היפטרות ממראות אתר שנשמר ב- 3 מראות ייצור ליבה מזויפת של K3,n הופעל אלגוריתם היפטרות ממראות אגרסיבי נותרו 10 מליון חובבים פוטנציאלים, וכ- 100 מליון מרכזים (אתרי תוכן פוטנציאלים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 3 – היפטרות מקהילות מוכרות ומבוססות מחיקת אתרים שדרגת הכניסה שלהם גדולה מ- 50 אתרים מוכרים המצויים כנראה במדריכים ברשת נותרו 2 מליון חובבים עם 60 מליון קישורים ל-20 מליון מרכזים שלב 4 – גזימה נשנית חיפוש עבור Ki,j מחיקת חובבים עם פחות מ- j קישורים יוצאים (ומרכזי תוכן עם פחות מ- i קישורים נכנסים) יישום אלגוריתמי שמאפשר עבודה יעילה בזיכרון ראשי המכיל חלק קטן מהקישורים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שיטת חיפוש הקהילות שלב 5 – גזימת הכלה-הדחה בכל שלב מוחקים אתר או מוצאים ליבה חיפוש חובבים המוקשרים ל- j אתרי תוכן (בדיוק) האם החובב הוא חלק מליבה? האם יש i-1 חובבים אחרים המקושרים לאותם אתרי תוכן? השלבים הללו: לא מחקו אף ליבה (מבלי שנמצאה) ניתנים לבצוע ביעילות: זמן ריצה לינארי לגודל הקלט אתגרים אלגורתמים למנועי חיפוש ינואר 2004

# הקהילות שנמצאו בהכלה-הדחה # הקהילות שנמצאו בהכלה-הדחה התעלמות מקישורים בתוך השרת (כפתורי ניווט ו"נפוטיזם") סה"כ נמצאו 135 אלף קהילות בהכלה-הדחה אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מציאת שאר הקהילות לאחר כל השלבים נותרו 5 מליון קשתות בלבד הופעל אלגוריתם מלא לחיפוש תתי-גרפים כיווניים דו-צדדים מלאים נמצאו 75 אלף קהילות נוספות בשלב זה (סה"כ כ- 200 אלף קהילות) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

גדלי ליבות הקהילות שנמצאו בשלב האחרון אתגרים אלגורתמים למנועי חיפוש ינואר 2004

בחינת ליבות הקהילות שאותרו נדגמו אקראית 400 ליבות: 200 K3,3 ו- 200K3,5 נבדק כמה מהקהילות עדיין חיות (=כל אתרי החובבים עדיין קיימים) לאחר שנה וחצי? 70% מהקהילות חיות מסקנה: שרידות רבה לקהילות (זמן חיים ממוצע ברשת: עד ½ שנה) האם הליבות אכן מהוות קהילות? בדיקה ידנית העלתה ש- 96% מהליבות היוו קהילות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

בחינת ליבות הקהילות שאותרו קל לאלגוריתם חכם לגלות את הקהילות שמסביב לליבות ששרדו (תת-גרף דו-צדדי כיווני גדול יחסית וצפוף למדי) קיום הקהילות במדריכים: ב- 1997 רק 29% מהקהילות הוכלו (חלקית: לפחות אחד מאתרי הליבה) ב- yahoo ב- 1999 56% מהקהילות הוכלו (חלקית) ב- yahoo משמעות: שיטת החיפוש הביאה למציאת קהילות "נסתרות" רבות קהילות צעירות רבות התפתחו לקהילות מבוססות אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מגבלות שיטת Kumar 1999 השיטה הביאה למציאת קהילות יחסית קטנות (עשרות בודדות של אתרים) בעייה פתוחה: מציאת קהילות גדולות (מאות/אלפי קודקודים בגרף דו-צדדי צפוף למדי) צפוף למדי = שיעור קבוע ממספר הקשתות בגרף המלא לא ידועים אלגוריתמים יעילים (מהירות והעלאת חלק קטן מהגרף בכל פעם לזיכרון) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

טיוב תשובות בעזרת מטריצות ווקטורים עצמיים טיוב תשובות בעזרת מטריצות ווקטורים עצמיים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שאילתות כלליות ופרטניות שאילתא פרטנית דוגמאות: האם גרסא 5.5 של אינטרנט אקספלורר תומכת ב- http 1.1? מי הוא ראש מחלקת החינוך בעיריית פתח-תקווה? הבעיה: למצוא את מעט האתרים שעונים לשאילתא שאילתא כללית מציאת מידע על נושא כללי: תכנות ב- JAVA, פיזיקה ... מציאת מנועי חיפוש הבעיה: יש המון אתרים שעונים לשאילתא איך להחזיר למשתמש את הטובים ביותר? אתגרים אלגורתמים למנועי חיפוש ינואר 2004

תשובות מנועי חיפוש לשאילתא כללית (98) דוגמא: חיפוש אתרים של יצרני מכוניות מונחי החיפוש: automibile manufacturers החזרת אתרים המכילים את מונחי החיפוש תעדוף בין האתרים: כמות ומרכזיות הפעמים שהמונח מופיע באתר מדד לחשיבות הדף: כמות קישורים נכנסים או דירוג (page rank) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מנועי החיפוש לא מחזירים תשובות מיטביות לעיתים, אתרי חברות יצרני המכוניות אינן מכילות את המונח "automibile manufacturers" הפופולריות הכללית של האתר ברשת אינה מדד מיטבי לחשיבות שלו לאתר הבית של YAHOO פופולריות כללית רבה. חיפוש מונח שמופיע בו במקרה (נניח privacy), ידרג אותו גבוה מידי מדד משופר: הפופולריות בקרב בעלי העניין (בקהילת האתרים העוסקת בנושא הרלוונטי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

גישת Kleinberg (1999) לטיוב תשובות לשאילתות כלליות שיטה למתן מענה לשאילת חיפוש כללית קצת איטית יותר מתן תשובות רלוונטיות יותר: אתרים שזוכים להערכה בקהילת האתרים הרלוונטית אתרים הנחשבים למקור הסמכות (authorities) בתחום אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שלב 1: שורש ראשוני מציאת תת-גרף עם התכונות הבאות: קטן יחסית (אפשר להפעיל עליו אלגוריתמים ביעילות) עשיר באתרים רלוונטיים מכיל את מירב אתרי התוכן החשובים בתחום שורש ראשוני כ- 200 אתרים המכילים את מונחי החיפוש (בעזרת מנוע חיפוש רגיל) הבעיות בשורש: אינו מכיל חלק ניכר ממרכזי התוכן החשובים "חסר מבנה" לדוגמא 200 התשובות הראשונות ל-censorship הכילו רק 28 קישורים הדדיים (מתוך 200*199=38=9800 קישורים אפשריים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש שלב 2: הרחבת השורש לבסיס הוספה (בעזרת מנוע חיפוש סטנדרטי): כל הקישורים היוצאים מדפי השורש הוספת עד 50 קישורים נכנסים לכל אחד מדפי השורש התעלמות מקישורים בתוך השרת כפתורי ניווט, "נפוטיזם" הבסיס המתקבל: 5000-10,000 דפים מכיל את רוב מרכזי התוכן החשובים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

שלב 3: מציאת HUBS & Authorities ("חובבים" ומרכזי תוכן) חישוב 2 מדדים לכל דף: X(0) – HUBמדד Y(0) - Authorityמדד HUB טוב = הרבה קישורים יוצאים לסמכות הטובות (מרכזי תוכן) סמכות טובה = הרבה קישורים נכנסים מ- HUB טובים הסמכויות וה"האבים" עם הדירוג הכי גבוה ישמשו כתשובה לשאליתא הכללית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

חישוב איטרטיבי של המדדים שיטת החישוב: ציון התחלתי Z זהה לכל האתרים (X0, Y0) חישוב Xn בעזרת Yn-1 חישוב Yn בעזרת Xn נרמול (סכום כל ה- Xi = 1) משפט: Xn, Yn מתכנסים הוכחה ומציאת הגבולות (X*, Y*) בעזרת אלגברה לינארית אתגרים אלגורתמים למנועי חיפוש ינואר 2004

מציאת הגבול למדדים (X*, Y*) תהי A מטריצת השכנויות של גרף הבסיס Aij=1 אם יש קישור מ= i ל- j טענה: מסקנה: Yk - וקטור יחידה בכיוון Xk - וקטור יחידה בכיוון אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש אלגברה לינארית M=AAT היא מטריצה סימטרית (וא-שלילית) יהי1 … n הע"ע של M המסודרים לפי הסדר נניח כי 2 < 1 (בערך מוחלט) יהי w1 הו"ע המתאים ל- 1 (ו"ע ראשי) משפטים מאלגברה לינארית: יהי v וקטור שאינו ניצב ל- w1, אזי Mk(v) מתכנס ל- w1 (כש –k שואף לאין-סוף) M א-שלילית -> w1 א-שלילי z אינו ניצב ל- w1, ולכן Yk= w1 ובצורה דומה גם Xk מתכנס אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש אלגברה לינארית - המשך מסקנות: דירוגי הסמכותיות וה"האביות" מתכנסים דירוג ה"סמכותיות" שווה לוקטור העצמי הראשי של AAT לכן ניתן למצוא את אתרי הסמכות הטובים ביותר, פשוט ע"י מציאת הו"ע הראשי AAT (ולחסוך את החישוב האיטרטיבי) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

דוגמאות לתוצאות שיטת Kleinberg מילות החיפוש: search engine 5 האתרים עם דרגת סמכות הכי גבוהה: yahoo, Excite, Magellan. Lycos, Alta-Vista מילות החיפוש: censorship The electronic Frontier Foundation The BR campaign for free speech The Center for Democracy & Technology Voters Telecommunications Watch American Civil Liberties Union רבים מהאתרים לא הכילו את מילות החיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

בחינת יעילות שיטת Kleinberg נבחרו 26 מונחי חיפוש (כללייים) לכל נושא חיפשו 10 אתרים העוסקים בו ב- 3 שיטות: מנוע החיפוש Alatavista מדריך yahoo חיפוש ממוחשב (משוכלל יותר) המתבסס על שיטת Kleinberg 40 משתמשים דירגו כל אחד מהאתרים (כמה הם יכולים ללמוד ממנו על המושג) לרוב, החיפוש הממוחשב על בסיס שיטת Kleinberg סיפק את האתרים הטובים ביותר אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש התעלמות מכפילים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מה רע בעותקים כפולים? מוסיפים מעט מידע למשתמש תשובות זהות רבות לשאילתא הדף המבוקש "מתחבא" בערימת שחת מאגר גדול מידי הארכת זמן החיפוש קשיי ניהול אינדקס גדול (מיליארדי דפים) אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש מציאת מראות (mirrors) מציאת כפילים כללית דורשת משאבי חישוב רבים בעיה פשוטה יותר: מציאת מראות (שרתים כפולים): שני שרתים שמכילים בדיוק אותם דפים שיטה מוצעת (Bhart 2000): כל שרת מיוצג כסקיצה דוגמא: תת-קבוצה של URL או של קישורים פנימיים באתר בחירת סקיצה חכמה מאפשרת: השוואת סקיצות "זולה" (ביחס להשוואת שרתים) בסיכוי גבוה: סקיצות זהות -> אתרים זהים אתגרים אלגורתמים למנועי חיפוש ינואר 2004

אתגרים אלגורתמים למנועי חיפוש סיכום סקרנו בהרצאה מגוון בעיות פתוחות עכשוויות בתורת הגרפים: דגימה אחידה בגרף גדול מידול הרשת כגרף מקרי מציאת קהילות בגרף גדול (תתי גרפים דו-צדדיים צפופים) שימוש במטריצות לטיוב תשובות לשאילתות כלליות התעלמות מכפילים (duplicate hosts/pages) לבעיות אלו חשיבות רבה בחקר רשת האינטרנט וטיוב מנועי חיפוש אתגרים אלגורתמים למנועי חיפוש ינואר 2004

התפלגות אמפירית של כמות קישורים נכנסים בגרף האינטרנט (1999) דרגת כניסה (log) שיפוע קצת מעל 2 שכיחות -log)) אתגרים אלגורתמים למנועי חיפוש ינואר 2004