Download presentation
Presentation is loading. Please wait.
1
A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi
2
A. Frank-T.Sharon 2 Contents מבוא למנועי חיפוש (Search Engines) מבוא לסוגי מנועי חיפוש מבוא לאיחזור מידע (Information Retrieval)
3
A. Frank-T.Sharon 3 When to start Searching?!
4
A. Frank-T.Sharon 4 Why Search Engines? מנוע חיפוש הוא משאב קריטי המאפשר חיפוש מידע ברשת. עם כמות המידע באינטרנט קשה לתארו ללא מנועי חיפוש. מכיוון שהמידע באינטרנט הוא דיגיטאלי יש יותר יכולת לחפש בו מאשר מה שאפשרי בחיפוש בספריה רגילה. בספריה, כשרוצים לחפש ספר, מקישים במסוף צרוף מילים ומוצאים את הספר ע " פ מחבר או שם הספר. מנועי חיפוש באינטרנט שונים בכך שהם מאפשרים לחפש גם בתוכן דפי האינטרנט ובכותרות של דפים, דבר אשר הופך אותם לכלי בעל עוצמה חזקה יותר. כמו כן הם לרוב מחפשים בכל האינטרנט - זה כמו חיפוש ספר בכל הספריות שקיימות בעולם.
5
A. Frank-T.Sharon 5 Search Literacy להיות מיומן בשימוש במנועי חיפוש זהו המפתח למציאת מידע באינטרנט. לעיתים משתמשים " ננעלים " על מנוע חיפוש הנוח להם ומשתמשים רק בו, לא פלא שאנו עדיין שומעים את המשפט הידוע " אי אפשר למצוא כלום ברשת "! החוכמה היא לשלב בצורה מושכלת בין מנועי החיפוש. ניתן למצוא את כל המידע שתרצו ( או לא ) באינטרנט - החוכמה היא לדעת לחפש.
6
A. Frank-T.Sharon 6 Basic Web Search Engines אחזור מידע (Information Search) - סיפוק שירותי חיפוש דרך מנשק חיפוש. איסוף מידע (Information Gathering) - אינדוקס משאבי רשת – בעיקר דפי Web. מנועי חיפוש בסיסיים משתמשים לרוב ברובוטים / זוחלים למיניהם : robots, crawlers, spiders, wanderers, ants
7
A. Frank-T.Sharon 7 Anatomy of a Web Search Engine מנועי חיפוש בסיסיים מורכבים מארבעה מרכיבים עיקריים : 1. האתר אליו נכנסים ובו מקישים את השאילתא. 2. מסד הנתונים של מידע - על בו נערך החיפוש הראשוני. 3. כלי התוכנה שבה משתמשים כדי לבצע את החיפוש. 4. רשימת התוצאות המוחזרת אל המשתמש. המונח “ מנוע חיפוש ” משמש לרוב לציון כל ארבעת המרכיבים האלו ביחד.
8
A. Frank-T.Sharon 8 Basic Web Search Engine database RetrievalGathering WWW AdministratorUsers Search Engine
9
A. Frank-T.Sharon 9 Crawlers Collecting Metadata אינטרנט Metadata מנועי חיפוש Metadata מידע על Metadata מידע על Metadata מידע על Metadata- מידע על
10
A. Frank-T.Sharon 10 אינטרנט SE Basic Data Structure: Inverted File מנוע חיפוש מילת מפתח 1 מילת מפתח 2 מילת מפתח 3
11
A. Frank-T.Sharon 11 Search is done on Local SE Repository Search Engine מילת מפתח 1 מילת מפתח 2 מילת מפתח 3 URL1 URL2... URL3 URL1 URL4 חפש מילות מפתח החזר רשימת כתובות משתמשים
12
A. Frank-T.Sharon 12 There are many search engines
13
A. Frank-T.Sharon 13 Common Types of Search Engines Basic Search Engines/Index –assembled by software -- automated "spiders" or softbots. Directory/Guide –Hierarchical list of subject categories -- assembled by people (“humanly-compiled”). Meta-Search Engines –Uses several basic search engines in parallel. Special(ty) Search Engines/Tools –Dedicated to a focused domain/community/media. Popularity Search Engines –Use popularity link/usage analysis. Portals - Almost all, lately?! There are also combinations of the above!
14
A. Frank-T.Sharon 14 Examples of Search Engines Basic Search Engines –Webcrawler, AltaVista,WebcrawlerAltaVista Directory/Guide –Yahoo, LooksmartYahooLooksmart Meta-Search Engines –Hotbot, MetacrawlerHotbotMetacrawler Special(ty) Search Engines/Tools –Usenet, WhowhereUsenetWhowhere Popularity Search Engines –Google, DirectHitGoogleDirectHit Portals –Yahoo, MSNYahooMSN
15
A. Frank-T.Sharon 15 Basic/Popular Search Engines Fast: www.alltheweb.comwww.alltheweb.com Google: www.google.comwww.google.com AltaVista: www.altavista.comwww.altavista.com Northern Light: www.nlsearch.comwww.nlsearch.com Webcrawler: www.webcrawler.comwww.webcrawler.com
16
A. Frank-T.Sharon 16 Directories Yahoo dir.yahoo.comdir.yahoo.com DirectHit: www.directhit.comwww.directhit.com Looksmart www.looksmart.comwww.looksmart.com
17
A. Frank-T.Sharon 17 Meta-Search Engines Metacrawler: www.metacrawler.comwww.metacrawler.com HotBot: hotbot.lycos.comhotbot.lycos.com AskJeeves: www.askjeeves.comwww.askjeeves.com DogPile: www.dogpile.comwww.dogpile.com
18
A. Frank-T.Sharon 18 Special(ty) Search Engines/Tools People - http://www.whowhere.comhttp://www.whowhere.com Newsgroups - http://groups.google.com/http://groups.google.com/ International Index for Search Engines - http://www.searchenginecolossus.com http://www.searchenginecolossus.com Educational Study Guide - http://www.studyweb.com http://www.studyweb.com Geneology - http://www.familysearch.orghttp://www.familysearch.org
19
A. Frank-T.Sharon 19 Contributions to a SE database עכבישים / רובוטים - בעצם תוכנות אינדוקס. שליחת / הכנסת מענים (URLs) על ידי משתמשים / בעלי - אתרים. הכנסה ע " י צוותי העובדים במנועי החיפוש.
20
A. Frank-T.Sharon 20 Maintenance of Search Engines זמינות/יעילות מנועי חיפוש תלויים באחזקה שלהם. מנועים אלו רצים על מחשבים חזקים ולעיתים רבות מורכבים ממספר מחשבים הפועלים בו-זמנית, כך שניתן "לכבות" אחד מהמנועים ע"מ לבצע אחזקה והמשתמש לא ירגיש דבר. לדוגמא: yahoo הוא לא מנוע יחיד. כאשר המשתמש מגיע לאתר http://www.yahoo.com הוא מגיע לאחד ממחשבים רבים וכאשר הוא מבצע רענון (refresh) הוא אוטומטית עובר למחשב אחר.http://www.yahoo.com
21
A. Frank-T.Sharon 21 Query Types Natural Language Logical/Boolean –(a OR b) AND c Statistical –list of keywords –perform statistical formulation to guess how much a document fits the query.
22
A. Frank-T.Sharon 22 Query Keywords Analysis Morphological analysis (dog, dogs) Stemming (identifying stem/root) Stop words removal (of, the) http://searchenginewatch.com/facts/article.php/2156061 http://searchenginewatch.com/facts/article.php/2156061 Used both for Boolean and Statistical queries!
23
A. Frank-T.Sharon 23 The Process of Searching - Retrieval User need User request (verbalized) Query to SE Results
24
A. Frank-T.Sharon 24 The Process of Searching – Retrieval Problems User need User request (verbalized) Query to SE Results Translation problems Polysemy Synonymy Problems
25
A. Frank-T.Sharon 25 Retrieval Example – Why don’t the users get what they want? User need User request (verbalized) Query to SE Results Translation problems Polysemy Synonymy Example I need to get rid of mice in the basement What’s the best way to trap mice alive? Mouse trap Computer supplies software, etc Problems
26
A. Frank-T.Sharon 26 AltaVista Output: mouse trap
27
A. Frank-T.Sharon 27 AltaVista Output: mice trap
28
A. Frank-T.Sharon 28 Another Problem: Quality
29
A. Frank-T.Sharon 29 Information Retrieval Measures בהינתן שאילתא, איך מעריכים את איכות האחזור (Retrieval Quality)? יש 2 מדדים בסיסיים : 1. החזר (Recall) – מדד למספר המסמכים הרלוונטיים שהוחזרו מתוך כלל המסמכים הרלוונטיים הקיימים. 2. דיוק (Precision) – מדד למספר המסמכים שהוחזרו שהם רלוונטיים.
30
A. Frank-T.Sharon 30 Information Retrieval Measures Recall = RR/Relevant החזר = כל המסמכים הרלוונטיים שהוחזרו / כל המסמכים הרלוונטיים הקיימים. Precision = RR/Returned דיוק = כל המסמכים הרלוונטיים שהוחזרו / כל המסמכים שהוחזרו. Retrieved (Ret) Resource s RR Relevant Returned
31
A. Frank-T.Sharon 31 Example: Recall and Precision in Random Case גודל המאגר - 10,000 דפים. מספר הדפים הרלוונטיים - 200 דפים. מספר הדפים שהוחזרו - 100. מספר הדפים הרלוונטיים שהוחזרו - 50 דפים. החזר - 50/200 = 0.25 דיוק - 50/100 = 0.5
32
A. Frank-T.Sharon 32 Recall and Precision when Retrieving all Documents גודל המאגר - 10,000 דפים. מספר הדפים הרלוונטיים - 200 דפים. מספר הדפים שהוחזרו - 10,000. מספר הדפים הרלוונטיים שהוחזר - 200 החזר - 200/200 = 1 דיוק - 200/10,000 = 0.02
33
A. Frank-T.Sharon 33 Precision and Recall Tradeoff דיוק החזר 0 1 1
34
A. Frank-T.Sharon 34 SE Comparison Parameters Database size and coverage Specialty searches (directory, shopping, news, images, papers, etc.) User interface Searching options (+,-,NEAR, and/or, etc.) Ranking quality Personalization options: –Save search –Portal content –Email services –Toolbars Others (paid placements, etc.)
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.