Download presentation
Presentation is loading. Please wait.
1
Linguistic tools Лекция 5
2
ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е)
3
Orville James Nave (1841-1917)
7
Информационный поиск INFORMATION RETRIEVAL (IR) Поиск неструктурированных данных (обычно текстовых документов), в которых находится нужная информация в больших коллекциях/корпусах (обычно хранятся в компьютерах)
8
1950 – библиотечное дело 1952 г Кельвин Муерс: information retrieval 1990- WWW Google > 8 млрд страниц –Яндекс 6 млн страниц, 2,5 млн сайтов
9
Архитектура поисковой системы Робот ( краулер, спайдер, индексатор) Базы данных Клиент (обработка запроса)
10
ЗАПРОС Логический запрос 1=true 0= false Булевская модель поиска
11
Manning & Raghavan 2005
12
ЗАПРОС: Brutus AND Caesar NOT Calpurnia
14
Для больших коллекций матрица невозможна Инвертированный индекс ( запоминаем только вхождения, но не их отсутствия) Записи отсортированы по словам
16
Индексирование Документы Токенизация Лемматизация Индексатор
17
ИНДЕКСАТОР: шаг 1 Пара (слово, ID документа)
18
Индексатор: шаг 2 СОРТИРОВКА !
19
Индексатор: шаг 3 Вхождения в один и тот же документ объединяются Добавляются сведения о частоте
20
ОБРАБОТКА ЗАПРОСА POINTER
21
1.Двигаемся одновременно по двум рядам пойнтеров. 2.На каждом шаге сравниваем оба пойнтера. 3.Если они равны – то это искомое пересечение. 4.Если они не равны, то двигаем меньший. ОБРАБОТКА ЗАПРОСА
22
Оптимизация обработки запросов Начинай с наименее частотного (почему?) Частота двух терминов объединенных оператором OR может быть примерно оценена как сумма частот каждого
23
упражнение
24
Оценка качества поиска Релевантность –Полнота (recall) R –Точность (precision) P Точность P = a/a+c Полнота R = a/ a+b F мера = (p+r)/ 2pr документывыданныеневыданные релевантныеac нерелевантныеbd
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.