Download presentation
Presentation is loading. Please wait.
1
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова
2
Romip-base project | РОМИП, ad hoc РОМИП: Российский семинар по Оценке Методов Информационного Поиска [www.romip.ru] Проводится с 2003 года Поиск по запросу [ad hoc], тематическая классификация, Кластеризация новостного потока, вопросно-ответный поиск… ad hoc: Поиск по запросу Оценка производится при помощи экспертов Коллекции документов: коллекция нормативных документов [legal] и коллекция narod.ru [web], смешанная коллекция
3
Romip-base project | Мотивация, Факторы Мотивация: Современные поисковые системы учитывают множество факторов для определения релевантных документов В течении 2004-2006 гг. участникам РОМИП удалось значительно улучшить качество поиска: значительно превзойти «классическую» TF*IDF формулу Использовалось множество других факторов для определения итогового веса Полученные участниками результаты трудно или невозможно воспроизвести по описаниям Воспроизвести результаты — использовать те же факторы
4
Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: — относительной частоты встречаемости слов запроса в найденном документе; — относительной частоты встречаемости слов запроса в документах коллекции; — взаимного расположения слов; — близости слов запроса в документе; — использование морфологии при анализе текста; — выделение ключевых областей структурированных документов; — поиск пассажей запроса входящих целиком в документ или в одно предложение; — вхождение всех слов запроса в документ; — использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).
5
Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: + относительной частоты встречаемости слов запроса в найденном документе; + относительной частоты встречаемости слов запроса в документах коллекции; — взаимного расположения слов; + близости слов запроса в документе; + использование морфологии при анализе текста; — выделение ключевых областей структурированных документов; — поиск пассажей запроса входящих целиком в документ или в одно предложение; + вхождение всех слов запроса в документ; — использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).
6
Romip-base project | Исходные данные, Метрики Исходные данные: web- и legal- коллекции документов семинара РОМИП. Исходные документы и запросы были разобраны «на леммы» при помощи инструмента морфологического анализа, используемого в УИС РОССИЯ [www.cir.ru] Запросы 2004/2005/2006 годов Метрики: average precision, 11-point matrix (TREC) Принятые ограничения: количество документов - 50, слабые требования к релевантности
7
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации Схема исследования: 1.Для каждого фактора* выбираем «лучшую» функцию (принадлежащую некоторому множеству) и вектор параметров 2.Последовательно увеличивая найти 3.Проверить формулу на другой коллекции/запросах
8
Romip-base project | TF*IDF TF*IDF: freq(d,t) – число вхождений леммы t в документ d docLen(d) – длина документа d в различных леммах df(t) – число документов коллекции в которые входит лемма t. Были также опробованы еще 2 варианта для TF*IDF,
9
Romip-base project | Пары слов Пары слов: где равняется, если леммы t и s входят в документ d на расстоянии не большем чем b (параметр алгоритма) и равняется нулю иначе – расстояние между леммами t и s в запросе В качестве p были опробованы 1+3 других варианта
10
Romip-base project | Учет всех слов – минимальное окно Минимальное окно: mv(d,Q) – размер минимального «окна» в документе d, содержащего все слова запроса Q |Q| - длина запроса Была также опробована формула:,
11
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации
12
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации Итоговая формула с учетом последовательно подобранных коэффициентов:
13
Romip-base project | 11-точечные графики,
14
, Сравнение результатов на коллекции legal-2004 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2005 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно
15
Romip-base project | 11-точечные графики, Сравнение результатов на коллекции web-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно
16
Romip-base project | Выводы Выводы: В данном исследовании удалось приблизить результаты на коллекции нормативных документов и коллекции narod.ru 2004-2005 путем подбора оптимальных параметров небольшого числа факторов Для 2006 года – достичь результаты не удалось: pseudo- relevance feedback? Учет двух дополнительных факторов (пары слов, минимальное окно) позволяет улучшить классическую TF*IDF формулу При учете пар слов выгодно использовать слова из запроса находящиеся даже на большом расстоянии. В документе – не более чем через 2 слова
17
Romip-base project | ПО, Исходные коды и коллекции ПО и Исходные коды: Доступны по адресу romip-base.narod.ru Написаны на Java, используют MySQL для хранения коллекций Ждут вашего участия :) Коллекции: Доступны после согласования с оргкомитетом РОМИП’а Уже обработаны инструментом морфологического анализа, используемым в УИС РОСCИЯ Можно получить в виде DVD-диска 24.5+ Gb – необходимо, чтобы загрузить обе коллекции в MySQL
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.