Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.

Slides:



Advertisements
Similar presentations
SharePoint 2013 apps to be or not to be. Alexander Krupsky Artur Kukharevich.
Advertisements

Функциональные возможности электронной библиотеки ScienceDirect.
Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Поиск оптимального набора параметров оптимизаций компилятора Брусенцов Леонид Евгеньевич студент 4 курса ФИТ НГУ Руководители:Илья.
Система Антиплагиат.РГБ: результаты работы и новые возможности Десятая, юбилейная, международная научно-практическая конференция "ЭЛЕКТРОННЫЙ ВЕК КУЛЬТУРЫ"
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Системы отбора. Условные обозначения (1) (2) (3) (4) (5) (6) (7) Математическое моделирование процессов отбора2.
Елена Станиславовна Петрова Учитель-логопед высшей категории ГДОУ детский сад №47 комбинированного вида Фрунзенского района г. Санкт-Петербурга 2011 год.
ООО «Баркод Маркет».  Инвентаризация имущества – программная система, позволяющая организовать учет любого имущества компании.  Уменьшение неконтролируемых.
Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Научный руководитель: Б.А. Новиков.
R1R2R3R4R5R6R7R1R2R3R4R5R6R7. Аксиома R 1. В пространстве существуют плоскости. В каждой плоскости пространства выполняются все аксиомы планиметрии.
Можно выделить два подхода, на основе которых производится выбор посредника: 1.Аналитический, предполагающий осуществление выбора с использованием формул,
Тушин Александр, ЗАО «Компания Либэр». 1) Предоставление полнотекстовых материалов 2) Поиск по внутреннему содержанию документа 3) Доступность в режиме.
Влажность воздуха Урок физики 8 класс.
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Определение необходимого уровня запасов на складе.
О ПЫТ ОРГАНИЗАЦИИ КОНТРОЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ СТУДЕНТОВ И КАЧЕСТВА ОБУЧЕНИЯ НА БАЗЕ ЦЕНТРА ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ Ю ЖНОГО ФЕДЕРАЛЬНОГО УНИВЕРСИТЕТА.
Алексей Нелаев, ТюмГНГУ Улучшение технологии газовых МУН Научный руководитель : Сергей Грачев, Д. т. н., профессор, зав. Каф. « Разработки и эксплуатации.
Российский государственный педагогический университет им. А.И. Герцена ИНСТИТУТ ДОВУЗОВСКОЙ ПОДГОТОВКИ Дистанционное обучение «Русский язык. Подготовка.
1 OXFORD REFERENCE ONLINE: The Core Collection “Трудно представить хоть одну библиотеку или читателя, которые не сочли бы эту коллекцию полезной - It's.
Обзор последних достижений биометрических методов аутентификации РусКрипто 2005.
Translator Widget for Android Сергей Василинец, 345 группа Научный руководитель COO SPB Software Василий Филиппов.
Адаптивный метод распределения SPMD-заданий в грид Паньшенсков Михаил, 545 группа Научный руководитель: Лукичев А.С. Рецензент: Демьянович Ю.К июня.
Корпоративная филантропия
Контекстно- поведенческие технологии Михаил Козлов, директор по продуктам «Бегуна»
Erstmedia, , Москва, ул. Профсоюзная, 93А, офис (495) , Стратегия и тактика крупного бренда.
Ответы на вопросы 7 июля « Подготовка паспортов безопасности» тел: (495) Экологический Синтезирующий.
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
Инструменты AdWords Анна Минчук cертифицированный консультант по Google AdWords.
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Понятие риска применительно к инвестиционным проектам
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
Ось типа РУ1 Ось типа РУ1Ш.
ИНТЕРНЕТ И ПОИСК ИНФОРМАЦИИ В СЕТИ Интересное должно быть полезным, полезное должно стать интересным 2010 Автор проекта Смирнова Ф.М.
ЛЭТИ'20061 Семантическая классификация JPEG изображений Результаты экспериментального исследования.
Панель управления знаниями Knowledge Dashboards Сотрудничество THOMSON REUTERS и COLLEXIS Наталья Слащева Москва МГУДекабрь 2009.
Американские авиадиспетчеры По теме «Контрактная природа фирмы»
EDCWiki Electronic Document Circulation using wiki Система электронного документооборота на основе wiki Участники: Кузьмин К.А., Цыцулин В. И. Руководитель:
Лобанов Алексей Иванович Основы вычислительной математики Лекция 1 8 сентября 2009 года.
Микрофазное расслоение в расплаве двойных гребнеобразных сополимеров В.В. Палюлин Научный руководитель: д.ф.-м.н. Потемкин И.И.
Сервисы – специально для научных исследований:  Удаленный доступ и простой поиск, обеспечивающий быстрый доступ к нужной книге  Рефераты на каждую книгу.
Нахождение ориджинов в последовательности нуклеотидов Выполнил: Ромашкин Амир, 445 гр. Руководитель: Профессор АФТУ, Порозов Юрий.
День Святого Валентина в США
Ряды и произведения sum(expr, n=a..b), где expr – выражение, зависящее от индекса суммирования, a..b – пределы индекса суммирования, Если требуется вычислить.
Информационно-поисковые системы. Сычев А.В г.1 Классификация и кластеризация документов Воронежский государственный университет Факультет компьютерных.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Зарубежные издания В вашей библиотеке ™ SERVICE BY.
Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д. Соловьев Учебник Бишопа us/um/people/cmbishop/prml/
Сервис описания дискретных динамических систем на основе рекуррентных алгоритмов стохастической аппроксимации и подобных им Александр Вахитов научный руководитель.
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Математико-механический факультет Кафедра системного программирования Автоматизация выбора оптимальной.
Методы анализа данных. Статистическая проверка гипотез.
Разработка алгоритмов распознавания текста
Урок 1. Цветовые модели Нижегородский государственный университет им. Н.И. Лобачевского Факультет вычислительной математики и кибернетики Кафедра интеллектуальных.
МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ А.Ю. Каминская, Р.А. Магизов Научный руководитель – Д.И. Игнатов Государственный.
ПРЕДЛОЖЕНИЯ «АССОЦИАЦИИ ИНЖЕНЕРНЫЕ ИЗЫКАНИЯ В СТРОИТЕЛЬСТВЕ» (АИИС) ПО РЕФОРМИРОВАНИЮ СИСТЕМЫ «САМОРЕГУЛИРОВАНИЯ» В СТРОИТЕЛЬСТВЕ.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Сравнение подходов к индексированию XML документов c поддержкой некоторых операций модификации Выполнил: Василий Шикин, 545 группа Руководитель: Дмитрий.
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
Поддержка избыточного кодирования. Оптимизация, настройка и аппробация выбранного алгоритма под поставленную задачу. Оценка полученных результатов Мальчевский.
Автор в фокусе «Научное издание международного уровня : повышение качества и расширение присутствия в мировых информационных ресурсах» Москва, 21.
Writing Friendly Letters A Write On Activity. Friendly letters have five parts: 1. The Heading 2. The Salutation (greeting) 3. The Body (some paragraphs)
Выполнил студент П.А. Македонов Руководитель А.Ф. Усов Дипломная работа Тема: Разработка макетного образца генератора высоковольтных импульсов по схеме.
Т.В. Биренбаум Н.А. Качанова Подходы к формированию электронной библиотеки университета в условиях минимальных финансовых, материальных и трудовых ресурсов.
Внимание! Так как файлы с поддержкой макроса невозможно загрузить, необходимо через режим разработчика вставьте этот код (Файл-Параметры-Настройка Ленты-
Writing: Informal Letters
Решение типовых расчетных задач по формулам. Определение массовой доли элементов Массовая доля элемента ω(Э) % - это отношение массы данного элемента.
Presentation transcript:

Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова

Romip-base project | РОМИП, ad hoc РОМИП: Российский семинар по Оценке Методов Информационного Поиска [ Проводится с 2003 года Поиск по запросу [ad hoc], тематическая классификация, Кластеризация новостного потока, вопросно-ответный поиск… ad hoc: Поиск по запросу Оценка производится при помощи экспертов Коллекции документов: коллекция нормативных документов [legal] и коллекция narod.ru [web], смешанная коллекция

Romip-base project | Мотивация, Факторы Мотивация: Современные поисковые системы учитывают множество факторов для определения релевантных документов В течении гг. участникам РОМИП удалось значительно улучшить качество поиска: значительно превзойти «классическую» TF*IDF формулу Использовалось множество других факторов для определения итогового веса Полученные участниками результаты трудно или невозможно воспроизвести по описаниям Воспроизвести результаты — использовать те же факторы

Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: — относительной частоты встречаемости слов запроса в найденном документе; — относительной частоты встречаемости слов запроса в документах коллекции; — взаимного расположения слов; — близости слов запроса в документе; — использование морфологии при анализе текста; — выделение ключевых областей структурированных документов; — поиск пассажей запроса входящих целиком в документ или в одно предложение; — вхождение всех слов запроса в документ; — использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).

Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: + относительной частоты встречаемости слов запроса в найденном документе; + относительной частоты встречаемости слов запроса в документах коллекции; — взаимного расположения слов; + близости слов запроса в документе; + использование морфологии при анализе текста; — выделение ключевых областей структурированных документов; — поиск пассажей запроса входящих целиком в документ или в одно предложение; + вхождение всех слов запроса в документ; — использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).

Romip-base project | Исходные данные, Метрики Исходные данные: web- и legal- коллекции документов семинара РОМИП. Исходные документы и запросы были разобраны «на леммы» при помощи инструмента морфологического анализа, используемого в УИС РОССИЯ [ Запросы 2004/2005/2006 годов Метрики: average precision, 11-point matrix (TREC) Принятые ограничения: количество документов - 50, слабые требования к релевантности

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации Схема исследования: 1.Для каждого фактора* выбираем «лучшую» функцию (принадлежащую некоторому множеству) и вектор параметров 2.Последовательно увеличивая найти 3.Проверить формулу на другой коллекции/запросах

Romip-base project | TF*IDF TF*IDF: freq(d,t) – число вхождений леммы t в документ d docLen(d) – длина документа d в различных леммах df(t) – число документов коллекции в которые входит лемма t. Были также опробованы еще 2 варианта для TF*IDF,

Romip-base project | Пары слов Пары слов: где равняется, если леммы t и s входят в документ d на расстоянии не большем чем b (параметр алгоритма) и равняется нулю иначе – расстояние между леммами t и s в запросе В качестве p были опробованы 1+3 других варианта

Romip-base project | Учет всех слов – минимальное окно Минимальное окно: mv(d,Q) – размер минимального «окна» в документе d, содержащего все слова запроса Q |Q| - длина запроса Была также опробована формула:,

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: — весовая функция основанная на одном из факторов — вектор всевозможных параметров — скалярный коэффициент линейной комбинации Итоговая формула с учетом последовательно подобранных коэффициентов:

Romip-base project | 11-точечные графики,

, Сравнение результатов на коллекции legal-2004 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2005 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно

Romip-base project | 11-точечные графики, Сравнение результатов на коллекции web-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно

Romip-base project | Выводы Выводы: В данном исследовании удалось приблизить результаты на коллекции нормативных документов и коллекции narod.ru путем подбора оптимальных параметров небольшого числа факторов Для 2006 года – достичь результаты не удалось: pseudo- relevance feedback? Учет двух дополнительных факторов (пары слов, минимальное окно) позволяет улучшить классическую TF*IDF формулу При учете пар слов выгодно использовать слова из запроса находящиеся даже на большом расстоянии. В документе – не более чем через 2 слова

Romip-base project | ПО, Исходные коды и коллекции ПО и Исходные коды: Доступны по адресу romip-base.narod.ru Написаны на Java, используют MySQL для хранения коллекций Ждут вашего участия :) Коллекции: Доступны после согласования с оргкомитетом РОМИП’а Уже обработаны инструментом морфологического анализа, используемым в УИС РОСCИЯ Можно получить в виде DVD-диска Gb – необходимо, чтобы загрузить обе коллекции в MySQL