Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.

Slides:



Advertisements
Similar presentations
Quintura – Поиск по Сайту Для веб-издателей Посетители Тезисы Задачи издателя Рекламодатели Веб-издатели Как это работает Стоимость Контакты.
Advertisements

 Overview  Smart Scan  Predicate Filtering  Column Projection  Join Filtering  Storage Indexes  Hybrid Columnar Compression  Flash Cache.
ЗАРЯДКА НА АНГЛИЙСКОМ ЯЗЫКЕ.  Зарядка на уроке английского языка может стать самым любимым и веселым занятием для детей, при том, что она проходит исключительно.
Астрометрические каталоги К.В.Куимов, ГАИШ МГУ. Определение астрометрического каталога Астрометрический каталог – понятие неопределённое. Например, это.
ROSES – новое слово в поиске Поисковый комплекс для корпоративного использования с широкими возможностями или Как пользоваться накопленными знаниями без.
1С-Битрикс: Управление сайтом Универсальный программный продукт для разработки, поддержки и успешного развития интернет-проекта.
Workflow.albetty.com Создание документа и проведение его по пути обработки мебельного заказа.
Система Антиплагиат.РГБ: результаты работы и новые возможности Десятая, юбилейная, международная научно-практическая конференция "ЭЛЕКТРОННЫЙ ВЕК КУЛЬТУРЫ"
Расторгуев А.C., 545 группа Научный руководитель: Пименов А.А. Рецензент: ст. преп. Смирнова Е.А.
Евгений Переформулировки поисковых запросов в Яндексе Трофименко Евгений сЭо-эксперт
Шестакова Дана 10 город. Яндекс-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является седьмой.
Астащенко Александр, 445 группа Научный руководитель: В.Г.Шистеров.
Тел. (495) Москва, а/я 212 Рабочая группа по реформе МВД Москва, 2010 Новикова Асмик, Фонд «Общественный вердикт»
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
Услуги КА «Personnel Group» Наши преимущества Сферы бизнеса Взаимодействие с Заказчиком Технологии поиска кандидатов Гарантии и сроки выполнения заказа.
ПРОФИЛЬ КОМПАНИИ SAP. ©2010 SAP AG. Все права защищены. / Стр. ‹#› ШТАТ КОМПАНИИ SAP НАСЧИТЫВАЕТ СЕГОДНЯ СОТРУДНИКОВ ПО ВСЕМУ МИРУ.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
АВДАШЕВА СВЕТЛАНА КАФЕДРА ЭКОНОМИЧЕСКОГО АНАЛИЗА ОРГАНИЗАЦИЙ И РЫНКОВ 2011/2012 УЧЕБНЫЙ ГОД Теория отраслевых рынков (по выбору для 3 курса факультета.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Поиск грузов и транспорта для перевозки. Онлайн CRM-система для перевозчиков и грузовладельцев. АвтоГиТ — интернет-портал грузоперевозок.
Липецк Рынок прямых инвестиций Сделки слияния и поглощения (M&A) – В 2010 году в России совершено 872 сделки M&A общим объемом $55,6 млрд. – За.
Разработка программного обеспечения (Software Engineering) Часть 2. Создание ПО.
Разработка геоинформационной системы (ГИС) для системы телекоммуникаций (СТ) «Ботик» Кузнецов А.А., Гумин М.В. ИПС РАН, Переславль-Залесский 2004.
Михаил Налётов Активные продажи на сайте. Может ли ваш сайт работать еще эффективнее?
Инструменты AdWords Анна Минчук cертифицированный консультант по Google AdWords.
1 Ребенок в Сети. Ребенок играет?
Сопоставление полигональных объектов на основе независимой фрагментации контуров Выполнил: Ю. М. Плотников Научный руководитель: канд. ф.-м. наук К. В.
Деревья курс «Алгоритмы и структуры данных» Отделение Программной инженерии.
ИНТЕРНЕТ И ПОИСК ИНФОРМАЦИИ В СЕТИ Интересное должно быть полезным, полезное должно стать интересным 2010 Автор проекта Смирнова Ф.М.
Создание экспериментального стенда для оценки методов поиска изображений по содержанию Выполнила: Теплых М. А. Научный руководитель: Васильева Н. С. Рецензент:
"The European Molecular Biology Open Software Suite"
EDCWiki Electronic Document Circulation using wiki Система электронного документооборота на основе wiki Участники: Кузьмин К.А., Цыцулин В. И. Руководитель:
Император Николай II """"Быть может, необходима искупительная жертва для спасения России: я буду этой жертвой- да свершится воля Божия!"
Деревья и их представление в STL Презентацию подготовила Чиркова Ольга, 2 подгруппа, группа 271ПИ.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Информационно-поисковые системы. Сычев А.В г.1 Классификация и кластеризация документов Воронежский государственный университет Факультет компьютерных.
Распределение патентов по тематике «Контроль за воздушным пространством» и МПК = G01S1 или G01S5 и набором ключевых слов (+air+ or +navigat+ or +space+)
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Анализ и Проектирование качественных приложений Презентация по книге Крэга Лармана.
HTTP – протокол и CGI. Запросы и ответы Запрос = Строка-Статус *(Общий-Заголовок | Заголовок- Запроса | Заголовок-Содержания ) CRLF [ Содержание-Запроса.
Web of Science на платформе ISI Web of Knowledge: современный взгляд на исследования Январь 2011 Павел Касьянов, Региональный представитель.
Геоинформационные системы Чернышов Алексей Акимович.
Филологические ресурсы для образования и исследований КОНЭК - ОМСК 2006.
Как найти последовательность, кодирующую Ваш белок? Как найти последовательность ДНК, кодирующую Ваш белок: – Ссылки из белковых баз данных – Прямой поиск.
ВВЕДЕНИЕ В ВЫЧИСЛИТЕЛЬНУЮ МАТЕМАТИКУ Лекция 5 6 октября 2009 ВЫЧИСЛИТЕЛЬНАЯ ЛИНЕЙНАЯ АЛГЕБРА.
Принципы работы ИПС Тема 2. Использование обратных индексов.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Хобби-мастерская рисунки на асфальте Подготовили: Коваленко Денис и Кульбарисова Саша.
LINGUISTIC TOOLS ЛИНГВИСТИЧЕСКИЕ ИНСТРУМЕНТЫ Лекция 1.
Сравнение подходов к индексированию XML документов c поддержкой некоторых операций модификации Выполнил: Василий Шикин, 545 группа Руководитель: Дмитрий.
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
Евгений Эволюция алгоритмов Яндекса и методов исследований: новые возможности анализа Трофименко Евгений сЭо-эксперт
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
«Отгадай символы Рождества»
Microsoft TechDayshttp:// Александр Шаповал Эксперт по стратегическим технологиям
R E F R I G E R A T I O N A N D A I R C O N D I T I O N I N G Блок мониторинга и централизованного управления АK-SM 350.
Phonetics [Ʌ] luck, number, trouble, touch, under [Əu] don’t, clover, moment, [ai] spider, magpie, white, Friday Don't trouble trouble until trouble troubles.
Board Games. KnowWant to knowLearnt jigsawpuzzle adominoesyrw cfeukoloased hdscrabbleja eetashiefyjr sfmarblesaet sokbilliards ybackgammonu.
Автор в фокусе «Научное издание международного уровня : повышение качества и расширение присутствия в мировых информационных ресурсах» Москва, 21.
NoSQL. 4. Что такое NoSQL 2 НЕ SQL 3 Не только RDBMS (ACID)! 4.
Человеко-машинное взаимодействие Лекция 6 Мерзлякова Екатерина Юрьевна к.т.н. доцент ПМиК.
What do you think of popular thing?
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Захватывающее предложение по организации игры «Мафия» для event-агентств наши клиенты: тел.: сайт: (495)
Захватывающее предложение по организации игры «Мафия» для event-агентств наши клиенты: тел.: сайт: (495)
‘For and Against’ Essays Useful tips. Plan Introduction - Paragraph 1 (state topic – summary of the topic without giving your opinion) Main Body – Paragraph.
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
Урок-сказка по математике в 5 классе.
Сортировка, поиск и фильтрация данных в базе данных и выборках
Presentation transcript:

Linguistic tools Лекция 5

ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е)

Orville James Nave ( )

Информационный поиск INFORMATION RETRIEVAL (IR) Поиск неструктурированных данных (обычно текстовых документов), в которых находится нужная информация в больших коллекциях/корпусах (обычно хранятся в компьютерах)

1950 – библиотечное дело 1952 г Кельвин Муерс: information retrieval WWW Google > 8 млрд страниц –Яндекс 6 млн страниц, 2,5 млн сайтов

Архитектура поисковой системы Робот ( краулер, спайдер, индексатор) Базы данных Клиент (обработка запроса)

ЗАПРОС Логический запрос 1=true 0= false Булевская модель поиска

Manning & Raghavan 2005

ЗАПРОС: Brutus AND Caesar NOT Calpurnia

Для больших коллекций матрица невозможна Инвертированный индекс ( запоминаем только вхождения, но не их отсутствия) Записи отсортированы по словам

Индексирование Документы  Токенизация  Лемматизация  Индексатор

ИНДЕКСАТОР: шаг 1 Пара (слово, ID документа)

Индексатор: шаг 2 СОРТИРОВКА !

Индексатор: шаг 3 Вхождения в один и тот же документ объединяются Добавляются сведения о частоте

ОБРАБОТКА ЗАПРОСА POINTER

1.Двигаемся одновременно по двум рядам пойнтеров. 2.На каждом шаге сравниваем оба пойнтера. 3.Если они равны – то это искомое пересечение. 4.Если они не равны, то двигаем меньший. ОБРАБОТКА ЗАПРОСА

Оптимизация обработки запросов Начинай с наименее частотного (почему?) Частота двух терминов объединенных оператором OR может быть примерно оценена как сумма частот каждого

упражнение

Оценка качества поиска Релевантность –Полнота (recall) R –Точность (precision) P Точность P = a/a+c Полнота R = a/ a+b F мера = (p+r)/ 2pr документывыданныеневыданные релевантныеac нерелевантныеbd