Источники данных в задачах классификации запросов Хоруженко Марина.

Slides:



Advertisements
Similar presentations
Tambov Instrument-making college The Complex Object Has executed by the teacher of English language Gorbacheva Irina Igorevna 2012.
Advertisements

Subculture. The Beatles -Yesterday Yesterday all my troubles seemed so far away Now it looks as though they're here to stay Oh I believe in yesterday.
What does it mean? Year 7, unit 1, lesson Ex. 1, p.17. Listen to the children and answer the questions of the exercise. 2. Ex 2, p.17. Do the exercise,
Every Day! 1.Every day I put on my socks Every day 2.Every day
ЗАРЯДКА НА АНГЛИЙСКОМ ЯЗЫКЕ.  Зарядка на уроке английского языка может стать самым любимым и веселым занятием для детей, при том, что она проходит исключительно.
Парламентские библиотеки: прошлое и будущее Присцилла Бэйнз Директор Библиотеки, Палата общин, Санкт-Петербург, октябрь 2004 г.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Схема распределения грантов городам-участникам программы Тасис (TCAS) Экологические гранты для муниципалитетов.
Валентин Петрович Катаев Вспомните, на какие желания Женя израсходовала лепестки цветика- семицветика?
Тел. (495) Москва, а/я 212 Рабочая группа по реформе МВД Москва, 2010 Новикова Асмик, Фонд «Общественный вердикт»
Рекламные технологии будущего уже здесь Как доказать соответствие Dentsu Way российскому рынку. Dentsu Group Russia Москва, Декабрь
Некомпенсаторное агрегирование и рейтингование студентов Авторы: Гончаров Алексей Александрович, Чистяков Вячеслав Васильевич. НФ ГУ ВШЭ 2010 год.
ПРИНЦИПЫ РАЗРАБОТКИ СИСТЕМЫ КЛАССА LEARNING MANAGEMENT SYSTEM И ОПЫТ ЕЕ ИСПОЛЬЗОВАНИЯ НА ФАКУЛЬТЕТЕ МЕНЕДЖМЕНТА Афанасьева С.В. Кафедра бизнес-информатики.
Всевоволод Головизнин, MVC – паттерн проектирование, в котором бизнес - логика, управляющая логика и интерфейс разделены на три отдельных компонента.
Bank ownership and lending behavior Alejandro Micco, Ugo Panizza Politicians and banks: Political influences on government-owned banks in emerging markets.
Беритесь, ребята, Скорей за работу. Учитесь считать, Чтоб не сбиться со счёту.
АВДАШЕВА СВЕТЛАНА КАФЕДРА ЭКОНОМИЧЕСКОГО АНАЛИЗА ОРГАНИЗАЦИЙ И РЫНКОВ 2011/2012 УЧЕБНЫЙ ГОД Теория отраслевых рынков (по выбору для 3 курса факультета.
Учитель математики Кулакова Т.М. МОУ ООШ №15 г.о Новокуйбышевск Самарской области Сентябрь 2011г.
Преподаватель: Арутюнова Е. В. (ст.преп.) Выполнила: студентка 1 курс ФЖ Манаенкова Елена Москва, 2010.
Что за хулиган толкает пассажиров автобуса то вперед, то назад? Этот хулиган, вернее, хулиганка -
Типология характеров по Фрейду
ООП Классы – 2. Ссылки Ссылка – еще одно имя объекта. Используйте ссылки вместо указателя. Это более безопасно. Complex c(10,10); Complex c2& = c; c2+=10;
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Контекстно- поведенческие технологии Михаил Козлов, директор по продуктам «Бегуна»
Erstmedia, , Москва, ул. Профсоюзная, 93А, офис (495) , Стратегия и тактика крупного бренда.
1 Генерация контекстных ограничений для баз данных Выполнил: Жолудев В. Научный руководитель: Терехов А.Н. Рецензент: Иванов А.Н.
Михаил Налётов Активные продажи на сайте. Может ли ваш сайт работать еще эффективнее?
Инструменты AdWords Анна Минчук cертифицированный консультант по Google AdWords.
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Сравнение различных методов хранения XML в реляционных базах данных и в разных системах. Нгуен Тхань Хуен- 545 группа Руководитель : Б.А. Новиков Рецензент:
1 Ребенок в Сети. Ребенок играет?
Снегурочка «Здравствуйте, ребята! Пишет вам Снегурочка. Мне бы хотелось рассказать, как вы можете стать волшебни- ками. Это совсем нетрудно, просто нужно.
"The European Molecular Biology Open Software Suite"
Формантный синтезатор речи. Часть 1. Полюсы и нули – иное понимание Полюс – это пара чисел (B, F), B – ширина форманты, F – частота форманты Нуль – это.
Сервисы – специально для научных исследований:  Удаленный доступ и простой поиск, обеспечивающий быстрый доступ к нужной книге  Рефераты на каждую книгу.
Напишите предложения. 2. Наташа / читать / книга. 3. Борис / понимать / Джеймс. 4. Он / знать / Дима. 5. Вы / учить / физика. 6. Он / спрашивать / учитель.
Кураева Екатерина Анатольевна, заместитель директора по УВР, учитель математики сш № 29.
Маршрут, цепь, цикл Маршрутом называют последовательность вершин и ребер, в которой любые два соседних элемента инцидентны (т.е. соединены). Например:
ЛЮБЛЮ ПРИРОДУ РУССКУЮ. ОСЕНЬ.
Формализованы ли цели? Устраивает ли вас команда? Каковы этапы процесса? Изменение ИТ структуры? Нужны подрядчики? 1.
У В К « Н а р н и я » Г. Одесса НЕ ТАЛАНТЛИВЫХ ДЕТЕЙ НЕ БЫВАЕТ.
9 октября 2004 Поиск статических изображений по содержанию: использование текстового запроса Наталья Васильева
Хобби-мастерская рисунки на асфальте Подготовили: Коваленко Денис и Кульбарисова Саша.
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
Учитель Антонова О.Я. Учитель Антонова О.Я. Зерноградская поликлиника.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
XML Схемы XML документов. XML Schema созданая Microsoft позволяет избавиться от DTD блоков. Основа – использование пространств имен и очень точная типизация.
The Everyday Classroom Routines (классно-обиходная лексика для тех, кто читает лекции на английском языке) Tazina K.A Ph. D. in Pedagogy Senior Teacher.
What schools are there in your country
ПРИЛОЖЕНИЕ для урока-праздника “St. Patrick’s Day”. Show me the Scotchman who doesn’t love the thistle, Show me the Englishman who doesn’t love the roses,
Автомобильные гонки появились 150 лет тому назад. Я очень люблю быструю езду и хочу стать гонщиком. Поэтому расскажу о видах автогонок. Сейчас многие.
Phonetics [Ʌ] luck, number, trouble, touch, under [Əu] don’t, clover, moment, [ai] spider, magpie, white, Friday Don't trouble trouble until trouble troubles.
Student: Mayer Anastasia 10 “a” form Tutor: Vaskova Natalya Petrovna MOU Comprehensive school №2.
Writing Friendly Letters A Write On Activity. Friendly letters have five parts: 1. The Heading 2. The Salutation (greeting) 3. The Body (some paragraphs)
Полина, (Ш,ш)арик, Маршак, Петрович Найдите среди них лишнее, ориентируясь на их значение. Прочитайте слова.
Алгебра логики это раздел математики, изучающий высказывания, рассматриваемые со стороны их логических значений (истинности или ложности) и логических.
Pronouns tests. I. Use pronouns instead of the nouns 1. (friends) At Christmas … often give Mary presents. 4. (the bird) … is singing lovely. 2. (Mary)
Tamara I.Leontieva Lectures on Translation Theory Department of Cross-cultural Communication and Translation Study Foreign Languages Center Vladivostok.
«Февраль – месяц метелей и вьюг. Слова, отвечающие на вопросы «какой?», «какая?» Интегрированный урок для 1 класса (русский язык, окружающий мир) Касатина.
What do you think of popular thing?
Презентация к уроку « FOOD» для 3 класса МБОУ СОШ № 8 Г. Пушкино Учитель английского языка Власова Н.Ю.
MY HOUSE ( FLAT ) Дом квартира. REPEAT AFTER ME: [w]- wall, wardrobe, window [e]- bed, shelf [ð]- the, that, there [r]- there is, there are [ ǝ u]- home,
День матери МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Учреждение образования «Гомельский Государственный университет имени Франциска Скорины» Выполнили:
FAMILIES AND FRIENDS: ARE WE HAPPY TOGETHER?. HOLIDAYS ARE A TIME FOR ADVENTURES AND DISCOVERIES.
Tense review Passive Voice. Его телеграмма пришла, когда я выходил из дома. His telegram came when I was leaving the house. Вчера я купил часы, так как.
Захватывающее предложение по организации игры «Мафия» для event-агентств наши клиенты: тел.: сайт: (495)
Jokes Jokes Jokes Teacher: Where's your text book? Student: At home. Teacher: What's it doing there? Student: Having a.
TREASURE ISLAND CHAPTER 1 to keep nothing back he used to sing the shanty company of his own kind ничего не скрывать когда-то он пел матросские песни.
Presentation transcript:

Источники данных в задачах классификации запросов Хоруженко Марина

Обзор доклада Что такое классификация запросов? Типы источников данных Классификация на примере цитатных запросов Классификация на примере навигационных запросов

Что такое классификация? Объединяем в классы запросы, которые имеют определённые признаки. Признаками может быть что угодно: - тема - типы - кластеризация по сессиям - частотность - длина - и т.п. Запросы разбиваются на классы ради чего-то. Иногда не имеет смысла создавать универсальную модель «ради науки», а следует решать конкретные задачи.

Источники данных Сами запросы «Мы все учились понемногу чему-нибудь и как- нибудь» - интуитивно подозреваем, что это цитата. Даже если бы мы не знали этого заведомо. Внешние данные «пижама всем» - не зная, что есть такой сайт, трудно представить, что это навигационный запрос. Источники этого знания находятся вне запроса.

Цитатные запросы: обзор Определяем, что такое для нас цитата Создаём модель: - придумываем гипотезы-признаки - используем machine learning - убираем неэффективные гипотезы Оцениваем результаты Попробуем классифицировать запросы без использования внешних знаний

Цитаты: придумываем гипотезы Созерцаем: каравай-каравай кого хочешь выбирай Не уходи из сна моего. Сейчас ты так хорошо улыбаешься, эй моряк ты слишком долго плавал изгиб гитары желтой ты обнимаешь нежно в поте лица твоего будешь есть хлеб свой я знаю я буду лететь безумной вспышкой и снова вижу где-то там вдали, летят с печальным криком журавли теряю контроль над собой, когда ты улыбаешься Скажи мне, что это всё не сон! Ты мне обязательно должна рассказать, как твоим родителям удалось сделать тебя такой прекрасной. Я тоже хочу попробовать. - Закрой глаза... ой нет открой- открой. Без них темно ты лети лети лепесток через запад на восток через север через юг ты возвращайся сделав круг люблю тебя как ангел бога, как любит розу соловей,как мать детя родного любит,а я тебя еще сильней. Зачем его любить – не знаю, Он не преступник, но и не святой, Плохое в нем я вижу и воспринимаю, Но хочется пожить хоть миг мечтой… "Ну да! Тебя Чалый сбросит!» – сказала она пренебрежительно Завтра я еще не умру, но кто его знает Ты покорил меня и я преклоняюсь. Но со мной ты убил и искусство, принадлежавшее всему миру

Цитаты: придумываем гипотезы Длина запроса Наличие знаков препинания - абсолютное количество - наличие конкретных знаков препинания (например, троеточие) и их количество Наличие личных местоимений Наличие глаголов с определенными морфологическими признаками (например, только финитные формы) и их количество Наличие определённой лексики: например, вводные слова «Минус» лексический признак: вряд ли цитаты содержат слова «порно», «bmw» и т.п. Запрос начинается с большой буквы Наличие повторяющихся слов …..

Цитаты: обучаем Можно посмотреть на информативность каждого признака Повторяющиеся слова Местоимения Троеточие Капитализация запроса

Цитаты: обучаем

Цитаты: итоговые признаки Есть ли в запросе личные местоимения Число слов запроса (2, 3, 4, 5, 6 и больше), не считаем союзы и предлоги Число знаков препинания в запросе (0, 1, 2 и больше) Число финитных глаголов (0, 1, 2, 3, 4 и больше ) Есть ли в запросе троеточие Есть ли в запросе слова из словаря, понижающие вероятность цитаты Есть ли повторяющиеся слова

Цитаты: оцениваем результаты ПорогТочностьПолнотаF-мера

Навигационные запросы: обзор Проблемы Традиционные источники информации Навигационные запросы для suggest Создаём модель: –признак click entropy –лексические признаки запроса –структурные признаки подобранного url –использование переформулировок Оцениваем результаты

Навигационные запросы: проблемы Навигационные запросы могут иметь видимые признаки: - url-like запросы: - специфическая лексика официальный сайт МВД и т.п. Однако большинство навигационных запросов таковыми признаками не обладают видеогурман - жалуйтесь - jaluites.ru иван царевич - иди сюда - кто если не я - ktoeslineya.ru хотим уметь прогнозировать, какой сайт соответствует запросу

Навигационные запросы: традиционные подходы Источник информации – клики. Например, сlick distribution Тексты ссылок: anchorlink distribution Признаки запроса - структурные - лексические - близость запроса к какому-либо существующему урлу Для данной задачи хорошо подключить еще одни внешние данные: знания о переформулировках  повышает полноту и точность Слишком сложная модель! Упрощаем…

Навигационные запросы:suggest Важна точность!

Навигационные запросы: модель Query url-like yesno special search click entropy<k yesno looking for pereformulations stop + query structure + query lexical features + url structure OK!

Навигационные запросы: click entropy Кликовые признаки сильно зависят от качества поисковика. Если нужный результат поиска не попадает в «зону видимости» - то у нас нет статистики по кликам Часто запросы ведут себя как «навигационные», таковыми не являясь. Частотный случай – запросы по Википедии: шовинизм википедия, президенты сша список Спам маскируется под нормальные ресурсы: зайцев нет - zajtsev.net Хорошие результаты поиска могут «размывать» данные

Навигационные запросы: click entropy + lexical and url_features click entropy даёт примерно 70% точности – мало! Добавляем дополнительные признаки к парам Лексические признаки запроса: слова «сайт», «магазин» и т.п Близость url и query: пижама всем ->pijamavsem.ru Признаки подобранного урла в паре : - наличие под-домена - длина пути - есть ли в урле get-параметры - и другие

Навигационные запросы: расширяем переформулировками По пользовательским сессиям объединяем запросы в кластеры, которые 1.Содержат query в качестве запроса, по которому был клик 2.Содержат запросы, которые были вместе с query в n- количестве сессий 3.Имеют общие слова с query В такие кластеры могли попасть и такие запросы query = погода гисметео - погода в москве (общее слово погода) Проводим фильтрацию!

Навигационные запросы: переформулировки + фильтрация Входные данные: число таких переформулировок общие слова (минус география) среднее число общих слов (чем больше, тем лучше) макс 2009 официальный сайт - официальный сайт макс 2009 энтропия по url для запросов с такими общими словами Например, большая энтропия по url у слова «зао», т.е. часто является общим словом, значит, оно не значимо и следует внимательно смотреть на совпадение остальных слов число запросов с общими словами то же самое для различных слов

Навигационные запросы:результаты ВеткаТочностьПолнотаF-мера Весь алгоритм86.47 %29.64 %  % click entropy70% click entropy + query/url features 83% reformulations59 %

Итого В задачах классификации выбор данных и модели зависят от задачи Очень интересные возможности предоставляют «пользовательские» данные Machine learning нам в помощь

Спасибо за внимание! Вопросы? Хоруженко Марина