Семинар “Machine Learning” рук. проф.: Е.Л. Столов, В.Д. Соловьев Учебник Бишопа us/um/people/cmbishop/prml/ us/um/people/cmbishop/prml/ Стэнфордский курс machine_learning/ machine_learning/
Пример
Линейная аппроксимация
Использование данных Google Labs для исследования эволюции лексики В.Д. Соловьев, Э.Ю. Лернер Казанский федеральный университет
GOOGLE BOOKS & Ngram Viewer GOOGLE BOOKS – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных в мире книг) Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих 500 миллиардов (!) слов, в том числе, русскоязычная часть – 35 миллиардов слов Реализован удобный интерфейс (Ngram Viewer), предоставляющий статистическую информацию в виде графиков
Частотность Прагматически мотивированные изменения частотности языковых элементов приводят к эволюции языка (и лексики, и грамматики) Межязыковые различия в частотности “являются значимыми с семантической и, в более общем плане, с общекультурной точки зрения” (А. Вежбицкая) Трудоемкость изучения частотности
Пример графика: кровь
Преобразование неправильных глаголов английского языка в правильные
Оценки в английском и русском
Эволюция лексики Слова рождаются, распространяются и умирают Графики отражают характер этих процессов Задача 1: построить математические модели эволюционных процессов Задача 2: объяснить характер этих процессов
Пример: модель роста численности популяций
Типичный график
Линейный рост частоты
Научные термины
Динамика популярности личностей
Динамика популярности личностей (продолжение)
Выводы по динамике распространения слов Частота входящих в активный оборот слов растет практически строго по линейному закону После короткого пребывания на пике частота падает Мало плавных кривых, переход от одной прямой к другой осуществляется быстро Также по линейному закону растет частота упоминаний людей или понятий, становящихся популярными Проблема. Почему это так?