Download presentation
Presentation is loading. Please wait.
1
Система «OntoGrid» для построения онтологий Онтология - формальное явное описание терминов предметной области (ПрО) и отношений между ними (Gruber 1993) O=<T,R,D>
2
Назначение онтологии 1.Системы обучения: полезно иметь в качестве «опорного сигнала» легко воспринимаемую структуру этой области, быстро находить ссылки на источники. 2.Поисковые системы: поиск по семантически значимым фрагментам текстов с опорой на онтологию ПрО. 3.Научные исследования: унификация терминологии ПрО, автоматическое отслеживание данных и знаний в потоке информации. 4. Интегрирование баз данных и знаний: установление семантической эквивалентности фактов и понятий, сформулированных в разных терминах.
3
Автоматизация разработки и сопровождения онтологии (проект OntoGRID) 1. Инструмент для эксперта ПрО, строящего онтологию. Средства распределенной разработки 2. Лингвистический процессор Лингвистическая база Лингвистическая база Интерфейс « семантика – онтология » Интерфейс « семантика – онтология » 3. Методика использования онтологий
4
1 Инструмент для эксперта ПрО, строящего онтологию Protege (http://protege.stanford.edu/) (http://protege.stanford.edu/)http://protege.stanford.edu/http://protege.stanford.edu/ Mark Musen, Stanford Medical Informatics 1992 Разработка онтологий 101: руководство по созданию Вашей первой онтологии Natalya F. Noy Deborah L. McGuinness Ontolingua Ontolingua Chimaera Chimaera
5
Фасет X1=0-1 X5=Да,Нет xN-источн. Слот X1…xN Класс А Класс К Класс a1 Класс a2 Класс ki Объект Oi Отношение Структура онтологии
6
Средства распределенной разработки Средства распределенной разработки Integrated Development Enviroment (IDE) ASCONT O1O2 Onto-DM Protégé (OWL) Двуязычный форум ОНТОЛОГИЯ Иван Djohn Лаб№13 Automated System for Construction of Ontologies Admin
7
Лингвистический процессор 1.Блок морфологического анализа. Блок статистического анализа текстов Гусев В.Д., Саломатина Н.В. Блок статистического анализа текстов Гусев В.Д., Саломатина Н.В. 2. Система семантического анализа текста. «Визуализатор отношений» (ВизОт) «Визуализатор отношений» (ВизОт) Налетов А.М., Чурикова В.А., Соколова А.Н. Налетов А.М., Чурикова В.А., Соколова А.Н.
8
Блок статистического анализа Назначение: выявление общенаучной, предметно-ориентированной и узкоспецифичной лексики; формирование индикаторных словарей, отражающих аспекты документа (целевая установка, метод решения, полученный результат и т.п.); формирование системы признаков для тематической классификации документов. Процедуры: вычисления L-граммных спектров; выделения устойчивых словосочетаний с учетом морфологической и комбинаторной изменчивости; выявления аномалий в позиционном распределении лексических единиц в тексте.
9
L -граммное представление текстов ― анализируемая группа текстов; L-грамма ― цепочка из L подряд следующих нормализованных слов. Частотная характеристика L-го порядка группы текстов Т есть совокупность представленных в Т L-грамм с указанием частот встречаемости и распределения по отдельным текстам:, где ― пара: < i-я L-грамма ; вектор вхождений L-граммы в каждый из текстов подборки Т : >; ― размер словаря L-грамм; Совместный частотный спектр группы текстов Т есть совокупность частотных характеристик:, где ― длина максимальной цепочки слов, общей хотя бы для пары текстов.
10
Фрагмент словаря аспектной лексики (по материалам конференции «Диалог’2002»; 146 докладов) Аспект: целевая установка; L = 2, 3 Биграммы: (F текст.,F абс. ) в/работа (60,110); в/статья (31,45); в/доклад (31,39); постановка/задача (14,16); наш/исследование (10,15); Триграммы: (F текст.,F абс. ) в/данный/работа (16,19); в/статья/рассматриваться (10,11); в/настоящий/работа (10,10); в/рамка/проект (8,12); в/работа/рассматриваться (7,7); в/данный/доклад (5,6); настоящий/работа/посвящать (5,6); данный/работа/посвящать (5,5); в/доклад/рассматриваться (5,5);
11
Выделение«устойчивых»цепочек слов «Устойчивая цепочка» ― L-грамма (L ≥ 2), встречающаяся в большом числе разнообразных контекстов. Неустойчивой считается цепочка, которая может быть продол- жена как вправо, так и влево ограниченным числом способов. Примеры устойчивых цепочек: порядок слов; русский язык; как уже отмечалось, таким образом; в настоящее время; один и тот же; нетрудно видеть, что; предложение со скремблингом; неустойчивых цепочек: в русском; предложение со; посторонним вход; быть или не…
12
Выявление позиционных аномалий Гипотеза: лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно более значимы, чем распределенные равномерно. Сканирующие статистики ― эффективный аппарат для выявления позиционных аномалий: d(n) ― длина минимального интервала, содержащего ровно n вхождений лексической единицы λ ( 2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте). Распределение d(n) при гипотезе H 0 (равномерность) известно. Применение: оценка информативности лексических единиц; построение квазирефератов текста.
13
Анализ текста в системе OntoGrid Формализм для представления смысла текста + алгоритмы анализа База лингвистических знаний предметной области Алгоритм построения семантического представления текста Интерфейс эксперта
14
Задачи анализа текста Классификация текстов Реферирование Поиск по заданным концептам ………. Определение реализаций элементов онтологии в текстах Наполнение элементов онтологии ссылками на тексты Выявление «недогруженных» и «перегруженных элементов онтологии» ……….
15
ОНТОЛОГИЯ Проекция онтологии на ЕЯ тексты Система анализа текста (САТ) Анализ текста с опорой на онтологию ПрО
16
САТ Анализ текста в системе OntoGrid Текст ЕЯ ЭКСПЕРТ ВизОт ОНТОЛОГИЯ БЛЗ ПрО
17
Слова, термины Элементарные словосочетания – реализации смысловых отношений: агент, объект, признак, значение, локализация, …. Иерархия реализаций смыслов в тексте Неэлементарные словосочетания – комбинации элементарных словосочетаний Наборы неэлементарных (в общем случае) словосочетаний: понятия, отношения между понятиями
18
Лингвистическая база знаний предметной области База реализаций отношений (БРО) -термины -реализации смысловых отношений Набор критичных фрагментов (НКФ) наборы неэлементарных словосочетаний, соответствующих существенным элементам ПрО
19
Представление реализаций смысловых отношений в БРО
20
Формирование БРО В ходе интерактивного анализа текста На основе предварительной статистической обработки текстов ПрО Использование обобщенных определений отношений (правил выделения в тексте)
21
Интерактивный анализ текста
22
Редактирование БРО с помощью интерфейса ВизОт
23
Пирамидальные сети Гладун В.П. Пирамидальная сеть ― ациклический ориентированный граф, в котором нет вершин с одной заходящей дугой. Рецепторы ― соответствуют символам входного алфавита (объекты, признаки, слова, …). Концепторы ― остальные вершины; соответствуют отдельным объектам или общим частям нескольких объектов. *
24
Q-сети Текст рассматривается как иерархическая структура фрагментов, каждый из которых представляет некоторую семантическую цельность Однородность Иерархичность Функциональность
25
«анализ данных» а=анализ, b=данные r=процесс-объект «интеллектуальный (анализ данных)» А=анализ данных, b=интеллектуальный r=процесс-свойство s=интеллектуальный анализ «((процесс таксономии) начинается) с (нормировки признаков)» А=(процесс таксономии) начинается, B=нормировка признаков а=начинается, b=нормировка, s=начинается с нормировки (r,a,b) (s,A,b) (s,A,B) hjhjhjhj jhjhjhjjjhjj jhjhjjh
26
* Построение семантического представления (СемП) текста 123456789 Выделение в предложении связных цепочек зависимостей (реализаций отношений) из БРО 42 6 3 1 5 8 9 Взвешивание реализаций смыслового отношения функцией f ( s, r), где s – значимость реализации, r – расстояние между его аргументами в предложении Построение для каждой цепочки зависимостей связывающей сети максимального веса *
27
3 1 56 24 89 A B C Выбираем реализацииВыбираем реализации отношений веса большего чем g_1. Строим по ним непересекающиеся фрагменты первого типа, начиная с самых «тяжелых» 1 65 24 A 3 D B 89 C Расширяем построенныеРасширяем построенные фрагменты, используя оставшиеся реализации веса большего чем g_2. *
28
65 B 24 A 3 D E 89 C 1 Объединяем фрагменты, используя реализацииОбъединяем фрагменты, используя реализации отношений веса не меньшего чем gamma_3 отношений веса не меньшего чем gamma_3 *
29
Пример работы компоненты анализа текста
30
Формирование понятий Объемы понятий ПрО Фрагменты {F} Тексты {T} Понятия {P} t_1 t_2 t_3 t_4..... p_1 p_2 p_3 p_4..... {f_1,...,f_n} {g_1,...,g_m} {r_1,...,r_k} {q_1,...q_s}..... {P(t_1)} Понятие — фрагмент знаний, представляющий собой обобщенную модель класса элементов мира, в котором оперирует система, достаточную для выполнения на ее основе операций распознавания и генерации моделей конкретных элементов мира.
31
Доля j-го фрагмента в i-м понятии f_j p_i Понятия Тексты Фрагменты Число текстов, затрагивающих i-е понятие, СемП которых содержит j-й фрагмент Общее число текстов, затрагивающих i-е понятие a_ij = *
32
Шум j-го фрагмента для i-го понятия f_j p_i Понятия Тексты Фрагменты Число текстов, не затрагивающих i-е понятие, СемП которых содержит j-й фрагмент Общее число текстов, содержащих j-й фрагмент b_ij = *
33
f t Понятия Тексты Фрагменты r Объединяющие признаки Среди всех фрагментов текста t, для каждого понятия p_i из {P_t}, находим критичный фрагмент r c максимальным значением a_ir при b_ir < b. p_i g *
34
f t Понятия Тексты Фрагменты r Разделяющие признаки Пусть в тексте t затрагивается понятие p_j и не затрагивается понятие p_i. Пусть существует фрагмент f текста t, являющийся критичным фрагментом понятия p_i такой что в тексте t нет критичным фрагмента r понятия p_j, включающего в себя фрагмент f. Тогда выберем такой фрагмент r с максимальным значением b_ir и a_jr > a. p_j p_i *
35
Редактор ASCONT Инструментальная система для коллективной разработки онтологии
36
Представление онтологии + Соответствие современным стандартам + Наличие аппарата формального вывода + Открытость + Графическое редактирование + Эффективность машинной обработки OWL (Ontology Web Language) *
37
Технологические требования + Совместимость с концепцией e-Science + Масштабность + Распределённость + Динамичность + Неоднородность GRID *
38
Центральный репозиторий Архив Пользователи Архитектура
39
Онтология Эксперт Редактор Разработка Онтологии
40
A Онтология B C Репозиторий Эксперт Разработка Онтологий *
41
Grid Репозиторий Grid
42
Окно диалога с системой
43
Зародыш онтологии DM
44
Онтология предметной области Data Mining (Onto-DM)
45
Какую область будет охватывать онтология Onto-DM? Для чего мы будем использовать онтологию Onto-DM? На какие вопросы должна давать ответы онтология Onto-DM? Кто будет разрабатывать, использовать и поддерживать онтологию Onto-DM?
46
“класс” Данные “класс” Задача “класс” Приме р “класс” Метод (Онтология Onto-DM) ограничения использование реализация
47
“класс” Данные “класс” ТаблицаОСВ “класс” МатрицаООВ “объект” Строка “объект” Столбец “объект” Серия “объект” Подтабли ца ?
48
“свойство” Размер- ность “класс” Данные “свойство” ТипШкалы “свойство” Пробел “свойство” Достовер- ность “значение” 1-M, 1-N, 1-T “значение” A,R,I,O,N,C “ значение” Да, Нет “значение” 0-1 Slot Facet
49
“класс” Задача “класс” Таксоном ияS “класс” ВыборПр изнаковX “класс” Распозна ваниеD “класс” Пробел Z “класс” Прогноз P “Понятие” КомбиТи п *
50
“класс” Метод “объект” FOREL KRAB NatClass K-means “объект” SPA AdDel NTPP LRP “ объект” SDF LDR TDF k-NNR CruSt FB Lokator “объект” ZET WANGA “объект” LGAP ZET WANGA “ объект” SX SD DX DSX Стрелки указывают на отношение: Метод Х применяется для решения задачи Y SX DZ P … Полигоны *
51
Стрелки указывают на отношение: Случай Z является примером решения задачи Y методом X. “класс” Пример “объект” Геологи я Экономи ка “объект” Генетика медицин а “объект” Речь Изображ ения Экологи я “объект” Геологи я Генетик а “объект” Финанс ы Экономи ка “объект” Цифры Генетика SXDZP … Демоверсии программ *
52
Data Mining – область деятельности, связанной с обнаружением причинно-следственных зависимостей (закономерностей, знаний ) в массивах экспериментальных или статистических данных. в массивах экспериментальных или статистических данных. Синонимы: Интеллектуальный анализ данных, Подъем данных,… Синонимы: Интеллектуальный анализ данных, Подъем данных,… Данные – множество отдельных фактов, значений признаков, … Синонимы: протокол наблюдений, data, data table Синонимы: протокол наблюдений, data, data table Знание – утверждение об общих свойствах множества фактов, о зависимости между значениями признаков. о зависимости между значениями признаков. Синонимы: закономерность, зависимость, regularity, … Синонимы: закономерность, зависимость, regularity, … Объект – выделенный элемент изучаемого мира Синонимы: реализация, вектор, точка, entity, … Синонимы: реализация, вектор, точка, entity, … Свойство – характеристика объекта Синонимы: признак, атрибут, параметр, feature, … Синонимы: признак, атрибут, параметр, feature, ………. Определения терминов и отношений
53
СПАСИБО ЗА ВНИМАНИЕ
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.