Download presentation
Presentation is loading. Please wait.
Published byΜελίνα Αλεβιζόπουλος Modified over 6 years ago
1
Razvoj algoritma za avtomatsko generiranje ontologij
Aleksander Pivk fakultetni mentor: akademik prof. dr. Ivan Bratko institutski mentor: prof. dr. Matjaž Gams
2
Ocenjevanje (ekspert)
Teza doktorata na množici vhodnih dokumentov se poskuša sistem avtomatsko naučiti znanja o domeni, tj. ontologijo, ki se uporabi za avtomatsko luščenje informacij. agost ShinA* Množica dokumentov Vhodni dokument Sistem Ontologija Ocenjevanje (ekspert) Odgovor OK ni OK doprinos – sistem za avtomatsko generiranje ontologij (strojno in človeško berljivih) iz spletnih dokumentov. Ena izmed temeljnih nerešenih nalog semantičnega spleta.
3
Postopek delovanja sistema
PREDZNANJE primeri iz določene domene (npr. CFP, e-nakupovanje, …) ONTOLOGIJA POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj primere in pripravi podatke za učni algoritem b) uporabi učni algoritem za generiranje pravil (znanja) c) iz pravil zgradi ontologijo - <h#|b|i|title> - kw={workshop, conference, CFP} dokumenti/primeri so zapisani v HTML primere poda človek
4
Predznanje (1) pet vrst predznanja: html oznake in strukture
lastna imena pripadnost vnaprej definiranemu seznamu (imena oseb, držav, mest, ustanov, mesecev, dni, …) osnovne entitete sintaktična analiza besedila (shallow language processing) orodje GATE (ogrodje za razvoj komponent pri procesiranju naravnega jezika) obstoječe splošne ontologije Wordnet zahtevnost znanja
5
Predznanje (2) HTML OZNAKE in STRUKTURE sintaksa jezika HTML
ELEMENT: par ujemajočih se oznak (<a>…</a>), enostavna oznaka (<br>) ali tekst BLOK: (lahko) sestavljen iz več elementov, ločnico predstavljajo skupine oznak: interne povezave v dokumentu (#anchor) mejniki (<h#>,<br>,<p>,<hr>,<blockquote>,…) SEZNAM: vsebina elementa (<table>, <ul>, <ol>, <dt>) pomembnost oznak oznake z večjo informacijsko vrednostjo (<h#>, <font>, <i>, <b>,<u>,<center>…)
6
Predznanje (3) OSNOVNE ENTITETE (hevristična) sintaktična pravila:
tel, fax: (tel|fax|gsm|phone) +?\\(?X\\)?\\(X\\)?(-?X)+ X=[0-9]+ (e?-?mail(to)?)? Y=[0-9a-zA-Z]+ datum: [DDDD|MMMM] d{2}W*d{2} W*d{4} W=[.,/ ] ura: d{2}Z*d{2} Z=[:] temperatura: [T|temp] d{3}°?[C|F]
7
Podrobnejši opis delovanja
vhodni parametri dokumenti/primeri iz izbrane domene izbira predznanj procesiranje in priprava podatkov za učenje procesiranje in obdelava primerov na podlagi predznanja in strukturne analize priprava učnih atributov učna faza učni algoritmi: povezovalna pravila, ILP sistem (HYPER?), HINT? induciranje pravil in dopolnjevanje atributov grajenje ontologije iz pravil zapis ontologije v formalen jezik (RDF/S, OWL)
8
Učna faza (alg: povezovalna pravila)
osnovni korak (bottom-up pristop) iz učnih atributov induciramo pravila sortiramo glede na (confidendce, support) izluščimo pravila nad pragom združevanje pravil v hierarhično strukturo (drevo) koraki višjih nivojev dodamo/dopolnimo učne atribute (agregacija, razbitje) iz učnih atributov induciramo nova pravila drevo nadgradimo z izbranimi novimi pravili postopek učenja pravil na višjih nivojev ponavljamo, dokler ne zgradimo celotnega drevesa (povežemo vsa poddrevesa) generirano drevo predstavlja ontologijo ponavljaj
9
Simulacija konkretnega primera
trije dokumenti/primeri iz domene CFP predznanje: a) - c) po strukturni analizi dobimo:
10
Simulacija konkretnega primera
učni primeri učni algoritem (povezovalna pravila) izluščimo pravila TITLE,DATE, LOC, PC, PC_LIST,DATES, DAT_LIST, DL_TYP=L2 (c=1) TOPICS,TOP_LIST -> TL_TYP=6 (c=1) LOC -> LOC_TYP=L5 (c=2/3) OC,OC_LIST -> OCL_TYP=L1 (c=1/2) … s pravili (nad pragom) gradimo ontologijo
11
Simulacija konkretnega primera
iz pravil generiramo ontologijo zapis v formalen jezik (RDF, OWL) CFP DATE D1 D2 D3 D4 D5 D1: <h#|b|i> D2: kw={submission} D3: kw={notification} D4: kw={camera ready} D5: kw={abstract} TOPIC <h2|h3> + LIST - kw= {topic, theme, area} LOCATION - <h#|b|i> TITLE - <h#|b|i|title> - kw={workshop, conference, CFP} - <h2|h3> + LIST - kw={date} NAME COUNTRY UNIVERSITY CITY - pravila inducirana iz predznanja - <h2|h3> + LIST - kw={comittee} COMITTEE ORGANIZE PROGRAM - kw={program} - kw={organize}
12
Dileme PREDZNANJE UČENJE
pri kateri stopnji predznanja sistem začne funkcionirati? ali obstoječe ontologije kaj pripomorejo? UČENJE kako izkoriščati strukturno indukcijo? poskus hevrističnega grupiranja za povezovalna pravila primernost sistema HYPER?
13
Delitev množice HTML oznak
tekstni nivo (vrstica) <font, tt, i, b, big, small, sub, sup, em, strong, dfn, code, samp, kbd, var, cite, q, a> bločni nivo <h#, address, p, pre, div, center, blockqoute, form, isindex, hr, table, caption, tr, th, ul, ol, li, dt, dd, br, frame, frameset, body>
14
množica HTML dokumentov
Slika 1 AGOSD množica HTML dokumentov sistem ontologija ShinA* odgovor vhodni dokument
15
množica spletnih dokumentov
Slika 1a AGOD ontologija ShinA* odgovor vhodni dokumenti VUSP skrbnik uporabnik množica spletnih dokumentov
16
množica spletnih dokumentov množica okvirjev (F-Logic)
Slika 1c AGOD ontologija VUSP skrbnik množica spletnih dokumentov Onto Broker množica okvirjev (F-Logic) ShinA* vhodni dokumenti odgovor uporabnik
17
HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …)
Slika 2 POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo b) obdelaj relevantne tabele (poravnava) c) uporabi obstoječe (splošne) ontologije za ugotavljanje/določanje semantike d) iz obdelanih tabel in določene semantike zgradi ontologijo predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija - primerki konceptov
18
Slika 2b ontologija predznanje
POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo b) obdelaj relevantne tabele c) uporabi obstoječe (splošne) ontologije za ugotavljanje/ določanje semantičnih kategorij d) iz obdelanih tabel in določene semantičnih kategorij zgradi ontologijo e) preslikaj ontologijo v formalizem F-Logic predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija primerki konceptov okvirji (jezik F-Logic)
19
Slika 3 1 Čiščenje & Normalizacija 2 Odkrivanje strukture
3 Grajenje FTM 4 Semantično oplemenitenje FTM Fizični Strukturni Funkcijski Semantični HTML Okvir metodološki koraki tabelarični model vhod izhod 1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM 4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod dokument HTML okvir F-Logic
20
1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM
4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod tabela HTML okvir F-Logic 1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM 4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod tabela HTML koncept F-Logic
21
FORALL X,Y,P <- EXISTS T T:Tour[EconomicExtension@(X,Y) -> P].
Tour [ Code => ALPHANUMERIC; DateValid => DATE; EconomicExtension (PersonClass, RoomClass) => LARGE_NUMBER; ExtendedExtension (PersonClass, RoomClass) => LARGE_NUMBER; ]. FORALL X,Y,P <- EXISTS T -> P]. X = adult, Y = single_Room, P = ; X = adult, Y = double_Room, P = ; X = adult, Y = extra_Bed, P = ; X = child, Y = occupation, P = ; X = child, Y = no_Occupation, P = ; X = child, Y = extra_Bed, P = ; FORALL X <- EXISTS T -> X]. X = DP9LAX01AB; FORALL X,Y,P <- EXISTS T -> X and DateValid -> Y single_Room) -> P]. X = DP9LAX01AB, Y = , P = 2.510;
22
- FORALL X,Y,P <- EXISTS T T:Tour[EconomicExtension@(X,Y) -> P].
X = adult, Y = single_Room, P = ; X = adult, Y = double_Room, P = ; X = adult, Y = extra_Bed, P = ; X = child, Y = occupation, P = ; X = child, Y = no_Occupation, P = ; X = child, Y = extra_Bed, P = ; - FORALL X <- EXISTS T -> X]. X = DP9LAX01AB; - FORALL X,Y,P <- EXISTS T -> X and DateValid -> Y and single_Room) -> P]. X = DP9LAX01AB, Y = , P = 2.510;
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.