Presentation is loading. Please wait.

Presentation is loading. Please wait.

Razvoj algoritma za avtomatsko generiranje ontologij

Similar presentations


Presentation on theme: "Razvoj algoritma za avtomatsko generiranje ontologij"— Presentation transcript:

1 Razvoj algoritma za avtomatsko generiranje ontologij
Aleksander Pivk fakultetni mentor: akademik prof. dr. Ivan Bratko institutski mentor: prof. dr. Matjaž Gams

2 Ocenjevanje (ekspert)
Teza doktorata na množici vhodnih dokumentov se poskuša sistem avtomatsko naučiti znanja o domeni, tj. ontologijo, ki se uporabi za avtomatsko luščenje informacij. agost ShinA* Množica dokumentov Vhodni dokument Sistem Ontologija Ocenjevanje (ekspert) Odgovor OK ni OK doprinos – sistem za avtomatsko generiranje ontologij (strojno in človeško berljivih) iz spletnih dokumentov. Ena izmed temeljnih nerešenih nalog semantičnega spleta.

3 Postopek delovanja sistema
PREDZNANJE primeri iz določene domene (npr. CFP, e-nakupovanje, …) ONTOLOGIJA POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj primere in pripravi podatke za učni algoritem b) uporabi učni algoritem za generiranje pravil (znanja) c) iz pravil zgradi ontologijo - <h#|b|i|title> - kw={workshop, conference, CFP} dokumenti/primeri so zapisani v HTML primere poda človek

4 Predznanje (1) pet vrst predznanja: html oznake in strukture
lastna imena pripadnost vnaprej definiranemu seznamu (imena oseb, držav, mest, ustanov, mesecev, dni, …) osnovne entitete sintaktična analiza besedila (shallow language processing) orodje GATE (ogrodje za razvoj komponent pri procesiranju naravnega jezika) obstoječe splošne ontologije Wordnet zahtevnost znanja

5 Predznanje (2) HTML OZNAKE in STRUKTURE sintaksa jezika HTML
ELEMENT: par ujemajočih se oznak (<a>…</a>), enostavna oznaka (<br>) ali tekst BLOK: (lahko) sestavljen iz več elementov, ločnico predstavljajo skupine oznak: interne povezave v dokumentu (#anchor) mejniki (<h#>,<br>,<p>,<hr>,<blockquote>,…) SEZNAM: vsebina elementa (<table>, <ul>, <ol>, <dt>) pomembnost oznak oznake z večjo informacijsko vrednostjo (<h#>, <font>, <i>, <b>,<u>,<center>…)

6 Predznanje (3) OSNOVNE ENTITETE (hevristična) sintaktična pravila:
tel, fax: (tel|fax|gsm|phone) +?\\(?X\\)?\\(X\\)?(-?X)+ X=[0-9]+ (e?-?mail(to)?)? Y=[0-9a-zA-Z]+ datum: [DDDD|MMMM] d{2}W*d{2} W*d{4} W=[.,/ ] ura: d{2}Z*d{2} Z=[:] temperatura: [T|temp] d{3}°?[C|F]

7 Podrobnejši opis delovanja
vhodni parametri dokumenti/primeri iz izbrane domene izbira predznanj procesiranje in priprava podatkov za učenje procesiranje in obdelava primerov na podlagi predznanja in strukturne analize priprava učnih atributov učna faza učni algoritmi: povezovalna pravila, ILP sistem (HYPER?), HINT? induciranje pravil in dopolnjevanje atributov grajenje ontologije iz pravil zapis ontologije v formalen jezik (RDF/S, OWL)

8 Učna faza (alg: povezovalna pravila)
osnovni korak (bottom-up pristop) iz učnih atributov induciramo pravila sortiramo glede na (confidendce, support) izluščimo pravila nad pragom združevanje pravil v hierarhično strukturo (drevo) koraki višjih nivojev dodamo/dopolnimo učne atribute (agregacija, razbitje) iz učnih atributov induciramo nova pravila drevo nadgradimo z izbranimi novimi pravili postopek učenja pravil na višjih nivojev ponavljamo, dokler ne zgradimo celotnega drevesa (povežemo vsa poddrevesa) generirano drevo predstavlja ontologijo ponavljaj

9 Simulacija konkretnega primera
trije dokumenti/primeri iz domene CFP predznanje: a) - c) po strukturni analizi dobimo:

10 Simulacija konkretnega primera
učni primeri učni algoritem (povezovalna pravila) izluščimo pravila TITLE,DATE, LOC, PC, PC_LIST,DATES, DAT_LIST, DL_TYP=L2 (c=1) TOPICS,TOP_LIST -> TL_TYP=6 (c=1) LOC -> LOC_TYP=L5 (c=2/3) OC,OC_LIST -> OCL_TYP=L1 (c=1/2) s pravili (nad pragom) gradimo ontologijo

11 Simulacija konkretnega primera
iz pravil generiramo ontologijo zapis v formalen jezik (RDF, OWL) CFP DATE D1 D2 D3 D4 D5 D1: <h#|b|i> D2: kw={submission} D3: kw={notification} D4: kw={camera ready} D5: kw={abstract} TOPIC <h2|h3> + LIST - kw= {topic, theme, area} LOCATION - <h#|b|i> TITLE - <h#|b|i|title> - kw={workshop, conference, CFP} - <h2|h3> + LIST - kw={date} NAME COUNTRY UNIVERSITY CITY - pravila inducirana iz predznanja - <h2|h3> + LIST - kw={comittee} COMITTEE ORGANIZE PROGRAM - kw={program} - kw={organize}

12 Dileme PREDZNANJE UČENJE
pri kateri stopnji predznanja sistem začne funkcionirati? ali obstoječe ontologije kaj pripomorejo? UČENJE kako izkoriščati strukturno indukcijo? poskus hevrističnega grupiranja za povezovalna pravila primernost sistema HYPER?

13 Delitev množice HTML oznak
tekstni nivo (vrstica) <font, tt, i, b, big, small, sub, sup, em, strong, dfn, code, samp, kbd, var, cite, q, a> bločni nivo <h#, address, p, pre, div, center, blockqoute, form, isindex, hr, table, caption, tr, th, ul, ol, li, dt, dd, br, frame, frameset, body>

14 množica HTML dokumentov
Slika 1 AGOSD množica HTML dokumentov sistem ontologija ShinA* odgovor vhodni dokument

15 množica spletnih dokumentov
Slika 1a AGOD ontologija ShinA* odgovor vhodni dokumenti VUSP skrbnik uporabnik množica spletnih dokumentov

16 množica spletnih dokumentov množica okvirjev (F-Logic)
Slika 1c AGOD ontologija VUSP skrbnik množica spletnih dokumentov Onto Broker množica okvirjev (F-Logic) ShinA* vhodni dokumenti odgovor uporabnik

17 HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …)
Slika 2 POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo b) obdelaj relevantne tabele (poravnava) c) uporabi obstoječe (splošne) ontologije za ugotavljanje/določanje semantike d) iz obdelanih tabel in določene semantike zgradi ontologijo predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija - primerki konceptov

18 Slika 2b ontologija predznanje
POSTOPKOVNI OPIS: a) s pomočjo predznanja procesiraj dokumente, izlušči relevantne tabele in jih pripravi za procesiranje/obdelavo b) obdelaj relevantne tabele c) uporabi obstoječe (splošne) ontologije za ugotavljanje/ določanje semantičnih kategorij d) iz obdelanih tabel in določene semantičnih kategorij zgradi ontologijo e) preslikaj ontologijo v formalizem F-Logic predznanje HTML dokumenti iz izbrane domene (npr. turizem, e-nakupovanje, …) ontologija primerki konceptov okvirji (jezik F-Logic)

19 Slika 3 1 Čiščenje & Normalizacija 2 Odkrivanje strukture
3 Grajenje FTM 4 Semantično oplemenitenje FTM Fizični Strukturni Funkcijski Semantični HTML Okvir metodološki koraki tabelarični model vhod izhod 1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM 4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod dokument HTML okvir F-Logic

20 1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM
4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod tabela HTML okvir F-Logic 1 Čiščenje & Normalizacija 2 Odkrivanje strukture 3 Grajenje FTM 4 Semantično oplemenitenje FMT Fizični Strukturni Funkcijski Semantični metodološki koraki tabelarični model vhod izhod tabela HTML koncept F-Logic

21 FORALL X,Y,P <- EXISTS T T:Tour[EconomicExtension@(X,Y) -> P].
Tour [ Code => ALPHANUMERIC; DateValid => DATE; EconomicExtension (PersonClass, RoomClass) => LARGE_NUMBER; ExtendedExtension (PersonClass, RoomClass) => LARGE_NUMBER; ]. FORALL X,Y,P <- EXISTS T -> P]. X = adult, Y = single_Room, P = ; X = adult, Y = double_Room, P = ; X = adult, Y = extra_Bed, P = ; X = child, Y = occupation, P = ; X = child, Y = no_Occupation, P = ; X = child, Y = extra_Bed, P = ; FORALL X <- EXISTS T -> X]. X = DP9LAX01AB;  FORALL X,Y,P <- EXISTS T -> X and DateValid -> Y single_Room) -> P]. X = DP9LAX01AB, Y = , P = 2.510;

22 - FORALL X,Y,P <- EXISTS T T:Tour[EconomicExtension@(X,Y) -> P].
X = adult, Y = single_Room, P = ; X = adult, Y = double_Room, P = ; X = adult, Y = extra_Bed, P = ; X = child, Y = occupation, P = ; X = child, Y = no_Occupation, P = ; X = child, Y = extra_Bed, P = ; - FORALL X <- EXISTS T -> X]. X = DP9LAX01AB;  - FORALL X,Y,P <- EXISTS T -> X and DateValid -> Y and single_Room) -> P]. X = DP9LAX01AB, Y = , P = 2.510;


Download ppt "Razvoj algoritma za avtomatsko generiranje ontologij"

Similar presentations


Ads by Google