TopX Rene Fischer.

Slides:



Advertisements
Similar presentations
The Darvaza well.
Advertisements

Martin Theobald Max Planck Institute for Computer Science Stanford University Joint work with Ralf Schenkel, Gerhard Weikum TopX Efficient & Versatile.
Safari Tech Books Online Marika Janoušková. Obsah Prečo potrebujete Safari? Čo je Safari? Aké odbory pokrýva? Ukážka Integrácia Safari do lokálneho knižničného.
TopX 2.0 — A (Very) Fast Object-Store for Top-k XPath Query Processing Martin Theobald Stanford University Ralf Schenkel Max-Planck Institute Mohammed.
XML pre programátorov 7. víkend s Linuxom 5. – 6. október 2002 Žilina Stanislav Meduna ETM Aktiengesellschaft
Slovak University of Technology in Bratislava Faculty of Civil Engineering Prof. Ing.Jan Szolgay, PhD. Vice-dean for Science, Research and Foreign Relations.
Ján GENČI PDT 2009 Systém riadenia bázy dát (Database Management System)
TopX 2.0 at the INEX 2009 Ad-hoc and Efficiency tracks Martin Theobald Max Planck Institute Informatics Ralf Schenkel Saarland University Ablimit Aji Emory.
Ján GENČI PDT 2009 Systém riadenia bázy dát (Database Management System)
Ján GENČI PDT 2009 Systém riadenia bázy dát (Database Management System)
Analýza textu Márius Šajgalík. Spracovanie prirodzeného jazyka Segmentácia reči Rozpoznávanie reči Strojový preklad OCR...
HORIZON RNDr. Eva Majkova, DrSc. SAV Štefánikova 49 SK Bratislava Mobil Kontakt.
Nadácia sú ľudia Konferencia nadácií 2008 NADÁCIE – PROFESIONÁLNI HRÁČI NEZISKOVÉHO SEKTORA.
Object Query Language (OQL) Marián Kamenišťák MFF – UK Praha
1 Global Positioning System (GPS) Joe Montana IT Fall 2003 pp.0-17 preklad: R. Vislai, r.2010, Košice.
Present to Save the. FIIT STU Bratislava Mentor  Michal Barla Členovia tímu  Anton Benčič  Roman Mészároš  Roman Panenka  Márius Šajgalík.
Atomic Force Microscopy
Východiská a perspektívy umenia umelého života PS 2013, TEORIE INTERAKTIVNÍCH MÉDIÍ Mgr. Martina Ivičičová.
Bezpečnosť a ochrana zdravia pri práci sa týka každého z nás. Cenná pre Vás. Prínos pre firmu. Paneurópsky prieskum verejnej mienky o ochrane zdravia a.
WIKT 2007Košice, november Tvorba sémantických metadát Michal Laclavík Ústav Informatiky SAV.
Analyzing dichotomous dummy variables
Juraj Šitina Peter Dovhun
PhDr. Miriam Pekníková, PhD.
NADOBUDNUTÉ SKÚSENOSTI Z PREDCHÁDZAJÚCICH VÝZIEV
Dátové štruktúry pre analýzu obrazu
3. Algoritmy a programovanie v jazyku Pascal Syntax
Web of Science V PRAXI Eniko Toth Szasz
Sme produkty, musíme sa predať
Prednáška 8 podprogramy typy podprogramov lokálne a globálne objekty
Procedurálne programovanie: 2. prednáška
Prehľadávanie (searching) UI. I Markošová Mária
Študijné materiály pre eLearning
Typy informácií a ich prezentácia a spracovanie
RELAČNÝ DÁTOVÝ MODEL princíp relačného dátového modelu bol prvýkrát navrhnutý E.F.Coddom Základné pojmy: RM - databáza ako množina relácií každá.
Umelá inteligencia 1 Heuristické prehľadávanie
Sieťový operačný systém
Max Planck Institute for Informatics
Konfigurácia a testovanie
Človek vo sfére peňazí ročník.
Umelá inteligencia 1 Hľadanie riešenia
KVANTITATÍVNE METÓDY V MARKETINGU
Softvérová architektúra
William Shakespeare Životopis
Znalostné systémy Riešenie úloh a využívanie znalostí Ing. Štuller
Bee Gees Anna Mária Gburíková 7.B.
Integritné obmedzenia v SQL
Systém riadenia bázy dát Database Management System
Spresnenie požiadaviek pri hodnotení kvality veterinárnych liekov
Využitie IKT na hodinách anglického jazyka
Martin Theobald Max-Planck-Institut Informatik Stanford University
Vyhľadávanie informácií
Metódy kĺzavých priemerov (MA – moving averages) - Marcel Kocifaj
TrueCrypt Šifrovanie diskov Vladimír Tkáč.
ROC - Receiver Operating Characteristic
INCITES: Journal Citation Reports
Informované, heuristické prehľadávanie
Heuristické optimalizačné procesy
Smelý Palko v Ohiu alebo pán Turing ide voliť
Open Access z hľadiska autora, vydavateľa, čitateľa a spoločnosti
Riadenie IT Prostredia
Open Access v H2020 Barbora Kubíková Národný kontaktný bod
Patrik Ort Acount Executive , Stredná Európa
Web of Science V PRAXI Eniko Toth Szasz
Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov
ROVINNÉ (2D) SYMBOLY DWG
Časť 1 Relačná algebra Slavomír Stramba 2003.
Andrej Lúčny Témy bakalárskych prác Andrej Lúčny
Je modrá veľryba najväčšia vec na svete?
Je modrá veľryba najväčšia vec na svete?
Presentation transcript:

TopX Rene Fischer

TopX Čo je to TopX? Čo je to top-k získavanie dát? je to nástroj pre získavanie top-k informácií/dát z textových a polo-štruktúrovaných dát Čo je to top-k získavanie dát? ide o získanie k prvkov zo skupiny dát, ktoré najlepšie vyhovujú položenému dotazu Dotazovací jazyky II TopX

Osnova prednášky Všeobecne o Top-X Architektúra Top-X Interná reprezentácia dotazu Skóre model Základné spracovanie dotazu Dotazovací jazyky II TopX

Výhody TopX Po získaní daných top-k prvkov, ukončuje ďalšie prehľadávanie Podpora pre neurčité a nejasné(vague) vyhľadávanie na 2 typoch podmienok dotazu obsahové štrukturálne Dotazovací jazyky II TopX

Pôvod XML dát Mnoho zdrojov Často bez schém Heterogénne štruktúry a anotácie znemožňujú použitie dotazovacích jazykov ako je XPath a XQuery Dotazovací jazyky II TopX

TopX model podporuje full-text obsahové podmienky značka-výraz(tag-term) kombinácie traverzovacie podmienky pre všetky XPath osi absolútne relatívne Ontologicky založené relácie výrazov(terms) a názvy značiek(tag names) ako podobnostné podmienky Dotazovací jazyky II TopX

Typický príklad //book[about(., Information Retrieval XML) and about(.//reference, PageRank)] //author[about(.//affiliation, Standford)] v jazyku NEXI Čo ním vlastne hľadáme? autorov kníh o „Information Retrieval XML“, ktoré obsahujú následníkov pomenovaných ako „reference“ a „affilation“ s obsahom „PageRank“ a „Standford“ ľudsky povedané : autorov kníh o získavaní dát z XML, odkazujúcich sa na PageRank, zo Standfordu Dotazovací jazyky II TopX

Ale... ...napriek dátam presne vyhovujúcim týmto podmienkam, by to malo prípadne nájsť aj autorov kníh napr. o „statistical language models for semistructured dat“, ale radené nižšie ako presné zhody autori nie zo „Standfordu“ ale napr. z „Berkley“ nie autorov kníh, alebo napríklad monogramov, výskumných článkov ... Dotazovací jazyky II TopX

Niečo o Top-K algoritmoch algoritmy, tiež známe ako limitné algoritmy(threshold algorithms) algoritmus končí po dosiahnutí určitého limitu spočívajú v prehľadávaní udržiavaných invertovaných indexov zostupne zoradených za výrazmi, hodnotami atribútov vhodné udržiavanie intervalov skóre a limít pre top-k kandidátov umožňuje prehľadávanie ukončiť po nájdení top-k prvkov, následkom čoho stačí algoritmom často prehľadať iba krátke časti zoznamov Dotazovací jazyky II TopX

Odbočka - Invertovaný index indexová dátová štruktúra – mapuje výskyt slov v textoch, dokumente, dokumentoch 2 typy pamätajúci si referencie na dokumenty v ktorých sa slovo/výraz nachádza Record level inverted index plus pamätajúci si aj jeho pozíciu v rámci dokumentu vhodné pre full-text vyhľadávanie Word level inverted index ( http://en.wikipedia.org/wiki/Inverted_index ) Dotazovací jazyky II TopX

Odbočka 2 - Invertovaný index - príklad texty T1 = „it is what it is“ T2 = „what is it“ T3 = „it is a banana“ Record level inverted index "a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1} Word level inverted index "a": {(2, 2)} "banana": {(2, 3)} "is": {(0, 1), (0, 4), (1, 1), (2, 1)} "it": {(0, 0), (0, 3), (1, 2), (2, 0)} "what": {(0, 2), (1, 0)} Dotazovací jazyky II TopX

Hlavné problémy riešené TopX skóre a indexové zoznamy sú robené pre samostatné XML elementy potreba agregovať skóre na úroveň dokumentu, XML pod-stromu – teda 2 rôzne granuality spracovania dotazu model pre skóre musí zvažovať aj špecifickosť obsahu výrazu v kombinácií s názvom elementu/atribútu napr. výraz „transaction“ by mal byť významný v elementoch <section> a <caption> ale nie v <journalname> Dotazovací jazyky II TopX

Hlavné problémy 2 relevantné medzivýsledky musia byť testované na spĺňanie traverzovacej podmienky dotazu čo môže vieš k „drahým“ náhodným prístupom(random access) na disk miesto vynútenia konjunktívneho vyhodnocovania dotazu, je požadované uvoľniť traverzovacie podmienky a radiť dokumenty pomocou kombinácie obsahového skóre a počtu splnených traverzovacích podmienok Dotazovací jazyky II TopX

Hlavné problémy 3 efektívna stratégia vyhodnocovania dotazu a prerezávanie(prunning) kandidátov musí brať v úvahu odhad oboch agregovaného skóre traverzovacie podmienky možnosť uvoľniť výrazové podmienky, názvy značiek použitím podobnosti založenie na ontológii alebo tezauru. napr : dotaz na “<book>” o “XML” by mal brať v úvahu „<monograf>“ o “semistructured data” ako kandidáta na výsledok Dotazovací jazyky II TopX

Hlavné komponenty systému Dotazovací jazyky II TopX

Hlavné komponenty systému môžeme ich rozdeliť do 2 hlavných skupín na vkladanie dát(data-entry) spracujúce dotaz(query-time) Dotazovací jazyky II TopX

Hl.komp. – 1. Indexer & Crawler Dotazovací jazyky II TopX

Hl.komp. – 1. Indexer & Crawler skupina vkladania dát pri vložení nového dokumentu je dokument parsovaný dáta sú analyzované vytvorenie alebo updatovanie indexových štruktúr Crawler ak sa jedná o dáta z webu, intranetu, ..., ktoré sa hyper-linkovo odkazujú, crawler ich môže traverzovať a zbierať dokumenty Dotazovací jazyky II TopX

Hl.komp. – 2. Ontology Service Dotazovací jazyky II TopX

Hl.komp. – 2. Ontology Service Komponenta, ktorá voliteľne spravuje tezaurus alebo „ľahšiu“ ontológiu s rôznymi druhmi sématnických relácií Dotazovací jazyky II TopX

Odbočka – Ontológia je ... výslovný (explicitní) popis určité problematiky. Je to formální a deklarativní reprezentace, která obsahuje glosář (definici pojmů) a tezaurus (definici vztahů mezi jednotlivými pojmy). Ontologie je slovníkem, který slouží k uchovávání a předávání znalosti týkající se určité problematiky. ( http://cs.wikipedia.org/wiki/Ontologie ) Dotazovací jazyky II TopX

Hl.komp. - 3. Procesor dotazov Dotazovací jazyky II TopX

Hl.komp. – 3. Procesor dotazov pri spracovaní dotazu, procesor dekomponuje dotaz vyvolá top-k algoritmus okrem toho má nastarosti udržovať medzivýsledky a kandidátov v prioritnej fronte plánuje sekvenčné náhodné prístupy do pred-počítaného indexového zoznamu – ide o multi-vláknovú architektúru procesor má k dispozícií viacero komponent(4.-6.), ktoré môžu byť na vyžiadanie zapojené a poskytovať prostriedky pre zmenšenie pracovného času Dotazovací jazyky II TopX

Hl.komp. – 4. Index Access Scheduler Dotazovací jazyky II TopX

Hl.komp. – 4. Index Access Scheduler Plánovač prístupu k indexom poskytuje množinu plánovacích stratégií pre usporiadaný a náhodný prístup k prvkom indexov. napr. jednoduché heuristiky, ktoré sú rozumne efektívne s veľmi nízkou réžiou pokročilé stratégie založené na pravdepodobnostných cenových modeloch, s lepšou redukciou prístupov, ale vyššou réžiou Dotazovací jazyky II TopX

Hl.komp. – 5. Propabilistic Candidate Prunning Dotazovací jazyky II TopX

Hl.komp. – 5. Propabilistic Candidate Prunning Pravdepodobnostné prerezávanie(stromu) kandidátov založený na matematických modeloch predpovede skóre kandidátov odhad výberu v XML elementov umožňuje to systému odhodiť kandidátov, u ktorých je malá pravdepodobnosť, že by sa dostali do top-k s kontrolovateľnou garantovanou mierou risku Dotazovací jazyky II TopX

Hl.komp. – 6. Dynamic Query Expansion Dotazovací jazyky II TopX

Hl.komp. – 6. Dynamic Query Expansion Dynamické rozširovanie dotazu komponenta mapuje kľúčové slová dotazu do konceptov v prístupnom tezaure alebo ontológií a inkrementálne generuje/rozširuje kandidátov je to prekladané s aktuálnym spracovaním dotazu Dotazovací jazyky II TopX

Jazyky dotazovania Podpora 2 typov zápisu dotazov XPath 2.0 Full-Text jazyk NEXI podpora pre XPath.ovske osy descendant ≡ „//“ self ≡ „.“ operátor about obdoba ftcontains typický príklad dotazy v NEXI : //article[//bib[about(.//item, W3C)]] //sec[about(.//title, XML retrieval)] //par[about(., native XML databasese)] Dotazovací jazyky II TopX

Dátový model na dáta sa budeme dívať ako na stromový model pre polo-štruktúrované dáta ignorujú sa ľubovoľné metadata( <!...>) odkazy vo forme XLink alebo ID/IDRef atribútov s atribútmi je zachádzané ako s „deťmi“(priami potomci) príslušného uzlu textové uzly sú asociované s priamym predchodcom Dotazovací jazyky II TopX

Pripomenutie príkladu //article[//bib[about(.//item, W3C)]] //sec[about(.//title, XML retrieval)] //par[about(., native XML databasese)] Dotazovací jazyky II TopX

Počiatočný tvar stromu/grafu príkladového dotazu Dotazovací jazyky II TopX

Dotazovací model cieľový element(target element) najpravejší, top-level uzlový test na pozíciu na ceste všetky ostatné uzly označnované ako podporné elementy(support elements) cieľové elementy dotazu určujú granualitu výsledku v našom príklade je cieľovým elementom „par“ „article“, „bib“, „item“, „sec“, „title“ sú podporné elementy Dotazovací jazyky II TopX

Dotazovací model 2 použitím osí pre spätný smer, by mohli v grafe dotazu vytvoriť cyklus TopX je momentálne obmedzený na DAGy orientované acyklické grafy(Directed Acyclic Graph) Dotazovací jazyky II TopX

Interná reprezentácia dotazu Interpreter dotazu analyzuje dotaz dekomponuje ho do navigačných(navigational) podmienok obsahových podmienok podmienky potom tvoria uzly DAG grafu uzly sú spojené tipovanými hranami ktoré budú predstavovať štrukturálne obmedzenia každá hrana bude odpovedať nejakej XPath ose Dotazovací jazyky II TopX

Interná reprezentácia dotazu 2 Dotazovací jazyky II TopX

Interná reprezentácia dotazu 3 v našom názorovom príklade teda výskyt elementov „section“ a „title“ sú navigačné podmienky(teda aj všetky nelistové uzly) potreba výskytu výrazov „XML“ a „retrieval“ sú obsahové podmienky(teda aj všetky listy) potreba, aby element „section“ bol spojený s „title“ cez osu nasledovníka(descendant) je štrukturálne obmedzenie(teda aj každá hrana) po parsovaní, je dotaz interne reprezentovaný ako DAG, takže nezávisle na použitom jazyku Dotazovací jazyky II TopX

Interná reprezentácia dotazu 4 Hlavnými stavebnými kameňmi pre spracovanie dotazu sú tzv. značka-výraz páry(tag-term pairs) vznikajú spojením tokenov z „about“ operátoru s ich rodičmi v dotaze potrebujeme udržať aj informáciu o tom, že niektoré značka-výraz páry patria k rovnakému elementu, medzi patričné vrcholy sa pridávajú hrany reprezentujúce os „ja“(self) Dotazovací jazyky II TopX

Interná reprezentácia dotazu 5 Dotazovací jazyky II TopX

Interná reprezentácia dotazu 6 Branie v úvahu hrany patriace do tranzitívneho uzáveru doterajšieho grafu táto úprava je používaná, v prípade, že žiaden kandidát nespĺňa všetky pôvodné štrukturálne podmienky v takom prípade sa uvoľňujú štrukturálne podmienky pre dosiahnutie aspoň aproximovaných výsledkov Dotazovací jazyky II TopX

Interná reprezentácia dotazu 7 Dotazovací jazyky II TopX

Skóre model Hlavné stavebné bloky značka-výraz pár – každý získa pred-vypočítané relevantnostné skóre navigačné podmienky, ktoré nie sú súčasťou značka-výraz páru, prispievajú do agregovaného skóre matchovaného pod-stromu v dokumente statickou skóre hodnotou ak všetky tranzitivitou vložené štr. podmienky vychádzajúce z daného uzla sú splnené Dotazovací jazyky II TopX

Skóre model 2 Môžu nastať prípady, že 1 element splňujúci podmienky dotazu, bude podmienky spĺňať v rámci dokumentu vo viacerých podstromoch preto pre každý takýto cieľový element vrátime maximum zo skôr všetkých podstromov, v rámci ktorých element spĺňa podmienky V prípade požadovania výsledku ako celý dokument, obsahujúci element spĺňajúci podmienky, bude dokumentu priradené maximum zo skôr všetkých elementov splňujúcich podmienky Dotazovací jazyky II TopX

Skóre model 3 Podpora pre pokročilé vyhľadávacie vlastnosti ako sú napr. povinné kľúčové slová, negácie, matchovanie fráz v rámci about operátoru Model je aplikovateľný pre 2 typy interpetácie konjunktívna – kde každá podmienka musí byť splnená „andish“ – kde konečné poradie je vyhodnotené pomocou agregácie skóre, kde niektoré podmienky nemusia byť splnené vôbec Dotazovací jazyky II TopX

Obsahové skóre Element e spĺňa značka-výraz(tag-term) obsahovú podmienku ak e matchuje meno značky(tag) a podstrom s koreňom e, obsahuje výraz(term) score(e, A=t) ≡ skóre elementu e s menom A, na obsahovanie výrazu t Dotazovací jazyky II TopX

Obsahové skóre 2 occurence = počet výskytov výtazu t v elemente e specificiy = odvodená z počet elementov so značkou A v celom(pravdepodobne) dokumente ako predchádzajúci, ale obsahujúci výraz t size = zvažuje veľkosť normalizovaného podstromu/elementu(som veľmi nepochopil) Dotazovací jazyky II TopX

Obsahové skóre 3 Vzorec pre výpočet skóre je ešte ohýbaný kvôli vyhnutiu sa extrémnym prípadom Pre about operátor s viac výrazmi pripojenými k elementu e, bude agregované skóre e spočítané ako suma cez skóre elementu každej dvojice značka-term Dotazovací jazyky II TopX

Štrukturálne skóre model v podstate ráta počet splnených navigačných podmienok pre kandidátov a to pripája k matchovaním obsahovým podmienkam pre každú splnenú navigačnú podmienku, ktorá nie je súčasťou značka-výraz páru, priradí malú, konštantnú, nastaviteľnú hodnotu c každá navigačná podmienka odpovedá presne 1 uzlu v dotazovom DAG grafe navigačná podmienka je splnená elementom e v dokumente d, ak všetky štrukturálne obmedzenia s tranzitívne rozšírenom grafe splnené teda hrany vychádzajúce z elemenu e Dotazovací jazyky II TopX

Štrukturálne skóre 2 Dotazovací jazyky II TopX

Štrukturálne skóre 3 bez „self“ ôs, graf obsahuje 14 štrukturálne perfektný výsledok by sa zhodoval vo všetkých 14 hranách Dotazovací jazyky II TopX

Skóre elementu pre každý dokument je vrátený usporiadaný zoznam cieľových elementov - T(d) pre výpočet skóre pre element e z T(d), je potreba nájsť v strome dokumentu d vhodné vsadenia DAG grafu dotazu – Trees(e) pre každý strom k z Trees(e), je skóre k vypočítané ako suma všetkých skóre splnených obsahových(C) a štrukturálnych podmienok(N) takých stromov pre e môže byť viac, preto definujeme skôre pre e ako : Dotazovací jazyky II TopX

Skóre elementu vysoká hodnota c nízka hodnota c hodnota c nám určuje, či uprednostňujeme plnenie štrukturálnych podmienok, alebo hodnotových podmienok vysoká hodnota c dominujú štrukturálne požiadavky uprednostnenie výsledkov podporujúce podporné elementy nízka hodnota c zvýhodňuje kandidátov splňujúcich obsahové podmienky nevadia nejaké nesplnené štrukturálne podmienky Dotazovací jazyky II TopX

Skóre dokumentu v prípade požadovania výsledkov ako celých dokumentov, zdedí dokument d skóre svojho najlepšieho cieľového elementu Dotazovací jazyky II TopX

Povinné výrazy Nech M, podmožina {1, ..., m}, je množina obsahových podmienok značených so znakom „+”, ktorý má naznačovať ich povinnosť Skóre pre kandidátsky element e dokumentu d bude definované ako kde βi = 1 ak i je z M ináč 0 Dotazovací jazyky II TopX

Negácie a frázy frázová obsahová podmienka je považovaná za splnenú iba ak full-content elementu obsahuje frázu min. raz jeho skóre za túto frázu bude sumou skór za tokeny fráze frázové negácie podobne ako negácie výrazov výskyt negovanej obsahovej podmienky v dokumente by nemal celý dokument vyradiť z procesu výberu kandidáta dokument by mal dostať iba istú „penalizáciu“ alebo dostať pridané za nevyskytovanie sa podmienky Dotazovací jazyky II TopX

Spracovanie dotazu TopX procesor dotazu je zodpovedný za top-k spracovanie založené na prehľadávaní indexov udržiavanie kandidátov kostra algoritmu spočíva v Kombinovanom algoritme(Combined Alboritm-CA Dotazovací jazyky II TopX

CA Algoritmus kombinuje sekvenčné prehľadávanie invertovaných zoznamov indexov náhodné vyhľadávanie indexových záznamov Základom CA je „round-robin“ podobná procedúra – zotriedený prístup(sorted access – SA) ale multivláknová a dávková „round robin“ typ algoritmu plánovania proces odosielajúci výstup spať na vstup SA prechádza invertované indexy každý predstavuje zoznam všetkých elementov uspokujúcich jeden výraz-značka podmienku sú zotriedené zostupne podľa skóre Dotazovací jazyky II TopX

Spracovanie dotazu 2 Hlavný algoritmus je rozšírení o plánovač náhodného prístupu(random access - RA) rieši plánovanie náhodných prístupov pre riešenie ešte nerozhodnuté podmienok umožňuje riešenie navigačných a zložitejších full-text podmienok, ktoré nie sú riešiteľné prístupom k zotriedeným indexom, resp. by tieto operácie boli príliš drahé Dotazovací jazyky II TopX

Indexové štruktúry TopX využíva 2 hlavné indexy pre obsahové podmienky štrukturálne podmienky 1 pomocný index pozícií pre frázové podmienky Všetky indexy sú implementované v relačnom SRBD pomocou B+ stromov Dotazovací jazyky II TopX

Index – značka-obsah pre každý značka-obsah pár máme inverotvaný index : (tag, term, docid, pre, post, level, score, maxscore) pre/post – je pre/post order kódovanie elementu level – hĺbka v strome scóre – je skóre pre danú podmienky v elemente maxscore – max. skóre pre danú značka-výraz podmienku v rámci elementov dokumentu záznamy sú zotriedené podľa – maxscore, docid, score použivaný pre oba, sekvenčné prehľadávanie aj náhodný prístup Dotazovací jazyky II TopX

Index – značka-obsah 2 Dôvod usporiadania značka-výraz indexu chceme spracovať matchujúce elementy v zostupnom poradí ale zároveň chceme spracovať všetky elementy v rámci rovnakého dokumentu a značka-výraz zhody dané zoradenie nám dáva zhody pre najväčšie skóre a zhromažďuje zároveň všetky elementy daného dokumentu Dotazovací jazyky II TopX

Index - štrukturálny zakódovanie polohy elementu v dokumente, ktoré nám dáva možnosť efektívneho testu pre XPath osy (tag, docid, pre, post, level) tieto záznamy sú pristupované iba náhodným vyhľadávaním pre dané elementy používaný iba pre náhodný prístup Dotazovací jazyky II TopX

Index – štrukturálny 2 Navigácia medzi XPath osami pomocou pre/post hodnôt test, či e1 je predok elementu e2 ak [pre(e1) < pre(e2)] AND [post(e1) > post(e2)] s pomocou ďalšej hodnoty, level, je možné analogicky určiť všetkých 13 XPath ôs Dotazovací jazyky II TopX

Index - pozičný pre každý výraz máme záznam (term, docid, pos) pos – pozícia výskitu termu v dokumente používané pre testovanie matchovania fráze používaný iba pre náhodný prístup Dotazovací jazyky II TopX

Spracovanie dotazu 3 nech dotaz pozostáva z m obsahových podmienok n štrukturálnych podmienok TopX, za účelom ohodnotenia a usporiadania, prehľadáva všetky značka-výraz indexi pre obsahové podmienky v dodanom poradí Dotazovací jazyky II TopX

Spracovanie dotazu 4 algoritmus prevádza iteratívne prečíta záznamy aktuálne čítaného indexu pre daný dokument vyhovujúce záznamy sú hashovane spojené s dočasnými výsledkami vyhľadávania v predchádzajúcich indexoch pre daný dokument s týmto spojením je zároveň prevádzaná kontrola na navigačných podmienok pomocou pre/post poradových čísel elementov skóre sú agregované a updatované Dotazovací jazyky II TopX

Zpracovanie dotazu 5 Spôsob počítania skóre nám dáva určitú nejasnosť ohľadom konečného skóre kandidátov to implikuje udržiavanie nie len momentálnych top-k kandidátov, ale aj všetkých možných, ktorý by sa medzi top-k ešte mohli dostať existujú 2 prioritné fronty aktuálnych top-k výsledkov kandidátov na top-k výsledky Dotazovací jazyky II TopX

XPath vyhodnocovanie Po každom výbere bloku elementov dokumentu pre nejakú z obsahových podmienok, je tento blok porovnávaný ostatnými blokmi elementov daného dokumentu, ktoré sme dostali z prehľadávania indexov pre ostatné obsahové podmienky sú testované štrukturálne podmienky je prípadne agregované skóre Dokumenty, ktoré máju v každom bloku aspoň 1 element, spĺňajú všetky štrukturálne podmienky doteraz testované sú ponechané na ďalšie testovanie zvyšný kandidáti môžu byť z dôvodu šetrenia „drahej“ pamäte vypustený Dotazovací jazyky II TopX

XPath vyhodnocovanie Dotazovací jazyky II TopX

Plánovanie náhodných prístupov Definovanie „drahých“ pedikátov ak nieje možné ho vyriešiť cez prístup k zoradeným indexom alebo by takéto riešenie bolo veľmi drahé značka podmienky(teda bez výrazu), pretože potrebujú prístup do štrukturálneho indexu frázy pretože požadujú prístup do pozíciového idexu negácie – potreba skúmania celých zoznamov Dotazovací jazyky II TopX

Min-probe heuristika Odkladanie testovania drahých predikátov pomocou RA tak dlho, ako je to možné Testy prevádzať iba v prípade, že by ich vyhodnotenie viedlo k posunu kandidáta do top-k Udržiavanie hodnoty skóre, ktoré by prvok nadobudol v prípade platnosti predikátu Dotazovací jazyky II TopX

Ben-probe plánovanie Min-probe heuristika nebrala v úvahu pomer výhoda/cena náhodného vs. zoradeného prístupu a neuvažovala nikdy o RA pri značka-term podmienkach Ben-probe – pomocou cenového modelu vyberá nasledujúci krok(RA/SA) Dotazovací jazyky II TopX

Ben-probe plánovanie 2 Určuje pravdepodobnosť pre dokument d, d už bol spracovaný pomocou indexov E(d) pomocou E’(d) nie že sa kvalifikuje do konečného top-k, pomocou prediktoru skóre a odhadcu výberu(selectivity estimator) výpočty prediktoru a odhadcu by bolo zbytočne ukazovať a vysvetľovať Dotazovací jazyky II TopX

Expanzia dotazu Metóda pre zlepšenie odozvy(recall) pre zložité dotazy Tradične používané metódy výber rozširovacích výrazov, ktorých tematická podobnosť je nad určitou hranicou sú sprevádzané problémami hranice musia byť „opatrne“ a ručne nastavené nevhodne zvolená hranica môže spôsobiť žiadne zlepšenie „zriedenie“ témy viesť k dotazom s veľkým množstvom výrazov čo spôsobuje stratu efektivity vyhodnocovania Zvlášť, pre XML, kde sa expanzia týka aj značiek Dotazovací jazyky II TopX

Expanzia dotazu 2 Technika použitá v TopX rieši tieto problémy pomocou dynamické a inkrementálneho zlučovania inverovaných zoznamov pôvodných výrazov s výrazmi potenciálne použiteľnými k expanzii Táto metóda funguje ako u výrazov, tak u značiek Dotazovací jazyky II TopX

Expanzia založenia na tezaure Generovanie potenciálnych výrazov/významov pre expanziu pomocou databáze založenej na tezauru - WordNet.e Dotazovací jazyky II TopX

Odbočka - WordNet je najväčšia elektronicky dostupná databáza anglických slov. podst. mená, slovesá, prídavné mená a príslovky sú zgrupované do skupín známych(cognitive) synoným – synsets, kde každá predstavuje rozdielny koncept Dotazovací jazyky II TopX

„Od-významovanie“ významu slova Klasické metódy rozširovania v IR trpia Viacznačnosťou – slovo má viac významov závislých na kontexte Synonymitou – viac slov má rovnaký význam Za účelom vyriešenia týchto problémov je výraz mapovaný do WordNet konceptu pomocou porovnávania určitej formy kontextu výrazu s kontextom synsetov(a ich ontologických susedov) Dotazovací jazyky II TopX

Výber z významov Pomocou slovných štatistík pre lokálny kontext výrazu a kandidátskeho významu kontext výrazu je tvorený dotazom kontext synsetov tvorené hyponýma – podriedený pojem inému pojmu hypernýma – nadriadený pojmu inému hyponými hypernýmov Dotazovací jazyky II TopX

Porovnávanie kontextov Kontexty kandidátov sú pomocou miery porovnávané na podobnosť s kontextom výrazu. Často používané miery kosínová podobnosť(?) Kullback-Leiber divergecia Vybraný je synset, ktorého kontext je najmenej vzdialený od kontextu výrazu Dotazovací jazyky II TopX

Voliteľnosť expanzie TopX môže expandovať všetky výrazy, alebo iba tie, ktoré užívateľ označí pomocou operátora „~“ Dotazovací jazyky II TopX

Záver Zaujímavý a pomerne premyslený systém Žiaľ pre mňa osobne, strašne zložitý text, ktorý mi dosť bránil k pochopeniu niektorých častí... Otázky ? Dotazovací jazyky II TopX

Zdroje Článok vydaný v „The VLDB Journal(2008) 17:81-115“ Názov : „TopX: efficient and versatile tok-k query processing for semistructured data“ Autori : M.Theobald, H.Bast, D.Majumdar, R.Schenkel, G.Weikum Informácie o „WordNet“ http://wordnet.princeton.edu/ Niektoré definície http://www.wikipedia.org Dotazovací jazyky II TopX