Download presentation
Presentation is loading. Please wait.
Published byJada Walsh Modified over 10 years ago
1
Window type passage retrieval Supported by German Morphological Analyzer University of Stuttgart Kieko SAITOEsther Koenig-Baumer Institute of Natural Language Processing
2
Number of machine readable docs. increasing. Background How to utilize stored documents? Each text is so large, Where is the information I need? Query = Users interest List User Stored Documents Institut für Maschinelle Sprachverarbeitung 2 Universität Stuttgart
3
Number of machine readable docs. increasing. Background Query = Users interest List User Stored Documents Passage Retrieval Institut für Maschinelle Sprachverarbeitung 3 Universität Stuttgart How to utilize stored documents?
4
Overview of Passage Retrieval Information Retrieval Query Processing Document Processing Query Bombe Waffe Passage Retrieval Term Normalization Generator Token Token Token Unit Generator Token Token Token Unit Stopwords Elimination Ft Ct Ft Ft Ct Ct Ct Ft Ct Ft Ct Ft Ft Ct Ct Ct Ft Ct Ft Ct Ct Ct Ct Query Expansion Thesaurus Germanet Co-occurrence Terror Query Match Window Search Query Gather… Keep per Sentence S1 politik @ @ bombe.. Politik die naechste bombe S2 @ @ anschlag @ @... Nach dem Anschlag auf das.. Institut für Maschinelle Sprachverarbeitung 4 Universität Stuttgart
5
Window type Passage Construction Kurohashi(1997) Hanning Window Seg = 1500str M.Kaszkiel(1997) Window Seg = 150–300 words J.P.Calan (1994) Window Seg = 200–300 words Institut für Maschinelle Sprachverarbeitung 5 Universität Stuttgart
6
What is the Problem? Information Retrieval Query Processing Document Processing Query Bombe Waffe Passage Retrieval Term Normalization Generator Token Token Token Unit Generator Token Token Token Unit Stopwords Elimination Ft Ct Ft Ft Ct Ct Ct Ft Ct Ft Ct Ft Ft Ct Ct Ct Ft Ct Ft Ct Ct Ct Ct Query Expansion Thesaurus Germanet Co-occurrence Terror Query Match Window Search Query Gather… Keep per Sentence S1 politik @ @ bombe.. Politik die naechste bombe S2 @ @ anschlag @ @... Nach dem Anschlag auf das.. Institut für Maschinelle Sprachverarbeitung 6 Universität Stuttgart
7
What prevents accurate term matching? 1. Inflection 2. Compound Words 3. Verb Particles 4. Synonym 5. Anaphora How to conflate token? Institut für Maschinelle Sprachverarbeitung 7 Universität Stuttgart
8
What prevents accurate term matching? 1. Inflection 2. Compound Words 3. Separable Verb Particles 4. Synonym 5. Anaphora Institut für Maschinelle Sprachverarbeitung 8 Universität Stuttgart How to conflate token?
9
1. Inflection a. TokenForm in use Haeuser schoenesspielt b. LemmaDictionary form Hausschoenspielen c. StemUnit without suffix Hausschoenspiel PR Unit = Unit without inflection, derivation Haeuser haus Spielt spiel How do we eliminate inflection ? Stemming ? Problem German inflection can affect a stem Sspielen spielt gespielt / Haus Haeuser... Use Dictionary for root form construction Institut für Maschinelle Sprachverarbeitung 9 Universität Stuttgart
10
1. Inflection Stemmer Porter Becker Dictionary IMSLex Morphological Analyzer IMSinfl Unknown 56% OUTPUT = Stem 44% Simple morphological rule Dictionary Matching with Decomposition Institut für Maschinelle Sprachverarbeitung 10 Universität Stuttgart Sspielte Ggespielt spielbereite Sspielt Ggespielt spielbereit Sspielen Gspielen Sspielen Gspielen Spiel=bereit Unknown 26%
11
What prevents accurate term matching? 1. Inflection 2. Compound Words 3. Separable Verb Particles 4. Synonym 5. Anaphora Institut für Maschinelle Sprachverarbeitung 11 Universität Stuttgart How to conflate token?
12
2. Compound Words term space term New York term-term US-Wirtschaftsministerium termtermBundeswirtschaftsminister Compound forms in German Match all three variations. Possibility of Partial Match. Meaning Relationship US-Wirtschaftsministerium US Wirtschaftsministerium Use Morphological Analyser - Decomposition - Lemmatization Institut für Maschinelle Sprachverarbeitung 12 Universität Stuttgart
13
2. Compound Words Query Construction us wirtschaft ministerium us[ -=]wirtschaft wirtschaft[ -=]ministerium us[ -=]repraesentanten[ -=]haus Query decomposition US-Wirtschaftsministerium {US}-Wirtschafts=Ministerium+NN.Neut.Akk.Sg us[ -=]wirtschaft[ -=]ministerium Morphological Analyzer Document Processing Original …wirt die US-Wirtschaft im naechsten Jahrzeit Stopwords … @ @ US-Wirtschaft @ @ JahrZeit … @ @ us-wirtschaft @ @ jahr=zeit Morphological Analyzer Institut für Maschinelle Sprachverarbeitung 13 Universität Stuttgart
14
What prevents accurate term matching? 1. Inflection 2. Compound Words 3. Separable Verb Particles 4. Synonym 5. Anaphora Institut für Maschinelle Sprachverarbeitung 14 Universität Stuttgart How to conflate token?
15
3. Separable Verb Particle - Particle + Finite Verb ( nachdenken umziehen) Problem One term splits into two units in documents. Konzernschef lehnen den milliardaer als US-Praesidenten ab. … dass er ihr das abgelehnte kind mit zusaezlichen schaeden…. Allerdinge bedaure ich die ablehnende Haltung einiger gewerkschafter… How to enable treating separate units as 1 unit? Use POS tag for Lemmatization Institut für Maschinelle Sprachverarbeitung 15 Universität Stuttgart
16
Konzernschef lehnen den milliardaer als US-Praesidenten ab. Konzernschef ablehnen den milliardaer als US-Praesidenten. 1. POS Tagger Treetagger Konzernschef lehnen den Milliardaer als US-Praesidenten ab. NN VVFIN ART ADJA KOKOMNN PTKVZ 2. Keep output per Sentence Konzernschef NN Lehnen VVFIN den ART Milliardaer ADJA als KOKOM US-Praesidenten NN 3. Back to VVFIN ab PTKVZ Konzernschef NN Lehnen VVFIN den ART Milliardaer ADJA als KOKOM US-Praesidenten NN Konzernschef NN abLehnen VVFIN den ART Milliardaer ADJA als KOKOM US-Praesidenten NN 4. Reconstruct Lemmatization Institut für Maschinelle Sprachverarbeitung 16 Universität Stuttgart 3. Separable Verb Particle konzern=schef ablehn Milliardaer @ US-Praesidenten @ 5. Output Stopwords Morphological Analyzer
17
What prevents accurate term matching 1. Inflection-- Dictionary IMSLes 2. Compound Words-- Morphology IMS infl 3. Separable Verb Particles-- POS tag Treetagger 4. Synonym 5. Anaphora 1. Inflection-- Dictionary IMSLes 2. Compound Words-- Morphology IMS infl 3. Separable Verb Particles-- POS tag TreeTagger 4. Synonym Thesaurus or Co-occurrence 5. Anaphora Institut für Maschinelle Sprachverarbeitung 17 Universität Stuttgart
18
What prevent accurate term match? 1. Inflection-- Dictionary IMSLes 2. Compound Words-- Morphology IMS infl 3. Separable Verb Particles-- POS tag Treetagger 4. Synonym Thesaurus or Co-occurrence 5. Anaphora Institut für Maschinelle Sprachverarbeitung 18 Universität Stuttgart Token Normalization for Term Matching
19
Conclusion NLP tools lead to accurate term matching. 1. IMSLex based inflection elimination 2. Compound words matching by Morphological Analyzer IMSinfl 3. Lemmatization of particle verbs by Pos Tagger TreeTagger Dose the accurate term matching brings accuracy to search results? Future work is evaluation. Institut für Maschinelle Sprachverarbeitung 19 Universität Stuttgart
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.