Download presentation
Presentation is loading. Please wait.
PublishMaryann Thornton Modified over 9 years ago
1
Vyhľadávanie informácií08.11.20071 Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík
2
Vyhľadávanie informácií08.11.20072 Tools IR libraries & engines –Lucene –Egothor –Xapian –mnoGoSearch Lucene –Nutch –Porty –SearchBlox
3
Vyhľadávanie informácií08.11.20073 Lucene Indexing IndexWriter Directory –FSDirectory, RAMDirectory Analyzer Document –Collection of fields Field –Keyword, UnIndexed, UnStored, Text
4
Vyhľadávanie informácií08.11.20074 Lucene Indexing 2 Indexing Dates Boosting –Field.setBoost Indexing Numbers –Adding zeros, Analyzers Sorting –Not tokenized, Field Keyword Directory –FSDirectory, RAMDirectory Term vector –Field.Unstored(“subject”,subject,true);
5
Vyhľadávanie informácií08.11.20075 Lucene Searching IndexSearcher Term Query –Boolean, Phrase, Prefix, Range, Fuzzy (levenstein) TermQuery Hits
6
Vyhľadávanie informácií08.11.20076 Lucene Searching 2 Query q = QueryParser.parse(“search”, “field”, new SimpleAnalyzer()); –+pubdate:[20040101 TO 20041231] Java AND (Jakarta OR Apache) –Query.toString() Scoring –Similarity, DefaultSimilarity Sorting –By field, by multiple MultiFieldQueryParser Filtering
7
Vyhľadávanie informácií08.11.20077 Lucene Searching 3 Custom Sort Method –Distance search
8
Vyhľadávanie informácií08.11.20078 Lucene Analysis XY&Z Corporation – xyz@example.com WitespaceAnalyzer –[XY&Z] [Corporation] [–] [xyz@example.com] SimpleAnalyzer – kills numbers –[XY] [Z] [corporation] [xyz] [example] [com] StopAnalyzer –[XY] [Z] [corporation] [xyz] [example] [com] StandardAnalyzer –[XY&Z] [corporation] [xyz@example.com]
9
Vyhľadávanie informácií08.11.20079 Lucene Analysis 2 Indexing Querying –Query parse, QueryTerm not Analyzed Results –Tokens, position type –Terms, position TokenStream, Tokenizer, TokenFilter
10
Vyhľadávanie informácií08.11.200710 Lucene Analysis 3 Synonyms, aliases –Same position (phrase query) UTF-8 –Kodovania, znaky HTML –Content-type Nutch analysis –The quick
11
Vyhľadávanie informácií08.11.200711 SandBox Development tools –Lucli CLI –Luke – toolbox SnowBall analyzer T9 indexing example Highlite BerkleyDB
12
Vyhľadávanie informácií08.11.200712 Lucene Doc format XML –SAX parser Xserces –Digester Apache Jakarta PDF –PDFBox.org –Buildin support HTML –JTidy.sf.net –NekoHTML Word –POI – jakarta project –TextMining.org RTF –Javax.swing.text.rtf
13
Vyhľadávanie informácií08.11.200713 Tools DocSearcher Docco SearchBlox
14
Vyhľadávanie informácií08.11.200714 Lucene Ports CLucene dotLucene Plucene Perl Lupy Python PyLucene GCJ + SWIG
15
Vyhľadávanie informácií08.11.200715 Nutch Build on lucene Fetcher, searcher interface Scalable to several bilions Ranking ??? Hadoop –Implementacia MapReduce
16
Vyhľadávanie informácií08.11.200716 Other Use cases JGuru SearchBlox Alias-i
17
Vyhľadávanie informácií08.11.200717 Linux tools Catdoc –Xsl, doc –openoffice Pdftotext (XPDF) Encoding –enca
18
Vyhľadávanie informácií08.11.200718 Ine kniznice QTag –POS tagging Stemming –Snowball –Potter –Tvaroslovnik, JULS SimMetrics –Podobnosti, levenstein, cosmiera GATE
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.