Vyhľadávanie informácií Softvérové knižnice a systémy Vyhľadávanie informácií Michal Laclavík
Vyhľadávanie informácií Tools IR libraries & engines –Lucene –Egothor –Xapian –mnoGoSearch Lucene –Nutch –Porty –SearchBlox
Vyhľadávanie informácií Lucene Indexing IndexWriter Directory –FSDirectory, RAMDirectory Analyzer Document –Collection of fields Field –Keyword, UnIndexed, UnStored, Text
Vyhľadávanie informácií Lucene Indexing 2 Indexing Dates Boosting –Field.setBoost Indexing Numbers –Adding zeros, Analyzers Sorting –Not tokenized, Field Keyword Directory –FSDirectory, RAMDirectory Term vector –Field.Unstored(“subject”,subject,true);
Vyhľadávanie informácií Lucene Searching IndexSearcher Term Query –Boolean, Phrase, Prefix, Range, Fuzzy (levenstein) TermQuery Hits
Vyhľadávanie informácií Lucene Searching 2 Query q = QueryParser.parse(“search”, “field”, new SimpleAnalyzer()); –+pubdate:[ TO ] Java AND (Jakarta OR Apache) –Query.toString() Scoring –Similarity, DefaultSimilarity Sorting –By field, by multiple MultiFieldQueryParser Filtering
Vyhľadávanie informácií Lucene Searching 3 Custom Sort Method –Distance search
Vyhľadávanie informácií Lucene Analysis XY&Z Corporation – WitespaceAnalyzer –[XY&Z] [Corporation] [–] SimpleAnalyzer – kills numbers –[XY] [Z] [corporation] [xyz] [example] [com] StopAnalyzer –[XY] [Z] [corporation] [xyz] [example] [com] StandardAnalyzer –[XY&Z] [corporation]
Vyhľadávanie informácií Lucene Analysis 2 Indexing Querying –Query parse, QueryTerm not Analyzed Results –Tokens, position type –Terms, position TokenStream, Tokenizer, TokenFilter
Vyhľadávanie informácií Lucene Analysis 3 Synonyms, aliases –Same position (phrase query) UTF-8 –Kodovania, znaky HTML –Content-type Nutch analysis –The quick
Vyhľadávanie informácií SandBox Development tools –Lucli CLI –Luke – toolbox SnowBall analyzer T9 indexing example Highlite BerkleyDB
Vyhľadávanie informácií Lucene Doc format XML –SAX parser Xserces –Digester Apache Jakarta PDF –PDFBox.org –Buildin support HTML –JTidy.sf.net –NekoHTML Word –POI – jakarta project –TextMining.org RTF –Javax.swing.text.rtf
Vyhľadávanie informácií Tools DocSearcher Docco SearchBlox
Vyhľadávanie informácií Lucene Ports CLucene dotLucene Plucene Perl Lupy Python PyLucene GCJ + SWIG
Vyhľadávanie informácií Nutch Build on lucene Fetcher, searcher interface Scalable to several bilions Ranking ??? Hadoop –Implementacia MapReduce
Vyhľadávanie informácií Other Use cases JGuru SearchBlox Alias-i
Vyhľadávanie informácií Linux tools Catdoc –Xsl, doc –openoffice Pdftotext (XPDF) Encoding –enca
Vyhľadávanie informácií Ine kniznice QTag –POS tagging Stemming –Snowball –Potter –Tvaroslovnik, JULS SimMetrics –Podobnosti, levenstein, cosmiera GATE