INFORMATION RETRIEVAL AND EXTRACTION 作業: Program 1 第十四組 組員:林永峰、洪承雄、謝宗憲
一、作業平台 CPU 速度 : Athlon 1G RAM 大小 : 384MB 作業系統 :Windows 2000 使用語言 : Java
二、使用的 Indexing 方法 先用 Hash Table 將 Key 跟對應的文件 (DOCNO) 存在記憶體。 然後將 key 當 file name ,文件為 data ,存成 Inverted index ,有 55,379 個 file 。 每次讀進十個檔案,在記憶體中,先做成 Hash Table ,再寫入檔案,建索引檔。 因為磁碟上的檔案格式,為有良好的建檔 格式,所以相當好搜尋。
三、建 Index 相關資料 建檔耗費時間 : 6 小時 :21 分 :46 秒 建檔所需空間 : 資料大小 :129MB 磁碟空間 :531MB 磁碟空間 :531MB Index 有 55,379 個 Index 有 55,379 個 Search time : 大約 0.3~5 秒 其他: 一次能夠搜尋到 1000 筆
四、程式畫面
五、程式架構 詳 註:此架構參考 書名: Information Retrieval ,作者不詳
六、建索引之心得 記憶體之考慮,因為文件太多,不能將所 有資料,在記憶體中一次建完 Index ,所以 應該外部處理,再分別 Merge 起來。 Stemming ,方法找到有 Poter 跟 Lovins 兩 種,測試後, Lovins 的效能比 Poter 好。 記憶體中的文件資料或查詢技巧,運用 Hash Table 及 Set 的技巧來實作。
七、參考書目 Modern Information Retrieval by R. Baeza-Yates and B. Ribeiro-Neto, Addison-Wesley, Information retrieval 作者不詳. 作者不詳.