Presentation is loading. Please wait.

Presentation is loading. Please wait.

IR 組員 : 資工 4A 87068800 王俊傑 資工 4B 87070300 陳國富 資工 4B 87070600 夏希璿.

Similar presentations


Presentation on theme: "IR 組員 : 資工 4A 87068800 王俊傑 資工 4B 87070300 陳國富 資工 4B 87070600 夏希璿."— Presentation transcript:

1 IR 組員 : 資工 4A 87068800 王俊傑 資工 4B 87070300 陳國富 資工 4B 87070600 夏希璿

2 程式開發環境 Web Interface : 1.Web Server : Internet Information Services 2.Web Script Language : PHP Indexing 程式 : Perl script language 使用 Database:mysql

3 程式架構和流程 存放 Index 的 DateBase Query Web-InterFace Result ‧ Indexing ‧ Query Document Indexing 去除 stop word 送出查詢 送回結果

4 Indexing 步驟 1. 將檔案讀入,去掉 stop word ( 程式執行前 以手動輸入 ) 。 2. 將單字, 及其出現的文章存入 Database 。 3. 先將一半的檔案以步驟 1,2 做處理。 4. 將不滿足 N/Ni >10 的單自從 Database 中 去除。 N : 文章總數 Ni: 某一單字出現過的文章數目

5 Indexing 步驟 5. 重複步驟 1,2,3 ,對剩下的檔案進行處理 6. 然後, 以 dfi=dfi*(1+log(N/Ni)) dfi ( 若 Ni=0, 即該單字未出現 ) 若 dfi > 該篇文章的總單字數 /100 則將該單字取為 index dfi: 只某一單字在單一篇文章出現的次數

6 Indexing 執行時間 Indexing : 一篇文章約 5~10 分鐘 ( 包含去除 stop word, 和 select index term 的時間 ) searching: 輸入 Query 為單一個單字時 searching 時間約 5~10 sec 輸入兩個單字時, searching time 大約為 30 sec


Download ppt "IR 組員 : 資工 4A 87068800 王俊傑 資工 4B 87070300 陳國富 資工 4B 87070600 夏希璿."

Similar presentations


Ads by Google