Presentation is loading. Please wait.

Presentation is loading. Please wait.

Modern Information Retrieval 第三組 87070300 陳國富 87068800 王俊傑 87070600 夏希璿.

Similar presentations


Presentation on theme: "Modern Information Retrieval 第三組 87070300 陳國富 87068800 王俊傑 87070600 夏希璿."— Presentation transcript:

1 Modern Information Retrieval 第三組 87070300 陳國富 87068800 王俊傑 87070600 夏希璿

2 Our Environment CPU : Duron 700 RAM : 320MB OS : Microsoft XP Professional Database : Mysql Database Program Language : PHP Script Language Store Device : 30GB 7200rpm HardDisk

3 FrameWork 文件 Index Processor DataBase Ranking Processor WW W 圖表 1: 系統架構圖 讀取 儲存 查詢 回報 檢索 結果

4 Indexing Processing 讀取文件 去除 Stop Word 產生單字 Weight 去除 Weight 過小的單字

5 Indexing Processing(Cont.) 計算方式 : Weight = W n + log e (T/T s ) W n : index 在該文章中出現的次數 T : 文章總數 T s : 含有該 index 的文章總數 去除 weight 過小的 index

6 Indexing Processing(Cont.) 舉例 - “Play” Weight : 5.965 “Taiwan” Weight : 25.745 “Stock” Weight : 13.922 每個 index 在不同文件中,其 weight 都不同

7 Search & Ranking 假設 Query = (Q1, Q2,Q3 …..Qn) 為使用者輸入的檢 索, n 為 Query 的單字數目; (D1,D2,D3 ….Dm) 為檢索 出來的文章, m 為檢索結果的數目 w ij 為 Q i 在 D j 中的 weight 值 W j = Σ w ij = 所有檢索在 D j 中的 weight 總和 DOCW j = 在文章 j 中,所有 index 的 weight 總和

8 Search & Ranking(Cont.) 依照下列來決定排名 文章中含有 Query 數目的多寡 Query 在該篇文章中所佔的比例重 = ( W j / DOCW j ) 文章的 index weight 總和 ( DOCW j ) 當 Query 單字 > 2 時,才作為排名的依據

9 Search & Ranking(Cont.) Recall0%10%20%30%40%50%60%70%80%90%100% Precision 使用文章加權 47.77 % 28.80 % 21.26 % 17.10 % 15.97 % 12.79 % 9.00%6.29%4.38%2.58%0.29% Precision 不使用文章加 權 44.50 % 29.03 % 20.39 % 16.89 % 15.10 % 12.47 % 9.02%6.20%4.35%2.42%0.29%

10 Search & Ranking(Cont.) 0%10%20%30%40%50%60%70%80%90%100% 用文章加權 38.1616.7810.037.186.453.973.052.431.990.970.01 無文章加權 32.3917.178.526.824.963.433.042.271.970.690.01

11 Search & Ranking(Cont.) Recall0%10%20%30%40%50%60%70%80%90%100 % Precision61.22 % 45.64 % 36.99 % 30.98 % 29.30 % 25.13 % 17.34 % 11.69 % 7.73 % 4.83 % 0.68 %

12 結論  對於較長的 Query 準確率較低 無法分析 Query 中的每個 word Query 中每個 Word 的比重不一定相同 “ Actions Against International Terrorists ” 重點在於 “ Against ” 及 “ Terrorists ” 兩字  Index 的選擇


Download ppt "Modern Information Retrieval 第三組 87070300 陳國富 87068800 王俊傑 87070600 夏希璿."

Similar presentations


Ads by Google