Presentation is loading. Please wait.

Presentation is loading. Please wait.

資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文.

Similar presentations


Presentation on theme: "資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文."— Presentation transcript:

1 資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

2 IR System Evaluation - 2 測試集 (Test Collections) z 組成要素 y 文件集 (Document Set; Document Collection) y 查詢問題 (Query; Topic) y 相關判斷 (Relevant Judgement) z 用途 y 設計與發展 : 系統測試 y 評估 : 系統效能 (Effectiveness) 之測量 y 比較 : 不同系統與不同技術間之比較 z 評比 y 根據不同的目的而有不同的評比項目 y 量化的測量準則,如 Precision 與 Recall

3 IR System Evaluation - 3 測試集 (Test Collections) ( 續 ) z 小型測試集 y 早期 : Cranfield y 英文 : SMART, OHSUMED, Cystic Fibrosis, LISA…. y 日文 : BMIR-J2 z 大型評比環境 : 提供測試集及研討的論壇 y 美國 : TREC y 日本 : NTCIR, IREX, y 歐洲 : AMARYLLIS

4

5 IR System Evaluation - 5 Cranfield II z 比較 33 種不同索引方式之檢索效益 z 蒐集 1400 篇有關太空動力學的文件 ( 摘要形式 ) z 請每位作者根據這些文件與其當時研究的主題提 出問題,經篩選後產生 200 餘個查詢問題

6 IR System Evaluation - 6 Cranfield II (Continued) zCranfield II 測試集中相關判斷建立四個步驟 y 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進 行相關判斷 y 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共 花了 1500 小時進行了 50 萬次以上的相關判斷,希望能找出所有的 相關文件。 y 為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間 之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同 引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。 y 最後,將以上找出的所有文件,再一併送回給原作者進行判斷。

7 IR System Evaluation - 7 TREC ~簡介 zTREC: Text REtrieval Conference z 主辦 : NIST 及 DARPA ,為 TIPSTER 文件計劃之子計劃 之一 z 文件集 y5GB 以上 y 數百萬篇文件

8 IR System Evaluation - 8 TREC 文件集

9 IR System Evaluation - 9 TREC 之文件標示

10 IR System Evaluation - 10 TREC-1 and TREC-2 查詢主題

11 IR System Evaluation - 11 TREC-3 查詢主題

12 IR System Evaluation - 12 TREC-4 查詢主題

13 IR System Evaluation - 13 TREC ~查詢主題 z 主題結構與長度 z 主題建構 z 主題篩選 ypre-search y 判斷相關文件的數量

14 IR System Evaluation - 14 TREC-6 之主題篩選程序

15 IR System Evaluation - 15 TREC ~相關判斷 z 判斷方法 yPooling Method y 人工判斷 z 判斷基準 : 二元式, 相關與不相關 z 相關判斷品質 y 完整性 y 一致性

16 IR System Evaluation - 16 Pooling 法 z 針對每個查詢主題,從參與評比的各系統所送回 之測試結果中抽取出前 n 篇文件,合併形成一個 Pool z 視為該查詢主題可能的相關文件候選集合,將集 合中重覆的文件去除後,再送回給該查詢主題的 原始建構者進行相關判斷。 z 利用此法的精神是希望能透過多個不同的系統與 不同的檢索技術,盡量網羅可能的相關文件,藉 此減少人工判斷的負荷。

17 IR System Evaluation - 17 TREC 候選集合與實際相關文件之對照表

18 IR System Evaluation - 18 TREC ~評比

19 IR System Evaluation - 19 TREC ~質疑與負面評價 z 測試集方面 y 查詢主題 x 並非真實的使用者需求, 過於人工化 x 缺乏需求情境的描述 y 相關判斷 x 二元式的相關判斷不實際 xpooling method 會遺失相關文件, 導致回收率不準確 x 品質與一致性 z 效益測量方面 y 只關注量化測量 y 回收率的問題 y 適合作系統間的比較, 但不適合作評估

20 IR System Evaluation - 20 TREC ~質疑與負面評價 ( 續 ) z 評比程序方面 y 互動式檢索 x 缺乏使用者介入 x 靜態的資訊需求不切實際

21 IR System Evaluation - 21 BMIR-J2 ~簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: 1998.3 z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

22 IR System Evaluation - 22 BMIR-J2 ~相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

23 IR System Evaluation - 23 BMIR-J2 ~查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

24 IR System Evaluation - 24 NTCIR ~簡介 zNTCIR: NACSIS Test Collections for IR z 主辦 : NACSIS( 日本國家科學資訊系統中心 ) z 發展背景 y 大型日文標竿測試集的需求 y 跨語言檢索的研究發展需要 z 文件集 y 來源為 NACSIS Academic Conference Papers Database y 主要為會議論文的摘要 y 超過 330,000 篇文件, 其中超過 1/2 為英日文對照之文件 y 有部分包含 part-of-speech tags

25 IR System Evaluation - 25 NTCIR ~查詢主題 z 來源 : 搜集真實的使用者需求, 再據其修正改寫 z 每個學科主題領域各有 100 個測試主題 z 組成結構 編號 標題 資訊需求之簡短描述 資訊需求之細部描述, 包括更進一步的解釋, 名 詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量, 希望的文件類型, 相關判斷的標準等 相關概念的關鍵詞

26 IR System Evaluation - 26 NTCIR ~相關判斷 z 判斷方法 y 利用 pooling method 先進行篩選 y 由各主題專家, 及查詢主題的建構者進行判斷 z 判斷基準 yA: 相關 yB: 部分相關 yC: 不相關 z 精確率計算 : 依測試項目的不同而有不同 yRelevant: B 與 C 均視為不相關 yPartial Relevant : A 與 B 均視為相關

27 IR System Evaluation - 27 NTCIR ~評比 zAd-hoc Information Retrieval Task zCross-lingual Information Retrieval Task y 利用日文查詢主題檢索英文文件 y 共有 21 個查詢主題, 其相關判斷包括英文文件與日文文件 y 系統可選擇自動或人工建立查詢問題 y 系統需送回前 1000 篇檢索結果 zAutomatic Term Extraction and Role Analysis Task yAutomatic Term Extraction: 從題名與摘要中抽取出 technical terms yRole Analysis Task: 抽取出主旨, 研究方法, 研究程序

28 IR System Evaluation - 28 IREX ~簡介 zIREX: Information Retrieval and Extraction Exercise z 主辦 : IREX Committee z 參加者 : 約 20 隊 ( 或以上 ) z 預備測試:利用 BMIR-J2 測試集中之查詢主題 z 文件集 y 每日新聞, 1994-1995 y 參加者必須購買新聞語料

29 IR System Evaluation - 29 IREX ~查詢主題 z 組成結構 編號 簡短的資訊需求, 主要為名詞與其修飾語 構成的名詞詞組 詳細的資訊需求, 以自然語言敘述, 通常為 2 至 3 個句子組 成, 亦包含名詞解釋, 同義詞 或實例. ydescription 欄位中的詞彙必須包含在 narrative 欄位中

30 IR System Evaluation - 30 IREX ~相關判斷 z 判斷依據 : 測試主題的所有欄位 z 判斷方法 : 由學生二名進行判斷 y 若二人之判斷結果一致, 則完成相關判斷 y 若二人之判斷結果不一致或不確定, 則由三人來作最後 的判定 z 判斷基準 y 學生 : 6 個判斷層次 xA: 相關 A?: 不確定是否為相關 xB: 部分相關 B?: 不確定是否為部 分相關 xC: 不相關 C?: 不確定是否為不相關

31 IR System Evaluation - 31 IREX ~相關判斷 ( 續 ) y 最終判斷者 : 3 個判斷層次 xA: 相關 xB: 部分相關 xC: 不相關 z 相關判斷的修正

32 IR System Evaluation - 32 IREX ~評比 z 評比項目 yName Entity Task (NE) x 與 MUC 相似, 測試系統自動抽取專有名詞的能力, 如組織 名, 人名, 地名等. x 一般領域文件抽取 v.s. 特殊領域文件抽取 yInformation Retrieval (IR) x 與 TREC 相似 z 評比規則 y 送回文件:前 300 篇 yQuery 的建構:一律由系統自動建構

33 IR System Evaluation - 33 BMIR-J2 ~簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: 1998.3 z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

34 IR System Evaluation - 34 BMIR-J2 ~相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

35 IR System Evaluation - 35 BMIR-J2 ~查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

36 IR System Evaluation - 36 AMARYLLIS ~簡介 z 主辦: INIST (INstitute of Information Scientific and Technique) z 參加者 : 約近 10 隊 z 文件集 y 新聞文件 : the World, 共 2 萬餘篇 yPascal(1984-1995) 及 Francis(1992-1995) 資料中抽取出來 的文件題名與摘要部分, 共 30 餘萬篇

37 IR System Evaluation - 37 AMARYLLIS ~查詢主題 z 組成結構 編號 所屬之學科領域 標題 資訊需求之簡單描述 資訊需求之詳細描述 概念, 敘述語

38 IR System Evaluation - 38 AMARYLLIS ~相關判斷 z 原始的相關判斷 y 由文件集之擁有者負責建構 z 標準答案的修正 y 加入 x 不在最初的標準答案中,但被一半以上的參加者檢 索出來的文件 x 參加者所送回的檢索結果中的前 10 篇的文件 y 減去 x 在原始的標準答案中出現,但在參加者送回的檢索 結果中未出現的文件

39 IR System Evaluation - 39 AMARYLLIS ~評比 z 系統需送回檢索結果的前 250 篇 z 系統可選擇採取自動或人工的方式建立 query z 評比項目 yRouting Task yAdhoc Task


Download ppt "資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文."

Similar presentations


Ads by Google