資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文.

資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文

IR System Evaluation - 2 測試集 (Test Collections) z 組成要素 y 文件集 (Document Set; Document Collection) y 查詢問題 (Query; Topic) y 相關判斷 (Relevant Judgement) z 用途 y 設計與發展 : 系統測試 y 評估 : 系統效能 (Effectiveness) 之測量 y 比較 : 不同系統與不同技術間之比較 z 評比 y 根據不同的目的而有不同的評比項目 y 量化的測量準則，如 Precision 與 Recall

IR System Evaluation - 3 測試集 (Test Collections) ( 續 ) z 小型測試集 y 早期 : Cranfield y 英文 : SMART, OHSUMED, Cystic Fibrosis, LISA…. y 日文 : BMIR-J2 z 大型評比環境 : 提供測試集及研討的論壇 y 美國 : TREC y 日本 : NTCIR, IREX, y 歐洲 : AMARYLLIS

IR System Evaluation - 5 Cranfield II z 比較 33 種不同索引方式之檢索效益 z 蒐集 1400 篇有關太空動力學的文件 ( 摘要形式 ) z 請每位作者根據這些文件與其當時研究的主題提出問題，經篩選後產生 200 餘個查詢問題

IR System Evaluation - 6 Cranfield II (Continued) zCranfield II 測試集中相關判斷建立四個步驟 y 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進行相關判斷 y 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視，共花了 1500 小時進行了 50 萬次以上的相關判斷，希望能找出所有的相關文件。 y 為了避免前述過程仍有遺漏，又利用文獻耦合的概念計算文件間之相關性，發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文，則稱這些文獻間具有耦合關係。 y 最後，將以上找出的所有文件，再一併送回給原作者進行判斷。

IR System Evaluation - 7 TREC ～簡介 zTREC: Text REtrieval Conference z 主辦 : NIST 及 DARPA ，為 TIPSTER 文件計劃之子計劃之一 z 文件集 y5GB 以上 y 數百萬篇文件

IR System Evaluation - 8 TREC 文件集

IR System Evaluation - 9 TREC 之文件標示

IR System Evaluation - 10 TREC-1 and TREC-2 查詢主題

IR System Evaluation - 11 TREC-3 查詢主題

IR System Evaluation - 12 TREC-4 查詢主題

IR System Evaluation - 13 TREC ～查詢主題 z 主題結構與長度 z 主題建構 z 主題篩選 ypre-search y 判斷相關文件的數量

IR System Evaluation - 14 TREC-6 之主題篩選程序

IR System Evaluation - 15 TREC ～相關判斷 z 判斷方法 yPooling Method y 人工判斷 z 判斷基準 : 二元式, 相關與不相關 z 相關判斷品質 y 完整性 y 一致性

IR System Evaluation - 16 Pooling 法 z 針對每個查詢主題，從參與評比的各系統所送回之測試結果中抽取出前 n 篇文件，合併形成一個 Pool z 視為該查詢主題可能的相關文件候選集合，將集合中重覆的文件去除後，再送回給該查詢主題的原始建構者進行相關判斷。 z 利用此法的精神是希望能透過多個不同的系統與不同的檢索技術，盡量網羅可能的相關文件，藉此減少人工判斷的負荷。

IR System Evaluation - 17 TREC 候選集合與實際相關文件之對照表

IR System Evaluation - 18 TREC ～評比

IR System Evaluation - 19 TREC ～質疑與負面評價 z 測試集方面 y 查詢主題 x 並非真實的使用者需求, 過於人工化 x 缺乏需求情境的描述 y 相關判斷 x 二元式的相關判斷不實際 xpooling method 會遺失相關文件, 導致回收率不準確 x 品質與一致性 z 效益測量方面 y 只關注量化測量 y 回收率的問題 y 適合作系統間的比較, 但不適合作評估

IR System Evaluation - 20 TREC ～質疑與負面評價 ( 續 ) z 評比程序方面 y 互動式檢索 x 缺乏使用者介入 x 靜態的資訊需求不切實際

IR System Evaluation - 21 BMIR-J2 ～簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: 1998.3 z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

IR System Evaluation - 22 BMIR-J2 ～相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

IR System Evaluation - 23 BMIR-J2 ～查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

IR System Evaluation - 24 NTCIR ～簡介 zNTCIR: NACSIS Test Collections for IR z 主辦 : NACSIS( 日本國家科學資訊系統中心 ) z 發展背景 y 大型日文標竿測試集的需求 y 跨語言檢索的研究發展需要 z 文件集 y 來源為 NACSIS Academic Conference Papers Database y 主要為會議論文的摘要 y 超過 330,000 篇文件, 其中超過 1/2 為英日文對照之文件 y 有部分包含 part-of-speech tags

IR System Evaluation - 25 NTCIR ～查詢主題 z 來源 : 搜集真實的使用者需求, 再據其修正改寫 z 每個學科主題領域各有 100 個測試主題 z 組成結構編號標題資訊需求之簡短描述資訊需求之細部描述, 包括更進一步的解釋, 名詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量, 希望的文件類型, 相關判斷的標準等相關概念的關鍵詞

IR System Evaluation - 26 NTCIR ～相關判斷 z 判斷方法 y 利用 pooling method 先進行篩選 y 由各主題專家, 及查詢主題的建構者進行判斷 z 判斷基準 yA: 相關 yB: 部分相關 yC: 不相關 z 精確率計算 : 依測試項目的不同而有不同 yRelevant: B 與 C 均視為不相關 yPartial Relevant : A 與 B 均視為相關

IR System Evaluation - 27 NTCIR ～評比 zAd-hoc Information Retrieval Task zCross-lingual Information Retrieval Task y 利用日文查詢主題檢索英文文件 y 共有 21 個查詢主題, 其相關判斷包括英文文件與日文文件 y 系統可選擇自動或人工建立查詢問題 y 系統需送回前 1000 篇檢索結果 zAutomatic Term Extraction and Role Analysis Task yAutomatic Term Extraction: 從題名與摘要中抽取出 technical terms yRole Analysis Task: 抽取出主旨, 研究方法, 研究程序

IR System Evaluation - 28 IREX ～簡介 zIREX: Information Retrieval and Extraction Exercise z 主辦 : IREX Committee z 參加者 : 約 20 隊 ( 或以上 ) z 預備測試：利用 BMIR-J2 測試集中之查詢主題 z 文件集 y 每日新聞, 1994-1995 y 參加者必須購買新聞語料

IR System Evaluation - 29 IREX ～查詢主題 z 組成結構編號簡短的資訊需求, 主要為名詞與其修飾語構成的名詞詞組詳細的資訊需求, 以自然語言敘述, 通常為 2 至 3 個句子組成, 亦包含名詞解釋, 同義詞或實例. ydescription 欄位中的詞彙必須包含在 narrative 欄位中

IR System Evaluation - 30 IREX ～相關判斷 z 判斷依據 : 測試主題的所有欄位 z 判斷方法 : 由學生二名進行判斷 y 若二人之判斷結果一致, 則完成相關判斷 y 若二人之判斷結果不一致或不確定, 則由三人來作最後的判定 z 判斷基準 y 學生 : 6 個判斷層次 xA: 相關 A?: 不確定是否為相關 xB: 部分相關 B?: 不確定是否為部分相關 xC: 不相關 C?: 不確定是否為不相關

IR System Evaluation - 31 IREX ～相關判斷 ( 續 ) y 最終判斷者 : 3 個判斷層次 xA: 相關 xB: 部分相關 xC: 不相關 z 相關判斷的修正

IR System Evaluation - 32 IREX ～評比 z 評比項目 yName Entity Task (NE) x 與 MUC 相似, 測試系統自動抽取專有名詞的能力, 如組織名, 人名, 地名等. x 一般領域文件抽取 v.s. 特殊領域文件抽取 yInformation Retrieval (IR) x 與 TREC 相似 z 評比規則 y 送回文件：前 300 篇 yQuery 的建構：一律由系統自動建構

IR System Evaluation - 33 BMIR-J2 ～簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: 1998.3 z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

IR System Evaluation - 34 BMIR-J2 ～相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

IR System Evaluation - 35 BMIR-J2 ～查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

IR System Evaluation - 36 AMARYLLIS ～簡介 z 主辦： INIST (INstitute of Information Scientific and Technique) z 參加者 : 約近 10 隊 z 文件集 y 新聞文件 : the World, 共 2 萬餘篇 yPascal(1984-1995) 及 Francis(1992-1995) 資料中抽取出來的文件題名與摘要部分, 共 30 餘萬篇

IR System Evaluation - 37 AMARYLLIS ～查詢主題 z 組成結構編號所屬之學科領域標題資訊需求之簡單描述資訊需求之詳細描述概念, 敘述語

IR System Evaluation - 38 AMARYLLIS ～相關判斷 z 原始的相關判斷 y 由文件集之擁有者負責建構 z 標準答案的修正 y 加入 x 不在最初的標準答案中，但被一半以上的參加者檢索出來的文件 x 參加者所送回的檢索結果中的前 10 篇的文件 y 減去 x 在原始的標準答案中出現，但在參加者送回的檢索結果中未出現的文件

IR System Evaluation - 39 AMARYLLIS ～評比 z 系統需送回檢索結果的前 250 篇 z 系統可選擇採取自動或人工的方式建立 query z 評比項目 yRouting Task yAdhoc Task

資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文.

Similar presentations

Presentation on theme: "資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文."— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華 台大圖資所碩士論文.

Similar presentations

Presentation on theme: "資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華 台大圖資所碩士論文."— Presentation transcript:

Similar presentations

About project

Feedback

資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文.

Presentation on theme: "資訊檢索系統測試集之比較圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷，陳光華台大圖資所碩士論文."— Presentation transcript: