資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文.

Slides:



Advertisements
Similar presentations
第二章 研究主題(研究題 目)與研究問題.
Advertisements

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
建立使用案例敘述 --Use Case Narrative
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
第九章 如何寫結果 HOW to Write the Results CONTENT OF THE RESULTS 結果的內容 – 1. 將實驗大致的描述 並不需要重複實驗細節 2. 呈現數據 並以過去時態重現 3. 在文稿裡應呈現 ” 代表數據 ” 而不是一再的重 複資料.
Event Sampling 事件取樣法. 關心重點為「事件」本身明確的焦點 行為 清楚掌握主題 - 當「事件」出現時才開 始記錄 記錄程序 等待目標事件的發生 開始記錄 事件結束,停止記錄.
Advanced Chemical Engineering Thermodynamics
核心能力意見調查 計畫主持人:劉義周教授 研究助理: 林珮婷 報告日期: 調查案的目標與性質 調查的主要目的在進行宣傳,讓全校師生可以瞭 解何謂「課程地圖」與「核心能力」。 通識中心將核心能力主要區分為「學術訓練」、 「就業準備」、「公民文化養成」、「個人特質 提升」等四大面向,本調查依據此四大面向進一.
哲學系教師引用文獻分析.  圖資二 張碩真  圖資二 林苡舒  圖資二 呂蔚瑩  圖資二 張育榕  圖資二 阮佩琪  圖資二 黃恩瓊.
1 Web of Science 利用指引 單元二 瀏覽與處理查詢結果. 2 瀏覽檢索結果 查出的結果,預設以時間排列, 使用者可改變結果的排列方式: 還可以依被引用次數、相關度、 第一作者、刊名、出版年等排序 回到前先查的結果畫面 點選想看資料的完整書目 本館訂購範圍的期刊 全文,便可直接連結.
1 Advanced Chemical Engineering Thermodynamics Appendix BK The Generalized van der Waals Partition Function.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
資料庫名稱 中國期刊全文資料庫 (China Journal Full-text Database)
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
各種線上電子資源的特異功能 STICnet 的 SDI 專題訂閱服務 2003/4/28 修改. 無論校內外皆可使用。連線至
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Department of Air-conditioning and Refrigeration Engineering/ National Taipei University of Technology 模糊控制設計使用 MATLAB 李達生.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
論文研討 2 學分 授課教師:吳俊概.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
最新計算機概論 第 5 章 系統程式. 5-1 系統程式的類型 作業系統 (OS) : 介於電腦硬體與 應用軟體之間的 程式,除了提供 執行應用軟體的 環境,還負責分 配系統資源。
文件製作 陳彥良. Phase 1 Identifying problems Identifying opportunities Identifying objectives.
論文研討 ( 一 ) B 組 課程簡介 劉美纓 / 尚榮安 / 胡凱傑 2009/09/17. 一、課程基本資料 科目名稱: ( 中文 ) 論文研討(一)B組 ( 英文 ) SEMINARS (I) 開課學期: 98 學年度第 1 學期 開課班級:企碩一 學 分 數: 2 學分 星期節次: 四 34.
1 Netlibrary 電子書 Netlibrary 創始於 1998 年,是世界知名的電子書資 料庫,提供 450 多家出版社所出版近 100,962 ( 止)本的電子書,且以每月 2,000 本的 速度增加中。其中 80% 屬於學術性圖書,其餘 20% 一般圖書, 90% 以上為.
實用管理科學 陳明德、陳武林 著 前程文化 Ch14 決策分析 14-1 本章結構 隨機模式導論 決策分析步驟 決策分析模式與符號 非機率性模式分析 機率性模式分析 貝氏決策分析技術 決策樹的建立 風險分析與敏感度分析.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
行政院國家科學委員會工程技術發展處自動化學門 * 試以國立成功大學製造工程研究所 鄭芳田教授 產學合作計畫 : 智慧預測保養系統之設計與實作 成果報告盤點為範例 國科會工程處專題計畫成果典藏 自動化學門成果報告盤點範例.
第三章 自動再裝載運用篇 使用時機:裝載計劃完成時,尚有剩餘空 間的情形,維持已固定計劃而繼續做裝載 最佳化。以支持次日裝載計劃而提前調整 作業模式。 裝載物品設定和裝載容器設定如前兩章介 紹,於此不再重複此動作,直接從裝載計 劃設定開始,直接從系統內定的物品和容 器選取所需.
資料庫程式設計與系統管理 SQL Server 2005 Express 第六章 進階資料庫設計.
第二十一章 研究流程、論文結構        與研究範例 21-1  研究流程 21-2  論文結構 21-3  研究範例.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
研究資料的分析. 資料分析的基本策略  General data analysis strategies 1.Sketching ideas 2.Taking notes 3.Summarize field nores 4.Getting feedback on ideas 5.Working with.
Management Abstracts Retrieval System; MARS 檢索操作.
方案設計 —評估考核 張 紉.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Analyzing Case Study Evidence
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
ProQuest Digital Dissertations 〈 PQDD 〉 美加地區博碩士論文 圖 書 館
Chapter 3 Entropy : An Additional Balance Equation
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
廣電新聞播報品質電腦化 評估系統之研發 國立政治大學 資訊科學系 指導教授:廖文宏 學生:蘇以暄.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
描述統計 描述統計(Descriptive Statistics)-將蒐集到的資料加以整理和記錄,並以數字和統計圖表的方式來分析及解釋資料所具有的特性. 基本統計值(平均數,中位數,標準差,變異量….) 相關性測量(卡方,相關係數,迴歸…)
論文研討 2 學分 授課教師:吳俊概. 第一節 論文發表的目的 第二節 論文發表的歷程 第三節 投稿過程 第四節 退稿處理 學術期刊論文的製作與發表.
第十一章 分析法. 2  分析法 (analysis method) 是以分析的方式來解 決,亦即把問題細分成其組成部分,以便發現其 真實特性以及各變數間的因果關係.
Ch10 運用態度量表蒐集資料.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
OmniFile Full Text 系列資料庫 個人化服務設定步驟. 此相關資料庫之個人化服 務只提供類似專題選粹的 服務,然無提供 mail 通知的 服務,讀者可建立個人 ID , 並儲存檢索策略,日後需 再進入該資料庫,查詢檢 索策略之新進文章。 導航目次 個人化服務說明 個人帳號密碼申請 個人化服務設定.
全國奈米科技人才培育推動計畫辦公室 中北區奈米科技K -12 教育發展中心計畫 簡 報 報告人:楊鏡堂教授 計畫執行單位:國立清華大學動力機械工程學系 計畫種子學校:教育部顧問室 94 年度奈米科技人才培育先導型計畫年度成果報告 中華民國九十四年十月十四日.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
第12章 團體溝通情境中的領導者.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
第五章 How to List the authors and Address DEFINITION OF AUTHORSHIP 作者身份的定義 – 作者順序應按照對 實驗的重要性來分類論文作者不需能為 研究結果負學術責任 原則上依照各家期刊出版社的格式調整.
幼兒行為觀察與記錄 第八章 事件取樣法.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

資訊檢索系統測試集之比較 圖書與資訊學刊第 29 期 (1999 年 5 月 ) by 江玉婷,陳光華 台大圖資所碩士論文

IR System Evaluation - 2 測試集 (Test Collections) z 組成要素 y 文件集 (Document Set; Document Collection) y 查詢問題 (Query; Topic) y 相關判斷 (Relevant Judgement) z 用途 y 設計與發展 : 系統測試 y 評估 : 系統效能 (Effectiveness) 之測量 y 比較 : 不同系統與不同技術間之比較 z 評比 y 根據不同的目的而有不同的評比項目 y 量化的測量準則,如 Precision 與 Recall

IR System Evaluation - 3 測試集 (Test Collections) ( 續 ) z 小型測試集 y 早期 : Cranfield y 英文 : SMART, OHSUMED, Cystic Fibrosis, LISA…. y 日文 : BMIR-J2 z 大型評比環境 : 提供測試集及研討的論壇 y 美國 : TREC y 日本 : NTCIR, IREX, y 歐洲 : AMARYLLIS

IR System Evaluation - 5 Cranfield II z 比較 33 種不同索引方式之檢索效益 z 蒐集 1400 篇有關太空動力學的文件 ( 摘要形式 ) z 請每位作者根據這些文件與其當時研究的主題提 出問題,經篩選後產生 200 餘個查詢問題

IR System Evaluation - 6 Cranfield II (Continued) zCranfield II 測試集中相關判斷建立四個步驟 y 首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進 行相關判斷 y 接著請五位該領域的研究生將查詢問題與每篇文件逐一檢視,共 花了 1500 小時進行了 50 萬次以上的相關判斷,希望能找出所有的 相關文件。 y 為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間 之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同 引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。 y 最後,將以上找出的所有文件,再一併送回給原作者進行判斷。

IR System Evaluation - 7 TREC ~簡介 zTREC: Text REtrieval Conference z 主辦 : NIST 及 DARPA ,為 TIPSTER 文件計劃之子計劃 之一 z 文件集 y5GB 以上 y 數百萬篇文件

IR System Evaluation - 8 TREC 文件集

IR System Evaluation - 9 TREC 之文件標示

IR System Evaluation - 10 TREC-1 and TREC-2 查詢主題

IR System Evaluation - 11 TREC-3 查詢主題

IR System Evaluation - 12 TREC-4 查詢主題

IR System Evaluation - 13 TREC ~查詢主題 z 主題結構與長度 z 主題建構 z 主題篩選 ypre-search y 判斷相關文件的數量

IR System Evaluation - 14 TREC-6 之主題篩選程序

IR System Evaluation - 15 TREC ~相關判斷 z 判斷方法 yPooling Method y 人工判斷 z 判斷基準 : 二元式, 相關與不相關 z 相關判斷品質 y 完整性 y 一致性

IR System Evaluation - 16 Pooling 法 z 針對每個查詢主題,從參與評比的各系統所送回 之測試結果中抽取出前 n 篇文件,合併形成一個 Pool z 視為該查詢主題可能的相關文件候選集合,將集 合中重覆的文件去除後,再送回給該查詢主題的 原始建構者進行相關判斷。 z 利用此法的精神是希望能透過多個不同的系統與 不同的檢索技術,盡量網羅可能的相關文件,藉 此減少人工判斷的負荷。

IR System Evaluation - 17 TREC 候選集合與實際相關文件之對照表

IR System Evaluation - 18 TREC ~評比

IR System Evaluation - 19 TREC ~質疑與負面評價 z 測試集方面 y 查詢主題 x 並非真實的使用者需求, 過於人工化 x 缺乏需求情境的描述 y 相關判斷 x 二元式的相關判斷不實際 xpooling method 會遺失相關文件, 導致回收率不準確 x 品質與一致性 z 效益測量方面 y 只關注量化測量 y 回收率的問題 y 適合作系統間的比較, 但不適合作評估

IR System Evaluation - 20 TREC ~質疑與負面評價 ( 續 ) z 評比程序方面 y 互動式檢索 x 缺乏使用者介入 x 靜態的資訊需求不切實際

IR System Evaluation - 21 BMIR-J2 ~簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

IR System Evaluation - 22 BMIR-J2 ~相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

IR System Evaluation - 23 BMIR-J2 ~查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

IR System Evaluation - 24 NTCIR ~簡介 zNTCIR: NACSIS Test Collections for IR z 主辦 : NACSIS( 日本國家科學資訊系統中心 ) z 發展背景 y 大型日文標竿測試集的需求 y 跨語言檢索的研究發展需要 z 文件集 y 來源為 NACSIS Academic Conference Papers Database y 主要為會議論文的摘要 y 超過 330,000 篇文件, 其中超過 1/2 為英日文對照之文件 y 有部分包含 part-of-speech tags

IR System Evaluation - 25 NTCIR ~查詢主題 z 來源 : 搜集真實的使用者需求, 再據其修正改寫 z 每個學科主題領域各有 100 個測試主題 z 組成結構 編號 標題 資訊需求之簡短描述 資訊需求之細部描述, 包括更進一步的解釋, 名 詞的定義, 背景知識, 檢索的目的, 預期的相關文件數量, 希望的文件類型, 相關判斷的標準等 相關概念的關鍵詞

IR System Evaluation - 26 NTCIR ~相關判斷 z 判斷方法 y 利用 pooling method 先進行篩選 y 由各主題專家, 及查詢主題的建構者進行判斷 z 判斷基準 yA: 相關 yB: 部分相關 yC: 不相關 z 精確率計算 : 依測試項目的不同而有不同 yRelevant: B 與 C 均視為不相關 yPartial Relevant : A 與 B 均視為相關

IR System Evaluation - 27 NTCIR ~評比 zAd-hoc Information Retrieval Task zCross-lingual Information Retrieval Task y 利用日文查詢主題檢索英文文件 y 共有 21 個查詢主題, 其相關判斷包括英文文件與日文文件 y 系統可選擇自動或人工建立查詢問題 y 系統需送回前 1000 篇檢索結果 zAutomatic Term Extraction and Role Analysis Task yAutomatic Term Extraction: 從題名與摘要中抽取出 technical terms yRole Analysis Task: 抽取出主旨, 研究方法, 研究程序

IR System Evaluation - 28 IREX ~簡介 zIREX: Information Retrieval and Extraction Exercise z 主辦 : IREX Committee z 參加者 : 約 20 隊 ( 或以上 ) z 預備測試:利用 BMIR-J2 測試集中之查詢主題 z 文件集 y 每日新聞, y 參加者必須購買新聞語料

IR System Evaluation - 29 IREX ~查詢主題 z 組成結構 編號 簡短的資訊需求, 主要為名詞與其修飾語 構成的名詞詞組 詳細的資訊需求, 以自然語言敘述, 通常為 2 至 3 個句子組 成, 亦包含名詞解釋, 同義詞 或實例. ydescription 欄位中的詞彙必須包含在 narrative 欄位中

IR System Evaluation - 30 IREX ~相關判斷 z 判斷依據 : 測試主題的所有欄位 z 判斷方法 : 由學生二名進行判斷 y 若二人之判斷結果一致, 則完成相關判斷 y 若二人之判斷結果不一致或不確定, 則由三人來作最後 的判定 z 判斷基準 y 學生 : 6 個判斷層次 xA: 相關 A?: 不確定是否為相關 xB: 部分相關 B?: 不確定是否為部 分相關 xC: 不相關 C?: 不確定是否為不相關

IR System Evaluation - 31 IREX ~相關判斷 ( 續 ) y 最終判斷者 : 3 個判斷層次 xA: 相關 xB: 部分相關 xC: 不相關 z 相關判斷的修正

IR System Evaluation - 32 IREX ~評比 z 評比項目 yName Entity Task (NE) x 與 MUC 相似, 測試系統自動抽取專有名詞的能力, 如組織 名, 人名, 地名等. x 一般領域文件抽取 v.s. 特殊領域文件抽取 yInformation Retrieval (IR) x 與 TREC 相似 z 評比規則 y 送回文件:前 300 篇 yQuery 的建構:一律由系統自動建構

IR System Evaluation - 33 BMIR-J2 ~簡介 z 第一個日文資訊檢索系統測試集 yBMIR-J1: 1996 yBMIR-J2: z 發展單位 : IPSG-SIGDS z 文件集 : 主要為新聞文件 y 每日新聞 : 5080 篇 y 經濟與工程 z 查詢主題 : 60 個

IR System Evaluation - 34 BMIR-J2 ~相關判斷 z 以布林邏輯結合關鍵詞檢索 1-2 個 IR 系統 z 由資料庫檢索者做進一步的相關判斷 z 由建構測試集的人員再次檢查

IR System Evaluation - 35 BMIR-J2 ~查詢主題 Q: F=oxoxo: “Utilizing solar energy” Q: N-1: Retrieve texts mentioning user of solar energy Q: N-2: Include texts concerning generating electricity and drying things with solar heat. z 查詢主題的分類 y 目的 : 標明該測試主題的特性, 以利系統選擇 y 標記 : o(necessary), x(unnecessary) y 類別 xThe basic function xThe numeric range function xThe syntactic function xThe semantic function xThe world knowledge function:

IR System Evaluation - 36 AMARYLLIS ~簡介 z 主辦: INIST (INstitute of Information Scientific and Technique) z 參加者 : 約近 10 隊 z 文件集 y 新聞文件 : the World, 共 2 萬餘篇 yPascal( ) 及 Francis( ) 資料中抽取出來 的文件題名與摘要部分, 共 30 餘萬篇

IR System Evaluation - 37 AMARYLLIS ~查詢主題 z 組成結構 編號 所屬之學科領域 標題 資訊需求之簡單描述 資訊需求之詳細描述 概念, 敘述語

IR System Evaluation - 38 AMARYLLIS ~相關判斷 z 原始的相關判斷 y 由文件集之擁有者負責建構 z 標準答案的修正 y 加入 x 不在最初的標準答案中,但被一半以上的參加者檢 索出來的文件 x 參加者所送回的檢索結果中的前 10 篇的文件 y 減去 x 在原始的標準答案中出現,但在參加者送回的檢索 結果中未出現的文件

IR System Evaluation - 39 AMARYLLIS ~評比 z 系統需送回檢索結果的前 250 篇 z 系統可選擇採取自動或人工的方式建立 query z 評比項目 yRouting Task yAdhoc Task