Chapter 3 Retrieval Evaluation

Slides:



Advertisements
Similar presentations
Retrieval Evaluation J. H. Wang Mar. 18, Outline Chap. 3, Retrieval Evaluation –Retrieval Performance Evaluation –Reference Collections.
Advertisements

布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
: A-Sequence 星級 : ★★☆☆☆ 題組: Online-judge.uva.es PROBLEM SET Volume CIX 題號: Problem D : A-Sequence 解題者:薛祖淵 解題日期: 2006 年 2 月 21 日 題意:一開始先輸入一個.
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
我的生涯 巫俊賢.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
Lecture 8 Median and Order Statistics. Median and Order Statistics2 Order Statistics 問題敘述 在 n 個元素中,找出其中第 i 小的元素。 i = 1 ,即為找最小值。 i = n ,即為找最大值。 i = 或 ,即為找中位數。
Stat_chi21 類別資料 (Categorical data) 一種質性資料, 其觀察值可歸類於數個不相交的項目內, 例 : 性別, 滿意度, …, 一般以各項的統計次數表現. 分析此種資料,通常用卡方檢定 類別資料分析 卡方檢定 卡方檢定基本理論 一個含有 k 項的試驗,設 p i.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
期中考參考解答 Date: 2005/12/14 Multimedia Information Systems.
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
CH22 可靠性加速測試方法 目的 基本假設 加速試驗模式 Inverse Power Model
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
1 Part IC. Descriptive Statistics Multivariate Statistics ( 多變量統計 ) Focus: Multiple Regression ( 多元迴歸、複迴歸 ) Spring 2007.
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
JAVA 程式設計與資料結構 第十章 GUI Introdution III. File Chooser  File Chooser 是一個選擇檔案的圖形介面, 無論我們是要存檔還是要開啟檔案,使 用這個物件都會讓我們覺得容易且舒適。
信度.
圖片索引專題 指導教授:陳淑媛 教授 黃伯偉 林育瑄. 動機 & 理念  目前圖像檢索系統中使用的大多都為利用文字 標籤圖像或是圖像輪廓特徵來進行搜尋,然而 輪廓特徵的缺點卻是所有組成圖像的線條都要 逐一處理相當耗時。  所以本研究的目標在於,提出一個以像素點為 特徵的有效率與正確率的圖像檢索演算法實作。
Modern Information Retrieval 第三組 陳國富 王俊傑 夏希璿.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
3-3 使用幾何繪圖工具 Flash 的幾何繪圖工具包括線段工具 (Line Tool) 、橢圓形工具 (Oval Tool) 、多邊星形 工具 (Rectangle Tool) 3 種。這些工具畫出 來的幾何圖形包括了筆畫線條和填色區域, 將它們適當地組合加上有技巧地變形與配 色, 不但比鉛筆工具簡單,
Matlab Assignment Due Assignment 兩個 matlab 程式 : Eigenface : Eigenvector 和 eigenvalue 的應用. Fractal : Affine transform( rotation, translation,
Chapter 8 消費可能性 偏好 選擇 Part 3 家庭的選擇
選舉制度、政府結構與政 黨體系 Cox (1997) Electoral institutions, cleavage strucuters, and the number of parties.
各種線上電子資源的特異功能 SwetsWise 的 alert, TOC alert 與 Favorites 2003/4/28 修改.
Monte Carlo Simulation Part.1 Dept. Phys., Tunghai Univ. Numerical Methods, C. T. Shih.
: Playing War ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11061: Playing War 解題者:陳盈村 解題日期: 2008 年 3 月 14 日 題意:在此遊戲中,有一類玩家一旦開始攻擊, 就會不停攻擊同一對手,直到全滅對方或無法再.
CH 15- 元件可靠度之驗證  驗證方法  指數模式之可靠度驗證  韋式模式之可靠度驗證  對數常態模式之可靠度驗證  失效數為零時之可靠度估算  各種失效模式之應用.
資料庫程式設計與系統管理 SQL Server 2005 Express 第六章 進階資料庫設計.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
The application of boundary element evaluation on a silencer in the presence of a linear temperature gradient Boundary Element Method 期末報告 指導老師:陳正宗終身特聘教授.
資料結構實習-一 參數傳遞.
觀測量的權 權的觀念與計算.
: A-Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10930: A-Sequence 解題者:陳盈村 解題日期: 2008 年 5 月 30 日 題意: A-Sequence 需符合以下的條件, 1 ≤ a.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/25 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH 2.4~CH 2.6 &
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Chapter 10 m-way 搜尋樹與B-Tree
JAVA 程式設計與資料結構 第十六章 Hash Tables. Introduction Hash Tables 結構為一個 Array ,稱之為 Bucket array 。 如果想要新增一個物件,要根據這個物件的特性 將其加入 Hash Table 內。 Bucket Array 用 A 來代替,其.
Extreme Discrete Summation ★★★★☆ 題組: Contest Archive with Online Judge 題號: Extreme Discrete Summation 解題者:蔡宗翰 解題日期: 2008 年 10 月 13 日.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1/17 A Study on Separation between Acoustic Models and Its Application Author : Yu Tsao, Jinyu Li, Chin-Hui Lee Professor : 陳嘉平 Reporter : 許峰閤.
Chapter 7 Sampling Distribution
: Help My Brother ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11033: Help My Brother 解題者: 呂明璁 解題日期: 2007 年 5 月 14 日.
Retrieval Evaluation Modern Information Retrieval, Chapter 3 Ricardo Baeza-Yates, Berthier Ribeiro-Neto 圖書與資訊學刊第 29 期 (1999 年 5 月 ), 台 大圖資所碩士論文, 江玉婷,陳光華.
連續隨機變數 連續變數:時間、分數、重量、……
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
兩黨與多黨政黨體系 Lijphart (1984) Party Systems: Two-Party and Multiparty Patterns.
: SAM I AM ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11419: SAM I AM 解題者:李重儀 解題日期: 2008 年 9 月 11 日 題意: 簡單的說,就是一個長方形的廟裡面有敵人,然 後可以橫的方向開砲或縱向開砲,每次開砲可以.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
Ch 11 建立研究工具的效度與信度.
幼兒行為觀察與記錄 第八章 事件取樣法.
CH 14-可靠度工程之數學基礎 探討重點 失效時間之機率分配 指數模式之可靠度工程.
: How many 0's? ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11038: How many 0’s? 解題者:楊鵬宇 解題日期: 2007 年 5 月 15 日 題意:寫下題目給的 m 與 n(m
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Retrieval Evaluation Modern Information Retrieval, Chapter 3
Presentation transcript:

Chapter 3 Retrieval Evaluation Modern Information Retrieval Ricardo Baeza-Yates Berthier Ribeiro-Neto Hsu Yi-Chen, NCU MIS 88423043

Outline Introduction Retrieval Performance Evaluation Recall and precision Alternative measures Reference Collections TREC Collection CACM&ISI Collection CF Collection Trends and Research Issues

Introduction Type of evaluation Performance of the IR system Functional analysis phase, and Error analysis phase Performance evaluation Performance of the IR system Response time/space required Retrieval performance evaluation The evaluation of how precise is the answer set 依照設計的目的,評估系統功能是否有達成需求 :測試系統每一個功能是否符合需求

Retrieval performance evaluation for IR system Goodness of retrieval strategy S = the similarity between Set of retrieval documents by S Set of relevant documents provided by specialists quantified by Evaluation measure

Retrieval Performance Evaluation(Cont.) 評估以batch query 為主的IR 系統 Relevant Docs In Answer Set |Ra| Recall=|Ra|/|R| Precision=|Ra|/|A| collection Answer Set |A| Relevant Docs |R| Sorted by relevance

Precision versus recall curve Rq={d3,d5,d9,d25,d39,d44,d56,d89,d123} Ranking for query q: 11.d38 12.d48 13.d250 14.d11 15.d3* 1.d123* 2.d84 3.d56* 4.d6 5.d8 6.d9* 7.d511 8.d129 9.d187 10.d25* 100% at10% 66% at 20% 50% at 30% Usally based on 11 standard recall levels:0%,10%,..100%

Precision versus recall curve For a single query Fig3.2

計算多個query的平均效能 P(r)= Σ(Pi(r)/Nq) P(r)=average precision at the recall leval Nq=number of queries used Pi(r)=the precision at recall level r for the i-th query i=Nq i=1

Interpolated precision Rq={d3,d56,d129} Let rj,j={0,1,2,…,10},be a reference to the j-th standard recall level P(rj)=max ri≦ r≦ rj+1P(r)

兩個不同演算法的Average recall versus precision figure

Single Value Summaries 之前的average precision versus recall: 比較retrieval algorithms over a set of example queries But! Individual query的performance也很重要,因為: Average precision可能會隱藏演算法中不正常的部分 可能需要知道,兩個演算法中,對某特定query的performance為何 解決方法: 考慮每一個query的single precision value The single value should be interpreted as a summary of the corresponding precision versus recall curve 通常 ,single value summary被用來當作某一個recall level 的precision值

Average Precision at Seen Relevant Documents Averaging the precision figures obtained after each new relevant document is observed. F3.2,(1+0.66+0.5+0.4+0.3)/5=0.57 此方法對於很快找到相關文件的系統是相當有利的(相關文件被排在越前面,precision值越高)

R-Precision Computing the precision at the R-th position in the ranking(在R 篇文章中出現相關文章數目的比例) R:the total number of relevant documents of the current query(total number in Rq) Fig3.2:R=10,value=0.4 Fig3.3,R=3,value=0.33 易於觀察每一個單一query的演算法performance

Precision Histograms 利用長條圖比較兩個query的R-precision值 RPA/B(i )=RPA(i )-RPB(i ) RPA(i),RPB(i):R-precision value of A,B for i-th query Compare the retrieval performance history of two algorithms through visual inspection

Precision Histograms(cont.)

Summary Table Statistics 將所有query相關的single value summary 放在table中 如the number of queries , total number of documents retrieved by all queries, total number of relevant documents were effectively retrieved when all queries are considered Total number of relevant documents retrieved by all queries…

Precision and Recall 的適用性 Maximum recall值的產生,需要知道所有文件相關的背景知識 Recall and precision是相對的測量方式,兩者要合併使用比較適合。 Measures which quantify the informativeness of the retrieval process might now be more appropriate Recall and precision are easy to define when a linear ordering of the retrieved documents is enforced

Alternative Measures The Harmonic Mean The E Measure-加入喜好比重 F(j)= ,介於0,1 The E Measure-加入喜好比重 b=1,E(j)=F(j) b>1,more interested in precision b<1,more interested in recall 2 r(j) 1 P(j) + F(j)= 1+b2 r(j) b2 P(j) 1 + E(j)=1-

User-Oriented Measure 假設:Query與使用者有相關,不同使用者有不同的relevant docs coverage=|Rk|/|U| Novelty=|Ru|/|Ru|+|Rk| Coverage越高,系統找到使用者期望的文件越多 Noverlty越高,系統找到許多使用者之前不知道相關的文件越多

User-Oriented Measure(cont.) relative recall:系統找到的相關文章數佔使用者預期找到的文章數比例 (|Ru|+|Rk|)/ |U| Recall effort:使用者期望找到的相關文章數佔符合使用者期望的相關文章數(the number of documents examined in an attempt to find the expected relevant documents) |U|/|Rk|

Reference Collection 用來作為評估IR系統reference test collections TIPSTER/TREC:量大,實驗用 CACM,ISI:歷史意義 Cystic Fibrosis :small collections,relevant documents由專家研討後產生

IR system遇到的批評 Lacks a solid formal framework as a basic foundation 無解!一個文件是否與查詢相關,是相當主觀的! Lacks robust and consistent testbeds and benchmarks 較早,發展實驗性質的小規模測試資料 1990後,TREC成立,蒐集上萬文件,提供給研究團體作IR系統評量之用

TREC (Text REtrieval Conference) Initiated under the National Institute of Standards and Technology(NIST) Goals: Providing a large test collection Uniform scoring procedures Forum 7th TREC conference in 1998: Document collection:test collections,example information requests(topics),relevant docs The benchmarks tasks

The Documents Collection 由SGML編輯 <doc> <docno>WSJ880406-0090</docno> <hl>AT&T Unveils Services to Upgrade Phone Networks Under Global Plan</hl> <author>Janet GuyonWSJ Staff)</author> <dateline>New York</dateline> <text> American Telephone & Telegrapj Co. introduced the first of a newgeneration of phone service with broad… </text> </doc>

The Example Information Requests(Topics) 用自然語言將資訊需求描述出來 Topic number:給不同類型的topics <top> <num> Number:168 <title>Topic:Financing AMTRAK <desc>Description: ….. <nar>Narrative:A ….. </top>

The relevant Documents for Each Example Information Request The set of relevant documents for each topic obtained from a pool of possible relevant documents Pool:由數各參與的 IR系統中所找到的相關文件,依照相關性排序後的前K個文章。 K通常為100 最後透過人工鑑定,判斷是否為相關文件 ->pooling method 相關文件有數個組合的pool取得 不在pool內的文件視為不相關文件

The (Benchmark)Tasks at the TREC Conferences ad hoc task: Receive new requests and execute them on a pre-specified document collection routing task Receive test info. Requests,two document collections first doc:training and tuning retrieval algorithm Second doc:testing the tuned retrieval algorithm

Other tasks: *Chinese Filtering Interactive *NLP(natural language procedure) Cross languages High precision Spoken document retrieval Query Task(TREC-7)

Evaluation Measures at the TREC Conferences Summary table statistics Recall-precision Document level averages* Average precision histogram

The CACM Collection Small collections about computer science literature Text of doc structured subfields word stems from the title and abstract sections Categories direct references between articles:a list of pairs of documents[da,db] Bibliographic coupling connections:a list of triples[d1,d2,ncited] Number of co-citations for each pair of articles[d1,d2,nciting] A unique environment for testing retrieval algorithms which are based on information derived from cross-citing patterns

The ISI Collection ISI 的test collection是由之前在ISI(Institute of Scientific Information) 的Small組合而成 這些文件大部分是由當初Small計畫中有關cross-citation study中挑選出來 支持有關於terms和cross-citation patterns的相似性研究

The Cystic Fibrosis Collection 有關於“囊胞性纖維症”的文件 Topics和相關文件由具有此方面在臨床或研究的專家所產生 Relevance scores 0:non-relevance 1:marginal relevance 2:high relevance

Characteristics of CF collection Relevance score均由專家給定 Good number of information requests(relative to the collection size) The respective query vectors present overlap among themselves 利用之前的query增加檢索效率

Trends and Research Issues Interactive user interface 一般認為feedback的檢索可以改善效率 如何決定此情境下的評估方式(Evaluation measures)? 其它有別於precise,recall的評估方式研究