資訊檢索之理論與實務 人社學院 通識教育中心 邱子恒 2011.11.28-12.05.

Slides:



Advertisements
Similar presentations
OVID Medline vs. PubMed 邱子恆 相異之處 對象  OVID Medline: for health science professionals  PubMed : for the public 收錄範圍  PubMed > OVID Medline.
Advertisements

McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
: A-Sequence 星級 : ★★☆☆☆ 題組: Online-judge.uva.es PROBLEM SET Volume CIX 題號: Problem D : A-Sequence 解題者:薛祖淵 解題日期: 2006 年 2 月 21 日 題意:一開始先輸入一個.
Reference, primitive, call by XXX 必也正名乎 誌謝 : 部份文字取於前輩 TAHO 的文章.
1 Web of Science 利用指引 單元二 瀏覽與處理查詢結果. 2 瀏覽檢索結果 查出的結果,預設以時間排列, 使用者可改變結果的排列方式: 還可以依被引用次數、相關度、 第一作者、刊名、出版年等排序 回到前先查的結果畫面 點選想看資料的完整書目 本館訂購範圍的期刊 全文,便可直接連結.
EBSCO 資料庫. 基本檢索畫面 問題: 想看哈佛商業評論 點選 [ 出版品 ] 輸入 [ 期刊名稱 ]
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
資訊檢索之策略與技巧 邱子恆 Outline 資訊檢索之基本概念 檢索策略 檢索技巧.
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
各種線上電子資源的特異功能 STICnet 的 SDI 專題訂閱服務 2003/4/28 修改. 無論校內外皆可使用。連線至
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
Chapter 13 塑模靜態觀點:物件圖 Static View : Object Diagram.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 臺北醫學大學通識教育中心
資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.
: The largest Clique ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11324: The largest Clique 解題者:李重儀 解題日期: 2008 年 11 月 24 日 題意: 簡單來說,給你一個 directed.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
CH.8 偵錯 Visual Basic CH.8 偵錯 Visual Basic  資三甲   章乃云 三種類型的錯誤 三種類型的錯誤.
1 Netlibrary 電子書 Netlibrary 創始於 1998 年,是世界知名的電子書資 料庫,提供 450 多家出版社所出版近 100,962 ( 止)本的電子書,且以每月 2,000 本的 速度增加中。其中 80% 屬於學術性圖書,其餘 20% 一般圖書, 90% 以上為.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
第三章 自動再裝載運用篇 使用時機:裝載計劃完成時,尚有剩餘空 間的情形,維持已固定計劃而繼續做裝載 最佳化。以支持次日裝載計劃而提前調整 作業模式。 裝載物品設定和裝載容器設定如前兩章介 紹,於此不再重複此動作,直接從裝載計 劃設定開始,直接從系統內定的物品和容 器選取所需.
資訊檢索之策略與技巧 邱子恆
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
資料結構實習-一 參數傳遞.
1 Introduction to Java Programming Lecture 2: Basics of Java Programming Spring 2008.
Management Abstracts Retrieval System; MARS 檢索操作.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
JAVA 程式設計與資料結構 第二十章 Searching. Sequential Searching Sequential Searching 是最簡單的一種搜尋法,此演 算法可應用在 Array 或是 Linked List 此等資料結構。 Sequential Searching 的 worst-case.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
ProQuest Digital Dissertations 〈 PQDD 〉 美加地區博碩士論文 圖 書 館
逆向選擇和市場失調. 定義  資料不對稱 在交易其中,其中一方較對方有多些資料。  逆向選擇 出現在這個情況下,就是當買賣雙方隨意在 市場上交易,與比較主動交易者作交易為佳 。
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
廣電新聞播報品質電腦化 評估系統之研發 國立政治大學 資訊科學系 指導教授:廖文宏 學生:蘇以暄.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 臺北醫學大學通識教育中心
網路介紹及其運用 講師陳炯勳. 5-2 IP 協定 ( 一 ) IP 協定運作 (1) – 網路成員:主機 (Host) 與路由器 (Router) – 路由表 – 電報傳輸運作.
概念性產品企劃書 呂學儒 李政翰.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
: Help My Brother ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11033: Help My Brother 解題者: 呂明璁 解題日期: 2007 年 5 月 14 日.
Copyright © 2007 Taipei Medical University Library 資訊檢索之理論與實務 邱子恆
Biological Science Database 個人化服務設定步驟. Biological Science Database 僅提供專題選 粹服務 專題選粹 (Alerts) :查詢後,提供儲存檢 索策略的功能,日後每週將符合條件的 更新資料,採 方式通知。每筆設定 最多每週可收到.
連續隨機變數 連續變數:時間、分數、重量、……
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
Cambridge Scientific Abstracts 系列資料庫 圖 書 館
電子書 ( Netlibrary ) 檢索說明 龍華科技大學圖書館. 檢索類型 檢索欄位與限制 在檢索中使用布林邏輯運算元 檢索結果 特殊檢索.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
OmniFile Full Text 系列資料庫 個人化服務設定步驟. 此相關資料庫之個人化服 務只提供類似專題選粹的 服務,然無提供 mail 通知的 服務,讀者可建立個人 ID , 並儲存檢索策略,日後需 再進入該資料庫,查詢檢 索策略之新進文章。 導航目次 個人化服務說明 個人帳號密碼申請 個人化服務設定.
Microsoft Excel.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
著作權所有 © 旗標出版股份有限公司 第 14 章 製作信封、標籤. 本章提要 製作單一信封 製作單一郵寄標籤.
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆
幼兒行為觀察與記錄 第八章 事件取樣法.
Copyright © 2007 Taipei Medical University Library Medline 資料庫檢索 Demo 邱子恆
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1 資訊檢索策略與技巧 黃慕萱, Chap.6 Harter , Chap 檢索策略 v.s. 檢索技巧 最早為軍方用語 各家看法  1979 , Marcia Bates , ”Information Search Tactics”  Hartly 如何避免找到不相關文章的方法 處理找到過多或過少相關文章的可能對策.
Presentation transcript:

資訊檢索之理論與實務 人社學院 通識教育中心 邱子恒

Outline 資訊檢索之基本概念 檢索策略 檢索技巧

I. 資訊檢索之基本概念 IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search

資訊儲存與檢索 (IS&R Model)

資料需求 分析內容 選擇關鍵詞 轉譯 系統關鍵詞 分析需求 選擇關鍵詞 轉譯 系統關鍵詞 關鍵詞比對檢索結果 索引作業檢索作業

自然語言 自然語言是相對於人工語言的一種人 類語言,也是最合乎人類教談行為的 溝通方式,它依循著人類自然進化而 發展,成為人和人之間溝通的最基本 工具,如中文、英文、日文等都是自 然語言。

控制字彙 Maintenance UF Preventive maintenance Upkeep Preventive maintenance use Maintenance Upkeep use Maintenance

回收率&精確率 Recall( 回收率 / 查全率 ) & Precision( 精確率 / 查準率 ) b+d a+c 總數 dc 未檢索到 ba 檢索到 不相關相關

查全率 =a/(a+c) 查準率 =a/(a+b) 無關 相關 c a b d

布林邏輯 (AND 、 OR 、 NOT) A AND B A AND B AND C A OR B A OR B NOT C

切截 (truncation) Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數, 詞性不同, 使用 右切截 ) Woman, Women --> Wom#n ( 單複數, 使 用中間切截 ) Color, Colour --> Colo#r ( 美式 / 英式拚音, 使用中間切截 )

相近運算元 (adjacent/near) ANALOG* ADJ1 DIGITAL* 482 ANALOG* NEAR1 DIGITAL* 506

Known item search 已知書目之檢索, 即精確檢索  用已知的書目資料來檢索, 包括 : 作者, 題名, 期 刊名, 出版商, 出版年 … etc.

Subject search 主題檢索 想檢索一下到底有那些關於某主題的文獻 存在

II. 檢索策略 針對一檢索問題之通盤考量或全面性規 劃  分區組合檢索法 (Block Building)  引用文獻滾雪球法 (Citation Pearl Growing)  簡易檢索 (Brief search)  主題層面連續檢索 (successive facet strategies)  主題層面配對檢索 (pairwise facets strategies)

分區組合檢索法 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以 “OR” 連結 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯 關係進行結合 6. 依步驟 1 至步驟 5 規劃檢索敘述 7. 輸入檢索敘述 8. 評估檢索成果

分區組合檢索法示意圖

引用文獻滾雪球法 事先掌握一篇或數篇相關文章, 利用這 些相關文章找尋更多相關的文章, 如此 相關文章就像雪球一樣越滾越大. 在資訊檢索上的應用 : 以相關文章的關 鍵字或敘述語繼續檢索. 是由 precision 反向追求 recall 的方法 通常必須進行多次檢索, 才能找到足夠 的相關文章.

簡易檢索 最常見的檢索 通常用簡單的幾個關鍵字, 加上布林邏輯 的組合 快速, 同時檢索到的文章不多, recall 低 適用情形 :  檢索者只想閱讀 “ 幾篇 ” 相關文章  執行已知書目檢索時  檢索概念相當專指 (specific) 時

主題層面連續檢索 在決定檢索問題的主題層面之後, 必須 確認各主題層面的優先順序. 在最專指概念或是可能產生最少資料 的概念輸入系統後, 如果產生太多資料, 再輸入其他次要概念與之結合. 直到檢索者認為檢索筆數可以接受為 止.

主題層面連續檢索 適用情形 :  當所有主題層面以布林運算元結合, 可能產 生零筆資料時  當檢索問題中有一至二個主題層面涵義相當 模糊時  當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型, 語文, 出版年代 ), 可將此非主 題檢索條件視為第一個檢索概念

主題層面連續檢索 適用情形 : ( 續 )  當檢索者寧願忍受誤引, 而不願失去相關 文章時  當加入其他主題層面所花費的時間和金錢, 可能會超過直接列出檢索結果, 每筆一一 審視時  當相關文獻過少, 檢索者願意檢視一些相 關度較低的文章時

主題層面連續檢索示意圖

主題層面配對檢索 是先將主題層面兩兩配對, 並取其交集 也就是取任意二主題層面的交集而後聯 集之 適用情形 :  當所有主題層面都同樣重要時  當主題層面之專指性或模糊性相差不大時  當將所有主題層面結合可能導致零筆資料時

主題層面配對檢索示意圖

比較圖

III. 檢索技巧 為完成特性目的所採取的行動  當檢索所得資料筆數過多時 ( 通常指誤引太 多 )  當檢索所得資料筆數過少時 ( 包括零筆資料 )  當檢索者想提高 recall 時  當檢索者想提高 precision 時

當檢索所得資料筆數過多時 是否過份簡化問題 ? 是否需要重新釐清檢索概念 ? 是否使用了正確的布林邏輯運算元 ? 是否使用過份含混或一般性之名詞 ? 是否應考慮使用控制字彙 ? 是否相近運算元限制過鬆 ? 是否切截應用過鬆 ?

當檢索所得資料筆數過少時 是否將問題過份複雜化 ? 是否真有文獻探討該主題 ? 是否每個概念都使用足夠的檢索詞彙來表達 ? 是否相近運算元限制過緊 ? 是否使用了正確的布林邏輯運算元 ? 是否有語法或拼字上的錯誤 ? 是否該改用自然語言進行檢索 ? 是否考慮使用切截 ?

當檢索者想提高 recall 時 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元 “AND” 及 “NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制 ( 如 : 年代, 資料類型 ) 刪除一主題層面

當檢索者想提高 precision 時 刪除部份類同義詞或是詞意含糊的檢索詞彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙工具時, 盡量使用其來代替 自然語言 增加一主題層面 使用 “ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 ( 如年代, 資料類型 )

Ovid Medline 上機操作 & 作業二題目說明