1 資訊檢索策略與技巧 黃慕萱, Chap.6 Harter , Chap. 7. 2 檢索策略 v.s. 檢索技巧 最早為軍方用語 各家看法  1979 , Marcia Bates , ”Information Search Tactics”  Hartly 如何避免找到不相關文章的方法 處理找到過多或過少相關文章的可能對策.

Slides:



Advertisements
Similar presentations
OVID Medline vs. PubMed 邱子恆 相異之處 對象  OVID Medline: for health science professionals  PubMed : for the public 收錄範圍  PubMed > OVID Medline.
Advertisements

1 生物計算期末作業 暨南大學資訊工程系 2003/05/13. 2 compare f1 f2  只比較兩個檔案 f1 與 f2 ,比完後將結果輸出。 compare directory  以兩兩比對的方式,比對一個目錄下所有檔案的相 似程度。  將相似度很高的檔案做成報表輸出,報表中至少要.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
第九章 如何寫結果 HOW to Write the Results CONTENT OF THE RESULTS 結果的內容 – 1. 將實驗大致的描述 並不需要重複實驗細節 2. 呈現數據 並以過去時態重現 3. 在文稿裡應呈現 ” 代表數據 ” 而不是一再的重 複資料.
第三部分:研究設計 ( 一) 抽樣(研究對象). 一、研究設計 描述或計畫有關資料蒐集和分析的方法與 過程,以便解答研究問題或驗證研究假設, 最後檢核研究目的是否達成。 包括: 研究對象(抽樣) 研究工具 實施程序 資料處理.
Event Sampling 事件取樣法. 關心重點為「事件」本身明確的焦點 行為 清楚掌握主題 - 當「事件」出現時才開 始記錄 記錄程序 等待目標事件的發生 開始記錄 事件結束,停止記錄.
第九章 運銷通路 授課老師 簡立賢. 授課大綱 運銷通路之涵意及其基本結構  何謂運銷通路  運銷通路的基本結構 影響農產品運銷通路選擇之因素  產品因素  市場因素  廠商因素  法規因素 運銷效率之判斷  通路中階段數目與運銷效率  通路競爭與運銷效率.
1 Web of Science 利用指引 單元二 瀏覽與處理查詢結果. 2 瀏覽檢索結果 查出的結果,預設以時間排列, 使用者可改變結果的排列方式: 還可以依被引用次數、相關度、 第一作者、刊名、出版年等排序 回到前先查的結果畫面 點選想看資料的完整書目 本館訂購範圍的期刊 全文,便可直接連結.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 實驗法.
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
資料庫名稱 中國期刊全文資料庫 (China Journal Full-text Database)
1 政大公企中心產業人才投資課程 -- 企業決策分析方法 -- 黃智聰 政大公企中心產業人才投資課程 課程名稱:企業決策分析方法 授課老師:黃智聰 授課內容:利用分公司之追蹤資料進行企業決策分析 參考書目: Hill, C. R., W. E. Griffiths, and G. G. Judge,
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
元智大學應用外語系碩士班 Department of Foreign Languages and Applied Linguistics Master’s Program.
1 Web of Science 利用指引 逢甲大學圖書館 參考服務組 系統簡介 查詢模式 查詢結果 輸出結果 查詢技巧 Web of Science 利用指引大綱 個人化服務 - 註冊 - 登入.
Concept Map – whatwhat, why and how?whyhow. What is Concept Mapping ?  Concept mapping is a technique for representing knowledge in graphs. Knowledge.
中央大學。范錚強 1 從 ER 到 Logical Schema ── 兼談 Schema Integration 國立中央大學 資訊管理系 范錚強 2005.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
文獻探討 Literature Review. 文者典籍也,獻者賢也 朱熹 功能與目的 決定研究題目與問題 選取理想模式 與先前結果做比較及應 証 避免重複他人研究.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
ProQuest Digital Dissertations 美加地區博碩士論文 -PQDD 地點 :私立元智大學 主講人:徐韻婷 小姐 日期 : 91 年 12 月 5 日 時間 :下午 2:00~ 下午 3:30.
© The McGraw-Hill Companies, Inc., 2008 第 6 章 製造流程的選擇與設計.
論文研討 2 學分 授課教師:吳俊概.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 貳 研究設計.
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
資訊檢索之理論與實務 人社學院 通識教育中心 邱子恒
: Fast and Easy Data Compressor ★★☆☆☆ 題組: Problem Set Archive with Online Judge 題號: 10043: Fast and Easy Data Compressor 解題者:葉貫中 解題日期: 2007 年 3.
1 Netlibrary 電子書 Netlibrary 創始於 1998 年,是世界知名的電子書資 料庫,提供 450 多家出版社所出版近 100,962 ( 止)本的電子書,且以每月 2,000 本的 速度增加中。其中 80% 屬於學術性圖書,其餘 20% 一般圖書, 90% 以上為.
面談的類型 結構化 非結構化 情境化 系列式 會談式 壓力式 評估式 而每一種皆可依下面的四種方式來分類:
第三章 自動再裝載運用篇 使用時機:裝載計劃完成時,尚有剩餘空 間的情形,維持已固定計劃而繼續做裝載 最佳化。以支持次日裝載計劃而提前調整 作業模式。 裝載物品設定和裝載容器設定如前兩章介 紹,於此不再重複此動作,直接從裝載計 劃設定開始,直接從系統內定的物品和容 器選取所需.
資訊檢索之策略與技巧 邱子恆
第二十一章 研究流程、論文結構        與研究範例 21-1  研究流程 21-2  論文結構 21-3  研究範例.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
從此處輸入帳號密碼登入到管理頁面. 點選進到檔案管理 點選「上傳檔案」上傳資料 點選瀏覽選擇電腦裡的檔案 可選擇公開或不公開 為平台上的資料夾 此處為檔案分類,可顯示在展示頁面上,若要參加 MY EG 競賽,做品一律上傳到 “ 98 MY EG Contest ” 點選此處確定上傳檔案.
Management Abstracts Retrieval System; MARS 檢索操作.
: A-Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10930: A-Sequence 解題者:陳盈村 解題日期: 2008 年 5 月 30 日 題意: A-Sequence 需符合以下的條件, 1 ≤ a.
方案設計 —評估考核 張 紉.
1 Web of Science 利用指引 逢甲大學圖書館 參考服務組 單元六 個人化服務.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
Analyzing Case Study Evidence
資料結構實習-二.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
ProQuest Digital Dissertations 〈 PQDD 〉 美加地區博碩士論文 圖 書 館
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
T H O M S O N S C I E N T I F I C ISI Web of Knowledge 新功能與提升 2005 年第 3 季.
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
概念性產品企劃書 呂學儒 李政翰.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
: Help My Brother ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11033: Help My Brother 解題者: 呂明璁 解題日期: 2007 年 5 月 14 日.
Copyright © 2007 Taipei Medical University Library 資訊檢索之理論與實務 邱子恆
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
Cambridge Scientific Abstracts 系列資料庫 圖 書 館
電子書 ( Netlibrary ) 檢索說明 龍華科技大學圖書館. 檢索類型 檢索欄位與限制 在檢索中使用布林邏輯運算元 檢索結果 特殊檢索.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
財務管理概論 劉亞秋‧薛立言 合著 (東華書局, 2007)
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆
Concept Map – whatwhat, why and how?whyhow. Outline.
幼兒行為觀察與記錄 第八章 事件取樣法.
Copyright © 2007 Taipei Medical University Library Medline 資料庫檢索 Demo 邱子恆
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

1 資訊檢索策略與技巧 黃慕萱, Chap.6 Harter , Chap. 7

2 檢索策略 v.s. 檢索技巧 最早為軍方用語 各家看法  1979 , Marcia Bates , ”Information Search Tactics”  Hartly 如何避免找到不相關文章的方法 處理找到過多或過少相關文章的可能對策  Palmer 指分區組合檢索和引用文獻滾雪球法  Pao 指布林邏輯、引用文獻及機率檢索策略 檢索策略 (search strategy)  針對一檢索問題之通盤考量或全面性之規劃  如分區組合檢索法、引用文獻滾雪球法 …. 等 檢索技巧 (search heuristics)  為完成特定目的所採取的行動

3 Briefsearch 簡易檢索 最常見的檢索方式 快速簡單  fast and inexpensive 但常是低 recall ,低 precision 適用  主題明確 想瞭解資料庫製作者所使用的敘述語和索引詞彙  確認書目資料 已知書名、作者等

4 Building Blocks Search 分區組合檢索法 亦有人稱為 “block building” 或 “building block” 檢索方式  將索引問題分解成數個主題層面 (facets)  確定主題層面間的關係 通常 facets 間的關係為 ”AND” ,出現 ”OR” 或 ”NOT” 的情況較少  找出可代表各主題層面的檢索詞彙  利用布林邏輯 ”OR” 做聯集,以求完整性 使用率最高,早期參考晤談表格常依此設計

5 Building Blocks Search Strategy--1/4 1. Conduct reference interviews 2. Formulate search objectives High recall High precision Moderate levels of recall and precision 3. Select database(s) and search system 4. Identify major concepts or facets and their logical relationships with one another

6 Building Blocks Search Strategy--2/4 5. Identify search strings that represent the concepts Words Full-text phrases Pieces of words Descriptors Identifiers Codes Non-semantic bibliographic characteristics  非主題相關的欄位,如資料類型、語言、年代等 包括同義詞、類同義詞、狹義詞、相關詞 fields to be searched

7 Building Blocks Search Strategy--3/4 6. For each distinct facet of the search, a set of postings will be created for each search string within that facet. The sets are then combined into a single set representing that facet using Boolean OR 7. Following setp#6, the facets sets themselves will be combined with Boolean AND and NOT 8. Plan alternatives

8 Building Blocks Search Strategy--4/4 9. Formulate the initial statements of the search in the command language of the system 10. Logon and put the search to the system 11. Evaluate the intermediate results 12. Iterate Use the interactive features of the system to carry out search heuristics  tactics, maneuvers, strategies, tricks, devices, approaches, to try to improve search results

9 Building blocks approach Facet AFacet B Term A1 OR Term A2 OR …… ….. Term Ap Term B1 OR Term B2 OR …… ….. Term Bq Fact C Term C1 OR Term C2 OR …… ….. Term Cr Answer Set Boolean combination of facets (AND, OR, NOT)

10 Building Blocks search sample Facet 1Facet 2Facet 3Facet 4Facet 5 RISKMEASUREMENTRISK AVERSION BEHAVIORAL DECISION THEORY INSURANCE riskmeasurement assessment choice decision outcome risk aversion risk avoidance risk neutrality risk prone risk tendency behavioral decision theory insurance contract bank finance stock investment advertisement Measurement of Risk Tendencies (  looking for high recall ) Boolean Combination: ((RISK AND MEASUREMENT) OR RISK AVERSION OR BEHAVIORAL DECISION THEORY) NOT INSURANCE

11 檢討結果重新檢索 想增加 recall 時  find additional concepts or search terms to add to one or more facets  delete a facet 想增加 precision 時  delete some of the more broader or more ambiguous terms in the facets  add an additional facet to be intersected with the others

12 Successive facet strategies 主題層面連續檢索法 — 1/3 其他名稱  fewest postings first (最少筆數優先)  most specific concept first (最精確概念優先)  successive fractions (非以主題層面開始的連續檢索) 分區 v.s. 主題層面  分區檢索法  使用所有主題層面  主題層面連續檢索法  設法動用最少的主題層面 決定檢索問題的主題層面後,需確定其優先順序, 視結果決定是否要繼續進行檢索

13 Successive facet strategies--2/3 First Facet Second Facet (optional) Other Facet (optional) Other Facet Solution Set (optional) AND 例 1 : “members and activities of 4-H clubs” 例 2 : ”the emotional, physical, and intellectual characteristics of children who have studied violin with the Suzuki method”

14 Successive facet strategies--3/3 適用情況  當所有的主題層面以布林運算元結合,很可能產生零 筆資料時  當檢索問題中有一至兩個主題層面涵義相當模糊時  當檢索問題具備其他非主題之檢索條件,如資料類型、 語言、或出版年代等,可將此非主題檢索條件視為第 一個檢索概念時  當檢索者寧願忍受誤引而不願失去相關文章時  當加入其他主題層面所花費的時間和金錢,可能會超 越直接列印檢索結果時  當相關文獻過少,檢索者願意檢視一些相關度較低的 文章時

15 Pairwise Facets 主題層面配對法 —1/3 將主題層面兩兩配對並取其交集,而後再 聯集之 適用情形  所有主題層面都同樣重要  主題層面之精確性或模糊性相差不大  將所有主題層面結合會導致零筆資料 注意:主題層面過多時,盡量以 3-4 個為執 行交集的基本單位,以免混淆

16 Pairwise Facets—2/3 分區組合檢索 主題層面配對檢索 A AND B AND C(A AND B) OR (A AND C) OR (B AND C)

17 Pairwise Facets—3/3 Facet #1 Facet #2 Facet #3 Solution Set B Solution Set A Sample: A doctoral student wants a high recall bibliography prepared on the relationship between facial musculature and the physiological (autonomic) responding of emotions, e.g., fear. Solution Set C FINAL SOLUTION SET: A OR B OR C AND

18 Citation Pearl Growing 引用文獻滾雪球法  以 high precision 為目的 由 100%precision (相關的文章),反推追求 recall 不斷從已知相關的文獻中,獲取檢索所需的 descriptors 、 identifiers 、 words ,重新進行檢索 適用情形  資料庫無索引典或詞彙集  新興學科 常需重複多次檢索,不適於初學者

19 Other facet strategies Multiple Briefsearch  利用不同的 database ,盡量取得 high recall Interactive Scanning  most time-consuming and interactive  如使用 classification codes, natural language Implied Concepts  掌握隱含性概念,視資料庫之主題性質,選用不同詞彙  例: possible health hazards from foods cooked using microwave ovens

20 Citation indexing strategies 利用引用 (citing) 與被引用 (cited) 文獻之間的關係, 建構檢索策略 Offer highly interdisciplinary and multidisciplinary approaches to online searching 檢索策略  Cited publication 、 Cited Author 、 Cocited Authors  國科會人文學研究中心人文學引用文獻資料庫( THCI )

21 Non-subject, fact, and multiple database searching Non-subject searching  Document type 、 year of publication 、 language 、 author 、 corporate source  doublelimiting Fact searching  Search for a known item Multiple database searching  注意收錄欄位和控制語言用法

22 檢索技巧 (Heuristics) Language Heuristics Command Language, Database and File Structure Heuristics Recall and Precision Heuristics  Heuristics for Increasing Recall  Heuristics for Increasing Precision Personal Heuristics

23 Language Heuristics—1/2 當有下列情形,應使用自然語言檢索  One or more of the concepts of interest involves a subtle nuance of meaning  One or more of the concepts of interest is highly specific  One or more of the concepts is relatively new and appropriate terms in the controlled vocabulary don not exist  A highly comprehensive search is desired (high recall)  The literature to be searched is “soft”

24 Language Heuristics—2/2 當有下列情形,應使用控制詞彙檢索  The concepts of interest can be expressed precisely and unambiguously in the controlled vocabulary  A limited search retrieving a limited number of highly pertinent items is desired  The literature to be searched is “hard”

25 Command Language, Database and File Structure Heuristics—1/2 Know the stop words used by the search system Know the sort order associated with the binary coding system used by the host computer Know which fields are searched by default, if search fields are not explicitly specified

26 Command Language, Database and File Structure Heuristics—2/2 Know the parsing rule used to index each field searched  瞭解基本索引檔所包含的欄位 Always question null sets  注意檢索欄位所使用的索引法,如單字或片語 Understand Boolean operations with the null set and make use of this knowledge in reformulating search statements

27 Questions to ask in low recall—1/2 Am I in the correct database? Have I overspecified the search problem? Is there anything done on the topic or problem? Is there a literature on this search problem? Have sufficient search terms been included to properly represent each concept of the search?

28 Questions to ask in low recall—2/2 Where the proximity specifications placed on the search placed on the search terms too restrictive? Was Boolean logic used correctly? Did I make a technical error, e.g., in spelling or command syntax? Should I be searching in natural language fields? Have all word forms of search terms bee used? Should truncation be employed?

29 Heuristics for Increasing Recall --1/2 Use additional synonyms and near synonyms combined with Boolean OR to represent search concepts Use more generic terms in addition to specific terms to represent search concepts Use natural language in addition to controlled vocabulary terms Search additional subject fields

30 Heuristics for Increasing Recall --2/2 Delete AND and NOT facets form the formulation Increase term truncation Use less restrictive proximity operators, e.g., require that terms appear in the same paragraph rather than the same sentence Remove any restrictions from the formulation, e.g., language, date of publication, type of publication

31 Questions to ask in low precision—1/2 Am I in the correct database? Have I underspecified the search problem? Do I need to disambiguate a concept of the problem? Have I used Boolean logic correctly? Have I include vague or ambiguous terms, or terms that are too generic?

32 Questions to ask in low precision—2/2 Should I restrict search terms to elements of a controlled vocabulary? Where the proximity specifications too loosely placed on the search terms? Are false drops resulting from concepts having an unintended relationship with one another? Has a search term been truncated too severely?

33 Heuristics for Increasing Precision --1/2 Delete near synonyms and potentially ambiguous terms Use more specific terms to represent concepts Use controlled vocabulary terms if a concept is precisely represented by them; delete controlled vocabulary terms that do not describe a concept precisely If multiple meaning does not appear to be a major problem, search natural language terms that represent the concepts of interest precisely

34 Heuristics for Increasing Precision --2/2 If none of the above conditions applies, search fewer subject fields, deleting fields in the approximate order; full text, abstract, title, identifier, and descriptor Add additional facets with AND and NOT Decrease term truncation Use more restrictive proximity operators Add restrictions to the formulation, e.g., by date of publication, type of publication, language, etc.

35 Personal Heuristics—1/2 Be flexible; stay loose; be willing to look at a search in more than one way. Avoid rigidity in thought and action. Browse samples of retrieved citations to assess relevancy. Browse samples of retrieved citations to generate additional search terms. Be heuristic, interactive. Don’t do “fast batch” searching.

36 Personal Heuristics—2/2 Evaluate one’s own work critically. Always be skeptical of search output. A mindless faith in controlled vocabularies is not always justified. Be critical of the adequacy of artificial languages for the representation of concepts in documents.