資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7. Outline 資訊檢索之基本概念 檢索策略 檢索技巧.

Slides:



Advertisements
Similar presentations
桃園縣政府貼心規劃【 1999 縣民諮詢服務熱 線】,提供桃園縣民更優質、便捷的服務。 有不清楚的縣政問題,歡迎您隨時拿起電話 撥打 1999 ,我們將協助您提供諮詢服務,讓 您享受便捷的生活。 1999 將是您的好幫手, 天天在您左右!
Advertisements

第二章 研究主題(研究題 目)與研究問題.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
OCLC NetLibrary 電子書 文崗資訊股份有限公司. 2015/6/2 文崗資訊股份有限公司 2 What is NetLibrary ? 權威性: OCLC 旗下,為全球最知名的電子書資料庫 使用廣泛: 目前全球有超過 14,000 家圖書館採用此服務 新穎性: 每月 2,000 本的速度增加中.
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
第九章 如何寫結果 HOW to Write the Results CONTENT OF THE RESULTS 結果的內容 – 1. 將實驗大致的描述 並不需要重複實驗細節 2. 呈現數據 並以過去時態重現 3. 在文稿裡應呈現 ” 代表數據 ” 而不是一再的重 複資料.
Student Library Workshop Higher Diploma (Early Childhood Education)
1 Web of Science 利用指引 單元二 瀏覽與處理查詢結果. 2 瀏覽檢索結果 查出的結果,預設以時間排列, 使用者可改變結果的排列方式: 還可以依被引用次數、相關度、 第一作者、刊名、出版年等排序 回到前先查的結果畫面 點選想看資料的完整書目 本館訂購範圍的期刊 全文,便可直接連結.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
EBSCO 資料庫. 基本檢索畫面 問題: 想看哈佛商業評論 點選 [ 出版品 ] 輸入 [ 期刊名稱 ]
如何寫好一篇報告 釐清問題 選擇資料庫 制定檢索策略 實機操作. 報告內容 跨國公司 – 公司簡介(如公司成立時間、目前在幾個國家有據 點等) – 公司計畫 – 公司組織 – 公司領導 – 公司控制 – 總結(主要為結論,但是如果可以對該公司提出建 議,會額外加分) – 參考文獻.
資料庫名稱 中國期刊全文資料庫 (China Journal Full-text Database)
1. 假設以下的敘述為一未提供 “ 捷徑計算 ” 能力的程式段,試用程 式設計的技巧,使此敘述經此改 寫的動作後,具有與 “ 捷徑計算 ” 之 處理方法相同之處理模式。 if and then E1 else E2 endif.
各種線上電子資源的特異功能 STICnet 的 SDI 專題訂閱服務 2003/4/28 修改. 無論校內外皆可使用。連線至
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
人文學期末報告 人文學期末報告 第四組 陳宥儒 溫知涵 林湘瑜 楊雅筑 李佳宸. 組員名單  圖資二 陳宥儒  圖資二 溫知涵  圖資二 林湘瑜  圖資二 楊雅筑  圖資二 李佳宸.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
Intelligent Systems Mu-Chun Su Department of Computer Science & Information Engineering National Central University.
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
From: BOOKS ONLINE 1 Safari Tech Books Online Safari Business Books Online 電子書資料庫.
ProQuest Digital Dissertations 美加地區博碩士論文 -PQDD 地點 :私立元智大學 主講人:徐韻婷 小姐 日期 : 91 年 12 月 5 日 時間 :下午 2:00~ 下午 3:30.
:Problem D: Bit-wise Sequence ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10232: Problem D: Bit-wise Sequence 解題者:李濟宇 解題日期: 2006 年 4 月 16.
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 臺北醫學大學通識教育中心
資源整合查詢系統. (2) 找尋資料時面臨的問題 1. 如何取得檢索結果的全文或相關資料 ? Ex: GoogleScholar, ISI SCI? 2. 如何看到參考文獻 (Citation, Reference) 的全文 ? 3. 該從那個資料庫開始查 ? 4. 如何分類儲存查詢結果 ? 5.
Family & Society Studies Worldwide 全球家庭與社會個案解讀資料庫 圖書館參考資訊組 陳素娟 March 17, 2004.
第三部分:研究設計 ( 二): 研究工具的信效度 與研究效度 (第九章之第 306 頁 -308 頁;第四章)
資訊檢索之理論與實務 人社學院 通識教育中心 邱子恒
網路廣告 Web Advertising. 2 商業廣告 不被認知認知 熟悉 / 信任 沒有交易過 零星交易 固定交易.
1 Netlibrary 電子書 Netlibrary 創始於 1998 年,是世界知名的電子書資 料庫,提供 450 多家出版社所出版近 100,962 ( 止)本的電子書,且以每月 2,000 本的 速度增加中。其中 80% 屬於學術性圖書,其餘 20% 一般圖書, 90% 以上為.
各種線上電子資源的特異功能 SwetsWise 的 alert, TOC alert 與 Favorites 2003/4/28 修改.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 參 資料蒐集的方法.
行政院國家科學委員會工程技術發展處自動化學門 * 試以國立成功大學製造工程研究所 鄭芳田教授 產學合作計畫 : 智慧預測保養系統之設計與實作 成果報告盤點為範例 國科會工程處專題計畫成果典藏 自動化學門成果報告盤點範例.
各種線上電子資源的特異功能 SpringerLINK 的 Alert, Serials Update, News 2003/4/28 修改.
1 透過 IT 電子商務和知識管 理應用之探討 指導老師:李富民 教授 報告者:許志傑 學號: 職 1A 報告日期 :97/01/14.
資訊檢索之策略與技巧 邱子恆
第二十一章 研究流程、論文結構        與研究範例 21-1  研究流程 21-2  論文結構 21-3  研究範例.
: Multisets and Sequences ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 11023: Multisets and Sequences 解題者:葉貫中 解題日期: 2007 年 4 月 24 日 題意:在這個題目中,我們要定義.
:Nuts for nuts..Nuts for nuts.. ★★★★☆ 題組: Problem Set Archive with Online Judge 題號: 10944:Nuts for nuts.. 解題者:楊家豪 解題日期: 2006 年 2 月 題意: 給定兩個正整數 x,y.
Management Abstracts Retrieval System; MARS 檢索操作.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
ProQuest Digital Dissertations 〈 PQDD 〉 美加地區博碩士論文 圖 書 館
校園網頁整合平台介紹 電算中心綜合業務組. 大綱 設計理念 功能介紹 實做 FAQ 特殊案例 Q&A.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
T H O M S O N S C I E N T I F I C ISI Web of Knowledge 新功能與提升 2005 年第 3 季.
Structural Equation Modeling Chapter 6 CFA 根據每個因素有多重指標,以減少 測量誤差並可建立問卷的構念效度 驗證性因素分析.
廣電新聞播報品質電腦化 評估系統之研發 國立政治大學 資訊科學系 指導教授:廖文宏 學生:蘇以暄.
Chapter 10 m-way 搜尋樹與B-Tree
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 臺北醫學大學通識教育中心
概念性產品企劃書 呂學儒 李政翰.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
論文研討 2 學分 授課教師:吳俊概. 第一節 論文發表的目的 第二節 論文發表的歷程 第三節 投稿過程 第四節 退稿處理 學術期刊論文的製作與發表.
Copyright © 2007 Taipei Medical University Library 資訊檢索之理論與實務 邱子恆
Journal Citation Reports 金珊資訊有限公司. JCR 版本介紹 Editions: Science Edition 自然科學專輯 Social Sciences Edition 社會科學專輯 Frequency 更新頻率: Annual 每年更新 Number of Journals.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
: Wine trading in Gergovia ★★☆☆☆ 題組: Contest Volumes with Online Judge 題號: 11054: Wine trading in Gergovia 解題者:劉洙愷 解題日期: 2008 年 2 月 29 日 題意:在 Gergovia.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 壹 企業研究導論.
Cambridge Scientific Abstracts 系列資料庫 圖 書 館
電子書 ( Netlibrary ) 檢索說明 龍華科技大學圖書館. 檢索類型 檢索欄位與限制 在檢索中使用布林邏輯運算元 檢索結果 特殊檢索.
OmniFile Full Text 系列資料庫 個人化服務設定步驟. 此相關資料庫之個人化服 務只提供類似專題選粹的 服務,然無提供 mail 通知的 服務,讀者可建立個人 ID , 並儲存檢索策略,日後需 再進入該資料庫,查詢檢 索策略之新進文章。 導航目次 個人化服務說明 個人帳號密碼申請 個人化服務設定.
全國奈米科技人才培育推動計畫辦公室 中北區奈米科技K -12 教育發展中心計畫 簡 報 報告人:楊鏡堂教授 計畫執行單位:國立清華大學動力機械工程學系 計畫種子學校:教育部顧問室 94 年度奈米科技人才培育先導型計畫年度成果報告 中華民國九十四年十月十四日.
Microsoft Excel.
閱選訂購 Approval Plan. 什麼是閱選訂購 ? 由圖書館與其所選定代理商簽 訂合約,代理商根據圖書館所 制定的選書興趣檔 (profile) 選 擇適合的圖書送至圖書館,由 圖書專員審核挑選過後才予以 購買,不合則主動退書。
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
著作權所有 © 旗標出版股份有限公司 第 14 章 製作信封、標籤. 本章提要 製作單一信封 製作單一郵寄標籤.
資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆
Journal Citation Reports 金珊資訊有限公司. JCR 版本介紹 Editions: Science Edition 自然科學專輯 Social Sciences Edition 社會科學專輯 Frequency 更新頻率: Annual 每年更新 Number of Journals.
幼兒行為觀察與記錄 第八章 事件取樣法.
Copyright © 2007 Taipei Medical University Library Medline 資料庫檢索 Demo 邱子恆
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Presentation transcript:

資訊檢索之策略與技巧 邱子恆

Outline 資訊檢索之基本概念 檢索策略 檢索技巧

I. 資訊檢索之基本概念 IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search

資訊儲存與檢索 (IS&R Model )

資料需求 分析內容 選擇關鍵詞 轉譯 系統關鍵詞 分析需求 選擇關鍵詞 轉譯 系統關鍵詞 關鍵詞比對檢索結果 索引作業檢索作業

自然語言 自然語言是相對於人工語言的 一種人類語言,也是最合乎人 類教談行為的溝通方式,它依 循著人類自然進化而發展,成 為人和人之間溝通的最基本工 具,如中文、英文、日文等都 是自然語言。

控制字彙 Maintenance UF Preventive maintenance Upkeep Preventive maintenance use Maintenance Upkeep use Maintenance

回收率&精確率 Recall( 回收率 / 查全率 ) & Precision( 精確率 / 查準率 ) b+d a+c 總數 dc 未檢索到 ba 檢索到 不相關相關

查全率 =a/(a+c) 查準率 =a/(a+b) 無關 相關 c a b d

布林邏輯 (AND 、 OR 、 NOT) A AND B A AND B AND C A OR B A OR B NOT C

切截 (truncation) Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數, 詞性不同, 使用 右切截 ) Woman, Women --> Wom#n ( 單複數, 使用中 間切截 ) Color, Colour --> Colo#r ( 美式 / 英式拚音, 使 用中間切截 )

相近運算元 (adjacent/near) ANALOG* ADJ1 DIGITAL* 482(1999) ANALOG* NEAR1 DIGITAL* 506(1999)

Known item search 已知書目之檢索, 即精確檢索  用已知的書目資料來檢索, 包括 : 作者, 題名, 期 刊名, 出版商, 出版年 … etc.

Subject search 主題檢索 想檢索一下到底有那些關於某主題的文獻 存在

II. 檢索策略 針對一檢索問題之通盤考量或全面性規劃  分區組合檢索法 (Block Building)  引用文獻滾雪球法 (Citation Pearl Growing)  簡易檢索 (Brief search)  主題層面連續檢索 (successive facet strategies)  主題層面配對檢索 (pairwise facets strategies)

分區組合檢索法 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以 “OR” 連結 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯關 係進行結合 6. 依步驟 1 至步驟 5 規劃檢索敘述 7. 輸入檢索敘述 8. 評估檢索成果

分區組合檢索法示意圖

引用文獻滾雪球法 事先掌握一篇或數篇相關文章, 利用這些相 關文章找尋更多相關的文章, 如此相關文章 就像雪球一樣越滾越大. 在資訊檢索上的應用 : 以相關文章的關鍵字 或敘述語繼續檢索. 是由 precision 反向追求 recall 的方法 通常必須進行多次檢索, 才能找到足夠的相 關文章.

簡易檢索 最常見的檢索 通常用簡單的幾個關鍵字, 加上布林邏輯的 組合 快速, 同時檢索到的文章不多, recall 低 適用情形 :  檢索者只闓想閱讀 “ 幾篇 ” 相關文章  執行已知書目檢索時  檢索概念相當專指 (specific) 時

主題層面連續檢索 在決定檢索問題的主題層面之後, 必須確認 各主題層面的優先順序. 在最專指概念或是可能產生最少資料的概 念輸入系統後, 如果產生太多資料, 再輸入 其他次要概念與之結合. 直到檢索者認為檢索筆數可以接受為止.

主題層面連續檢索 適用情形 :  當所有主題層面以布林運算元結合, 可能產生零 筆資料時  當檢索問題中有一至二個主題層面涵義相當模 糊時  當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型, 語文, 出版年代 ), 可將此非主題檢索 條件視為第一個檢索概念

主題層面連續檢索 適用情形 : ( 續 )  當檢索者寧願忍受誤引, 而不願失去相關文章時  當加入其他主題層面所花費的時間和金錢, 可能 會超過直接列出檢索結果, 每筆一一審視時  當相關文獻過少, 檢索者願意檢視一些相關度較 低的文章時

主題層面連續檢索示意圖

主題層面配對檢索 是先將主題層面兩兩配對, 並取其交集 也就是取任意二主題層面的交集而後聯集之 適用情形 :  當所有主題層面都同樣重要時  當主題層面之專指性或模糊性相差不大時  當將所有主題層面結合可能導致零筆資料時

主題層面配對檢索示意圖

比較圖

III. 檢索技巧 為完成特性目的所採取的行動  當檢索所得資料筆數過多時 ( 通常指誤引太多 )  當檢索所得資料筆數過少時 ( 包括零筆資料 )  當檢索者想提高 recall 時  當檢索者想提高 precision 時

當檢索所得資料筆數過多時 是否過份簡化問題 ? 是否需要重新釐清檢索概念 ? 是否使用了正確的布林邏輯運算元 ? 是否使用過份含混或一般性之名詞 ? 是否應考慮使用控制字彙 ? 是否相近運算元限制過鬆 ? 是否切截應用過鬆 ?

當檢索所得資料筆數過少時 是否將問題過份複雜化 ? 是否真有文獻探討該主題 ? 是否每個概念都使用足夠的檢索詞彙來表達 ? 是否相近運算元限制過緊 ? 是否使用了正確的布林邏輯運算元 ? 是否有語法或拼字上的錯誤 ? 是否該改用自然語言進行檢索 ? 是否考慮使用切截 ?

當檢索者想提高 recall 時 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元 “AND” 及 “NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制 ( 如 : 年代, 資料類型 ) 刪除一主題層面

當檢索者想提高 precision 時 刪除部份類同義詞或是詞意含糊的檢索詞彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙工具時, 盡量使用其來代替 自然語言 增加一主題層面 使用 “ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 ( 如年代, 資料類型 )

網路資源之檢索 分類目錄( directory ) 搜尋引擎 (search engine)  進階檢索 整合性搜尋引擎 (meta-search engine)

Yahoo! 奇摩之分類目錄

Google 搜尋引擎

Google 搜尋引擎之進階檢索

Meta search engine Meta-Search Engines 本身不是一種搜尋引擎,而是 將使用者輸入的關鍵字轉送給各大搜尋服務網站, 由這些搜尋引擎去做檢索的工作。之後其會將這 些搜尋引擎所傳回的網頁,依據關鍵字和網頁相 關性的大小,將這些網頁整合在一起,合併這些 搜尋引擎的搜尋結果,並加以排序,將搜尋結果 整理,最後傳送給使用者。如此,使用者便能藉 由 Meta-Search Engines 的合併排序,輕易找到他想 要的相關網頁,而不再需要像以往那樣為了能找 到資料,需要於不同的搜尋引擎中重覆輸入關鍵 字,做重覆查詢篩選的動作。

Dogplie :整合性搜尋引擎

G oogle 之學術性資源 G oogle Book Search  Google Scholar 

Google Book Search

Google Library 是 Google 於 2002 年起,首先與美國 密西根大學研議,企圖將圖書館館藏數位化的一 項計畫,該計畫打算將圖書館的圖書內容全文掃 描,再經文字辨識處理之後,將圖書之內容數位 化,做成線上圖書全文檢索系統。 Google 投資了 兩億美元,目前合作的對象包括:史丹福大學、 密西根大學、哈佛大學、牛津大學、以及紐約公 共圖書館等五大圖書館,希望將參與圖書館之館 藏圖書數位化,讓全球各地讀者能夠在線上搜尋 到圖書的內容。

Google Book Search Google Book Search 收錄的圖書相當廣泛, 舉凡小說、非小說、參考工具書、學術性 資料、教科書、兒童書、科學、醫學、專 業、教育等等領域都有。而隨著參與計畫 的五大圖書館之館藏逐漸被數位化,絕版 書、罕見書( rare books )、公共領域 ( public domain )的書籍都將包括其中

Google Book Search 當使用者找到喜歡的圖書之後,可以選擇 從「 Buy this book 」的聯結串連至網路書店 購買;若該書為某一圖書館的館藏,則可 以選擇「 Find it in a Library 」的聯結,系統 會自動與 OCLC 的聯合目錄 WorldCat 串連, 在美國地區的使用者只要輸入郵遞區號, 系統即會告知該區域中有哪些圖書館擁有 這本圖書,使用者可以進一步到圖書館借 閱。

Google Book Search 之進階查詢

Google Book Search 之查詢結果

看見圖書的封面,目次,索引,封底; 並可以做該書內文的全文檢索

可以進而在網路書店訂購

可以看見書中相關的文句

可以看見部份的頁面

Google Scholar (學術文獻搜尋) Google Scholar 提供了使用者簡單而方便地 查詢學術文獻的單一入口,使用者可以從 中搜尋到不同學科與不同來源的學術性資 料,包括:由學術性出版社、專業學會、 預刊本( pre-print )資料中心、大學、與學 術組織所提供的同儕審核論文、學位論文、 以及學術性圖書、摘要、與期刊論文等。

Google Scholar (學術文獻搜尋) 特色  從單一窗口一次查詢眾多來源的資料  可以找到論文、摘要、與參考書目  若使用者的隸屬機構有訂購該電子資源,可 以直接串連獲得文獻全文  使用者可以找到任何研究領域的重要文獻  檢索結果以與檢索條件的相關性( relevance ) 排序

Google Scholar (學術文獻搜尋) Google Scholar 的合作對象包括 ACM 、 Nature 、 IEL 、 Cochrane.org 、 OCLC 、與許多專業學會,而 這些知名的資料出版與彙整單位與 Google 合作的 好處有:增加其資料被使用者獲取的管道、增加 全文被連結的機會、增加單篇文章被訂購的機會 等。但要再次提醒使用者的是,資源取得的基本 概念並沒有改變,就是都要「付費才能取得全 文」,也就是說使用者在隸屬機構的有效網域中, 可以直接由 Google Scholar 檢索結果的書目資料, 串連至該機構有訂購的電子資源;或是直接向資 料出版機構單篇購買文獻。

Google Scholar (學術文獻搜尋) Google Scholar 取得許多商業出版單位的非 專屬授權,進行論文全文的索引後,使用 者可以鍵入關鍵字,以全文檢索的方式搜 尋符合其研究興趣的論文全文。例如:鍵 入「李遠哲」,系統馬上可找到許多由李 遠哲發表、或文中提及李遠哲三個字的學 術文獻;除了可直接超連結取得全文外, 每篇搜尋結果下同時會出現這篇文章被引 的次數,點選後亦可清楚知道哪些文章引 用了此篇文章。

Google Scholar (學術文獻搜尋) 在搜尋引擎上建置引用文獻統計與連結的 功能,可讓使用者直接藉此評估文章的重 要性與權威性,便於使用者選擇需研讀的 文章以進行學術研究。再者,除了引用文 獻統計,還可直接點選進入其他搜尋引擎 找尋與此文章相關的資源,相當適合作為 研究性資料搜尋工具。

G oogle Scholar

Google Scholar 之進階檢索

Google Scholar 之查詢結果

與使用者隸屬機構所訂之資源連結

直接獲取全文

顯示文獻之被引用次數