Download presentation
Presentation is loading. Please wait.
1
資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7
2
Outline 資訊檢索之基本概念 檢索策略 檢索技巧
3
I. 資訊檢索之基本概念 IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search
4
資訊儲存與檢索 (IS&R Model )
5
資料需求 分析內容 選擇關鍵詞 轉譯 系統關鍵詞 分析需求 選擇關鍵詞 轉譯 系統關鍵詞 關鍵詞比對檢索結果 索引作業檢索作業
6
自然語言 自然語言是相對於人工語言的 一種人類語言,也是最合乎人 類教談行為的溝通方式,它依 循著人類自然進化而發展,成 為人和人之間溝通的最基本工 具,如中文、英文、日文等都 是自然語言。
7
控制字彙 Maintenance UF Preventive maintenance Upkeep Preventive maintenance use Maintenance Upkeep use Maintenance
8
回收率&精確率 Recall( 回收率 / 查全率 ) & Precision( 精確率 / 查準率 ) b+d a+c 總數 dc 未檢索到 ba 檢索到 不相關相關
9
查全率 =a/(a+c) 查準率 =a/(a+b) 無關 相關 c a b d
10
布林邏輯 (AND 、 OR 、 NOT) A AND B A AND B AND C A OR B A OR B NOT C
11
切截 (truncation) Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數, 詞性不同, 使用 右切截 ) Woman, Women --> Wom#n ( 單複數, 使用中 間切截 ) Color, Colour --> Colo#r ( 美式 / 英式拚音, 使 用中間切截 )
12
相近運算元 (adjacent/near) ANALOG* ADJ1 DIGITAL* 482(1999) ANALOG* NEAR1 DIGITAL* 506(1999)
13
Known item search 已知書目之檢索, 即精確檢索 用已知的書目資料來檢索, 包括 : 作者, 題名, 期 刊名, 出版商, 出版年 … etc.
14
Subject search 主題檢索 想檢索一下到底有那些關於某主題的文獻 存在
15
II. 檢索策略 針對一檢索問題之通盤考量或全面性規劃 分區組合檢索法 (Block Building) 引用文獻滾雪球法 (Citation Pearl Growing) 簡易檢索 (Brief search) 主題層面連續檢索 (successive facet strategies) 主題層面配對檢索 (pairwise facets strategies)
16
分區組合檢索法 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以 “OR” 連結 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯關 係進行結合 6. 依步驟 1 至步驟 5 規劃檢索敘述 7. 輸入檢索敘述 8. 評估檢索成果
17
分區組合檢索法示意圖
18
引用文獻滾雪球法 事先掌握一篇或數篇相關文章, 利用這些相 關文章找尋更多相關的文章, 如此相關文章 就像雪球一樣越滾越大. 在資訊檢索上的應用 : 以相關文章的關鍵字 或敘述語繼續檢索. 是由 precision 反向追求 recall 的方法 通常必須進行多次檢索, 才能找到足夠的相 關文章.
19
簡易檢索 最常見的檢索 通常用簡單的幾個關鍵字, 加上布林邏輯的 組合 快速, 同時檢索到的文章不多, recall 低 適用情形 : 檢索者只闓想閱讀 “ 幾篇 ” 相關文章 執行已知書目檢索時 檢索概念相當專指 (specific) 時
20
主題層面連續檢索 在決定檢索問題的主題層面之後, 必須確認 各主題層面的優先順序. 在最專指概念或是可能產生最少資料的概 念輸入系統後, 如果產生太多資料, 再輸入 其他次要概念與之結合. 直到檢索者認為檢索筆數可以接受為止.
21
主題層面連續檢索 適用情形 : 當所有主題層面以布林運算元結合, 可能產生零 筆資料時 當檢索問題中有一至二個主題層面涵義相當模 糊時 當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型, 語文, 出版年代 ), 可將此非主題檢索 條件視為第一個檢索概念
22
主題層面連續檢索 適用情形 : ( 續 ) 當檢索者寧願忍受誤引, 而不願失去相關文章時 當加入其他主題層面所花費的時間和金錢, 可能 會超過直接列出檢索結果, 每筆一一審視時 當相關文獻過少, 檢索者願意檢視一些相關度較 低的文章時
23
主題層面連續檢索示意圖
24
主題層面配對檢索 是先將主題層面兩兩配對, 並取其交集 也就是取任意二主題層面的交集而後聯集之 適用情形 : 當所有主題層面都同樣重要時 當主題層面之專指性或模糊性相差不大時 當將所有主題層面結合可能導致零筆資料時
25
主題層面配對檢索示意圖
26
比較圖
27
III. 檢索技巧 為完成特性目的所採取的行動 當檢索所得資料筆數過多時 ( 通常指誤引太多 ) 當檢索所得資料筆數過少時 ( 包括零筆資料 ) 當檢索者想提高 recall 時 當檢索者想提高 precision 時
28
當檢索所得資料筆數過多時 是否過份簡化問題 ? 是否需要重新釐清檢索概念 ? 是否使用了正確的布林邏輯運算元 ? 是否使用過份含混或一般性之名詞 ? 是否應考慮使用控制字彙 ? 是否相近運算元限制過鬆 ? 是否切截應用過鬆 ?
29
當檢索所得資料筆數過少時 是否將問題過份複雜化 ? 是否真有文獻探討該主題 ? 是否每個概念都使用足夠的檢索詞彙來表達 ? 是否相近運算元限制過緊 ? 是否使用了正確的布林邏輯運算元 ? 是否有語法或拼字上的錯誤 ? 是否該改用自然語言進行檢索 ? 是否考慮使用切截 ?
30
當檢索者想提高 recall 時 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元 “AND” 及 “NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制 ( 如 : 年代, 資料類型 ) 刪除一主題層面
31
當檢索者想提高 precision 時 刪除部份類同義詞或是詞意含糊的檢索詞彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙工具時, 盡量使用其來代替 自然語言 增加一主題層面 使用 “ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 ( 如年代, 資料類型 )
32
網路資源之檢索 分類目錄( directory ) 搜尋引擎 (search engine) 進階檢索 整合性搜尋引擎 (meta-search engine)
33
Yahoo! 奇摩之分類目錄
34
Google 搜尋引擎
35
Google 搜尋引擎之進階檢索
36
Meta search engine Meta-Search Engines 本身不是一種搜尋引擎,而是 將使用者輸入的關鍵字轉送給各大搜尋服務網站, 由這些搜尋引擎去做檢索的工作。之後其會將這 些搜尋引擎所傳回的網頁,依據關鍵字和網頁相 關性的大小,將這些網頁整合在一起,合併這些 搜尋引擎的搜尋結果,並加以排序,將搜尋結果 整理,最後傳送給使用者。如此,使用者便能藉 由 Meta-Search Engines 的合併排序,輕易找到他想 要的相關網頁,而不再需要像以往那樣為了能找 到資料,需要於不同的搜尋引擎中重覆輸入關鍵 字,做重覆查詢篩選的動作。
37
Dogplie :整合性搜尋引擎
40
G oogle 之學術性資源 G oogle Book Search http://books.google.com/ Google Scholar http://scholar.google.com.tw/schhp?hl=zh-TW
41
Google Book Search
42
Google Library 是 Google 於 2002 年起,首先與美國 密西根大學研議,企圖將圖書館館藏數位化的一 項計畫,該計畫打算將圖書館的圖書內容全文掃 描,再經文字辨識處理之後,將圖書之內容數位 化,做成線上圖書全文檢索系統。 Google 投資了 兩億美元,目前合作的對象包括:史丹福大學、 密西根大學、哈佛大學、牛津大學、以及紐約公 共圖書館等五大圖書館,希望將參與圖書館之館 藏圖書數位化,讓全球各地讀者能夠在線上搜尋 到圖書的內容。
43
Google Book Search Google Book Search 收錄的圖書相當廣泛, 舉凡小說、非小說、參考工具書、學術性 資料、教科書、兒童書、科學、醫學、專 業、教育等等領域都有。而隨著參與計畫 的五大圖書館之館藏逐漸被數位化,絕版 書、罕見書( rare books )、公共領域 ( public domain )的書籍都將包括其中
44
Google Book Search 當使用者找到喜歡的圖書之後,可以選擇 從「 Buy this book 」的聯結串連至網路書店 購買;若該書為某一圖書館的館藏,則可 以選擇「 Find it in a Library 」的聯結,系統 會自動與 OCLC 的聯合目錄 WorldCat 串連, 在美國地區的使用者只要輸入郵遞區號, 系統即會告知該區域中有哪些圖書館擁有 這本圖書,使用者可以進一步到圖書館借 閱。
45
Google Book Search 之進階查詢
46
Google Book Search 之查詢結果
47
看見圖書的封面,目次,索引,封底; 並可以做該書內文的全文檢索
48
可以進而在網路書店訂購
49
可以看見書中相關的文句
50
可以看見部份的頁面
51
Google Scholar (學術文獻搜尋) Google Scholar 提供了使用者簡單而方便地 查詢學術文獻的單一入口,使用者可以從 中搜尋到不同學科與不同來源的學術性資 料,包括:由學術性出版社、專業學會、 預刊本( pre-print )資料中心、大學、與學 術組織所提供的同儕審核論文、學位論文、 以及學術性圖書、摘要、與期刊論文等。
52
Google Scholar (學術文獻搜尋) 特色 從單一窗口一次查詢眾多來源的資料 可以找到論文、摘要、與參考書目 若使用者的隸屬機構有訂購該電子資源,可 以直接串連獲得文獻全文 使用者可以找到任何研究領域的重要文獻 檢索結果以與檢索條件的相關性( relevance ) 排序
53
Google Scholar (學術文獻搜尋) Google Scholar 的合作對象包括 ACM 、 Nature 、 IEL 、 Cochrane.org 、 OCLC 、與許多專業學會,而 這些知名的資料出版與彙整單位與 Google 合作的 好處有:增加其資料被使用者獲取的管道、增加 全文被連結的機會、增加單篇文章被訂購的機會 等。但要再次提醒使用者的是,資源取得的基本 概念並沒有改變,就是都要「付費才能取得全 文」,也就是說使用者在隸屬機構的有效網域中, 可以直接由 Google Scholar 檢索結果的書目資料, 串連至該機構有訂購的電子資源;或是直接向資 料出版機構單篇購買文獻。
54
Google Scholar (學術文獻搜尋) Google Scholar 取得許多商業出版單位的非 專屬授權,進行論文全文的索引後,使用 者可以鍵入關鍵字,以全文檢索的方式搜 尋符合其研究興趣的論文全文。例如:鍵 入「李遠哲」,系統馬上可找到許多由李 遠哲發表、或文中提及李遠哲三個字的學 術文獻;除了可直接超連結取得全文外, 每篇搜尋結果下同時會出現這篇文章被引 的次數,點選後亦可清楚知道哪些文章引 用了此篇文章。
55
Google Scholar (學術文獻搜尋) 在搜尋引擎上建置引用文獻統計與連結的 功能,可讓使用者直接藉此評估文章的重 要性與權威性,便於使用者選擇需研讀的 文章以進行學術研究。再者,除了引用文 獻統計,還可直接點選進入其他搜尋引擎 找尋與此文章相關的資源,相當適合作為 研究性資料搜尋工具。
56
G oogle Scholar
57
Google Scholar 之進階檢索
58
Google Scholar 之查詢結果
59
與使用者隸屬機構所訂之資源連結
60
直接獲取全文
61
顯示文獻之被引用次數
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.