Presentation is loading. Please wait.

Presentation is loading. Please wait.

資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7. Outline 資訊檢索之基本概念 檢索策略 檢索技巧.

Similar presentations


Presentation on theme: "資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7. Outline 資訊檢索之基本概念 檢索策略 檢索技巧."— Presentation transcript:

1 資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7

2 Outline 資訊檢索之基本概念 檢索策略 檢索技巧

3 I. 資訊檢索之基本概念 IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search

4 資訊儲存與檢索 (IS&R Model )

5 資料需求 分析內容 選擇關鍵詞 轉譯 系統關鍵詞 分析需求 選擇關鍵詞 轉譯 系統關鍵詞 關鍵詞比對檢索結果 索引作業檢索作業

6 自然語言 自然語言是相對於人工語言的 一種人類語言,也是最合乎人 類教談行為的溝通方式,它依 循著人類自然進化而發展,成 為人和人之間溝通的最基本工 具,如中文、英文、日文等都 是自然語言。

7 控制字彙 Maintenance UF Preventive maintenance Upkeep Preventive maintenance use Maintenance Upkeep use Maintenance

8 回收率&精確率 Recall( 回收率 / 查全率 ) & Precision( 精確率 / 查準率 ) b+d a+c 總數 dc 未檢索到 ba 檢索到 不相關相關

9 查全率 =a/(a+c) 查準率 =a/(a+b) 無關 相關 c a b d

10 布林邏輯 (AND 、 OR 、 NOT) A AND B A AND B AND C A OR B A OR B NOT C

11 切截 (truncation) Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數, 詞性不同, 使用 右切截 ) Woman, Women --> Wom#n ( 單複數, 使用中 間切截 ) Color, Colour --> Colo#r ( 美式 / 英式拚音, 使 用中間切截 )

12 相近運算元 (adjacent/near) ANALOG* ADJ1 DIGITAL* 482(1999) ANALOG* NEAR1 DIGITAL* 506(1999)

13 Known item search 已知書目之檢索, 即精確檢索  用已知的書目資料來檢索, 包括 : 作者, 題名, 期 刊名, 出版商, 出版年 … etc.

14 Subject search 主題檢索 想檢索一下到底有那些關於某主題的文獻 存在

15 II. 檢索策略 針對一檢索問題之通盤考量或全面性規劃  分區組合檢索法 (Block Building)  引用文獻滾雪球法 (Citation Pearl Growing)  簡易檢索 (Brief search)  主題層面連續檢索 (successive facet strategies)  主題層面配對檢索 (pairwise facets strategies)

16 分區組合檢索法 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以 “OR” 連結 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯關 係進行結合 6. 依步驟 1 至步驟 5 規劃檢索敘述 7. 輸入檢索敘述 8. 評估檢索成果

17 分區組合檢索法示意圖

18 引用文獻滾雪球法 事先掌握一篇或數篇相關文章, 利用這些相 關文章找尋更多相關的文章, 如此相關文章 就像雪球一樣越滾越大. 在資訊檢索上的應用 : 以相關文章的關鍵字 或敘述語繼續檢索. 是由 precision 反向追求 recall 的方法 通常必須進行多次檢索, 才能找到足夠的相 關文章.

19 簡易檢索 最常見的檢索 通常用簡單的幾個關鍵字, 加上布林邏輯的 組合 快速, 同時檢索到的文章不多, recall 低 適用情形 :  檢索者只闓想閱讀 “ 幾篇 ” 相關文章  執行已知書目檢索時  檢索概念相當專指 (specific) 時

20 主題層面連續檢索 在決定檢索問題的主題層面之後, 必須確認 各主題層面的優先順序. 在最專指概念或是可能產生最少資料的概 念輸入系統後, 如果產生太多資料, 再輸入 其他次要概念與之結合. 直到檢索者認為檢索筆數可以接受為止.

21 主題層面連續檢索 適用情形 :  當所有主題層面以布林運算元結合, 可能產生零 筆資料時  當檢索問題中有一至二個主題層面涵義相當模 糊時  當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型, 語文, 出版年代 ), 可將此非主題檢索 條件視為第一個檢索概念

22 主題層面連續檢索 適用情形 : ( 續 )  當檢索者寧願忍受誤引, 而不願失去相關文章時  當加入其他主題層面所花費的時間和金錢, 可能 會超過直接列出檢索結果, 每筆一一審視時  當相關文獻過少, 檢索者願意檢視一些相關度較 低的文章時

23 主題層面連續檢索示意圖

24 主題層面配對檢索 是先將主題層面兩兩配對, 並取其交集 也就是取任意二主題層面的交集而後聯集之 適用情形 :  當所有主題層面都同樣重要時  當主題層面之專指性或模糊性相差不大時  當將所有主題層面結合可能導致零筆資料時

25 主題層面配對檢索示意圖

26 比較圖

27 III. 檢索技巧 為完成特性目的所採取的行動  當檢索所得資料筆數過多時 ( 通常指誤引太多 )  當檢索所得資料筆數過少時 ( 包括零筆資料 )  當檢索者想提高 recall 時  當檢索者想提高 precision 時

28 當檢索所得資料筆數過多時 是否過份簡化問題 ? 是否需要重新釐清檢索概念 ? 是否使用了正確的布林邏輯運算元 ? 是否使用過份含混或一般性之名詞 ? 是否應考慮使用控制字彙 ? 是否相近運算元限制過鬆 ? 是否切截應用過鬆 ?

29 當檢索所得資料筆數過少時 是否將問題過份複雜化 ? 是否真有文獻探討該主題 ? 是否每個概念都使用足夠的檢索詞彙來表達 ? 是否相近運算元限制過緊 ? 是否使用了正確的布林邏輯運算元 ? 是否有語法或拼字上的錯誤 ? 是否該改用自然語言進行檢索 ? 是否考慮使用切截 ?

30 當檢索者想提高 recall 時 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元 “AND” 及 “NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制 ( 如 : 年代, 資料類型 ) 刪除一主題層面

31 當檢索者想提高 precision 時 刪除部份類同義詞或是詞意含糊的檢索詞彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙工具時, 盡量使用其來代替 自然語言 增加一主題層面 使用 “ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 ( 如年代, 資料類型 )

32 網路資源之檢索 分類目錄( directory ) 搜尋引擎 (search engine)  進階檢索 整合性搜尋引擎 (meta-search engine)

33 Yahoo! 奇摩之分類目錄

34 Google 搜尋引擎

35 Google 搜尋引擎之進階檢索

36 Meta search engine Meta-Search Engines 本身不是一種搜尋引擎,而是 將使用者輸入的關鍵字轉送給各大搜尋服務網站, 由這些搜尋引擎去做檢索的工作。之後其會將這 些搜尋引擎所傳回的網頁,依據關鍵字和網頁相 關性的大小,將這些網頁整合在一起,合併這些 搜尋引擎的搜尋結果,並加以排序,將搜尋結果 整理,最後傳送給使用者。如此,使用者便能藉 由 Meta-Search Engines 的合併排序,輕易找到他想 要的相關網頁,而不再需要像以往那樣為了能找 到資料,需要於不同的搜尋引擎中重覆輸入關鍵 字,做重覆查詢篩選的動作。

37 Dogplie :整合性搜尋引擎

38

39

40 G oogle 之學術性資源 G oogle Book Search  http://books.google.com/ Google Scholar  http://scholar.google.com.tw/schhp?hl=zh-TW

41 Google Book Search

42 Google Library 是 Google 於 2002 年起,首先與美國 密西根大學研議,企圖將圖書館館藏數位化的一 項計畫,該計畫打算將圖書館的圖書內容全文掃 描,再經文字辨識處理之後,將圖書之內容數位 化,做成線上圖書全文檢索系統。 Google 投資了 兩億美元,目前合作的對象包括:史丹福大學、 密西根大學、哈佛大學、牛津大學、以及紐約公 共圖書館等五大圖書館,希望將參與圖書館之館 藏圖書數位化,讓全球各地讀者能夠在線上搜尋 到圖書的內容。

43 Google Book Search Google Book Search 收錄的圖書相當廣泛, 舉凡小說、非小說、參考工具書、學術性 資料、教科書、兒童書、科學、醫學、專 業、教育等等領域都有。而隨著參與計畫 的五大圖書館之館藏逐漸被數位化,絕版 書、罕見書( rare books )、公共領域 ( public domain )的書籍都將包括其中

44 Google Book Search 當使用者找到喜歡的圖書之後,可以選擇 從「 Buy this book 」的聯結串連至網路書店 購買;若該書為某一圖書館的館藏,則可 以選擇「 Find it in a Library 」的聯結,系統 會自動與 OCLC 的聯合目錄 WorldCat 串連, 在美國地區的使用者只要輸入郵遞區號, 系統即會告知該區域中有哪些圖書館擁有 這本圖書,使用者可以進一步到圖書館借 閱。

45 Google Book Search 之進階查詢

46 Google Book Search 之查詢結果

47 看見圖書的封面,目次,索引,封底; 並可以做該書內文的全文檢索

48 可以進而在網路書店訂購

49 可以看見書中相關的文句

50 可以看見部份的頁面

51 Google Scholar (學術文獻搜尋) Google Scholar 提供了使用者簡單而方便地 查詢學術文獻的單一入口,使用者可以從 中搜尋到不同學科與不同來源的學術性資 料,包括:由學術性出版社、專業學會、 預刊本( pre-print )資料中心、大學、與學 術組織所提供的同儕審核論文、學位論文、 以及學術性圖書、摘要、與期刊論文等。

52 Google Scholar (學術文獻搜尋) 特色  從單一窗口一次查詢眾多來源的資料  可以找到論文、摘要、與參考書目  若使用者的隸屬機構有訂購該電子資源,可 以直接串連獲得文獻全文  使用者可以找到任何研究領域的重要文獻  檢索結果以與檢索條件的相關性( relevance ) 排序

53 Google Scholar (學術文獻搜尋) Google Scholar 的合作對象包括 ACM 、 Nature 、 IEL 、 Cochrane.org 、 OCLC 、與許多專業學會,而 這些知名的資料出版與彙整單位與 Google 合作的 好處有:增加其資料被使用者獲取的管道、增加 全文被連結的機會、增加單篇文章被訂購的機會 等。但要再次提醒使用者的是,資源取得的基本 概念並沒有改變,就是都要「付費才能取得全 文」,也就是說使用者在隸屬機構的有效網域中, 可以直接由 Google Scholar 檢索結果的書目資料, 串連至該機構有訂購的電子資源;或是直接向資 料出版機構單篇購買文獻。

54 Google Scholar (學術文獻搜尋) Google Scholar 取得許多商業出版單位的非 專屬授權,進行論文全文的索引後,使用 者可以鍵入關鍵字,以全文檢索的方式搜 尋符合其研究興趣的論文全文。例如:鍵 入「李遠哲」,系統馬上可找到許多由李 遠哲發表、或文中提及李遠哲三個字的學 術文獻;除了可直接超連結取得全文外, 每篇搜尋結果下同時會出現這篇文章被引 的次數,點選後亦可清楚知道哪些文章引 用了此篇文章。

55 Google Scholar (學術文獻搜尋) 在搜尋引擎上建置引用文獻統計與連結的 功能,可讓使用者直接藉此評估文章的重 要性與權威性,便於使用者選擇需研讀的 文章以進行學術研究。再者,除了引用文 獻統計,還可直接點選進入其他搜尋引擎 找尋與此文章相關的資源,相當適合作為 研究性資料搜尋工具。

56 G oogle Scholar

57 Google Scholar 之進階檢索

58 Google Scholar 之查詢結果

59 與使用者隸屬機構所訂之資源連結

60 直接獲取全文

61 顯示文獻之被引用次數


Download ppt "資訊檢索之策略與技巧 邱子恆 2008.3.31-2008.4.7. Outline 資訊檢索之基本概念 檢索策略 檢索技巧."

Similar presentations


Ads by Google