WBIA Project 2 – Retrieval & Evaluation LI Geng Nov.10, 2008.

Slides:



Advertisements
Similar presentations
首 页 首 页 上一页 下一页 本讲内容 投影法概述三视图形成及其投影规律平面立体三视图、尺寸标注 本讲内容 复习: P25~P31 、 P84~P85 作业: P7, P8, P14[2-32(2) A3 (1:1)]
Advertisements

一、统计范围 注册地在湖里区的具有房地产开发资质的 房地产开发企业 无论目前是否有开发项目 无论开发的项目是在湖里区还是在其他区 没有开发项目的企业需要报送年报和月报 中的资金表(空表)。 新成立的项目公司,要先入库,再报报表。
Writing: letter of advice.
社区健康管理 社区健康管理 青岛松山医院 贺孟泉 青岛松山医院 贺孟泉. 健康管理师 从事对人群或个人健康和疾病的监测、分析、评估以及健康维护和健康促进的专业人员。
数据挖掘实验 1 Apriori 算法编程实现. 数据挖掘实验一 (20’) 实验目的:了解关联规则在数据挖掘中的 应用,理解和掌握关联挖掘的经典算法 Apriori 算法的基本原理和执行过程并完成程 序设计。 实验内容:对给定数据集用 Apriori 算法进行 挖掘,找出其中的频繁集并生成关联规则。
本幻灯为医用耗材集中询价采购网上操作说明,请参考收费说明、供应厂商流程等文件 综合学习。幻灯次序按操作次序进行,可配合自身用户名对照学习。 操作人员:所有类别 操作说明:所有标 new 标志的文件,务必仔细查看。原有用户名和信息均可继续使用,新 使用人员可点击注册申请使用.
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
塑 性 加 工 学 实 验 课 件塑 性 加 工 学 实 验 课 件 — 金属室温压缩变形抗力测定及加工硬化分析 南京理工大学材料科学与工程系 制作人:尹德良.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
C 语言程序设计 2008 版. C 语言程序设计 教学要求  掌握程序设计语言的基本知识  常用算法  初步的程序设计能力 学习方法  自主学习  重视上机实践.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
《文献管理与信息分析》 罗昭锋 中国扩科学技术大学 HistCite 作业及课程报告要求.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
模拟电子技术 模拟电子技术实验 主 编 李 林 副主编 沈明霞 刘德营 陆静霞 参 编 黄桂林 杨红兵 邹修国 徐 友 邹春富 主 审 尹文庆.
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第二十五讲 ) 离散数学. 定理 群定义中的条件 ( 1 )和( 2 )可以减弱如下: ( 1 ) ’ G 中有一个元素左壹适合 1 · a=a; ( 2 ) ’ 对于任意 a ,有一个元素左逆 a -1 适 合 a -1 ·
第 4 章 过程与变量的作用范围. 4.1 Visual Basic 的代码模块 Visual Basic 的应用程序是由过程组成的, 过程代码存放在模块中。 Visual Basic 提供了 三类模块,它们是窗体模块、标准模块和类 模块。 窗体模块 窗体模块是大多数 Visual Basic.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十九讲 ) 离散数学. 例 设 S 是一个集合, ρ ( S )是 S 的幂集合,集合 的交( ∩ ),并(∪)是 ρ ( S )上的两个代数运算, 于是,( ρ ( S ), ∩ ,∪) 是一个格。而由例 知.
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
外文文献检索示例. 实验目的: 掌握利用计算机网络检索外文文献的基本方法; 了解熟悉下列数据库的结构、内容并掌握其检索方 法 ; 掌握检索的主要途径:出版物( Publication )、关键 词( Keyword )、作者( Author )等。
OS 进程调度模拟演示 制作人: 钱晶 高上上. OS 进程调度模拟-实验原理 静态优先级原理 在这种方式下,系统一旦把处理机分配给就绪队 列中的优先权最高的进程后,该进程便一直执行下去, 直至完成。或因为发生某事件使该进程放弃处理机,系 统方可再将处理机分配给另一优先级最高的进程。这些 事件包括有优先级更高的进程进入,或是因为某些原因.
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
操作系统原理课程设计指南 姜海燕 设计考核幻灯制作  1.1 封皮:系统名称,研制人员  1.2 目的及意义  1.3 功能设计:功能框图、用例图  1.4 结构设计:系统结构  1.5 核心技术及技术路线:画图  1.6 进度安排  1.7 人员安排  1.8.
实验二 vpn 实验 格式: – 附件形式上交 – 课程名+实验次数+姓名+学号 上交日期 – 下次实验之前.
从 Postscript 格式文献中提取 数学公式的方法. 概述 从 Postscript 格式文献中提取识别数学公式, 是数学公式识别领域的一个研究方向。主要针对 以 Word 和 Latex 为生成源的 Postscript 文档, 提出 基于内容的数学公式提取方法。首先重载 Postscript.
东南大学计算中心 网站应用与实践 主讲人 吴俊. 2 东南大学计算中心 网站制作流程  确定主题、风格  规划栏目、收集素材  版面设计、配色  编辑页面  测试发布 FrontPage 要完成的任务.
1 学籍归档工作 年学籍归档工作安排 从 2008 年开始,改为按届移交档案 从 2008 年开始,改为按届移交档案 今年的归档工作范围: 今年的归档工作范围: 2014 年应届毕业班级 2014 年应届毕业班级 2014 年办理毕业证的往届生。 2014 年办理毕业证的往届生。 整理内容:根据.
湖南省赛宝软件服务有限公司 信息报送及申报系统演示 湖南省赛宝软件服务有限公司 李纠.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
程序设计是计算机学科的核心和灵魂程序设计是计算机学科的核心和灵魂 程序设计基础 第十一章 面向对象软件构造.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
1 第 7 章 存储过程、触发器和程序包 在很多时候,都需要保存 PL/SQL 程序块,以便 随后可以重新使用。这也意味着,程序块需要一个名 称,这样需才可以调用或者引用它。命名的 PL/SQL 程序块可被独立编译并存储在数据库中,任何与数据 库相连接的应用程序都可以访问这些存储的 PL/SQL 程序块。
首 页 首 页 上一页 下一页 本讲内容本讲内容 视图,剖视图(Ⅰ) 复习: P107 ~ P115 作业: P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)
学生成长成才导图填报指南 填报网址:
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
Introduction to Automatic Control The Laplace Transform Li Huifeng Tel:
Unit1 How can we become good learners?
刘相兵 (Maclean Liu) 介绍 dbms_registry PL/SQL 程序包.
华南师范大学教育科学学院 第二步:明确小组成员分工 选举 “ 常任组长 ” 1 名。 所有组员以个人姓名笔画排序 1 、 2 、 3 、 4 、 5 号,轮流担任 “ 轮值组长 ” ,每一周进行轮换。 本次课的轮值组长为 1 号。
1 、如果 x + 5 > 4 ,那么两边都 可得 x >- 1 2 、在- 3y >- 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以- 1 可得 4 、将- 7x — 6 < 8 移项可得 。 5 、将 5 + a >- 2 a 移项可得 。 6 、将- 8x < 0.
Computer Networks and Internets 《计算机网络与因特网》课件 林坤辉
Module 2 Unit 1 I can speak English 教学目标: 1 词组 play football / basketball, ride a bike/horse, play the piano, speak English… 2. 交际用语: 1)I can play football.
名探柯南在侦查一个特大盗窃集团过程 中,获得藏有宝物的密码箱,密码究竟 是什么呢?请看信息: ABCDEF( 每个字 母表示一个数字 ) A :是所有自然数的因数 B :既有因数 5 ,又是 5 的倍数 C :既是偶数又是质数 D :既是奇数又是合数 EF :是 2 、 3 、 5 的最小公倍数.
项目七: PLC 功能指令应用 带进位循环左移指令 XXXXX. 项目七: PLC 功能指令应用 FX2 系列可编程控制器移位控制指令有移位、循环移位、字移位 及先进先出 FIFO 指令等 10 条指令。 带进位循环右移指令 RCR 带进位循环左移指令 RCL 字右移位指令 WSFR 先入先出读出指令.
本讲主要内容: 1. 如何登陆网站后台 2. 基础信息修改 3. 网站文章类型资料更新 4. 网站图片类型资料更新 5. 网站链接类型资料更新 本讲主要目的: 在结束本讲内容之后,能够按照客户的需求对网站的资料 进行实时更新操作。
Java 水晶报表. 目录 水晶报表开发 (CrystalReports 2008) Java 水晶报表 (JBuilder 2005) 报表项目布署 (WebSphere v6.1)
EC 营客通产品操作(九) EC 营客通产品操作(九) 400 电话 400 电话. 400 电话有助于提升企业形象,无论企业地址变更、机构 变化、人员变动,联系方式永远不变。且在 EC 上申请的 400 电话可以在 EC 平台上进行统一的 400 电话接听及 400 电话客服的管理。
企业产品标准信息公共服务平台 操作介绍 目录 一 、系统架构介绍 二 、企业产品标准自我声明填报系统 三 、企业产品标准公示系统.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
演示场景. 类图 配置 HibernateApplicationContext.xml hibernate.cfg.xml 创建数据库 – ooad/ooad 关于 Library/Project 模板.
消防产品网上认证业务系统 操作指南(初始认证委托) 公安部消防产品合格评定中心 2015 年 4 月.
用 9 加几解决问题 北京小学 石 颖 第八单元 20 以内的进位加法. 一、口算练习,复习旧知 9+5 = 9+7 = 109 快来算一算! 我们一起看算式,抢答结果,看谁算得又对又快! 说一说你是怎么计算 9+5 这道题的。 2+9 = 5+9 =
无忧 PPT 整理发布 无忧 PPT 整理发布 网上教研活动的推进与 学习社区的构建 首都师范大学 蒋国珍 2008 年 12 月.
海军工程大学信息安全系 汇报人:周学广 教授 基于主题情感混合模型 的无监督文本情感分析. 海军工程大学信息安全系 主要内容 一 LDA 模型 二 UTSU 模型 三 实验对比与分析.
如何申请《教育部学历证书电子注册备案表》 以及《教育部学历认证报告》. 一、如何申请《教育部学历证书电 子注册备案表》中文版 方式一:实名注册过的用户,通过学信档案 申请。 实名注册学信档案实名注册学信档案.
Project: Making a booklet on keeping fit Project: Making a booklet on keeping fit 牛津高一英语 Module 1 Unit 3 Looking good, feeling good 牛津高一英语 Module 1 Unit.
登陆数据录入明细申报生成汇总申报扣款 输入计算机编码及 密码即可登陆系统. 登陆数据录入明细申报生成汇总申报扣款.
How do you make a banana milk shake? Peel the bananas. Cut up the bananas.
一、 版 面 构 成 的 概 念 版 面 构 成 的 概 念 二、 版 面 构 成 的 发 展 趋 势 版 面 构 成 的 发 展 趋 势 三、 广 告 文 字 的 版 面 构 成 广 告 文 字 的 版 面 构 成 四、 广 告 版 面 的 视 觉 流 程 广 告 版 面 的 视 觉 流 程.
人 有 悲 欢 离 合, 月有阴晴圆缺。月有阴晴圆缺。 华师大版七年级数学第二册 海口市第十中学 数学组 吴锐.
Innovation Intelligence ® Workshop – Riser VIV. Copyright © 2015 Altair Engineering, Inc. Proprietary and Confidential. All rights reserved. 学习内容 实用流固耦合的设置方法.
澳大利亚、加拿大专利检索 系统检索方法与实践 专利文献部 高会霞. 提 纲 澳大利亚文献基础知识 澳大利亚文献及相关信息检索与实践 加拿大文献基础知识 加拿大文献及相关信息检索与实践.
SCI 数据库检索练习参考 本练习完全依照 SCI 数据库实际检索过程而 实现。 本练习完全依照 SCI 数据库实际检索过程而 实现。 练习中,选择了可以举一反三的题目,读 者可以根据题目进行另外的检索练习,如: 可将 “ 与 ” 运算检索改为 “ 或 ” 、 “ 非 ” 运算检索 等等。 练习中,选择了可以举一反三的题目,读.
Finding Patterns in a Knowledge Base using Keywords to Compose Table Answers/VLDB2015 报告人:胡信晖 2019/1/18.
Presentation transcript:

WBIA Project 2 – Retrieval & Evaluation LI Geng Nov.10, 2008

Guidelines Information retrieval evaluation – a brief review Goals of this assignment Tools & work environment  Nutch-0.9  Lucene Assignment instructions Submission & grading policies

Previously in Project 1 - Crawling Tool: Nutch Target network: ccer.pku.edu.cn What we already have:  A web database that contains web pages of CCER;  Inverted index of your data (you may not have noticed yet);  Global PageRank results

Previously in Project 1 (Cont.) What we don’t have yet for a complete IR service:  Interpreting user information need Query  Web page (at least page urls)  Online retrieval service.

I. Information Retrieval Evaluation – A Brief Review Project 2’s Focus: Query  Web Page What do we need to evaluate retrieval results?  Retrieval model implementation & optimization;  A standard test data set;  Pre-defined queries and their corresponding answer set;  Evaluating with well-known metrics (MAP, etc.)

II. Goals of this Assignment Setup an online web search engine (using Nutch) Understand information retrieval evaluation process Refine existing retrieval model (by enhancing evaluation metric scores)

How? A standard web page test set (Done.) Pre-defined queries and their corresponding answer set (Done.) Retrieval model implementation Evaluating with well-known metrics (MAP, etc.)

III. Tools & work environment Nutch’s major modules:  Crawling  Indexing  Retrieval  Web search ……  Of which indexing and retrieval modules are built on top of Lucene.

Lucene A framework for document retrieval using the Vector Space Model  Inverted index construction  Query matching

Lucene (Cont.) It does not handle (from  managing the process (instantiating the objects and hooking them together, both for indexing and for searching)  selecting the data files  parsing the data files ( 例如:中文切词 )  getting the search string from the user  displaying the search results to the user A “library” rather than a stand-alone application

Lucene (Cont.) But a library with useful utilities as standard extensions  E.g. package org.apache.lucene.analysis.standard; Default document analysis (and tokenizing) utilities (i.e. they will be used if you don’t implement your onwn.)

Lucene in Nutch As a third-party library  try listing the $NUTCH-HOME/lib directory Crawled Web Page org.apache. lucene.analysis org.apache. lucene.index org.apache. lucene.search org.apache. lucene.index Inverted Index HitSet Web Page Posting Lists Matched Documents

Lucene in Nutch (Cont.) Nutch implements Lucene interfaces and imports Lucene classes so as to reuse its indexing and retrieval functionalities.  E.g. In package org.apache.nutch.analysis; public final class NutchDocumentTokenizer extends org.apache.lucene.analysis.Tokenizer implements NutchAnalysisConstants  Refer to these packages for more details: package org.apache.nutch.indexer; package org.apache.nutch.analysis; package org.apache.nutch.searcher; Index Construction Retrieval

Towards a complete IR Application Nutch’s major modules: Crawling Indexing Try listing the root directory of your WebDB:  Crawldb indexes linkdb segments  Retrieval  Web search …

IV. Assignment Instructions The test set and answer set:  Taken from one group’s previous crawl  Will be put online soon Retrieval  Enhance retrieval quality using your PageRank results Web search  Set up online search engine with Nutch

Step 1 - Web Search Engine Setup This is the recommended first step in this assignment.  It is relatively simple; Nutch’s online tutorial has detailed enough information on this.  You will have an impression of the vector space retrieval model implemented by Lucene. Important: To save time with Nutch configuration, refer to my instructions in addition to the Nutch online tutorial at 

Step 1 - Web Search Engine Setup (Cont.) Your task:  Compute retrieval metrics as the base for comparison MAP,

Step 2 – Lucene Retrieval Ranking Analysis Entry point:  class org.apache.lucene.search.IndexSearcher (Hint)Related class, for reference:  class org.apache.lucene.search.BooleanQuery  class org.apache.lucene.search.BooleanQuery. BooleanWeight

Step 2 – Lucene Retrieval Ranking Analysis (Cont.) Your task:  Figure out the formula of score computing.

Step 3 – Integrate PageRank results with VSM Your task:  Figure out a solution to combine PageRank and VSM score effectively to enhance retrieval quality.  Any ideas now? Required coding: edit  package org.apache.lucene.search

Step 4 – Re-evaluate and Improve Based on your new model and retrieval results, recompute  MAP, Compare newly computed values with previous ones, go back to step 3 if there is still room for improvement.

Challenge Task 1 Edit Lucene to implement the language model (and repeat the evaluation process, compare results with VSM + PageRank)  Hint: Find out how Lucene stores and reads the posting lists, and figure out a way to use the data in them for LM similarity computing. Or, you may consider reformatting the posting list store and insert additional useful information.

Challenge Task 2 Implement LSI (Latent Semantic Indexing) and evalute  In this case, could Lucene’s document scoring module still be reused? ……

V. Submission & Grading Deadline: :59 Challenge 属于选做内容

提交内容 工程报告文档,包含以下部分: 1. 小组成员及分工 2. Lucene 进行文档匹配的评分计算公式; 3. 如何将 PageRank 的计算结果整合进来?  讲思路,不要贴程序代码。 4. 整合的效果如何?整合后又做了哪些改进尝 试?  用两个评测指标说明 5. (选做部分)简述实现语言模型或 LSI 的思路

提交内容(续) 代码包  至少包括结合了 VSM 和 PageRank 文档排序算 法的 lucene jar 包,并说明修改过的文件;  如果做了 Challenge ,请在代码包内加上额外的 文本文件说明; 提交格式:  将以上两部分打成 zip 或 rar 压缩包,命名格式: (组名) _ ( Project leader 学号).zip(rar)

Grading Policy 起评: 100  Challenge 1: +30 bonus  Challenge 2: +40 bonus 独力完成的小组至少可以得到 75% 的分数 根据完成情况, Project Leader 有 % 的 奖励

Any Questions?

Online References