1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学). 2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个.

Slides:



Advertisements
Similar presentations
首 页 首 页 上一页 下一页 本讲内容 投影法概述三视图形成及其投影规律平面立体三视图、尺寸标注 本讲内容 复习: P25~P31 、 P84~P85 作业: P7, P8, P14[2-32(2) A3 (1:1)]
Advertisements

纺纱学. 2 绪 论 基本要求:了解纺纱系统的类别 重点掌握:棉纺系统的工艺流程 3 一、纺纱原理与设备 纺纱:用物理或机械的方法将纺织纤维纺成纱 线的过程。 纺纱原理:初加工、原料的选配、开松除杂、 混和、梳理、精梳、并合、牵伸、加捻、卷绕等。 纺纱方法:传统纺纱方法、新型纺纱方法。 纺纱设备:开清棉联合机、梳棉机、精梳机、
第十二章 常微分方程 返回. 一、主要内容 基本概念 一阶方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程.
概率统计( ZYH ) 节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性 第三章 随机向量及其分布 3.3 条件分布.
HistCite 结果分析示例 罗昭锋. By:SC 可能原因:文献年度过窄,少有相互引用.
位置相关查询处理 研究背景及意义 移动计算、无线通信以及定位技术的快速发展,使 得位置相关的查询处理及基于位置的信息服务技术 已经成为一个热点研究领域 。 大量的应用领域 ( 如地理信息系统、智能导航、交 通管制、天气预报、军事、移动电子商务等 ) 均迫 切需要有效地查询这些数据对象。
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
第 4 章 抽象解释 内容概述 以一种独立于编程语言的方式,介绍抽象解释的 一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式 化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的 近似,并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属 性空间用代价较小的属性空间来代替.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
Observation and Practical Study CHAPTER6. Research Methods -6 Designed by F.Y.N. 一、 Overview on Observation  The Significance and Characteristics of.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样 的一种手段。在实际中,数据不可避免的会有误差,插值函 数会将这些误差也包括在内。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第三十八讲 ) 离散数学. 第八章 格与布尔代数 §8.1 引 言 在第一章中我们介绍了关于集 合的理论。如果将 ρ ( S )看做 是集合 S 的所有子集组成的集合, 于是, ρ ( S )中两个集合的并 集 A ∪ B ,两个集合的交集.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第四十八讲 ) 离散数学. 例 设 S 是一个非空集合, ρ ( s )是 S 的幂集合。 不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。 其中: A∩B 表示 A , B 的交集; A ∪ B 表示 A ,
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
第二部分 行政法律关系主体 第一节 行政主体 一、行政主体 (一)行政主体的概念 cc (二)行政主体资格含义及构成要件 CASE1CASE1\CASE2CASE2 (三)行政主体的职权和职责 1 、行政职权的概念及内容 2 、行政职权的特点 3 、行政职责.
协同工作环境研究中心 协同共享 助力科研. 主要内容  认识协同及协同软件  协同科研软件 duckling 介绍.
线性代数习题课 吉林大学 术洪亮 第一讲 行 列 式 前面我们已经学习了关 于行列式的概念和一些基本 理论,其主要内容可概括为:
传播学 第四讲 传播过程的基本模式. 课前复习  人类语言的五个特点  人类传播的发展进程  传播媒介的三大类型  传播媒介的发展对社会进化的意义.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
实验三: 用双线性变换法设计 IIR 数字滤波器 一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用, 获得数字滤波的感性知 识。
外文文献检索示例. 实验目的: 掌握利用计算机网络检索外文文献的基本方法; 了解熟悉下列数据库的结构、内容并掌握其检索方 法 ; 掌握检索的主要途径:出版物( Publication )、关键 词( Keyword )、作者( Author )等。
1 第 7 章 专家控制系统 概述 专家系统的起源与发展 专家系统的一般结构 专家系统的知识表示和获取 专家系统的特点及分类.
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
第二章 贝叶斯决策理论 3学时.
UML 对象设计与编程 主 讲 : 董兰芳 副教授 Dept. of Computer Science,USTC
在发明中学习 线性代数 概念的引入 李尚志 中国科学技术大学. 随风潜入夜 : 知识的引入 之一、线性方程组的解法 加减消去法  方程的线性组合  原方程组的解是新方程的解 是否有 “ 增根 ” ?  互为线性组合 : 等价变形  初等变换  高斯消去法.
东南大学计算中心 网站应用与实践 主讲人 吴俊. 2 东南大学计算中心 网站制作流程  确定主题、风格  规划栏目、收集素材  版面设计、配色  编辑页面  测试发布 FrontPage 要完成的任务.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
周期信号的傅里叶变换. 典型非周期信号 ( 如指数信号, 矩形信号等 ) 都是满足绝对可 积(或绝对可和)条件的能量信号,其傅里叶变换都存在, 但绝对可积(或绝对可和)条件仅是充分条件, 而不是必 要条件。引入了广义函数的概念,在允许傅里叶变换采用 冲激函数的前提下, 使许多并不满足绝对可积条件的功率.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
Valentine‘s Greetings Please press F5 to start (Change slide by click)
网上预约集港操作指南 一、登录系统 登陆下面图片显示网址:输入堆场用户名、密码和校验码登陆系统.
首 页 首 页 上一页 下一页 本讲内容本讲内容 视图,剖视图(Ⅰ) 复习: P107 ~ P115 作业: P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)
学生成长成才导图填报指南 填报网址:
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
草原承包经营管理系统 额尔德木图 服务网站: 服务 QQ 群: 电话: QQ : 单位:内蒙古师范大学 内蒙古自治区遥感与地理 信息系统重点实验室.
前言 《私家车常见故障快速处理一本通》 1 《轻松考取驾驶证》 2 《花语词典 : 赏花、插花、花礼》 3 《有益健康的 88 种花草》 4 《膳食营养与健康保健》 5 《瑜伽与冥想大全》 9 《书法的故事》 10 《美国纽约摄影学院摄影教材》 11 《行摄中国 : 摄影人心目中最美的地方》 12.
基于加权词汇衔接的文档级机 器翻译自动评价 贡正仙 李良友 苏州大学计算机科学与技术学院
EC 营客通产品操作(九) EC 营客通产品操作(九) 400 电话 400 电话. 400 电话有助于提升企业形象,无论企业地址变更、机构 变化、人员变动,联系方式永远不变。且在 EC 上申请的 400 电话可以在 EC 平台上进行统一的 400 电话接听及 400 电话客服的管理。
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
2015 年江苏省美术专业统考考试说明 解读 : 贡加兵 扬州市邗江区公道中学
企业产品标准信息公共服务平台 操作介绍 目录 一 、系统架构介绍 二 、企业产品标准自我声明填报系统 三 、企业产品标准公示系统.
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
7 生产费用在完工产品与在产 品之间分配的核算. 2 第七章 生产费用在完工产品与在产品之 间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分 配.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
算得清写的准 —— 物业费公示报告的编写 讲师:朱芸 物业费的 构成? 哪些是管 理人员工 资呢? 哪些算工程费 用? 怎样才能核 算的清楚呢?
荆门市总工会会员信息采集系统 操作培训 融建信息技术有限公司 肖移海 QQ群号:
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
无忧 PPT 整理发布 无忧 PPT 整理发布 网上教研活动的推进与 学习社区的构建 首都师范大学 蒋国珍 2008 年 12 月.
参考文献管理软件. 常见参考文献管理软件 : 中文 : CNKI E-learning (目前免费) NoteExpress NoteFirst 英文: Refworks Endnote (网络版免费) Mendeley……
开放教育学员入学须知 第一部分:浏览山东理工大学远程与继续 教育学院网站浏览山东理工大学远程与继续 教育学院网站 第二部分:浏览中央电大教学平台浏览中央电大教学平台 第三部分:浏览山东电大教学平台浏览山东电大教学平台 第四部分:浏览淄博电大教学平台浏览淄博电大教学平台 第五部分:淄博电大教学平台使用淄博电大教学平台使用.
曹辉 2013 年 9 月 北京市商业学校 数字化资源中心介绍. 一、信息化发展史 通信领域信息化发展史.
森林保护学本科系列课程 教学改革与实践 西北农林科技大学 一、基本情况 二、主要成果 三、创新点 四、成果的应用 项目研究背景 项目的总体设计 成果简介 解决的主要教学问题 解决教学问题的方法 改革前后的对比.
一、 版 面 构 成 的 概 念 版 面 构 成 的 概 念 二、 版 面 构 成 的 发 展 趋 势 版 面 构 成 的 发 展 趋 势 三、 广 告 文 字 的 版 面 构 成 广 告 文 字 的 版 面 构 成 四、 广 告 版 面 的 视 觉 流 程 广 告 版 面 的 视 觉 流 程.
1. 利用图形化开发环境 LabVIEW 对 Xilinx Spartan3E 进行编程 汤敏 NI 高校市场部.
张勤 人大报刊复印资料 专题全文数据库 简 介简 介 《人大报刊资料全文数据库》是中国人民大 学书报资料中心与北京博利群电子信息有限 公司联合开发研制的大型数据库光盘。它涵 盖面广、信息量大、分类科学、筛选严谨、 结构合理,是国内最具权威的社会科学、人.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
第一节 常见结构的认识 PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载: PPT 背景图片:
北大法意数据库应用. 讲座提要大纲 法律专业能力 法律实践 法律信息检索能力 互联网 法律信息检索能力是法律专业人士的核心能力之一 美国律师协会( ABA )把它明确规定在律师的工 作规范和职业道德中.
蹲点联校与拓展型课题研究 情况介绍 喻照安 本人蹲点联校之学校 拓展型课题名称 蹲点学校:当阳市实验中学 宜昌市 22 中学 宜昌市 27 中学 拓展型研究课题: “ 对话教学,灵动未央 ” 教育研究.
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
目录 上页 下页 返回 结束 二、无界函数反常积分的审敛法 * 第五节 反常积分 无穷限的反常积分 无界函数的反常积分 一、无穷限反常积分的审敛法 反常积分的审敛法  函数 第五章 第五章.
SCI 数据库检索练习参考 本练习完全依照 SCI 数据库实际检索过程而 实现。 本练习完全依照 SCI 数据库实际检索过程而 实现。 练习中,选择了可以举一反三的题目,读 者可以根据题目进行另外的检索练习,如: 可将 “ 与 ” 运算检索改为 “ 或 ” 、 “ 非 ” 运算检索 等等。 练习中,选择了可以举一反三的题目,读.
1 ~ 5 的认识和加减法 比多少 第一 PPT 模板网 - PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载:
3 2 1 Your text here Go ahead and replace it with your own text.
Presentation transcript:

1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)

2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个 人主页信息抽取 生成结构化数据放 入网站数据库 网页分块分块结果对齐

3 网页分块方法 基于 DOM 树结构的相似性 基于视觉特征 基于标签树路径 模仿人的视觉分析 难以设置统一规则 现有文献证明在 Deep Web 中测试结果较好 大学人员页面通常不是 Deep Web 经典的 Mining Data Records ( MDR )算法 前提是 Data Records 之间树结构相似 人员页面中修饰与冗余部分会极大影响相似性 基于上下文语义分析 针对无结构化数据,需要上下文语义 人员页面通常是离散型的半结构化页面

4 对 MDR 算法的改进动机 不论自顶向下与自底向上, MDR 的主要局限在于修饰与冗余的树节点 跳过无效的修饰与冗余节点 从有效的文本叶子节点向上搜索祖先节点 遇到无效节点继续向上搜索祖先节点 两个有效叶子节点向上搜索到公共祖先 并属于公共祖先的不同子树 这些子树即类似 MDR 算法中的 Data Records

5 LCA 概念与语义相关区域 Lowest Common Ancestor ( LCA ): 对于有根树 T 的两个结点 u 、 v ,最近公共祖先 LCA(T,u,v) 表 示一个结点 x ,满足 x 是 u 、 v 的祖先且 x 的深度尽可能大。 通过 LCA 划分页面的语义相关区域:

6 基于 LCA 的页面初步分割 基本语义块 ( Basic Semantic Blocks ) 有效语义块 ( Effective Semantic Blocks ) 单条文本信息所属的最小语义区域 以单个人员为核心找到包含其信息的 最大区域 类似 MDR 算法中的 Data Records 可以容忍嵌套包含其他人员信息的情 况 为适用于强异构性的大量页面,不采用 Data Region 包含 Data Records 的严格两层划分,而采用有效语义块这种较 灵活的方式

7 半结构化人员信息的基本格式 关系信息的逻辑结构 属性信息的逻辑结构 关系前导词后挂载其映 射的所有人员名字 关系前导词后挂载一个人员、一 块人员、多块人员或者嵌套出现 的人员块,在逻辑结构上都可认 为是 “rel : Name_Block” 形式。 一条人员记录包含了一个人 员的名字信息及其属性信息 属性信息可以是属性名、属 性值以及并不属于单文本叶 子节点的个人图片等

8 有效语义块的边界识别及对齐 关系信息对齐 属性信息对齐 人名块形式的对齐方式关系表形式的对齐方式 卡片形式的对齐方式属性表形式的对齐方式

9 实验结果及未来工作 大量真实人员页面中,仍有较高准确率与召回率 有效克服了页面中修饰与冗余部分的干扰 数据集: 8 所中国大学, 245 个学院, 1641 个人员列表页面 网站 demo : 未来需要在现有的数据基础上进行语义分析及对象关系提取,进 而构造更加完善的学术关系网络

10 Q & A PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载: PPT 背景图片: PPT 图表下载: 优秀 PPT 下载: PPT 教程: Word 教程: Excel 教程: 资料下载: PPT 课件下载: 范文下载: 试卷下载: 教案下载:

11 谢谢! PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载: PPT 背景图片: PPT 图表下载: 优秀 PPT 下载: PPT 教程: Word 教程: Excel 教程: 资料下载: PPT 课件下载: 范文下载: 试卷下载: 教案下载: