1 基于 LCA 分块算法的大学 科研人员信息抽取 报告人:易晨辉(武汉大学)
2 研究背景 信息网模型数据库( Information Networking Model DBMS ) “ 天罗地网 ” 科研机构与人员信息搜索引擎 学院网站等公开渠道获取科研人员信息 学院首页 -> 人员页面 人员列表页面及个 人主页信息抽取 生成结构化数据放 入网站数据库 网页分块分块结果对齐
3 网页分块方法 基于 DOM 树结构的相似性 基于视觉特征 基于标签树路径 模仿人的视觉分析 难以设置统一规则 现有文献证明在 Deep Web 中测试结果较好 大学人员页面通常不是 Deep Web 经典的 Mining Data Records ( MDR )算法 前提是 Data Records 之间树结构相似 人员页面中修饰与冗余部分会极大影响相似性 基于上下文语义分析 针对无结构化数据,需要上下文语义 人员页面通常是离散型的半结构化页面
4 对 MDR 算法的改进动机 不论自顶向下与自底向上, MDR 的主要局限在于修饰与冗余的树节点 跳过无效的修饰与冗余节点 从有效的文本叶子节点向上搜索祖先节点 遇到无效节点继续向上搜索祖先节点 两个有效叶子节点向上搜索到公共祖先 并属于公共祖先的不同子树 这些子树即类似 MDR 算法中的 Data Records
5 LCA 概念与语义相关区域 Lowest Common Ancestor ( LCA ): 对于有根树 T 的两个结点 u 、 v ,最近公共祖先 LCA(T,u,v) 表 示一个结点 x ,满足 x 是 u 、 v 的祖先且 x 的深度尽可能大。 通过 LCA 划分页面的语义相关区域:
6 基于 LCA 的页面初步分割 基本语义块 ( Basic Semantic Blocks ) 有效语义块 ( Effective Semantic Blocks ) 单条文本信息所属的最小语义区域 以单个人员为核心找到包含其信息的 最大区域 类似 MDR 算法中的 Data Records 可以容忍嵌套包含其他人员信息的情 况 为适用于强异构性的大量页面,不采用 Data Region 包含 Data Records 的严格两层划分,而采用有效语义块这种较 灵活的方式
7 半结构化人员信息的基本格式 关系信息的逻辑结构 属性信息的逻辑结构 关系前导词后挂载其映 射的所有人员名字 关系前导词后挂载一个人员、一 块人员、多块人员或者嵌套出现 的人员块,在逻辑结构上都可认 为是 “rel : Name_Block” 形式。 一条人员记录包含了一个人 员的名字信息及其属性信息 属性信息可以是属性名、属 性值以及并不属于单文本叶 子节点的个人图片等
8 有效语义块的边界识别及对齐 关系信息对齐 属性信息对齐 人名块形式的对齐方式关系表形式的对齐方式 卡片形式的对齐方式属性表形式的对齐方式
9 实验结果及未来工作 大量真实人员页面中,仍有较高准确率与召回率 有效克服了页面中修饰与冗余部分的干扰 数据集: 8 所中国大学, 245 个学院, 1641 个人员列表页面 网站 demo : 未来需要在现有的数据基础上进行语义分析及对象关系提取,进 而构造更加完善的学术关系网络
10 Q & A PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载: PPT 背景图片: PPT 图表下载: 优秀 PPT 下载: PPT 教程: Word 教程: Excel 教程: 资料下载: PPT 课件下载: 范文下载: 试卷下载: 教案下载:
11 谢谢! PPT 模板下载: 行业 PPT 模板: 节日 PPT 模板: PPT 素材下载: PPT 背景图片: PPT 图表下载: 优秀 PPT 下载: PPT 教程: Word 教程: Excel 教程: 资料下载: PPT 课件下载: 范文下载: 试卷下载: 教案下载: