Author Name Disambiguation for Citations Using Topic and Web Correlation Citation : a collection of: coauthor, title, venue, topic, and Web attributes.

Slides:



Advertisements
Similar presentations
第十二章 常微分方程 返回. 一、主要内容 基本概念 一阶方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程 类 型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次 方程 5. 全微分方程 6. 线性方程.
Advertisements

在近年的高考地理试题中,考查地球上 两点间最短航线的方向问题经常出现,由于 很多学生对这类问题没有从本质上搞清楚, 又缺乏空间想象能力,只是机械地背一些结 论,造成解这类题目时经常出错。 地球上两点间的最短航线方向问题.
基本知识和几何要素的投影 模块一: 字体练习 第一章 制图的基本知识与基本技能 题目提示返回.
数控机床结构及维修 主编:于万成 王桂莲 副主编:李昊 人民邮电出版社 北京 ◎ 了解数控系统的组成和常见数控系统 的特点 ◎ 熟悉常见数控系统的参数设置 ◎ 掌握数控系统的常见故障诊断及维修 方法 调试与维修数控 机床的数控系统.
球面网格及其应用 李杰权 北京师范大学数学科学学院
数据挖掘实验 1 Apriori 算法编程实现. 数据挖掘实验一 (20’) 实验目的:了解关联规则在数据挖掘中的 应用,理解和掌握关联挖掘的经典算法 Apriori 算法的基本原理和执行过程并完成程 序设计。 实验内容:对给定数据集用 Apriori 算法进行 挖掘,找出其中的频繁集并生成关联规则。
每人 每天 每人 经常 部分 偶尔 每人 每天 今天您 “ 文献 ” 了么? 1 、追踪进展 2 、特定参考 3 、全面调研 开题前的调研 了解新的领域.
位置相关查询处理 研究背景及意义 移动计算、无线通信以及定位技术的快速发展,使 得位置相关的查询处理及基于位置的信息服务技术 已经成为一个热点研究领域 。 大量的应用领域 ( 如地理信息系统、智能导航、交 通管制、天气预报、军事、移动电子商务等 ) 均迫 切需要有效地查询这些数据对象。
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
信息安全专业培养计划 Undergraduate Program for Specialty in Information Security ( Version 2009 ) 计算机科学与工程学院 方贤进 博士, 副教授 MSN:
Alexa 排名与 分级信息检索方法 刘骥 刘骥 前言 前言 从促进文献信息的广泛交流, Alexa 网站 排名知识和信息检索,利用网络资源促进利 互联网进行科学研究和提高效率和效益出发。 就 Alexa 网站、 Alexa 排名和分级信息检索方 法进行了阐述。对信息资源的利用、开放获.
2.2 结构的抗力 抗力及其不定因素 材料强度的标准值 材料强度的设计值.
绪 论绪 论绪 论绪 论 南京信息工程大学物理实验教学中心 第一次布置的作业 P37/3, 6P37/3, 6 作业做在实验报告册上!!
1 信息安全学科简介 方贤进 博士 / 副教授 2009/12/23 An Introduction to Information Security.
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第六十二讲 ) 离散数学. 最后,我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* , I , f A* , s A* , F A* ) , 令 S A* 包括所有的 S A 的状态以及一个 附加的状态 s.
分析化学与无机化学中溶液 pH 值计算的异同比较 谢永生  分析化学是大学化学系的一门基础课,课 时较少,其内容主要是无机物的化学分析。 分析化学是以无机化学作为基础的,我们 都是在已掌握一定的无机化学知识后才学 习分析化学 。所以在分析 化学的学习中会 重复许多无机化学内容,造成学习没有兴.
精品课程素材准备方法介绍 武汉华秦科技发展有限公司 联系电话: 许结移. 什么是精品课程 精品课程是指具有特色和一流教学 水平的优秀课程。精品课程建设要体现 现代教育思想,符合科学性、先进性和 教育教学的普遍规律,具有鲜明特色, 并能恰当运用现代教学技术、方法与手 段,教学效果显著,具有示范和辐射推.
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
协同工作环境研究中心 协同共享 助力科研. 主要内容  认识协同及协同软件  协同科研软件 duckling 介绍.
Thomson Reuters 中国办事处 2008 年 5 月 Web of Science 培训课件 第三部分 : Web of Science 的引文检索功能.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
聚合物在生物高分子分离中的应用 王延梅 中国科学技术大学高分子科学与工程系 Tel
大亚湾 PMT 读出电子学介绍 王铮 中科院 “ 核探测技术与核电子学重点实验室 ” 年会.
外文文献检索示例. 实验目的: 掌握利用计算机网络检索外文文献的基本方法; 了解熟悉下列数据库的结构、内容并掌握其检索方 法 ; 掌握检索的主要途径:出版物( Publication )、关键 词( Keyword )、作者( Author )等。
1 第 7 章 专家控制系统 概述 专家系统的起源与发展 专家系统的一般结构 专家系统的知识表示和获取 专家系统的特点及分类.
信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang
第二章 贝叶斯决策理论 3学时.
Ranking by Odds Ratio A Probability Model Approach let be a Boolean random variable: document d is relevant to query q otherwise Consider document d as.
实验二 vpn 实验 格式: – 附件形式上交 – 课程名+实验次数+姓名+学号 上交日期 – 下次实验之前.
第五章 线性判别函数 6学时.
1 地 理 信 息 系 统 —— 专业必修课程 西南大学地理科学学院 田永中 ,
新课程背景下地理学科基于生活 问题的探究式教学方式的研究 南京市教研室 陆静. 新课程改革强调教学方式的变化,注重自 主、合作、探究的学习方式。 中学地理课程改革强调引导学生学习身边 的地理、学习对生活有用的地理,学生在 对与地理学科相关的生活问题的探究中, 掌握地理原理与规律,学会生存。 基于生活问题的探究式教学方式是一种体.
吉林大学远程教育课件 主讲人 : 杨凤杰学 时: 64 ( 第五十三讲 ) 离散数学. 定义 设 G= ( V , T , S , P ) 是一个语法结构,由 G 产生的语言 (或者说 G 的语言)是由初始状态 S 演绎出来的所有终止符的集合, 记为 L ( G ) ={w  T *
第一节最简单的有机化合物 - 甲烷 盐城市伍佑中学 化学组 吕晓杭 邮箱
模式识别 – 成分分析与核函数 第八章 成分分析与核函数. 模式识别 – 成分分析与核函数 8.0 问题的提出 降低特征维数 : Dimension Reduction  提高泛化能力:减少模型的参数数量;  减少计算量: 主要方法: 1. 主成分分析 (PCA): Principle Component.
主讲人 主讲人:彭泽洲 一. 预备知识 1. 已知 OP 为角  的终边,求单位圆上点 P 的坐标。 P 2 ( x 2,y 2 ) P 1 ( x 1,y 1 ) 2. 坐标系中两点的距离公式 Y X P O X Y  P ( COS  , SIN  ) |P 1 P 2 |=√(x 1.
古代机械探胜 古代机械探胜 —— 之水车篇. 辉煌的历史 候风地动仪 候风地动仪指南车 备物致用,立成器以为天下利,莫大乎圣人。 —— 易经.
1-4 节习题课 山东省淄博第一中学 物理组 阚方海. 2 、位移公式: 1 、速度公式: v = v 0 +at 匀变速直线运动规律: 4 、平均速度: 匀变速直线运动 矢量式 要规定正方向 统一单位 五个量知道了三 个量,就能求出 其余两个量 3 、位移与速度关系:
《 UML 分析与设计》 交互概述图 授课人:唐一韬. 知 识 图 谱知 识 图 谱知 识 图 谱知 识 图 谱.
Graph Data Management Lab, School of Computer Science Put conference information here: The 12-th International Conference.
ATLAS computing status in IHEP Erming Pei, CC-IHEP Yangzhou, May 15’ th 2009.
Bayesian Network By DengKe Dong. Key Points Today  Intro to Graphical Model  Conditional Independence  Intro to Bayesian Network  Reasoning BN: D-Separation.
读秀学术搜索 是什么? 能够为我们解决 什么问题? 读秀.
基于加权词汇衔接的文档级机 器翻译自动评价 贡正仙 李良友 苏州大学计算机科学与技术学院
认识图形(一) 绿色圃中小学教育网 一、依据情境,导入新课 交流:你都收集到哪些物体了,跟小伙伴说一说。 这些都是我收集的! 快说说它们都是什么 形状的物体 !
OSPF. OSPF 协议概述 链路状态信息 RTA RTC RTD RTB 链路状态数据库 每台路由器会将当前正确的链路状态信息向一定 的范围内的所有主机发送 它支持区域的概念,同一区域内的路由器最终都 可以拥有对此区域相同的拓扑描述 每台路由器接收到此信息之后,根据最短路径算 法计算最优的下一跳.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
河南济源市沁园中学 前进中的沁园中学欢迎您 ! 温故知新: 1 、什么是原子? 2 、原子是怎样构成的? 3 、原子带电吗?为什么?
8.1 二元一次方程组. 篮球联赛中,每场比赛都要分出胜负,每队 胜一场得 2 分,负一场得 1 分. 如果某队为了争取 较好名次,想在全部 22 场比赛中得 40 分,那么这 个队胜负场数应分别是多少 ? 引 言引 言 用学过的一元一次方 程能解决此问题吗? 这可是两个 未知数呀?
Power Iteration Clustering Speaker: Xiaofei Di
数学广角——优化 沏茶问题.
个体 精子 卵细胞 父亲 受精卵 母亲 人类生活史 问题:人类产生配子(精、卵 细胞)是不是有丝分裂?
“ 图书馆资源与服务利用 ” 专题讲座 第 9 讲 JSTOR 数据库与 Kluwer Online 数据库的使用.
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
l Machine Learning l Speech separation l Recommender system 2.
同分母分数加、减法 分数的初步认识 绿色圃中小学教育网
用 9 加几解决问题 北京小学 石 颖 第八单元 20 以内的进位加法. 一、口算练习,复习旧知 9+5 = 9+7 = 109 快来算一算! 我们一起看算式,抢答结果,看谁算得又对又快! 说一说你是怎么计算 9+5 这道题的。 2+9 = 5+9 =
无忧 PPT 整理发布 无忧 PPT 整理发布 网上教研活动的推进与 学习社区的构建 首都师范大学 蒋国珍 2008 年 12 月.
目录 ontents Related 案例三:研究中的教师专业发展 背 景英特尔 ® 未来教育基础课程理念向教师教 学能力迁移的实践研究 时 间 2011 年 10 月至现在 学 校吉林省东丰县第四中学 研究内容初中语文叙事性散文教学中提问策略的 研究 技术条件网络环境 (网络课程、 QQ 、视频会议、
海军工程大学信息安全系 汇报人:周学广 教授 基于主题情感混合模型 的无监督文本情感分析. 海军工程大学信息安全系 主要内容 一 LDA 模型 二 UTSU 模型 三 实验对比与分析.
森林保护学本科系列课程 教学改革与实践 西北农林科技大学 一、基本情况 二、主要成果 三、创新点 四、成果的应用 项目研究背景 项目的总体设计 成果简介 解决的主要教学问题 解决教学问题的方法 改革前后的对比.
Personalization Services in CADAL Zhang yin Zhuang Yuting Wu Jiangqin College of Computer Science, Zhejiang University November 19,2006.
半年工作小结 报告人:吕小惠 2011 年 8 月 25 日. 报告提纲 一.学习了 Non-negative Matrix Factorization convergence proofs 二.学习了 Sparse Non-negative Matrix Factorization 算法 三.学习了线性代数中有关子空间等基础知.
人 有 悲 欢 离 合, 月有阴晴圆缺。月有阴晴圆缺。 华师大版七年级数学第二册 海口市第十中学 数学组 吴锐.
§5.6 利用希尔伯特 (Hilbert) 变换 研究系统的约束特性 希尔伯特变换的引入 可实现系统的网络函数与希尔伯特变换.
1 第三章 数列 数列的概念 考点 搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列 高考 猜想 以递推数列、新情境下的 数列为载体, 重点考查数列的通 项及性质, 是近年来高考的热点, 也是考题难点之所在.
Generation of Chinese Character Based on Human Vision and Prior Knowledge of Calligraphy 报告人: 史操 作者: 史操、肖建国、贾文华、许灿辉 单位: 北京大学计算机科学技术研究所 NLP & CC 2012: 基于人类视觉和书法先验知识的汉字自动生成.
韩文数据库使用说明 鲁锦松. 主要内容 一、为什么要用数据库 二、怎样利用中文数据库 三、怎样利用韩文数据库.
SME.USTB Human Factors 人机工程学 By Wei Dong Department of Industry Design, SME, USTB.
Presentation transcript:

Author Name Disambiguation for Citations Using Topic and Web Correlation Citation : a collection of: coauthor, title, venue, topic, and Web attributes.

Prior work Supervised classification approaches: Model all authors’ patterns from a set of training data. Unsupervised Classification approaches: Ambiguous citations are clustered into groups of distinct authors by measuring the similarities between the attributes in the citations.

Proposed Approach Topic Correlation Web Correlation Pair-Wise Grouping Algorithm

Topic Correlation Build a topic association network 1.利用Apriori算法构造有向图,权值为置信度(结果为一个超图)。 2.利用k-way hypergraph partition算法,将超图分解为一些簇。 3.这些簇叫做topic association network,研究课题的相关强度是citations在这个网络中的距离。

Web Correlation Use each title to query a search engine. Filter the URLs of several digital libraries. If two citations appear in the same URL, we use them as an instance of Web correlation.

Pair-Wise Grouping Algorithm Generate pairs of citations by using similarity metrics Use the training data to train a binary classifier Apply the classifier to determine whether the pairs are matched Combine the predicted results to group the citations into appropriate clusters. Filter out the pairs that would cause the clusters sparse.

Pair-Wise Similarity Metrics similarity metrics for Coauthor, Title, and Venue: 1.CSM 2.MSF Similarity metrics for topic correlation: TSM Similarity metrics for web correlation: MNDF

Binary Classifier A binary classifier is used to learn the distribution of pair-wise vectors. The pairs predicted as matched are used to build citation clusters ( constructing an undirected graph).

Cluster Filter A threshold is set for choosing which bridges should be removed. A bridge is removed if the numbers of vertices in two separate, but connected, components are above the given threshold.

Detecting Ambiguous Author Names in Crowdsourced Scholarly Data 特点在于查询时间内可以得到结果。

Prior Work Name disambiguation has been cast into the problem of clustering a set of publications into profiles such that each profile corresponds to a single author.

Name Variations and Citations Extract the name variations from a collection of publications Sort them by number of citations Look at the percentage of the total citations that are attributed to the top name variations.( A high percentage suggests that the name is not ambiguous.)

Topic Consistency Leverage the discipline tags crowdsourced from the users of the Scholarometer system Detect different but related disciplines associated with an author name: Map an author’s publications to topics, and measure the similarity between these topics. Derive an author’s topic profile

A brief survey of automatic methods for author name disambiguation 近年关于重名问题的分类与总结。 Bibliographic citation records: a set of bibliographic attributes such as author and coauthor names, work and publication venue of a particular publication.

Two problems Synonyms: the same author may appear under distinct names Polysems: distinct authors may have similar names.

Proposed taxonomy

Author Grouping Methods Defining a similarity function: 1.Using predefined functions: the Levenshtein distance, Jaccard coefficient, cosine similarity, soft-TFIDF and others. 2.Learning a similarity function: Use the training data to produce a similarity function S from R*R(R: the set of references) to {0, 1}, where 1 means that the two references do refer to the same author and 0 means that they do not. 3.Exploiting graph-based similarity functions: Create a coauthorship graph G=(V, E) for each ambiguous group. The same coauthor names are represented by a vertex, and the weight is related to the amount of articles coauthored by the corresponding author names represented by the two vertices. Author grouping methods apply a similarity function to the attributes of the references to authors( or group of references) to decide whether to group the corresponding references using a clustering technique.

Author Grouping Methods Clustering Techniques: 1.Partitioning 2.Hierarchical agglomerative clustering 3.density-based clustering 4.Spectral clustering Author grouping methods apply a similarity function to the attributes of the references to authors( or group of references) to decide whether to group the corresponding references using a clustering technique.

Author assignment methods Classification: Assign the references to their authors using a supervised machine learning technique. Clustering: Use probabilistic techniques to determine the author in a iterative way to fit the model. Author assignment methods directly assign each reference to a given author by constructing a model that represents the author.

Explored evidence Citation information: the attributes directly extracted from the citations, such as author/coauthor names, work title, publication venue title, year, and so on. Web information: Data retrieved from the web that is used as additional information about an author publication profile. Implicit evidence: Evidence inferred from visible elements of attributes, such as the latent topics of a citation.

Summary of characteristics-Author grouping methods

Summary of characteristics-Author assignment methods

Open challenges Very little data in the citations Very ambiguous cases -- ambiguous references will have coauthors who have also ambiguous names (especially Asian names) Citations with errors Efficiency Different knowledge areas -- our focus is only about computer science Incremental disambiguation Author profile changes New authors

pandasearch 重名问题研究计划 相关论文的阅读,找出最适合当前问题的解决措施。 着重从implicit evidence和web information(特别是学者个人主页和cv)入手。 从效率和准确度两个方向着手,着重准确度。 数据挖掘和机器学习基础知识的学习。

pandasearch 重名问题实现计划 Type of approach: author grouping methods– learning a similarity function. Explored evidence: citation information, web information, implicit evidence.