基于加权词汇衔接的文档级机器翻译自动评价贡正仙李良友苏州大学计算机科学与技术学院 2013.11.17.

Slides:

Advertisements

Similar presentations

首页首页上一页下一页本讲内容投影法概述三视图形成及其投影规律平面立体三视图、尺寸标注本讲内容复习： P25~P31 、 P84~P85 作业： P7, P8, P14[2-32(2) A3 (1:1)]

Advertisements

纺纱学. 2 绪论基本要求：了解纺纱系统的类别重点掌握：棉纺系统的工艺流程 3 一、纺纱原理与设备纺纱：用物理或机械的方法将纺织纤维纺成纱线的过程。纺纱原理：初加工、原料的选配、开松除杂、混和、梳理、精梳、并合、牵伸、加捻、卷绕等。纺纱方法：传统纺纱方法、新型纺纱方法。纺纱设备：开清棉联合机、梳棉机、精梳机、

第十二章常微分方程返回. 一、主要内容基本概念一阶方程类型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次方程 5. 全微分方程 6. 线性方程类型 1. 直接积分法 2. 可分离变量 3. 齐次方程 4. 可化为齐次方程 5. 全微分方程 6. 线性方程.

退出退出退出退出上一页下一页仪器使用 §1-2 尺规绘图工具和仪器的使用方法图板丁字尺三角板比例尺圆规分规铅笔曲线板。要提高绘图的准确度和绘图效率，必须正确地使用各种绘图工具和仪器。常用的手工绘图工具和仪器有图板、丁字尺、三角板、比例尺、圆规、分规、铅笔、曲线板等。提示：将光标放在仪器上，

概率统计（ ZYH ）节目录 2.1 随机变量与分布函数 2.2 离散型随机变量的概率分布 2.3 连续型随机变量的概率分布第二章随机变量及其分布.

概率统计（ ZYH ）节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性第三章随机向量及其分布 3.3 条件分布.

基本知识和几何要素的投影模块一：字体练习第一章制图的基本知识与基本技能题目提示返回.

第四章犯罪概念与犯罪构成. 第一节犯罪概念一、犯罪概念的类型  （一）犯罪的形式概念  （二）犯罪的实质概念  （三）犯罪的混合概念.

PHPCMS 使用指南及二次开发向导 --- 系统设置篇 PHPCMS 网络培训课程 --- 系统设置篇 PHPCMS 项目部王官庆制作系统相关设置 1. 站点管理 2. 发布点管理 3. 系统其它设置管理员设置 1. 角色定义 2. 管理员管理.

HistCite 结果分析示例罗昭锋. By:SC 可能原因：文献年度过窄，少有相互引用.

位置相关查询处理研究背景及意义移动计算、无线通信以及定位技术的快速发展，使得位置相关的查询处理及基于位置的信息服务技术已经成为一个热点研究领域。大量的应用领域 ( 如地理信息系统、智能导航、交通管制、天气预报、军事、移动电子商务等 ) 均迫切需要有效地查询这些数据对象。

细分曲面傅孝明 SA 目录细分曲面的基本思想两个关键问题一些基本概念几种简单的细分曲面算法细分曲面方法分类.

一、拟合优度检验二、变量的显著性检验三、参数的置信区间

计算机在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述信息时代的来临, 各门学科的研究方法都有了新的发展. 计算机的介入, 为分析化学的进展提供了一种更方便的研究方法.

第二章质点组力学质点组：许多（有限或无限）相互联系的质点组成的系统研究方法： 1. 分离体法 2. 从整体考虑把质点的三个定理推广到质点组.

Alexa 排名与分级信息检索方法刘骥刘骥前言前言从促进文献信息的广泛交流， Alexa 网站排名知识和信息检索，利用网络资源促进利互联网进行科学研究和提高效率和效益出发。就 Alexa 网站、 Alexa 排名和分级信息检索方法进行了阐述。对信息资源的利用、开放获.

地理信息系统概述. 数据和信息 (Data & Information) 数据原始事实如：员工姓名，数据可以有数值、图形、声音、视觉数据等信息以一定规则组织在一起的事实的集合。

第 4 章抽象解释内容概述以一种独立于编程语言的方式，介绍抽象解释的一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的近似，并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属性空间用代价较小的属性空间来代替.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第六十二讲 ) 离散数学. 最后，我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* ， I ， f A* ， s A* ， F A* ) ，令 S A* 包括所有的 S A 的状态以及一个附加的状态 s.

2.1 结构上的作用作用及作用效应作用的分类荷载分类及荷载代表值.

1 为了更好的揭示随机现象的规律性并利用数学工具描述其规律, 有必要引入随机变量来描述随机试验的不同结果例电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述例检测一件产品可能出现的两个结果, 也可以用一个变量来描述第五章随机变量及其分布函数.

主讲教师：陈殿友总课时： 124 第八讲函数的极限. 第一章机动目录上页下页返回结束 § 3 函数的极限在上一节我们学习数列的极限，数列 {x n } 可看作自变量为 n 的函数： x n =f(n),n ∈ N +, 所以，数列 {x n } 的极限为 a, 就是当自变量 n.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第三十八讲 ) 离散数学. 第八章格与布尔代数 §8.1 引言在第一章中我们介绍了关于集合的理论。如果将 ρ （ S ）看做是集合 S 的所有子集组成的集合，于是， ρ （ S ）中两个集合的并集 A ∪ B ，两个集合的交集.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第四十八讲 ) 离散数学. 例设 S 是一个非空集合， ρ （ s ）是 S 的幂集合。不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。其中： A∩B 表示 A ， B 的交集； A ∪ B 表示 A ，

第十一章曲线回归第一节曲线的类型与特点第二节曲线方程的配置第三节多项式回归.

第二部分行政法律关系主体第一节行政主体一、行政主体（一）行政主体的概念 cc （二）行政主体资格含义及构成要件 CASE1CASE1\CASE2CASE2 （三）行政主体的职权和职责 1 、行政职权的概念及内容 2 、行政职权的特点 3 、行政职责.

协同工作环境研究中心协同共享助力科研. 主要内容  认识协同及协同软件  协同科研软件 duckling 介绍.

线性代数习题课吉林大学术洪亮第一讲行列式前面我们已经学习了关于行列式的概念和一些基本理论，其主要内容可概括为：

第二章随机变量及其分布第一节随机变量及其分布函数一、随机变量用数量来表示试验的基本事件定义 1 设试验的基本空间为，，如果对试验的每一个基本事件，规定一个实数记作与之对应，这样就得到一个定义在基本空间上的一个单值实函数，称变量为随机变量．随机变量常用字母、、等表示．或用.

数学系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章曲线拟合的最小二乘法给出一组离散点，确定一个函数逼近原函数，插值是这样的一种手段。在实际中，数据不可避免的会有误差，插值函数会将这些误差也包括在内。

聚合物在生物高分子分离中的应用王延梅中国科学技术大学高分子科学与工程系 Tel

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第三十九讲 ) 离散数学. 例设 S 是一个集合， ρ （ S ）是 S 的幂集合，集合的交（ ∩ ），并（∪）是 ρ （ S ）上的两个代数运算，于是，（ ρ （ S ）， ∩ ，∪）是一个格。而由例知.

1 第 7 章专家控制系统概述专家系统的起源与发展专家系统的一般结构专家系统的知识表示和获取专家系统的特点及分类.

信息利用与学术论文写作 Library of Jiangsu University, Zhenjiang Sha Zhenjiang

第二章贝叶斯决策理论 3学时.

非均相物系的分离沉降速度球形颗粒的：一、自由沉降二、沉降速度的计算三、直径计算 1. 试差法 2. 摩擦数群法四、非球形颗粒的自由沉降 1. 当量直径 de ：与颗粒体积相等的圆球直径 V P — 颗粒的实际体积 2. 球形度  s ： S—— 与颗粒实际体积相等的球形表面积.

量子化学第四章角动量与自旋（Angular momentum and spin） 4.1 动量算符 4.2 角动量阶梯算符方法

主讲教师：陈殿友总课时： 124 第十一讲极限的运算法则. 第一章二、极限的四则运算法则三、复合函数的极限运算法则一、无穷小运算法则机动目录上页下页返回结束 §5 极限运算法则.

实验八 — 高分子材料的老化性能测定. 南京理工大学化工学院一、实验目的  1. 了解橡胶的老化机理  2. 掌握鼓风老化试验箱的使用方法  3. 测定老化前后的力学性能.

东南大学计算中心网站应用与实践主讲人吴俊. 2 东南大学计算中心网站制作流程  确定主题、风格  规划栏目、收集素材  版面设计、配色  编辑页面  测试发布 FrontPage 要完成的任务.

Photoshop CS4 标准培训教程第三章第三章在 Photoshop CS4 中所谓的不规则选区指的是随意性强，不被局限在几何形状内，他们可以是鼠标任意创建的也可以是通过计算而得到的单个选区或多个选区。在 Photoshop 中可以用来创建不规则选区的工具被分组放置到套索工具组、魔棒工具组.

第一节相图基本知识 1 三元相图的主要特点（1）是立体图形，主要由曲面构成；（2）可发生四相平衡转变；（3）一、二、三相区为一空间。

第五节学习要点对句子的分析，向来是从句型、句类、句式的角度进行的。以这三个角度为切入点，我们可以建立句型系统、句类系统和句式系统。 ★句型系统 —— 按照句子的结构模式划分出来的类型系统。

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第五十三讲 ) 离散数学. 定义设 G= （ V ， T ， S ， P ）是一个语法结构，由 G 产生的语言（或者说 G 的语言）是由初始状态 S 演绎出来的所有终止符的集合，记为 L （ G ） ={w  T *

编译原理总结. 基本概念  编译器、解释器  编译过程、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.

§8-3 电场强度一、电场近代物理证明：电场是一种物质。它具有能量、动量、质量。电荷电场电荷电场对外的表现 : 1) 电场中的电荷要受到电场力的作用 ; 2) 电场力可移动电荷作功.

初中几何第三册弦切角授课人：董清玲. 弦切角一、引入新课：什么是圆心角、圆周角、圆周角定理的内容是什么？顶点在圆心的角叫圆心角。顶点在圆上，并且两边都和圆相交的角叫做圆周角。定理：一条弧所对的圆周角等于它所对的圆心角的一半。 A B′ C B O.

Department of Mathematics 第二章解析函数第一节解析函数的概念与 C-R 条件第二节初等解析函数第三节初等多值函数.

首页首页上一页下一页本讲内容本讲内容视图，剖视图（Ⅰ）复习： P107 ~ P115 作业： P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)

《 UML 分析与设计》交互概述图授课人：唐一韬. 知识图谱知识图谱知识图谱知识图谱.

1 、如果 x ＋ 5 ＞ 4 ，那么两边都可得 x ＞－ 1 2 、在－ 3y ＞－ 4 的两边都乘以 7 可得 3 、在不等式 — x≤5 的两边都乘以－ 1 可得 4 、将－ 7x — 6 ＜ 8 移项可得。 5 、将 5 + a ＞－ 2 a 移项可得。 6 、将－ 8x ＜ 0.

名探柯南在侦查一个特大盗窃集团过程中，获得藏有宝物的密码箱，密码究竟是什么呢？请看信息： ABCDEF( 每个字母表示一个数字 ) A ：是所有自然数的因数 B ：既有因数 5 ，又是 5 的倍数 C ：既是偶数又是质数 D ：既是奇数又是合数 EF ：是 2 、 3 、 5 的最小公倍数.

1 物体转动惯量的测量南昌大学理学院

§10.2 对偶空间一、对偶空间与对偶基二、对偶空间的有关结果三、例题讲析.

请同学们仔细观察下列两幅图有什么共同特点？如果两个图形不仅形状相同，而且每组对应点所在的直线都经过同一点, 那么这样的两个图形叫做位似图形, 这个点叫做位似中心.

表单自定义 “ 表单自定义 ” 功能是用于制作表单的工具，用数飞 OA 提供的表单自定义功能能够快速制作出内容丰富、格式规范、美观的表单。

7 生产费用在完工产品与在产品之间分配的核算. 2 第七章生产费用在完工产品与在产品之间的分配  知识点 :  理解在产品的概念  掌握生产费用在完工产品与在产品之间的分配.

力的合成力的合成一、力的合成二、力的平行四边形上一页下一页目录退出. 一、力的合成 O. O. 1. 合力与分力我们常常用一个力来代替几个力。如果这个力单独作用在物体上的效果与原来几个力共同作用在物体上的效果完全一样，那么，这一个力就叫做那几个力的合力，而那几个力就是这个力的分力。

个体精子卵细胞父亲受精卵母亲人类生活史问题：人类产生配子（精、卵细胞）是不是有丝分裂？

逻辑设计基础 1 第 7 章多级与（或）非门电路逻辑设计基础多级门电路.

“ 百链 ” 云图书馆. 什么是百链云图书馆？1 百链云图书馆的实际效果？2 百链云图书馆的实现原理？3 百链云图书馆的价值？44 图书馆要做什么？55 提纲.

八. 真核生物的转录㈠特点 ① 转录单元为单顺反子（ single cistron ），每个蛋白质基因都有自身的启动子，从而造成在功能上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工，由 3 种不同的酶催化转录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与，这.

人有悲欢离合，月有阴晴圆缺。月有阴晴圆缺。华师大版七年级数学第二册海口市第十中学数学组吴锐.

1 第三章数列数列的概念考点搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列高考猜想以递推数列、新情境下的数列为载体, 重点考查数列的通项及性质, 是近年来高考的热点, 也是考题难点之所在.

第二节. 广告牌为什么会被风吹倒？结构的稳定性：指结构在负载的作用下维持其原有平衡状态的能力。它是结构的重要性质之一。

韩文数据库使用说明鲁锦松. 主要内容一、为什么要用数据库二、怎样利用中文数据库三、怎样利用韩文数据库.

目录上页下页返回结束二、无界函数反常积分的审敛法 * 第五节反常积分无穷限的反常积分无界函数的反常积分一、无穷限反常积分的审敛法反常积分的审敛法  函数第五章第五章.

本章讨论有限自由度结构系统，在给定载荷和初始条件激励下的系统动力响应计算方法。第六章

SCI 数据库检索练习参考本练习完全依照 SCI 数据库实际检索过程而实现。本练习完全依照 SCI 数据库实际检索过程而实现。练习中，选择了可以举一反三的题目，读者可以根据题目进行另外的检索练习，如：可将 “ 与 ” 运算检索改为 “ 或 ” 、 “ 非 ” 运算检索等等。练习中，选择了可以举一反三的题目，读.

§7.2 估计量的评价标准上一节我们看到，对于总体 X 的同一个未知参数，由于采用的估计方法不同，可能会产生多个不同的估计量．这就提出一个问题，当总体的一个参数存在不同的估计量时，究竟采用哪一个好呢？或者说怎样评价一个估计量的统计性能呢？下面给出几个常用的评价准则．一．无偏性.

Presentation transcript:

基于加权词汇衔接的文档级机器翻译自动评价贡正仙李良友苏州大学计算机科学与技术学院

 相比独立的句子，用户更加关心一段文本的整体意思。  Discourse/document-level SMT 的目标是提升篇章或者文档的翻译性能。  RST-based MT  Cache-based MT  Topic-based MT …… 背景

背景（ 2 ）  目前针对篇章质量的自动评价方法很少  主流的 BLEU 、 METEOR 和 TER 等，注重的是系统级别或者是句子级别的评价。  在缺乏篇章质量的评价方法上进行优化的机器翻译系统不太可能产生像人工翻译那样自然的文本。  篇章特征？

背景（ 3 ）  Beaugrande 和 Dressler 认为篇章具有 7 个基本特征：衔接性、连贯性、意图性、可接受性、信息性、情景性和跨篇章性，其中衔接性和连贯性被认为是区分一段文字是否构成篇章或者文本的两个基本特征。  连贯性即文本中存在的要表达的意思的关系，连贯性的度量依赖于衔接性。  衔接性是通过句子间的语法和词汇元素的相互链接实现的。  本文主要研究句子间的语言学特征：衔接性和连贯性并将它们加入到已有的评价中产生更好的文档级别的评分。

LC 方法介绍 Billy T. M. Wong and Chunyu Kit. EMNLP 2012 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level LC 方法计算词汇衔接性 : ： LC 分值越高表示实义词中词汇衔接手段的比例越高如何确定词汇衔接手段的数量 lcd ？ lcd 是词汇衔接手段的数量 cw 是实义词的数量

存在问题？

LC 方法可改进的地方  通过 LC 来衡量文本的衔接性时，它平等地对待每一个实义词。  不同类型的实义词携带的信息量不同  能否使用不同的权重来有区别地对待这些词汇，从而能够更准确地衡量译文的衔接性？

研究内容  在 LC 的基础上提出两种新的方法 WLC 和 PWLC  与 LC 不同，本文的方法不是简单地进行计数，而是根据词的权重进行计算，称为基于权重的词汇衔接，即 WLC 方法。  在 WLC 基础上，进一步根据词性分布提出依赖于词性的 PWLC （ pos-WLC ）。

WLC 方法  使用 PageRank 算法，基本思想：如果有其它重要的节点指向一个节点，那么这个节点也是重要的。在 PageRank 中，一个词的分数被定义为：

WLC 依赖的词图词图的构建  使用一个宽度为 W 的滑动窗口，在图中添加窗口内的第一个词指向窗口中其它词的连接，该窗口每次滑动一个词的距离

PWLC 方法  根据词性分配不同权重的基本思想是：一篇文档中的词的词性分布具有不平衡性，且通常名词占据着文档词的大部分，这些大部分词就会对文档的理解起到重要的影响 WLC 中词的分数 PWLC 中词的分数

PWLC 方法（ 2 ）表 1 不同词性的权重 Table 1 Weights of different POS 词性权重名词 0.50 动词 0.28 形容词 0.15 副词 0.05 其他 0.02 使用 WordNet 获取每个词的所有可能词性，因此每个词的词性相关 Weight pos (w) 的权重是其所有词性权重的均值 “rose” 在 WordNet 中有名词、动词和形容词三种词性，因此它的词性权重为 ( )/3 = 0.31

PWLC 方法（ 3 ）图 3 带基于词性的跳转概率的词图示例

词汇衔接与主流评价方法的集成  LC 、 WLC 以及 PWLC 都可以针对一篇文档给出一个 0 到 1 之间的评价结果，该结果反映了文档的词汇衔接情况。  它们可以作为独立的评价方法用于文档的评价，同时也可以与其它已有的评价方法进行组合。  词汇衔接加入到已有评价中：

 实验部分

表 2 MTC2 和 MTC4 数据信息 Table 2 The MTC2 and MTC4 dataset MTC2MTC4 系统数 36 文档数 100 句子数参考译文数量 44 源语言 Chinese 目标语言 English 题材 Newswire 实验准备 Spearman 等级相关系数测量自动评价方法的结果与人工评分的相关性。

词汇类型统计表 3 MTC2 评价数据中的词汇统计 Table 3 The statistics of words with different POS on MTC2 词汇类型 MTC2 MTHT 所有词实义词名词动词形容词副词其它大约有一半左右的词是实义词；实义词中，多数词具有名词词性，其次为动词、形容词和副词，而在四个词性之外的词只是少部分

独立使用词汇衔接评价的相关实验  基于 PageRank 的词汇衔接方法是建立在词图的基础上，而词图的构建与窗口大小有关。  因此下面这一组实验是用来观察不同窗口大小下评价性能的变化。

图 4 LC 与不同窗口大小下的 WLC 、 pos-WLC 在文档评价上的 Spearman 相关系数

联合词汇衔接与其它评价方法的相关实验评价方法 BLEU0.29 TER0.38 METEOR0.18 表 4 将 LC 加入到其它方法后的优化参数实验选取 BLEU 、 TER 和 METEOR 三种方法； WLC 和 PWLC 的窗口大小都取 10

MTC2 AdequacyFluency LC WLC PWLC BLEU BLEU+LC BLEU+WLC BLEU+PWLC TER TER+LC TER+WLC TER+PWLC METEOR METEOR+LC METEOR+WLC METEOR+PWLC 表 5 与不同方法融合词汇衔接后在 MTC2 上的 Spearman 相关系数

词汇衔接评价方法的健壮性  为了测试词汇评价方法的健壮性，用 3 种评价衔接性的方法以相同的设置在 MTC4 上做了相应的实验。

MTC4 AdequacyFluency LC WLC PWLC BLEU BLEU+LC BLEU+WLC BLEU+PWLC TER TER+LC TER+WLC TER+PWLC METEOR METEOR+LC METEOR+WLC METEOR+PWLC 表 6 不同方法融合词汇衔接后在 MTC4 数据集上的 Spearman 相关系数

词汇衔接评价与主流评价方法的相关度  考虑到词汇衔接在不同方法上融合效果的不一致性，本文做了一组实验来计算词汇衔接与各种不同的评价方法间的相关度

表 7 词汇衔接与不同评价方法间的文档评分的相关度 BLEUTERMETEOR MTC2 LC WLC PWLC MTC4 LC WLC PWLC 通过分析各种方法之间的相关性发现， LC 、 WLC 和 pos- WLC 与 METEOR 和 PBE 的相关度较高，这可能是融合效果较小的一个原因。

总结  本文在词汇衔接评价 LC 的基础上提出了 WLC 和 pos- WLC 两个评价方法。它们采用基于词图的 PageRank 得到词汇的权重，且 pos-WLC 在计算权重时又考虑了词汇的词性带来的影响。  最后, 本章使用了一种简单的方法将词汇衔接评价加入到已有评价方法中。  在词汇衔接性的评价上，本文提出的基于 PageRank 的方法 WLC 以及基于词性权重的 pos-WLC 方法要优于已有的 LC 方法。  同时将这三种方法融合进 BLEU 、 TER 、 METEOR 之后，发现它们能有效地提高 BLUE 和 TER 在文档评价上的效果，但是并没有对 METEOR 产生明显的帮助。

 谢谢！