A Comparison of Statistical Post-Editing on Chinese and Japanese Midori Tatsumi and Yanli Sun Under the supervision of: Sharon O’Brien; Minako O’Hagan;

Slides:



Advertisements
Similar presentations
アドベンチャーにほんご1 L.1か4 CLASSROOM EXPRESSIONS. たんご Let’s begin. はじめましょう。 Stand. きりつ。 Bow. れい。 Sit. ちゃくせき。 ~is absent. (お)やすみです。 (the use of お O adds politeness.
Advertisements

JS Array Hijacking with MBCS encodings JS Array Hijacking with MBCS encodings MBCS文字コードを使ったJS配列の乗っ取り Apr Yosuke HASEGAWA.
SPIN. Seach Optimization Exhaustive search requires so much time and memory to perform verification realistically, must perform some shortcuts –reduce.
The Moment of AHA! Dec. 25, 2004 hideki
物理演算を利用したビデオエフェクタの 作成 浅野益弘. 研究内容 経緯 NiVE ( Nico Visual Effects )用のエフェ クトプラグインの作成 本プラグインにより動画作成にかかる 時間と手間の短縮と省力化を目指す.
あなたは真夜中に 山の頂上を目指す登山者です
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
第 3 回 iPhone アプリ開発勉強会 Objective-C 基礎講座 - インスタンスメソッド - 三井 相和.
9.線形写像.
5.連立一次方程式.
相関.
論理回路 第2回 今日の内容 前回の課題の説明 数の体系 – 数の表現 – 代表的な数 – 基数の変換 – 補数.
清水彰一 写真の表示. はじめに 画像を Photo Albums から選択し表示するアプリ 手順 1. Xcode でプロジェクトの作成 2. Interface Builder で UI 部品を配置 3. Xcode で必要なクラスを定義 4. 各 UI 部品の結びつきのための変数を IBOutlet.
素数判定法 2011/6/20.
1章 行列と行列式.
プログラミングⅠ( 1 組) 第 9 回
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
複素数.
4.プッシュダウンオートマトンと 文脈自由文法の等価性
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
3.プッシュダウンオートマトンと 文脈自由文法
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
人工知能特論 II 第 4 回 二宮 崇 1. CCG (COMBINATORY CATEGORIAL GRAMMAR) 組合せ範疇文法 2 今日の講義の予定.
重不況の経済学 第2章第2節 山下 真弘. 不均等成長 不均等成長=市場の特定の製品または特定の国・ 地域で付加価値の縮小が生じること 要因は2つ 製品別の「生産性向上速度の差」 付加価値総額の天井(=需要制約)
アルゴリズムとデータ構造 補足資料14-1 「ハッシュ法」
正弦波.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
伝わるスライド 中野研究室 M2 石川 雅 信. どのようなスライドを作れば良 いか 伝えたいこと.
JPN 312 (Fall 2007): Conversation and Composition Contraction (2); 意見を言う (to express your opinion)
JPN 311: Conversation and Composition 許可 (permission)
C言語応用 構造体.
1. 学内や寮への LAN アクセスポイント 設置にともなう接続確認および接続 マニュアルの作成 2. 無線 LAN の Air Station による環境設定 3. 現在進行中の活動 卒業研究中間発表 D1957 河野和宏.
JPN 312 (Fall 2007): Conversation and Composition 文句 ( もんく ) を言う.
1 プログラミング言語論 第13回 プログラムの意味論と検証 (2) 表示的意味論 担当:犬塚. 2 表示的意味論 denotational semantics  表示的意味論では、プログラムの要素とそれが 意味するものを対応付ける。 変数 式 文 A B … A+2 2B+C A:=A+2 if.
ここにキーワードを入 力. 検索オプションを使って効率的な検 索 【 1 】キーワードをスペースで区切る 【 2 】 [OR] で検察範囲を拡大 【 3 】完全一致検察 【 4 】キーワードを検索対象から除く 【 5 】あいまいな言葉を検索する 【
プログラミング入門2 第3回 複合文、繰り返し 情報工学科 篠埜 功.
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
ことばとコンピュータ 2007 年度 1 学期 第 1 回. 2 ことばとコンピュータ 授業科目名:言語情報処理論 授業題目名:ことばとコンピュータ 履修コード: 5067 教室: 323 一学期開講 授業の進め方 – 基本的に講義中心ですすめ,時々コンピュー タを使う.
オセロの思考アルゴリズムについて 1103072 岩間 隆浩.
CPU対戦可能な ビリヤードゲーム 和島研究室 ソ17002 阿部幸司
Exercise IV-A p.164. What did they say? 何と言ってましたか。 1.I’m busy this month. 2.I’m busy next month, too. 3.I’m going shopping tomorrow. 4.I live in Kyoto.
音の変化を視覚化する サウンドプレイヤーの作成
HCC Hair Color Change. メンバー ソ 渋谷麻美 ソ 渋谷麻美 ソ 清野理衣子 ソ 清野理衣子 ソ 三上貴大 ソ 三上貴大.
1 オペレーティングシステム #7 計算機工学 III オペレーティングシステム #7 主記憶管理:主記憶管理基礎 2006/05/26 津邑 公暁.
National Institute of Informatics Kiyoko Uchiyama 1 A Study for Introductory Terms in Logical Structure of Scientific Papers.
To join sentences in English we use ‘and’. To join sentences in Japanese we use the ‘ て form’. Example adjectives: It is big. It is fun. おおきいです。たのしいです。
Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure Mamoru Komachi, Yuji Matsumoto Nara Institute of Science and.
Statistical Phrase Alignment Model Using Dependency Relation Probability Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
2006/12/081 Large Scale Crawling the Web for Parallel Texts Chikayama Taura lab. M1 Dai Saito.
Creating basic sentences Creating questions Creating negatives.
B12433 Midori Maezawa 1. 2  GGI (= Gender Gap Index ) ジェンダー・ギャップ指数 世界経済フォーラムが、各国内の男女間の格差を 数値化しランク付けしたもの。経済分野、教育分野、 政治分野及び保険分野のデータから算出される。0 が完全平等、1が不完全平等を意味する。
Ho w to write ひらがな Left click the mouse to move through each of the slides. Place your mouse on each symbol to hear how it is said. When you see this.
2007/4/201 Extracting Parallel Texts from Massive Web Documents Chikayama Taura lab. M2 Dai Saito.
The Climate as the Major Determinant Shaping Japanese National Character : True or False? B11567 Saki Yokomuro.
Self introduction From PowerPoint to interactive quiz.
英語勉強会(坂田英語) B4 詫間 風人. A Corrected English Composition Sharing System Classification Display and Interface for Searching A corrected English composition.
Assignments: -Writing practice prompt due THUR. -Quiz signed.
英語勉強会 名手⇒詫間 2015/10/22. 原文 This study says acquiring motor skills support system. There is how to acquire moor skills that coach advises learner. Motor.
かぞく 家族. Today… Review family members vocabulary and kanji characters Enhance knowledge and understanding of connecting adjectives Answer questions in.
Rethinking Retirement Unit 15. Paragraph 1  You probably haven’t thought much about retirement yet.  After all 要するに、つまり、結局は  Ahead of you 貴方の前には 
CDH time resolution M.Tokuda. 目的: CDH の基本性能である時間分解能を調べる ・まず TDC-calibration を行った。 次の回路によりチャンネルあたりの時間 ([s]/[ch]) を 測定した。 Pulse generatordelayTDC(100ns.
Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics,
心臓および肝臓移植会社. 心臓移植は非常に複雑な 手技であり、 zoukiishoku119 は候補者の 評価から手技後のケアま で、各患者の治療に協力 チームアプローチをとっ ています。私たちの多分 野の移植グループには、 心臓専門医、心臓外科医、 看護師、心臓リハビリ専 門家、ソーシャルワー カーが含まれます。これ.
腎臓移植 腎臓移植の前に、ドナー両方の腎臓は機 能的に良好でなければならない。ドナー の両方の腎臓が機能的に健康であること を保証するために、多数の試験が行われ ている。
Presentation transcript:

A Comparison of Statistical Post-Editing on Chinese and Japanese Midori Tatsumi and Yanli Sun Under the supervision of: Sharon O’Brien; Minako O’Hagan; Fred Hollowood; Johann Roturier

Outline Introduction1 Evaluation on Sentence Level3 Analysis on modifications made by SPE2 Conclusion4

Introduction Rule-Based Machine Translation (RBMT) –Three Stages: Analysis: analyze a source text into abstract lexical and structural representations Transfer: convert the source language representations into target language representations Generation: generate the target text

Introduction Rule-Based Machine Translation (RBMT) –Three Stages: Analysis: analyze a source text into abstract lexical and structural representations Transfer: convert the source language representations into target language representations Generation: generate the target text Statistical Machine Translation (SMT) –Two Stages: Training: automatically learn translation and language knowledge from parallel corpus Decoding: translate new sentences using the above learned knowledge

Introduction Rule-Based Machine Translation (RBMT) –Three Stages: Analysis: analyze a source text into abstract lexical and structural representations Transfer: convert the source language representations into target language representations Generation: generate the target text Statistical Machine Translation (SMT) –Two Stages: Training: automatically learn translation and language knowledge from parallel corpus Decoding: translate new sentences using the above learned knowledge Post-Editing (PE) –Human post-editing –Automatic post-editing –Statistical post-editing (SPE)

Introduction Statistical Post-editing (SPE) of Rule-Based Machine Translation (RBMT) Output Knight & Chander (1994) Simard et al. (2007a, 2007b) Flowchart of RBMT Human Post-editor Final output Output 2 Flowchart of SPE RBMT Source Final output Output 1 SPE module SMT Reference RBMT output RBMT Source Output 1 Human Post-editor

Introduction –Experimental setting SMT RBMT Human Post-editor SPE module Source Final output Output 1 Output 2 Reference RBMT output Moses Translation Memory: 529,822 (ZH) and 143,742 (JA) Systran -UD: 8,832 entries (ZH) and 6,363 entries (JA) Chinese (ZH); Japanese (JA) English

Introduction –Evaluate SPE: Compare Output 2 and output 1 SMT RBMT Human Post-editor SPE module Source Final output Output 1 Output 2 Reference RBMT output

Analysis of the Modifications Made by SPE Methodology Pilot project –Random selection of 100 sentences for each language Classify and Evaluate the changes –Classification( Vilar et al ) Alteration, Deletion, Addition of Content/Function words Form of Tense/Voice/Imperative/Formality (Politeness) Fixed expression Reordering Punctuation –Evaluation ( Dugast et al ) Improvement Degradation Equivalent

Analysis of the Modifications Made by SPE Quantitative Evaluation Modifications distribution in Japanese and Chinese ImprovementDegradationEquivalent ZHJAZHJAZHJA Alteration Content words Function words Deletion Content words Function words Addition Content words Function words Forms Tense or Voice Formality Imperative Fixed Expression Word / Phrase Reordering Punctuation Total

Analysis of the Modifications Made by SPE Qualitative Evaluation Similarities SourceMT outputSPE output the actions that you specify for that rule JA: あなたがその規則のために指定す る処理 そのルールに指定する処理 After you configure your … ZH: 在 您 配 置 您 的 … 配 置…配 置… Deletion of function words Punctuation SourceMT outputSPE output To maintain … JA: 保守するため … 維持するには … Reverts to … ZH: 恢 复 对 … 恢 复 到... SourceMT outputSPE output MPE provides an option … JA: オプションを提供 します 。オプションがあります. while the synchronization is in progress… ZH: , 当 同 步 进 展 中 时 … 同 步 处 理 …. Alteration of function words

Analysis of the Modifications Made by SPE Qualitative Evaluation Similarities Alteration of function words SourceMT outputSPE output the actions that you specify for that rule JA: あなたがその規則のために指定す る処理 そのルールに指定する処理 After you configure your … ZH: 在 您 配 置 您 的 … 配 置…配 置… Deletion of function words Punctuation SourceMT outputSPE output To maintain … JA: 保守するため … 維持するには … Reverts to … ZH: 恢 复 对 … 恢 复 到... SourceMT outputSPE output MPE provides an option … JA: オプションを提供 します 。オプションがあります. while the synchronization is in progress… ZH: , 当 同 步 进 展 中 时 … 同 步 处 理 ….

Analysis of the Modifications Made by SPE Qualitative Evaluation Similarities Alteration of function words SourceMT outputSPE output the actions that you specify for that rule JA: あなたがその規則のために指定す る処理 そのルールに指定する処理 After you configure your … ZH: 在 您 配 置 您 的配 置配 置 Deletion of function words Punctuation SourceMT outputSPE output To maintain … JA: 保守するため … 維持するには … Reverts to … ZH: 恢 复 对恢 复 到恢 复 到 SourceMT outputSPE output MPE provides an option … JA: オプションを提供 します 。オプションがあります. while the synchronization is in progress… ZH: , 当 同 步 进 展 中 时 … 同 步 处 理 ….

Analysis of the Modifications Made by SPE Qualitative Evaluation Differences Alteration of content words Addition of function words SourceMT outputSPE output console commands JA: コンソールは命じます console コマンド number JA: 番号数 subdomainsZH: subdomains 子 域子 域 SourceMT outputSPE output A black dash indicates that it is disabled. ZH: 黑 色 破 折 号 表 明 它 禁 用。黑 色 线 表 明 它 已 禁 用。黑 色 线 表 明 它 已 禁 用。 On the Spim tab… ZH: 在 Spim 选 项 卡 … 在 Spim 选 项 卡 上 …

Analysis of the Modifications Made by SPE Qualitative Evaluation Differences Alteration of content words Addition of function words SourceMT outputSPE output console commands JA: コンソールは命じます console コマンド number JA: 番号数 subdomainsZH: subdomains 子 域子 域 SourceMT outputSPE output A black dash indicates that it is disabled. ZH: 黑 色 破 折 号 表 明 它 禁 用。黑 色 线 表 明 它 已 禁 用。黑 色 线 表 明 它 已 禁 用。 On the Spim tab… ZH: 在 Spim 选 项 卡 … 在 Spim 选 项 卡 上 …

Analysis of the Modifications Made by SPE Qualitative Evaluation Reordering SourceMT outputSPE output These threats are then… ZH: 这 些 威 胁 然 后 … 然 后, 这 些 威 胁 … SourceMT outputSPE output (Imperative ending) JA: して下さいします SourceMT outputSPE output In general ZH: 一 般 情 况 下,… 通 常 情 况 下,… Fixed expression Imperatives forms Differences

Analysis of the Modifications Made by SPE Qualitative Evaluation Reordering SourceMT outputSPE output These threats are then… ZH: 这 些 威 胁 然 后 … 然 后, 这 些 威 胁 … SourceMT outputSPE output (Imperative ending) JA: して下さいします SourceMT outputSPE output In general,… ZH: 一 般 情 况 下,… 通 常 情 况 下,… Fixed expression Imperatives forms Differences

Analysis of the Modifications Made by SPE Qualitative Evaluation Reordering SourceMT outputSPE output These threats are then… ZH: 这 些 威 胁 然 后 … 然 后, 这 些 威 胁…然 后, 这 些 威 胁… SourceMT outputSPE output (Imperative ending) JA: して下さいします SourceMT outputSPE output In general,… ZH: 一 般 情 况 下,… 通 常 情 况 下,… Fixed expression Imperatives forms Differences

Evaluation on Sentence Level Methodology –Same 100 segments –Effect of SPE on Fluency, Adequacy and PE time –Four evaluators per language –Random distribution of MT output and SPE output CriteriaChineseJapanese Fluency Adequacy Less PE time Kappa scores (Inter-evaluator agreement level) –Japanese: moderate to substantial agreement –Chinese: generally fair agreement Source_ENOutput 1Output 2FluencyAdequacyLess-PE time Turns on or off the special meaning of metacharacters. オン / オフ回転メタ文字の 特別な意味。 有効または無効にメタ文字 の特別な意味します. 1 / 2 / E

Evaluation on Sentence Level Results and Analysis Improvement by SPE: –Chinese ─ Fluency and Adequacy: ≈ 40%, PE time: ≈ 50% –Japanese ─ Fluency, Adequacy, PE time: ≈ 60% LanguageChineseJapanese CriteriaFluencyAdequacyLess PE TimeFluencyAdequacyLess PE Time MT SPE Equal Total100

Conclusions SPE generates more improvement than degradation Three fold for Japanese; Six fold for Chinese Linguistic changes vary between ZH and JA SPE changes are generally limited to word level SPE improves fluency, adequacy, and shortens PE time

Questions?