Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics,

Slides:



Advertisements
Similar presentations
JS Array Hijacking with MBCS encodings JS Array Hijacking with MBCS encodings MBCS文字コードを使ったJS配列の乗っ取り Apr Yosuke HASEGAWA.
Advertisements

Is Charlie Brown a Loser? Do you think you know your real character? Do you actually know, for example, the good and bad points about yourself? It is.
A Comparison of Statistical Post-Editing on Chinese and Japanese Midori Tatsumi and Yanli Sun Under the supervision of: Sharon O’Brien; Minako O’Hagan;
Automatic Image Collection of Objects with Similar Function by Learning Human Grasping Forms Shinya Morioka, Tadashi Matsuo, Yasuhiro Hiramoto, Nobutaka.
Experimental Observation Of Lepton Pairs Of Invariant Mass Around 95 GeV/c² At The CERN SPS Collider 不変質量 95 GeV/c² 近傍のレプトン対の実験的観測 Contents 1. Introduction.
9.線形写像.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
5.連立一次方程式.
相関.
1 情報量(2章). 2 物理的概念との対比1(入れ物と中 身) 塩水 塩 データ 情報 情報の量? 塩分の量! 情報の量は見た目ではわ からない。データと情報 は異なる概念。 塩分の量は見た目 ではわからない。 しかし、本質的な もの。
―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
太陽系シミュレータ 和島研究室 ソ 畑本義明
1章 行列と行列式.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
3.エントロピーの性質と各種情報量.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
線形符号(10章).
複素数.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
アルゴリズムとデータ構造 補足資料 7-4 「単純交換ソート exsort.c 」 横浜国立大学 理工学部 数物・電子情報系学科 富井尚志.
正弦波.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
名古屋工業大学 電気電子工学科 岩波・岡本研究室 野々村嘉人
伝わるスライド 中野研究室 M2 石川 雅 信. どのようなスライドを作れば良 いか 伝えたいこと.
JPN 311: Conversation and Composition 許可 (permission)
Servlet 入門 大岩研究室 川村昌弘. そもそも WEB アプリってなんやね ん n この研究会のテーマは『 WEB アプリケー ションの開発』でした. n じゃぁ WEB アプリケーションって何です か? o WEB アプリってどんなものがありますか? 検索エンジン 乗換え案内サイト 翻訳.
実装の流れと 今後のスケジュール 03k0014 岸原 大祐. システム概要 天気データをもとに、前向き推論をし ていき、親の代わりに子供に服装、持 ち物、気をつけることなどを教える。
移動エージェントプログラムの 動作表示のためのアニメーション言 語 名古屋大学情報工学コース 坂部研究室 高岸 健.
情報法 第3講 電子商取引と法的課題 (2) スパムと準拠法. スパムとは? モンティ・パイソンのギャ グ「スパム、スパム、スパ ム・・・」 迷惑メール UBE=Unsolicited Bulk UCE=Unsolicited Commercial .
「ネット社会の歩き方」レッスンキット プレゼンテーション資料集 15. チャットで個人情報は 言わない プレゼンテーション資料 著作権は独立行政法人情報処理推進機構( IPA )及び経済産業省に帰属します。
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
ネットワークの基礎技術と TCP/IP 曹 暁達 ( そう ぎょうたつ ) 国際産業情報学科 2 年 10 月 28 日.
NO!END!NO!CLEAR ! J チーム 渡邊光児 小山内彩子 下山直城. 役割 渡邊光児 ゲームオーバー画面の作成、ライフの絵作成 小山内彩子 ゲーム内のプログラム、主人公と敵と背景作 成 下山直城 タイトル画面の作成.
Exercise IV-A p.164. What did they say? 何と言ってましたか。 1.I’m busy this month. 2.I’m busy next month, too. 3.I’m going shopping tomorrow. 4.I live in Kyoto.
音の変化を視覚化する サウンドプレイヤーの作成
Alignment by Bilingual Generation and Monolingual Derivation Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
National Institute of Informatics Kiyoko Uchiyama 1 A Study for Introductory Terms in Logical Structure of Scientific Papers.
Language Knowledge Engineering Lab. Kyoto University NTCIR-10 PatentMT, Japan, Jun , 2013 Description of KYOTO EBMT System in PatentMT at NTCIR-10.
Exploiting Shared Chinese Characters in Chinese Word Segmentation Optimization for Chinese-Japanese Machine Translation Chenhui Chu, Toshiaki Nakazawa,
Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure Mamoru Komachi, Yuji Matsumoto Nara Institute of Science and.
Accurate Parallel Fragment Extraction from Quasi-Comparable Corpora using Alignment Model and Translation Lexicon Chenhui Chu, Toshiaki Nakazawa, Sadao.
日本語一 1月 7 日 New Year’s Greetings : E b0.
Statistical Phrase Alignment Model Using Dependency Relation Probability Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
2006/12/081 Large Scale Crawling the Web for Parallel Texts Chikayama Taura lab. M1 Dai Saito.
復習 Revision! 感じ KANJI 词组 Vocabulary 文章Sentences翻译Translation Wild Card.
Bayesian Subtree Alignment Model based on Dependency Trees Toshiaki Nakazawa Sadao Kurohashi Kyoto University 1 IJCNLP2011.
Eikaiwa Achievements Say: Help me I know Let me try I see Me too Not me Really? How do I say …? Excuse me Thank you Do: Raise your hand Try English Ask.
Finding Translation Correspondences from Parallel Parsed Corpus for Example-based Translation Eiji Aramaki (Kyoto-U), Sadao Kurohashi (U-Tokyo), Satoshi.
2007/4/201 Extracting Parallel Texts from Massive Web Documents Chikayama Taura lab. M2 Dai Saito.
The Climate as the Major Determinant Shaping Japanese National Character : True or False? B11567 Saki Yokomuro.
Example-based Machine Translation based on Deeper NLP 1. Graduate School of Information Science and Technology, The University of Tokyo, Tokyo, Japan,
Structural Phrase Alignment Based on Consistency Criteria Toshiaki Nakazawa, Kun Yu, Sadao Kurohashi (Graduate School of Informatics, Kyoto University)
Example-based Machine Translation Pursuing Fully Structural NLP Sadao Kurohashi, Toshiaki Nakazawa, Kauffmann Alexis, Daisuke Kawahara University of Tokyo.
い 日本の どこに 行きたい です か。 Where do you want to go in Japan?
Linguistically-motivated Tree-based Probabilistic Phrase Alignment Toshiaki Nakazawa, Sadao Kurohashi (Kyoto University)
音読用 ICT 教材 サンプル フラッシュ型 文字が消える 文字が現れる 文字の色が変わる 職場体験では.
Basic Statistics 43. sample size Yosuke Fujii.
© 2010 Cisco and/or its affiliates. All rights reserved.Presentation_IDCisco Confidential CISCO LEARNING CREDITS MANAGEMENT TOOL CLP 管理者 – ユーザ ロール 2011.
かぞく 家族. Today… Review family members vocabulary and kanji characters Enhance knowledge and understanding of connecting adjectives Answer questions in.
Rethinking Retirement Unit 15. Paragraph 1  You probably haven’t thought much about retirement yet.  After all 要するに、つまり、結局は  Ahead of you 貴方の前には 
A Simulator for the LWA Masaya Kuniyoshi (UNM). Outline 1.Station Beam Model 2.Asymmetry Station Beam 3.Station Beam Error 4.Summary.
Cross-language Projection of Dependency Trees Based on Constrained Partial Parsing for Tree-to-Tree Machine Translation Yu Shen, Chenhui Chu, Fabien Cromieres.
Fabien Cromieres Chenhui Chu Toshiaki Nakazawa Sadao Kurohashi
Japanese-Chinese Phrase Alignment Using Common Chinese Characters Information Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics,
Kyoto University Participation to WAT 2016
Presentation transcript:

Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics, Kyoto University NLP2012 (2012/03/14) 1

Outline Motivation Shared Chinese Characters Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 2

Outline Motivation Shared Chinese Characters Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 3

Chinese Characters in Alignment 4 可以 说 ( 公式 2 ) 的 标准 满足 该 规定 E そのその 規準規準 を,(2) 式の尺度尺度 E は満たす満たす と言える言える Sure alignment Possible alignment Automatic alignment 规定规定 規準規準

Outline Introduction Shared Chinese Characters Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 5

Chinese Characters Shared in Japanese and Chinese Common Chinese characters (Chu et al., 2011) – Can be detected using freely available database – “ 愛 ” ⇔ “ 爱 ”/“love”, “ 発 ” ⇔ “ 发 ”/“begin”… Other semantically equivalent Chinese characters – “ 食 ” ⇔ “ 吃 ”/“eat”, “ 隠 ” ⇔ “ 藏 ”/“hide”… 6

Common Chinese Characters Database (Chu et al., 2011) IdenticalVariants Kanji 雪 (U+96EA) 国 (U+56FD) 愛 (U+611B) 浄 (U+6D44) 県 (U+770C) Traditional Chinese 雪 (U+96EA) 國 (U+570B) 愛 (U+611B) 凈 (U+51C8) 縣 (U+7E23) Simplified Chinese 雪 (U+96EA) 国 (U+56FD) 爱 (U+7231) 净 (U+51C0) 县 (U+53BF) Unihan Database Chinese Converter Kanconvit 3,141 chars+2,514 chars+42 chars+12 chars ※ Repository of CJK Unified Ideographs ※ Kanji & Simplified Chinese Converter ※ Traditional Chinese & Simplified Chinese Converter 7

Other Semantically Equivalent Chinese Characters There are no available resources Statistical method to calculate statistically equivalent Chinese characters Meaningeatwordhidelookday Kanji 食 (U+98DF) 語 (U+8A9E) 隠 (U+96A0) 見 (U+898B) 日 (U+65E5) Traditional Chinese 吃 (U+5403) 詞 (U+8A5E) 藏 (U+85CF) 看 (U+770B) 天 (U+5929) Simplified Chinese 吃 (U+5403) 词 (U+8BCD) 藏 (U+85CF) 看 (U+770B) 天 (U+5929) 8

Statistically Equivalent Chinese Characters Calculation 隐藏着重要的信息 Zh: 重大な情報が隠されている Ja: 重隠大情報 隐 Zh: 藏着重要的信息 9

Lexical Translation Probability Estimated by Character-Based Alignment Using GIZA++ fifi ejej t(e j |f i )t(f i |e j ) 隠隐 重重 隠藏 大藏 < 1.0e e-06 情信 報息 “ 情報 ” ⇔ “ 信息 ”/“information” “ 情 ” ⇔ “ 信 ” & “ 報 ” ⇔ “ 息 ” may be problematic in other domains “ 隠 ” ⇔ “ 藏 ”/“hide” 10

Outline Motivation Shared Chinese Characters Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 11

Bayesian Sub-tree Alignment Model (Nakazawa and Kurohashi, 2011) Step 1Step 3 Step 2 他 是 我 哥哥 兄 です 彼 は 私 の C1C1 C1C1 C2C2 C2C2 C3C3 C3C3 C4C4 C4C4 12

Exploiting Shared Chinese Characters 13 shared Chinese characters matching ratio α: a value set by hand, 5,000 in experiment

Shared Chinese Characters Matching Ratio 14 number of Chinese characters in phrase matching weight of Chinese characters in phrase Common: 1, Statistically equivalent: highest Lexical Translation Probability

Outline Motivation Shared Chinese Characters Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 15

Alignment Experiment Training: Ja-Zh paper abstract corpus (680k) Testing: about 500 hand-annotated parallel sentences (with Sure and Possible alignments) Measure: Precision, Recall, Alignment Error Rate Japanese Tools: JUMAN and KNP Chinese Tools: MMA and CNP (from NICT) 16

Experimental Results PrecisionRecallAER GIZA++ (grow-diag-final-and) BerkelyAligner Baseline(Nakazawa+ 2011) Common Common & SE SE: Statistically equivalent

Improved Example by Common Chinese Characters Baseline 18 事实事实 実際実際 Proposed

Improved Example by Statistically Equivalent Chinese Characters 19 中 内 BaselineProposed

Translation Experiment Training: Ja-Zh paper abstract corpus (680k) Testing: 1,768 sentences from the same domain as the training corpus Decoder: Kyoto example-based machine translation (EBMT) system (Nakazawa and Kurohashi, 2011) 20

Experimental Results BLEUJa-to-ZhZh-to-Ja Baseline(Nakazawa+ 2011) Common Common & SE SE: Statistically equivalent

Outline Introduction Shared Chinese Characters Detection Method Exploiting Shared Chinese Characters Experiments Conclusion and Future Work 22

Conclusion We proposed a method for detecting statistically equivalent Chinese characters We exploited statistically equivalent Chinese characters together with common Chinese characters in a joint phrase alignment model Our proposed approach improved alignment accuracy as well as translation quality 23

Future Work Evaluate the proposed approach on parallel corpus of other domains 24