Example-based Machine Translation Pursuing Fully Structural NLP Sadao Kurohashi, Toshiaki Nakazawa, Kauffmann Alexis, Daisuke Kawahara University of Tokyo.

Slides:



Advertisements
Similar presentations
あどべんちゃーにほんご L. 2か にほんごのきょうしつ /Japanese Classroom General goals of the lessons: You will be able to communicate the information below in the given situations.
Advertisements

Is Charlie Brown a Loser? Do you think you know your real character? Do you actually know, for example, the good and bad points about yourself? It is.
A Comparison of Statistical Post-Editing on Chinese and Japanese Midori Tatsumi and Yanli Sun Under the supervision of: Sharon O’Brien; Minako O’Hagan;
Giving and Receiving Gifts Chapter 15 のぶんぽう. Giving and Receiving Gifts Giving and receiving gifts is a very important custom in Japan. As such, it is.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
九州大学 岡村研究室 久保 貴哉 1. 利用中のAPの数の推移 2 横軸:時刻 縦軸:接続要求数 ・深夜では一分間で平均一台、 昼間では平均14台程度の接続 要求をAPが受けている。 ・急にAPの利用者数が増えてく るのは7~8時あたり.
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
線形符号(10章).
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
JPN 311: Conversation and Composition 確 ( たし ) かな情報 ( じょうほ う ) ・ 不確 ( ふたし ) かな情報 ( じょう ほう )
JPN 312 (Fall 2007): Conversation and Composition Contraction (2); 意見を言う (to express your opinion)
SUPJ2010 Japanese Ⅱ( A ) Elementary Japanes e ‐ in twenty hours- Chapter 7.
JPN 311: Conversation and Composition 勧誘 (invitation)
JPN 311: Conversation and Composition 伝言 (relaying a message)
JPN 311: Conversation and Composition 許可 (permission)
JPN 312 (Fall 2007): Conversation and Composition Contracted Forms.
JPN 312 (Fall 2007): Conversation and Composition 文句 ( もんく ) を言う.
SUPJ2010 Japanese Ⅱ( A ) Elementary Japanes e ‐ in twenty hours- Chapter 8.
THE IMAGE a guide to pseudo-events in america 『幻影の時代』 マスコミが製造する事実 1961 年= 1964 年 (1)テレビ発展期のアメリカ (2)メディア論=テレビ論の台頭の 時期 (3)メディア論を含む現代化論 modernization 『幻影の時代』
Elementary Japanese ‐in twenty hours- Chapter 9
「ネット社会の歩き方」レッスンキット プレゼンテーション資料集 15. チャットで個人情報は 言わない プレゼンテーション資料 著作権は独立行政法人情報処理推進機構( IPA )及び経済産業省に帰属します。
8.任意のデータ構造 (グラフの表現とアルゴリズム)
第五課 単語 元気 I pp Nouns うみ(海) sea きって (切手) postal stamp.
金融の基本Q&A50  Q37~Q /6/24 蔵内雄大.
LANG3910 Japanese Ⅲ Lesson 14 依頼・現在進行形. 学習項目 1. 「て -form 」 2. 依頼表現 An expression of request 3. 相手の意向を尋ねる Ask someone’s mind 4. 現在進行形 Actions in Progress.
Exercise IV-A p.164. What did they say? 何と言ってましたか。 1.I’m busy this month. 2.I’m busy next month, too. 3.I’m going shopping tomorrow. 4.I live in Kyoto.
本文. 考えながら読みましょ う 「いろいろなこと」( 3 行目)は何で すか 「①電話料金はコンビニで支払いをしていま す。いつでも払えますから、便利です。」 「②夕食はコンビニで買います。お弁当やお かずがいろいろありますから。」今、若者に 人気のあるコンビニは、いろいろなことをす るのに非常に便利な場所になった。
Alignment by Bilingual Generation and Monolingual Derivation Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
Exploiting Shared Chinese Characters in Chinese Word Segmentation Optimization for Chinese-Japanese Machine Translation Chenhui Chu, Toshiaki Nakazawa,
One World Your Translation Companion Kenny Risk Alex Cheng Angapparaj Kalimuthu Daniel Mejia.
J-movie – Using film to develop linguistic and intercultural skills in Japanese language classrooms Cathy Jonak, Mari Nobuoka The Japan Foundation, Sydney.
Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure Mamoru Komachi, Yuji Matsumoto Nara Institute of Science and.
Japanese Dependency Analysis using Cascaded Chunking Taku Kudo 工藤 拓 Yuji Matsumoto 松本 裕治 Nara Institute Science and Technology, JAPAN.
日本語一 1月 7 日 New Year’s Greetings : E b0.
たくさんの人がいっしょに乗れる乗り物を 「公共交通」といいます バスや電車 と 自動車 の よいところ と よくない ところ よいところ と よくない ところ を考えてみよう!
Statistical Phrase Alignment Model Using Dependency Relation Probability Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
2006/12/081 Large Scale Crawling the Web for Parallel Texts Chikayama Taura lab. M1 Dai Saito.
日本語きほん文法の復習 Basic Japanese Grammar Review
Bayesian Subtree Alignment Model based on Dependency Trees Toshiaki Nakazawa Sadao Kurohashi Kyoto University 1 IJCNLP2011.
B12433 Midori Maezawa 1. 2  GGI (= Gender Gap Index ) ジェンダー・ギャップ指数 世界経済フォーラムが、各国内の男女間の格差を 数値化しランク付けしたもの。経済分野、教育分野、 政治分野及び保険分野のデータから算出される。0 が完全平等、1が不完全平等を意味する。
Example-based Machine Translation Pursuing Fully Structural NLP
Bellwork: 1) How do you plan to survive an immersion classroom? 2) What things can you do to improve your speaking ability in class? 3) What is circumlocution?
Goal: I am comfortable using the counters ~dai, ~hiki, ~wa, and ~hon. Assignments: -Find 5 far-out interesting pictures from the internet and describe.
Finding Translation Correspondences from Parallel Parsed Corpus for Example-based Translation Eiji Aramaki (Kyoto-U), Sadao Kurohashi (U-Tokyo), Satoshi.
2007/4/201 Extracting Parallel Texts from Massive Web Documents Chikayama Taura lab. M2 Dai Saito.
Kyoto-U: Syntactical EBMT System for NTCIR-7 Patent Translation Task Kyoto University Toshiaki Nakazawa Sadao Kurohashi.
日本語1 2月12日 愛 あい. みっきーは みにーを あいしてい ます。 ほーまーは まーじを あいしてい ます。
The Game Begins Background information screen (this may need to be presented some other way & need more detail.): Jicchan is your grandfather’s good friend.
Example-based Machine Translation based on Deeper NLP 1. Graduate School of Information Science and Technology, The University of Tokyo, Tokyo, Japan,
Structural Phrase Alignment Based on Consistency Criteria Toshiaki Nakazawa, Kun Yu, Sadao Kurohashi (Graduate School of Informatics, Kyoto University)
い 日本の どこに 行きたい です か。 Where do you want to go in Japan?
Linguistically-motivated Tree-based Probabilistic Phrase Alignment Toshiaki Nakazawa, Sadao Kurohashi (Kyoto University)
英語勉強会(坂田英語) B4 詫間 風人. A Corrected English Composition Sharing System Classification Display and Interface for Searching A corrected English composition.
Event 8: The Old Lady スタート Start. ばあちゃんの質問に答えましょう ( Answer Baachan’s questions ) When the user clicks the help button, this instruction will appear in.
音読用 ICT 教材 サンプル フラッシュ型 文字が消える 文字が現れる 文字の色が変わる 職場体験では.
© 2010 Cisco and/or its affiliates. All rights reserved.Presentation_IDCisco Confidential CISCO LEARNING CREDITS MANAGEMENT TOOL CLP 管理者 – ユーザ ロール 2011.
かぞく 家族. Today… Review family members vocabulary and kanji characters Enhance knowledge and understanding of connecting adjectives Answer questions in.
Rethinking Retirement Unit 15. Paragraph 1  You probably haven’t thought much about retirement yet.  After all 要するに、つまり、結局は  Ahead of you 貴方の前には 
RELATIVE CLAUSES Adjectival Clauses/Modifiers. RELATIVE CLAUSES A relative clause is the part of a sentence which describes a noun Eg. The cake (which)
Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics,
雪 ゆき. 雪や こんこ ゆき.
心臓および肝臓移植会社. 心臓移植は非常に複雑な 手技であり、 zoukiishoku119 は候補者の 評価から手技後のケアま で、各患者の治療に協力 チームアプローチをとっ ています。私たちの多分 野の移植グループには、 心臓専門医、心臓外科医、 看護師、心臓リハビリ専 門家、ソーシャルワー カーが含まれます。これ.
Approaches to Machine Translation
Eiji Aramaki* Sadao Kurohashi* * University of Tokyo
Approaches to Machine Translation
Presentation transcript:

Example-based Machine Translation Pursuing Fully Structural NLP Sadao Kurohashi, Toshiaki Nakazawa, Kauffmann Alexis, Daisuke Kawahara University of Tokyo

Overview of UTokyo System 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection J: 交差点で、突然あの車が 飛び出して来たのです。 E : The car came at me from the side at the intersection.

Overview of UTokyo System my traffic The light was green when entering the intersection Language Model My traffic light was green when entering the intersection. Input Output 交差 点 に点 に 入る 時 私 の私 の 信号 は 青 でした 。 (cross) (point) (enter) (when) (my) (signal) (blue) (was) came at me from the side at the intersection 私 の私 の サイン 家 に家 に 入る 時 脱ぐ 交差 点 で 、点 で 、 突然 飛び出して 来た のです 。 信号 は 青 でした 。 my signature traffic The light was green to remove when entering a house Translation Examples (suddenly) (rush out) (house) (put off) (signal) (enter) (when) (cross) (point) (my) (signal) (blue) (was) 交差点に入る時 私の信号は青でした。

Outline I.Background II.Alignment of Parallel Sentences III.Translation IV.Beyond Simple EBMT V.IWSLT Results and Discussion VI.Conclusion

EBMT and SMT Common Feature Use bilingual corpus, or translation examples for the translation of new inputs. Exploit translation knowledge implicitly embedded in bilingual corpus. Make MT system maintenance and improvement much easier compared with Rule-based MT.

EBMT and SMT SMT Only bilingual corpus Combine words/phrases with high probability EMBT Any resources (bilingual corpus are not necessarily huge) Try to use larger translation examples ( → syntactic information ) Problem setting Methodology

Why EBMT? Pursuing structural NLP –Improvement of basic analyses leads to improvement of MT –Feedback from application (MT) can be expected EMBT setting is suitable in many cases –Not a large corpus, but similar examples in relatively close domain Translation of manuals using the old version manuals’ translation Patent translation using related patents’ translation Translation of an article using the already translated sentences step by step

Outline I.Background II.Alignment of Parallel Sentences III.Translation IV.Beyond Simple EBMT V.IWSLT Results and Discussion VI.Conclusion

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure J: 交差点で、突然あの車が 飛び出して来たのです。 E : The car came at me from the side at the intersection. J: JUMAN/KNP E: Charniak’s nlparser → Dependency tree

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences EIJIRO (J-E dictionary): 0.9M entries Transliteration detection ローズワイン → rosuwain ⇔ rose wine (similarity:0.78) 新宿 → shinjuku ⇔ shinjuku (similarity:1.0)

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correpondences

Disambiguation 日本 で 保険 会社 に 対して 保険 請求の 申し立て が 可能です よ you will have to file insurance an claim insurance with the office in Japan C unamb → C amb : 1/(Distance in J tree) + 1/(Distance in E tree) 1/2 + 1/1 In the 20,000 J-E training data, ambiguous correspondences are only 4.8%.

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correspondences 4.Handling of remaining phrases 1.The root nodes are aligned, if remaining 2.Expansion in base NP nodes 3.Expansion downwards

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correspondences 4.Handling of remaining phrases 5.Registration to translation example database

Outline I.Background II.Alignment of Parallel Sentences III.Translation IV.Beyond Simple EBMT V.IWSLT Results and Discussion VI.Conclusion

Translation my traffic The light was green when entering the intersection Language Model My traffic light was green when entering the intersection. Input Output 交差 点 に点 に 入る 時 私 の私 の 信号 は 青 でした 。 (cross) (point) (enter) (when) (my) (signal) (blue) (was) came at me from the side at the intersection 私 の私 の サイン 家 に家 に 入る 時 脱ぐ 交差 点 で 、点 で 、 突然 飛び出して 来た のです 。 信号 は 青 でした 。 my signature traffic The light was green to remove when entering a house Translation Examples (suddenly) (rush out) (house) (put off) (signal) (enter) (when) (cross) (point) (my) (signal) (blue) (was) 交差点に入る時 私の信号は青でした。

Translation 1.Retrieval of translation examples For all the sub-trees in the input 2.Selection of translation examples The criterion is based on the size of translation example (the number of matching nodes with the input), plus the similarities of the neighboring outside nodes. ([Aramaki et al. 05] proposed a selection criterion based on translation probability.) 3.Combination of translation examples

Combining TEs using Bond Nodes my traffic The light was green when entering the intersection Input 交差 点 に点 に 入る 時 私 の私 の 信号 は 青 でした 。 (cross) (point) (enter) (when) (my) (signal) (blue) (was) came at me from the side at the intersection 私 の私 の サイン 家 に家 に 入る 時 脱ぐ 交差 点 で 、点 で 、 突然 飛び出して 来た のです 。 信号 は 青 でした 。 my signature traffic The light was green to remove when entering a house Translation Examples (suddenly) (rush out) (house) (put off) (signal) (enter) (when) (cross) (point) (my) (signal) (blue) (was)

Combining TEs using Bond Nodes my traffic The light was green when entering the intersection Input 交差 点 に点 に 入る 時 私 の私 の 信号 は 青 でした 。 (cross) (point) (enter) (when) (my) (signal) (blue) (was) came at me from the side at the intersection 私 の私 の サイン 家 に家 に 入る 時 脱ぐ 交差 点 で 、点 で 、 突然 飛び出して 来た のです 。 信号 は 青 でした 。 my signature traffic The light was green to remove when entering a house Translation Examples (suddenly) (rush out) (house) (put off) (signal) (enter) (when) (cross) (point) (my) (signal) (blue) (was)

Outline I.Background II.Alignment of Parallel Sentences III.Translation IV.Beyond Simple EBMT V.IWSLT Results and Discussion VI.Conclusion

Numerals Cardinal: 124 → one hundred twenty four Ordinal (e.g., day): 2 日 → second Two-figure (e.g., room #, year): 124 → one twenty four One-figure (e.g., flight #, phone #): 124 → one two four Non-numeral (e.g., month): 8 月 → August

Pronoun Omission TE: 胃が痛いのです I ’ve a stomachache Input: 私は胃が痛いのです → I I ’ve a stomachache TE: これを日本に送ってください Will you mail this to Japan? Input: 日本へ送ってください → Will you mail to Japan? I ’ve a stomachache LM Will you mail this to Japan? LM

Outline I.Background II.Alignment of Parallel Sentences III.Translation IV.Beyond Simple EBMT V.IWSLT Results and Discussion VI.Conclusion

Evaluation Results BLUENIST Dev Dev IWSLT05 Manual (4 th /7;2 nd /3) 7.85 (3 rd /7;2 nd /3) IWSLT05 ASR Supplied 20,000 JE data, Parser, Bilingual dictionary (Supplied + tools ; Unrestricted)

Discussion Translation of a test sentence –7.5words/3.2phrases –1.8 TEs of the size of 1.5 phrases translation from dic. Parsing accuracy (100 sent.) –J: 94%, E: 77% (sentence level) Alignment precision (100 sent.) –Word(s) alignment by bilingual dictionary: 92.4% –Phrase alignment: 79.1% ⇔ Giza++ one way alignment: 64.2% “Is the current parsing technology useful and accurate enough for MT?”

Conclusion We not only aim at the development of MT, but also tackle this task from the viewpoint of structural NLP. Future work –Improve paring accuracies of both languages complementary –Flexible matching in monolingual texts –Anaphora resolution –J-C and C-J MT Project with NICT