Kyoto-U: Syntactical EBMT System for NTCIR-7 Patent Translation Task Kyoto University Toshiaki Nakazawa Sadao Kurohashi.

Slides:



Advertisements
Similar presentations
Is Charlie Brown a Loser? Do you think you know your real character? Do you actually know, for example, the good and bad points about yourself? It is.
Advertisements

Automatic Image Collection of Objects with Similar Function by Learning Human Grasping Forms Shinya Morioka, Tadashi Matsuo, Yasuhiro Hiramoto, Nobutaka.
HKS Analysis Log Jun 2006 part3 D.Kawama. 0 .今回の目次 1.Target での dE/dX 2.HKS sieve slit simulation(Geant4)
ヴァウドットコム株式会社 ObjectIN 見積書作成. Biz Rule: データ入力チェック B iz Apply: データベース連携 COM +イベントによる 代替オペレーション ポーリング方式でなく アプリケーション監視による 最新データの同期機能 Biz Exchange (注 1 ) :
レポート書き方. おしいレポート よく調べてある それぞれの、1文の言っていることは正 しい しかし、全体として、何が言いた いのかわからない 内容の重要だが、全体の構成も重 要である.
IPhone 勉強会 - OpenGL - 纐纈 直也. OpenGL (Open Graphics Library) 3D グラフィックスのためのプログラムインター フェイス iPhone では OpenGL Ver1.5 のサブセットである OpenGL ES (OpenGL for Embedded.
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
9.線形写像.
5.連立一次方程式.
相関.
論理回路 第2回 今日の内容 前回の課題の説明 数の体系 – 数の表現 – 代表的な数 – 基数の変換 – 補数.
素数判定法 2011/6/20.
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
プログラミングⅠ( 1 組) 第 9 回
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
線形符号(10章).
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
3.プッシュダウンオートマトンと 文脈自由文法
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
研究会 “Harmonies and Surprises on the Lattice” 地域社会と連携した大学教育と 研究プロセスの類似性 ~松本大学での帰納的教育手法の展開~ 報告者: Matsumoto University 松本大学/松本大学松商短期大学部 Hiroyuki Sumiyoshi.
新聞記事に出現する学術雑誌タ イトルの傾向:朝日新聞の場合 常磐大学人間科学部 栗山正光 2011 年 5 月 14 日(土) 日本図書館情報学会 2011 年春季研究集会 @東京学芸大学.
平成22年度予算の国立大学法人関連要望事項に係るパブリックコメント説明会
3.正方行列(単位行列、逆行列、対称行列、交代行列)
レイアウトとデザインの基本 情報処理演習2.
JPN 311: Conversation and Composition 確 ( たし ) かな情報 ( じょうほ う ) ・ 不確 ( ふたし ) かな情報 ( じょう ほう )
電子情報化の経験 「社会学文献情報データベース」にみる 日本社会学会データベース委員 周藤 真也 (早稲田大学) 久木元真吾(㈶家計経済研究 所) 第 78 回日本社会学会大会(於・法政大学多摩キャン パス) 一般研究報告(2)情報・コミュニケーション 2005 年 10 月 22 日.
JPN 311: Conversation and Composition 許可 (permission)
地図に親しむ 「しゅくしゃくのちがう 地図を 使ってきょりを調べよ う1」 小学4年 社会. 山口駅裁判所 県立 美術館 サビエル 記念聖堂 山口市役所 地図で探そう 市民会館 県立 図書館.
THE IMAGE a guide to pseudo-events in america 『幻影の時代』 マスコミが製造する事実 1961 年= 1964 年 (1)テレビ発展期のアメリカ (2)メディア論=テレビ論の台頭の 時期 (3)メディア論を含む現代化論 modernization 『幻影の時代』
言語とジェンダー. 目的 言語には、性的な存在である人間の自己認識や 世界認識を決定する力が潜んでいる。 – 言語構造の面(言語的カテゴリー ) – 言語運用の面 日常に潜む無意識の言語の力を、記述し、意識 化することが本講義の目的である。 同時に、さまざまな言語、さまざまな文化には、 それぞれに特徴的な問題があり、ジェンダーの.
Elementary Japanese ‐in twenty hours- Chapter 9
地図に親しむ 「じっさいのけしきと 地図をくらべよう」
「ネット社会の歩き方」レッスンキット プレゼンテーション資料集 15. チャットで個人情報は 言わない プレゼンテーション資料 著作権は独立行政法人情報処理推進機構( IPA )及び経済産業省に帰属します。
8.任意のデータ構造 (グラフの表現とアルゴリズム)
図書館の使い方 webペー ジ企画 グループ:いよかん メンバー: c07133 c クライアント情報  情報大学図書館の使い方  学生や学外からの来館者向け.
二次元、三次元空間の座標表現 点のベクトル表現と行列による変換 点、線、面の数理表現 図形の変換 投影、透視変換
日本語 IB: 口頭発表 平成 20 年度 後学期 担当 : 大島 義和 第 3 回 (10 月 16 日 )
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
SUPJ2010 Japanese Ⅱ( A ) Elementary Japanes e ‐ in twenty hours- Review of Japanese Ⅰ (B)
親子のための 小学校 保護者用 日時: 年 月 日( ) 講師:. 22 今日のセミナーを通じて考えること ・子どもたちのネット・携帯 最新事情 ・知っておいて欲しい ネット関連のトラブル ・いまいちど確認 ネット社会の特性 ・すぐに使える トラブル対応策 ・これで安心 情報モラルのポイント ・子育てのポイント.
図書館における 個人対応検索システム                03k1001 赤塚 拓巳.
LANG3910 Japanese Ⅲ Lesson 14 依頼・現在進行形. 学習項目 1. 「て -form 」 2. 依頼表現 An expression of request 3. 相手の意向を尋ねる Ask someone’s mind 4. 現在進行形 Actions in Progress.
親子のための 日時: 年 月 日( ) 講師: 小学校 児童用. はじめに 2 近くの人と 「4人グループ」 を作ってください。 100までの数字の中から 「好きな数字」 を1つ決めてください。
音の変化を視覚化する サウンドプレイヤーの作成
親子のための 小学校 保護者用. 2 今日のセミナーを通じて考えること ・子どもたちのネット・携帯 最新事情 ・知っておいて欲しい ネット関連のトラブル ・いまいちど確認 ネット社会の特性 ・すぐに使える トラブル対応策 ・これで安心 情報モラルのポイント ・子育てのポイント いろいろ ・相談窓口と参考情報.
Self-efficacy(自己効力感)について
日本語 IB: 口頭発表 平成 19 年度 後学期 担当 : 大島 義和 第 3 回 (10 月 18 日 )
親子のための 児童用. 2 まずは、 100までの数字の中から 「好きな数字」 を 1つ決めてください。 近くの人と 「4人グループ」を 作ってください。
Photometric Stereo for Lambertian Surface Robert J. Woodham, "Photometric method for determining surface orientation from multiple shading images", Optical.
本文. 考えながら読みましょ う 「いろいろなこと」( 3 行目)は何で すか 「①電話料金はコンビニで支払いをしていま す。いつでも払えますから、便利です。」 「②夕食はコンビニで買います。お弁当やお かずがいろいろありますから。」今、若者に 人気のあるコンビニは、いろいろなことをす るのに非常に便利な場所になった。
Alignment by Bilingual Generation and Monolingual Derivation Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
Language Knowledge Engineering Lab. Kyoto University NTCIR-10 PatentMT, Japan, Jun , 2013 Description of KYOTO EBMT System in PatentMT at NTCIR-10.
Statistical Phrase Alignment Model Using Dependency Relation Probability Toshiaki Nakazawa and Sadao Kurohashi Kyoto University.
The Analysis Model of Global Flow of Funds in Theory and Practice Nan Zhang Hiroshima Shudo University.
B12433 Midori Maezawa 1. 2  GGI (= Gender Gap Index ) ジェンダー・ギャップ指数 世界経済フォーラムが、各国内の男女間の格差を 数値化しランク付けしたもの。経済分野、教育分野、 政治分野及び保険分野のデータから算出される。0 が完全平等、1が不完全平等を意味する。
Finding Translation Correspondences from Parallel Parsed Corpus for Example-based Translation Eiji Aramaki (Kyoto-U), Sadao Kurohashi (U-Tokyo), Satoshi.
Example-based Machine Translation based on Deeper NLP 1. Graduate School of Information Science and Technology, The University of Tokyo, Tokyo, Japan,
Structural Phrase Alignment Based on Consistency Criteria Toshiaki Nakazawa, Kun Yu, Sadao Kurohashi (Graduate School of Informatics, Kyoto University)
Example-based Machine Translation Pursuing Fully Structural NLP Sadao Kurohashi, Toshiaki Nakazawa, Kauffmann Alexis, Daisuke Kawahara University of Tokyo.
RELATIVE CLAUSES Adjectival Clauses/Modifiers. RELATIVE CLAUSES A relative clause is the part of a sentence which describes a noun Eg. The cake (which)
11 October, 2016 RAILWAY PRO investment summit
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Kyoto University Participation to WAT 2016
Presentation transcript:

Kyoto-U: Syntactical EBMT System for NTCIR-7 Patent Translation Task Kyoto University Toshiaki Nakazawa Sadao Kurohashi

Overview of Kyoto-U System Translation Examples J: 図書館で新聞を読む E: I read a newspaper in the library J: 政治の本が売れ残っている E: A book in politics was left on the shelf ・・・・・

本 が 売れ残って いる 政治 の a book in politics was left on the shelf 図書館 で 新聞 を 読む I read a newspaper in the library library in newspaper ACC read politics in book NOM left unsold Overview of Kyoto-U System Translation Examples

Input: 図書館で政治の 本を読む。 Output: I read a book in politics in the library 本 が 売れ残って いる 政治 の a book in politics was left on the shelf 図書館 で 新聞 を 読む I read a newspaper in the library ・・・・・ 図書館 で 本 を 読む 政治 の read book ACC politics in library in a book in politics in the library I read Overview of Kyoto-U System Translation Examples

Input: 図書館で政治の 本を読む。 Output: I read a book in politics in the library 本 が 売れ残って いる 政治 の a book in politics was left on the shelf 図書館 で 新聞 を 読む I read a newspaper in the library ・・・・・ 図書館 で 本 を 読む 政治 の read book ACC politics in library in a book in politics in the library I read Overview of Kyoto-U System Translation Examples

Alignment

J: 交差点で、突然あの車が 飛び出して来たのです。 E : The car came at me from the side at the intersection.

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure J: JUMAN/KNP E: Charniak’s nlparser → Dependency tree

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences

Finding Correspondences Bilingual dictionaries (500K entries) Substring co-occurrence (Cromieres 2006) Numeral normalization 二百十六万 → 2,160,000 ← 2.16 million Transliteration (Katakana words, NEs) ローズワイン → rosuwain ⇔ rose wine (similarity:0.78) 新宿 → shinjuku ⇔ shinjuku (similarity:1.0)

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correspondences

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correspondences 4.Handling of remaining phrases Extension to leaf-nodes

Alignment 交差 点 で 、点 で 、 突然 あの 車 が車 が 飛び出して 来た のです the car came at me from the side at the intersection 1.Transformation into dependency structure 2.Detection of word(s) correspondences 3.Disambiguation of correspondences 4.Handling of remaining phrases 5.Registration to translation example database

Alignment Ambiguities you will have to file insurance an claim insurance with the office in Japan 日本 で 保険 会社 に 対して 保険 請求 の 申し立て が 可能です よ [in Japan] [insurance] [of claim] [to the company] [file] [be able to]

Alignment: Consistency Near Far

For each pair of candidates a i and a j calculate the J-side distance d J and the E-side distance d E Give a consistency score to the pair based on d J and d E Calculate consistency scores for all the pairs in a possible set of alignment candidates

Baseline Distance of Each Branch: 1 Consistency Score: 1/1+1/2=1.5 … … …

Consistency Score The frequency of distance pair in gold-standard alignment data (Mainichi newspaper 40K sentence pairs) [Uchimoto04] Frequency (log) Dist of J-Side Dist of E-Side

Distance based on Dependency Type you will have to file insurance an claim insurance with the office in Japan 日本 で 保険 会社 に 対して 保険 請求 の 申し立て が 可能です よ デ格 文節内 連用 文節内 ノ格 ガ格 NP NN PP NN PP 3 1 1 3 2 3 3 3 3 3 1 1 [in Japan] [insurance] [of claim] [to the company] [file] [be able to]

you will have to file insurance an claim insurance with the office in Japan 日本 で 保険 会社 に 対して 保険 請求 の 申し立て が 可能です よ デ格 文節内 連用 文節内 ノ格 ガ格 NP NN PP NN PP 3 1 1 3 2 3 3 3 3 3 1 1 [in Japan] [insurance] [of claim] [to the company] [file] [be able to] Distance based on Dependency Type

you will have to file insurance an claim insurance with the office in Japan 日本 で 保険 会社 に 対して 保険 請求 の 申し立て が 可能です よ 3 1 1 3 2 3 3 3 3 1 1 デ格 文節内 連用 文節内 ノ格 ガ格 NP NN PP NN PP 3 [in Japan] [insurance] [of claim] [to the company] [file] [be able to] Distance based on Dependency Type

Example of Alignment Improvement Proposed modelWord-base alignment

Translation

Input: 図書館で政治の 本を読む。 Output: I read a book in politics in the library 本 が 売れ残って いる 政治 の a book in politics was left on the shelf 図書館 で 新聞 を 読む I read a newspaper in the library ・・・・・ 図書館 で 本 を 読む 政治 の read book ACC politics in library in a book in politics in the library I read Translation Translation Examples

Selection of Translation Examples Score for an example 1.Size of an example 2.Similarity of neighboring nodes 3.Translation probability Beam search from the root of the input [Sato 91]

Input: 図書館 で 本 を 読む 政治 の read bookACC politics in library in 読む a newspaper I read a newspaper in the library I study in the library I read a newspaper in the library 0.7 Translation example: 新聞 を 図書館 で

Input: 図書館で政治の 本を読む。 本 が 売れ残って いる 政治 の a book in politics was left on the shelf 図書館 で 新聞 を 読む I read a newspaper in the library ・・・・・ 図書館 で 本 を 読む 政治 の read book ACC politics in library in a book in politics in the library I read Combination of TMs Translation Examples

┌ 記録 ┌ 領域 で の ├ 変形 ┌ 形状 と , │ ┌ 記録 ├ 特性 の ┌ 関係 を 調べた 。 ┌ the relationship ││ ┌ deformation ││┌ shape and │││ │ ┌ recording │││ └ in the region ││ ├ recording │└ between characteristics was examined Input Dependency Tree Input :記録領域での変形形状と,記録特性の関係を調べた。 Output Dependency Tree ┌ 状況 を 調べた 。 ┌ the situation was examined ┌ 相互 ┌ 作用 と │┌ 記録 ├ 特性 の ┌ 関係 を 調べた 。 ┌ the relationship ││┌ interaction and ││├ recording │└ between characteristics was investigated ┌ 大変 ┌ 形 ┌ 領域 で の ├ 断面 ┌ 形状 を 模擬 した ┌ cross-sectional ┌ shape ││ ┌ large ││┌ deformation │└ in the region was └ simulated ┌ 記録 領域 の ┌ recording of the areas ┌ 変形 パターン を ┌ deformation the pattern Translation Examples Output : The relationship between deformation shape in the recording region and recording characteristics was examined.

Evaluation Results and Discussion

BLEUAdequacyFluencyAverage 27.20NTT3.81tsbmt4.02Japio3.88tsbmt 27.14moses3.71Japio3.94tsbmt3.86Japio 27.14MIT3.15MIT3.66MIT3.40MIT 25.48NAIST-NTT2.96NTT3.65NTT3.30NTT 24.79NICT-ATR2.85Kyoto-U3.55moses3.18moses 24.49KLE2.81moses3.44tori3.10Kyoto-U 23.10tsbmt2.66NAIST-NTT3.43NAIST-NTT3.04NAIST-NTT 22.29tori2.59KLE3.35Kyoto-U3.01tori 21.57Kyoto-U2.58tori3.28HIT22.94KLE 19.93mibel2.47NICT-ATR3.28KLE2.86HIT HIT22.44HIT23.09mibel2.78NICT-ATR 19.46Japio2.38mibel3.08NICT-ATR2.74mibel 15.90TH1.87TH2.42 FDU-MCandWI 2.13TH 9.55 FDU-MCandWI 1.75 FDU-MCandWI 2.39TH2.08 FDU-MCandWI 1.41NTNU1.08NTNU1.04NTNU1.06NTNU Intrinsic J-E Evaluation Result

BLEUAdequacyFluencyAverage 30.58moses3.53tsbmt3.69moses3.60tsbmt 29.15NICT-ATR2.90moses3.67tsbmt3.30moses 28.07NTT2.74NTT3.54NTT3.14NTT 22.65Kyoto-U2.59NICT-ATR3.20NICT-ATR2.89NICT-ATR 17.46tsbmt2.42Kyoto-U2.54Kyoto-U2.48Kyoto-U Intrinsic E-J Evaluation Result

Not caring whether a child node is a pre- child or post-child –Resulting target structure goes wrong After resolving this defect, BLEU score in EJ translation rose to from Critical Defect in EJ Translation BLEUAdequacyFluencyAverage 30.58moses3.53tsbmt3.69moses3.60tsbmt 29.15NICT-ATR2.90moses3.67tsbmt3.30moses 28.07NTT2.74NTT3.54NTT3.14NTT 22.65Kyoto-U2.59NICT-ATR3.20NICT-ATR2.89NICT-ATR 17.46tsbmt2.42Kyoto-U2.54Kyoto-U2.48Kyoto-U ? ??

Kyoto-U Fully Syntactic EBMT system: 1.Alignment: Consistency 2.Alignment: Extension 3.Translation: Discontinuous example 4.Translation: Easy combination By using syntactic information, we could achieve reasonably high quality translation For patent translation, we may need some pre-processings to handle special expressions which cause parsing errors Conclusion