2007/4/201 Extracting Parallel Texts from Massive Web Documents Chikayama Taura lab. M2 Dai Saito.

Slides:



Advertisements
Similar presentations
OWASP Japan 2 nd local chapter meeting Short talk of XSS Jun Yosuke HASEGAWA 短いXSSの話.
Advertisements

あどべんちゃーにほんご L. 2か にほんごのきょうしつ /Japanese Classroom General goals of the lessons: You will be able to communicate the information below in the given situations.
Is Charlie Brown a Loser? Do you think you know your real character? Do you actually know, for example, the good and bad points about yourself? It is.
Automatic Image Collection of Objects with Similar Function by Learning Human Grasping Forms Shinya Morioka, Tadashi Matsuo, Yasuhiro Hiramoto, Nobutaka.
A Survey on Text Categorization with Machine Learning Chikayama lab. Dai Saito.
SPSSによるHosmer-Lemeshow検定について
9.線形写像.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
5.連立一次方程式.
相関.
論理回路 第2回 今日の内容 前回の課題の説明 数の体系 – 数の表現 – 代表的な数 – 基数の変換 – 補数.
1章 行列と行列式.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
複素数.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
三角関数の合成.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
JPN 312 (Fall 2007): Conversation and Composition Contraction (2); 意見を言う (to express your opinion)
SUPJ2010 Japanese Ⅱ( A ) Elementary Japanes e ‐ in twenty hours- Chapter 7.
JPN 311: Conversation and Composition 勧誘 (invitation)
JPN 311: Conversation and Composition 伝言 (relaying a message)
JPN 311: Conversation and Composition 許可 (permission)
地図に親しむ 「しゅくしゃくのちがう 地図を 使ってきょりを調べよ う1」 小学4年 社会. 山口駅裁判所 県立 美術館 サビエル 記念聖堂 山口市役所 地図で探そう 市民会館 県立 図書館.
方程式を「算木」で 解いてみよう! 愛媛大学 教育学部 平田 浩一.
C言語応用 構造体.
JPN 312 (Fall 2007): Conversation and Composition 文句 ( もんく ) を言う.
プログラミングⅠ( 2 組) 第 1 回 / pLB1.pptx.
SUPJ2010 Japanese Ⅱ( A ) Elementary Japanes e ‐ in twenty hours- Review of Japanese Ⅰ (B)
ことばとコンピュータ 2007 年度 1 学期 第 1 回. 2 ことばとコンピュータ 授業科目名:言語情報処理論 授業題目名:ことばとコンピュータ 履修コード: 5067 教室: 323 一学期開講 授業の進め方 – 基本的に講義中心ですすめ,時々コンピュー タを使う.
携帯電話でのコミュニ ケーションについて 1班真田 出水 佐伯 堺. 仮説  女性のほうが携帯電話を使ったコミュニ ケーションを重要視する。
NO!END!NO!CLEAR ! J チーム 渡邊光児 小山内彩子 下山直城. 役割 渡邊光児 ゲームオーバー画面の作成、ライフの絵作成 小山内彩子 ゲーム内のプログラム、主人公と敵と背景作 成 下山直城 タイトル画面の作成.
Exercise IV-A p.164. What did they say? 何と言ってましたか。 1.I’m busy this month. 2.I’m busy next month, too. 3.I’m going shopping tomorrow. 4.I live in Kyoto.
HCC Hair Color Change. メンバー ソ 渋谷麻美 ソ 渋谷麻美 ソ 清野理衣子 ソ 清野理衣子 ソ 三上貴大 ソ 三上貴大.
親子のための 児童用. 2 まずは、 100までの数字の中から 「好きな数字」 を 1つ決めてください。 近くの人と 「4人グループ」を 作ってください。
本文. 考えながら読みましょ う 「いろいろなこと」( 3 行目)は何で すか 「①電話料金はコンビニで支払いをしていま す。いつでも払えますから、便利です。」 「②夕食はコンビニで買います。お弁当やお かずがいろいろありますから。」今、若者に 人気のあるコンビニは、いろいろなことをす るのに非常に便利な場所になった。
Tomaž Erjavec 1, Adam Kilgarriff 2, Irena Srdanović Erjavec 3 1 Jožef Stefan Institute, Slovenia 2 Lexical Computing Ltd. and University of Leeds, UK 3.
The “S” Line. Revision あ い う え お か く け.
B 02 Writing in Japanese: The 3 Character Sets How do you write in Japanese?
Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure Mamoru Komachi, Yuji Matsumoto Nara Institute of Science and.
Japanese Dependency Analysis using Cascaded Chunking Taku Kudo 工藤 拓 Yuji Matsumoto 松本 裕治 Nara Institute Science and Technology, JAPAN.
日本語一 1月 7 日 New Year’s Greetings : E b0.
たくさんの人がいっしょに乗れる乗り物を 「公共交通」といいます バスや電車 と 自動車 の よいところ と よくない ところ よいところ と よくない ところ を考えてみよう!
2006/12/081 Large Scale Crawling the Web for Parallel Texts Chikayama Taura lab. M1 Dai Saito.
日本語きほん文法の復習 Basic Japanese Grammar Review
The Climate as the Major Determinant Shaping Japanese National Character : True or False? B11567 Saki Yokomuro.
HES HKS meeting 13 Dec 2010 T.Gogami. Contents Event display for HKS – HKSdetectors – KDC – KDC1 – KDC2 – KDC_2d.
日本語1 2月12日 愛 あい. みっきーは みにーを あいしてい ます。 ほーまーは まーじを あいしてい ます。
B 04 How to Type in Japanese How do you TYPE in Japanese?
い 日本の どこに 行きたい です か。 Where do you want to go in Japan?
英語勉強会(坂田英語) B4 詫間 風人. A Corrected English Composition Sharing System Classification Display and Interface for Searching A corrected English composition.
Can. Who is 漢字博士? Can you read this? 椛 I can read this. You can read this.
Assignments: -Writing practice prompt due THUR. -Quiz signed.
Jeopardy KatakanaAdverbsParticles Q $100 Q $200 Q $300 Q $400 Q $500 Q $100 Q $200 Q $300 Q $400 Q $500 Final Jeopardy Vocabular y Translations.
へいせい 二十六ねん 四がつ なのか ・げつようび Bellwork: Guess the English based on the picture clues provided. Assignments: -wkbk p. 43, 45 1 .ボールさんは せいが とても たかいです。 2 .ボーグズさんは.
音読用 ICT 教材 サンプル フラッシュ型 文字が消える 文字が現れる 文字の色が変わる 職場体験では.
平成 二十六年 三月十日 ・月曜日 Bellwork: 期待! (expectations) 日本語の教室で 何をしてもいい ですか。 何をしてはいけませんか。 Assignments: -complete sentences packet p. 4 -List 2 things each you 1)
かぞく 家族. Today… Review family members vocabulary and kanji characters Enhance knowledge and understanding of connecting adjectives Answer questions in.
Noun Modification Describing nouns. りん ご red fresh yummy あかい あたらし い おいしい big 大き い.
英語勉強会 (橋本さんの) 10月9日 坂田梨紗. 英語の文章の 成り立ち 言いたいこと 説明 言いたいこと I went to the library to read Harry Potter.
RELATIVE CLAUSES Adjectival Clauses/Modifiers. RELATIVE CLAUSES A relative clause is the part of a sentence which describes a noun Eg. The cake (which)
Japanese-Chinese Phrase Alignment Exploiting Shared Chinese Characters Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi Graduate School of Informatics,
ようこそ日本・日本語のクラ スへ Welcome to Japanese Class! Transition Year 2011.
Japanese I: Integrated Activities
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Ask Have ~ ? / How long ~ ? Answer these questions
Presentation transcript:

2007/4/201 Extracting Parallel Texts from Massive Web Documents Chikayama Taura lab. M2 Dai Saito

2007/4/202 Purpose Parallel corpus : a set of parallel texts Parallel texts : translated pairs of texts Construct Parallel Corpora from the Web One thing was certain, that the WHITE kitten had had nothing to do with it. 一つ確実なのは、 白い子ネコはなんの関係も なかったということ。 --it was the black kitten's fault entirely. ―― もうなにもかも、 黒い子ネコのせいだったのです。 English 日本語

2007/4/203 Parallel Texts Useful resource for Statistical machine translation Dictionary construction But… existing corpora are not enough Genre Public Documents Software Manuals Language Limited English-French Amount Small Large human resource

2007/4/204 Parallel Texts from the Web Extracting Parallel Texts from Massive Web Documents  Very large amount of texts  Varied languages  Small human resource

2007/4/205 Problems How to detect parallel texts automatically How to reduce calculation cost Web To construct parallel corpus 1.Extract candidate pairs 2.Judge whether they really are parallel texts

2007/4/206 Agenda Introduction Related work Proposal Detect parallel texts Extract candidate pairs Experiment Conclusion

2007/4/207 STRAND [Resnik et. al. 03] URL Matching 1.Remove language-specific substrings[LSSs] (Japanese : ja, jp, jpn, euc, sjis,…) 2.Match LSSs-removed URLs 3.Make a detail comparison

2007/4/208 DOM Tree Alignment [Lei et. al. 06] HTML→DOM Tree Searching linked pages “alt” tag link name Parallel link: a pair of the same hyperlinks in parallel texts link “ English version ” “ In English ” etc …

2007/4/209 Agenda Introduction Related work Proposal Detect parallel texts Extract candidate pairs Experiment Conclusion

2007/4/2010 Outline Web Detect parallel texts Extract candidate pairs … … … … Crawler

2007/4/2011 Detecting parallel texts Low comparison cost without HTML Information 1.word (noun) 2.semantic ID 3.comparison [Fukushima et.al. 06]

2007/4/2012 Semantic ID Conversion Constructing a graph from dictionaries Treating Japanese and English texts in the same level # of Semantic IDs: about 10,000 Sense 感覚 意味 Movie Film 映画 Hobby Taste 趣味 味 1 2 3

2007/4/2013 Texts to Vector テキスト 955 … 辞書 1704 … 数列 3173 辞書を使ってテキストを数列に変える。 (955, 1704, 3173) sort +position information

2007/4/2014 Comparison tscore (translation score) T1:(106, 335, 455, 567, 1704, 3173, 7421) T2:(335, 567, 567, 1704, 4014, 5449, 7421) score=012 3 tscore = 4/(7+7) 4

2007/4/2015 tscore threshold Fry Corpus[05 Fry] 400 pair F-measure Speed 200,000 pairs/sec tscore threshold 0.102

2007/4/2016 Agenda Introduction Related work Proposal Detect parallel texts Extract candidate pairs Experiment Conclusion

2007/4/2017 Extract candidate pairs Calculation cost of each comparison Calculation cost of extracting parallel texts A number of comparison: n^2 URL matching is too strict Japanese and English 90,000,000URL → 4,000 URL pairs → 1,000 real pairs

2007/4/2018 Calculation Cost Reduction →Reducing the number of comparison distance score : tscore Compare only texts close to each other Distance of each parallel texts and a sample text should be equal English 日本語 Sample

2007/4/2019 Calculation Cost Reduction Flow 1.Select sample texts (<<n) 2.Calculate distance score with sample texts 3.Classify top m score 4.Compare only for texts in the same group

2007/4/2020 Number of sample Calculation cost Accuracy (low risk of miss labeling) Methods to select sample Random k-means Sampling

2007/4/2021 k-means 1.Select k samples 2.Classify all texts 3.Calculate centers 4.Re-classify k=2

2007/4/2022 Calculation of tscore in k-means Text1:(106, 335, 455, 567, 1704, 3173, 7421) Text2:(335, 567, 567, 1704, 4014, 5449, 7421) Text1:(106, 335, 455, 567, 1704, 3173, 7421) Average1:((567, 0.2), (4014, 0.14), (7421, 0.5), …) tscore = 4/(7+7) tscore = ( ) normal k-means

2007/4/2023 Converting HTML on the Web Guess language English, SJIS, EUC-JP, UTF-8 Convert character code Remove HTML Tag Morphological Analysis→pickup noun

2007/4/2024 Agenda Introduction Related work Proposal Detect parallel texts Extract candidate pairs Experiment Conclusion

2007/4/2025 Experiment Calculation Cost Accuracy v.s. Calculation time Clustering k-means

2007/4/2026 Environment Dataset : Fry Corpus [Fry 05] Corpus of Japanese-English news pages Convert HTML to Semantic ID in advance Machine CPU : Xeon 2.4GHz Dual Memory : 2GB OS : Linux (Debian)

2007/4/2027 Calculation Cost Fry Corpus pairs Normal All-to-All Random sampling (Top3) # of texts grows, gap becomes wider Low cost with n^2 samples

2007/4/2028 Accuracy v.s. Calculation time Fry Corpus 400 pairs Random sampling # of sample grows, Miss classification ratio → high Execution time → low Trade off with Miss classification ratio and Execution time

2007/4/2029 Sample selection with k-means Accuracy and Execution time with k-means Flow  Random sampling number of samples : √n 2.Calculating the center and re-sampling 3.Measuring Miss-classification ratio and Execution time

2007/4/2030 Evaluation of k-means Low miss-classification ratio →High biased miss classification calculation time [sec] 200random k-means random k-means71.18

2007/4/2031 Agenda Introduction Related work Proposal Detect parallel texts Extract candidate pairs Experiment Conclusion

2007/4/2032 Conclusion and Future work Parallel texts from the Web Detecting parallel texts Extracting candidate pairs Random sampling k-means

2007/4/2033 Future work Better clustering methods Hierarchical Dimension reduction About 10,000 dimension is too high Processing real HTML texts from the Web

2007/4/2034 Thank you for your attention!