Presentation is loading. Please wait.

Presentation is loading. Please wait.

Webコーパスを活用した レベル別例文検索システムの開発と評価

Similar presentations


Presentation on theme: "Webコーパスを活用した レベル別例文検索システムの開発と評価"— Presentation transcript:

1 Webコーパスを活用した レベル別例文検索システムの開発と評価
川村よし子    クリスティナ・ヒメリャク・寒川 東京国際大学   ルブリャナ大学(スロヴェニア) 共同研究者:トマジュ・エリャヴェッツ          ヨセフ・ステファン研究所

2 Webコーパスを活用した レベル別例文検索システムの開発と評価
はじめに 1.Webコーパスを活用した    レベル別例文検索システムの開発 2.レベル別例文検索システムの仕組み 3.レベル別例文検索システムの評価

3 はじめに 言語教育において、学習者のレベルにあった例文の提示は不可欠である。 例文はできるだけ自然な日本語で書かれていることが望ましい 。
従来の辞書  『外国人のための基本語用例辞典』  『基礎日本語学習辞典』  『例解新国語辞典』   作例が多く、品詞分類への配慮も十分ではない

4 チュウ太の日本語辞書多言語化プロジェクト
 1)異なった文化圏の学習者への配慮  2)品詞分類の異なる言語への配慮  3)用法についての言及  4)接尾辞的用法への配慮  5)collocation・連語・慣用句等への言及  6)概念ごとに例文を提示 ⇒学習者のレベルにあった「自然な日本語の例文」を意味概念ごとに作成するのは容易ではない ⇒web上の電子情報を活用したレベル別例文検索システムを開発 する

5 1.Webコーパスを活用した レベル別例文検索システムの開発
5万の日本語のウェブページから構築した4億語のコーパス「JpWaC」 形態素解析システムChaSenでコーパスの解析    ⇒ 1億語の学習者用コーパスを作成 各例文への情報付与  ・コーパス中の各単語に、「出題基準」)をもとにした   4級(Level 4)~1級(Level 1)のレベル付け  ・級外のものはLevel 0  ・各文に単語数、レベル別単語数、比率の情報付与

6 1.Webコーパスを活用した レベル別例文検索システムの開発
日本語学習者用例文 の抽出   1)一文の長さが5語以上25語以下のこと   2)20%以上の記号や数字を含まないこと   3)日本語以外の表記を含まないこと   4)句点(。)で終わっていること   5)少なくとも一つの動詞、形容詞、形容動詞、     あるいは助動詞を含むこと ⇒ 学習者用例文コーパス(「JpWac-L2」)   859,416文(単語総数13,395,667語)

7 1.Webコーパスを活用した レベル別例文検索システムの開発
レベル別コーパス作成  1)各レベルの例文には当該レベルより上の語句を含まないこと  2)各レベルの例文には当該レベルの語を10%以上含むこと ⇒ Level 0 から Level 4 までの5段階の   レベル別例文コーパス

8 レベル別コーパスに含まれる 例文数 レベル別コーパス 例文数 JpWac-L2に占める割合(%) Level 0 351,935 40.95
34,777 4.05 Level 2 96,161 11.19 Level 3 26,894 3.13 Level 4 9,830 1.14 519,597 60.45

9 2.レベル別例文検索システムの仕組み 入力された語句を含む例文を自動で検索する キーワード検索システム インターネット上で利用可能
  キーワード検索システム インターネット上で利用可能             ( 検索方法や表示形式に関して細かく設定可能 例文コーパス全体からの例文検索                           選択可能   レベル別コーパスからの例文検索

10 Basic Proficiency Subcorpus (Level 3)

11

12

13

14

15

16

17

18

19 慣れる

20

21

22

23

24

25 3.レベル別例文検索システムの評価 1)十分な量の例文が提供できているか 2)文として整っているか 3)意味が通じるか 4)例文として適切か
5)レベルにあっているか

26 1)十分な量の例文が提供できているか 各調査語に対するレベルごとの例文数

27 )十分な量の例文が提供できているか

28 2)文として整っているか 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと」
例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、        あるいは助動詞を含むこと」    ⇒ 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ⇒ 文のみを抽出

29

30 2)文として整っているか 単語の「切り出し」の誤り 例: 割りに / 割に / わりに
 例: 割りに / 割に / わりに  自分を必要以上に良く見せようとしないかわりに、お世辞やおべっかを使うのが苦手です。 単漢字の場合

31

32 対応:2)文として整っているか きちんとした文になっているか 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、
 例文抽出条件 5) ◎ 「少なくとも一つの動詞、形容詞、形容動詞、        あるいは助動詞を含むこと」    ⇒ 体言止めの文を含む ○ 「動詞、形容詞、形容動詞、或いは助動詞 で終わっていること」 ⇒ 文のみを抽出

33 対応:2)文として整っているか 例文として適格か 問題点 1 単語の切り出しの誤り 例:自分を必要以上に良く見せようとしないかわりに、
 問題点 1 単語の切り出しの誤り   例:自分を必要以上に良く見せようとしないかわりに、      お世辞やおべっかを使うのが苦手です。 ☆ ChaSen辞書情報の変更によって修正は可能  問題点 2 同じ表記で読みが複数ある単語   例:表 [おもて・ひょう]  入れる [はいれる・いれる]   ☆ 形態素解析のみでの区別は不可能

34 3)意味が通じるか そう政治力である。 寂しいやつだの。

35 4)例文として適切か 誤字脱字のある文 ・しかし扉の前の男はその唾またって、ドアをふさいでいる。 (ミスタイプの可能性)
 ・しかし扉の前の男はその唾またって、ドアをふさいでいる。                 (ミスタイプの可能性)  ・人の話聞く注意力がない。        (助詞の脱落)  ・このように、この国の高層階は解釈している。    (母語干渉?による誤り)

36 対応:4)例文として適切か 誤字脱字のある文 言語教育には適さない文章    反社会的な文章  ⇒ 例文の修正・削除の方法を要検討            ただし。。。

37

38

39 5)レベルにあっているか 単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 例外:再来年 (全体で18文のみ)
   例外:再来年 (全体で18文のみ)     Level 0 3文 Level 2 1文 Level 3 1文 Level 4 でも有用な例文を提示可能  ・人の話は右耳で聞け。  ・一日3回、歯を磨く人にも悪い人はいない。

40 人の話は右耳で聞け。

41 5)レベルにあっているか 単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 例外:再来年 (全体で18文のみ)
   例外:再来年 (全体で18文のみ)     Level 0 3文 Level 2 1文 Level 3 1文 Level 4 でも有用な例文を提示可能  ・人の話は右耳で聞け。  ・一日3回、歯を磨く人にも悪い人はいない。

42 一日3回、歯を磨く人にも悪い人はいない。

43 5)レベルにあっているか 単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能
文法・構文からみると、レベルにあっているとはいえないものも含まれている。 例:  「全部」(Level 4コーパスの例文)   ・まだ全部読んでませんが。(「い」の省略、「が」の後が略)  「全部」 (Level 3コーパスの例文)   ・「全部できなくたって構わない。」(3級)問題: 「なくたって」  「出来る」( (Level 4コーパスの例文) )   ・出来る人は、そういないでしょうね。(「出来る」の意味)

44 今後の課題 レベル別コーパスの例文すべてが、当該レベルの学習者に適した例文かどうかに関してはより詳しい調査、特に学習者を対象にした調査を行う必要がある。 評価実験の結果、明らかになった問題点に関しては、適宜、改良していく。 例文検索システムを『リーディング・チュウ太』に組み入れることを検討中である。

45 参考文献 金庭久美子・川村よし子(2008)「多言語版日本語辞書における用例作成の諸問題」『日本語教育方法研究会誌』vol.15, No.1,14-15. 川村よし子(2006)「多言語版日本語辞書編集システムの開発と運用実験」『ヨーロッパ日本語教育』vol.10, 川村よし子・金庭久美子(2006)「国際共同編集による日本語学習者のための多言語版web辞書の開発」『日本語教育学会春季大会予稿集』61-66. 松本裕治/北内啓/山下達雄/平野善隆/松田寛/高岡一馬/浅原 正幸, 形態素解析システム『茶筌』 version 使用説明書, 2000, from Srdanović, I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and Word Sketches for Japanese. Journal of Natural Language Processing, 15/2,


Download ppt "Webコーパスを活用した レベル別例文検索システムの開発と評価"

Similar presentations


Ads by Google