分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1.

分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1

概要 Wikipedia で配布されているデータファイル日本語版で 6.5GB ほどの巨大な XML ファイル 1 個に全ページ内容が記述されている公式には SQL ダンプに変換して使用するオープンソースの分散処理プラットフォーム Hadoop による処理方法を紹介 2

何ができるか？例えば – ページ名やページの種別を出力する – 記事中に挙げられている参考文献を集める – テレビ番組の記事を抽出するなどプログラミング次第で色々できるしかし得手不得手はある 3

見出し Wikipedia の配布データ Hadoop とは Hadoop プログラム入門 Wikipedia データへの応用実例 Medawiki との比較ダウンロード 4

Wikipedia の配布データ 5

ダウンロードサイト http://download.wikimedia.org/jawiki/latest/ 6 jawiki-latest-interwiki.sql.gz jawiki-latest-pages-meta-current.xml.bz2

jawiki-latest-pages-meta-current.xml 全ページ内容が記述されている XML ファイル 6.5GB page 要素が Wikipedia1 ページ分の情報 7 ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n ページ要素 1,880,711 個

page 要素 8 Hadoop 1805248 34222653 2010-09-28T14:57:34Z Tire works 456732 バージョンを更新。記事本文 …… Hadoop 1805248 34222653 2010-09-28T14:57:34Z Tire works 456732 バージョンを更新。記事本文 …… title 要素ページタイトル id 要素ページ ID text 要素記事本文 Wiki 形式の生データ title 要素ページタイトル id 要素ページ ID text 要素記事本文 Wiki 形式の生データ

公式で紹介されている使い方 1.MediaWiki のインポート機能で取り込む 2. 変換ツールを使用して SQL ダンプに変換 – xml2sql, mwdumper Hadoop を利用した手法 – 簡単なプログラミングで分散処理が可能 9

Hadoop とは 10

Hadoop とは Apache で開発されている分散コンピューティングプラットフォーム Google の GFS(Google File System) と MapReduce の Java によるクローンもちろんオープンソース分散処理、分散ファイルシステムなど – Hadoop を活用するためのサブプロジェクト有 11 Hadoop マスコット

特徴スケーラビリティ Hadoop で使用するのは普通、一般的な性能のマシン 5 台分の処理能力が必要なら 5 台 100 台分の処理能力が必要なら 100 台というように必要に応じた規模のクラスタを構成できる Yahoo! や facebook 、楽天などでも利用 – 数千台のマシン、数 TB のデータ – Wikipedia の数 GB のデータは Hadoop の利用例からすれば小さいほう 12

Hadoop プログラム入門 13

MapReduce Hadoop で使用する分散処理のアルゴリズム map 処理と reduce 処理の 2 段階で key と value のデータ組を出力、集約する 14 mapreduce

MapReduce 元データがレコード単位に分割されて map に配布される map でデータを加工し key と value の組データを出力 reducer は key 毎にまとめられた value 群を受け取り、新たな key と value の組を出力 15 mapreduce

MapReduce の例学校のテスト結果 1 人分の結果を書いたカードがある手作業で組ごとの平均点を求めるには？ 16 1 組 20 番 75 点

組ごとの平均点を算出どうするか？ 17 1 組 5 番 80 点 1 組 20 番 75 点 3 組 12 番 90 点 3 組 3 番 35 点 1 組 4 番 20 点 2 組 7 番 20 点 3 組 15 番 90 点 2 組 10 番 75 点 2 組 31 番 50 点 1 組 25 番 80 点

組ごとの平均点を算出当然 1. 組ごとにカードを分ける 2. 組ごとに点数を足す 3. 平均点 = 合計点 / カードの枚数 18 1 組 5 番 80 点 1 組 20 番 75 点 1 組 4 番 20 点 1 組 25 番 80 点 2 組 7 番 20 点 2 組 10 番 75 点 2 組 31 番 50 点 3 組 12 番 90 点 3 組 3 番 35 点 3 組 15 番 90 点 255145 215 255/4=63.75145/3=48.33 215/3=71.66

MapReduce にあてはめる 1 人分のデータを map に配布 map は組を key, 点数を value にして出力 reduce は組ごとにグループ化されたデータ群を受け取れるので、平均点を算出 19 ・・・ 1 組 63.75 2 組 48.33 3 組 71.66 3 組 7 番 20 点 2 組 15 番 90 点 1 組 4 番 20 点 1 20, 80, 75,80 2 20, 75, 50 3 35, 90, 90 1 20 3 20 2 90

処理対象データ 20 3 44 63 1 32 89 2 33 74 1 21 36 3 1 99 ・ 2 42 84 3 44 63 1 32 89 2 33 74 1 21 36 3 1 99 ・ 2 42 84 組番号点数

MapReduce プログラム実装 map を行う Mapper クラスの定義 reduce を行う Reducer クラスの定義実行時の設定である Job オブジェクトの生成 21

Mapper クラスと Reducer クラス Hadoop 側で用意されている抽象クラス Mapper と Reducer をオーバーライドして定義する必要なのは 1 つのメソッドだけ – Mapper なら map メソッド – Reducer なら reduce メソッド – 先ほどの平均点プログラムの場合 …… 22

平均点算出 Mapper 23 public class ScoreAverageMapper extends Mapper { protected void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException { String[] columns = value.toString().split("\t"); int classN = Integer.parseInt(columns[0]); int score = Integer.parseInt(columns[2]); context.write(new IntWritable(classN), new IntWritable(score)); }; } public class ScoreAverageMapper extends Mapper { protected void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException { String[] columns = value.toString().split("\t"); int classN = Integer.parseInt(columns[0]); int score = Integer.parseInt(columns[2]); context.write(new IntWritable(classN), new IntWritable(score)); }; } 総称型で入出力データの型を定義 value が入力ファイル 1 行分 key が組 value が点数として出力

平均点算出 Reducer 24 public class ScoreAverageReducer extends Reducer { protected void reduce(IntWritable key, Iterable values, Context context)throws IOException,InterruptedException { int sum = 0; int students = 0; for (IntWritable score : values) { sum += score.get(); students++; } context.write(key, new DoubleWritable((double)sum / (double)students)); }; } public class ScoreAverageReducer extends Reducer { protected void reduce(IntWritable key, Iterable values, Context context)throws IOException,InterruptedException { int sum = 0; int students = 0; for (IntWritable score : values) { sum += score.get(); students++; } context.write(key, new DoubleWritable((double)sum / (double)students)); }; } key が組 key （組）と結びついている value （点数）が Iterable として取得できる key が組 value が平均点として出力

Job オブジェクトの生成 25 Job job = new Job(getConf()); job.setJarByClass(ScoreAverage.class); job.setMapperClass(ScoreAverageMapper.class); Mapper クラスの指定 job.setReducerClass(ScoreAverageReducer.class); Reducer クラスの指定 job.setMapOutputKeyClass(IntWritable.class); Mapper クラスの出力 key の型 job.setMapOutputValueClass(IntWritable.class); Mapper クラスの出力 value の型 job.setOutputKeyClass(IntWritable.class); Reducer クラスの出力 key の型 job.setOutputValueClass(DoubleWritable.class); Reducer クラスの出力 value の型 job.setInputFormatClass(TextInputFormat.class); Mapper へのデータの与え方 job.setOutputFormatClass(TextOutputFormat.class); 出力結果の形式 FileInputFormat.addInputPath(job, new Path(args[0])); 入力ファイルのパス FileOutputFormat.setOutputPath(job, new Path(args[1])); 出力ファイルのパス return job.waitForCompletion(true) ? 0 : 1; 設定内容で MapReduce を実行 Job job = new Job(getConf()); job.setJarByClass(ScoreAverage.class); job.setMapperClass(ScoreAverageMapper.class); Mapper クラスの指定 job.setReducerClass(ScoreAverageReducer.class); Reducer クラスの指定 job.setMapOutputKeyClass(IntWritable.class); Mapper クラスの出力 key の型 job.setMapOutputValueClass(IntWritable.class); Mapper クラスの出力 value の型 job.setOutputKeyClass(IntWritable.class); Reducer クラスの出力 key の型 job.setOutputValueClass(DoubleWritable.class); Reducer クラスの出力 value の型 job.setInputFormatClass(TextInputFormat.class); Mapper へのデータの与え方 job.setOutputFormatClass(TextOutputFormat.class); 出力結果の形式 FileInputFormat.addInputPath(job, new Path(args[0])); 入力ファイルのパス FileOutputFormat.setOutputPath(job, new Path(args[1])); 出力ファイルのパス return job.waitForCompletion(true) ? 0 : 1; 設定内容で MapReduce を実行

実際に動作させる Hadoop の 3 つのモード – スタンドアロン開発用 – 疑似分散動作確認用 – 分散環境実環境 26

Hadoop の利点 1 1 つの map, reduce タスクは、ほかのタスクの進捗状況を考慮する必要がないプログラミングが容易他人の書いた MapReduce を再利用可能 27 ・・・ 1 組 63.75 2 組 48.33 3 組 71.66 この map タスクからすれば、他の map がどういう状況であろうと、自分の作業には関係ない

Hadoop に向かないこと MapReduce の実行には小さくないオーバーヘッドが掛かるリアルタイムで結果を求めれるような処理には不向き – 例えば検索システム – × 検索の度に MapReduce でデータを解析 – ○ あらかじめインデックスなどの 2 次的なデータを MapReduce で生成しておく 28

Wikipedia データへの応用 29

Wikipedia データへの応用平均点の時と同様に、この MapReduce の枠組みに当てはめて考える 30 mapreduce jawiki-latest-pages- meta-current.xml

Wikipedia データへの応用 page 要素（ 1 ページ分のデータ）が Mapper に配布する単位としてちょうど良さそうである 31 ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n ページ要素 1,880,711 個

InputFormat の定義入力ファイルを Mapper に与える形に分割するクラス平均点プログラムでは TextInputFormat – 入力ファイルを 1 行ずつ切り出す – 継承して page 要素を切り出す InputFormat を定義 32 Input Format

WikipediaXmlInputFormat 実際には TextInputFormat の機能を利用して 1 行ずつ読みだし、 page 要素の始まりから終わりまでを Mapper へ渡す 33 ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n ヘッダー情報ページ内容 1 ページ内容 2 ページ内容 3 ・ページ内容 n 1 ページの分のデータを Mapper へ配布する

ページ名やページの種別を出力記事、カテゴリ、リダイレクトを抽出ページ名は title 要素から取得判断基準 – カテゴリページ名が ”Category:” で始まる – リダイレクト本文が #REDIRECT [[ 転送先 ]] という記述 – 記事それ以外 34

実行時間日本語版データファイル使用マシン – OS: CentOS 5 – CPU: Xeon 3060 2.40GHz – メモリ : 4GB – マスタ 1 台、スレーブ 3 台ページの種別を抽出のに 3 分程度 35

記事中に挙げられている参考文献を集める Wikipedia では情報の出典を記載するガイドラインがある – 残念ながらあまり守られていない …… – （特に日本語版では） ISBN コードを集める – 世界中を書籍を識別するためのコード – Wikipedia は書籍の出典に ISBN コードを記述するのは任意 36

記事中に挙げられている参考文献を集めるページが記事であれば、本文から ISBN コードを抽出 – 正規表現によるパターンマッチ – ISBN (*[\d-]+) – 10 桁の旧規格と、 13 桁の新規格が混在 – 新規格への変換手順があるので、新規格に統一して出力 37

参考文献英語版日本語版ドイツ語版フランス語版外部リンクがある 42%39%52%30% 参考文献のセクションがある 34%6%20%10% ISBN コードがある 6%5%14%3% 38 書籍と、 Web 上の資源で参照している割合が異なる

テレビ番組の記事を抽出する以下の基準でテレビ番組であるか判定する – カテゴリに ” ～番組 ” がある – テンプレートに ” 基礎情報 _ 番組 ” がある 39

MediaWiki との比較 40

MediaWiki との比較処理データ分散処理言語 Wiki 記法 Hadoop XML ファイル可能 Java 自前で解析 MediaWiki データベース不可能 PHP 標準の Parser 41 MediaWiki は単独のマシン上で PHP と RDB を使う Hadoop は複数のマシン上で Java を使う複雑な Wiki 文法を解析するのは困難

テンプレート与えた引数に応じて Parser が文字列を出力する仕組み {{Lang-en|United States of America}} – Lang-en というテンプレート – 引数は ” Lang-en|United States of America” Parser の出力は英語 : United States of America 42

なぜ Hadoop 上でテンプレートを解析しにくいか 1 記事のという記述を見ても、 Lang-en が呼び出されていることは分かっても、 Lang-en がどのようなテンプレートかは分からない 43 {{Lang-en|United States of America}} 43 ・・・ 1 組 63.75 2 組 48.33 3 組 71.66 Mapper は自分が与えらたデータのほかには参照できるデータがない

なぜ Hadoop 上でテンプレートを解析しにくいか 2 テンプレートは入れ子にできるリンクやタグを書ける 44

MediaWiki との使い分け 45 処理データ分散処理言語 Wiki 記法 Hadoop XML ファイル可能 Java 自前で解析 MediaWiki データベース不可能 PHP 標準の Parser 複雑な文法を解析する場合は、 MediaWiki を利用したほうが効率的 Java にも代替パーサがある http://code.google.com/p/gwtwiki/ ある程度の文法はサポートされているが、 Wikipedia で使われている多くの extension まではサポートしきれない

おわりに本日紹介したプログラムはソースコードと共に公開しています http://sourceforge.jp/projects/wik-ie/ ご清聴ありがとうございました 46

分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1.

Similar presentations

Presentation on theme: "分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1."— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

分散処理プラットフォーム Hadoop による Wikipedia データの 解析 森 竜也 （東京電機大学） 2010.11.7 1.

Similar presentations

Presentation on theme: "分散処理プラットフォーム Hadoop による Wikipedia データの 解析 森 竜也 （東京電機大学） 2010.11.7 1."— Presentation transcript:

Similar presentations

About project

Feedback

分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1.

Presentation on theme: "分散処理プラットフォーム Hadoop による Wikipedia データの解析森竜也（東京電機大学） 2010.11.7 1."— Presentation transcript: