クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング

クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング
◎橋本佳，全炳河，南角吉彦，李晃伸，徳田恵一（名工大）

はじめに変分ベイズ法に基づく音声認識（渡部ら; ’04） Cross Validationに基づく事前分布設定事前分布をモデル学習に利用
⇒ 事後分布推定・モデル構造選択に影響 ⇒ 共有構造を考慮した事前分布推定（橋本ら; ’07） ⇒ 過学習の問題 Cross Validationに基づく事前分布設定汎化性能の高いモデル構造を選択 Cross Validationを用いたML基準（篠崎; ’06） ⇒ ベイズ基準に拡張

全てのモデルパラメータを考慮 ⇒ 高い汎化性能
ベイズ基準モデルパラメータを確率分布で表現事前分布 : 学習データ事後分布 : 認識データ予測分布 : 全てのモデルパラメータを考慮 ⇒ 高い汎化性能

変分ベイズ法（1/2）隠れ変数を含むモデルの事後分布変分ベイズ法による近似事後分布推定（Attias; ’99）
隠れ変数を含むモデルの事後分布 ⇒ 直接的な計算は困難 ⇒ 事後分布推定には近似手法が必要変分ベイズ法による近似事後分布推定（Attias; ’99）：独立性を仮定 ⇒ 近似事後分布

変分ベイズ法（2/2）対数周辺尤度の下限を定義変分法によって　を最大化する事後分布を導出

ベイズ基準における適切なモデル構造を選択
ベイズ基準のコンテキストクラスタリングを最大化する決定木構造を選択 : 先行音素は母音？質問の選択 : yes no の増加量 : ⇒ 増加量が最大となる分割分割停止条件 : ベイズ基準における適切なモデル構造を選択

事前分布の設定共役事前分布を設定事前情報による事前分布の設定事前分布と事後分布が同じ分布族解析的な事後分布推定が可能尤度関数
：事前情報のデータ量 : ベクトル次元数：事前情報の平均：事前情報の分散

Cross Validationを用いたML基準
モデル推定・評価に用いるデータを分離学習データをK個に分割 2,3 1,3 1,2 モデルパラメータ推定モデル評価 : 尤度の計算汎化性能の高いモデルを推定

Cross Validationを用いたベイズ基準
学習データをK個に分割 2,3 1,2 1,3 事前分布設定事後分布推定モデル評価 : の計算

CVを用いたベイズ基準モデル構造選択を最大化する決定木構造を選択汎化性能の高いモデル構造を選択各ノードでを計算分割前後での増加量
: 先行音素は母音？ yes no 各ノードでを計算分割前後での増加量が最大となる分割を行う分割停止条件 : 汎化性能の高いモデル構造を選択

実験条件データベース JNAS 学習データ 1,000文 20,000文テストデータ 100 文サンプリング周波数 16 kHz
1,000文　20,000文テストデータ 100 文サンプリング周波数 16 kHz 窓関数 Hamming 窓フレームサイズ / シフト 25 ms / 10 ms 特徴量 12次元 MFCC + ΔMFCC 　　　 + ΔEnergy (25次元)

実験内容モデル構造と認識率に対する従来法との比較テストデータに対するによる汎化性能の評価学習基準モデル構造選択基準 MDL
テストデータに対するによる汎化性能の評価学習基準モデル構造選択基準 MDL ML基準 MDL基準 CV-ML CVを用いたML基準 CV-Bayes ベイズ基準 CVを用いたベイズ基準 CVにおける学習データの分割数 10

従来法との比較（1/2）モデル構造と音素認識率（学習データ1,000文）

提案法は認識率が最大となるモデル構造に近づく
従来法との比較（2/2）モデル構造と音素認識率（学習データ20,000文）提案法は認識率が最大となるモデル構造に近づく ⇒ MDLから8.48%の誤り改善率 8.48%

汎化性能の評価（1/2）テストデータに対する（学習データ1,000文）

テストデータに対するが最大となるモデル構造を選択
汎化性能の評価（2/2）テストデータに対する（学習データ20,000文）テストデータに対するが最大となるモデル構造を選択 ⇒ 汎化性能の高いモデル構造を選択

むすび CVを用いたベイズ基準によるモデル構造選択今後の課題 ⇒ 認識率が最高となるモデル構造とは異なる
クロスバリデーションに基づく事前分布設定従来法と比較して8.48%の誤り改善率汎化性能の高いモデル構造を選択 ⇒ 認識率が最高となるモデル構造とは異なる今後の課題識別的な基準を導入階層的な事前分布構造の検討

ベイズ基準にCross Validationを導入
はじめに変分ベイズ法に基づく音声認識（渡部ら; ’04）モデルパラメータを分布として表現事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 ⇒ 学習データから事前分布を推定（橋本ら; ’07） Cross Validationを用いたモデル評価 CVを用いたML基準によるモデル構造選択（篠崎； ’06） ⇒ 汎化性能の高いモデル構造を選択ベイズ基準にCross Validationを導入

決定木構造に基づくコンテキストクラスタリング
コンテキスト依存モデル音素の特徴は周囲の音素から変化 ⇒ 音素文脈（コンテキスト）を考慮してモデル化 a t-a-i s-a-i k-a-o … ○ 詳細な特徴を表現可能 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能決定木構造に基づくコンテキストクラスタリング

コンテキストクラスタリングモデル構造を決定木によって表現適切なモデル構造を選択することが重要コンテキストに関する質問による分割
類似モデルのパラメータを共有未知コンテキストに対応 yes no 先行音素は母音？決定木表現能力データ量小低多大高少適切なモデル構造を選択することが重要

尤度最大化基準（ML基準）尤度が最大となるモデルパラメータを推定学習データ : 予測分布 : 認識データ :
尤度が最大となるモデルパラメータを推定学習データ : 予測分布 : 認識データ : 学習データ量多量少量データ推定されるモデル学習データ量が少量の場合に過学習の問題

全てのモデルパラメータを考慮 ⇒ 高い汎化性能
ベイズ基準モデルパラメータを確率分布で表現尤度関数事前分布 : 学習データ事後分布 : 認識データ予測分布 : 全てのモデルパラメータを考慮 ⇒ 高い汎化性能

クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング

Similar presentations

Presentation on theme: "クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

クロスバリデーションを用いた ベイズ基準によるコンテキストクラスタリング

Similar presentations

Presentation on theme: "クロスバリデーションを用いた ベイズ基準によるコンテキストクラスタリング"— Presentation transcript:

Similar presentations

About project

Feedback

クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング

Presentation on theme: "クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング"— Presentation transcript: