Download presentation
Presentation is loading. Please wait.
1
ベイズ基準による音声認識のための 事前分布推定法の検討 情報工学専攻 徳田・李研究室 橋本 佳
2
2 背景 音声認識技術の普及 カーナビゲーションシステム 携帯電話 ⇒ さらなる認識性能の改善が必要 隠れマルコフモデルによる音声のモデル化 性能改善のためにはモデルの高精度化が必要 モデルの詳細化による認識性能の向上 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定
3
3 目的 尤度最大化基準 少量の学習データで過学習 ベイズ基準 高い汎化性能 事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 ⇒ 学習データから事前分布を推定 適切な事前分布推定法の検討 共有構造を考慮した事前分布推定 クロスバリデーションに基づく事前分布設定
4
4 尤度が最大となるモデルパラメータ を推定 尤度最大化基準( ML 基準) 学習データ量が少量の場合に過学習の問題 学習データ量多量少量 データ 推定される モデル 予測分布 : 認識データ : 学習データ :
5
5 ベイズ基準 事前分布 : 事後分布 : 予測分布 : モデルパラメータ を確率分布で表現 学習データ 認識データ 全てのモデルパラメータを考慮 ⇒ 高い汎化性能 尤度関数
6
6 変分ベイズ法 [Attias; 99] ( 1/2 ) 隠れ変数 を含むモデルの事後分布 変分ベイズ法では近似事後分布を推定 :独立性を仮定 ⇒ 直接的な計算は困難 ⇒ 近似事後分布 ⇒ 事後分布推定には近似手法が必要
7
7 変分ベイズ法 [Attias; 99] ( 2/2 ) 対数周辺尤度の下限 を定義 変分法によって を最大化する事後分布を 導出
8
8 事前分布の設定 共役事前分布を設定 事前分布と事後分布が同じ分布族 解析的な事後分布推定が可能 事前情報による事前分布の設定 尤度関数共役事前分布 : ベクトル次元数 :事前情報の分散 :事前情報の平均 :事前情報のデータ量
9
9 コンテキスト依存モデル 音素の特徴は周囲の音素から変化 ⇒ 音素文脈(コンテキスト)を考慮してモデル化 t-a-is-a-ik-a-oa … ○ 詳細な特徴を表現可能 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能 決定木構造に基づくコンテキストクラスタリング
10
10 モデル構造を決定木によって表現 コンテキストに関する質問による分割 類似モデルのパラメータを共有 未知コンテキストに対応 コンテキストクラスタリング yes no 先行音素は母音? 適切なモデル構造を選択することが重要 決定木表現能力データ量 小低多 大高少
11
11 を最大化する決定木構造を選択 ベイズ基準のコンテキストクラスタリ ング yes no 質問の選択 : の増加量 : 分割停止条件 : ⇒ 増加量が最大となる分割 : 先行音素は母音? ベイズ基準における適切なモデル構造を選択
12
12 Cross Validation に基づくモデル評価 モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択 Cross Validation を用いた ML 基準 2,31,21,3 モデル評価 : 尤度の計算 モデルパラメータ 推定 学習データを K 個に分割
13
13 Cross Validation を用いたベイズ基準 Cross Validation を事前分布設定に利用 2,31,3 事前分布 設定 モデル評価 : の計算 学習データを K 個に分割 事後分布 推定 1,2
14
14 CV を用いたベイズ基準モデル構造選 択 を最大化する決定木構造を選択 yes no : 先行音素は母音? 汎化性能の高いモデル構造を選択 分割停止条件 : 各ノードで を計算 分割前後での増加量 が最大となる分割を行う
15
15 実験条件 データベース JNAS 学習データ 20,000 文 テストデータ 100 文 サンプリング周波数 16 kHz 窓関数 Hamming 窓 フレームサイズ / シフ ト 25 ms / 10 ms 特徴量 12 次元 MFCC + ΔMFCC + ΔEnergy (25 次元 )
16
16 実験内容 モデル構造と認識率に対する従来法との比較 テストデータに対する による汎化性能の評 価 学習基準モデル構造選択基準 MDL ML 基準 MDL 基準 CV-ML ML 基準 CV を用いた ML 基準 CV-Bayes ベイズ基準 CV を用いたベイズ基準 CV における学習データの分割数 ⇒ 10
17
17 従来法との比較 モデル構造と音素認識率 提案法は認識率が最大となるモデル構造に近づく ⇒ MDL から 8.48% の誤り改善率 8.48%
18
18 汎化性能の評価 テストデータに対する テストデータに対する が最大となるモデル構造を選択 ⇒ 汎化性能の高いモデル構造を選択
19
19 むすび ベイズ基準における事前分布推定法の検討 共有構造を考慮した事前分布推定 クロスバリデーションに基づく事前分布設定 従来法と比較して 8.48% の誤り改善率 汎化性能の高いモデル構造を選択 ⇒ 認識率が最高となるモデル構造とは異なる 今後の課題 識別的な基準を導入 階層的な事前分布構造の検討
20
20
21
21 背景 隠れマルコフモデルによる音声のモデル化 ⇒ 有限な学習データからモデルを学習 ⇒ 認識性能改善のためには高精度なモデルが必要 モデルの詳細化による認識性能の向上 ⇒ コンテキスト依存モデル等 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定
22
22 目的 モデル学習基準 尤度最大化基準 ⇒ 過学習の問題 ベイズ基準 ⇒ 高い汎化性能 ベイズ基準における事前分布推定法の検討 ベイズ基準における事前分布 事前情報をモデル学習に利用 事後分布推定・モデル構造選択に影響 ⇒ 適切な事前分布設定によるモデル推定精度の向 上
23
23 モデル構造と音素認識率( 2/2 ) モデル構造と音素認識率 (学習データ量 1,000 文)
24
24 汎化性能の評価 テストデータに対する
25
25 ベイズ基準 事前分布 : 事後分布 : 予測分布 : モデルパラメータ を確率分布で表現 学習データ 認識データ 全てのモデルパラメータを考慮 ⇒ 高い汎化性能 尤度関数
26
26 隠れマルコフモデル( HMM ) 時間によって変動する観測系列をモデル化 11112233 : : 観測系列 状態系列 1 23
27
27 コンテキスト依存モデル s a cl p a r i w a k a r a n a i 音響的特徴が異なる 例 : 「さっぱりわからない」 s-a-clp-a-rn-a-i コンテキストを考慮 ⇒ より詳細な音響モデル 問題点 各モデルの学習データ量が不 足 未知コンテキストは学習不可
28
28 十分量の学習データによるモデル学 習 未知コンテキストにも対応 コンテキストクラスタリング 決定木構造 コンテキストに関する質問による状態分割 類似状態間でパラメータ共有 yes no 先行音素は母音 ? g-a-h o-a-g 状態の集合
29
29 コンテキスト依存モデル 音素文脈(コンテキスト)を考慮したモデル t-a-is-a-ik-a-oa … ○ 学習データの表現力増加 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能 モデル構造の構築が必要
30
30 変分ベイズ法 [Attias; ’99] ( 1/2 ) 近似事後分布 を推定 ⇒ 対数周辺尤度の下限 を最大化 :任意関数:学習データ:状態系列:モデルパラメータ Jensen の不等式
31
31 変分ベイズ法のモデル学習 と を交互に更新 ⇒ を最大化 変分ベイズ法 [Attias; ’99] ( 2/2 ) 事後分布の独立性を仮定 変分法によって を最大化する事後分布を 導出
32
32 変分ベイズ法 [Attias; ’99] ( 1/2 ) 近似事後分布 を推定 ⇒ 対数周辺尤度の下限 を最大化 :任意関数:学習データ:状態系列:モデルパラメータ Jensen の不等式
33
33 変分ベイズ法のモデル学習 と を交互に更新 ⇒ を最大化 変分ベイズ法 [Attias; ’99] ( 2/2 ) 事後分布の独立性を仮定 変分法によって を最大化する事後分布を 導出
34
34 Cross Validation を用いた ML 基準 モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択 Cross Validation に基づくモデル評価 モデルパラメータ 推定 モデル評価 : 尤度の計算 2,31,21,3 学習データを K 個に分割
35
35 Cross Validation を用いたベイズ基準 事前分布 設定 事後分布 推定 学習データを K 個に分割 Cross Validation を事前分布設定に利用 モデル評価 : の計算 2,31,31,2
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.