ベイズ基準による音声認識のための事前分布推定法の検討情報工学専攻徳田・李研究室橋本佳. 2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要.

Slides:

Advertisements

Similar presentations

3D Wand による 3 次元形状計測. ３次元形状計測装置  ３ＤＷａｎｄ（テクノドリーム 21 社製）  構成３ＤＷａｎｄ本体： 7 つの発光ダイオードとラインレーザー発光装置が一体となった手に持って移動できる電池駆動の装置.

Advertisements

SPSSによるHosmer-Lemeshow検定について

東京工科大学コンピュータサイエンス亀田弘之

７．n次の行列式　　一般的な（n次の）行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。

９．線形写像.

時間的に変化する信号. 普通の正弦波は豊富な情報を含んでいませんこれだけではラジオのような複雑な情報を送れない振幅 a あるいは角速度 ω を時間的に変化させて情報を送る.

情報処理A 第１０回 Excelの使い方　その３.

九州大学岡村研究室久保貴哉 1. 利用中のＡＰの数の推移 2 横軸：時刻縦軸：接続要求数・深夜では一分間で平均一台、昼間では平均１４台程度の接続要求をＡＰが受けている。・急にＡＰの利用者数が増えてくるのは７～８時あたり.

麻雀ゲーム和島研究室ソ小林巧人

５．連立一次方程式.

―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習

ノイズ. 雑音とも呼ばれる。（音でなくても、雑音という）入力データに含まれる、本来ほしくない成分.

人工知能特論 II 第 6 回二宮崇 1. 今日の講義の予定確率的文法品詞解析 HMM 構文解析 PCFG 教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS.

青森大学 5 号館の模型の設計と製作ソ小山内拓真

広告付き価格サービス小園一正. はじめに世の中には様々な表現方法の広告があります。その中でも私たち学生にとって身近にあるものを広告媒体として取り入れられている。価格サービス（無料配布のルーズリーフ）を体験したことにより興味を惹かれるきっかけとなった。主な目的は、これ.

素数判定法 2011/6/20.

フーリエ係数の性質. どこまで足す？理想的には無限大であるが、実際にはそれは出来ないこれをフーリエ解析してみる.

地球温暖化と天候の関係性～温暖化は天候のせいなのではないのか～. 目的課題地球温暖化現象ただの気象条件によるものではないのか？地球温暖化現象に天候は関係しているのか？

公開鍵暗号系 2011/05/09.

１章　行列と行列式.

本宮市立白岩小学校. １はじめに２家庭学習プログラム開発の視点 ① 先行学習（予習）を生かした確かな学力を形成する授業づくり ② 家庭との連携を図った家庭学習の習慣化.

カメラ撮影文字の事例に基づく実時間認識岩村雅一　辻智彦　黄瀬浩一.

フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数という比率：

3.エントロピーの性質と各種情報量.

９．通信路符号化手法１（誤り検出と誤り訂正の原理）

人工知能特論II　第10回二宮　崇.

Excelによる積分.

1 ６．低次の行列式とその応用. 2 行列式とは行列式とは、正方行列の特徴を表す一つのスカラーである。すなわち、行列式は正方行列からスカラーに写す写像の一種とみなすこともできる。正方行列スカラー（実数）の行列に対する行列式を、次の行列式という。行列の行列式をとも表す。行列式と行列の記号.

計算のスピードアップコンピュータでも、sin、cosの計算は大変です足し算、引き算、掛け算、割り算は早いです

線形符号（１０章）.

1 ０章数学基礎. 2 ( 定義）集合集合については、３セメスタ開講の「離散数学」で詳しく扱う。集合大学では、高校より厳密に議論を行う。そのために、議論の対象を明確にする必要がある。ある “ もの ” （基本的な対象、概念）の集まりを、集合という。集合に含まれる “ もの ” を、集合の要素または元という。

10．PとNP完全問題との境界.

NTTに基づく応用モデルの検討 -一対比較モデルと多次元モデルを中心に-

４．プッシュダウンオートマトンと文脈自由文法の等価性

1 ０章数学基礎. 2 ( 定義）集合集合については、３セメスタ開講の「離散数学」で詳しく扱う。集合大学では、高校より厳密に議論を行う。そのために、議論の対象を明確にする必要がある。ある “ もの ” （基本的な対象、概念）の集まりを、集合という。集合に含まれる “ もの ” を、集合の要素または元という。

人工知能特論II　第7回二宮　崇.

信号測定. 正弦波多くの場合正弦波は 0V の上下で振動するしかし、これでは AD 変換器に入れられないので、オフセットを調整してデータを取った.

1 ９．線形写像. 2 ここでは、行列の積によって、写像を定義できることをみていく。また、行列の積によって定義される写像の性質を調べていく。

通信路（７章）.

アルゴリズムとデータ構造補足資料 7-4 「単純交換ソート exsort.c 」横浜国立大学理工学部数物・電子情報系学科富井尚志.

３．プッシュダウンオートマトンと文脈自由文法

6.符号化法（６章）.

3．正方行列（単位行列、逆行列、対称行列、交代行列）

様々な情報源（４章）.

名古屋工業大学電気電子工学科岩波・岡本研究室野々村嘉人

論理回路第１回. 今日の内容論理回路とは？本講義の位置づけ，達成目標講義スケジュールと内容受講時の注意事項成績の評価方法.

Bar-TOP における光の群速度伝播の解析名古屋大学高エネルギー物理研究室松石武 (Matsuishi Takeru)

クロスバリデーションを用いたベイズ基準によるコンテキストクラスタリング

経済分析の基本ツール公共経済学第 2 回畑農鋭矢 1. 労働時間（意思決定の対象） O 収入費用労働時間の意思決定何時間働くのが最適か？

Analog “ neuronal ” networks in early vision Koch and Yuille et al. Proc Academic National Sciences 1986.

Ｃ言語応用構造体.

目次 8.2 条件付き独立性つのグラフの例有向分離 (d分離).

Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学.

Logo 伊勢湾の水質変化による生態系の変化について C09001 石田拓也 C09002 岩田亮 C09012 小松慎紘 C09021 吹ケ竜也 C09025 百瀬亘.

移動エージェントプログラムの動作表示のためのアニメーション言語名古屋大学情報工学コース坂部研究室高岸健.

物体識別のための Adaboost を用いた入力特徴の評価物体識別のための Adaboost を用いた入力特徴の評価情報工学科藤吉研究室 EP02132 土屋成光.

８．任意のデータ構造（グラフの表現とアルゴリズム）

メニューに戻るメニューに戻る | 前表示スライド前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちらダウンロード後，実行してインストール.

第１４回プログラムの意味論と検証（３）不動点意味論担当：犬塚

実験５規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○

外部性公共経済学（財政学Ａ）第4回畑農鋭矢.

Kitenet の解析 (110118) 九州大学工学部電気情報工学科岡村研究室久保貴哉.

小島肇  Windows ではアンチウイルスソフトウェアは必須だが、「入れれば安心」というものではない  Mac, Linux における費用対効果はかなり低い  現時点ではマルウェアは流行っていないから  Windows を併用している場合は別.

音の変化を視覚化するサウンドプレイヤーの作成

Self-efficacy（自己効力感）について

IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.

Bootstrapping 2014/4/13 R basic 3 Ryusuke Murakami.

腎臓移植腎臓移植の前に、ドナー両方の腎臓は機能的に良好でなければならない。ドナーの両方の腎臓が機能的に健康であることを保証するために、多数の試験が行われている。

地球儀と様々な地図. 1 球体としての地球こうした現象はあることをイメージすると理解できる。

Presentation transcript:

ベイズ基準による音声認識のための事前分布推定法の検討情報工学専攻徳田・李研究室橋本佳

2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要  モデルの詳細化による認識性能の向上 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定

3 目的  尤度最大化基準  少量の学習データで過学習  ベイズ基準  高い汎化性能  事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 ⇒ 学習データから事前分布を推定  適切な事前分布推定法の検討  共有構造を考慮した事前分布推定  クロスバリデーションに基づく事前分布設定

4 尤度が最大となるモデルパラメータを推定尤度最大化基準（ ML 基準）学習データ量が少量の場合に過学習の問題学習データ量多量少量データ推定されるモデル予測分布 : 認識データ : 学習データ :

5 ベイズ基準事前分布 : 事後分布 : 予測分布 : モデルパラメータを確率分布で表現学習データ認識データ全てのモデルパラメータを考慮 ⇒ 高い汎化性能尤度関数

6 変分ベイズ法 [Attias; 99] （ 1/2 ）  隠れ変数を含むモデルの事後分布  変分ベイズ法では近似事後分布を推定：独立性を仮定 ⇒ 直接的な計算は困難 ⇒ 近似事後分布 ⇒ 事後分布推定には近似手法が必要

7 変分ベイズ法 [Attias; 99] （ 2/2 ）  対数周辺尤度の下限を定義  変分法によってを最大化する事後分布を導出

8 事前分布の設定  共役事前分布を設定  事前分布と事後分布が同じ分布族  解析的な事後分布推定が可能  事前情報による事前分布の設定尤度関数共役事前分布 : ベクトル次元数：事前情報の分散：事前情報の平均：事前情報のデータ量

9 コンテキスト依存モデル音素の特徴は周囲の音素から変化 ⇒ 音素文脈（コンテキスト）を考慮してモデル化 t-a-is-a-ik-a-oa … ○ 詳細な特徴を表現可能 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能決定木構造に基づくコンテキストクラスタリング

10 モデル構造を決定木によって表現  コンテキストに関する質問による分割  類似モデルのパラメータを共有  未知コンテキストに対応コンテキストクラスタリング yes no 先行音素は母音？適切なモデル構造を選択することが重要決定木表現能力データ量小低多大高少

11 を最大化する決定木構造を選択ベイズ基準のコンテキストクラスタリング yes no 質問の選択 : の増加量 : 分割停止条件 : ⇒ 増加量が最大となる分割 : 先行音素は母音？ベイズ基準における適切なモデル構造を選択

12 Cross Validation に基づくモデル評価  モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択  Cross Validation を用いた ML 基準 2,31,21,3 モデル評価 : 尤度の計算モデルパラメータ推定学習データを K 個に分割

13 Cross Validation を用いたベイズ基準 Cross Validation を事前分布設定に利用 2,31,3 事前分布設定モデル評価 : の計算学習データを K 個に分割事後分布推定 1,2

14 CV を用いたベイズ基準モデル構造選択を最大化する決定木構造を選択 yes no : 先行音素は母音？汎化性能の高いモデル構造を選択分割停止条件 : 各ノードでを計算分割前後での増加量が最大となる分割を行う

15 実験条件データベース JNAS 学習データ 20,000 文テストデータ 100 文サンプリング周波数 16 kHz 窓関数 Hamming 窓フレームサイズ / シフト 25 ms / 10 ms 特徴量 12 次元 MFCC + ΔMFCC + ΔEnergy (25 次元 )

16 実験内容  モデル構造と認識率に対する従来法との比較  テストデータに対するによる汎化性能の評価学習基準モデル構造選択基準 MDL ML 基準 MDL 基準 CV-ML ML 基準 CV を用いた ML 基準 CV-Bayes ベイズ基準 CV を用いたベイズ基準 CV における学習データの分割数 ⇒ 10

17 従来法との比較モデル構造と音素認識率提案法は認識率が最大となるモデル構造に近づく ⇒ MDL から 8.48% の誤り改善率 8.48%

18 汎化性能の評価テストデータに対するテストデータに対するが最大となるモデル構造を選択 ⇒ 汎化性能の高いモデル構造を選択

19 むすび  ベイズ基準における事前分布推定法の検討  共有構造を考慮した事前分布推定  クロスバリデーションに基づく事前分布設定従来法と比較して 8.48% の誤り改善率汎化性能の高いモデル構造を選択 ⇒ 認識率が最高となるモデル構造とは異なる  今後の課題  識別的な基準を導入  階層的な事前分布構造の検討

20

21 背景  隠れマルコフモデルによる音声のモデル化 ⇒ 有限な学習データからモデルを学習 ⇒ 認識性能改善のためには高精度なモデルが必要  モデルの詳細化による認識性能の向上 ⇒ コンテキスト依存モデル等 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定

22 目的  モデル学習基準  尤度最大化基準 ⇒ 過学習の問題  ベイズ基準 ⇒ 高い汎化性能ベイズ基準における事前分布推定法の検討  ベイズ基準における事前分布  事前情報をモデル学習に利用  事後分布推定・モデル構造選択に影響 ⇒ 適切な事前分布設定によるモデル推定精度の向上

23 モデル構造と音素認識率（ 2/2 ）  モデル構造と音素認識率（学習データ量 1,000 文）

24 汎化性能の評価テストデータに対する

25 ベイズ基準事前分布 : 事後分布 : 予測分布 : モデルパラメータを確率分布で表現学習データ認識データ全てのモデルパラメータを考慮 ⇒ 高い汎化性能尤度関数

26 隠れマルコフモデル（ HMM ）時間によって変動する観測系列をモデル化 : : 観測系列状態系列 1 23

27 コンテキスト依存モデル s a cl p a r i w a k a r a n a i 音響的特徴が異なる例 : 「さっぱりわからない」 s-a-clp-a-rn-a-i コンテキストを考慮 ⇒ より詳細な音響モデル問題点  各モデルの学習データ量が不足  未知コンテキストは学習不可

28  十分量の学習データによるモデル学習  未知コンテキストにも対応コンテキストクラスタリング  決定木構造  コンテキストに関する質問による状態分割  類似状態間でパラメータ共有 yes no 先行音素は母音 ? g-a-h o-a-g 状態の集合

29 コンテキスト依存モデル音素文脈（コンテキスト）を考慮したモデル t-a-is-a-ik-a-oa … ○ 学習データの表現力増加 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能モデル構造の構築が必要

30 変分ベイズ法 [Attias; ’99] （ 1/2 ）近似事後分布を推定 ⇒ 対数周辺尤度の下限を最大化：任意関数：学習データ：状態系列：モデルパラメータ Jensen の不等式

31  変分ベイズ法のモデル学習とを交互に更新 ⇒ を最大化変分ベイズ法 [Attias; ’99] （ 2/2 ）  事後分布の独立性を仮定  変分法によってを最大化する事後分布を導出

32 変分ベイズ法 [Attias; ’99] （ 1/2 ）近似事後分布を推定 ⇒ 対数周辺尤度の下限を最大化：任意関数：学習データ：状態系列：モデルパラメータ Jensen の不等式

33  変分ベイズ法のモデル学習とを交互に更新 ⇒ を最大化変分ベイズ法 [Attias; ’99] （ 2/2 ）  事後分布の独立性を仮定  変分法によってを最大化する事後分布を導出

34 Cross Validation を用いた ML 基準  モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択  Cross Validation に基づくモデル評価モデルパラメータ推定モデル評価 : 尤度の計算 2,31,21,3 学習データを K 個に分割

35 Cross Validation を用いたベイズ基準事前分布設定事後分布推定学習データを K 個に分割 Cross Validation を事前分布設定に利用モデル評価 : の計算 2,31,31,2