ベイズ基準による音声認識のための 事前分布推定法の検討 情報工学専攻 徳田・李研究室 橋本 佳. 2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要.

Slides:



Advertisements
Similar presentations
3D Wand による 3 次 元形状計測. 3次元形状計測装置  3D Wand(テクノドリーム 21 社 製)  構成 3D Wand 本体: 7 つの発光ダイオー ドとラインレーザー発光装置が一体となっ た手に持って移動できる電池駆動の装置.
Advertisements

SPSSによるHosmer-Lemeshow検定について
東京工科大学 コンピュータサイエンス 亀田弘之
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
9.線形写像.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
情報処理A 第10回 Excelの使い方 その3.
九州大学 岡村研究室 久保 貴哉 1. 利用中のAPの数の推移 2 横軸:時刻 縦軸:接続要求数 ・深夜では一分間で平均一台、 昼間では平均14台程度の接続 要求をAPが受けている。 ・急にAPの利用者数が増えてく るのは7~8時あたり.
麻雀ゲーム 和島研究室 ソ 小林巧人
5.連立一次方程式.
相関.
―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習
ノイズ. 雑音とも呼ばれる。(音でなくても、雑 音という) 入力データに含まれる、本来ほしくない 成分.
人工知能特論 II 第 6 回 二宮 崇 1. 今日の講義の予定 確率的文法 品詞解析 HMM 構文解析 PCFG 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル 東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS.
青森大学 5 号館の 模型の設計と製作 ソ 小山 内 拓真
広告付き価格サービ ス 小園一正. はじめに 世の中には様々な表現方法の広告があり ます。その中でも私たち学生にとって身 近にあるものを広告媒体として取り入れ られている。 価格サービス(無料配布のルーズリー フ)を体験したことにより興味を惹かれ るきっかけとなった。主な目的は、これ.
素数判定法 2011/6/20.
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
地球温暖化と 天候の関係性 ~温暖化は天候のせいなのではないのか~. 目的課題 地球温暖化現象 ただの気象条件によるものではないのか? 地球温暖化現象に天候は関係しているの か?
公開鍵暗号系 2011/05/09.
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
3.エントロピーの性質と各種情報量.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
人工知能特論II 第10回 二宮 崇.
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
線形符号(10章).
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
10.PとNP完全問題との境界.
NTTに基づく応用モデルの検討 -一対比較モデルと多次元モデルを中心に-
4.プッシュダウンオートマトンと 文脈自由文法の等価性
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
人工知能特論II 第7回 二宮 崇.
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
アルゴリズムとデータ構造 補足資料 7-4 「単純交換ソート exsort.c 」 横浜国立大学 理工学部 数物・電子情報系学科 富井尚志.
3.プッシュダウンオートマトンと 文脈自由文法
6.符号化法(6章).
3.正方行列(単位行列、逆行列、対称行列、交代行列)
様々な情報源(4章).
名古屋工業大学 電気電子工学科 岩波・岡本研究室 野々村嘉人
論理回路 第1回. 今日の内容 論理回路とは? 本講義の位置づけ,達成目標 講義スケジュールと内容 受講時の注意事項 成績の評価方法.
Bar-TOP における光の 群速度伝播の解析 名古屋大学 高エネルギー物理研究室 松石 武 (Matsuishi Takeru)
クロスバリデーションを用いた ベイズ基準によるコンテキストクラスタリング
経済分析の基本ツール 公共経済学 第 2 回 畑農鋭矢 1. 労働時間(意思決定の対 象) O 収入 費用 労働時間の意思決定 何時間働くのが最適か?
Analog “ neuronal ” networks in early vision Koch and Yuille et al. Proc Academic National Sciences 1986.
C言語応用 構造体.
目次 8.2 条件付き独立性 つのグラフの例 有向分離 (d分離).
Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学.
Logo 伊勢湾の水質変化による 生態系の変化について C09001 石田 拓也 C09002 岩田 亮 C09012 小松 慎紘 C09021 吹ケ 竜也 C09025 百瀬 亘.
移動エージェントプログラムの 動作表示のためのアニメーション言 語 名古屋大学情報工学コース 坂部研究室 高岸 健.
物体識別のための Adaboost を用いた入力特徴の評価 物体識別のための Adaboost を用いた 入力特徴の評価 情報工学科 藤吉研究室 EP02132 土屋成光.
8.任意のデータ構造 (グラフの表現とアルゴリズム)
メニューに戻る メニューに戻る | 前表示スライド 前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちら ダウンロード後,実行してインストール.
第14回 プログラムの意味論と検証(3) 不動点意味論 担当:犬塚
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
外部性 公共経済学(財政学A) 第4回 畑農鋭矢.
Kitenet の解析 (110118) 九州大学 工学部 電気情報工学科 岡村研究室 久保 貴哉.
小島 肇  Windows ではアンチウイルスソフトウェアは 必須だが、「入れれば安心」というものでは ない  Mac, Linux における費用対効果はかなり低い  現時点ではマルウェアは流行っていないから  Windows を併用している場合は別.
音の変化を視覚化する サウンドプレイヤーの作成
Self-efficacy(自己効力感)について
IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.
Bootstrapping 2014/4/13 R basic 3 Ryusuke Murakami.
腎臓移植 腎臓移植の前に、ドナー両方の腎臓は機 能的に良好でなければならない。ドナー の両方の腎臓が機能的に健康であること を保証するために、多数の試験が行われ ている。
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Presentation transcript:

ベイズ基準による音声認識のための 事前分布推定法の検討 情報工学専攻 徳田・李研究室 橋本 佳

2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要  モデルの詳細化による認識性能の向上 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定

3 目的  尤度最大化基準  少量の学習データで過学習  ベイズ基準  高い汎化性能  事前分布をモデル学習に利用 ⇒ 事後分布推定・モデル構造選択に影響 ⇒ 学習データから事前分布を推定  適切な事前分布推定法の検討  共有構造を考慮した事前分布推定  クロスバリデーションに基づく事前分布設定

4 尤度が最大となるモデルパラメータ を推定 尤度最大化基準( ML 基準) 学習データ量が少量の場合に過学習の問題 学習データ量多量少量 データ 推定される モデル 予測分布 : 認識データ : 学習データ :

5 ベイズ基準 事前分布 : 事後分布 : 予測分布 : モデルパラメータ を確率分布で表現 学習データ 認識データ 全てのモデルパラメータを考慮 ⇒ 高い汎化性能 尤度関数

6 変分ベイズ法 [Attias; 99] ( 1/2 )  隠れ変数 を含むモデルの事後分布  変分ベイズ法では近似事後分布を推定 :独立性を仮定 ⇒ 直接的な計算は困難 ⇒ 近似事後分布 ⇒ 事後分布推定には近似手法が必要

7 変分ベイズ法 [Attias; 99] ( 2/2 )  対数周辺尤度の下限 を定義  変分法によって を最大化する事後分布を 導出

8 事前分布の設定  共役事前分布を設定  事前分布と事後分布が同じ分布族  解析的な事後分布推定が可能  事前情報による事前分布の設定 尤度関数共役事前分布 : ベクトル次元数 :事前情報の分散 :事前情報の平均 :事前情報のデータ量

9 コンテキスト依存モデル 音素の特徴は周囲の音素から変化 ⇒ 音素文脈(コンテキスト)を考慮してモデル化 t-a-is-a-ik-a-oa … ○ 詳細な特徴を表現可能 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能 決定木構造に基づくコンテキストクラスタリング

10 モデル構造を決定木によって表現  コンテキストに関する質問による分割  類似モデルのパラメータを共有  未知コンテキストに対応 コンテキストクラスタリング yes no 先行音素は母音? 適切なモデル構造を選択することが重要 決定木表現能力データ量 小低多 大高少

11 を最大化する決定木構造を選択 ベイズ基準のコンテキストクラスタリ ング yes no 質問の選択 : の増加量 : 分割停止条件 : ⇒ 増加量が最大となる分割 : 先行音素は母音? ベイズ基準における適切なモデル構造を選択

12 Cross Validation に基づくモデル評価  モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択  Cross Validation を用いた ML 基準 2,31,21,3 モデル評価 : 尤度の計算 モデルパラメータ 推定 学習データを K 個に分割

13 Cross Validation を用いたベイズ基準 Cross Validation を事前分布設定に利用 2,31,3 事前分布 設定 モデル評価 : の計算 学習データを K 個に分割 事後分布 推定 1,2

14 CV を用いたベイズ基準モデル構造選 択 を最大化する決定木構造を選択 yes no : 先行音素は母音? 汎化性能の高いモデル構造を選択 分割停止条件 : 各ノードで を計算 分割前後での増加量 が最大となる分割を行う

15 実験条件 データベース JNAS 学習データ 20,000 文 テストデータ 100 文 サンプリング周波数 16 kHz 窓関数 Hamming 窓 フレームサイズ / シフ ト 25 ms / 10 ms 特徴量 12 次元 MFCC + ΔMFCC + ΔEnergy (25 次元 )

16 実験内容  モデル構造と認識率に対する従来法との比較  テストデータに対する による汎化性能の評 価 学習基準モデル構造選択基準 MDL ML 基準 MDL 基準 CV-ML ML 基準 CV を用いた ML 基準 CV-Bayes ベイズ基準 CV を用いたベイズ基準 CV における学習データの分割数 ⇒ 10

17 従来法との比較 モデル構造と音素認識率 提案法は認識率が最大となるモデル構造に近づく ⇒ MDL から 8.48% の誤り改善率 8.48%

18 汎化性能の評価 テストデータに対する テストデータに対する が最大となるモデル構造を選択 ⇒ 汎化性能の高いモデル構造を選択

19 むすび  ベイズ基準における事前分布推定法の検討  共有構造を考慮した事前分布推定  クロスバリデーションに基づく事前分布設定 従来法と比較して 8.48% の誤り改善率 汎化性能の高いモデル構造を選択 ⇒ 認識率が最高となるモデル構造とは異なる  今後の課題  識別的な基準を導入  階層的な事前分布構造の検討

20

21 背景  隠れマルコフモデルによる音声のモデル化 ⇒ 有限な学習データからモデルを学習 ⇒ 認識性能改善のためには高精度なモデルが必要  モデルの詳細化による認識性能の向上 ⇒ コンテキスト依存モデル等 ⇒ モデル数増加による学習データ不足の問題 ⇒ 少量の学習データから高精度なモデル推定

22 目的  モデル学習基準  尤度最大化基準 ⇒ 過学習の問題  ベイズ基準 ⇒ 高い汎化性能 ベイズ基準における事前分布推定法の検討  ベイズ基準における事前分布  事前情報をモデル学習に利用  事後分布推定・モデル構造選択に影響 ⇒ 適切な事前分布設定によるモデル推定精度の向 上

23 モデル構造と音素認識率( 2/2 )  モデル構造と音素認識率 (学習データ量 1,000 文)

24 汎化性能の評価 テストデータに対する

25 ベイズ基準 事前分布 : 事後分布 : 予測分布 : モデルパラメータ を確率分布で表現 学習データ 認識データ 全てのモデルパラメータを考慮 ⇒ 高い汎化性能 尤度関数

26 隠れマルコフモデル( HMM ) 時間によって変動する観測系列をモデル化 : : 観測系列 状態系列 1 23

27 コンテキスト依存モデル s a cl p a r i w a k a r a n a i 音響的特徴が異なる 例 : 「さっぱりわからない」 s-a-clp-a-rn-a-i コンテキストを考慮 ⇒ より詳細な音響モデル 問題点  各モデルの学習データ量が不 足  未知コンテキストは学習不可

28  十分量の学習データによるモデル学 習  未知コンテキストにも対応 コンテキストクラスタリング  決定木構造  コンテキストに関する質問による状態分割  類似状態間でパラメータ共有 yes no 先行音素は母音 ? g-a-h o-a-g 状態の集合

29 コンテキスト依存モデル 音素文脈(コンテキスト)を考慮したモデル t-a-is-a-ik-a-oa … ○ 学習データの表現力増加 × モデル数の増加 ⇒ データ量不足の問題 × 未知コンテキストのモデル化が不可能 モデル構造の構築が必要

30 変分ベイズ法 [Attias; ’99] ( 1/2 ) 近似事後分布 を推定 ⇒ 対数周辺尤度の下限 を最大化 :任意関数:学習データ:状態系列:モデルパラメータ Jensen の不等式

31  変分ベイズ法のモデル学習 と を交互に更新 ⇒ を最大化 変分ベイズ法 [Attias; ’99] ( 2/2 )  事後分布の独立性を仮定  変分法によって を最大化する事後分布を 導出

32 変分ベイズ法 [Attias; ’99] ( 1/2 ) 近似事後分布 を推定 ⇒ 対数周辺尤度の下限 を最大化 :任意関数:学習データ:状態系列:モデルパラメータ Jensen の不等式

33  変分ベイズ法のモデル学習 と を交互に更新 ⇒ を最大化 変分ベイズ法 [Attias; ’99] ( 2/2 )  事後分布の独立性を仮定  変分法によって を最大化する事後分布を 導出

34 Cross Validation を用いた ML 基準  モデル推定・評価に同一のデータを使用 ⇒ 学習データに特化したモデル構造を選択  Cross Validation に基づくモデル評価 モデルパラメータ 推定 モデル評価 : 尤度の計算 2,31,21,3 学習データを K 個に分割

35 Cross Validation を用いたベイズ基準 事前分布 設定 事後分布 推定 学習データを K 個に分割 Cross Validation を事前分布設定に利用 モデル評価 : の計算 2,31,31,2