Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 A review of large-vocabulary continuous-speech recognition.

Slides:



Advertisements
Similar presentations
Cell Size Regulation in Bacteria Department of Physics, Harvard University, Cambridge, Massachusetts 02138, USA Ariel Amir.
Advertisements

尖端材料實驗室 指導教授 : 廖義田 博士 研 究 生 : 潘保同,許方駿 李孟峰,黃慈偉.
Chapter 10 馬可夫鏈 緒言 如果讀者仔細觀察日常生活中所發生的 諸多事件,必然會發現有些事件的未來 發展或演變與該事件現階段的狀況全然 無關,這種事件稱為獨立試行過程 (process of independent trials) ;而另一些 事件則會受到該事件現階段的狀況影響。
通訊原理 第八章: 類比脈波調變/解調技術 通訊原理 第八章.
1 Chemical and Engineering Thermodynamics Chapter 2 Conservation of mass and energy Sandler.
布林代數的應用--- 全及項(最小項)和全或項(最大項)展開式
第七章 抽樣與抽樣分配 蒐集統計資料最常見的方式是抽查。這 牽涉到兩個問題: 抽出的樣本是否具有代表性?是否能反應出母體的特徵?
Section 1.2 Describing Distributions with Numbers 用數字描述分配.
On Mathematical Structures for Systems Archetypes 系統基模的數學結構 Rafael E. Bourguet-Díaz Gloria Pérez-Salazar.
指導教授:陳淑媛 學生:李宗叡 李卿輔.  利用下列三種方法 (Edge Detection 、 Local Binary Pattern 、 Structured Local Edge Pattern) 來判斷是否為場景變換,以方便使用者來 找出所要的片段。
1 Advanced Chemical Engineering Thermodynamics Appendix BK The Generalized van der Waals Partition Function.
亂數產生器安全性評估 之統計測試 SEC HW7 姓名:翁玉芬 學號:
第四章 評價股票選擇權的數值方法 蒙地卡羅模擬與二項式模型 財務工程 呂瑞秋著.
Review of Chapter 3 - 已學過的 rules( 回顧 )- 朝陽科技大學 資訊管理系 李麗華 教授.
數學軟體簡介 PART II Matlab 介紹. 今天進度: 多項式的處理與分析 多項式的表示 一個 n 次多項式可以表示成 p(x)=a n x n +a n-1 x n-1 +…+a 1 x+a 0 因此,在 Matlab 中可以用一個長度為 n+1 的向量 來表示 p(x) 如下: p=[a.
Graph V(G 1 )={0, 1, 2, 3, 4, 5, 6, 7, 8, 9} E(G 1 )={(0, 2), (0, 3), (1, 4), (2, 3), (2, 5), (2, 6), (3, 6), (3, 7), (4, 7), (5, 6), (5,
: OPENING DOORS ? 題組: Problem Set Archive with Online Judge 題號: 10606: OPENING DOORS 解題者:侯沛彣 解題日期: 2006 年 6 月 11 日 題意: - 某間學校有 N 個學生,每個學生都有自己的衣物櫃.
消費者物價指數反映生活成本。當消費者物價指數上升時,一般家庭需要花費更多的金錢才能維持相同的生活水準。經濟學家用物價膨脹(inflation)來描述一般物價持續上升的現象,而物價膨脹率(inflation rate)為物價水準的變動百分比。
Section 2.3 Least-Squares Regression 最小平方迴歸
STAT0_sampling Random Sampling  母體: Finite population & Infinity population  由一大小為 N 的有限母體中抽出一樣本數為 n 的樣 本,若每一樣本被抽出的機率是一樣的,這樣本稱 為隨機樣本 (random sample)
: Matrix Decompressing ★★★★☆ 題組: Contest Volumes with Online Judge 題號: 11082: Matrix Decompressing 解題者:蔡權昱、劉洙愷 解題日期: 2008 年 4 月 18 日 題意:假設有一矩陣 R*C,
第一章 信號與系統初論 信號的簡介與DSP的處理方式。 系統特性與穩定性的判定方法。 以MATLAB驗證系統的線性、非時變、因果等特性。
STAT0_corr1 二變數的相關性  變數之間的關係是統計研究上的一大目標  討論二分類變數的相關性,以列聯表來表示  討論二連續隨機變數時,可以作 x-y 散佈圖觀察它 們的關係強度  以相關係數來代表二者關係的強度.
MATLAB 程式設計 第 11 章 多維陣列 多維陣列的定義 在 MATLAB 的資料型態中,向量可視為 一維陣列,矩陣可視二維陣列,對於維 度 (Dimensions) 超過 1 的陣列則均可視 為「多維陣列」 (Multidimesional Arrays , 簡稱 N-D Arrays)
Section 2.2 Correlation 相關係數. 散佈圖 1 散佈圖 2 散佈圖的盲點 兩座標軸的刻度不同,散佈圖的外觀呈 現的相聯性強度,會有不同的感受。 散佈圖 2 相聯性看起來比散佈圖 1 來得強。 以統計數字相關係數做為客觀標準。
Part 1 Understanding Data Chapter 1 Examining Distributions Chapter 2 Examining Relationships Chapter 3 Producing Data.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
基礎物理總論 基礎物理總論 熱力學與統計力學(三) Statistical Mechanics 東海大學物理系 施奇廷.
Monte Carlo Simulation Part.2 Metropolis Algorithm Dept. Phys. Tunghai Univ. Numerical Methods C. T. Shih.
空間域之影像強化 3.1 背景介紹 3.2 基礎灰階值轉換 3.3 以灰階統計圖為基礎之處理 3.4 算術與邏輯運算 3.5 基礎空間域濾波
1 單元三 查詢結果的引用分析 Web of Science 利用指引 查看出版及被引用情況 在查詢結果的清單中,可以瀏覽近 20 年來查詢主題出版和被引用的情況。
2009fallStat_samplec.i.1 Chap10 Sampling distribution (review) 樣本必須是隨機樣本 (random sample) ,才能代表母體 Sample mean 是一隨機變數,隨著每一次抽出來的 樣本值不同,它的值也不同,但會有規律性 為了要知道估計的精確性,必需要知道樣本平均數.
具備人臉追蹤與辨識功能的一個 智慧型數位監視系統 系統架構 在巡邏模式中 ,攝影機會左右來回巡視,並 利用動態膚色偵測得知是否有移動膚色物體, 若有移動的膚色物體則進入到追蹤模式,反之 則繼續巡視。
Introduction to Java Programming Lecture 17 Abstract Classes & Interfaces.
微帶線濾波器 國立聯合大學 電機工程學系 主講人 : 徐振剛 何奕叡. 目 錄  設計程序理論說明  1. 微波諧振電路  2. 傳輸線特性  3.Chebyshev filter & Butterworth filter  4. 傳輸線殘段設計濾波器和步階阻抗式低通濾波器  設計模型.
錄音筆,MP3 撥放器, 隨身碟 之原理及規格. 定義 錄音筆 – 以錄音為首要功能 MP3 撥放器 – 以播放音樂為首要功能 隨身碟 – 以行動碟為功能.
7.1 背景介紹 7.2 多解析度擴展 7.3 一維小波轉換 7.4 快速小波轉換 7.5 二維小波轉換 7.6 小波封包
Fourier Series. Jean Baptiste Joseph Fourier (French)(1763~1830)
: Problem A : MiniMice ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11411: Problem A : MiniMice 解題者:李重儀 解題日期: 2008 年 9 月 3 日 題意:簡單的說,題目中每一隻老鼠有一個編號.
Fugacity Coefficient and Fugacity
- Calculus & It’s Application- Chapter 2 Introduction to Limits 朝陽科技大學 資訊管理系 李麗華 教授.
The application of boundary element evaluation on a silencer in the presence of a linear temperature gradient Boundary Element Method 期末報告 指導老師:陳正宗終身特聘教授.
Section 4.2 Probability Models 機率模式. 由實驗看機率 實驗前先列出所有可能的實驗結果。 – 擲銅板:正面或反面。 – 擲骰子: 1~6 點。 – 擲骰子兩顆: (1,1),(1,2),(1,3),… 等 36 種。 決定每一個可能的實驗結果發生機率。 – 實驗後所有的實驗結果整理得到。
: GCD - Extreme II ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11426: GCD - Extreme II 解題者:蔡宗翰 解題日期: 2008 年 9 月 19 日 題意: 最多 20,000 組測資,題目會給一個數字.
演算法 8-1 最大數及最小數找法 8-2 排序 8-3 二元搜尋法.
845: Gas Station Numbers ★★★ 題組: Problem Set Archive with Online Judge 題號: 845: Gas Station Numbers. 解題者:張維珊 解題日期: 2006 年 2 月 題意: 將輸入的數字,經過重新排列組合或旋轉數字,得到比原先的數字大,
介紹不同坐標系之間的轉換 以LS平差方式求解坐標轉換參數
Learning Method in Multilingual Speech Recognition Author : Hui Lin, Li Deng, Jasha Droppo Professor: 陳嘉平 Reporter: 許峰閤.
Chapter 10 m-way 搜尋樹與B-Tree
: Function Overloading ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 11032:Function Overloading 解題者:許智祺 解題日期: 2007 年 5 月 8 日 題意:判對輸入之數字是否為.
時間序列 Chap7 1 Chap 7 Decomposition method 4 components : Trend (TR t ) :長期向上或向下的移動趨勢 Seasonal variation (SN t ) :以年為基礎的變動原型 Cycle (CL t ) :在 2 到 10 年中向上或向下的改變.
Probability Distribution 機率分配 汪群超 12/12. 目的:產生具均等分配的數值 (Data) ,並以 『直方圖』的功能計算出數值在不同範圍內出現 的頻率,及繪製數值的分配圖,以反應出該 機率分配的特性。
1/17 A Study on Separation between Acoustic Models and Its Application Author : Yu Tsao, Jinyu Li, Chin-Hui Lee Professor : 陳嘉平 Reporter : 許峰閤.
專題成果報告 胺基酸功能預測開發環境 指導教授:歐昱言 邱彥豪 邱顯鈞.
電腦的基本單位 類比訊號 (analog signal) 指的是連續的訊號 數位訊號 (digital signal) 指的是以預先定義的符號表示不連續 的訊號 one bit 8 bits=one byte 電腦裡的所有資料,包括文 字、數據、影像、音訊、視 訊,都是用二進位來表示的。
冷凍空調自動控制 - 系統性能分析 李達生. Focusing here … 概論 自動控制理論發展 自控系統設計實例 Laplace Transform 冷凍空調自動控制 控制系統範例 控制元件作動原理 控制系統除錯 自動控制理論 系統穩定度分析 系統性能分析 PID Controller 自動控制實務.
連續隨機變數 連續變數:時間、分數、重量、……
逆向工程之資料後處理1 點資料處理 自由曲線與曲面的數學模式 曲線擬合之原理 曲線擬合之演算法 曲線建構 曲線編修.
Teacher : Ing-Jer Huang TA : Chien-Hung Chen 2015/6/30 Course Embedded Systems : Principles and Implementations Weekly Preview Question CH7.1~CH /12/26.
-Artificial Neural Network- Matlab操作介紹 -以類神經網路BPN Model為例
1 Introduction to Java Programming Lecture 3 Mathematical Operators Spring 2008.
第五章IIR數位濾波器設計 濾波器的功能乃對於數位信號進行處理﹐ 以滿足系統的需求規格。其作法為設計一 個系統的轉移函數﹐或者差分方程式﹐使 其頻率響應落在規格的範圍內。本章探討 的是其中一種方法﹐稱為Infinite impulse register(IIR)。 IIR架構說明。 各種不同頻帶(Band)濾波器的設計方法。
: Finding Paths in Grid ★★★★☆ 題組: Contest Archive with Online Judge 題號: 11486: Finding Paths in Grid 解題者:李重儀 解題日期: 2008 年 10 月 14 日 題意:給一個 7 個 column.
:Problem E.Stone Game ★★★☆☆ 題組: Problem Set Archive with Online Judge 題號: 10165: Problem E.Stone Game 解題者:李濟宇 解題日期: 2006 年 3 月 26 日 題意: Jack 與 Jim.
1 Introduction to Java Programming Lecture 3 Mathematical Operators Spring 2009.
McGraw-Hill/Irwin © 2003 The McGraw-Hill Companies, Inc.,All Rights Reserved. 肆 資料分析與表達.
Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models C. J. Leggetter and P. C. Woodland Department of.
Intelligent Database Systems Lab Advisor : Dr. Hsu Graduate : Keng-Wei Chang Author : Javier Contreras Rosario Espinola Francisco J. Nogales Antonio J.
CHAPTER 6 Frequency Response, Bode Plots, and Resonance.
Presentation transcript:

Intelligent Database Systems Lab 國立雲林科技大學 National Yunlin University of Science and Technology 1 A review of large-vocabulary continuous-speech recognition Advisor : Dr. Hsu Graduate : Yu-Cheng Chen IEEE SIGNAL PROCESSING MAGAZIZE 1996

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 2 Outline Introduction System Overview Front-End Parameterization Acoustic Modeling Language Modeling Decoder Current LVR Current Issues Conclusion Personal Opinion

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 3 Introduction Large Vocabulary Recognition has considerable progress. Capable of transcribing continuous speech from any speaker with average word error rates between 5% and 10% If speaker adaptation is allowed, the error rate will below 5% We will discuss the principles and architecture of LVR system Cambridge University HTK system

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 4 System Overview X and Y are certain utterance and an acoustic vector. The job of LVR system is to find the most probable word sequence W given the observed acoustic signal Y

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 5 System Overview

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 6 Front-End Parameterization Its main function is to divide the input speech into blocks and from each block derive a smoothed spectral estimate. The Mel-scale is designed to get better frequency resolution of the human ear

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 7 快速傅利葉轉換 FFT :由於訊號在時域( Time domain )上的變化通常 很難看出訊號的特性,所以通常將它轉換成頻域( Frequency domain ) 上的能量分佈來觀察,不同的能量分佈,就能代表不同語音的特性。 梅爾三角過濾器:對頻譜進行平滑化,並消除諧波的作用,凸顯原先語 音的共振峰並降低資料量。 Log :將乘法轉換為加法並減少的誤差 離散餘弦轉換:期望能轉回類似 Time Domain 的情況來看

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 8

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 9 Acoustic Modeling The acoustic models is to calculate the likelihood of any vector Y given a word w Word sequences are decomposed into basic sounds called phones. Each phone is represented by a hidden Markov model (HMM).

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 10 Acoustic Modeling 以數字「九」的發音為例九 Acoustic vector HMM

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 11 Acoustic Modeling 我們通常以矩陣 A 來表示轉移機率, A(i, j) 即是指由狀態 i 跳到狀態 j 的機率值。例如在上圖中,由狀態 1 跳到狀態 2 的機率是 0.3 ,因此 A(1, 2) = 0.3 。 我們通常以矩陣 B 來表示狀態機率, B(i, j) 即是指音框 i 隸屬 於狀態 j 的機率值。

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 12 Acoustic Modeling So far we assume that only one HMM is required per phone, however, contextual effects cause large variations in the way that different sounds are produced. For example, “Beat it”, would be represented by the phone sequence “ sil b iy t ih t sil ” We use triphones where every phone has a distinct HMM model. sil sil-b+iy b-iy+t iy-t+ih t-ih+t ih-t+sil sil It gives the best accuracy but leads to complication.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 13 Acoustic Modeling The problem of too many parameters is crucial in the statistical speech recognizer. The solution is to form a pool which was shared among all HMM states.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 14 Acoustic Modeling The problem of too many parameters is crucial in the statistical speech recognizer. The solution so-called tied-mixture system is to form a pool which was shared among all HMM states.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 15 Acoustic Modeling We use the phonetic decision tress to choose which states is tied.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 16 Its purpose is to estimate the probability of some word w k in an utterance given the preceding words w 1 …w k-1 N-grams Assume wk depends only on the preceding n-1 words If N=3 Language Modeling

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 17 In order to perform recognition, the word W must be found which maximize equation 1. This is a search problem and its solution is decoder. Two main approaches: depth-first and breadth-first Decoding

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 18 Decoding

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 19 The performance of HTK LV Recognizer Current State of LVR

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 20 Speaker Adaptation Environmental Robustness Task Independence Spontaneous Speech Real Time Operation Current Issues

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 21 Conclusions This paper has reviewed the man components of a continuous speech large vocabulary recognition system.

Intelligent Database Systems Lab N.Y.U.S.T. I. M. 22 Personal Opinion Just know the overview Much more needs to be done before robust, general- purpose LVR.