Download presentation
Presentation is loading. Please wait.
Published byStephen Blake Modified over 8 years ago
1
Introduction of Speech Signal 30 th, October
2
What is “ speech signal ” ? Physical definition: –Signals produced by human speech production organs –Lung, Larynx, Pharyngeal cavity, Oral cavity, Lip, Tongue, Nasal cavity Informational definition: –Context + personality
3
Speech production mechanism
4
Examples of vocal tract MR images ‘ a ’ of ‘ matt ’‘ i ’ of ‘ vit ’‘ fi ’ of ‘ fiffig ’‘ j ’ of ‘ jord ’
5
Primitive speech synthesizer In 1779 Russian Professor Christian Kratzenstein made apparatus to produce five vowels (/a/, /e/, /i/, /o/, /u/) artificially
6
Von Kempelen's speaking machine (1930)
7
Digital model for speech production Excitation model Vocaltract model
8
Model for each stage Excitation model -> Impulse train generator Vocaltract model -> All-pole linear time- varying filter (IIR digital filter)
9
Spectrum of speech signal Voiced speech Unvoiced speech
10
Speech parameters Context information –What is spoken? –By vocal tract transfer function Prosody information –Rhythm –By intonation, duration, intensity Speaker information –Who?
11
Speech parameters-context information
12
F1, F2 according to phoneme
13
Formant tracking
14
Speech enhancement algorithm real-time implementation Part II
15
Objectives Improve one or more perceptual aspect of speech, such as overall quality, intelligibility or degree of listener fatigue. To make the processed speech sound better than the unprocessed speech. (cf. Speech Restoration)
16
Applications Background noise reduction –Offices, streets, motor vehicle, air-craft noise Correcting for distorted speech –Deep-sea drivers breathing a helium-oxygen gas, –Pathological difficulties of the speaker –Improvement for people with impaired hearing
17
Speech enhancement algorithms – “ Older algorithm ” Spectral subtraction method –Frequency domain approach, very simple. Maximum likelihood estimation approach –Use statistical properties of noise/signal Adaptive filtering method –Time domain approach, using LMS algorithm
18
Speech enhancement algorithms “ new algorithm ” Perceptual domain approach –Use psychoacoustical properties of human ear. Hearing aid approach –Enhance selective frequency bands. Newly developed approach –Hybrid, signal decomposition method, ICA- based
19
Spectral subtraction method
20
Adaptive filter approach S signal V Noise reference N X U S H
21
Examples of older/new algorithm Original corrupted speech Hybrid Spectral subtraction
22
Audio demonstration Computer fan noise Phone channel interference Vacuum cleaner noise Industrial noise Office noise Aircraft cabin noise Street noise Background conversation Background music Power hum
23
Block diagram of Spectral subtraction method Windowing FFT Compute magnitude Compute phase Silence/ Speeech decision Noise spectrum estimation IFFT OverLap and Add Input signal Output signal Two problems 1. How to decide silence and speech ? 2. How to estimate noise spectrum ?
24
Silence/Signal (Speech) decision 경험적 방법 – 단구간 에너지, 단구간 영교차율 등 사용 묵음구간 ( 단구간 에너지 小, 영교차율 大 ) 음성구간 ( 단구간 에너지 大, 영교차율 小 or 中 ) – 잡음의 특성이 변화하면 성능이 저하될 수 있다. 통계적 방법 – 가정 음성의 통계적 특성 = 잡음의 통계적 특성 – 통계적 특성을 표현하는 파라메터의 추정 필요 모델에 바탕을 둔 방법 – 가정 음성의 발생 모델 = 잡음의 발생 모델 – 음성과 유사한 특징을 갖는 잡음에 대해 성능이 저하될 수 있다.
25
경험적인 방법 단구간 에너지 단구간 영교차율 Eng Zcr Eng Zcr If Eng Zth then “noise”
26
Window 에 따른 short-time energy
27
Zero crossing rate 음성의 특성에 따른 분포 음성의 특성에 따른 값
28
Combine Energy & ZCR Speech (unvoiced) Speech (voiced) Silence (noise)
29
실습 -1 단구간 음성신호에 대해 energy 를 구함 단구간 음성신호에 대해 영교차율을 구함 위 두 신호를 임의의 array 에 저장하고 CCS 의 “ insert graphic ” 기능을 이용하여 – 입력된 파형과 연동하여 energy, zcr 을 plot – 입력신호가 어느 값에서 silence 에 해당하는지 조사 – 입력신호로, 마이크로폰을 사용 (AIC 입력 =MIC) 배포된 “ Noisy_sample[LMH].snd ” 파일을 player(Goldwave) 로 연속출력 (AIC 입력 =LINE) –Goldwave play 시 sampling_freq=16KHz, 16bits
30
Example (Speech 구간 )
31
Example (Silence 구간 )
32
Noise spectrum estimation Combine previous estimated, and current noise spectrum 지금까지 사용되어 온 noise magnitude spectrum Silence 라고 판단된 현재 프레임의 magnitude spectrum Update 된 noise magnitude spectrum
33
Example code
34
Clean spectrum estimation 현재 frame 에 대한 FFT 계수에서 –Magnitude spectrum 은 현재 추정된 noise spectrum 을 뺀다. –Phase spectrum 은 현재 frame 에 대한 값을 그대로 사용한다.
35
Overall flowchart Build frame & windowing Do FFT and Compute Amplitude, Phase If current frame is “silence”? Compute Energy and Zero-Crossing rate Noise amplitude spectrum update Yes Clean spectrum estimation Do IFFT & OverLap Add x(n) X(m)
36
실습 -2 Implement Spectral subtraction algorithm – 새롭게 추가될 부분 Compute Energy, Zero Crossing Rate Silence/Speech 구간 판정 – 경험적인 방법으로 Energy, ZCR 에 대한 문턱치 (threshold) 를 결정함. Noise power spectrum estimation (update) Clean speech estimation – 나머지 부분은 이전의 FFT-based 디지털 필터와 동일함. 결과 확인 – 입력 소스로 배포한 noisy speech 를 연속적으로 play –DIP 스위치 setting 에 따라 original speech 또는 처리된 결과를 출 력
37
결과 example (time domain)
38
결과 example (frequency domain)
39
Improving the performance of spectral subtraction method
40
Problem of spectral subtraction method Noise power spectrum measure 시 –Averaging effect 문제 발생 – 본래의 noise power > 추정된 noise power –Background noise ( 잔류 잡음 ) 이 인지됨 Possible solution (noise spectrum boosting) – 추정된 noise power spectrum 을 인위적으로 증폭 – 즉 clean spectrum estimation 시 boosting factor
43
Still problem! – annoying artifacts 물 흐르는 듯한 소리가 깔림 –So called “ Musical noise ” – 낮은 에너지 영역 -> “ 0 ” 에 가까운 값이 – 높은 에너지 영역 -> Total 성분이 됨 –Beep noise 발생 해결 방안 (Noise floor) – 낮은 에너지 영역에도 임의로 신호를 넣어 줌
44
실습 -3 Noise spectrum boosting 기법을 적용 –Boosting 정도에 따른 음질 가장 좋은 음질을 출력하는 boosting factor 결정 – 실습 2 와 음질적인 차이를 비교함 Noise floor 기법을 적용 –Noise floor level 에 따른 음질 가장 좋은 음질을 출력하는 floor level 을 결정 위 두 가지 방법을 DIP SW 에 의해 선택할 수 있 도록 프로그램을 수정.
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.