Download presentation
Presentation is loading. Please wait.
1
整合性封包保護機制提升語音 通訊之品質 Ren-Yuh Lu
2
Outline Introduction –MANET –Motivation & Objective –Problem Description Related Work –Reliable Blast UDP –Partial-Reliable TCP 整合性封包保護機制提升語音通訊之品質 – 分辨重要封包的方法 – 整合性封包保護技術 Evaluation & Performance Analysis
3
Introduction VoIP ( Voice over IP ) 是一種透過網際網路以數位 化的方式來傳輸語音封包的技術。 近年來, VoIP 因為其使用簡單、成本低廉等特性, 導致使用率及使用人口與日俱增。 本研究是為了使 VoIP 能夠在 High Loss Rate 的網路 環境下更順暢地運作所設計。 VoIP 運作在 High Loss Rate 的網路環境中會遇到一 些問題,我們將以 MANET 作為例子加以說明。
4
MANET MANET 「群組行動電腦網路」是一種行動式無 線區域網路,對群組行動使用者提供一個可在行 動中使用的電腦網路。 一個 MANET 係由一組行動電腦 ( 筆記型電腦或 具有 WiFi 能力的 PDA 手機 ) 組成, 其間以 Multi- Hop Ad-Hoc 無線區域網路連結成 Wireless Intranet 。 各個行動電腦之間可藉由高速的 Wireless Intranet 進行即時多媒體網路通訊。
5
Motivation & Objective High Loss Rate 的網路環境,例如 MANET ,具有 以下的缺點: – 錯誤率很高 – 沒有 Server 管理節點 在這樣的網路環境中使用 VoIP ,會有一些問題需 要克服。
6
Problem Description VoIP 對時效性的要求極高,為了符合這個要求, 現今的 VoIP 系統大部份都使用 UDP 傳輸層協定。 UDP 的特性: – 不保證一定送達 如果 VoIP 運用在錯誤率很高的網路環境時,可能 會因為遺失太多封包而影響通話品質。 我們即將研究一些機制用以提高 VoIP 的品質。
7
Related Work Reliable Blast UDP Partial-Reliable UDP
8
Reliable Blast UDP
9
Partial-Reliable TCP
10
整合性封包保護機制提升語音通 訊之品質 假設除了人聲之外,其他聲音均視為噪音。 我們即將研究一個分辯重要封包的方法,可能搭 配 Partial-Reliable UDP ,保證能夠維持 VoIP 的通訊 品質。 分辨重要封包的方法 –VAD ( Voice Activity Detection ) 整合性封包保護技術
11
分辨重要封包的方法
12
VAD Time Domain VAD 技術 Frequency Domain VAD 技術 混合式 VAD 技術 個性化 VAD 技術
13
Time Domain VAD 在擷取語音 Frame 但尚未壓縮之前,就利用某些特 徵判斷封包的重要性。 先把語音分段,把前面區段的語音 Frame 暫存起來, 確定是語音時就傳送出去。 語音通訊有時效性,即傳輸的 Delay Time 不能趟 長,則用來暫存語音 Frame 的 Buffer 不能太長。
14
Time Domain VAD 這類型的方法較為簡單,但是當信號雜訊比 ( SNR ) 較低時或能量變化較快速時 ( 即背景噪音 較高時 ) 此法較不適用。
15
Time Domain VAD — Energy Based 設一個 Threshold 值 k , k 可依據不同雜訊調件調整。 – 若 y(n)>k 或 y(n)=k ,則判定為 Speech Segment 。 – 若 y(n)<k ,則判定為 non-Speech Segment 。 計算 m ( 長度為 N 秒的語音 Frame ) 的方式如下: N 為 Time index
16
Frequency Domain VAD 在噪音較高的情況下,就要藉助於 Frequency Domain 的分析分辨語音與噪音。 假設噪音的頻譜與 White Noise 相似,而語音的頻 譜則集中在 40Hz 至 4000Hz 之間,我們將以 Entropy 之值作為分辨語音與 White Noise 的參數。
17
Frequency Domain VAD — Entropy- Based An Example of Entropy : The entropy of class A is bigger than the entropy of class B. NameScore Joe99 Mary28 Steven84 Mark42 Alice15 Brian72 NameScore Carlo70 Drew58 Elsa66 Harry61 Jack69 Lucy55 Class 1 Class 2
18
Frequency Domain VAD — Entropy- Based 上式中: 即為在 Frame t 中,訊號出現在 ω 頻帶的機率。 頻寬越窄的訊號 ( 例如 Sine Wave) , Entropy 越低。
19
Frequency Domain VAD — Entropy- Based 若發話端背景雜訊與 White Noise 相似,則 Entropy 會較高。 根據上述做法,可以利用語音和 Noise 在頻率上特 性的相異,計算 Entropy 差異,藉此設定一個 Threshold 值,即可判斷語音中的 Speech Segment 或 non-Speech Segment 。 區分出 Speech Segment 和 non-Speech Segment 之後, 我們可以試著只傳送 Speech Segment ,以減少網路 的 Overhead 。 – 使用 Noise Cancellation 技術,把多餘的雜音濾除。
20
Frequency Domain VAD — Entropy-Based 優點: – 對 Noise 的變動較不敏感,即使雜訊嘈雜且不規則,本 方法仍然有效。 – 即使訊號的 SNR 較差,仍然可以分辨 Speech Segment 或 non-Speech Segment 。 缺點: – 需要耗費龐大的計算資源。 – 可能會使 VOIP 的即時性減低,封包的 Delay 會大幅增加。 – 若收音器處於非常嘈雜且噪音相當不規則的環境下 ( Ex : White Noise 加 Colored Noise ),可能會造成 non- Speech Segment 和 Speech Segment 的 Entropy 值接近,而 導致辨識上的錯誤率增加。
21
混合式 VAD 針對 SNR 高且 Noise 變化小,或雜訊頻寬接近語音 頻寬的 Colored Noise 的環境,使用 Energy-Based VAD 。 – 節省運算資源。 – 避免判斷的正確性受到過於接近的語音頻譜的雜訊影響。 若發話端 SNR 較低或 Noise 變化較大,但雜訊特性 為頻寬較寬的 White Noise 時,使用 Entropy-Based VAD 。 – 避免變化迅速的 Noise 振幅影響判斷正確率。 若 Noise 振幅和雜訊頻譜皆不穩定,則將兩種 VAD 混合使用。
22
個性化 VAD 假設在每個傳送端由於發話地點環境的差異,都 存在不同特性 ( 頻譜與振幅 ) 的 Noise 。 –Method 1 –Method 2
23
個性化 VAD — Method 1 在傳送端先分析 Noise 特性,在傳送時用來過濾 Noise 。 雜音消除
24
個性化 VAD — Method 2 使用兩個麥克風分別收音,一個收錄背景雜音, 一個收錄說話人聲,再利用 Shift 波型的方法濾除 Noise 。 Clean & Background 背景雜音 消除技術
25
整合性封包保護技術 Model : –1. 定義基本封包間隔時間 ( msec / packet ) ,簡稱為「基 本時隔」最常用的基本時隔為 20 ( ms/packet ) 及 30 ( ms / packet ) 。 –2. 將 Redundant Voice Packets 視為不同的 Packet Stream 。 –3. 不同的 Voice Packets 可用不同的壓縮碼 ( Codec ) 。 –4. 所有的 Packet Stream 的時隔應為基本時隔的倍數。 –5. 定義第一個 Packet Stream 為基本 Stream 。 –6. 其他的 Packet Stream 稱為 Redundant Stream ,彼此之 間相差至少一個時隔。 –7. 最後,將所有 Packet Stream Piggyback 在一起,變成 一個時隔為基本時隔的單一 Packet Stream 。
26
Example 1 — Redundancy Only Time ( msec ) Voice Stream 1 Voice Stream 2 1 23 123 020 40 6080100 120 4 56 4 56 7
27
Example 1 — Redundancy Only Time ( msec ) Voice Stream 1 23 123 020 40 6080100 4 56 45 120 7 6
28
Example 2 — Different Codec & Redundancy Time ( msec ) Voice Stream 1 Voice Stream 2 1 2 12 020 40 6080100 120 Voice Stream 3 1+2+3 4+5+6 345 6 3 45 6 7
29
Example 2 — Different Codec & Redundancy Time ( msec ) 020 40 6080100 120 12 132 1+2+3 43 5 Voice Stream 1 Voice Stream 2 Voice Stream 3 465 4+5+6 76
30
Partial-Reliable UDP Reliable Blast UDP SenderReceiver
31
Evaluation & Performance Analysis
32
Conclusion
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.