KTPs 字幕擷取 100 學年度上學期 LAB 603 Meeting 報告人:資訊碩一 蔡勇儀 指導教授:張元翔 副教授 日期: 2011/09/20
Effective and efficient video text extraction using key text points, Z. Li G. Liu, X. Qian, D. Guo, H. Jiang, IET Image Process., 2011, Vol. 5, Iss. 8, pp. 671–683 主要參考文章
簡介 – 字幕重要性與擷取字幕的困難點 擷取字幕方法 – 四大步驟:偵測、定位、追蹤、分 段 KTPs 概念說明 小波轉換 ( 卡關中 …) 大綱
字幕重要性:給予影 ( 圖 ) 片觀看者以最直觀的方式瞭 解特定內容 擷取字幕的目的:聲音比對、建立收尋資料庫系統、 取得特定資料等 … 擷取字幕的困難點:字幕本身特值 (ex. 字形顏色 ) 、 背景影響、字幕所占的空間位置等 … 簡介
四大步驟 1.Text detection – 單純偵測是否含有字幕 2.Localisation – 定位字幕位置 3.Tracking – 追蹤字幕出現與消失的時間 ( 影格 ) 4.Segmentation – 將字幕區隔並切段 擷取字幕基本步驟
單一影格 (frame) 分析 Connected component-based Edge-based Texture-based 多重影格分析 ( 文章內並未在此多著墨 ) Multi-frame averaging Time-based minimum pixel search 第一步 & 第二步 Text delection & Localisation
原理: 依據預期的文字特徵 ( 如字形、顏色、大小等 …) 來 做字幕的偵測與定位。 容易出現的問題: 在複雜的背景下,不易正確判斷。 Connected component-based
原理: 以影像處理 ( 色調、亮度落差等 …) 的方式區隔出 字幕邊緣以分辨前景 ( 字幕 ) 、背景 ( 影片 ) 。 容易出現的問題: 當背景物體與字幕邊緣的顏色或亮度落差不大時, 很容易判斷失誤。 Edge-based
原理: 將影像透過各類型的訊號轉換 ( 小波、傅立葉等 …) 後與 內建的文字特徵做比對,藉此來精準抓取字幕。 容易出現的問題: 當背景結構與字幕類似時不易辨別,且需要較大的計 算量。 PS. 此文章所講的技術即是用此方式。 Texture-based
Example
原理: 利用多個連續影格中的影像均值來區別背景與字 幕。 容易遇到的問題 : 運算量十分龐大。 Multi-frame averaging
大多透過兩影格間相對位置的顏色與亮度落差來判 斷哪時字幕出現或消失。 對於多重影格分析非常重要。 第三步 - Tracking
將字幕從影片中截段分割出來,並可透過 OCR( 光學 文字判斷 ) 來轉成數位文字。 第四步 - Segmentation
全名 KeyTextPoints(KTPs) 在第一 & 二步中是屬於單一影格分析中的 Texture-based , 第三步 (Tracking) 是運用了多重影格分析的原理,第四步 則是 Edge-Based 來做合併 基本原理在於訊號轉換 ( 小波轉換 ) 後抓取文字特定的特徵 點 ( 關鍵點 ) ,透過這些關鍵點來做追蹤與分段合併的動作。 PS. 由於小波轉換卡關的關係,並不是很確定是不是這樣。 KTPs 概念說明
將原始離散訊號分離成多頻帶訊號,具有可逆性 主要特色在於具有較好的壓縮性與降低雜訊干擾 處理上比傅立葉轉換還有效率 離散小波轉換
c(n) d(n)
離散小波轉換 d(n)
離散小波轉換
1988 Daubechies 離散小波轉換
濾除雜訊 離散小波轉換
即使知道基礎的小波轉換,但與文章上的小波轉換 有明顯的不同,沒辦法理解文章上所提的式子,且 對於數學式子的概念明顯薄弱。 PS. Moving Average System 與離散小波轉換的關聯性 ? 卡關點
謝謝聆聽。 離散小波轉換參考文章 - Wavelet Transforms | A Quick Study To Be Continued? 報告結束