黃同 邵思飛
摘 要: 提出了一種基于CDF9?7小波和自適應Otsu算法的視頻圖像字幕分割算法。首先從視頻中截取視頻圖像,并對其進行灰度化等預處理,其次對預處理后的圖像進行CDF9?7小波變換,獲取其水平和垂直的高頻分量HH,然后使用自適應Otsu算法分割出該高頻分量圖像中的字幕區域。實驗表明,該算法分割效果良好,具有一定的魯棒性和自適應性。以這些區域為基礎,可以進一步完成諸如視頻字幕識別等圖像分析、理解和識別操作。
關鍵字: CDF9?7小波; 自適應Otsu算法; 視頻字幕; 圖像分割
中圖分類號: TN911.73?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2014)09?0050?03
0 引 言
視頻是依據人眼視覺暫留原理,存儲的看上去平滑連續而實際上動態捕捉的一系列的靜態照片,已經成為互聯網上除文字、聲音之外最重要的媒體形式,對其自動分析與理解已經成為當前網絡監管的重要研究內容。視頻圖像中的文字隱含了非常豐富的高層語義信息,對其分割、定位、識別、理解和檢索具有重要的現實意義。從這些處理步驟來講,分割和定位操作是字符識別、理解和檢索等高層處理的基礎,直接影響著高層處理的成功率和精確度。字幕作為視頻中最重要的文字,有的以獨立的字幕文件存在,而有的被嵌入在視頻圖像中。獨立存在的字幕文件往往僅包含時間區間和文本信息,比較容易處理,而嵌入在視頻圖像中的字幕就必須首先進行圖像分割操作,然后采用適當算法定位這些文字的區域。
圖像分割就是把圖像分解成有限個感興趣的和特質相關的區域的一種操作,是圖像分析、理解和識別操作的基礎,因此研究人員從各個學科出發,提出并不斷改進了很多圖像分割方法。目前主要的分割方法有基于閾值設定、基于邊緣檢測、基于區域、基于聚類分析、基于模糊集理論[1],以及基于群體智能[2]等眾多分割方法。這些算法各有優缺點,存在的主要問題是適用范圍的局限性和較低的準確性及魯棒性。本文提出的CDF9?7小波變換結合自適應Otsu算法的視頻圖像分割方法,對于視頻圖像中字幕區域的分割效果良好。
1 視頻圖像分割步驟
本文給出的分割方法總體來說有三步。首先,先從視頻中獲取視頻圖像,對彩色圖像則要進行去噪和灰度化等預處理。目的在于盡可能削弱圖像背景級噪聲對字幕文字的相關性。然后,對預處理后的圖像進行CDF9?7小波變換,獲取其水平和垂直方向的高頻分量HH。因為CDF9?7小波是滿足線性相位要求的非常適用于圖像處理的雙正交小波,而視頻字幕區域背景和字幕顏色往往對比度高,邊緣信息和高頻分量豐富。最后,使用自適應Otsu算法找出該高頻分量中的最佳閾值,分割出圖像中包含字幕文字的有效區域。
1.1 CDF9?7小波
9?7小波是一個雙正交小波[3],其正交性體現在母小波[ψ]及其對偶母小波[ψ]之間,[ψ]和[ψ]本身沒有正交性, 即[<ψm,n,ψj,k>=δm,jδn,k],對應地其尺度函數[?]及其對偶尺度函數[?]也滿足正交關系,即[=δm,jδn,k],[ψ]和[ψ]構成一對[L2(R)]空間的雙正交小波基。正交小波可視為是在[ψ=ψ]時的雙正交小波的特例。雖然相對正交小波,9?7雙正交小波正交性放寬或者說變弱,但是它具有很好的對稱性和線性相位特性。其濾波器系數獲取可以通過求解約束PR條件得到。但約束條件畢竟只是必要條件,為使無窮乘積收斂,Cohen、Daubechies和Feauveau提出了以它們名字首字母命名的CDF方法,在求解時增加了新的消失矩條件,求解出了系數和沒有消失矩條件略有不同的9?7小波,可記為CDF9?7小波。這種小波除了原有的對稱性和線性相位這些優點外,支撐區間變小且收斂更快,正是由于CDF9?7小波的這些優秀特征,因而被廣泛用于圖像處理等領域,目前已經成為了JPEG 2000有損圖像壓縮標準中的默認小波。但在具體實現中,由于圖像數據量往往很大,為提高運行效率,往往并不直接采用離散小波變換的快速算法(MALLAT算法),而是對CDF9?7小波進行提升實現,在同等條件下,運算速度和效率較MALLAT算法提高2倍。
CDF9?7小波對二維圖像變換的步驟是,首先用分析濾波器[h,g]對圖像(記為[cj+1l,n])的列做小波變換,得到低頻部分[nhn-2mcj+1l,n]和高頻部分[ngn-2mcj+1l,n]。然后對低頻部分的行做小波變換,得到低頻中的低頻分量[cjk,m](記為LL)和低頻中的高頻分量[dj,1k,m](記為HL);對高頻部分的行做小波變換,得到高頻中的低頻分量[dj,2k,m](記為LH)和高頻中的高頻分量[dj,3k,m](記為HH)。以上分解也可以先做行小波變換再做列小波變換,結果相同。最后,圖像經一級分解后由如下4塊區域組成:
[LLHLLHHH或cjk,mdj,1k,mdj,2k,mdj,3k,m]
多級分解可以持續對LL分量(圖像概貌)進行,最終圖像變成塔式結構,為區分每個小塊,一般需要對LL等塊添加代表分解級數的下標。由于一般的視頻字幕文字區域與背景(往往純色)存在比較強的邊緣,對比度高,邊緣信息和高頻分量本身非常豐富,因此,經過分解后,利于圖像分割的信息主要集中在高頻中的高頻分量HH中;多級分解必然是對上次分解的低頻分量LL進行,本身隱含的視頻字幕文字區域信息很少。經過多種條件下的反復測試,在準確率基本一致的情況下,多級分解運算量大幅度提高,并無必要,對預處理后的圖像只需要使用CDF9?7小波變換進行了一級分解即可。即完成一級分解得到的[HH1]送做后續處理,其他3塊數據暫時不用。
1.2 自適應Otsu算法
經過CDF9?7小波分解后的圖像區域[HH1]濾除了原視頻圖像中的低頻信息,隱含了大量視頻圖像的高頻邊緣信息,但并沒有對圖像進行分割,同時由于圖像背景的復雜性, 視頻圖像字幕區域之外的部分仍然存在很多對比度高的邊緣信息,因而必須采用相應的方法進行分割和判定。
傳統的Otsu算法一般被認為是圖像閾值方式分割中閾值選取的“最佳算法”,也可以稱為最大類間差法或大津算法[4]。這種算法計算簡單,受圖像對比度和亮度影響較小,因而在圖像分割領域應用廣泛。其基本理論是按圖像的灰度特性,尋找出灰度范圍在0~[L-1]之間共[L]個灰度級的圖像的使得類間方差[d]最大的最佳閾值[t],小于[t]的像素集歸為背景,大于[t]的像素集歸為前景。用數學方法描述即為:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中變量:[bp]為取最佳閾值時背景總的像素點占整幅圖像的比例(概率);[be]為取最佳閾值時背景總的像素點灰度值的均值;[fp]為取最佳閾值時前景總的像素點占整幅圖像的比例(概率);[fe]為取最佳閾值時前景總的像素點灰度值的均值;[u]為整幅圖像像素點灰度值的均值。使以上表達式值最大的[t],即為分割圖像的最佳閾值。類間方差越大,則背景和前景的差別越大,類間方差越小,則背景和前景的差別越小。造成類間方差變小的原因主要是閾值計算不當,使得部分背景錯分為前景或部分前景錯分為背景,因此,最佳閾值的選擇至關重要。
這種算法雖然簡單且效果較好,但是也有一些顯著缺陷。主要有:
(1) 最佳閾值的選取必須遍歷圖像整個灰度范圍[0~L-1]內的所有像素,逐個計算類間方差[d]并找出使類間方差最大的[t,]運算量大,難以滿足視頻圖像中字幕區域的分割這樣的實時系統應用;
(2) 閾值選取是在整個視頻圖像范圍進行計算,而實際視頻幀圖像本身灰度分布動態變化且受到各種噪聲的干擾,僅利用灰度直方圖得到的閾值難以得到滿意的圖像字幕區域分割結果。
為此,在視頻圖像中字幕區域圖像分割這樣的實時應用中,針對以上兩點不足,考慮到視頻圖像字幕區域往往集中在視頻圖像下部,甚至有的字幕區域背景還是純色或少量噪聲的實際,提出了一種自適應的Otsu算法。設某視頻圖像分辨率(寬×高)為[m×n](如640×480,1 280×720等),共[L]個灰度級,其基本方法步驟是:首先,根據圖像高度,自適應地確定字幕區域的高度范圍,截取字幕區域子圖像并結合根據sum(第[k]行像素值)等于或約等于[m×L,]用軟件簡單計算,自適應地判別上述字幕區域背景是否為純色(如白和黑)或近似純色。好處是,最佳閾值[t]的選取局限在較小區域,大幅度降低了運算量;然后,選擇字幕區域子圖像灰度值中位數作為“最佳閾值”或傳統的Otsu算法遍歷出最佳閾值。特別地,對字幕區域中字符和背景為純色或近似純色的情況,即使有噪聲,灰度個數或灰度級[L]也非常小,傳統的Otsu算法可以極快找出最佳閾值,甚至可以直接灰度值中位數作為“最佳閾值”,兩種方案都可以進一步降低運算量,真正滿足實時系統要求;最后,使用上述最佳閾值對整幅視頻圖像進行分割。
2 實驗及結果
實驗全部在Matlab 2009b下編程完成,數據為常見的電影、新聞和動畫。目前,對于圖像分割效果的評價,沒有統一的客觀數量指標[5],本文的評價指標設定為傳統的Otsu算法求出的最佳閾值和自適應Otsu算法求出的最佳閾值之間的差值[td,]傳統的Otsu算法耗時減去自適應Otsu算法耗時的時間差[jl。]以從電影《第五元素》中截取的一個視頻圖像為實例,其分辨率為560×315,寬高比為16∶9,經過對比計算[td]等于3,可見閾值差別很小;[jl]等于80 ms,如果將整個2小時5分鐘的整個視頻累積,則總的[jl]近590 s,可見自適應Otsu算法效率和實時性顯著提升。作為實例的視頻圖像按自適應Otsu算法所得閾值進行圖像分割的結果如圖1所示。從實驗結果看出,改進的算法令人滿意。
圖1 視頻圖像分割結果
3 結 語
本研究提出的基于CDF9?7小波分析和自適應Otsu算法的視頻圖像分割方法,較其他分割方法大幅度降低了運算量,高效易行,滿足實時性需求并具有一定的魯棒性。以這些區域為基礎,可以進一步完成諸如視頻文字區域定位等圖像分析、理解和識別操作。但由于視頻圖像背景的復雜性,算法的準確性及魯棒性仍需進一步提升。
參考文獻
[1] 何俊,葛紅.王玉峰.圖像分割算法研究綜述[J].計算機工程與科學,2009(12):58?61.
[2] 馬苗,劉艷麗.圖像分割背景下群體智能優化算法的性能對比[J].云南大學學報:自然科學版,2012(4):401?407.
[3] 劉在德,常晉義,沈鈞毅.一類雙正交插值小波的參數化構造及圖像編碼應用[J].中國圖象圖形學報,2010(4):557?564.
[4] 胡敏,宋銀龍.基于二維Otsu和模糊聚類的圖像分割算法[J].計算機應用研究,2012(4):1563?1565.
[5] 鄧廷權,焦穎穎.圖像分割質量評價的二型模糊集方法[J].計算機工程與應用,2011(32):217?220.
[6] 彭正濤,方康玲,蘇志祁.基于改進PSO算法的Otsu快速多閾值圖像分割[J].現代電子技術,2011,34(6):10?14.
傳統的Otsu算法一般被認為是圖像閾值方式分割中閾值選取的“最佳算法”,也可以稱為最大類間差法或大津算法[4]。這種算法計算簡單,受圖像對比度和亮度影響較小,因而在圖像分割領域應用廣泛。其基本理論是按圖像的灰度特性,尋找出灰度范圍在0~[L-1]之間共[L]個灰度級的圖像的使得類間方差[d]最大的最佳閾值[t],小于[t]的像素集歸為背景,大于[t]的像素集歸為前景。用數學方法描述即為:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中變量:[bp]為取最佳閾值時背景總的像素點占整幅圖像的比例(概率);[be]為取最佳閾值時背景總的像素點灰度值的均值;[fp]為取最佳閾值時前景總的像素點占整幅圖像的比例(概率);[fe]為取最佳閾值時前景總的像素點灰度值的均值;[u]為整幅圖像像素點灰度值的均值。使以上表達式值最大的[t],即為分割圖像的最佳閾值。類間方差越大,則背景和前景的差別越大,類間方差越小,則背景和前景的差別越小。造成類間方差變小的原因主要是閾值計算不當,使得部分背景錯分為前景或部分前景錯分為背景,因此,最佳閾值的選擇至關重要。
這種算法雖然簡單且效果較好,但是也有一些顯著缺陷。主要有:
(1) 最佳閾值的選取必須遍歷圖像整個灰度范圍[0~L-1]內的所有像素,逐個計算類間方差[d]并找出使類間方差最大的[t,]運算量大,難以滿足視頻圖像中字幕區域的分割這樣的實時系統應用;
(2) 閾值選取是在整個視頻圖像范圍進行計算,而實際視頻幀圖像本身灰度分布動態變化且受到各種噪聲的干擾,僅利用灰度直方圖得到的閾值難以得到滿意的圖像字幕區域分割結果。
為此,在視頻圖像中字幕區域圖像分割這樣的實時應用中,針對以上兩點不足,考慮到視頻圖像字幕區域往往集中在視頻圖像下部,甚至有的字幕區域背景還是純色或少量噪聲的實際,提出了一種自適應的Otsu算法。設某視頻圖像分辨率(寬×高)為[m×n](如640×480,1 280×720等),共[L]個灰度級,其基本方法步驟是:首先,根據圖像高度,自適應地確定字幕區域的高度范圍,截取字幕區域子圖像并結合根據sum(第[k]行像素值)等于或約等于[m×L,]用軟件簡單計算,自適應地判別上述字幕區域背景是否為純色(如白和黑)或近似純色。好處是,最佳閾值[t]的選取局限在較小區域,大幅度降低了運算量;然后,選擇字幕區域子圖像灰度值中位數作為“最佳閾值”或傳統的Otsu算法遍歷出最佳閾值。特別地,對字幕區域中字符和背景為純色或近似純色的情況,即使有噪聲,灰度個數或灰度級[L]也非常小,傳統的Otsu算法可以極快找出最佳閾值,甚至可以直接灰度值中位數作為“最佳閾值”,兩種方案都可以進一步降低運算量,真正滿足實時系統要求;最后,使用上述最佳閾值對整幅視頻圖像進行分割。
2 實驗及結果
實驗全部在Matlab 2009b下編程完成,數據為常見的電影、新聞和動畫。目前,對于圖像分割效果的評價,沒有統一的客觀數量指標[5],本文的評價指標設定為傳統的Otsu算法求出的最佳閾值和自適應Otsu算法求出的最佳閾值之間的差值[td,]傳統的Otsu算法耗時減去自適應Otsu算法耗時的時間差[jl。]以從電影《第五元素》中截取的一個視頻圖像為實例,其分辨率為560×315,寬高比為16∶9,經過對比計算[td]等于3,可見閾值差別很??;[jl]等于80 ms,如果將整個2小時5分鐘的整個視頻累積,則總的[jl]近590 s,可見自適應Otsu算法效率和實時性顯著提升。作為實例的視頻圖像按自適應Otsu算法所得閾值進行圖像分割的結果如圖1所示。從實驗結果看出,改進的算法令人滿意。
圖1 視頻圖像分割結果
3 結 語
本研究提出的基于CDF9?7小波分析和自適應Otsu算法的視頻圖像分割方法,較其他分割方法大幅度降低了運算量,高效易行,滿足實時性需求并具有一定的魯棒性。以這些區域為基礎,可以進一步完成諸如視頻文字區域定位等圖像分析、理解和識別操作。但由于視頻圖像背景的復雜性,算法的準確性及魯棒性仍需進一步提升。
參考文獻
[1] 何俊,葛紅.王玉峰.圖像分割算法研究綜述[J].計算機工程與科學,2009(12):58?61.
[2] 馬苗,劉艷麗.圖像分割背景下群體智能優化算法的性能對比[J].云南大學學報:自然科學版,2012(4):401?407.
[3] 劉在德,常晉義,沈鈞毅.一類雙正交插值小波的參數化構造及圖像編碼應用[J].中國圖象圖形學報,2010(4):557?564.
[4] 胡敏,宋銀龍.基于二維Otsu和模糊聚類的圖像分割算法[J].計算機應用研究,2012(4):1563?1565.
[5] 鄧廷權,焦穎穎.圖像分割質量評價的二型模糊集方法[J].計算機工程與應用,2011(32):217?220.
[6] 彭正濤,方康玲,蘇志祁.基于改進PSO算法的Otsu快速多閾值圖像分割[J].現代電子技術,2011,34(6):10?14.
傳統的Otsu算法一般被認為是圖像閾值方式分割中閾值選取的“最佳算法”,也可以稱為最大類間差法或大津算法[4]。這種算法計算簡單,受圖像對比度和亮度影響較小,因而在圖像分割領域應用廣泛。其基本理論是按圖像的灰度特性,尋找出灰度范圍在0~[L-1]之間共[L]個灰度級的圖像的使得類間方差[d]最大的最佳閾值[t],小于[t]的像素集歸為背景,大于[t]的像素集歸為前景。用數學方法描述即為:[t=max(d),][d=bp(t)*(be(t)-u)2+fp(t)*(fe(t)-u)2],其中變量:[bp]為取最佳閾值時背景總的像素點占整幅圖像的比例(概率);[be]為取最佳閾值時背景總的像素點灰度值的均值;[fp]為取最佳閾值時前景總的像素點占整幅圖像的比例(概率);[fe]為取最佳閾值時前景總的像素點灰度值的均值;[u]為整幅圖像像素點灰度值的均值。使以上表達式值最大的[t],即為分割圖像的最佳閾值。類間方差越大,則背景和前景的差別越大,類間方差越小,則背景和前景的差別越小。造成類間方差變小的原因主要是閾值計算不當,使得部分背景錯分為前景或部分前景錯分為背景,因此,最佳閾值的選擇至關重要。
這種算法雖然簡單且效果較好,但是也有一些顯著缺陷。主要有:
(1) 最佳閾值的選取必須遍歷圖像整個灰度范圍[0~L-1]內的所有像素,逐個計算類間方差[d]并找出使類間方差最大的[t,]運算量大,難以滿足視頻圖像中字幕區域的分割這樣的實時系統應用;
(2) 閾值選取是在整個視頻圖像范圍進行計算,而實際視頻幀圖像本身灰度分布動態變化且受到各種噪聲的干擾,僅利用灰度直方圖得到的閾值難以得到滿意的圖像字幕區域分割結果。
為此,在視頻圖像中字幕區域圖像分割這樣的實時應用中,針對以上兩點不足,考慮到視頻圖像字幕區域往往集中在視頻圖像下部,甚至有的字幕區域背景還是純色或少量噪聲的實際,提出了一種自適應的Otsu算法。設某視頻圖像分辨率(寬×高)為[m×n](如640×480,1 280×720等),共[L]個灰度級,其基本方法步驟是:首先,根據圖像高度,自適應地確定字幕區域的高度范圍,截取字幕區域子圖像并結合根據sum(第[k]行像素值)等于或約等于[m×L,]用軟件簡單計算,自適應地判別上述字幕區域背景是否為純色(如白和黑)或近似純色。好處是,最佳閾值[t]的選取局限在較小區域,大幅度降低了運算量;然后,選擇字幕區域子圖像灰度值中位數作為“最佳閾值”或傳統的Otsu算法遍歷出最佳閾值。特別地,對字幕區域中字符和背景為純色或近似純色的情況,即使有噪聲,灰度個數或灰度級[L]也非常小,傳統的Otsu算法可以極快找出最佳閾值,甚至可以直接灰度值中位數作為“最佳閾值”,兩種方案都可以進一步降低運算量,真正滿足實時系統要求;最后,使用上述最佳閾值對整幅視頻圖像進行分割。
2 實驗及結果
實驗全部在Matlab 2009b下編程完成,數據為常見的電影、新聞和動畫。目前,對于圖像分割效果的評價,沒有統一的客觀數量指標[5],本文的評價指標設定為傳統的Otsu算法求出的最佳閾值和自適應Otsu算法求出的最佳閾值之間的差值[td,]傳統的Otsu算法耗時減去自適應Otsu算法耗時的時間差[jl。]以從電影《第五元素》中截取的一個視頻圖像為實例,其分辨率為560×315,寬高比為16∶9,經過對比計算[td]等于3,可見閾值差別很??;[jl]等于80 ms,如果將整個2小時5分鐘的整個視頻累積,則總的[jl]近590 s,可見自適應Otsu算法效率和實時性顯著提升。作為實例的視頻圖像按自適應Otsu算法所得閾值進行圖像分割的結果如圖1所示。從實驗結果看出,改進的算法令人滿意。
圖1 視頻圖像分割結果
3 結 語
本研究提出的基于CDF9?7小波分析和自適應Otsu算法的視頻圖像分割方法,較其他分割方法大幅度降低了運算量,高效易行,滿足實時性需求并具有一定的魯棒性。以這些區域為基礎,可以進一步完成諸如視頻文字區域定位等圖像分析、理解和識別操作。但由于視頻圖像背景的復雜性,算法的準確性及魯棒性仍需進一步提升。
參考文獻
[1] 何俊,葛紅.王玉峰.圖像分割算法研究綜述[J].計算機工程與科學,2009(12):58?61.
[2] 馬苗,劉艷麗.圖像分割背景下群體智能優化算法的性能對比[J].云南大學學報:自然科學版,2012(4):401?407.
[3] 劉在德,常晉義,沈鈞毅.一類雙正交插值小波的參數化構造及圖像編碼應用[J].中國圖象圖形學報,2010(4):557?564.
[4] 胡敏,宋銀龍.基于二維Otsu和模糊聚類的圖像分割算法[J].計算機應用研究,2012(4):1563?1565.
[5] 鄧廷權,焦穎穎.圖像分割質量評價的二型模糊集方法[J].計算機工程與應用,2011(32):217?220.
[6] 彭正濤,方康玲,蘇志祁.基于改進PSO算法的Otsu快速多閾值圖像分割[J].現代電子技術,2011,34(6):10?14.