(北京工業大學 信號與信息處理研究室, 北京 100124)
摘 要:
將視頻序列通過關鍵幀提取的方式轉換成靜態圖像,然后利用圖像處理技術進行分析是視頻處理的一種有效方法。首先討論了近年來基于壓縮域的關鍵幀提取技術,然后分析和討論了針對敏感視頻識別應用的關鍵幀提取方法,并給出了一種快速有效的關鍵幀提取方案。
關鍵詞:視頻處理; 壓縮域; 關鍵幀; 敏感視頻
中圖分類號:TP391 文獻標志碼:
文章編號:1001-3695(2009)02-744-03
Study on key frames extraction for video processing in compressed domain
ZHAO Shi-wei, ZHUO Li, SHEN Lan-sun
(Signal Information Processing Lab, Beijing University of Technology, Beijing 100124, China)
Abstract:The approach of retrieve key frames from video and then process them is an efficient way to process video data. Reviewed the research results of extracting key frames based on compressed domain in recently years, and made analysis and discussion to retrieve key frames for applications to identify objectionable video. Proposed a fast and efficient scheme for this goal at the end.
Key words:video processing; compressed domain; key frames; objectionable video
圖像/視頻信息具有海量性與無序性的特點[1],尤其是視頻信息數據量龐大,出于存儲和傳輸的考慮,這類信息是以壓縮的形式存在的。傳統的視頻處理技術是在像素域進行的,對于壓縮形式的數據需要將其解壓至像素域進行處理。壓縮域視頻處理技術研究如何在不解碼或部分解碼的壓縮碼流上直接進行操作[1,2]。基于壓縮域的數據處理具有以下優勢:省去了大部分解碼時間,處理速度快;直接對壓縮碼流操作,資源占用少;壓縮域特殊的編碼結構在一定程度上適應了多媒體數據分析的要求。基于壓縮域的視頻處理技術所具有的這些優勢,對于快速的視頻信息的檢索、網絡信息安全等均具有重要的意義。
近年來,基于壓縮域的圖像處理技術已經取得明顯進展。文獻[3]提出了一種直接在DCT壓縮域根據Retinex理論,利用DCT變換的系數進行圖像增強的算法;文獻[4]提出了一種在DCT壓縮域進行圖像任意比例縮放的算法;文獻[5]提出了基于JPEG2000壓縮域進行圖像亮度調整、對比度調整、圖像重疊、線性濾波等操作的方法。除此之外,基于壓縮域的圖像檢索技術也取得了不少研究成果。文獻[6]在4×4整數變換后的壓縮域中,利用每個系數的8鄰域值構建了BFV(binary feature vector)和TFV(ternary feature vector)特征矢量,并通過統計直方圖進行圖像檢索,取得了較好的檢索效果;文獻[7]擴展了MPEG-7中的邊緣直方圖描述,并在DCT壓縮域中提取出了圖像的邊緣信息,為基于邊緣的圖像檢索打下基礎。文獻[8~10]研究了從JPEG和JPEG2000壓縮的圖像中提取統一特征的方法,并提出了跨越不同壓縮標準的壓縮域圖像檢索方法。北京工業大學信號與信息處理研究室對基于壓縮域的圖像處理和檢索技術進行了大量的研究,并在壓縮域的紋理信息分類[11~13]、輪廓提取[14]、字符定位[15,16]、膚色分割[17]、人臉檢測[18,19]等方面取得了一系列的成果。
視頻信息可以看做是靜態圖像的組合,鑒于當前已經在壓縮域圖像處理領域取得的進展,將壓縮域視頻處理轉換為圖像處理是一種自然的選擇。然而由于相鄰視頻幀之間存在內容上的相關性,如果對視頻的每一幀都進行處理,則工作量會很大,且將產生大量的冗余操作。因此,通過關鍵幀提取技術在視頻中提取出若干有代表性的幀圖像,然后再通過圖像處理進行分析,是對視頻信息進行分析處理的可行方法。
關鍵幀提取作為視頻分析的關鍵技術之一是當前視頻處理領域的一個研究熱點[20],然而目前的關鍵幀提取算法大多以視頻檢索或視頻摘要為目的,力求用盡量少的幀完整表征視頻內容,并沒有考慮關鍵幀的后續處理以及其他目的的應用。但是對于某些具體的應用,如敏感視頻的識別,在提取出關鍵幀后還需要進一步分析處理,這就要求所提取出的關鍵幀具有較好的靜態表達能力,處于鏡頭過渡期間或者運動劇烈的幀顯然不適合。
1 壓縮域視頻處理關鍵幀的提取
海量的視頻數據為存儲和傳輸帶來挑戰,為此國際上制定了多種視頻壓縮標準。其中國際標準化組織ISO/IEC的運動圖像專家組所制定的MPEG系列標準已廣泛應用在光盤存儲、數字電視、網絡多媒體等環境中。當前壓縮域的關鍵幀提取技術大多針對MPEG壓縮域進行研究,本文對壓縮域中關鍵幀提取技術的分析和討論也將基于MPEG壓縮域。
1. 1 壓縮視頻碼流中可提取的特征
大部分MPEG壓縮碼流中存在三種類型的編碼幀:I幀、P幀和B幀。其中,I幀為幀內編碼幀,采用類似JPEG的編碼方式編碼;P幀為預測編碼幀,采用前向運動補償預測,并對殘差DCT編碼。B幀為雙向預測編碼幀,采用雙向的運動補償,并對殘差DCT編碼。16×16的宏塊是各幀編碼的基本單元,包含宏塊預測類型信息和運動矢量信息。根據預測編碼方式的不同,宏塊可分為以下四種類型:
a)幀內編碼宏塊。沒有參考其他像素塊,僅對原始數據進行DCT編碼。
b)前向預測宏塊。當前塊在經前面的參考幀中最匹配的相應塊預測后,對其殘差數據進行DCT編碼。
c)后向預測宏塊。當前塊在經后面的參考幀中最匹配的相應塊預測后,對其殘差數據進行DCT編碼。
d)雙向預測宏塊。當前塊在經前后參考幀中最匹配的相應塊預測后,對其殘差數據進行DCT編碼。
如果碼流中的某幀含有較多的前向預測宏塊,則說明該幀與其前面的參考幀相匹配的宏塊較多,也即兩幀之間內容的相關性較大。宏塊中的運動矢量指的是預測塊與當前塊之間的位移差,可以反映兩幀之間的運動劇烈程度。其他類型宏塊與之類似。因而各幀中各種類型的宏塊數量及運動矢量的大小可在一定程度上反映當前幀與參考幀之間的內容相關程度和運動劇烈程度。
通過上述分析,可以在部分解碼或不解碼的情況下從視頻碼流中獲取DCT系數、宏塊類型、運動矢量等特征,這為壓縮域的視頻處理提供了條件。
1. 2 基于壓縮域的關鍵幀提取技術
關鍵幀作為架通視頻與圖像處理的橋梁,其圖像的表達能力和提取速度對后續的處理有重要的影響。當前壓縮域關鍵幀提取技術根據其機理的不同分為如下三種:
a)等時間間隔采樣的方法。它
是一種最為直接、簡單的提取關鍵幀的方法,這種方法以固定的時間間隔抽取視頻幀,并將其作為視頻序列的關鍵幀。這種方法的優點顯而易見,算法簡單并且計算復雜度低,能夠實時順序地提取關鍵幀。該方法僅是基于時間的下采樣,沒有考慮視頻幀內容,因而具有如下缺點:(a)對于時間短含義豐富的視頻段容易遺漏關鍵幀,而對于時間長、基本靜止、含義少的視頻段卻會提取到多幅關鍵幀,造成冗余;(b)采用這種方法提取的關鍵幀無法保證不是恰好位于鏡頭漸變期間的過渡幀或運動劇烈的幀,這類視頻幀不利于后續的處理。
b)基于幀間內容變化的方法。該
方法是一種根據各視頻幀之間的內容變化程度提取關鍵幀的方法,能夠較完整地表達視頻內容,所提取的關鍵幀集具有較少的冗余度。當前的研究主要集中在如何在壓縮域中提取表征視頻幀內容的特征、如何計算兩幀之間內容的變化程度以及如何根據幀間內容變化值判斷視頻幀是否可作為關鍵幀等。
順序判斷幀間內容的變化是最為簡單的一種方法,其基本原理是選取鏡頭的第一幀作為第一個關鍵幀,后續各幀與前一關鍵幀相比較,如果兩幀的內容變化大于某閾值,則提取該幀作為當前的關鍵幀,然后重復處理[20]。對于兩幀間變化程度的衡量所使用的度量標準并不是惟一的,例如,文獻[21]應用了各幀的顏色直方圖差;文獻[22]則使用相鄰幀對應圖像塊的累計能量差作為度量標準。這種方法簡單、可順序執行,用于實時或在線環境。然而該方法僅是局部范圍的內容比較,產生的關鍵幀不緊湊會有冗余。若選取的第一個關鍵幀恰是鏡頭變換的過渡幀,那關鍵幀的內容表示能力將下降。另外,如何設置適應于各種視頻類型的閾值是這類方法的難點。
文獻[23]按照文獻[24]的方法,直接從壓縮碼流中提取DC系數組成DC圖,并根據當前幀DC圖與前后相鄰幀DC圖對應像素點的差的絕對值的和建立像素變化圖,用于反映相鄰幀的內容變化程度,并建立自回歸模型用于提取關鍵幀。文獻[25]提取MPEG壓縮碼流中I幀的DC系數組成DC圖,并應用顏色直方圖的方法確定各DC圖之間的內容變化程度,最后利用線性逼近的方法從中提取關鍵幀。文獻[26]從MPEG壓縮碼流中提取每幀宏塊編碼類型的統計信息,并據此推斷各幀間的內容變化程度,最后提取幀間內容變化處于局部最小的幀作為關鍵幀。文獻[27]認為一個鏡頭中變化比較劇烈的幀最能吸引人的注意,且含有較多的信息,應作為關鍵幀,從而提出了一種利用宏塊編碼類型和運動矢量這兩個特征生成表征視頻幀運動劇烈程度的度量數據,然后根據運動劇烈程度提取關鍵幀的算法。然而由于視頻流中的幀內編碼宏塊不含有運動矢量信息,無法衡量該類型宏塊的運動劇烈程度。為了彌補這個不足,文獻[28]綜合運用了亮度分量DCT系數中的DC值、宏塊編碼類型和運動矢量信息,建立了統一衡量預測編碼宏塊和幀內編碼宏塊運動劇烈程度的度量模型,提高了關鍵幀提取的準確度。
c)基于聚類的方法。其
原理是將視頻序列中的每一幀圖像視為特征空間的一點,并將這些點聚類,濾除噪聲,選取各聚類中最接近聚類中心的點所對應的幀作為關鍵幀。當前對這種方法的研究主要集中在如何將視頻幀從圖像空間轉換至特征空間。文獻[29]首先基于子鏡頭初步提取關鍵幀,然后在初步提取的關鍵幀中提取DC系數組成DC圖,并將DC圖劃分為3×3的子塊,提取每個子塊的顏色直方圖作為圖像的特征矢量,最后應用K-均值聚類算法進一步提取關鍵幀。聚類的方法產生的關鍵幀數量少、代表性強,無須人工干預,是目前關鍵幀提取算法中最常用的一種方法。雖然這種方法能夠提取更為緊湊的關鍵幀集,但是不適合實時應用,無法保留關鍵幀的時間順序關系。
以上討論的關鍵幀提取算法所應用的均是視頻幀圖像的底層特征。關鍵幀的提取是以盡量小的幀集最大程度表征視頻內容為目的。然而,由于底層特征與高層語義之間存在著語義鴻溝,這類關鍵幀提取方法對于某些具體應用并不適合。例如在視頻中查找某特定人,所提取的大量不含人臉信息的關鍵幀將為后續處理增加不必要的負擔。為了解決這個問題,底層特征和高層語義特征相結合的關鍵幀提取方法是一種新的研究思路。
2 針對敏感視頻識別應用的關鍵幀的提取方案
2. 1 敏感視頻識別中關鍵幀提取分析
因特網的開放性與匿名性特點[30]使青少年很容易訪問到一些色情的視頻信息,這些敏感信息的傳播給社會造成了很大的危害,因而對敏感視頻進行識別具有重要的意義。敏感視頻識別的一種重要的方法是通過提取視頻序列的關鍵幀,將視頻識別問題轉換至圖像的識別問題。文獻[31,32]所提出的敏感視頻識別算法中,采用60 s固定時間間隔的方法從待檢測的視頻中提取出關鍵幀。這種提取方法雖然速度快,但是很容易提取出大量不含膚色信息的明顯的非敏感視頻幀,也會對變化較少的鏡頭提取出大量冗余關鍵幀,這對后續識別造成不必要的負擔。文獻[33]所提出的敏感視頻識別算法中,首先將待檢測視頻解壓至像素域,然后通過HSV顏色空間的顏色直方圖方法檢測視頻序列的鏡頭,再在完成鏡頭分割的基礎上,根據幀間內容顯著變化的方法提取關鍵幀。這種方法不僅耗費了大量的時間,而且也易提取出大量不含膚色信息的明顯的非敏感幀,進一步降低了識別速度。由此可見,研究針對敏感視頻識別這一特定應用的快速有效的關鍵幀提取方法可以提高敏感視頻識別速度,降低系統負擔。
2. 2 針對敏感視頻識別應用的關鍵幀提取方案
對于敏感視頻識別,提取關鍵幀的目的是利用敏感圖像識別的方法分析關鍵幀的性質,以進一步確定待檢測視頻是否是敏感視頻。敏感圖像中含有較多的膚色信息已是一個公認的事實,因而可以將膚色面積作為關鍵幀提取的一個高層語義特征,與其他底層特征相結合提取運動程度較低且含有較多膚色信息的幀作為關鍵幀。
不失一般性,下面以圖像組結構為IBBPBBPBBP …的碼流為例介紹針對敏感視頻識別應用的關鍵幀提取方案。該方案可通過簡單的擴展而適用于其他圖像組結構的碼流。為了降低提取出關鍵幀后解碼的負擔,筆者僅在I幀和P幀中提取關鍵幀,且I幀優先考慮。雖然沒有考慮關鍵幀在B幀的情況,但由于連續B幀的數量不會太多,這對所提取出的關鍵幀不會造成太大影響。
關鍵幀的提取需要衡量兩幀之間內容變化程度,以及所提取的關鍵幀的運動劇烈程度。兩幀圖像內容之間的變化程度可以用壓縮域中提取的每幀圖像的DC圖[25]的直方圖差作為衡量標準;各幀之間的運動劇烈程度可以由如前所述的宏塊類型和運動矢量獲得。為了使提取出的關鍵幀含有較多的膚色信息,以利于進一步的分析處理,在關鍵幀提取中,需要在壓縮域進行膚色檢測。壓縮域的膚色檢測可以利用文獻[17]所提出的三維橢圓模型。
針對敏感視頻識別應用的關鍵幀提取的具體方案如下:
a)將最新確定的候選關鍵幀定義為Ki,并提取Ki的亮度DC圖。Ki與后續I幀組成碼流KiIi+1Ii+2Ii+3…。
b)抽取當前I幀的亮度DC圖,并與最新的候選關鍵幀Ki相比較,若其內容差大于設定的閾值th1,則將該I幀定義為Ix1,并繼續抽取下一I幀DC圖。
c)當前I幀DC圖與Ix1相比較,若其內容差大于設定的閾值th2,則將該I幀定義為Ix2,并轉至步驟d);否則取下一I幀,繼續比較。
d)計算Ix1與Ix2之間的所有I幀的運動劇烈程度,并求出其中運動劇烈程度最小值。若該值不大于設定的閾值th3,則將該I幀作為候選關鍵幀;否則,求出Ix1與Ix2之間運動劇烈程度最小的P幀,并將其作為候選關鍵幀。
e)抽取候選關鍵幀的DC圖,并應用基于DCT壓縮域的膚色分割算法[17]求出該候選關鍵幀中膚色區域面積。若該面積大于閾值th4,則將其作為關鍵幀并提取;繼續轉至第a)步執行,直至分析完畢。
上述方案綜合應用了DC系數、宏塊類型、運動矢量等直接提取自壓縮視頻流的底層特征和膚色所占面積這一高層語義特征,使提取出的關鍵幀集具有較好的圖像表達能力、含有較多的膚色信息、具有較少的冗余度。該方案的應用可快速有效地提取敏感視頻識別所需關鍵幀。
3 結束語
如何分析和處理海量的視頻信息已成為一個亟待解決的問題。鑒于近年來圖像處理技術的發展,將視頻處理的問題通過關鍵幀提取轉換為圖像處理是一種自然的選擇?;趬嚎s域的關鍵幀提取技術,力爭在不解碼或部分解碼的情況下提取視頻序列的關鍵幀,提高了系統的處理速度。但是,目前的關鍵幀提取方法大多是基于底層特征如DCT系數、宏塊類型、運動矢量等,針對視頻摘要的應用而研究,對于特殊目的的應用(如查找特定人、敏感視頻識別等)不能有效地提取所需的關鍵幀。因而根據應用的不同,結合視頻的底層特征和在壓縮域提取的高層語義特征提取關鍵幀將成為一種有效處理手段的進一步發展方向。
參考文獻:
[1]沈蘭蓀.壓縮域圖像/視頻信息處理技術的研究[J].計算機自動測量與控制,2000,8(5):1-3.
[2]沈蘭蓀,魏海,黃祥林.壓縮域圖像處理技術研究[J].北京工業大學學報,2000,26(3):24-32.
[3]LEES. An efficient content-based image enhancement in the comp-ressed domain using retinex theory[J]. IEEE Trans on Circuits and Systems for Video Technology, 2007,17(2) :199-213.
[4]SALAZARC, TRAN T D. A complexity scalable universal DCT domain image resizing algorithm[J]. IEEE Trans on Circuits and Systems for Video Technology, 2007,17(4) 495-49.
[5]CHEBIL F,MILED M K B H, ISLAM A. Compressed domain editing of JPEG2000 images[J].IEEE Trans on Consumer Electronics, 2005,51(2):710-717.
[6]ZHONGDai-di, DEFEE I. Study of image retrieval based on feature vectors in compressed domain[C]//Proc of the 7th Nordic Signal Processing Symposium. 2006: 202-205.
[7]HYUNS C,KYEONGOK K. A compressed domain scheme for classifying block edge patterns[J]. IEEE Trans on Image Proces-sing, 2005,14(2):145-151.
[8]AUK M, LAWN F,SIUW C. Unified feature analysis in different compressed domain[C]//Proc of the 14th International Conference on Information Communications and Signal Processing. 2003:71-75.
[9]AUK M, LAWN F,SIUW C. Spatial-spectral feature analysis in JPEG and JPEG2000[C]//Proc of International Symposium on Intelligent Multimedia, Video and Speech proassing. 2004: 378-381.
[10]AUK M, LAWN F,SIUW C. Direct image retrieval in JPEG and JPEG2000[C]//Proc of IEEE International Conference on Image Processing. 2005:11-14.
[11]黃祥林,沈蘭蓀.基于DCT壓縮域的紋理圖像分類[J]. 電子與信息學報,2002,24(2): 216-221.
[12]黃祥林,沈蘭蓀.一種基于旋轉不變性的壓縮域紋理圖像分類方法[J].電子與信息學報,2002,24(11):1441-1446.
[13]李曉華,沈蘭蓀.基于小波壓縮域的統計紋理特征提取[J].電子學報,2003,31(B12):2123-2126.
[14]黃祥林.基于壓縮域的圖像檢索技術的初步研究[D].北京:北京工業大學,2001.
[15]黃祥林,沈蘭蓀.基于DCT壓縮域的圖像字符定位[J].中國圖象圖形學報,2002,7(1):22-26.
[16]LI Xiao-hua, SHEN Lan-sun. Fast text location based on discrete wavelet transform[J]. Jounal of Electronics (China), 2005,22(4):385-394.
[17]李曉光,李曉華,沈蘭蓀.一種DCT壓縮域中基于三維橢圓模型的自適應膚色分割算法[J].電子學報,2005,33(B12):2464-2467.
[18]李曉光,李曉華,沈蘭蓀.一種基于多級梯度能量特征的DCT壓縮域人臉檢測算法[J].電子學報,2005,33(12): 2170-2173.
[19]LI Xiao-hua, SHEN Lan-sun. Detecting faces in the wavelet compressed domain[C]//Proc of SPIEVisual Communications and Image Processing. 2005:1-7.
[20]TRUONGB T, VENKATESHS. Video abstraction: a systematic review and classification [J]. ACM Trans on Multimedia Computing, Communications and Applications, 2007,3(1):1-37.
[21]ZHANG Hong-jian, WU Jian-hua, ZHONGDi, et.al. An integ-rated system for content-based video retrieval and browsing[J]. Pattern Recognition, 1997,30(4):643-658.
[22]ZHANG Xu-dong, LIU Tie-yan, LO K T, et al. Dynamic selection and effective compression of key frames for video abstraction[J]. Pattern Recognition Letters, 2003,24(9-10):1523-1532.
[23]YIHao-ran, RAIAND, CHIAL T. Global motion compensated key frame extraction from compressed videos[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing. 2005:18-23.
[24]YEOB L, LIUB. On the extraction of DC sequence from MPEG compressed video[C]//Proc of International Conference on Image Pocessing. Washington:IEEE Computer Society,1995:260-263.
[25]KIMT H, LEEW H, JEONGD S. Key-frame retrieval from MPEG video based on linear approximation of content curve[C]//Proc of SPIE Storage and Retrieval for Media Databases. 2003: 363-371.
[26]CALICJ, IZQUIERDOE. Efficient key-frame extraction and video analysis[C]//Proc of International Conference on Information Technology: Code and Computing. 2002:28-33.
[27]CHAUW S, AUO C, CHONGT S. Key frame selection by macro- block type and motion vector analysis[C]//Proc of IEEE Internatio-nal Conference on Multimedia and Expo. 2004:575-578.
[28]CHAUW S, AUO C, CHANT W, et.al. Optimal key frame selection using visual content metric[C]//Proc of International Confe-rence on Communications, Circuits and Systems. 2005:27-30.
[29]LEES. Video analysis and abstraction in the compressed domain[D]. Georgia: Georgia Institute of Technology, 2003.
[30]沈蘭蓀,王素玉.壓縮域互聯網信息監測過濾儀關鍵技術研究[J].現代科學儀器, 2006(5):44-48.
[31]LEES, LEEH, NAM T. A comparative study of the objectionable video classification approaches using single and group frame features[C]//Proc of the 16th International Conference on Artificial Neural Networks. 2006:617-623.
[32]LEEH, LEES, NAMT. Implementation of high performance objectionable video classification system[C]//Proc of the 8th International Conference on Advanced Communication Technology. 2006:959-962.
[33]WANG Dong-hui, ZHU Miao-liang, YUAN Xin,et.al.Identification and annotation of erotic film based on content analysis[C]//Proc of SPIEElectronic Imaging and Multimedia Technology. 2005: 88-94.