摘要:視頻在傳輸過程中會因為信道噪聲等原因導致失真,采取差錯控制方可以保證視頻傳輸的質量。傳統的差錯控制方法將視頻當成普通的比特流,而忽視了視頻的內容特征。提出的基于內容的差錯控制方法按照內容特征劃分視頻結構單元并分配相應的差錯控制方法。實驗結果表明,該差錯恢復方法不僅能有效利用信道帶寬,而且可保護顯著性區域,使重建的視頻更加符合用戶的視覺需求,實現用小的代價保護重要的視頻內容。
關鍵詞:無線多媒體; 差錯恢復;差錯隱藏;視頻分割; 注意力焦點
中圖法分類號:TP302.8文獻標識碼:A
文章編號:1001-3695(2007)01-0267-02
1引言
差錯控制的目的是增強視頻碼流的抗干擾能力和自恢復能力。由于無線信道本身具有帶寬復雜多變,延遲抖動大,差錯率高等特性,差錯控制技術成為保證視頻傳送質量的關鍵技術。
傳統的視頻差錯控制技術一般采用信號處理的方法,把視頻流看成一個比特序列,很少考慮視頻本身的內容特征,忽略了視頻內容,網絡資源和視頻質量之間的相互關聯。視頻流不僅是簡單的比特組合,視頻的內容包含豐富的語義信息。Paul Bocheck[2]提出內容感知的視頻通信框架,將視頻內容特征用于動態資源分配和效用函數估計。Pankaj Batra[1]把視頻內容引入視頻分割打包方案,定義不同類型的重要度,在低比特率信道上提供更加精細的控制顆粒度。但是,這些方法都均未在視頻內容和差錯恢復方案之間建立很好的關聯。本文的方法根據人眼視覺系統注意力的特點,將視頻內容劃分為三層,按照特征本身的特點和所處的層次分配不同的差錯保護方案。在視頻流編碼時按照鏡頭的內容特征歸納到相應的鏡頭類別,使用分配的差錯恢復方法,在內容上保證了視覺信息的最大化。
2基于視頻內容的差錯控制方案
2.1視頻內容特征的三層結構模型
人的視覺神經處理光信號的能力是有限的,一般而言,人眼會特別注意視頻中出現的人臉或者包圍在大片同質區域中的一小塊顯著區域。對于無線環境中的視頻應用,計算量不宜太過復雜,可以采取兩種措施減少顯著性分析的計算量:①仔細選擇可視特征,產生有效的特征值;②把注意力模型看成視頻編碼的預分析階段,產生一些有用的中間信息,以減少后期的視頻編碼工作的負擔。本文提出的基于內容的差錯控制方法根據人的視覺特性,將引起注意的可視特征分成三個層次,即低層特征包括密度、顏色和方向、中層特征包括運動信息和高層特征指視頻鏡頭中出現的人臉。
從視覺心理學的角度來說,人臉不僅是高層語義特征,而且特別能夠引起注意。按照人臉特征將視頻序列可以分成若干個獨立的場景單元,每個場景中既有對象的運動,也有相機的運動,按照這些運動特征將場景劃分為若干個鏡頭。每個鏡頭按照顏色、密度和方向等視覺顯著性特征進一步分成若干個幀。因此,按照場景—鏡頭—單元這三層組織結構,可以相應地將內容特征分成人臉——運動——顏色、密度等低層視覺特征,形成用于差錯控制的內容模板,如圖1所示。
分別考慮基于人臉特征的場景變化、基于運動特征的鏡頭變化和基于低層顯著性特征的幀變化。不論哪種狀態,均可以在圖中找到一個葉子節點代表一個視頻鏡頭類別,根據這個鏡頭類別的特性,可以找到一種最合適的差錯控制方法。
2.2基于內容的差錯控制模型
根據內容模板與差錯控制技術之間的聯系,可以描述基于內容的差錯控制方法框架如圖2所示。
圖2基于內容的差錯控制方法框架
圖中的視頻單元指場景、鏡頭和視頻幀的總稱,具體選擇哪種結構形式根據內容特征的實際情況而定。比如在整個場景中都有人臉出現,并且運動速度穩定,則視頻單元定義為場景;如果運動時快時慢則進一步劃分為快鏡頭和慢鏡頭。這個框架分為三個模塊,即基于內容的視頻分割、分配差錯控制方法和應用差錯控制方法。由于視頻單元中出現的人臉區域與背景有顯著差異,所以采用幀內編碼宏塊刷新的方法保證這些區域不受差錯傳播的影響。人眼視覺系統對不同運動速度的敏感性有差異,所以根據運動特征選擇差錯隱藏方法能夠明顯提高視覺質量。為了保護鏡頭中具有顯著低層特征(如顏色、密度、方向等)的區域,修改標準數據分區方法,把這些顯著性區域的數據全部放在可靠的數據分區,從而達到保護重要信息不被丟失的效果。值得注意的是,這種方法不僅僅是內容與差錯控制方法的組合,而且綜合考慮了應用類型和信道資源等多種因素。這樣的視頻流通過模擬信道以后,一旦發現差錯,就會應用選定的差錯控制方法。由于每個視頻單元都具有最佳的重建質量,所以整個視頻流也具有很好的恢復效果。在這個差錯控制模型中,內容特征是視頻單元分類的依據,也是選擇差錯控制方法的依據。由于視頻流最終的信宿是人眼,所以根據內容特征選擇的差錯控制方法就能夠保證輸出視頻符合人眼的視覺需要。
3模擬環境與實驗結果
我們使用內容特征,如人臉區域,運動快慢劃分視頻鏡頭,然后為這些鏡頭分配不同的差錯恢復方法。實驗證明這些改進的差錯恢復方法對于保護顯著性區域和改進視覺效果起到了很好的作用。選擇JVT公共測試環境軟件[6]提供的模擬環境。
實驗一:使用“Carphone”序列,按照第2節給出的算法檢測人臉區域。記錄包含人臉和顯著性區域的宏塊的位置,與H.264編碼標準中所采用的根據率失真選擇幀內編碼宏塊的方法相比較,“Carphone”序列得到的結果如圖3所示。
圖3(a)表示有人臉區域保護的結果,圖3(b)表示沒有人臉區域保護的結果。可以看出,如果人臉在視頻幀中幀內占據較大的區域,可以集中使用幀內編碼宏塊的方法,雖然外圍區域(如手指)不如標準編碼算法解碼后的結果清晰,但是視覺顯著性區域的恢復效果要好得多。
實驗二:選擇慢速運動的“Akiyo”序列和高速運動的“Stefan”序列,比較根據不同的內容選擇對應差錯隱藏算法的效果。對于“Akiyo”序列,兩種差錯隱藏方法效果的比較如圖4所示。
圖3“Carphone”序列中使用人臉區域保護解碼后的視頻幀
圖4“Akiyo”序列第20幀在兩種差錯隱藏算法后的效果
圖4(a)表示直接拷貝差錯隱藏法的效果,圖4(b)表示運動軌跡隱藏法的效果。可以看出,對于慢速運動的視頻,采用直接拷貝法差錯隱藏的效果要比根據運動軌跡差錯隱藏方法效果好。這是因為對于慢速運動的視頻幀而言,前后幀宏塊之間的差別非常小,而運動矢量和熵編碼等標準編碼過程引起的誤差反而大過前后幀之間的差異。因此,在補償丟失的宏塊時,直接拷貝前一幀中對應的宏塊對人眼造成的視覺失真還要小一些。對于“Stefan”序列,兩種差錯隱藏方法效果的比較分別如圖5所示。
圖5(a)表示運動軌跡隱藏法的效果,圖5(b)表示直接拷貝差錯隱藏法的效果。可以看出,對于高速運動的視頻,采用運動軌跡隱藏算法比直接拷貝算法效果好。
實驗三:基于顯著性區域的數據分區方法與標準數據分區方法比較。根據文獻[7]提供的工具得到每個鏡頭幀的顯著性分布圖。在數據分區方法中把顯著性區域對應的宏塊數據均放在A部分,通過可靠子信道傳輸,而其他區域的數據仍然按三個數據分區發送。將這種方法與H.264中的數據分區方法比較結果如圖6所示。
圖5“Stefan”序列的第5幀在兩種差錯隱藏算法后的效果
圖6“Mobile”序列的第20幀解碼后得到的結果
其中,圖6(a)表示保護顯著性區域的數據分區方法解碼后的幀,圖6(b)表示H.264數據分區方法解碼后的幀。從圖6可以看出,傳輸差錯就只能影響非顯著性區域,從而使用戶獲得有效視覺信息。
4結論
本文提出了內容感知的差錯控制方法,結合視頻內容分析,按照人的視覺特點把內容特征分成三個層次。根據用戶的視覺需要分配差錯恢復方法,從而最大程度地利用有限的網絡資源滿足用戶的視覺需求。
關于重建視頻質量的評價問題中,一些評價方法如PSNR不能完全反映用戶的主觀視覺感受。文獻[4]提出了統一圖像質量索引和用戶自適應的視頻質量索引(Universal Image Quality Index,UIQI)和用戶自適應的視頻質量索引(UserAdaptive Video Quality Index,UAVQI),下一步的研究準備引入這種面向用戶的質量評價體系。
參考文獻:
[1]Pankaj Batra, ShihFu Chang.Contentbased Video Transmission Over Wireless Channels[C].The 3rd International Workshop on Mobile Multimedia Communications,1996.
[2]P Bocheck, SF Chang.Contentbased Video Traffic Modeling and Its Application to Dynamic Resource Allocation[J]. ACM/IEEE Tran ̄sactions on Networking, 1999.
[3]ChiaChiang Ho.A Study of Effective Techniques for UserCentric Video Streaming[D]. A Dissertation Submitted in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy.
[4]YF Ma, L Lu, HJ Zhang, et al. A User Attention Model for Video Summarization[C]. Proc. ACM Multimedia(ACMMM’02),2002.533542.
[5]Chrisophe Garcia, G Tziritas.Face Detection Using Quantized Skin Color Regions Merging and Wavelet Packet Analysis[J]. IEEE Trans. Multimedia, 1999,1(3):264277.
[6]G Roth,Rickard Sjberg, Thomas Stockhammer, et al.Common Test Conditions for RTP/IP over 3GPP/3GPP2[R]. ITUT SG16 Doc. VCEGM77,Austin,TX,2001.
[7]The iLab Neuromorphic Vision C++ Toolkit: Free Tools for the Next Generation of Vision Algorithms[EB/OL]. http://iLab.usc.edu/toolkit/.
[8]Laurent Itti, Christof Koch, Ernst Niebur.AModel of Saliencybased Visual Attention for Rapid Scene Analysis[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,1998,20(11):12541259.
作者簡介:
柳偉(1973),男,湖南長沙人,工程師,博士研究生,主要研究方向為多媒體信息處理技術;王煒(1973),男,陜西寶雞人,副教授,博士,主要研究方向為媒體處理和虛擬現實技術;李國輝(1963),男,湖南永州人,教授,博導,博士,主要研究方向為信息集成與訓練模擬。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文