王鳳隨,王冠凌,瞿成明,趙 發
(安徽工程大學電氣工程學院,安徽蕪湖241000)
基于宏塊多相關性的多視點視頻編碼方法
王鳳隨,王冠凌,瞿成明,趙 發
(安徽工程大學電氣工程學院,安徽蕪湖241000)
為降低多視點視頻編碼(MVC)中過高的計算量,提出基于宏塊多相關性的多視點視頻編碼視間預測與Direct模式提前終止算法。分析MVC參考模型(JMVC)中時域預測和視間預測的特點及Direct模式的分布情況。基于當前宏塊的時間和視點之間率失真代價的大小關系判斷是否進行視間預測。利用先前已編碼宏塊的編碼模式信息確定是否跳過Direct模式。實驗結果表明,同JMVC的全搜索算法相比,該算法能降低編碼的計算復雜度,平均可達75.62%,同時保持幾乎相同的編碼率失真性能。
多視點視頻編碼;多相關性;運動補償;視間預測;提前終止;率失真代價
多視點視頻編碼(Multi-view Video Coding, MVC)利用不同視點的視頻數據為用戶呈現豐富的立體視覺信息,是實現3D視頻的一種實用編碼技術,被廣泛應用于三維電視(Three Dimensional TV, 3DTV)、自由視點電視(Free viewpoint TV,FTV)等諸多領域[1-2]。近年來,已提出了基于H.264/AVC的MVC編碼方案[3],并提供了公共的MVC研究平臺——多視點視頻編碼(Joint Multi-view Video Coding,JMVC)[4]測試軟件。由于MVC增加了視點間預測及采用了眾多的新技術,使得編碼效率提高的同時,也需要消耗相當大的編碼時間,已經成為阻礙MVC實際應用的瓶頸。
為減少MVC的計算量,國內外研究學者做了大量的工作,現有算法可分為4種類型:(1)通過確定一個閾值進行模式選擇的提前終止,以達到節省編碼時間的目的[5-8]。(2)通過確定運動估計的參考方向[9]或者加速運動估計和視差估計的搜索實現計算量的降低[10]。(3)通過對當前宏塊(Marcoblock, MB)和相鄰視角處于同一位置宏塊進行相似性分析來實現復雜度的減少[11-13]。(4)類型是通過聯合運用參考方向、搜索范圍和宏塊復雜度達到編碼時間的減少[14-16]。
上文提及的各種算法能夠不同程度地使MVC的計算復雜度得到有效的降低,然而算法在時間節省和編碼圖像質量方面仍然需要進一步改善。上述算法中,在時間節省方面越高的算法,編碼視頻圖像質量就越差;而具有較好的峰值信噪比(Peak Signalto-Noise Ratio,PSNR)和較高的壓縮率的算法,通常都需要消耗更多的編碼時間。此外,上述方法主要考慮了視點之間的相關性信息,當視差矢量定位不準或不同視點之間存在遮擋時,算法的整體性能就會受到嚴重的影響。
本文基于先前的研究工作[17-18],通過分析JMVC中的時間相關性和視間相關性以及Direct模式的分布情況,提出視間預測選擇準則和Direct模式提前終止策略。
2.1 時域預測與視間預測
MVC采用圖像組(Group of Pictures,GOP)的幀編碼結構——分層B幀(Hierarchical B Picture, HBP)預測結構。視點編碼結構可劃分成2個部分:僅進行時域方向預測的主視點和同時進行時域和視點間預測的輔視點。因此,處于輔視點中的宏塊有2種類型的預測:(1)與H.264/AVC類似,稱為運動補償預測(Motion Compensation Prediction,MCP); (2)視差補償預測(Disparity Compensation Prediction,DCP)。DCP是多視點視頻不同于單視點視頻的最顯著特征之一,也是引起計算復雜度增大的重要因素之一。MVC在進行塊匹配搜索時,首先需要判別預測方向,通過比較時間方向和視點方向所有預測模式的率失真代價(Rate Distortion cost,RD cost)的大小來確定最佳預測方向。由于MVC的模式數目眾多,且計算RD cost的過程又十分耗時,因此預測方向的判斷過程是十分耗時的。而實際的情況是,在進行復雜的方向判斷之后,大部分情況下MCP經常被選作最佳預測,在拍攝視頻數據沒有進行校準時尤為突出。在JMVC中,DCP和MCP實際上是公用同一模塊,因此兩者的計算量也大致相同。然而,視點方向卻很少被選用,這樣每次預測都進行檢查勢必耗費大量不必要的編碼時間。如果能夠通過某種方法,可以提前確定當前塊的預測方向,那么大量不必要的DCP過程就可以直接跳過,從而大大降低MVC的編碼時間。
基于上述分析和多視點視頻自身的特點,通過對JMVC8.0的實驗統計分析發現,MVC在進行方向預測時,若當前宏塊的幀間16×16分塊選用視點方向預測,那么該宏塊的其他模式分塊(如16× 8塊、8×16塊、8×8塊等)最終選用視點方向預測的可能性極大。這說明幀間各模式的預測方向具有很強的相關性。為了驗證這一觀點,圖1給出了各圖像順序計數(Picture Order Count,POC)上的統計結果。圖中縱坐標表示僅幀間16×16塊選擇視點方向預測占所有模式遍歷后選擇視點方向預測的百分比。

圖1 幀間分塊在所有選用視間預測中的比例
從圖1不難看出,幀間16×16塊選擇視點方向預測在所有模式遍歷后選擇視點方向預測中所占的比例非常高,平均可達88%。因此,在進行預測方向判斷時,可以用幀間16×16塊視間預測結果作為其他分割模式是否進行視間預測的判別依據。
2.2 Direct模式分布情況
一般而言,較大的宏塊分割模式(如16×16塊)通常適合編碼運動緩慢的同質區域;而小的宏塊分割模式(如8×8塊)通常用于編碼具有快速運動的復雜區域。Direct模式是一種特殊的16×16塊分割模式,直覺上,Direct模式在運動緩慢的均勻區域應該占有很高的比例[17],而這樣的區域在自然視頻中也是出現最多的情況。換言之,Direct模式成為最佳模式的可能性非常高。為了證實此觀察,通過實驗得到了MVC的最優模式的統計分布情況,如表1所示。實驗參數設置如下:(1)GOP=12;(2)量化參數(QP)=32;(3)啟用率失真優化(Rate Distortion Optimization,RDO)技術;(4)搜索范圍:±64。

表1 MVC最優模式分布情況%
從表1容易看出,Direct模式在所有模式中被選為最優模式的比例最高,平均可達81.46%,對于那些運動緩慢的均勻區域所占比例更高,如序列“Exit”。需要說明的是,Direct模式不需要進行復雜的MCP和DCP過程,具有很小的計算量,而其他模式需要進行MCP/DCP檢查過程,計算復雜度極高。因此,設計一種能夠提前確定Direct模式是否為最優模式的算法是十分有必要的。
3.1 視點方向預測
根據2.1節的分析,視點方向的提前判別可通過inter16×16模式是否選擇視間預測而確定。為此,首先要得到當前宏塊的inter16×16模式的預測方向,由于預測方向的確定是通過比較時間方向和視點方向上的RD cost實現的,因此必須得到inter 16×16模式在這2個方向上的RD cost值。如圖2所示,考慮到當前宏塊與相鄰宏塊的時間相關性和視點間相關性,inter16×16模式的時域RD cost值JT和視間RD cost值JV可分別利用已編碼塊的模式信息確定。鑒于當前宏塊和前向及后向參考幀都有很強的相關性,JT可通過計算前向參考幀RD cost值JT-1和后向參考幀RD cost值JT+1兩者的平均值而得到,如下式所示:

類似地,JV也可通過計算前向視點RD cost值JV-1和后向視點RD cost值JV+1的平均值而獲得,如下式所示:

在式(1)和式(2)中,JT-1,JT+1,JV-1和JV+1可通過下式計算而得:



表2 宏塊MBi的加權因子

圖2 當前宏塊的時間和視點間相鄰宏塊
3.2 Direct模式提前終止
通過2.2節的分析可知,Direct模式在現實的視頻序列中最有可能被選作最佳模式。為此,本文利用當前宏塊的時間和視點間的相關性計算對應的時域閾值ThT和視間閾值ThV。與JT類似,時域閾值ThT為前向時域閾值ThT-1和后向時域閾值ThT+1的均值;視間閾值ThV與JV類似,通過前向視間閾值ThV-1和后向視間閾值ThV+1的平均值計算得到。ThT-1,ThT+1,ThV-1和ThV+1通過式(4)計算:


通過式(4)可分別計算出時域閾值ThT和視間閾值ThV。若當前宏塊僅進行時域預測,則只需要計算時域閾值ThT,此時的自適應閾值Th就等于ThT;若當前宏塊同時進行時間和視點間預測,此時的自適應閾值Th為時域閾值ThT和視間閾值ThV的平均。在算法實現中,首先計算當前宏塊Direct模式的RD cost值RDcost(Direct),如果RDcost(Direct)<Th,那么Direct模式將直接被選為最優模式,模式選擇過程提前終止。
3.3 算法步驟
綜上所述,本文算法步驟可描述如下:
(1)檢查當前宏塊是否處于關鍵幀上,若是,進入步驟(6),否則,進入步驟(2)。
(2)計算當前宏塊的幀間16×16模式的時域RD cost值JT,視間RD cost值JV和Direct模式的RD cost值RDcost(Direct)。
(3)如果JT<JV,那么當前宏塊的其他模式分塊的視間預測過程跳過,僅進行時域預測,同時計算時域閾值ThT,Th=ThT,進入步驟(5)。否則,進入步驟(4)。
(4)計算時域閾值ThT和視間閾值ThV,Th= (ThT+ThV)/2。
(5)如果RDcost(Direct)<Th,那么Direct模式將直接被選為最優模式,模式選擇過程提前終止。否則,進入步驟(6)。
(6)進行全搜索模式,檢查所有預測模式以確定其最佳模式。
為驗證本文算法的有效性,采用JMVC8.0作為實驗平臺,分別測試了不同分辨率、不同紋理背景的7個MVC標準測試序列。實驗中參數設置如下: (1)HBP結構;(2)GOP=12;(3)QP=24,28,32, 36;(4)啟用RDO和基于上下文的自適應算術編碼(Context-Adaptive Binary Arithmetic Coding,CABAC)技術;(5)搜索范圍:±64。
為了與現有算法相比較,表3給出了本文算法、文獻[7]算法和文獻[17]算法的結果對比。其中,參數△T表示編碼時間的節省率;△B代表碼率的變化;△PSNR表示峰值信噪比的變化。“+”表示增加,“-”表示減少。

表3 算法性能比較
表3表明本文算法能夠有效地降低MVC的編碼計算復雜度,平均可節省75.62%的編碼時間,編碼率失真性能幾乎保持不變,PSNR值僅降低了0.04 dB,而編碼比特率卻下降了0.97%。同文獻[7]算法相比,本文算法減少了13.46%的計算量,PSNR值提高了0.04 dB,比特率減少了0.09%。同文獻[17]算法相比,本文算法得到了更加顯著的計算復雜度的降低,同時保持基本不變的編碼效率。
為更好地說明算法的率失真性能和時間節省率,圖3給出了Uli測試序列的RD曲線圖。從圖中不難看出,本文算法的率失真性能與JMVC幾乎相同。圖4為本文算法與現有2種算法在時間節省率上的對比。容易看出,本文算法對于不同類型的測試序列都能夠更加有效地降低編碼時間。

圖3 測試序列Uli的RD曲線

圖4 3種方法的時間節省率比較
同文獻[7]算法和文獻[17]算法相比,文獻[7]算法僅利用當前宏塊的空間、時間及視點之間相關性的簡單混合來計算自適應閾值,而文獻[17]算法通過分別計算3種類型相關性對應的各自閾值,自適應閾值為三者的中值。這2種算法都未考慮到視點方向預測的復雜度,本文算法綜合考慮了視間預測提前判別與Direct模式的提前終止,同時充分利用了當前宏塊的多種相關性信息,取得了優于文獻[7]算法和文獻[17]算法的編碼性能。
本文提出一種有效的多視點視頻編碼方案,通過視間預測方向的預先判別和Direct模式的提前終止,使得編碼計算量大大降低。算法首先利用幀間各模式預測方向的相關性,通過幀間16×16模式的預測結果作為其他模式是否選擇視點方向預測的依據,然后分別利用當前宏塊的時間和視點之間的相關性計算得到視間預測提前判別和Direct模式提前終止的條件,這樣使得不必要的視間預測和模式選擇過程提前結束,從而有效地減少了編碼時間。實驗結果表明,本文算法比JMVC中全搜索算法和現有算法顯著降低了編碼計算復雜度,同時保持了較好的編碼圖像質量。
[1] Muller K,Merkle P,Wiegend T.3-D Video Representation Using Depth Maps[J].Proceedings of the IEEE, 2011,99(4):643-656.
[2] Tanimoto M,Tehrani M P,Fujii T,et al.FTV for 3-D Spatial Communication[J].Proceedings of the IEEE, 2012,100(4):905-917.
[3] Vetro A,Wiegand T,Sullivan G J.Overview of the Stereo and Multiview Video Coding Extensions of the H.264/MPEG-4 AVC Standard[J].Proceedings of the IEEE,2011,99(4):626-642.
[4] Pandit P,Vetro A,Chen Y.Joint Multiview Video Model(JMVM)8.0[R].Joint Video Team,Technique Report:JVT-AA207,2008.
[5] Shen Liquan,Liu Zhi,Yan Tao,et al.Early SKIP Mode Decision for MVC Using Inter-view Correlation[J]. Signal Processing:Image Communication,2010,25(2): 88-93.
[6] Kuo Tien-Ying,Lai Yun-Yang,Lo Yi-Chung.Fast Mode Decision for Non-anchor Picture in Multi-view Video Coding[C]//Proceedings of IEEE International SymposiumonBroadbandMultimediaSystemsand Broadcasting.Piscataway,USA:IEEE Press,2010:1-5.
[7] Zeng Huangqian,MaKaikuang,CaiCanhui.Modecorrelation-based Early Termination Mode Decision for Multi-view Video Coding[C]//Proceedings of International Conference on Image Processing.Piscataway, USA:IEEE Press,2010:3406-3408.
[8] Lee Pei-Jun,Lin Ho-Ju,Kuo Kuei-Ting.Faster Mode Determination Algorithm Using Mode Correlation for Multi-view Video Coding[J].IET Signal Processing, 2014,8(5):565-578.
[9] Zhang Yun,Kwong S,Jiang Gangyi,et al.Efficient Multi-reference Frame Selection Algorithm for Hierarchical B Pictures in Multiview Video Coding[J].IEEE Transactions on Broadcasting,2011,57(1):15-23.
[10] Khattak S,Hamzaoui R,Ahmad S,et al.Fast Encoding Techniques for Multiview Video Coding[J].Signal Processing:ImageCommunication,2013,28(6): 569-580.
[11] Zhang Qiuwen,AnPing,ZhangYan,etal.Low Complexity Multiview Video Plus Depth Coding[J]. IEEE TransactionsonConsumerElectronics,2011, 57(4):1857-1865.
[12] Zhu Wei,Tian Xiang,Zhou Fan,et al.Fast Inter Mode DecisionBasedonTexturalSegmentationand Correlations for Multiview Video Coding[J].IEEE Transactions on Consumer Electronics,2010,56(3): 1696-1704.
[13] Shen Liquan,Liu Zhi,Liu Suxing,etal.Selective DisparityEstimationandVariableSizeMotion Estimation Based on Motion Homogeneity for Multiview Coding[J].IEEE Transactions on Broadcasting, 2009,55(4):761-766.
[14] Ding Lifu,TsungPei-Kuei,ChienShao-Yi,etal. Content-aware PredictionAlgorithmwithInter-view Mode Decision for Multiview Video Coding[J].IEEE Transactions on Multimedia,2008,10(8):1553-1564.
[15] Shen Liquan,Liu Zhi,An Ping,et al.Low-complexity Mode Decision for MVC[J].IEEE Transactions on Circuits and Systems for Video Technology,2011, 21(6):837-843.
[16] Lai Yi,Lan Xuguang,Li Xiangwei,et al.An Efficient Region of Interest Support in Scalable Multi-view Video Coding[J].IEEE Transactions on Consumer Electronics,2011,57(3):1271-1279.
[17] Wang Fengsui,Zeng Huanqiang,Shen Qinghong,et al. Efficient Early Direct Mode Decision for Multi-view Video Coding[J].Signal Processing:Image Communication,2013,28(7):736-744.
[18] 王鳳隨,沈慶宏,都思丹.多視點視頻編碼快速幀間模式選擇算法[J].計算機應用,2014,34(1):167-170.
編輯 顧逸斐
Multi-view Video Coding Method Based on Macroblock Multi-correlation
WANG Fengsui,WANG Guanling,QU Chengming,ZHAO Fa
(College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China)
In order to reduce greatly computational complexity in Multi-view Video Coding(MVC),an inter-view prediction and Direct mode early termination algorithm based on macroblock multi-correlation for multi-view video coding is proposed.The characteristics for time domain and inter-view domain prediction and the distribution for Direct mode in the Joint Multi-view Video Coding(JMVC)are analyzed in the proposed algorithm.Comparing the ratedistortion cost between the time and inter-view domain determines whether the current macroblock predicted between inter views.Using the coding mode information of the previously encoded macroblock determines whether it skips Direct mode.Experimental results demonstrate that the proposed method is able to significantly reduce the computational load by 75.62%on average,while keeping almost the same rate-distortion performance,compared with the full mode decision in JMVC.
Multi-view Video Coding(MVC);multi-correlation;motion compensation;inter-view prediction;early termination;rate-distortion cost
王鳳隨,王冠凌,瞿成明,等.基于宏塊多相關性的多視點視頻編碼方法[J].計算機工程,2015, 41(2):258-262,267.
英文引用格式:Wang Fengsui,Wang Guanling,Qu Chengming,et al.Multi-view Video Coding Method Based on Macroblock Multi-correlation[J].Computer Engineering,2015,41(2):258-262,267.
1000-3428(2015)02-0258-05
:A
:TN919.8
10.3969/j.issn.1000-3428.2015.02.049
安徽工程大學引進人才科研啟動基金資助項目(2014YQQ006);安徽高校省級自然科學研究基金資助重點項目(KJ20 13A042)。
王鳳隨(1981-),男,講師、博士,主研方向:圖像與視頻信號處理,計算機視覺;王冠凌、瞿成明,副教授、碩士;趙 發,講師、碩士。
2014-08-28
:2014-09-24E-mail:fswang@ahpu.edu.cn