基于改進SSIM的HEVC率失真優化

2016-08-22 09:48:28班俊碩賴惠成林憲峰董九玲

電視技術 2016年7期

關鍵詞：優化質量

班俊碩，賴惠成，林憲峰，楊　敏，董九玲

(新疆大學信息科學與工程學院，新疆烏魯木齊 830046)

基于改進SSIM的HEVC率失真優化

班俊碩，賴惠成，林憲峰，楊敏，董九玲

(新疆大學信息科學與工程學院，新疆烏魯木齊 830046)

HEVC繼承了傳統的客觀率失真模型，主要采用均方誤差、平方誤差和或絕對誤差和等客觀評價方法作為失真測度。然而，這些方法并不能得到很好的主觀視覺感知質量。為了進一步解決HEVC的計算復雜度，提出了將結構相似度(Structural Similarity，SSIM)引入到HEVC的率失真代價函數中。該方法使用失真測度均方誤差對SSIM進行改進，將改進后的SSIM對率失真代價函數進行優化，求解出拉格朗日乘子，從而實現率失真性能的提升。實驗結果表明，該方法與HEVC參考測試模型相比，在全I幀(All Intra，AI)配置下，率失真性能平均提高了2.6%，同時可以獲得很好的編碼質量，以及可忽略的編碼時間增長。

高效視頻編碼(HEVC)；率失真；結構相似度；拉格朗日乘子

H.265/HEVC(High Efficiency Video Coding)是由ITU-T視頻編碼專家組聯合ISO/IEC運動圖像專家組于2013年1月共同提出的下一代視頻壓縮標準。和上一代H.264/AVC視頻壓縮標準相比，在相同重建視頻質量的條件下，降低大約50%的比特率，但是卻大大提升了運算復雜度。和H.264的宏塊編碼方式相比，HEVC采用遞歸分塊樹形編碼單元方式，編碼單元最大尺寸為64×64，最小尺寸為8×8，而預測方向也從H.264的9種擴展到了35種[1]。這些在幀內預測等方面的改進在改善壓縮性能的同時，也大幅增加了相應編碼計算的復雜度。

視頻壓縮編碼旨在降低碼率的同時，盡可能滿足對高視覺質量的追求，目前基于率失真優化(Rate Distortion Optimization，RDO)技術依然是視頻編碼中研究的熱點。而HEVC中率失真優化技術依然采用傳統的客觀評價方法，如均方誤差、平方誤差和或絕對誤差和等，這些方法都是客觀上的失真準則，不能體現出主觀質量。結構相似度(SSIM)計算復雜度低，符合人眼主觀視覺特性，已被許多研究者引入到視頻圖像的失真度量中。Huang等[2]將SSIM應用到H.264的RDO中提出一種預測拉格朗日乘子的方法，采用1-SSIM改寫失真度量函數，并劃分關鍵幀和采用梯度下降法，從而求出拉格朗日乘子。Yeo等[3]對SSIM取倒數，結合SSE對RDO進行深度優化，在H.264/AVC上取得了比較好的效果。陳云善等[4]提出將SSIM加入代價函數，通過大量的實驗得出經驗參數。雖然該方法節省碼率效果比較明顯，但是由于是曲線擬合得到的經驗公式需要大量實驗才能得出數據，不適合視頻內容變化比較大的場合和實時編碼。Qi等[5]提出根據當前CTB(Coding Tree Block)和其相鄰的CTBs分別從空間和時間上計算運動向量的方差，將兩者進行合成并利用閾值選擇出最佳值，同時結合SSIM求出的拉格朗日乘子對RDO進行優化。楊春玲等[6]在H.264幀內模式選擇時首先找到SSIM和碼率之間的近似關系，然后提出結合SSE作為失真測度的率失真代價優化方法。Rehman等[7]在前人研究的基礎上將SSIM應用到DCT變換域，對SSIM指標分解為DC和AC殘差系數，再對兩者進行歸一化，最后效率提高并不是很顯著。朱天之等[8]根據HEVC編碼樹形結構使用SSIM計算失真度，得出碼率、失真度和量化參數之間的關系，根據數學推導和統計分析，最終得到拉格朗日乘子。

綜上所述，本文將SSIM作為失真度量引入到HEVC的RDO中，用失真測度MSE對SSIM進一步優化改進，最后將優化后的SSIM結合SSE共同作用于代價函數，求解出拉格朗日乘子。實驗結果表明，本文所提方法能夠在視頻圖像質量改善的情況下有效地提高編碼效率和改善率失真性能。

1　率失真優化(RDO)

視頻編碼的主要目的就是在保證一定視頻質量的條件下盡量減少編碼比特率，或是在一定編碼比特率限制條件下盡量地減小編碼失真。基于率失真理論的編碼參數優化方法被稱為率失真優化，在視頻編碼中為保證編碼器的編碼效率通常采用率失真優化技術。HEVC視頻編碼率失真處理和H.264相似，同樣采用傳統的率失真優化，其RDO可以表示為

minDs.t.R≤RC

(1)

式中：D表示視頻圖像的編碼失真；R表示視頻圖像編碼需要的比特數；RC表示編碼所允許的限定碼率。該式為限定性約束問題，即在限定的碼率下，使失真度達到最小值。

為了解決上述最小化問題，視頻編碼中通常的解決途徑是采用拉格朗日優化方法。因此上述的限定性優化問題，通過引入拉格朗日乘子λ，可以轉化為非約束性問題

minJ=D+λ×R

(2)

式中：J表示率失真代價；D表示視頻圖像的編碼失真；λ表示拉格朗日乘子；R表示視頻圖像編碼需要的比特數。所以視頻編碼的優化目標轉化為最小化J。而λ為優化目標的調整因子，當λ有最優解時則J達到最小值。目前已有研究者提出直接根據限定碼率預測出λ的取值，并應用到HEVC的碼率控制算法中[9]。

2　結構相似度(SSIM)

結構相似度(SSIM)是Wang等[10]提出衡量兩幅圖像之間相似性的一種質量評價指標。傳統的視頻質量客觀評價和失真測量都是基于誤差求和的方法，而SSIM從亮度、對比度和結構信息3個方面綜合考慮更符合人類視覺系統。SSIM的公式如下

SSIM(x,y)=l(x,y)·c(x,y)·s(x,y)=

(3)

式中：x和y表示要進行比較的兩幅圖像；l(x,y)，c(x,y)，s(x,y)分別表示亮度、對比度和結構信息；μx和μy分別表示x和y的均值；σx和σy分別表示兩者的方差；σxy表示兩者的協方差；而c1和c2是為了避免分母趨近0而導致不穩定設定的小常數。由文獻[10]可知默認的c1=(k1L)2和c2=(k2L)2，其中k1=0.01，k2=0.03，L表示隨圖像變化的像素值，通常定義為L=2bitdepth-1。SSIM值的范圍為：0≤SSIM(x,y)≤1。0表示兩幅圖像不相關，越接近于1表示兩幅圖像在主觀質量上越相似。由于SSIM的低計算復雜度和更符合人類視覺感知系統，使其廣泛用于編碼視頻的主觀質量評價[11]。

3　基于SSIM的率失真優化

結合以上研究結果，本文將原始圖像定為x，重建圖像定義為y，則重建圖像和原始圖像的失真模型可以用式(4)表示

y=x+e

(4)

式中：e表示重建圖像和原圖像相比有損量化的失真值。則均方誤差(MSE)可以用式(5)表示

(5)

式中：N是圖像中像素的數量；yi表示重建圖像中第i個元素所在圖像塊區域；xi表示原始圖像中第i個元素所在圖像塊區域。為了利用MSE對SSIM進行優化，該式又可以被改寫為

(6)

式中：σx和σy分別表示重建圖像y和原始圖像x的方差；μx和μy分別表示兩者的均值；σxy表示兩者的協方差。

很容易驗證在高分辨率和大量數據下失真e的值通常很小，可以忽略不計。故原始圖像x和重建圖像y的均值有如下近似

μy≈μx

(7)

將式(6)、(7)代入式(3)可以獲得SSIM的近似式

(8)

當圖像的數據比較大時，又0≤SSIM(x,y)≤1，下面基于SSIM定義一個失真度量公式

(9)

式中：MSE為原始圖像x和重建圖像y的均方誤差；σxy表示兩者的協方差；c2為很小的常數。

當選擇SSE作為失真測度時，率失真代價函數定義如下

JSSE=SSE+λSSE×R=N·MSE+λSSE×R

(10)

式中：SSE表示平方誤差和；λSSE表示SSE作為失真測度時的拉格朗日乘子；N表示圖像中像素的數量；MSE表示均方誤差；R表示視頻圖像編碼需要的比特數。

將SSIM引入RDO，式(10)可以被改寫為

(11)

則優化目標轉化為

J=DSSE+(2σxy+c2)·λSSIM×R

(12)

式中：DSSE表示當SSE作為失真測度時的編碼失真；σxy表示協方差；c2為小常數；R為視頻圖像編碼需要的比特數。為確定λSSIM，本文需要引入率失真模型。目前率失真在視頻編碼中采用的都是對數模型[12]，對于一幀視頻圖像的每個編碼塊有式(13)

(13)

式中：α是一個比例常數；σ2表示編碼位移幀差(DFD)。對式(12)用拉格朗日乘數法求解λSSIM的最優值，得到

(14)

(15)

根據式(11)、(14)和(15)可以得出率失真優化拉格朗日乘子

(16)

4　實驗結果及分析

為了驗證本文算法的效果，采用官方給出的HEVC參考測試模型HM13.0[14]進行測試分析，所有不同分辨率的測試視頻序列均來自標準測試視頻序列。對HM13.0的配置[15]為：全I幀編碼；測試的量化參數設置為固定QP；CTU的最大尺寸為64×64、深度為4。實驗結果如表1所示，采用BD-PSNR和BD-SSIM來衡量本文算法的率失真性能，ΔT表示編碼時間。

表1本文算法與HM測試模型對比結果

視頻序列BD-PSNRBD-SSIMΔTTraffic0.3-1.3102ParkScene0.6-2.4101Kimono0.4-1.7100BQSquare0.5-2.3100BasketballDrive0.4-1.9100BQMall0.9-3.7101BasketballDrill0.3-2.6100RaceHorses0.7-2.4100FourPeople1.1-4.4100Johnny0.5-3.1100平均0.6-2.6100

從表1可以看出，本文所提算法的率失真性能提升最高為4.4%，最低為1.3%，平均增加了2.6%，同時BD-PSNR只有很小的損失。其中Traffic序列由于車輛在移動，導致運動相對劇烈，同時整幀的紋理也比較復雜，因而其率失真性能最差。而FourPeople序列運動相對平緩，紋理相對簡單，所以率失真性能最好。本文算法對于所有測試序列HEVC的編碼時間只有個別微小的增長，平均編碼時間的增長是可以忽略的。

以HM13.0作為對比，圖1給出了BQSquare和Johnny兩個序列的率失真曲線圖。從圖中的曲線可以看出本文提出算法的率失真性能優于HM13.0。

圖1　本文算法和HM測試模型率失真性能比較

5　結束語

針對HEVC中客觀的率失真優化準則不能夠得到最佳視頻圖像主觀感知質量的問題，同時為提升率失真性能，本文提出一種基于改進SSIM的HEVC率失真優化算法。該方法利用失真測度均方誤差(MSE)對SSIM進行改進，將改進后的SSIM對率失真代價函數進行優化，求解出拉格朗日乘子。實驗結果表明，本文算法能夠改善視頻主觀質量，提高編碼效率，同時率失真性能平均增加了2.6%。下一步的研究重點是繼續深入研究本文算法將其應用到HEVC模式選擇和幀間編碼RDO中，進一步提高HEVC的編碼質量和編碼效率。

[1]SULLIVAN G J， OHM J， HAN W J， et al. Overview of the High Efficiency Video Coding (HEVC) standard[J].IEEE transactions on circuits & systems for video technology，2012，22(12)：1649-1668.

[2]HUANG Y H， OU T S， SU P Y， et al. Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE transactions on circuits & systems for video technology，2010，20(11)：1614-1624.

[3]YEO C， TAN H L， TAN Y H. On rate distortion optimization using SSIM[J].IEEE transactions on circuits & systems for video technology， 2013， 23(7)：1170-1181.

[4]陳云善，高慧斌，蘇宛新，等.結構相似度在AVS幀間模式選擇中的應用[J].光電子·激光，2011(3)：435-439.

[5]QI J，LI X，SU F，et al. Efficient rate-distortion optimization for HEVC using SSIM and motion homogeneity[C]//Proc. 2013 Picture Coding Symposium (PCS).[S.l.]：IEEE，2013： 217-220.

[6]楊春玲，肖冬琴.基于SSE和SSIM的H.264幀內預測模式選擇改進算法[J].電子與信息學報，2011(2)：289-294.

[7]REHMAN A， WANG Z.SSIM-inspired perceptual video coding for HEVC[C]//Proc. IEEE International Conference on Multimedia and Expo. Melbourne： IEEE Computer Society， 2012：497-502.

[8]朱天之，郁梅，蔣剛毅，等.基于SSIM的HEVC幀內編碼率失真優化[J].光電子·激光，2014(12)：2362-2370.

[9]LI B，LI H，LI L， et al. Rate control by R-lambda model for HEVC[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 11th Meeting. Shanghai：ITU， 2012：10-19.

[10]WANG Z， ALAN C B， HAMID R S， et al. Image quality assessment： from error visibility to structural similarity[J].IEEE transactions on image processing，2004，13(4)：600-612.

[11]張瑋，宋利，楊小康.基于視頻編碼增益的視頻質量評價算法性能研究[J].電視技術，2014，38(15)： 44- 48.

[12]SULLIVAN G J， WIEGAND T. Rate-distortion optimization for video compression[J].Signal processing magazine，1998，15(6)：74-90.

[13]WIEGAND T， SCHWARZ H， JOCH A， et al. Rate-constrained coder control and comparison of video coding standards[J].IEEE transactions on circuits & systems for video technology，2003， 13(7)：688-703.

[14]MCCANN K， BROSS B， SUGIMOTO K， et al. High Efficiency Video Coding(HEVC)test model 13(HM13)encoder description[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 15th Meeting. Geneva， Switzerland：ITU，2013：1-39.

[15]BOSSEN F. Common test conditions and software reference configurations[C]//Proc. Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 12th Meeting. Geneva， Switzerland： ITU，2013：1-4.

班俊碩(1988— )，碩士生，主要研究方向為視頻編碼；

賴惠成(1963— )，教授，主要研究方向為圖像處理及視頻信號編解碼等；

林憲峰(1990— )，碩士生，主要研究方向為視頻質量評價；

楊敏(1990— )，碩士生，主要研究方向為圖像處理；

董九玲(1986— )，女，碩士生，主要研究方向為圖像處理。

責任編輯：時雯

Rate distortion optimization based on improved SSIM for HEVC

BAN Junshuo，LAI Huicheng，LIN Xianfeng，YANG Min，DONG Jiuling

(CollegeofInformationScienceandEngineering，XinjiangUniversity，Urumqi830046，China)

Objective appraisal method， such as mean square error(MSE)， sum of the squared errors(SSE)or sum of absolute difference(SAD)， is adopted by HEVC， which inherits conventional objective rate distortion model. However， these methods fail to achieve high consistency with subjective visual perception. In order to reduce the computational complexity of HEVC， in this paper， SSIM is considered as rate distortion cost function of HEVC. MSE is introduced into SSIM， so that a new rate distortion cost function can get. This problem can be solved by Lagrangian multiplier method. Experimental results show that compared our proposed algorithm with HM13.0 in AI configuration， the performance of rate distortion is average improved about 2.6%， as well as getting better coding quality. In addition， no significant runtime increases in the encoding process.

HEVC； rate distortion； structural similarity； lagrange multiplier

TN919.8

ADOI：10.16280/j.videoe.2016.07.003

國家自然科學基金項目(61561048)；新疆維吾爾自治區科學基金項目(2015211C257)

2016-01-28

文獻引用格式：班俊碩，賴惠成，林憲峰，等.基于改進SSIM的HEVC率失真優化[J].電視技術，2016，40(7)：11-14.

BAN J S，LAI H C，LIN X F，et al.Rate distortion optimization based on improved SSIM for HEVC[J].Video engineering，2016,40(7)：11-14.

基于改進SSIM的HEVC率失真優化

1 率失真優化(RDO)

2 結構相似度(SSIM)

3 基于SSIM的率失真優化

4 實驗結果及分析

5 結束語

1　率失真優化(RDO)

2　結構相似度(SSIM)

3　基于SSIM的率失真優化

4　實驗結果及分析

5　結束語