吳麗麗, 余春艷, 陳國龍, 鄭維宏
(1. 福州大學數學與計算機科學學院,福建 福州 350108;2. 福建星網視易信息系統有限公司,福建 福州 350002)
流媒體服務的迅猛發展給視頻質量評價模型帶來了新的挑戰。一方面,網絡視頻流質量評價更關注網絡傳輸過程中引發的失真,其中網絡丟包對視頻質量的影響最為顯著[1],有別于此前單純針對編解碼引發的失真展開的視頻質量評價模型;另一方面,網絡視頻流服務的實時性和不確定性限制了主觀評價模型在該領域的應用,而只能構建客觀評價模型。
網絡視頻流質量客觀評價模型的構建面臨兩個問題。第一,主觀評價模型[2]借助于人眼直接感知視頻,得到的評價結果最符合人眼視覺感受;而客觀評價模型[3]重在建立特定視頻特征與最終視頻質量之間的數學模型,從網絡傳輸碼流中提取指定的視頻特征,產生視頻質量評估結果,倘若沒有充分考慮人眼視覺特性,就會出現客觀評價結果和實際視覺效果的不一致的情形。第二,根據需要參考原始視頻信息的多少,常見的客觀評價模型分為全參考、半參考和無參考三類[4]。除無需原始視頻任何信息的無參考[5]類型外,全參考和半參考模型[6-7]需要參考原始視頻的全部或部分信息,應用時都將占用額外的帶寬資源。
目前,以網絡丟包為主要考量的視頻質量客觀評價模型研究已取得了一定的進展。文獻[8]提出了一種基于JND( just noticeable difference )模型的評價模型,文獻[9]則在評價視頻質量時考慮了丟包對視頻視覺顯著性區域的影響,但兩種模型均為全參考類型,對服務器端的原始視頻依賴度極高,無法應用于客戶端視頻質量評估。文獻[10]基于統計學原理,分析組層結構、幀率和封裝情況,建立網絡丟包率和視頻質量的關系,但計算復雜度過大,與網絡流媒體服務的實時性要求不相匹配。文獻[11]將視頻流解碼后,提取受損后視頻幀像素域的特征參數并評價視頻質量。文獻[12]提出了一種基于支持向量機的無參考視頻質量評價模型,其特征向量包含網絡參數和應用層參數兩個部分,網絡參數由主成分分析法刪除網絡層參數間的冗余信息后確定,應用層參數需通過計算像素域的時域特性和空域特性獲得。文獻[11-12]兩種模型均需對視頻流完全解碼后才能進行質量評估,資源消耗大,不適用于實時性要求高的網絡視頻流質量評價。文獻[13-14]分別提出了從比特流層提取信息來評價視頻質量的方法,實時性高,但兩種評價模型依賴的比特流層信息沒有考慮受損區域的視頻內容視覺特征,無法更好地融合人眼視覺特性以進一步提升與實際視覺效果的一致性。
事實上,網絡傳輸過程中的丟包率將引發客戶端視頻流的客觀損傷,而這種客觀損傷產生的人眼視覺主觀感受還與受丟包影響的視頻內容視覺特征密切相關,考慮到網絡視頻流質量評價實時性要求高的特點,完全解碼后才能提取的視頻內容視覺特征并不適用。為此,在無需獲取原始視頻任何信息亦無需完全解碼的研究前提下,以網絡丟包率為基本影響因素,以發生丟包的宏塊為基本研究對象,以丟包影響的視頻內容視覺特征提取為研究目標,提出了一種運動矢量和離散余弦變換(discrete cosine transform,DCT)融合的無參考視頻質量評價模型(an associated quality assessment model of motion vector and dct without reference video,AMMD),將視頻幀的運動劇烈程度及紋理豐富程度與人眼視覺主觀感受相關聯,尋求視頻質量的客觀評價與主觀評價的一致性。
本文以基于宏塊編解碼的H.264網絡視頻流為例進行研究,一幀被劃分為若干個宏塊,一個宏塊由一個亮度像素塊和兩個色度像素塊組成。本文用四元組M<i,j,isloss,isdloss>表示宏塊,其中:
i、j表示宏塊位于其所屬幀的第i行第j列;
isloss用于標記宏塊所在的數據包是否丟失;

isdloss用于標記宏塊的參考宏塊的isloss或者isdloss是否都為0。

其中islossD和isdlossD分別表示宏塊的參考宏塊的isloss和isdloss值。
定義1.受損宏塊。受損宏塊為發生丟包的宏塊和受發生丟包的宏塊影響的宏塊統稱,對于任意宏塊,若其isloss或isdloss的值為1,則將其定義為受損宏塊(Damaged塊)。
視頻中 Damaged塊的個數可以直觀地表示視頻受損的嚴重程度,可作為一個視頻失真的客觀度量指標,但Damaged塊的視頻內容視覺特征將引發不同的視覺主觀感受。本文接下來將從運動劇烈程度和空域復雜度兩個特征著手分析它們與視覺主觀感受的關聯。
一般來說,宏塊的運動劇烈程度越大,其包含的信息量越多[15]。相應的,若運動劇烈程度越大的宏塊受損,則丟失的視覺信息越多。圖1中兩幀丟包率相同,但圖1(a)丟包發生在相對靜止區域,圖1(b)丟包發生在劇烈運動區域,而人眼感受到圖1(b)質量受損程度甚于圖1(a)。因此,視頻質量評價時需充分考慮受損宏塊視頻內容的運動劇烈程度。

圖1 丟包發生在運動劇烈程度不同區域的效果圖
定義2.運動劇烈程度。宏塊的運動劇烈程度(motion intenseness,MI)用于表征宏塊相對于其參考宏塊的空間位置變化程度。該宏塊較其參考宏塊的空間位置變化越大,MI越大,表示該宏塊表征的視頻內容運動越劇烈。
考慮到Damaged塊運動劇烈程度不同,給人的視覺感受亦不盡相同,結合Damaged塊的個數及其運動劇烈程度可給出一種基于運動劇烈程度的無參考視頻質量評價機制(No-reference Video Quality Mechanism Based on Motion Intenseness,NMI),主要步驟如下:
(1)標記Damaged塊并按照式(3)計算每個宏塊的 MI,式中 MI(i,j)表示宏塊(i,j)的運動劇烈程度,mvx(i,j)和 mvy(i,j)分別表示宏塊(i,j)的運動矢量的x分量和y分量,運動矢量的x分量和y分量分別表示宏塊與其參考宏塊的水平相對位移和垂直相對位移:

(2)按照式(4)計算當前幀質量指標,式中Qt表示視頻序列中第 t幀的質量,isloss(i,j)和isdloss(i,j)表示宏塊(i,j)的isloss和isdloss的值,m、n表示視頻幀中列和行包含的宏塊數。

將視頻序列中每幀質量指標作加權處理等即可得到視頻質量評價結果,該結果在將Damaged塊數目作為網絡丟包引發視頻失真程度的客觀度量的同時,考察宏塊的運動劇烈程度與人眼主觀感受的關聯,可在一定程度上提升評價結果與人眼視覺感受的一致性。
宏塊的紋理豐富程度也會引發不同的視覺主觀感受。一般來說,紋理豐富區域的變化容易被人眼所察覺,而紋理簡單區域的變化不太容易產生顯著的視覺感受。圖2中兩幀丟包率相同,但圖2(a)中丟包發生在紋理較豐富區域,圖2(b)中丟包發生在紋理較簡單區域,圖2(a)給人的視覺感受較圖2(b)差。因此,視頻質量評價時還需要充分考慮受損宏塊的紋理豐富程度。

圖2 丟包發生在紋理豐富程度不同區域的效果圖
紋理特性表現為一幀中像素亮度級的變化[16-17],視頻編碼過程通常采用 DCT變換對視頻進行壓縮,DCT系數中的直流系數DC表示所在塊的平均亮度,基于此,本文采用一個區域中DCT直流系數 DC的變化量來表示其空域復雜度,其中丟失宏塊的DCT直流系數DC用其前一幀同一位置宏塊的DCT直流系數DC代替。為更加全面地表征 Damaged塊所在區域的紋理特性,本文將相鄰的Damaged塊組成的集合作為提取紋理特性的基本單元。
定義3.受損區域。受損區域為相鄰Damaged塊組成的集合,一幀可包含多個受損區域。
由此,本文提出了一種基于空域復雜度的無參考視頻質量評價機制(No-reference Video Quality Mechanism Based on Spatial Complexity,NSC),主要步驟如下:
(1)標記受損區域并按照式(5)計算每個受損區域的空域復雜度,式中 SIj表示一幀中第 j個受損區域的空域復雜度,n表示該受損區域所包含的Damaged塊的個數,表示該區域中的第 i個 Damaged塊的 DCT直流系數 DC,是該受損區域中所有Damaged塊的DCT直流系數DC的平均值;

(2)按照式(6)計算每幀的受損空域復雜度,若一幀中存在 n(n>=0)個受損區域,則該幀的受損空域復雜度為視頻幀中n個受損區域空域復雜度的均值。式中SIFt表示第t幀的受損空域復雜度,N表示該幀受損區域個數;

(3)按照式(7)計算當前幀質量指標,式中Qt表示視頻序列中第t幀的質量。

同樣,視頻序列每幀質量指標作加權處理等可得到視頻質量評價結果,該結果主要考察受損區域紋理豐富程度與人眼主觀感受的關聯,以提升評價結果與人眼視覺感受的一致性。
受損區域的紋理豐富程度和 Damaged塊的運動劇烈程度不同均會引發不同的視覺主觀感受,前文中 NSC僅考慮受損區域的紋理豐富程度的影響,NMI僅考慮Damaged塊的運動劇烈程度的影響。以NSC和NMI為基礎,本文提出了一種運動矢量和 DCT融合的無參考視頻質量評價模型,以運動矢量表征受損宏塊的運動劇烈程度,以DCT系數感知每幀的受損空域復雜度,獲取每個宏塊的運動劇烈程度及所在幀類型、每幀的受損空域復雜度和Damaged塊等信息,將網絡丟包率等視頻失真客觀度量指標和受損視頻內容視覺特征融合產生視頻質量評價結果,其具體實現過程如圖3所示。

圖3 AMMD的實現過程
Damaged塊標記步驟如下:
(1)接收網絡視頻流時分析判斷哪些片丟失,確定片丟失宏塊的位置并用isloss(i,j)標記,若宏塊(i,j)所在片丟失,則isloss(i,j)為1,該宏塊標記為Damaged塊,反之isloss(i,j)為0;
(2)根據每個宏塊在解碼時參考宏塊位置進一步標記受丟包影響的受損宏塊,若宏塊(i,j)參考宏塊非幀內宏塊,需根據運動矢量先計算其參考宏塊。若宏塊(i,j)的參考宏塊為Damaged塊,則isdloss(i,j)為1,該宏塊標記為Damaged塊,反之 isdloss(i,j)為 0。
受損區域需要將同一幀中的 Damaged塊聚合成群,其具體步驟如下:
(1)按照從左到右、從上到下的順序查找第一個Damaged塊,作為群Cm的核;
(2)在序列中查找與群Cm相鄰且未被聚合到其他群的Damaged塊,將其并入到群Cm;
(3)重復第(2)步直到序列中沒有與群 Cm相鄰的Damaged塊或者已經把所有的Damaged塊都聚合成群。
以 Damaged塊和受損區域為受損視覺內容特征提取的基本單位,完成運動矢量和 DCT融合評價,主要步驟如下:
(1)計算每幀融合質量指標:計算每幀的融合質量指標時,要綜合考慮運動劇烈程度和視頻幀的受損空域復雜度,其計算如式(8)所示。式中Qt表示視頻序列中第t幀的融合質量:

定義 4.特殊視頻段。特殊視頻段(special video segment,SVS)由 n個連續的視頻幀<f1,f2…fn>組成,n大于等于該視頻段的圖像組(Group of Pictures,GoP)長度,fi表示這n個連續視頻幀中的第i個視頻幀,Qfi表示fi的質量且大于給定閾值 Value。實驗表明當視頻幀質量大于10時,人眼會察覺到該幀受損程度較為嚴重,所以Value取經驗值10。SVS的質量為該視頻段中每幀質量的平均值。特殊視頻段表示該連續視頻段中幀的受損程度都較為嚴重。
(2)提取特殊視頻段并計算視頻融合質量:考慮到在一段視頻流中,人眼對于連續幀的受損情況較為敏感,根據幀的受損程度嚴重的集中度來評價視頻質量。
若視頻中存在 num個 SVS,則總的視頻質量為num個SVS質量的平均值。計算得到的視頻質量值越小,說明該視頻的受損情況越不明顯。若num等于0,則該視頻的質量為0,即該視頻的受損情況為0。
客戶端接收到視頻流后需要經歷以下3個處理階段:第一階段通過對分組頭和視頻載荷內容進行分析,得到幀類型、量化系數、編碼速率、發生丟包的宏塊位置、運動矢量和 DCT直流系數等信息,如果在這一階段評價視頻質量,無法得知受損宏塊所在區域視頻內容的視覺特性,評價結果容易偏離人眼視覺感受;第二階段根據第一階段得到的運動矢量得到宏塊解碼的參考宏塊,若其參考宏塊已發生丟包,則該宏塊的質量也受損;發生丟包的宏塊所在幀類型不同時,其影響的宏塊數目亦不同,通常I幀上丟包宏塊影響的宏塊數目較P幀上的多;第三個階段通過反量化和反變換完成視頻完全解碼,如果在這個階段評價視頻質量,視頻特征完整,評價結果符合人眼視覺感受,但計算復雜度大,實時性差。
本文提出的AMMD在第二階段后進行視頻質量評價,通過判斷宏塊的參考宏塊是否為受損宏塊來判斷該宏塊是否為受損宏塊,通過受損宏塊的數目表示網絡丟包對視頻質量造成的損傷,以運動矢量和 DCT直流系數刻畫運動劇烈程度和紋理豐富程度,用于表征受損宏塊所在區域的視頻內容視覺特性,無需參考原始視頻,無需視頻完全解碼,評價結果符合人眼的視覺感受。
本文實驗采用H.264編解碼器,標準序列格式為352×288,視頻幀率為30幀/秒,量化參數設為28,GoP結構為15:1(I1B2P3B4P5B6P7B8P9B10P11B12P13B14P15I1),選取空域和時域復雜度不同的標準視頻序列(foreman、paris、hall、news、coastguard、mobile、silent、football和soccer),視頻序列特征如表1所示,丟包率設為0、0.5%、1%、2%、5%、7%和10%。

表1 視頻序列特征
視頻序列coastguard、football、pairs和news在丟包率為5%時解碼后效果如圖4~7所示,圖中(a)~(h)表示對應視頻序列中同一個GoP中的第8個P幀~第15個P幀,丟包均發生在圖中(a)上,可以看出第8個P幀上發生的丟包將影響整個GoP中視頻幀的質量,圖4(a)中丟包發生在相對靜止區域,圖5(a)中丟包發生在劇烈運動區域,圖6(a)中丟包發生在紋理較豐富的區域,圖7(a)中丟包發生在紋理較簡單的區域,根據AMMD對這四個視頻進行質量評價,得到的視頻質量結果從好到差的順序為coastguard、news、pairs和football,符合人眼的視覺感受。

圖4 coastguard

圖5 football

圖6 pairs

圖7 news
進一步分別使用AMMD、NMI、NSC、峰值信噪比(peak signal to noise ratio,PSNR)和文獻[11]提出的無參考視頻質量評估方法NMH對所有的失真視頻進行評價,并與主觀質量結果進行一致性比較來評價模型性能。視頻主觀質量評價采用單刺激評估方法,相關的實驗條件參考文獻[18],使用平均評估分值表示視頻質量,評估標準如表2所示。

表2 視頻主觀質量評估標準
本文采用相關系數(correlation coefficient,CC)和均方根誤差(root mean square error,RMSE)來評價視頻質量評價模型的性能。CC表示客觀評價結果與主觀評價結果的相關度,值越大說明該客觀評價結果與主觀評價結果越相近。RMSE表示客觀評價結果與主觀評價結果的一致性,值越小,說明一致性越好。
表3表明AMMD的性能比NSC和NMI好,說明在評價視頻質量時需要融合考慮宏塊的運動劇烈程度和受損空域復雜度。圖8給出了NSC、NMI和AMMD的評價結果與主觀評價結果的對應分布圖,圖中每個數據點代表一個受測失真視頻序列,橫坐標表示客觀評價結果,縱坐標表示主觀評價結果,主客觀評價結果均已歸一化,橫坐標和縱坐標中1等價于表2中的分值5,0等價于表2中的分值1。從圖8可以看出,AMMD與主觀評價結果的相關度較NSC和NMI有一定的提高。

表3 NSC、NMI和AMMD的性能比較

圖8 NSC、NMI和AMMD的評價結果與主觀評價結果的對應分布圖
表4表明AMMD的性能也比PSNR和NMH好。圖9給出了PSNR、NMH和AMMD的評價結果與主觀評價結果的對應分布圖,圖中坐標軸及數據點含義與圖8相同,由圖9可知,就與主觀評價結果的一致性程度而言,AMMD較PSNR和NMH有明顯的提高。

表4 PSNR、NMH和AMMD的性能比較

圖9 PSNR、NMH和AMMD的評價結果與主觀評價結果的對應分布圖
網絡視頻流傳輸中會出現網絡丟包、延遲等現象,其中丟包對視頻質量影響最大。但網絡視頻質量不僅跟丟包率有關,還跟受損視頻內容視覺特性有關。因此本文提出了一種運動矢量和DCT融合的無參考視頻質量評價模型,通過分析網絡視頻流得到Damaged塊、宏塊的運動劇烈程度和視頻幀的受損空域復雜度,融合三者來評價視頻質量,無需原始參考視頻,無需完全解碼,計算量小,實時性好。實驗結果表明AMMD與主觀質量評價一致性良好。后續研究將擴展AMMD模型至其他編碼格式的網絡視頻流質量評價。
[1] 馮 欣. 基于視覺顯著性的網絡丟包圖像和視頻的客觀質量評估方法研究[D]. 重慶: 重慶大學,2011.
[2] ITU-T Recommendation P. 910. Subjective video quality assessment methods for multimedia applications[S].
[3] 楊付正,萬 帥. 網絡視頻質量評估技術研究現狀及發展動向[J]. 通信學報,2012,33(4): 107-114.
[4] ITU-T Recommendation J. 148. Requirements for an objective perceptual multimedia quality model[S].
[5] 王 瓊. 音視頻質量聯合方法研究[D]. 西安: 西安電子科技大學,2011.
[6] 李祥菊. 基于運動掩蔽的視頻質量綜合評價方法[D].合肥: 安徽大學,2012.
[7] 劉器宇. 視頻質量評價系統及其關鍵技術的研究[D].天津: 天津大學,2011.
[8] Zhao Yin,Yu Lu,Chen Zhenzhong,Zhu Ce. Video quality assessment based on measuring perceptual noise from spatial and temporal perspectives[J]. IEEE Transactions on Circuits and Systems for Video Technology,2011,21(12): 1890-1902.
[9] Feng Xin,Liu Tao,Yang Dan,Wang Yao. Saliency inspired full-reference quality metrics for packet-loss-impaired video[J]. IEEE Transactions on Broadcasting,2011,57(1): 81-88.
[10] 盧劉明,陸肖元. 基于網絡丟包的網絡視頻質量評估[J]. 中國圖象圖形學報,2009,14(1): 52-58.
[11] 周 濤. 基于 H.264的無參考視頻質量評估方法的研究[D]. 南京: 南京郵電大學,2011.
[12] Yang Yan. No-reference cross-layer video quality estimation model over wireless networks[C]// Proc.of ICIP,2011: 3329-3332.
[13] Yang Fuzheng,Wan Shuai. Bitstream-based quality assessment for networked video: a review [J]. IEEE Communications Magazine,2012,50(11): 203-209.
[14] Yang Fuzheng,Wan Shuai,Xie Qingpeng,Wu Hongren. No-reference quality assessment for networked video via primary analysis of bit stream[J]. IEEE Transactions on Circuits and Systems for Video Technology,2010,20(11): 1544-1554.
[15] 于俊清,劉沖,何云峰,胡勝紅. 利用運動強度自適應傳輸視頻內容[J]. 計算機輔助設計與圖形學學報,2009,21(6): 847-852.
[16] 劉德連,張建奇. 基于紋理分割的遙感圖像的變化探測[J]. 光學學報,2006,26(8): 1177-1181.
[17] 張亞靜,李民贊,喬 軍,劉 剛. 一種基于圖像特征和神經網絡的蘋果圖像分割算法[J]. 光學學報,2008,28(11): 2104-2108.
[18] ITU-R Recommendation BT. 500-11. Methodology for the subjective assessment of the quality of television pictures[S].