摘 要:分組網絡中的視頻質量評估雖然從理論上可以采用一般的視頻質量評估方法,但是由于視頻在網絡上傳輸的特殊情況以及寬帶業務運營的要求,需要滿足實時性高、資源開銷小等要求。首先描述了分組網絡中的視頻質量評估方法及其模型分類,介紹了目前在分組網絡中的視頻質量評估方面的研究成果,并分析和總結了它們的優缺點及性能;最后展望了評估方法及模型的發展。
關鍵詞:分組網絡;視頻質量評估;網絡損傷
中圖分類號:TP393; TP391 文獻標志碼:A
文章編號:1001-3695(2008)09-2583-03
Quality evaluation of video over packet networks
LULiuming1,2,LU Xiaoyuan1
(1.Shanghai Engineering Research Center for Broadband Technologies Applications, Shanghai 200336, China;2.Shanghai Institute of Microsystem Information Technology, Chinese Academy of Sciences, Shanghai 200050, China)
Abstract:Quality evaluation of video over packet networks can use the general methods of video quality evaluation,but it has to meet the special requirements of quality evaluation in packet networks, such as realtime,low cost of resource etc.This paper firstly described the classification of the methods and models in the quality evaluation of video over packet networks, then introduced the present methods and models in the topic, and analyzed their merit and demerit, and performance,finally gave the perspective of quality evaluation of video over packet networks.
Key words:packet networks;video quality evaluation;packet loss
分組網絡技術的迅速發展,使得分組網絡具有高帶寬、接入方便、費用低等優點。其提供的應用不僅局限于網頁瀏覽、電子郵件、搜索引擎等信息工具類應用,而是擴展到網絡電視(IPTV)、視頻點播等視頻服務。然而,分組網絡中的盡力而為(best effort)服務模型以及共享的網絡基礎設施,意味著其存在可能的網絡損傷,如延時、抖動、擁塞、丟包等,同時也意味其潛在著損害視頻服務中用戶體驗的可能性[1]。網絡服務提供商希望擁有在線性能監控工具對網絡視頻服務中的視頻質量進行實時監控。因此,要實現分組網絡中視頻服務的良好發展與運營,就有必要建立有效的網絡視頻質量評估方法,在系統運營前分析數字視頻采用哪種編/解碼算法、格式及參數;同時在系統運行時對網絡視頻質量進行監控,真實反映用戶享受到的視頻質量體驗,以便對突發情況及時作出決策。
傳統的視頻質量評估方法主要是用于評估視頻編/解碼算法及其參數的優劣,很少考慮通過網絡性能評估視頻質量的情況。常用的有峰值信噪比(PSNR)和均方誤差(MSE)。它是通過比較原始視頻序列與經編/解碼后的原始序列中的像素值來評價視頻質量。同時,在不考慮網絡損傷的壓縮視頻客觀感知質量評估方面也有相當多的研究。文獻[2]提出基于人類視覺系統多通道模型的全參考視頻質量評價指標,對低碼率的壓縮視頻感知質量進行持續性的評估。文獻[3]利用神經網絡方法設計一個針對未解碼MPEG-2視頻流的客觀質量評估算法。這些評價方法及指標是設計用于預測由壓縮因素而導致的視頻質量劣化程度的,而不是針對基于網絡損傷的視頻質量評估的。
1 視頻質量受分組網絡性能影響及其評估方法分類
1)視頻質量受分組網絡性能的影響
影響分組網絡中視頻質量的因素可分為與網絡性能相關及無關的。網絡性能相關的因素主要包括丟包、延時、時延差(抖動)、傳輸位率等。其中丟包對視頻質量的影響最大,而抖動的最終影響效果就是導致丟包。網絡性能無關的因素主要包括視頻本身所采取的編/解碼算法及參數、視頻本身內容的特點、視頻畫面的分辨率、用戶觀看視頻的環境等。其中編/解碼算法及參數與視頻本身內容的特點(即空間復雜度與時間變化度)直接決定著視頻對丟包等網絡損傷的敏感程度。
由網絡性能造成的視頻損傷誤差包括初始誤差以及由初始誤差在視頻序列空間與時間上傳播而形成的誤差。視頻在分組網絡中進行傳輸的過程中,被打包成固定大小的分組(如MPEG-2 TS)或不定長的分組,每個分組包含的數據有幀頭信息、一個片或多個片的數據等。如果丟失的分組中包含幀頭信息,則視頻中整個該幀的數據將丟失;如果丟失的分組中包含一個片或多個片的數據,則視頻中有關片的數據將全部丟失,從而產生初始誤差。由于不同解碼器對于丟失的片可能采取了不同誤差掩蓋策略,對于不同的解碼器而言初始誤差可能不同。因為視頻編/解碼算法及視頻本身內容的特點,初始誤差還將在時間與空間上進行傳播,其傳播程度與視頻序列的空間復雜度和時間變化度有關,是由丟失信息中宏塊的類型以及丟包后接收到的宏塊運動信息決定的。
2)評估方法分類
分組網絡中的視頻質量評估方法可基于被分析的視頻數據在網絡傳輸中所在位置進行分類,如圖1所示,文獻[4]作了有關的分類描述。初始視頻經過編碼器編碼后形成壓縮視頻流。由于目前常用的視頻編/解碼算法(如MPEG)是基于運動補償和離散余弦變換的,壓縮視頻流即使未經網絡傳輸而直接解碼后形成的壓縮與重構視頻相對于初始視頻而言也存在損傷。傳統的視頻質量評估方法就是通過比較初始視頻與未經網絡傳輸而直接編/解碼后形成的壓縮與重構視頻的,主要用于分析視頻編/解碼算法的優劣及參數選擇的好壞。圖1中的FRC(基于壓縮損傷的全參考評估)即屬于這種方法。由于分組網絡中的視頻質量評估方法主要用來考察網絡損傷情況對視頻質量的影響,參考的視頻不是初始視頻,而是其未經網絡傳輸而直接編/解碼后形成的壓縮與重構視頻。
(1)基于網絡性能的全參考方法(FRN)是比較編碼器端未經網絡傳輸的壓縮與重構視頻,以及經網絡傳輸后帶可能損傷的壓縮及重構視頻的像素值進行評估的,如圖1中的FRN所示。
(2)部分參考方法(RR)是根據從編碼器端網絡傳輸前的壓縮及重構視頻中抽取的特定參數,以及解碼器端經網絡傳輸并解碼后的視頻序列像素值進行評估的,如圖1中的RR所示。
(3)無參考方法(NR)無須訪問編碼器端的任何信息,而直接對帶可能損傷的視頻流或經解碼后的壓縮與重構視頻進行分析,如圖1中的NRP與NRB所示。無參考方法(NR)包括NRP(基于像素的無參考方法)和NRB(基于視頻流數據的無參考方法)兩種。NRP需要解碼器端被解碼后的壓縮與重構視頻的像素信息,而NRB只需要分析網絡視頻流的信息。
總體而言,FRN方法是最精確的,但是對分組網絡中的視頻質量評估可操作性不強。NRB對于網絡視頻質量監控是最好的選擇,其實時性高、資源開銷小,無須通過解碼器對視頻流進行解碼,并可在不同網絡點進行實時監控。NRB方法的缺點是必須預先假定解碼器怎么處理受損傷的視頻流,如采用何種誤差隱蔽方法、解碼器是否丟棄受損傷的信息;而且,只能通過收到的視頻流數據預測丟失的視頻特征以進行評估。RR抽取了原始壓縮及重構視頻的一些特征信息進行評估,彌補了NRB中預測可能造成的評估誤差,但是要比NRB花費更大的網絡開銷。
與一般的視頻質量評估方法一樣,分組網絡中的視頻質量評估方法也可分為主觀評估方法和客觀評估方法。其中客觀評估方法歸結為基于人眼視覺系統生理特征和基于結構失真兩大類。這幾類方法的描述詳見文獻[5]。
2 相關工作分析
對分組網絡中的視頻質量評估研究目前在學術界是一個研究熱門,主要是探討丟包、抖動等網絡性能對視頻質量的影響,以及如何把一般的視頻質量評估模型與分組網絡中的視頻質量評估有機結合起來。文獻[6~9]提出了采用模型來估計在易發生損傷的信道中傳輸的視頻在解碼器解碼后的損傷情況,但是這些模型的目標是優化選擇編碼參數以在可能的丟包范圍內獲得最好的平均視頻質量。
總體而言,分組網絡中的視頻質量評估模型可歸納為兩種類型:一種是從平均丟包率來評估視頻質量;一種是根據從各個丟包的具體情況(如丟包位置、丟包周邊的視頻情況等)來評估視頻質量。這些模型中采用視頻質量評價指標的有些是基于圖像逼真度(如PSNR、MSE等),有些是基于人眼視覺感知(MPQM、MOS等)。
2.1 從平均丟包率評估視頻質量
從平均丟包率來評估視頻質量是在給定的視頻編/解碼算法及參數(碼率、圖像組結構等)下,根據統計學理論、神經網絡等數學工具,通過實驗的手段,得出平均丟包率與視頻質量之間的關系,由這個推出的關系來評估視頻質量。在這種評估方法中,沒有分析每個丟包的具體情況。
文獻[10,11]研究了碼率與分組丟失對MPEG-2視頻質量的影響,并采用MPQM方法對視頻質量進行評分,得出視頻質量與碼率和平均丟包率的關系為
文獻[12,13]提出了一種無參考的實時視頻質量評估方法,以影響視頻質量因素中的視頻流位率、視頻幀率、網絡丟包率、連續丟包數量、幀內編碼宏塊與幀間編碼宏塊間的數量比作為輸入,以視頻質量MOS評分作為輸出,通過神經網絡進行訓練,獲得影響視頻質量的因素與視頻質量的近似關系,并利用該近似關系評價視頻質量。
文獻[14]利用觀察者所判斷的視頻質量平均得分來考查帶寬、時延、丟包對視頻質量的影響。文獻[15]研究在Microsoft Windows Media 9(beta version)編碼器中丟包對實時視頻流MOS得分的影響。文獻[16]利用MOS來評估受丟包影響的VBR視頻的主觀質量,研究結果顯示視頻質量不但對連續丟包的數目敏感,而且對丟包的頻率也非常敏感。
綜上分析可知,從平均丟包率來評估視頻質量只是探討丟包率對網絡視頻質量所產生的大概影響,而沒有考慮丟包所在視頻流中的位置以及與它相關的視頻內容。這種方法得出的網絡損傷—視頻質量模型的精確度不高。由于不同視頻源所具有的不同行為內容,即使采用相同的編碼參數,其得出的結果仍存在較大的偏差。
2.2 從丟包的具體情況評估視頻質量
從丟包的具體情況評估視頻質量是在給定的視頻編/解碼算法及參數(碼率、圖像組結構等)下,從丟包所在的位置、丟包所在圖像的復雜度及其與鄰近圖像之間的關聯度等方面分析每個丟包對視頻質量的影響,最后綜合所有丟包對視頻質量的影響來評估視頻質量。在這種方法中,一種是通過估計每個丟包形成的初始誤差以及該初始誤差在時空上的傳播情況來預測PSNR或MSE;一種是從人眼視覺感知的角度分析每個丟包的可見性。
文獻[17]提出通過視頻流丟包情況評估平均方差(MSE)的三種無參考視頻質量評估方法,即NoParse、QuickParse、FullParse。NoParse只用到網絡性能統計信息(如丟包率),不解析視頻流的內容;QuickParse需解析受丟包影響的時空信息,搜索起始碼并解析它之后的頭字段,但不解析運動向量、DCT系數等;FullParse惟一的限制是不進行完整的解碼,不進行像素的反離散變換(IDCT)或運動補償,需解析包含時空行為與誤差傳播影響效果在內的視頻序列信息,包括時間與空間分辨率、片長度,以及運動與量化參數、宏塊類型、DC系數概要信息在內的宏塊有關信息。文獻[17]推導的平均方差公式為
文獻[17]提出的視頻質量評估模型沒有考慮人眼視覺感知因素,因此很難通過該模型得出視頻的QoE(用戶體驗質量)。
文獻[4,18,19]研究什么情況下人眼才能覺察到由于丟包而產生的視頻損傷。其利用主觀評價實驗結果,對影響視頻質量的客觀因素值的范圍進行分類來預測損傷的可覺察性,并用線性模型GLM來預測由丟包而引發的人眼覺察到損傷的可能性。他們提出的影響視頻質量的客觀因素有:
a)內容相關的因素(參數)。依賴于丟包所在位置的視頻內容,可利用編碼器端的無損傷初始視頻流計算得到,無法通過損傷視頻流得到精確的數值,包括:
(a)運動向量MOTX、MOTY。丟失片在X、Y方向的平均運動向量。
(b)運動向量的變化度VARMX、VARMY。丟失片在X、Y方向的平均運動向量的變化度。
(c)初始平均方差IMSE。在丟片位置,損傷后的圖像與未損傷圖像之間的像素初始平均方差。
b)內容無關的因素(參數)。依賴于丟包在視頻流中的位置,而與具體的視頻內容無關,可通過解析損傷視頻流計算得到。包括:
(a)持續時間TMDR。由丟包影響的視頻幀數量,B幀的丟包只會影響B幀本身;參考幀的丟包所產生的影響會持續到下一個I幀。
(b)空間廣度SPXNT。表示由丟包影響的片的區域大小。
(c)空間位置HGT。表示由丟包影響的片的區域位置。
文獻[4,18,19]只是研究了視頻丟包的可覺察性問題,還未建立基于人眼視覺感知的視頻質量評估模型。
從丟包的具體情況評估視頻質量具有相對高的精確度,是分組網絡中視頻質量評估的重要研究方向。目前對該種評估方法的研究成果主要還是集中在通過預測PSNR或MSE的值來評估視頻質量,而利用丟包具體情況進行基于人眼視覺感知的視頻質量評估的研究工作由于人眼視覺系統的復雜性等因素進展不大。
3 結束語
隨著網絡電視、視頻點播等寬帶網絡業務的普及化,分組網絡中的視頻質量評估已經成為當前流媒體技術研究中的熱點。基于本文對分組網絡中視頻質量評估方法的評述,筆者認為需從以下方面進行深入研究和探索:首先,需要建立相應的指標來量化視頻質量影響參數,如時空復雜度的評定等,而且解決如何通過對視頻流的分析來計算它們值的問題。其次,利用基于人眼視覺感知理論對視頻質量劣化現象進行評定。最后,建立視頻質量影響參數與視頻質量劣化現象之間的對應關系及模型,如馬賽克主要是由丟包引起的,而量化指標低常會造成畫面模糊等。通過這種對應關系與模型,實現基于QoE(用戶體驗質量)的視頻質量評估。
參考文獻:
[1]
TAO Shu, APOSTOLOPOULOS J, GUERIN R, Realtime monitoring of video quality in IP networks[C]//Proc of NOSSDAV’05.Stevenson.Washington DC:[s.n.],2005.
[2]MASRY M,HEMAMI S.A metric for continuous quality evaluation of compressed video with severe distortions [J].Signal Process:Image Communication,2004,19(2):133146.
[3]GASTALDO P,ROVETTA S,ZUNINO R.Objective quality assessment of MPEG-2 video streams by using CBP neural networks[J].IEEE Trans on Neural Networks,2002,13(4):939-947.
[4]KANUMURI S,COSMAN P,REIBMAN A,et al.Modeling packetloss visibility in MPEG-2 video[J].IEEE Trans on Multimedia,2006,8(2):341-355.
[5]佟雨兵,胡薇薇,楊東凱,等.視頻質量評價方法綜述[J].計算機輔助設計與圖形學學報,2006,18(5):735747.
[6]STUHLMULLER K,FARBER N,LINK M,et al.Analysis of video transmission over lossy channels [J].IEEE Journal on Selected Areas in Communications,2000,18(6):10121032.
[7]HE Zhihai,CAI Jianfei,CHEN Changwen.Analytic endtoend rate distortion modeling and control for packet video over wireless network[C]//Proc of Int Workshop on Packet Video.Pittsburgh:[s.n.],2002
[8]ZHANG Rui,REGUNATHAN S, ROSE K.Video coding with optimal inter/intramode switching for packet loss resilience[J].IEEE Journal on Selected Areas in Communications,2000,18(6):966-976.
[9]WU Dapeng,HOU Y T,LI Bo,et al.An endtoend approach for optimal mode selection in Internet video communication:theory and application[J].IEEE Journal on Selected Areas in Communications,2000,18(6):977-995.
[10]VERSCHEURE O,FROSSARD1 P,HAMDI M.Useroriented QoS analysis in MPEG-2 video delivery[J].J RealTime Imag,1999,5(5):305-314.
[11]VERSCHEURE O,FROSSARD P,HAMDI M.MPEG-2 video services over packet networks[C]//Proc of Joint Effect of Encoding Rate and Data Loss on UserOriented QoS.Cambridge:[s.n.],1998:257-264.
[12]MOHAMED S,RUBINO G,CERVANTES F,et al.Realtime video quality assessment in packet networks:a neural network model[C]//Proc of International Conference on Parallel and Distributed Processing Techniques and Applications.2001.
[13]MOHAMED S,RUBINO G.A study of realtime packet video quality using random neural networks[J].IEEE Trans on Circuits, and Systems for Video Tech,2002,12(12):10711083.
[14]CERMAK G W.Video conferencing service quality as a function of bandwidth, latency, and packet loss,T1A1.3/2003-026[R].[S.l.]:Verizon Laboratories,2003.
[15]CHEN B,FRANCIS J.Multimedia performance evaluation[R].[S.l.]:ATT Technical Memorandum,2003.
[16]HUGHES C,GHANBARI M,PEARSON D,et al.Modeling and subjective assessment of cell discard in ATM video[J].IEEE Trans on Image Processing,1993,2(2):212-222.
[17]REIBMAN A,VAISHAMPAYAN V,SERMADEVI Y.Quality monitoring of video over a packet network[J].IEEE Trans on Multimedia,2004,6(2):327-334.
[18]REIBMAN A,KANUMURI S,VAISHAMPAYAN V,et al.Visibility of individual packet losses in MPEG-2 video[C]//Proc of International Conference on Image Processing.2004:171174.
[19]KANUMURI S,COSMAN P,REIBMAN A.A generalized linear model for MPEG-2 packetloss visibility[C]//Proc ofPacket Video Workshop.Irvine:[s.n.],2004.