周 圓,侯春萍
(天津大學電子信息工程學院,天津300072)
立體信息技術是下一代信息技術發展方向,有廣泛的應用前景。一個多視點視頻系統需要傳輸來自多個視點的多個視頻序列。多視點視頻可大大增強使用者的視覺享受,因而受到廣泛的關注。多視點視頻的通信意味著需要傳輸更多的數據和進行更多的處理運算,所以目前這個領域的研究匯集了視頻編碼,圖像處理、計算機視覺和顯示技術上所有的前沿技術。
高比特率的多視點視頻處理對于內容提供商和最終用戶來說是一個重要的挑戰。即使經過先進的壓縮技術處理后,多視點視頻仍然有很高的數據量。最近在學術文獻中提出了多種視頻傳輸方案:在最終用戶方面,已經有學者從事選擇性數據流這方面的工作,根據觀看者的頭部位置,將必要部分的多視點視頻編碼成數據流。文獻[1]使用不等重要片組以適應FMO到MVC的轉換。文獻[2]提出了一種率失真算法,為每個質量層確定來源和通道。其他方案,如文獻[3]中提到的數據分割系統,使用Turbo碼來實現通道保護。但由于RS碼和Turbo碼較高的計算成本,不適合在實時系統中應用。
在3DTV流通過IP網絡傳輸的研究中,文獻[4]提出利用NUEPMuT協議通過多樹點對點(P2P)網絡來傳輸多視點視頻流。文獻[5]提出了使用一個有效應用于可擴展的立體視頻編碼的層提取方法,以實現在任何給定的視頻數據包之間有效分配比特率預算。文獻[6]提出了遞歸式的多視點視頻傳輸失真模型,對多視點視頻根據網絡環境進行了失真率的計算。一些學術機構和企業也展示了應用在IP網絡上的多視點立體視頻服務的原型系統。微軟亞洲研究院提出了一個可提供實時、互動和可靠的多視點視頻服務系統架構[7]。MERL(三菱電子研究實驗室)提出了多視點3DTV原型系統與實時采集、傳輸和自動立體顯示[8]。
但是,在包交換網絡中,網絡中某節點上的存儲區溢出可能會引起丟包,也可能因為時間延遲而認為某個包丟失了。然而,被壓縮的視頻信號,特別是被編碼的立體視頻,由于其采用低比特率視頻編碼方案依靠幀間編碼提高編碼效率,在面對錯誤時都是很脆弱的。這種運動補償和視差補償的編碼結構在碼間預測時,對視頻幀間具有很強的時空依賴[9,10]。這種傳輸中不可避免的丟包造成重建視頻錯誤傳播,嚴重影響傳輸質量。
無論是服務提供商還是用戶,對于視頻通信技術的期望都是能夠獲得有服務質量(Quality of service,QoS)保證的視頻服務。因此,更準確理解網絡特性與解碼端立體視頻質量的關系,就顯得尤為迫切。筆者在文獻[11]中首次提出了面向IP網絡的多視點視頻失真估計模型,以遞歸公式的形式在幀水平(frame-level)上建立了以MSE為指標的、任意丟包模式下的多視點視頻失真估計模型。
本文以前期提出的失真模型為基礎,采用理論分析與實驗研究相結合的方法,研究網絡傳輸差錯對多視點立體視頻質量的影響。根據人眼所能忍受的立體感,由丟包和數據包出錯而減弱的程度近似確定出可接受的立體視頻在IP網絡傳輸中的丟包率和錯誤率。
視頻的幀間編碼模式在帶來高壓縮率的同時,也導致一個GOP中圖像幀間的高依賴性。一旦某一個幀因信道出錯而丟失,不僅該幀在重建時會出現失真,其后續幀也將因幀間的參考不匹配而出現失真,即失真將在后續幀間傳播。假定一個包含當前幀壓縮數據的包在信道傳輸中丟失,解碼器采用前一幀替代的錯誤掩蓋方法,顯然,此時解碼器得到的當前幀重建和編碼端的重建是不一樣的。需要注意的是,這個因信道丟失而受損的重建幀,仍然會在解碼器端作為其后續視頻幀的運動補償參考。這種情況下,如果某一幀中的數據由于網絡丟包產生了解碼錯誤,這種相關性將導致下一幀或同一幀中相關的數據也存在解碼錯誤,并將在后續幀之間隨著運動補償路徑進行傳播。而當運動矢量不為零時,失真還將在圖像幀的空域進行擴散,錯誤擴散會在時間和空間上同時累積,嚴重破壞重建圖像的質量。其次,目前的熵編碼普遍采用可變長編碼技術,這將使網絡傳輸產生的隨機比特錯誤向后擴散,導致后續更多的比特不可解,從而使連續的比特段損壞,引發和丟包一樣的刪除性錯誤,造成持續多幀的大面積破壞,這種錯誤不僅在時間軸上擴散,同時也在空間擴散。受感染的幀如果使用幀內預測,錯誤也會擴散至同一幀的其他宏塊。這種錯誤的時域、空域傳播會造成解碼端視頻質量的嚴重下降。
對于多視點立體視頻,每個視點的視頻序列與普通視頻一樣具有時域、空域冗余性,不同之處是某一時刻各視點之間也具有冗余性,也就是說,各視點圖像數據之間有強相似性,不僅同一視點相鄰幀之間存在時域相關性,而且同一時刻相鄰視點對應幀之間還存在空域相關性。因而,在多視點視頻編碼(MVC)中,還采用了視點間預測。第一視點按照二維視頻編碼(H.264)的步驟進行編碼。非第一視點的第一幀采用幀內預測的同時,以參考視點的第一幀為參考進行視差補償預測,并存儲視差矢量和殘差。非第一視點的非第一幀,以該視點已編碼幀為參考進行運動補償預測,遍歷所有模式,記錄最優預測塊的運動矢量、殘差及開銷;然后以參考視點同一時間的圖像為參考進行視差補償預測,遍歷所有模式,記錄最優塊的視差矢量、殘差及開銷;選擇開銷最小的模式為最佳編碼模式,記錄矢量和殘差。
多視點視頻時間域上的視頻幀數用t表示,視點數用s表示。設M(s,t)為第s視點的第t幀。對于幀M(s,t)(不包括第0視點和每個視點的第一幀),前一時刻的幀M(s,t-1)和前一視點的幀M(s-1,t)都作為參考幀。
在端到端編碼視頻傳輸系統中,有兩種主要的失真:一種是信源編碼時的量化失真,另一種是信道差錯造成的失真。方便起見,我們稱這兩種失真為編碼器引起的失真和信道引起的失真。由編碼器引起的誤差可在編碼端準確估計,所以,計算總失真量的挑戰性就在于計算信道引起的失真,即傳輸失真。
令Fi(s,t)表示第(s,t)幀第i像素的原始值,令(s,t)和(s,t)分別表示在編碼器和解碼器處重建的第M(s,t)幀第i像素的值,則傳輸失真可用下式表示:

此處E{}表示第(s,t)幀內所有像素點上的期望。
在編碼端,我們假設這個宏塊中的每個像素Fi(s,t)都由相鄰視點的對應幀M(s-1,t)中的一個或幾個相鄰像素的加權之和來預測,預測值為


那么接收端重建的值可表示為

設εi(s,t)=(s,t-1)-(s,t-1)。對于一定的Kp和ak,平均傳輸失真可由下式求得


總體來說,相鄰像素的傳輸失真是相關的,尤其是當這些像素屬于同一個片組的時候。為使分析簡化,在推導(4)時假設相鄰像素傳輸失真的相關系數都相同,用ρ表示。ρ可視為信道失真的平均相關系數。


進而假設對于不同的幀,a可取相同的值,從而一個正確接收的宏塊的平均傳輸失真為

從式(5)中系數a的定義可知,相鄰像素的傳輸失真之間的相關系數可假設為一個常數。
對于一個采用視差估計,即由同一視點的前一幀M(s,t-1)中的幾個相鄰像素的加權之和預測的宏塊,可采用類似的方法計算其失真量。因此,這個宏塊的平均失真可表示為

為了研究丟包和數據包出錯對立體視頻播放效果的影響,對IP網絡中數據包丟失的過程進行了模擬仿真。對合成后的八視點視頻源文件進行256字節、512字節和768字節的拆包并按照一定梯度設置了丟包率,丟包率分別是0.1%和0.5%時視頻經過處理后在立體播放器Simpleplay的播放效果如圖1所示。
由實驗結果可得到這樣的結論:拆包的大小對立體視頻播放的流暢性有一定的影響,拆包小的視頻文件在接收端播放時,流暢性沒有拆包大的好,有很明顯的停頓。而且網絡丟包率對立體視頻的播放效果也有很大的影響:丟包率越大,失真越嚴重。另外,通過肉眼觀察,可大致確定出當網絡丟包率在0.1%以下時,人眼可忍受立體視頻由于網絡丟包而產生的失真。

圖1 丟包對立體視頻播放效果的影響Fig.1 The impact of packet loss on the 3D video
本節主要討論IP網絡傳輸中數據包出錯、損壞的情況并對其過程進行模擬仿真,在這個基礎上再討論它對接收端視頻的播放效果造成的影響。
與整個數據包都發生丟失的情況不同,這里的數據包出錯指的是包中的某個字節的某個比特位發生錯誤,即原比特位上的“0”變為“1”或者原比特位上的“1”變為“0”。一個字節對應八個二進制位,即1 Byte=8 bits,因此在網絡傳輸過程中由于物理信道的失真或者外部條件對信道的干擾都有可能造成數據包的損壞或出錯。在視頻傳輸應用中,物理信道的失真會使解碼端接收到的碼流遭到破壞,從而導致重建圖像失真。尤其是在最常用的編碼標準MPEG和H.26x中,都采用變長編碼(Variable length coding,VLC)以達到提高壓縮效率的目的,由于VLC的使用,使得視頻碼流對信道錯誤十分敏感,甚至單比特的錯誤都有可能帶來災難性的后果。為此,有必要對IP網絡中數據包出錯的情況進行研究,探究某個字節中的比特位出錯后對接收端立體視頻的播放效果造成的影響和程度的大小。

圖2 數據包出錯對立體視頻播放效果的影響Fig.2 The im pact of bit-error on the 3D video
實驗分別對視頻源文件進行了512字節和768字節的拆包,并按一定的梯度設置了錯誤率。圖2是錯誤率不同時視頻經過處理后在立體播放器Simpleplay上的播放效果。
由實驗結果可得到結論:立體視頻對數據包出錯非常敏感,即使一個數據包中僅有一個比特位出現錯誤也會造成很大的失真,這主要是由于在標準MPEG或H.26x中普遍采用變長編碼(Variable length coding,VLC)以達到提高壓縮效率的目的,由于VLC的使用,使得視頻碼流對信道錯誤十分敏感。另外,拆包大小對立體視頻播放的流暢性有一定的影響,拆包小時的播放流暢度沒有拆包大時的好。
多視點視頻的編碼方式雖然極大地降低了原始信號的時域和空域冗余度,使得高壓縮比編碼技術成為可能,但同時也降低了編碼碼流對抗網絡傳輸錯誤的魯棒性。在丟包網絡中,其誤差將向兩個方向傳播,傳播模式由一維變為二維,因而對錯誤更加敏感。
在網絡信道環境相同的情況下,數據包出錯對接收端立體視頻播放效果的影響要比丟包的影響更大,這主要是因為丟包是將整個數據包都丟棄,而其它沒有發生丟包的數據包仍然保存有視頻的重要信息;而數據包出錯是數據包中某個字節隨機發生錯誤,當網絡的信道環境很差時可能造成幾乎每個數據包都發生錯誤,因而數據包中某些關鍵信息(如相鄰幀之間的預測信息、運動補償信息、運動矢量信息等)發生錯誤的概率要比丟包更大。因此,數據包發生錯誤對立體視頻播放效果的影響要比丟包影響大。
[1]Thomos N,Argyropoulos S,Boulgouris N V,et al.Robust transmission of H.264/AVC streams using adaptive group slicing and unequal error protection[J]. EURASIP Journal on Applied Signal Processing,2006 (1):1-13.
[2]Fu C M,Huang W L,Huang C L.Efficient post-compression error-resilient 3D-scalable video transmission for packet erasure channels[C]∥IEEE Int Conf on A-coustics,Speech,and Signal Processing,Philadelphia,PA,USA,2005:305-308.
[3]Yip P Y,Malcolm J A,Fernando W A C,et al.Joint source and channel coding for H.264 compliant stereoscopic video transmission[C]∥Canadian Conf on Electrical and Computer Engineering,Saskatoon,Canada,2005:188-191.
[4]Kurutepe S,Sikora T.Feasibility of multi-view video streaming over P2P networks[C]∥3DTV Conference,Berlin,German,2008:157-160.
[5]Ozbek N.Inter-View rate allocation using efficient layer extraction for stereo video stream ing over IP[C]∥3DTV Conference,Berlin,German,2008: 153-156.
[6]Zhou Y,Hou C P,Xiang W.Modeling of transmission distortion formulti-view video in packet lossy networks[C]∥IEEEGlobal Communications Conference(GLOBECOM),Miami,USA,2010:1-5.
[7]Lou JG,Cai H,Li J.A real-time interactivemulti-view video system[C]∥Proc ACM Multimedia,2005:161-170.
[8]Matusik W,Pfister H.3DTV:A scalable system for realtime acquisition,transmission and autostereoscopic display of dynamic scenes[J].ACM Trans on Graphics,2004,23(3):814-824.
[9]Zhang Q,Zhu W,Zhang Y Q.End-to-end QoS for video delivery over wireless internet[J].Proc the IEEE,2005,93(1):123-134.
[10]Girod B,Farber N.Feedback-based error control formobile video transmission[J].Proc the IEEE,1999,87 (10):1707-1723.
[11]Zhou Y,Hou C P,Xiang W,et al.Channel distortion modeling formulti-view video transmission over packetswitched networks[J].IEEE Transactions on Circuits and System for Video Technology,2011,21(11):1679-1692.