摘要:系統地闡述了分布式視頻編碼(distributed video coding,DVC)技術框架的基本原理和近五年的發展歷程;列舉了國內外多個研究小組的基本思想研究現狀;分析了分布式視頻編碼技術的發展趨勢;揭示了技術的關鍵和研究熱點;展望了該技術在信息安全、可伸縮編碼、多描述編碼以及光場編碼中的應用前景。
關鍵詞:分布式信源編碼;低復雜度視頻編碼; 魯棒視頻傳輸; WynerZiv編碼; 多視角編碼
中圖分類號:TN919.8文獻標志碼:A
文章編號:1001-3695(2007)08-0017-05
0引言
傳統的視頻編碼標準,如MPEG或ITUT的H.26x系列,均在編碼端利用序列幀之間的統計相關性來進行幀間預測編碼的。為了能夠較準確地預測當前幀,現行標準中無一例外地使用了運動估計算法。運動估計算法的復雜性,導致了視頻編碼器復雜度一般比解碼器的復雜度高5~10倍。這種視頻編碼方案對于視頻點播和直播等應用是非常適合的。因為在這些應用中終端的任務只是進行復雜度較低的視頻解碼。相反,另外一些應用系統需要低復雜度編碼器,如在軍用無線視頻傳感器網絡或衛星視頻通信等應用系統中,需要低處理能力的終端處理器把視頻信息發送給中心服務器。此時傳統的視頻編碼方案難以勝任,迫切需要一種低編碼復雜度的視頻編碼方案來適應終端的低處理能力。此外,傳統視頻編碼方案在建立可伸縮性碼流和抗誤碼方面也難以勝任。雖然MPEG-4 中采納的精細粒度可伸縮(fine granularity scalability,FGS)[3]視頻編碼方案具有很好的可伸縮特性,但因其編碼效率與非可伸縮方案相比太低,很難在實際視頻通信中得到應用。基于FGS 的各種改進方案[4,5]也因其編碼復雜度和編碼效率等問題不能得到推廣。這些問題的存在說明在一些特殊應用領域和場合,基于編碼端預測的傳統視頻編碼方案難以勝任,急需探索新的編碼理論和技術,以突破性地解決這些關鍵問題,開拓視頻編碼的應用范圍。近年來,專家們提出了采用分布式編碼來解決上述問題。在分布式編碼中,多個具有相關性的信源使用相互獨立的編碼器進行編碼,而解碼時進行聯合解碼。由于只在解碼端使用了所有信源的信息,編碼端的復雜度可以很低,這與傳統的編碼方法正好相反。這樣在使用手機或其他復雜度受限的設備進行視頻通信時,就可以采用上述編碼方式對原始視頻流進行編碼;而在基站通過轉碼將碼流轉換為普通的MPEG或H.26x碼流,接收該碼流的手機僅需使用傳統的視頻解碼方法進行解碼。
目前,國外在這一領域有突出研究的是伯克利的Ramchandran小組[8,9]、斯坦福B.Girod小組[10~13]、UIUC的Ahuja小組[14~16]以及TAMU的Zixiang Xiong小組[17~20]等。國內也有一些研究機構正在開展這方面的研究,如清華大學[21,22]、微軟亞洲研究院等。隨著分布式信源編碼研究的日益深入,它已被學者們用來解決更廣泛的問題,如用于低復雜度編碼、多視角編碼、信息安全、可伸縮編碼、多描述編碼、光場編碼等領域。
1分布式編碼的理論基礎
1.1分布式無損信源編碼
分布式壓縮指的是編碼兩個獨立的任意序列;每個具有分離的編碼器,每一個編碼器發送一個獨立的碼流到一個獨立的解碼器;該解碼器聯合解碼所有的碼流并且計算統計相關,如圖1[1]所示。
假設兩個統計相關獨立同分布的無限長隨機序列X和Y,在傳統的熵編碼和解碼可以達到RY≥H(Y)和RX≥H(X)的碼率,H(X)和H(Y)為X和Y的熵。有趣的是,聯合解碼具有更好的率失真性能(獨立編碼)。對于編碼長序列,如果滿足對于恢復X和Y的殘差錯誤概率足夠小,SlepianWolf理論建立碼率區域
在圖2[1]中的A點,對X編碼的碼率為RX=H(X),而對Y進行壓縮時所需要的碼率僅為RY=H(Y|X)。同樣在B點,對Y編碼的碼率為RY=H(Y),而對X進行壓縮時所需要的碼率僅為RX=H(X|Y)。這就是在解碼端具有邊信息的無損信源編碼問題的理論限。
1.2分布式有損信源編碼
對于在解碼端具有邊信息有損信源編碼問題Wyner和Ziv[2]給出了其碼率界。
給定失真D下的碼率記為RX|Y(D);另外,將兩邊都能得到邊信息Y時的率失真函數記為RY|X(D)。在文獻[2]中Wyner和Ziv證明RWZY|X(D)>RY|X(D)D>0,而且給出當失真的度量為均方誤差,Y服從獨立高斯分布,X=Y+U,U也服從獨立高斯分布且與Y獨立時RWZY|X(D)=RY|X(D),D>0。對于一般信源,在均方誤差度量下,其碼率損失小于0.5 bit/sample,在漢明距度量下碼率損失小于0.22 bit[32]。
Gastpar[27]對多信源的WynerZiv編碼進行研究并給出了相應的理論界。
2分布式視頻編碼關鍵技術
分布式編碼是在視頻壓縮領域的一個新框架,基于SlepianWolf和WynerZiv的理論。近年來,人們也著手于實際編/解碼系統的開發,熵編碼、量化和變換。
2.1SlepianWolf編碼器
雖然SlepianWolf的理論產生于20世紀70年代,但是它卻是在最近幾年才獲得了實際的應用。三十年前人們就明白SlepianWolf編碼[1]非常接近于信道編碼,可以使用一個系統信道編碼傳輸校驗位。在解碼端,可以連接校驗位和邊信息Y,并且執行糾錯解碼。如果X、Y非常相似,只需要傳輸少許校驗位和重要的壓縮結果。需要強調的是這個方法并不執行前向糾錯來保護信道傳輸的錯誤,而是使用一個虛擬的相關信道來獲取X和邊信息Y的統計相關。
另一種編碼實現方法,即將序列X分為陪集,編碼端發送X所屬的陪集索引,接收端通過選擇陪集中與邊信息Y最可能的碼字。可以看出兩種解釋是相同的,在校驗位的解釋下,發送一個二進制的行矢量Xp=XP,G為系統線性塊編碼的生成矩陣,在陪集的解釋下,發送伴隨陣S=XH,H是線性塊碼C的校驗矩陣。如果P=H,傳輸的碼流是相同的。
可以使用Turbo碼來實現SlepianWolf編碼器[24,25]。由于Turbo碼的良好性能,這種方法能夠很好接近SlepianWolf給定的編碼界。之后,Liveris等人采用LDPC(lowdensity paritycheck)碼來實現SlepianWolf編碼器。仿真結果表明它比當時所有的turbo碼的壓縮性能都好,更能接近理論限。后來他們[17]又使用IRA(irregular repeat accumulate)碼進行實驗,也得到了很好的結果。
另外,Lan、 Liveris、 Naryanan、 Xiong和Georghiades對多信源的SlepianWolf編碼問題進行了研究。
2.2量化技術及WynerZiv編碼器
因為圖像的失真度基本上是由量化器決定的,所以對于視頻編碼而言,量化器是非常關鍵的一個環節。由于分布式編碼中,解碼器的動作是整個編碼系統結構的核心,這不同于傳統的編碼器端決定圖像質量的工作方式。分布式編碼中的量化器無法直接繼承傳統圖像視頻編碼技術中的量化器設計方法。在SlepianWolf編碼的基礎上,WynerZiv編碼機制有了很大進展,對于重建邊信息的初步量化器設計目的來自于信息論證。在特定情況下,線性編碼和嵌入式格子,接近WynerZiv的率失真函數。特別是當信源和邊信息是聯合高斯的情況,構成了分布式編碼中量化器設計的理論基礎。
通常情況下,認為WynerZiv編碼器由一個量化器和一個SlepianWolf組成。量化器將信號空間分為單元,不相連的子單元影射到相同的量化索引Q,它由固定碼率的局部最優Lloyd算法、WynerZiv矢量量化器設計。量化器的設計用于理想SlepianWolf編碼器編碼量化的索引,碼率估算依賴于量化索引和邊信息,使SlepianWolf編碼器的塊長與量化器維數分離。這是實際系統的基本要求。對于高碼率,在特定的情況下,最優量化是格子量化,分離的量化單元不需要影射到同一個索引。在編碼端不具有邊信息的情況下,它是漸進無性能損失的。
在WynerZiv編碼器的設計實現上,Zamir等人給出的嵌套線性/格形碼可以達到WynerZiv界。嵌套格形碼的實現由Servetto中給出。Xiong等人[17]通過嵌入量化器加SlepianWolf構成Wyner Ziv編碼器,后來又使用TCQ (trellis coded quantization)構成WynerZiv編碼器,兩種方法都能逼近理論界。此外,可以使用Lloyd算法設計量化器加上SlepianWolf編碼器實現WynerZiv編碼。
2.3聯合解碼和運動補償
為了獲得更高的壓縮效率,可以在解碼端進行運動補償。傳統的運動補償編碼可以在這里采用。例如,CRC可以用于解碼端的運動補償,Viterbi解碼對一系列運動補償預測塊進行操作,每一個具有不同的運動矢量,每個解碼版本的CRC和傳送的CRC進行比較選用。
另外一種方法由Stanford完成,即發送一個魯棒的hash碼字來輔助解碼端估計運動。目前,本文的hash簡單地由量化的DCT系數的小子集組成,在低延遲系統使用前一幀產生邊信息。因為hash比原數據小,所以允許將上幀的hash存儲到內存。對于當前幀的每個塊,計算對應的魯棒hash的相鄰幀距離。如果超過一定距離,則發送hash數據和WynerZiv位。在hash的基礎上,解碼端執行一個運動搜索來產生最優的邊信息塊,量化系數的hash碼能修正Turbo解碼的相應概率,因此進一步減少了校驗位的碼率。Hash也能在重建時用于精簡。這非常近似于通用的SlepianWolf編碼的相關信道。
2.4碼率控制
WynerZiv的碼率控制由當前幀和邊信息的統計相關特性來決定。編碼算法本身并不需要改變,碼率隨信道的統計特性而變化。每個幀需要多少碼率的傳輸是靈活的,因為邊信息是在解碼端獲取而不是在編碼端獲取。
碼率控制解決的方法之一:完全依賴于解碼端的反饋信息;解碼端將決定最優編碼速率并反饋給編碼端。解碼端使用相關信道估計算法將預測碼率傳輸給編碼端。
在解碼端進行碼率控制,明顯降低了編碼端的負擔;反饋允許解碼器在產生邊信息方面具有很大的靈活性;從簡單的拷貝幀的機制到非常復雜的運動補償;基于對象的分割或多幀預測;一個精確的邊信息,需要很少的碼率。因此整個系統性能的改善只與解碼器有關系。這與傳統的視頻編碼方式是有區別的。
這種方法有兩個比較明顯的缺點:首先需要一個反饋信道,這會造成延遲;統計特性估計和解碼過程都是在線執行。因此這種算法不適宜于低復雜度的設備應用。
另外一個碼率控制方式是使用一些在編碼端的估計,如PRISM。編碼端存儲前一幀,基于幀差的能量;每個塊分為不同的編碼模式,具有不同的碼率,幀差過小,則不編碼;在這兩種模式中間是不同的伴隨陣和不同的碼率,取決于估計的統計相關。運動估計在解碼端沒有,可以降低解碼復雜度;邊信息的精度不影響碼率,但是會影響重建的信號質量。
3分布式信源編碼在視頻編碼中的應用
3.1低復雜的視頻編碼
在計算復雜度和內存需求都很敏感的應用領域,WynerZiv編碼器具有很大的優勢。它們壓縮每個視頻幀,只需要幀內的處理。相應的解碼端在網絡中的固定節點,通過復雜的幀間處理,計算幀間相關性,通過轉移運動估計和補償到解碼端,相應的不對稱也是SlepianWolf和WynerZiv算法。
對于接收端是另一個復雜度受限設備,Stanford、California、Berkeley已經在這個創新的構架上提出了實際原理。首先,基于塊的DCT是WynerZiv幀,變換系數獨立的量化,分為系數子帶,通過Sle ̄pianWolf Turbo編碼。基于DCT域的編碼復雜度較高,但是與基于預測的幀間編碼相比,運算復雜度還是很低。典型的低復雜視頻編碼框圖如圖3所示。
一個相似變換域的WynerZiv視頻編碼是PRISM[8]。首先進行DCT變換,然后進行統一的標量量化。然而,每個塊是獨立編碼的,只有低頻系數才使用trellis編碼的SlepianWolf編碼,高頻系數使用傳統的熵編碼。編碼端發送一個量化系數的CRC,以在接收端輔助運動補償,率控的方式是使用一些在編碼端的估計,例如PRISM。
3.2分布式信源編碼在可伸縮視頻編碼中的應用
Qian Xu等人[20]在上述理論的基礎上,設計了具有可伸縮性的視頻編碼系統。其系統框圖如圖4[29]所示。
圖4分層WynerZiv編碼器框圖
在該系統中,視頻流被分為基本層和增強層。基本層由傳統的H.26L視頻編碼器生成,增強層由WynerZiv編碼器生成。WynerZiv編碼器由DCT變換、嵌套標量量化(NSQ)以及基于不規則LDPC的SlepianWolf編碼器(SWC)組成。NSQ將輸入的DCT系數分成不同的陪集然后只輸出陪集的索引。而較高的位平面直接跳過不進行傳輸,較低的位平面由于不重要被量化為0。這樣通過NSQ只剩下中間的位平面。最后用由多級LDPC編碼器構成的SWC編碼器對中間的位平面編碼,從而形成增強層碼流。解碼時用H.26L解碼器對基本層碼流解碼得到基本層。然后以該基本層作為邊信息利用WynerZiv解碼器對增強層碼流解碼得到效果更好的視頻流。
通過采用WynerZiv編碼使得在FGS中的基本層碼流必須在解碼端無損得到的要求得以降低。然而由于LDPC固有的局限性解碼使其只能在層邊界進行,否則會引起很高的解碼錯誤率[29]。
Sehgal等人[14]利用WynerZiv編碼設計了一個可伸縮視頻編碼系統。其性能比傳統的可伸縮編碼高出大約4 db。
3.3分布式信源編碼在信息安全中的應用
圖像散列函數已經在最近幾年成為一個重要的領域。這些函數將圖像映射為一個短的二進制字符,以便于比較和檢索。該函數具有的特性是:相似的圖像應該具有相同的散列值,即使圖像有一些位平面的誤差。一些重要的應用需求是將安全潛入到散列函數。
圖像散列的一個應用是視頻水印。一個圖像的散列函數能擁有選擇一個具有圖像水印算
法的視頻幀的子集。安全圖像散列也可以用于認證,通過使用散列值作為認證的尾信息。圖像散列可以用于維護大的圖像數據庫。二進制的散列值提供一個有效的計算方法,檢驗是否有新的圖像在數據庫中存在。
對于給定一個圖像的特征矢量,安全壓縮矢量到最接近的率失真極限,以保證系統的安全性,可以應用到圖像的散列函數。使用基于分布式信源編碼方法的安全壓縮,首先增加一個抖動序列到特征矢量,該抖動類似于密碼學中的密鑰;接著壓縮抖動的特征矢量,假設抖動是在解碼端獲得的邊信息。必須說明的是,在散列問題上,沒有解碼器,抖動矢量的伴隨陣就是散列值,沒有執行解碼。系統框圖如圖5所示。
本系統使用獨立同分布高斯抖動序列。對于這樣的抖動,可以證明散列值是可以達到信息理論的安全。WynerZiv編碼器由一個標量量化器和一個TCM信道編碼組成。WynerZiv編碼性能取決于數據X,而不是邊信息K。特別的,可以將K增加到任意大,性能并不會降低[31]。
3.4分布式信源編碼在多視角編碼中的應用
Multiview DVC的目標是高效地編碼不同的視頻碼流;通過在解碼端計算冗余,獲得了DVC的低編碼復雜度和嵌入式錯誤恢復。Multiview DVC近年來受到研究者的廣泛關注,Ramchandran和Girodet al and Guo等人在這方面進行了很多研究并發表了相關論文。
以使用三個攝像機為例。其中兩個為幀內攝像機,工作在通常的編碼方式下,其視頻流獨立地工作于其他的攝像機;第三個攝像機為WynerZiv攝像機,獨立工作,但是解碼需要其他碼流。這種聯合解碼允許WynerZiv攝像機傳送一個低的碼率,由SlepianWolf決定。
WynerZiv攝像機傳送一些幀在幀內模式,即獨立編碼于其他幀,其余幀使用WynerZiv模式進行編碼;在解碼端進行聯合解碼,即兩個幀內模式中間有一個WynerZiv幀。解碼的WynerZiv幀首先產生邊信息,對此幀的估計,較好的邊信息,則需要較少的位進行編碼傳輸。使用WZ攝像機來估計WZ幀稱為幀內攝像機插值(IntraCI),或者空域插值。一般使用的辦法是運動補償空域插值(MCTI),執行基于塊的運動補償。但是在高速運動的物體場景中,MCTI的效果將會降低。當使用其余的攝像機來估計WZ攝像機時,此方法稱為幀間攝像機插值或空域插值,后續的混合方法運動補償誤差估計EMCE、PMCE和PNFE,用于解決上述不可靠問題[30]。
4結束語
分布式視頻編碼理論已獲得了很大發展,建立了實用的分布式視頻編碼系統,并應用于無線視頻通信和可伸縮視頻編碼中。涉及的研究內容包括分布式視頻編碼基礎理論研究、視頻變換在分布式編碼中的應用研究、網格量化技術在分布式編碼中的應用研究、適于分布式信源編碼的信道編碼技術研究、提高邊信息預測準確性的技術研究,以及在以上關鍵技術研究的基礎上,探索有效的分布式可伸縮視頻編碼方案。分布式視頻編碼可以應用于無線視頻通信、網絡流媒體、視頻會議、遠程教育、遠程醫療等應用中。本研究對于探索新的視頻編碼技術、解決傳統視頻編碼僅在編碼端進行信源統計所遇到的編碼復雜度高等問題,具有重要的理論意義和實用價值,將有助于促進我國視頻編碼技術的發展;對于搶占國際多媒體處理和通信的制高點,形成自主知識產權有重要意義。
參考文獻:
[1]SLEPIAN D, WOLF J K. Noiseless coding of correlated information sources [J]. IEEE Trans on Information Theory, 1973,19(4):471-480.
[2]WYNER A D, ZIV J. On source coding with side information at the decoder [J]. IEEE Trans on Information Theory, 1975,21(3):294-300.
[3]LI Weiping. Fine granularity scalability in MPEG-4 for streaming video [C]//IEEE International Symposium on Circuits and Systems.Geneva, Switzerland: [s.n.],2000:299-302.
[4]RADHA H, SHAAR van der, CHEN Y. The MPEG-4 finegrained scalable video coding method for multimedia streaming over IP [J]. IEEE Trans Multimedia, 2001,3(1):53-68.
[5]WU Feng, LI Shipeng, ZHANG Yaqin. A framework for efficient progressive fine granularity scalable video coding [J]. IEEE Trans Circuit and systems for video technology, 2001,11(3):332-344.
[6]WYNER A D, ZIV J. The ratedistortion function for source coding with side information at the decoder [J]. IEEE Transactions on Information Theory, 1976,22(1):110.
[7]PRADHAN S S, RAMCHANDRAN K. Distributed source coding using syndromes (DISCUS):design and construction [C]//Proc of IEEE Data Compression Conference.Piscataway:IEEE, 1999:158167.
[8]PURI R, RAMCHANDRAN K. PRISM: a new robust video coding architecture based on distributed compression principles [C]//Proc of Conference on Communication, Control, and Computing. 2002:211-219.
[9]PURI R, RAMCHANDRAN K. PRISM: an uplinkfriendly multimedia coding paradigm [C]//Proc of International Conference on Acoustics, Speech, and Signal Processing. Hong Kong:[s.n.], 2003.
[10]AARON A, ZHANG R, GIROD B. WynerZiv coding of motion video[C]//Proc of Conference on Signals and Systems. Pacific Grove, CA:[s.n.], 2002.
[11]AARON A, RANE S, SETTON E, et al. Transformdomain WynerZiv codec for video [C]//Proc of SPIE Visual Communications and Image Processing. San Jose, CA:[s.n.], 2004.
[12]AARON A, RANE S, GIROD B. WynerZiv video coding with hashbased motion compensation at the receiver [C]//Proc of IEEE International Conference on Image Processing. Singapore:[s.n.], 2004.
[13]ZHU Xiaoqing,AARON A, GIROD B. Distributed compression for large camera arrays [C]//Proc of IEEE Workshop on Statistical Signal Processing.Missouri:[s.n.], 2003.
[14]SEHGAL A, JAGMOHAN A, AHUJA N. Scalable video coding using WynerZiv codes[C]//Proc ofPicture Coding Symposium.SanFrancisco:[s.n.], 2004.
[15]JAGMOHAN A, SEHGAL A, AHUJA N.WYZEPMD based multiple description video coder [C]//Proc of IEEE Int Conf Multimedia and Expo.Baltimore:[s.n.], 2003.
[16]JAGMOHAN A, SEHGAL A, AHUJA N. Compression of lightfield rendered images using cost codes [C]//Conference Record of the 37th Conference on Signals, Systems and Computers. 2003.
[17]LIVERIS A, XIONG Z, GEORGHIADES C. Joint sourcechannel coding of binary sources with side information at the decoder using IRA codes [C]//Proc of Multimedia Signal Processing Workshop. Virgin Islands:[s.n.], 2002.
[18]XIONG Z, LIVERIS A, CHENG S, et al.Nested quantization and slepianWolf coding: a WynerZiv coding paradigm for I.I.D. sources [C]//Proc ofIEEE Workshop on Statistical Signal Processing.St. Louis:[s.n.], 2003.
[19]LAN C F, LIVERIS A D, NARAYANAN K,et al. SlepianWolf co ̄ding of multiple Mray sources using LDPC codes [C]//Proc ofIEEE Data Compression Conference. 2004:549-549.
[20]XU Qian, XIONG Zixiang. Layered WynerZiv video coding [C]//Proc of Video Coding and Image Processing. 2004.
[21]DING Guiguang, DAI Qionghai, YANG Feng, et al. A new regionofinterest image compression method based on WynerZiv coding [C]//Proc of IEEE Visual Communications and Image Processing, VCIP’05. Beijing:[s.n.], 2005.
[22]YANG Feng, DING Guiguang, DAI Qionghai, et al. Adaptive key frame selection WynerZiv video coding [C]//Proc ofIEEE International Workshop on Multimedia Signal Processing. Shanghai:[s.n.], 2005.
[23]WYNER A D. Recent results in the shannon theory [J]. IEEE Trans on Information Theory, 1974,20(1):210.
[24]ZHAO Y, GARCIAFRIAS J. Data compression of unknown single and correlated binary sources using punctured turbo codes [C]//Proc of Conference on Communication, Control, and Computing. Monticello:[s.n.], 2001.
[25]BAJCSY J, MITRAN P. Coding for the SlepianWolf problem with turbo codes [C]//Proc of IEEE Global Communications Conference. San Antonio, TX:[s.n.], 200.
[26]BAJCSY J, MITRAN P. Near shannon limit coding for the SlepianWolf problem [C]//Proc of Biennial Symposium on Communications. Kingston, Ontario:[s.n.], 2002.
[27]GASTPAR M. The WynerZiv problem with multiple sources [J]. IEEE Transactions on Information Theory, 2004,50(11):2762-2768.
[28]SERVETTO S D. Lattice quantization with side information [C].//Proc of IEEE Data Compression Conference. 2000.
[29]STEINBERG Y, MERHAV N. On successive refinement for the WynerZiv problem [J]. IEEE Trans on Information Theory, 2004,50(8):16361654.
[30]ARTIGAS X, ANGELI E, TORRES L. Side information generation for multiview distributed video coding using a fusion approach [C]//Proc of the 7th Nordic Signal Processing Symposium, NORSIG’06. Reykjavik, Iceland:[s.n.], 2006.
[31]JOHNSON M, RAMCHANDRAN K. Ditherbased secure image hashing using distributed coding [C]//Proc of IEEE Int Conf Image Processing. Barcelona, Spain:[s.n.], 2003.
[32]ZAMIR R. The rate loss in the WynerZiv problem[J].IEEE Trans on Information Theory,1996,42(6):2073-2084.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”