3D視頻編碼原理簡介

2019-07-20 08:21:06劉恩亞崔軍峰

數(shù)字通信世界 2019年6期

關(guān)鍵詞：深度

劉恩亞，崔軍峰，南楠

（國家無線電監(jiān)測中心，北京 100037）

3D技術(shù)以其栩栩如生的真實(shí)感極大地豐富了大眾的娛樂生活，但是為了達(dá)到自然真實(shí)的效果，需要巨大的數(shù)據(jù)存儲與傳輸。自20世紀(jì)90年代開始，視頻編碼標(biāo)準(zhǔn)不斷迭代升級，以適應(yīng)日新月異的技術(shù)發(fā)展需求。結(jié)合文獻(xiàn)調(diào)研，本文簡單介紹了3D視頻編碼的基本原理。

1 圖像與視頻編碼基本原理

視頻是連續(xù)的圖像序列[1-3]，由連續(xù)的幀構(gòu)成，一幀即為一幅圖像。由于人眼的視覺暫留效應(yīng)，當(dāng)幀序列以一定的速率播放時，我們看到的就是動作連續(xù)的視頻。由于連續(xù)的幀之間相似性極高，為便于儲存?zhèn)鬏敚覀冃枰獙υ嫉囊曨l進(jìn)行編碼壓縮，以去除空間、時間維度的冗余。

1.1 圖像編碼基本原理

視頻編碼是建立在圖像編碼的基礎(chǔ)上，以JPEG（Joint Photographic Experts Group，聯(lián)合圖像專家小組）格式為例，圖像編解碼原理如圖1所示[1]：

圖1 圖像編解碼原理示意圖

圖像編碼流程如下：

（1）首先將圖像分塊（Block），JPEG中通常為8*8像素。

（2）對分塊進(jìn)行DCT（Discrete Cosine Transform，離散余弦變換），將圖像數(shù)據(jù)變換到空間頻域。

（3）對變換后的空間頻域矩陣進(jìn)行量化（Quantize），通常需設(shè)定一個QP值（Quantization Parameter，量化參數(shù)）。把空間頻域矩陣的每一個DCT系數(shù)除以QP值，再取整，從而DCT矩陣中較小的系數(shù)就被忽略掉了，以此達(dá)到壓縮效果，如圖2所示。

QP值是視頻編碼中的一個重要的參數(shù)，QP值越大，壓縮后的文件越小，但是視覺上效果越差；QP值越小，則反之。

（4）經(jīng)過量化后的矩陣含有大量0值，為進(jìn)一步壓縮，進(jìn)行Zigzag掃描，如圖3所示。

（5）將Zigzag掃描后得到的序列進(jìn)行壓縮編碼（通常稱作熵編碼，Entropy Coding）。編碼方法可采用RLE（Run-Level Encoding，游程編碼）或VLC（Variable-Length Coding，變長編碼）[1]。

圖2 DCT及量化示意圖

圖3 Zigzag掃描示意圖

1.2 視頻編碼基本原理

視頻編碼時，要重點(diǎn)考慮消除幀與幀之間的冗余信息。相比于圖像編碼，視頻編碼增加了Motion Est.和Motion Comp.兩個模塊，如圖4所示。Motion Esti.為運(yùn)動估計(jì)（Motion Estimation），即計(jì)算兩幅圖像中變化的部分；Motion Comp.為運(yùn)動補(bǔ)償（Motion Compensation），即利用運(yùn)動估計(jì)的結(jié)果和前一幅圖像，計(jì)算得到新的圖像。也即，運(yùn)動估計(jì)去掉了時序上相鄰的兩幅圖像中的冗余部分，僅保留其變化部分，以達(dá)到壓縮的效果。

圖4 視頻編碼原理示意圖

視頻解碼過程如圖5所示。

圖5 視頻解碼原理示意圖

2 視頻編碼標(biāo)準(zhǔn)簡介

2.1 視頻編碼標(biāo)準(zhǔn)化進(jìn)程

目前，主要有兩家國際機(jī)構(gòu)負(fù)責(zé)制定視頻編碼標(biāo)準(zhǔn)：國際電信聯(lián)盟的視頻編碼專家組（ITU-T's Video Coding Experts Group）和國際標(biāo)準(zhǔn)化組織和國際電工委員會的動態(tài)圖像專家組（ISO/IEC Moving Picture Experts Group，MPEG）。

表1 視頻編碼標(biāo)準(zhǔn)演進(jìn)情況表

簡單回顧一下20世紀(jì)90年代以來的主流編碼標(biāo)準(zhǔn)[9，12]。表1中，ITU-T的標(biāo)準(zhǔn)包括H.261、H.263、H.264，主要應(yīng)用于實(shí)時視頻通信領(lǐng)域，如視頻會議；MPEG系列標(biāo)準(zhǔn)是由ISO/IEC制定的，主要應(yīng)用于視頻存儲（DVD）、廣播電視、互聯(lián)網(wǎng)或無線網(wǎng)絡(luò)的流媒體等。兩個組織也共同制定了一些標(biāo)準(zhǔn)，H.262標(biāo)準(zhǔn)等同于MPEG-2的視頻編碼標(biāo)準(zhǔn)，而H.264標(biāo)準(zhǔn)則被納入MPEG-4的第10部分。

表1中提到的各個標(biāo)準(zhǔn)在[8-12]中有著比較詳盡的介紹，本文不再展開，值得一提的是AVS和HEVC這兩種較新的編碼標(biāo)準(zhǔn)。AVS的全稱是The Audio Video Standard of China，即中國音視頻編碼[10]，與其他標(biāo)準(zhǔn)相比，AVS可以在顯著降低復(fù)雜度的同時提供近乎最優(yōu)的性能。2006年，AVS作為中國國家標(biāo)準(zhǔn)正式發(fā)布[11]。HEVC全稱是High Efficiency Video coding，即高效視頻編碼[13]。2013年1月26日，HEVC正式被批準(zhǔn)稱為國際標(biāo)準(zhǔn)，ISO/IEC將其納入MPEG-H Part 2，而ITU-T則將其納入H.265。HEVC主要針對高清、超高清視頻，比起H.264/AVC而言，可以提高50%的編碼效率，其代價(jià)是算法復(fù)雜度的升高。

2.2 H.264/AVC標(biāo)準(zhǔn)

H.264編碼標(biāo)準(zhǔn)最初發(fā)表于2003年，是ITU-T和ISO/IEC兩家機(jī)構(gòu)的聯(lián)合產(chǎn)品[3，4]。H.264是ITU-T沿用的標(biāo)準(zhǔn)名，而ISO/IEC則將其命名為MPEG-4 Part 10/AVC，AVC是高級視頻編碼（Advanced Video Coding）的首字母。H.264編解碼大致流程如圖6所示[3]，分為三個步驟：預(yù)測（Prediction）、變換（Transform）和編碼（Encode），解碼則反之。

圖6 H.264/AVC編解碼原理示意圖

圖7 I，P，B幀示意圖

在H.264編碼的視頻序列中，共分I，P，B三類幀（圖7）：I幀，即Intra Frame，是獨(dú)立編解碼的幀，不需要其他的幀作為參考。視頻序列的第一幀一定是I幀，I幀通常包含較多的比特?cái)?shù)。P幀，即Predictive Inter Frame，它以之前的I或P幀作為參考幀來進(jìn)行編碼。P幀通常比I幀包含更少的比特?cái)?shù)，比I幀更易受到傳輸錯誤的干擾。B幀，即Bi-predictive Inter Frame，它的壓縮編碼不但需要參考之前的I或P幀，還需要參考之后的I或P幀。

諸如“IBBPBBPBB”這樣的結(jié)構(gòu)被稱作一個GOP（Group of Pictures）。

2.2.1 預(yù)測模塊（Prediction）

編碼器在處理一幀圖像時是基于宏塊（Macroblock）進(jìn)行的，一個宏塊是16*16個像素點(diǎn)。每個宏塊的預(yù)測都是參考之前已編碼的宏塊。根據(jù)已編碼的宏塊的來源不同，預(yù)測編碼可以分為兩類：一類是幀內(nèi)預(yù)測編碼（Intra Prediction），即以同一幀內(nèi)的已編碼的宏塊作為參考；另一類是幀間預(yù)測編碼（Inter Prediction），即以之前已被編碼并且已被發(fā)送的幀的相關(guān)宏塊作為參考。編碼器將預(yù)測得到的數(shù)據(jù)從當(dāng)前宏塊中去掉，于是便得到剩余數(shù)據(jù)（residual）。

圖8 幀內(nèi)預(yù)測編碼

幀內(nèi)預(yù)測編碼如圖8所示，相對之前的編碼標(biāo)準(zhǔn)來說，H.264的塊大小較為靈活（可為16×16或者4×4個像素點(diǎn)），這也使得其在預(yù)測精度和編碼效率上得到很大提高。

幀間預(yù)測編碼需要考察連續(xù)幀之間的差異來進(jìn)行壓縮[4]。如圖9所示，連續(xù)的三幀描述了一個人跑向房屋的場景。在三幅圖像中，房屋不變，故在后兩幀中可以視為冗余數(shù)據(jù)。針對這種情況，可采用差分編碼（difference coding）的方法來進(jìn)行壓縮，即只編碼那些相對于參考幀有變化的像素點(diǎn)。僅通過差分編碼來進(jìn)行幀間預(yù)測編碼不足以較好地壓縮圖像中運(yùn)動的部分，這時要采用運(yùn)動補(bǔ)償（motion compensation），運(yùn)動補(bǔ)償?shù)幕舅枷胧牵寒?dāng)前幀中的圖像數(shù)據(jù)大體上都可從之前已編碼的幀中找到，只不過是位置不同而已，如果將其位置的變化找到并儲存，即可預(yù)測得到當(dāng)前幀，詳見[4]。

2.2.2 變換及量化（Transform and Quantization）

在預(yù)測部分提到，編碼器將預(yù)測得到的塊的數(shù)據(jù)從當(dāng)前的塊中去掉，從而獲得剩余數(shù)據(jù)（residual），繼而對每一塊剩余數(shù)據(jù)進(jìn)行4×4或者8×8的整數(shù)變換（integer transform，整數(shù)變換是DCT變換的近似形式），隨后再對變換后得到的系數(shù)進(jìn)行量化，具體過程已在前文介紹。

圖9 Inter預(yù)測編碼應(yīng)用場景

2.2.3 比特流編碼（Bitstream Encoding）

經(jīng)過前述步驟后，我們得到了若干待壓縮為比特流的數(shù)據(jù)。這些數(shù)據(jù)分別是：量化后的變換系數(shù)、解碼器預(yù)測重建數(shù)據(jù)的有關(guān)信息、壓縮數(shù)據(jù)的結(jié)構(gòu)信息和編碼時使用的壓縮工具的信息、關(guān)于整個視頻序列的有關(guān)信息。利用變長編碼（Variable Length Coding，VLC）或算數(shù)編碼（Arithmetic Coding），將上述提到的數(shù)據(jù)、參數(shù)（語法元素，syntax elements）轉(zhuǎn)換為二進(jìn)制碼，即為比特流編碼。經(jīng)比特流編碼后的二進(jìn)制序列可用于傳輸或儲存。本小節(jié)簡單介紹了H.264/AVC的編碼原理，詳細(xì)的算法介紹可以參考[5-7]。

3 3D視頻編碼原理簡介

如何在有限帶寬前提下，成功展示滿意的3D效果是擺在研究人員面前的一項(xiàng)艱巨任務(wù)。不同的3D顯示技術(shù)需要用到不同的3D數(shù)據(jù)格式，也即需要采用不同的3D編碼方法。但是，各種方法的目的是相同的，即有效地去除待編碼視頻之間的時間、空間冗余。基于之前介紹的H.264/AVC，文獻(xiàn)[14-21]中提出的3D視頻編碼方法大致可以分為兩類：一類是基于多視角（multi-view）的編碼方法；另一類是基于視頻加深度（video plus depth）的編碼方法。

3.1 多視角3D視頻編碼方法

3.1.1 傳統(tǒng)立體視頻編碼（CSV）

傳統(tǒng)立體視頻編碼（Conventional Stereo Video Coding，CSV）是最經(jīng)典的3D視頻編碼方式[14]。兩臺攝像機(jī)參考人眼的距離放置，同時拍攝同一場景。在壓縮編碼時，某一路視角的視頻可以參考另一路視角來進(jìn)行編碼，提高壓縮效率。采用CSV時，兩路視角的視頻分為基礎(chǔ)層（base layer）和增強(qiáng)層（enhancement layer）。基礎(chǔ)層完全當(dāng)做獨(dú)立的二維視頻來進(jìn)行編碼，而增強(qiáng)層則在編碼時需要以基礎(chǔ)層作為參考。3D視頻編碼通常將左視作為基礎(chǔ)層，右視作為增強(qiáng)層；左視具有后向兼容性，可以作為二維視頻在常規(guī)顯示設(shè)備上播放。CSV方法的缺陷在于其只能保證在拍攝視角觀看視頻時會有3D效果，而其他視角則不能。

圖10 CSV編碼方法視頻結(jié)構(gòu)示意

3.1.2 多視角視頻編碼（MVC）

多視角視頻編碼（Multi-view Video Coding，MVC）是CSV的升級版，即多個攝像機(jī)同時拍攝同一場景。這樣，在觀看時可以從多個位置看到立體效果。在編碼壓縮多視角視頻信號時，可采用視差補(bǔ)償（disparity compensation）來去除視角間的冗余（Inter-view Redundancy）[14]。基于H.264/AVC的“分層B幀（hierarchical B-pictures）”結(jié)構(gòu)如圖12所示。MVC方法也存在兩個缺陷，一是其計(jì)算復(fù)雜度高，尤其不適合移動設(shè)備；二是雖然較CSV而言，MVC可以給觀眾更多的觀看視角，但是這些視角在錄制視頻之初就固定了，缺乏一定的靈活性。

圖11 MVC編碼方法視頻結(jié)構(gòu)示意

3.1.3 雙視抑制理論（BST）

L. Stelmach等學(xué)者于2000年提出了利用“雙視抑制理論（Binocular Suppression Theory，BST）”來進(jìn)行3D視頻編碼[15，22]。BST的理論指出：觀眾的主觀測評結(jié)果是由高質(zhì)量的視頻（左視）決定的。在編碼時可將右視的分辨率下采樣至原始大小的二分之一或四分之一，如圖13所示。BST在學(xué)術(shù)研究上是一個有意義的嘗試，但其商業(yè)化應(yīng)用較為有限。

3.2 視頻加深度編碼方法

3.2.1 視頻加深度編碼（V+D）

視頻加深度編碼方法（Coding of Video Plus Depth，V+D）是在歐洲信息社會技術(shù)（The European Information Society Technologies，IST）發(fā)起的“先進(jìn)3D電視系統(tǒng)技術(shù)（Advanced Three-Dimensional Television System Technologies，ATTEST）”項(xiàng)目中提出的。V+D編碼中3D圖像表達(dá)為：單視角圖像（monoscopic color video），外加一個深度信息（per-pixel depth information），如圖13所示：

圖12 BST編碼方法視頻結(jié)構(gòu)示意圖13 V+D編碼方法視頻結(jié)構(gòu)示意

單視角圖像即為普通2D視頻，深度圖的每一個像素點(diǎn)與單視角圖像的像素點(diǎn)一一對應(yīng)，用8比特的灰度值（gray value）來代表原圖像該像素的深度信息。灰度值為0表示“最遠(yuǎn)/深端”，灰度值為255則表示“最近/淺端”。可通過兩種方法獲取深度圖[17]：一種方法是利用特殊設(shè)備，如“測距”相機(jī)（time of flight cameras）；另一種是利用算法估計(jì)得到，如分析同一場景中同一物品的位移或差異（displacement or disparity）。在接收端，利用DIBR算法（Depth-Image-Based-Rendering Technique）可以從V+D格式的數(shù)據(jù)中恢復(fù)出適合人眼觀看的3D視頻效果。

V+D編碼方式有兩個顯著的特點(diǎn)：一是它可實(shí)現(xiàn)非常高的壓縮效率，由于深度信息為單色圖像，所以在使用V+D方法壓縮視頻后會比壓縮兩路彩色視頻節(jié)省資源；二是它具有“互動性”，接收端的3D效果展示是通過數(shù)學(xué)手段計(jì)算而得，故可將深度信息設(shè)置為與亮度、對比度類似的可調(diào)參數(shù)，通過調(diào)節(jié)深度來達(dá)到個性化的3D觀看效果。V+D編碼方式的也存在較為明顯的缺陷，即圖像中前景對后景的遮擋：如在圖13中，我們無法獲得被人臉遮擋部分的深度信息，如果觀看者調(diào)整了觀看角度，則DIBR算法無法算出被遮擋部分的深度，導(dǎo)致觀看3D視頻的主觀體驗(yàn)下降。

3.2.2 多視角視頻加深度編碼（MVD）

MVD是Multi-view Video Plus Depth的縮寫，它是V+D編碼方法的擴(kuò)展[14]。MVD需錄制多視角的原始視頻和深度信息（見圖14）。MVD相比MVC來說更節(jié)省資源，但是隨著視角數(shù)的增多，MVD會產(chǎn)生大量的數(shù)據(jù)。

圖14 MVD編碼方法視頻結(jié)構(gòu)示意

3.2.3 分層深度編碼（LDV）

LDV是Layered Depth Video的縮寫，LDV編碼是針對V+D的不足而提出的[14]。LDV將原始視頻中的前后景區(qū)分出來，分別進(jìn)行V+D編碼，以克服單純使用V+D的不足，如圖15所示。

圖15 LDV編碼方法視頻結(jié)構(gòu)示意

3.2.4 MVC與MVD的比較

MVC與MVD相比，其優(yōu)勢在于不需要額外的深度感知設(shè)備，當(dāng)前的3D電影基本都是參考MVC標(biāo)準(zhǔn)制作的；而MVD相比MVC而言，在某些場景中會更節(jié)省資源，具體分析見[15]。誠然MVD有自己的優(yōu)勢，但是由于MVD方法與工業(yè)界的慣例做法沒有傳承關(guān)系，而且需要有特殊的深度感知設(shè)備，所以工業(yè)界一直沒有采用并且推廣MVD。[15]中也指出，未來市場中通用的3D編碼方式將會是MVC。

4 結(jié)束語

結(jié)合文獻(xiàn)調(diào)研，本文簡要介紹了圖像和視頻壓縮編碼的基本原理，進(jìn)一步介紹了3D視頻編碼基本原理和多種編碼方法。隨著5G時代的到來，從原理上了解3D視頻編碼方法，將對3D視頻數(shù)據(jù)在通信（尤其是無線通信）網(wǎng)絡(luò)中傳輸建模及分析應(yīng)用大有裨益。