摘 要: 自由立體顯示器提供了一種新型的立體觀察手段,它最大的優點就在于不需要借助任何輔助手段就可以體驗到真實的三維立體圖像。實現自由立體顯示是一個復雜且技術含量高的過程,本文論述了Davinci DM6446開發平臺的立體視頻播放器的設計原理,研究了H.264壓縮編碼以及MVC壓縮,針對立體視頻的特點,提出了一種改進的MVC編碼結構。
關鍵詞: 自由立體顯示 多視點編碼 H.264 視差補償
一、引言
人們對視頻享受的要求一直在不斷提高,從黑白電視發展到彩色電視,又從模擬電視發展到高清晰數字電視。下一次變革將從平面電視發展到立體電視。而立體電視視頻需要存儲或者傳輸的數據量非常龐大,必須對原始視頻數據進行壓縮,因此研究高速、高效、高質量的立體視頻壓縮算法具有很大的實用價值。把二維視頻信號轉換為立體圖像的方法在很多文獻中已經有了很多的研究,也提出了基于深度的立體視頻合成算法。同二維視頻信息一樣,立體視頻信息不僅具有時間冗余信息、空間冗余信息、心理視覺冗余信息和編碼冗余信息,而且具有視點間的視差冗余信息。因此大多數立體視頻壓縮算法的研究都是基于二維視頻壓縮算法,同時針對立體視頻特有的視差冗余信息進行算法改進和擴展。ITU-T視頻專家組(VCEG,Video Coding Experts Group)和ISO/IEC運動圖像專家組(Moving Picture Experts Group,MPEG)在2001年組成了一個聯合視頻小組JVT(Joint Video Team),聯合開發了一個比早期研發的MPEG和H.263性能更好的視頻壓縮編碼標準。這就是被稱為ITU-T H.264建議和MPEG-4的第十部分標準,簡稱H.264/AVC或者H.264。這個標準已經于2003年3月被ITU-T正式通過。
二、立體顯示器的原理
目前立體顯示根據其產品特點可分為:立體鏡(需要輔助設備——各種立體視覺眼鏡來實現左右眼的區分)、單人觀看的單視點顯示技術(透鏡柱面和視差柵欄),多人觀看多視點顯示技術以及全息立體顯示技術(球形立體顯示,液晶平面隊列,全息技術)。由于多視點顯示技術適合多人觀看,且實現技術相對于全息立體更加容易,已成為目前市場上的主流,本文也將主要探討多視點立體顯示及其編碼技術。
總的來說,立體顯示器都經過兩部分的處理。首先要進行軟件處理,把圖像處理成需要的格式,比如左右眼交叉的柵狀圖,然后利用硬件手段(如條狀柱鏡、狹縫光柵)將左右眼畫面分別折射到各自的區域,人們站在一些特定的位置上,便可以看到立體圖像。由于技術上原因,目前的3D顯示器基本都是基于LCD液晶或者PDP等離子顯示器,且等離子壽命短,已趨于淘汰狀態。
三、Davinci DM6446開發平臺硬件和顯示屏
1.Davinci DM6446開發平臺
Davinci DM6446開發平臺的立體視頻播放器是基于一種雙核處理器的架構,每塊芯片都含有一個ARM核心和一個業界最高性能的DSP(Digital Signal Processing)-TMS320C6000,該技術大大加速了數字電視應用的創新。它的雙核包括:TI高性能的TMS322064+TM系列DSP和ARM92EJ-S處理器,同時它還集成了視頻加速器,網絡外圍設備和外圍存儲設備及接口等模塊。ARM92EJ-S是一個32位精簡指令集的處理器,它能夠執行32位或者16位的指令。TMS322064+ 系列DSP能夠采用第二代高性能的超長指令體系結構。因此,這種處理器非常適合數字多媒體應用。
2.顯示屏的硬件組成
前置式狹縫光柵立體顯示器硬件主要由LCD液晶或PDP等離子外加狹縫光柵組成。為了能夠實現立體影像的正確分離,對其狹縫光柵的精度要求比較高,光柵柵距必須與相應的LCD液晶或PDP等離點距相匹配。另外為了避免多視點立體顯示單純降低水平分辨率的缺點,采用了狹縫光柵斜放一定的角度以提高水平分辨率,降低垂直分辨率。
目前市場上基于前置式狹縫光柵的自由立體顯示器其立體數據多采用8視點或9視點圖像進行排列。由于采用了光柵斜放,使其最終合成的圖像水平和垂直分辨率各為原來的1/3。
四、基于H.264的多視點視頻編碼MVC
多視點編碼(MVC)是H.264編碼標準的擴展集之一。它是利用H.264高級編碼壓縮算法,針對多視點的特點,通過更改一部分H.264編碼器的框架,擴展編碼器對應的功能,來達到壓縮視點視頻的目的。
1.H.264時間分級結構
在H.264AVC標準中,任何一幅圖片都能被標志為參考圖片并用于隨后幀的運動補償預測。AVC的特性就是能夠自由選擇編碼預測的結構。如圖2所示是一種四級預測結構,這種結構能夠提供四個時間層次的分級性。視頻序列的第一幀是I幀,也叫關鍵幀,兩個關鍵幀之間的幀和后一個關鍵幀一起構成一組圖片(GOP:Group of Picture)。關鍵幀采用幀內預測,同時依賴前一個關鍵幀作為參考的幀間運動補償預測。GOP中剩余的圖片采用分層次的B幀結構來預測。每個B幀有兩個參考幀,分別是最近過去和最近將來更低時間級別的幀。在MVC編碼標準草案中,GOP可以是2,1≤n≤6。GOP還可以是12和15兩種特殊形式。
雖然各個攝像機拍攝景物的角度不同,但是,同一組視點的視頻之間在同一時刻的圖像具有很強的相關性,利用視點間的預測的方法可以有效降低視點之間的冗余信息。
2.多視點的編碼結構
基于H.264標準的立體視頻編碼器如圖2所示,圖中ME代表運動估計,DE代表視差估計,MV代表運動矢量,DV代表視差矢量,VLC代表熵編碼。
MVC草案中定義的編碼器結構如圖3所示,水平坐標為時間軸,垂直坐標為視點軸,S0表示第0號視點,T0表示第0幀視頻。MVC采用分層次的B幀構造可分級預測結構,每幀字母右下角的數字表示級別,0級優先級最高。圖中從時間分級角度來說,被分成0,1,2,3,4五個等級。S0的第0幀是I幀,S3,S6和S7的第0幀采用視點間P幀預測,S1,S3和S5的第0幀采用視點間的B幀預測,其余都采用B幀預測結構,與H.264AVC不同的是,有一些B幀既有前向預測和后向預測,還有視點間的預測。為了視頻流的同步,全視點圖片組(GOGOP)都以I幀開始,從視點的可分級角度分析。這種編碼結構分為三級:S0視點為第一級,S2,S4,S6為第二級,S1,S3,S5,S7為第三級。
3.改進的MVC編碼結構
在圖4描述的參考編碼結構中,如果相鄰的視頻具有人眼的標準視差,那么參考編碼結構至少需要傳送三個視點的信息(S0,S1,S2)才能完成解碼,并利用S0和S1或者S1和S2分別構成立體視頻。考慮打破立體視頻基本流的最少只需要兩個視點,對于立體視頻基本流的需求而言就浪費了一個視點的帶寬。除此之外,參考編碼結構在視點的分級結構上也需要根據立體視頻的特殊性做適當調整。按照參考水平排列的多視點立體視頻,原始結構中的視點S0到其余視點的平均距離較大。離S0最遠的視點的累積誤差較大,而中間視點到其余視點的平均距離較小,各個視點平均的累積誤差較小。
該結構的視點間完全是I-P-B-B-B的視點間的預測結構。這時,多視點立體視頻分為8級:第一級為S3,第二級增加S4,第三級增加S2,第四級增加S5,第五級增加S1,第六級增加S6,第七級增加S0,第八極增加S7。在這種結構中,基本視頻流是S3,基本立體視頻流是S3和S4。這種結構只需要傳輸兩級視頻,兩個視點就可以獲得立體視頻了。
五、結語
對于多維立體顯示技術而言,要做到真正的面向大眾應用,要做的工作還是很多的,通過傳統的壓縮編碼已經很難使得立體圖像進行不失真的傳輸,而且新的立體壓縮技術的評價標準還有待建立。本文只是在平面多視點圖像向立體圖像合成方面進行了有益的探索。就目前的3D顯示器而言,它所重現的物體深度都只是在某一視點的立體視覺效果,當我們想通過移動腦袋來看到物體另外的側面或者后面根本是不可能的。將來的立體顯示器將會更多的傾向類似于全息立體顯示技術的效果,我們可以通過走動看到物體的側面,基到物體的背面,并且站在不同的位置應該看到不同的物體面。
參考文獻:
[1]侯春萍.平面圖像立體化技術的研究[D].天津:天津大學博士論文,1998:27-34.
[2]張兆楊,安平,劉蘇醒.3D多視點立體顯示及其關鍵技術[J].電子器件,2008,31,(1):302-307.
[3]梁發云,鄧善熙,楊永躍.裸眼立體顯示液晶屏的光學結構及設計[J].液晶與顯示,2005,20,(6):544-548.
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”