胡舒童,郭碧川,王 劍
1.清華大學 電子工程系,北京 100084
2.清華大學 計算機科學與技術系,北京 100084
現代意義上的光場由蘇聯科學家Gershun所定義[1],它描述了空間中任意位置、方向、時刻、任意波長的光的信息。最初的光場模型具有最一般的形式,總共包含7維的信息;經過一系列簡化[2-3]之后,最初的光場模型被簡化為一個4維模型,記為L(u,v,x,y),代表光線的集合分別與兩個平行平面uv、xy相交于點(u,v)與點(x,y)[4]。
近年來商用光場相機技術有了顯著進展,以LytroIllum為代表的消費級光場相機大大拓寬了研究者獲取光場數據的途徑。由于光場圖片原始數據的4維結構引入了很大的冗余性,對光場圖片進行壓縮編碼對于光場圖片的存儲以及后續處理來說是不可或缺的環節。同時,近年來的部分光場相機能在拍攝時獲取除傳統的顏色通道以外的額外的像素置信度信息[5]。此置信度信息可視作光場圖片數據的可信度,因此會影響對光場編碼算法的客觀評價。在光場編碼的客觀評價中,大多數研究者使用峰值信噪比(peak signal-to-noise ratio,PSNR)與結構相似性(structural similarity index,SSIM)作為客觀指標度量編碼算法的性能,雖然此兩種指標可度量有損編碼的重建質量,但卻忽視了前文所述光場中像素置信度的變化。
針對以上問題,本文提出了一個針對光場編碼客觀評價的新指標,稱作光場熵。此指標將上述光場圖片的置信度通道納入了考量,可看作光場編碼的總信息損失。為計算此指標,光場子孔徑圖中任意像素被建模為基于自身置信度的隨機變量;虛擬視點由一種簡單且魯棒的光場渲染方法插值得到[2];壓縮損失則被建模為每個像素點隨機變量分布的偏移;Kullback-Leibler散度(Kullback-Leibler divergence,KL散度)[6]則用來量化分布的偏移,其針對光場所有子孔徑圖的所有像素點的累積值及其對數表示即為本文所提出之新指標光場熵。
為了證明本文所提出新指標在光場編碼客觀評價中優于傳統指標,進行了完整的光場編碼質量評價實驗:使用新指標與傳統指標PSNR針對數種已存在的光場編碼算法進行客觀評價實驗,同時針對相同的實驗材料進行相應的主觀測試。客觀實驗與主觀測試的結果顯示,本文所提出的新指標光場熵對光場編碼的評價結果,與PSNR相比,與人眼主觀測試的結果之間具有更高的相關性,因此可以說明其預測人眼主觀感受的性能比傳統指標PSNR更優。
本文組織結構安排如下:第2章給出相關工作介紹;第3章詳細討論了基于置信度的隨機模型、插值生成新視點以及光場熵的數值計算;第4章給出詳細的光場編碼評價實驗結果以及相關討論;第5章總結全文。
文獻[7]介紹了多種不同的光場圖片采集技術,這些技術可分為3類[8]:多傳感器捕捉[9]、時間序列捕捉[10]、復用成像捕捉[11-12]。其中空間復用捕捉方法中的微透鏡陣列解決方案為未來商業應用中最有前景的一種光場捕捉方案,因其尺寸微小,可集成于移動設備之中。
光場渲染在光場圖像處理中具有關鍵意義。文獻[2]展示了一種經典的光場渲染方法,通過重采樣與插值光線來生成光場的虛擬渲染。文獻[13]介紹了一種基于幾何信息的渲染方法,通過利用光場圖像的深度信息,渲染所需的插值光線可顯著降低。
文獻[4]描述了光場編碼領域中數種前沿的編碼算法,這些編碼算法可大致分為兩類:(1)微透鏡圖像壓縮;(2)透視圖像壓縮。后一種壓縮算法中,光場圖片的所有子孔徑圖被重新排列為偽時間序列的形式,并通過HEVC標準[14]視頻編碼器進行編解碼;這一種編碼算法又稱作偽時間序列壓縮。文獻[4]中的評價實驗結果顯示,偽時間序列壓縮算法性能優于微透鏡圖像壓縮算法,并且重排子孔徑圖序列的順序將對壓縮算法的性能造成影響。
文獻[4]針對上光場編碼方法還進行了客觀實驗與主觀測試。客觀實驗中,光場圖片的每一張子孔徑圖及其對應的編解碼后子孔徑圖的PSNR被分別計算,所有子孔徑圖計算得到的平均PSNR被用來作為指標分析光場編碼算法的性能。然而這一計算僅僅基于少數整數坐標的離散視點(uv平面上15×15個離散點),而無法對具有連續坐標的全光場空間做出評價。并且由于PSNR在評價光場圖像具有光學畸變的外圍區域時的缺陷,在對PSNR的計算中,一部分子孔徑圖被人為棄置。因此在此客觀評價中PSNR指標只能展示編碼光場部分區域的編碼質量。文獻[4]進行的主觀測試結果,通過假設檢驗方法分析處理后顯示了人眼主觀感受結果與PSNR指標所做出的客觀評價有較明顯的差異,因此說明PSNR未能較好地預測光場編碼的性能。
本文的創新點主要為:提出一個度量光場編碼帶來的總信息損失的新客觀指標。光學畸變引入隨機性至觀測到的光強之中,因此壓縮損失以隨機分布平均值偏移的形式體現。為計算壓縮損失的具體值,引入KL散度衡量隨機變量之間的距離。傳統PSNR僅僅度量壓縮損失,而本文新提出指標則進一步地將光場圖像特有的光學畸變納入考量。
采用微透鏡陣列解決方案的光場采集設備在拍攝時將不可避免地引入光學畸變。此種畸變沿著uv平面上不同的視點而變化,視點越偏離圖像中心,畸變約嚴重。此種光學畸變的嚴重程度可由一個額外的像素置信度通道來量化,如文獻[5]中所述。典型的光場圖像置信度分布如圖1所示。

Fig.1 Distribution of confidence values圖1 置信度分布
圖1中每一個小方格代表uv平面上一張子孔徑圖中所有像素置信度值的平均。可觀察到光場圖像的中心具有最大的置信度,而光場圖像的邊緣角落置信度快速降低直至為零。在一張光場圖片中,任意一個像素具有4個通道,即顏色三通道YUV通道以及像素置信度通道,此4個通道以一個四元坐標(u,v,x,y)所表示,可分別記為yuv(u,v,x,y)以及w(u,v,x,y)。以每一個像素點亮度的觀察值Y作為條件,為了對光學畸變進行建模,引入正態分布來表示一個像素點亮度的真實值。由于真實分布應是單峰分布且以峰值對稱,假設真實亮度分布的均值等于其觀察值,而其方差則由像素的置信度所決定。值得一提的是,光場的編碼僅僅影響光場圖像的YUV三通道,而像素置信度則為一個固有的度量,其值僅由相機硬件設置所決定,并在編解碼流程中保持不變。因此對光場圖像中任意像素p及其對應的解碼后像素p′而言,兩者均服從正態分布。

其中,w為像素置信度值;Y′為解碼后像素點的亮度值。
本指標模型中,置信度值w被定義為在截斷誤差內正確觀測到像素亮度的概率,即像素真實亮度值Yt∈(Y-0.5,Y+0.5)的概率。結合式(1),此概率計算公式如下:

值得一提的是,由于截斷誤差的存在,式(1)中的方差具有一個最小值,而不會等于0,從而退化為確定性模型。由于亮度值總是離散的,因此(Y-0.5,Y+0.5)集合內的亮度值總是會被截斷到Y。定義某一個像素點的置信度達到最大時,存在一個最小標準差σmin滿足3σmin=0.5,使得最大置信度下采樣亮度值Y落入區間(Y-0.5,Y+0.5)的概率在統計意義上3σ顯著(約為99.73%)。
結合式(2),可以給出式(1)中標準差σ(w)的最終表達式為:

通過對光場圖像中的每一個像素應用式(1)與式(3),可將光場圖片中的每一個像素點隨機模型化,且此隨機模型同時考慮了壓縮損失以及光場的光學畸變,直觀地改良了PSNR指標的缺陷。
子孔徑圖為uv平面上有限的離散點觀察到的光場子圖像,可以直觀地理解為在光場的四維表示L(u,v,x,y)中,固定坐標(u,v)后所觀察到的一個特定角度的二維圖像。因為觀察者總是對四維光場中任意一個角度的圖像感興趣,而不僅僅對某些固定角度的圖像,評價光場圖像角度上連續的質量比僅僅評價少數固定角度的光場質量更為重要。由于實際應用中,光場采集設備只能記錄離散的光場信息,且受限于工藝水平,一般而言對于實際的光場數據,uv平面的采樣點(視點)分辨率遠遠小于xy平面二維圖像的空間分辨率,因此進行光場渲染并進行全光場的評價是有必要的。
光場的渲染虛擬視點可以理解為通過采樣與插值合成的uv平面上任意實數坐標的合成子孔徑圖,當視點在uv平面上自由移動時,光場的渲染可通過一個四線性插值得到,又因為前述的原因,采樣點分辨率遠遠小于二維切片圖像的空間分辨率,因此出于簡化復雜度的考慮,假設插值后的光場子孔徑圖像素的位置與插值前相同,此插值可簡化為一個雙線性插值[2]。插值中,合成子孔徑圖P(u+Δu,v+Δv,x,y)可通過其相鄰的最近4個視點的子孔徑圖重采樣得到。

其中,P(u,v,x,y)、P(u+1,v,x,y)、P(u,v+1,x,y)、P(u+1,v+1,x,y)分別為距離待求合成子孔徑圖最近的4個實際存在的視點,Δu,Δv∈[0,1]為實數。圖2為采用雙線性插值,利用最近鄰的4條實際存在的光線重采樣得到的虛擬光線,其中藍線所示為最近鄰的4條實際存在的光線,紅線所示為重采樣得到的虛擬光線。

Fig.2 Using bilinear interpolation to obtain virtual light ray圖2 采用雙線性插值得到虛擬光線
由于像素亮度值被建模為獨立的正態隨機變量,根據正態隨機變量的性質,渲染生成的虛擬子孔徑圖中的任意像素p(u+Δu,v+Δv,x,y)也應服從正態分布,可表示為:

其中,此分布的均值Yp與方差分別計算如下:


對任意4張相鄰子孔徑圖使用雙線性插值可以渲染出uv平面上任意位置連續合成的子孔徑圖。并且渲染子孔徑圖中的任意像素均被建模為基于置信度的隨機分布,通過衡量編解碼前后對應像素隨機分布的差異,即可對編碼損失進行評價。
如前文所述,在編碼過程中已被建模為隨機變量的像素亮度的均值會發生偏移,因此可引入KL散度(又名相對熵)[6]來量化計算每一個像素點因編碼導致的偏移的幅度。KL散度能度量一個隨機分布與另一個隨機分布的距離,設有兩個獨立正態分布,其KL散度DKL(p||q)計算如下:

結合前述的像素隨機模型,對任意像素p(k+x,l+y,i,j)及其對應的解碼后像素p′(k+x,l+y,i,j),兩者之間的KL散度可重寫為:

其中,k、l為正整數,代表子孔徑圖在uv平面上的坐標,x,y∈[0,1];i、j也為正整數,代表像素在子孔徑圖中的坐標;Δμ(k+x,l+y,i,j)為像素點p與p′的均值之差;σ(k+x,l+y,i,j)=σp=σp′代表像素點p與p′的標準差,其值可由式(3)計算得到。可以看到,雖然一般來說KL散度為非對稱指標而不常用于圖像的客觀評價之中,然而在本指標模型中,如式(10)所示兩個像素點之間的KL散度為對稱形式,因此在本模型中引入KL散度作為量化指標是合理的。
由式(3)與式(10)可推得,假設編碼帶來的偏移一定(反映在編碼前后對應像素的均值偏移一定),當像素的置信度增加時,像素隨機模型的標準差將降低,相應的KL散度DKL也將增加。由于KL散度DKL用以度量光場編碼中的信息損失,DKL越大,信息損失越多,因此可推論得到,光場圖像中置信度愈高的區域在編碼后的損失愈大。
對任意實數位置的像素KL散度進行積分求和可得:

其中,K×L×I×J為光場圖片的分辨率;K×L為uv平面視點的數量,即子孔徑圖的數量;I×J為xy平面上子孔徑圖的分辨率。累積的KL散度(記為LFE)代表由光學畸變以及壓縮損失帶來的總共的誤差,將LFE稱之為光場熵,即本文所提出用于光場編碼客觀評價的新指標。區別于傳統圖像指標如PSNR,該新指標直接對四維結構的光場圖像整體的壓縮損失進行了度量,而不僅僅對光場圖像的子集,也就是一系列二維圖像切片進行度量;同時還將光場捕捉中的特有畸變納入指標模型,因此從理論上能更好地反映光場壓縮后的質量。
由于LFE為累積值,其量級較大而較不直觀,因此可參考PSNR的定義將光場熵以對數形式表示,對數形式的光場熵記為pLFE,計算如下:


其中,σmin由式(4)給出。經過式(12)與式(13),光場圖片的光場熵可一一轉換為如PSNR一般的對數形式。
本節將提出的新指標光場熵與傳統指標PSNR分別應用于數種前沿的偽時間序列光場編碼算法,并進行比較分析。
根據文獻[4]的方法,定義一張光場圖片的PSNR如下:

PSNRY(k,l)為一張子孔徑圖的PSNR。

MSE(k,l)為一張子孔徑圖的均方誤差。
i、j為一張子孔徑圖中任意像素在xy平面上的坐標;I×J為子孔徑圖像素數量;Y(i,j)、Y′(i,j)為像素點及其解碼后像素點的亮度值。
4.1.1 實驗數據準備與編碼條件
本次光場編碼實驗采用一個經典的公開光場圖片數據集[15],此數據集采用LytroIllum相機拍攝而得,總共4張光場圖片被選擇以代表數種不同的場景,此4 張圖片名稱分別為“ceiling_light”“poppies”“rusty_handle”“sophie_and_vincent”,代表“包含自然光或人造光的圖像”“廣角下的風景”“近距離自然場景”“中度景深下的人像”這4種具有典型性的光場圖像。為了表述方便,以下按照同樣的順序將這4張光場圖片記為I01~I04。原始的光場圖像經過MATLABLF工具包[16-17]處理為四維光場的格式待用。
4種經典的偽時間序列光場壓縮算法被選中作為指標性能對比的材料。需要一提的是,本文新提出指標的使用并不限于此種光場編碼方法。
4 種編碼方法分別名為“zig-zag”“snake”“diagonal”“spiral”,其序列掃描順序的示意圖如圖3所示。
經過4種掃描順序形成偽時間序列后,使用HEVC標準視頻編碼器對4種偽時間序列進行編解碼,視頻編碼使用固定QP參數,一共4種固定的QP(22、27、32、37)被選中以生成不同壓縮率的碼流,碼流的比特率計算如下(碼流文件大小單位bit,比特率單位bpp):

本實驗中選用的光場圖像具有相同大小的原始光場圖片像素,其具體數量為5 368×7 728。轉換為四維光場后的四維分辨率為15×15×432×624(前兩者為角分辨率,后兩者為空間分辨率,即子圖像素大小)。

Fig.3 4 scan orders圖3 4種掃描順序
因此,對每一幅光場圖片,均有4×4=16種編碼條件(4種掃描順序,4種壓縮率)。
4.1.2 實驗結果
對編解碼前后的光場圖像子孔徑圖分別應用光場熵與PSNR的計算公式,實驗的結果如圖4所示,可以直觀地看到,在兩種指標體系下,掃描順序“spiral”均為性能最優,但針對余下3種編碼方法,兩種指標則給出了不同的評價。
4.1.3 客觀評價分析
為了更好地理解前述光場編碼客觀評價的結果,引入BDrate(Bjontegaard-Delta率)[18]作為量化評價指標,以衡量兩種編碼算法性能的優劣。BDrate衡量不同編碼方法達到同樣質量時所耗費的bit的差異,其值為百分數。為正,則代表考察算法比基準算法多消耗bit的相對比例;為負,則代表節約的bit的相對比例。BDrate默認使用PSNR進行計算,但顯然可以用pLFE進行替代計算。
以“spiral”為基準編碼方法,完整的客觀實驗評價結果見表1與表2所示。

Fig.4 Illustrations of proposed pLFE and PSNR of 4 light field images with 4 different bpps圖4 4種比特率下4種編碼方法pLFE與PSNR示意圖
從表1與表2中的結果可以看出,pLFE指標體系下,4種光場編碼性能從優到劣的排名為“spiral”“zigzag”“diagonal”“snake”,而在PSNR指標體系下,4種編碼的排名為“spiral”“snake”“zig-zag”“diagonal”。
客觀評價實驗的結果在兩種指標下產生了差異,差異的根源在于兩種客觀指標設計時的不同考量;新指標將光場光學畸變與角空間連續性納入了考量,因此展現出了與傳統指標不一樣的特點。然而客觀指標的評價性能,需要以其與人眼主觀感受的相關性進行驗證。下一節將介紹主觀測試方法以對兩種不同的客觀指標的性能進行對比分析。

Table 1 Evaluation results of 4 coding schemes using pLFE表1 使用pLFE對4種編碼方法的評價結果 %

Table 2 Evaluation results of 4 coding schemes using PSNR表2 使用PSNR對4種編碼方法的評價結果 %
4.2.1 主觀測試方法
在圖像編碼領域,客觀指標評價往往與人眼的主觀感受存在差距,因此在評價光場編碼的性能時,主觀測試總是不容忽視。
本節針對前文所述的光場圖片以及編碼條件,采用雙激勵損傷量表的被動測試方法,對4種光場編碼方法進行了人眼的主觀測試。
本測試方法中,受試者將觀看總共128段已事先編輯好的視頻。測試者總是先觀看未經編碼的子孔徑圖組成的偽時間序列,再以同樣的順序觀看此光場圖片經過某種編碼條件編解碼后的以同樣順序子孔徑圖組成的偽時間序列。此順序由經驗選定,對4張光場圖片的每種編碼條件均保持不變。受試者每觀看一對視頻后立刻做出評分,評分從1到5,1分表示此編碼后的光場較未編碼的光場圖片質量最差,5分表示質量最好,最接近未編碼的狀態。因為4張光場圖片均有16種編碼條件,因此受試者一共將做出64次打分。
值得一提的是,受試者均在同樣的環境中觀看視頻,并嚴格排除了自然光變化的影響,以最大程度反映人眼對光場編碼損失的判斷。
4.2.2 測試結果處理
一共11名受試者參與了本次測試,受試者的年齡均為18~25歲的范圍,其中2名受試者為女性,9名為男性。對11名測試者的結果取平均值,可以得到每張光場圖片的每種編碼條件下的主觀平均分MS。以兩種不同的指標pLFE與PSNR作為預測變量,對平均分進行線性擬合,其結果如圖5所示。可以看到兩種指標均在一定程度上反映了人眼對光場編碼質量的主觀感受。

Fig.5 Linear regression analysis圖5 線性擬合分析
4.2.3 指標性能分析
如表3所示,經過完整的光場編碼質量評價實驗之后,可計算得到不同編碼條件下的客觀評價指標值與人眼主觀平均評分的相關性。本文采用統計學中一種經典相關系數——Spearman相關系數來衡量客觀指標與主觀評分的相關性,本文所提出新指標光場熵在預測人眼主觀感受上的性能以0.901 3的相關系數優于PSNR(0.757 5)。主觀測試的結果說明了,本文新指標模型設計中的諸多針對光場圖像特點改進,在選定的數據集上預測主觀感受的性能要強于傳統指標PSNR。

Table 3 Spearman correlation results表3 Spearman相關系數結果
針對光場編碼客觀評價,本文提出了一個新的指標——光場熵。由于傳統的圖像指標如PSNR在設計中并沒有考慮到光場圖像的四維結構,也沒有將光場采集中的特有的光學畸變納入考量;光場熵則針對這些問題在模型推導中將光場圖像獨有特點模型化于指標結構中,從而在設計上理論意義更符合光場評價的規律。
完整光場編碼質量評價實驗則以客觀實驗與主觀測試的結果證明了,本文新提出指標較之PSNR在預測人眼主觀感受上的性能更優。
下一步工作則可聚焦于對模型的進一步改良,例如尋找比正態分布更能反映光場圖像亮度分布的其他隨機模型。另一個可行的衍生研究方向是對本指標的擴展應用,本指標雖是為評價光場編碼而設計,但其設計思想可應用于任意光場圖像處理鏈的任意環節中。在這些環節中,其性能仍值得進一步討論分析。