夏正德 宋娜 劉賓 潘晉孝 閆文敏 邵子惠
1) (中北大學理學院, 信息探測與處理山西省重點實驗室, 太原030051)
2) (中北大學信息與通信工程學院, 信息探測與處理山西省重點實驗室, 太原030051)
3) (瞬態沖擊技術重點實驗室, 北京102202)
4) (32178部隊, 北京100220)
(2019 年 10 月 23日收到; 2019 年 12 月 16日收到修改稿)
相機陣列是獲取空間中目標光場信息的重要手段, 采用大規模密集相機陣列獲取高角度分辨率光場的方法增加了采樣難度和設備成本, 同時產生的大量數據的同步和傳輸需求也限制了光場采樣規模. 為了實現稀疏光場采樣的稠密重建, 本文基于稀疏光場數據, 分析同一場景多視角圖像的空間、角度信息的關聯性和冗余性, 建立有效的光場字典學習和稀疏編碼數學模型, 并根據稀疏編碼元素間的約束關系, 建立虛擬角度圖像稀疏編碼恢復模型, 提出變換域稀疏編碼恢復方法, 并結合多場景稠密重建實驗, 驗證提出方法的有效性. 實驗結果表明, 本文方法能夠對場景中的遮擋、陰影以及復雜的光影變化信息進行高質量恢復, 可以用于復雜場景的稀疏光場稠密重建. 本研究實現了線性采集稀疏光場的稠密重建, 未來將針對非線性采集稀疏光場的稠密重建進行研究, 以推進光場成像在實際工程中的應用.
稠密光場對場景光線的離散化程度高, 視差連續性好, 獲取的場景信息更加豐富, 但是光場的稠密程度與相機陣列的規模成正比, 限制了光場成像技術在工程中的應用, 因此有必要設計新的光場稠密重建算法, 提高光場的角度分辨率, 在相機陣列規模有限的條件下, 獲取滿足應用條件的多角度光場.
目前, 光場稠密重建主要包括基于壓縮感知[1,2]、視角合成[3?5]和深度學習[6]的稠密重建方案. 基于壓縮感知的稀疏光場重建方案, 提供了一種比奈奎斯特采樣定理更有效的稀疏信號采集框架[7], 減少了光場采集所需的相機數量, 但是該方案由于編碼掩膜對光線的阻礙作用損失了部分光信號的強度信息, 導致重建的圖像信噪比較低, 光場質量下降.基于視角合成的方案包括基于模型的視角合成(mode-based rendering, MBR)和基于圖像的視角合成 (image-based rendering, IBR)方法. 由于復雜場景建模困難, MBR僅適應于簡單場景. 對于IBR, 由于存在平移、遮擋等因素, 使得部分場景信息丟失, 深度圖求取不準確, 從而產生“空洞”[8]和裂紋[9,10], 由于無法獲取被遮擋目標的顏色信息使得合成圖像產生失真. 基于深度學習的稠密重建方法利用光度立體技術進行虛擬視角表面重建取得了很好的效果, 但是需要大規模稠密采樣的數據集, 網絡泛化能力差, 而且該技術在光場稠密重建中應用困難[6]. 雖然現有方法都能完成光場稠密重建, 但是由于自身算法限制均不能很好地適用實際應用的需求.
鑒于此, 本文從壓縮感知的基本原理出發, 分析光場圖像數據間的冗余特性[11], 自然場景在本質上存在的稀疏結構特性, 充分利用光場全局與局部的空間-角度約束關系, 提出一種基于過完備字典學習的稀疏光場稠密重建算法. 將本文算法應用到各種場景的稠密重建中, 結果表明算法能夠有效地對虛擬視角進行恢復, 提高光場角度分辨率.
根據光場成像的基本原理可知空間場景光場是對目標光輻射的方向、強度和光譜等信息的參數化表示, 反映了光輻射在三維空間中的位置分布與傳播方向之間的映射關系, 是三維空間中光線集合的完備表示[12,13]. 特定場景光場信號具有完備性,在空間和角度上又具有冗余性, 根據壓縮感知的基本原理[14], 可以將其投影到一個低維稀疏空間中,稀疏編碼的低維數據能更好地反映原始數據的本質特征. 同一場景目標多視角信息在空間和角度信息的關聯性和冗余性, 表現為稀疏表示域中各向量的稀疏性、非零元素位置及其值之間的相互約束關系. 這樣, 就可以將圖像及其字典學習和稀疏編碼過程限制在比待恢復的光場維度低得多的空間中[15],再通過域間變換的稀疏系數重構就可以合成虛擬視角圖像[16].

圖1 算法架構圖Fig. 1. Algorithm workflow.
算法流程如圖1所示. 由線性相機陣列獲取特定場景的稀疏4D光場后, 通過固定窗口逐像素遍歷光場圖像的方法將其在所有通道上分解為互有重疊的圖像碎片, 這些圖像碎片按順序構成初始二維觀測值矩陣, 以此訓練光場字典并進行稀疏編碼. 經光場字典編碼的觀測值各元素之間具有稀疏性約束關系, 在該約束關系下計算虛擬角度稀疏表示矩陣, 再通過稀疏逆變換就可以構建出虛擬角度圖像, 完成光場稠密重建.

其中,A為稀疏表示系數矩陣,D為基矩陣.
光場字典訓練與稀疏編碼問題是光場圖像稀疏逼近的逆問題, 將光場的線性稀疏性約束轉化到約束函數中, 則光場的稀疏表示模型可以表示為

這是一個針對D和A的聯合優化問題. 但是(2)式是非凸的, 難以在D與A均未知的情況下求得最優解. 但是, 如果其中一個變量一旦確定,問題就轉化為一個凸優化問題. 因此, 可以通過對數據預處理, 初始化一個適合條件的字典, 然后通過逐步迭代求得最優基元素和稀疏編碼矩陣.
不同角度的光場圖像之間形成了嚴格的全局約束, 鄰近的互有重疊的光場碎片采樣之間形成了強有力的局部約束, 這些空間-角度約束關系都經由過完備字典線性映射到了圖像的稀疏表示域. 光場圖像碎片化觀測值可以表示為


通過上述學習的方法可以構造出對特定場景特征自適應的字典, 字典中的低維光場原子能夠稀疏地表示自然光場的基礎元素結構, 其線性組合能夠高效地表達復雜的光照陰影、紋理、遮擋等自然場景信息[18,19], 并且能夠對光場的局部空間-角度一致性進行稀疏表達, 因此以探測器的一個像素為中心的2D局部圖像就可以對4D光場塊進行重建, 并最終融合成4D光場[18]. 光場字典如圖2所示,光場原子在視覺上表現為光場中包含的基本特征.

圖2 光場過完備字典Fig. 2. Light field overcomplete dictionary.
在低維稀疏變換空間中將高維信號重建問題轉換為低維特征向量的表達問題[20], 可以更加簡潔、有效地恢復虛擬視角. 假設光場的虛擬角度圖像為Iv, 相應的稀疏域中系數矩陣為, 該角度下圖像的構建問題可以轉化為-范數優化求解問題, 即:


本文以康斯坦茨大學和海德堡大學的HCI提供的4D光場數據集[21]作為實驗對象, 選取數據集中的 6個場景 (table, rosemary, bicycle, town,boardgames, vinyl)分別進行重建實驗. 選取其中的1 × 9光場, 并以某個視角為待建虛擬視角進行實驗. 實際應用中, 只需要適當調整角度參數, 就可以重建出多個虛擬角度圖像, 提高光場角度分辨率.
1)實驗1稀疏編碼矩陣的稀疏度是一個重要的參數, 決定了在重構圖像時對基矩陣中基礎結構元素的選擇, 直接影響重構圖像的質量以及字典訓練時間. 字典的冗余度決定了基矩陣的規模, 也就決定了字典中含有的自然場景中基礎元素的數量. 圖像碎片的尺寸與字典的特征維度直接相關,而原子的尺寸與字典的冗余度成正比, 能夠影響光場的局部一致性, 同時, 重建時間隨著探測器分辨率和原子尺寸的增加而線性增加, 最終會影響到重構圖像的精細程度. 因此在設計算法時采用稀疏度、冗余度、原子尺寸3個參數來優化設置相關參數.

圖3 重建圖像質量曲線圖(a) pixels為 256 × 256, 不同稀疏度重建性能曲線圖; (b) pixels 為 512 × 512, 不同稀疏度重建性能曲線圖; (c) 不同分辨率重建圖像的 PSNR 曲線圖; (d) pixels為 256 × 256, 不同冗余度重建性能曲線圖Fig. 3. Performance of reconstructed image: (a) Performance in sparsity, pixels = 256 × 256; (b) performance in sparsity, pixels =512 × 512; (c) PSNR in different resolution; (d) performance in redundancy, pixels = 256 × 256.
選擇數據集中相對簡單的場景table作為實驗對象進行初始參數選擇. 為了有效縮短程序運行時間, 將圖像轉換為灰度圖像后進行實驗. 如圖3(a)和圖3(b)所示, 首先設定字典規模為N= 256, 在不同分辨率的訓練集上構建虛擬視角圖像. 在稀疏度K= 34時, 均方誤差 (mean squared error, MSE)都達到極值, 而結構相似度(structural similarity index measure, SSIM)也都達到了相對較大值. 從圖3(c)可以看出, 峰值信噪比(peak signal-to-noise ratio, PSNR)在不同分辨率、相同稀疏度的實驗中變化趨勢差異不明顯, 在K= 16時達到極值. 由于稀疏編碼是由篩選出的少量的字典原子對原信號進行線性表示, 因此, 本文算法可以在一定的稀疏度范圍內快速構建出高質量圖像. 固定稀疏度參數K= 34, 再次進行實驗, 隨著字典冗余度的增加, 構建的圖像的質量逐漸提高, 冗余度在N=896時達到平穩狀態. 如圖3(d), 當N= 256時,3個定量評價指標都達到總體指標的70%以上, 綜合考慮計算能力及重建時間, 冗余度N= 256為理想的重建參數值. 同時, 實驗中發現能夠在冗余度、稀疏度和計算時間之間取得較好的平衡.
為了驗證所選參數對于不同的復雜場景的適應性, 選擇數據集中bicycle場景進一步進行實驗,該場景在不同的深度上表現出復雜的光照陰影變化信息. 圖4(a)和4(b)分別為選取不同稀疏度、冗余度參數時, 虛擬視角圖像的重建結果. 如表1所列, 稀疏度與冗余度的提高會極大地增加計算時間, 對硬件設備的計算能力要求也較高, 因此我們最終實驗時選擇稀疏度為K= 16, 冗余度為N= 256.

圖4 不同稀疏度、冗余度參數重建圖像(a) K = 16, N =256; (b) K = 34, N = 1024Fig. 4. Image reconstruction in different sparsity and redundancy: (a) K = 16, N = 256; (b) K = 34, N = 1024.

表1 不同稀疏度、冗余度重建圖像質量指標Table 1. Performance of image reconstruction in different sparsity and redundancy.
2)實驗2為了驗證算法對遮擋、視差信息恢復的有效性, 選取數據集中包含明顯遮擋區域的場景table進行重建.
圖5(a)給出了包含兩個恢復的虛擬視角圖像的1 × 9光場, 光場的空間和角度連續性得以保持. 圖5(b)和圖5(e)分別為光場的最左、最右側視角的圖像, 作為參考視圖. 場景中臺燈燈罩為前景目標, 其對后景抽屜上的空洞處造成了明顯遮擋, 圖5(c)和圖5(d)為恢復的兩個虛擬視角圖像.從圖中的紅色方框區域放大圖可以清晰地看到算法精確地恢復了場景中局部被遮擋目標的信息,有效地保持了圖像局部顏色一致性. 恢復圖像與參考圖像之間, 恢復的兩個角度圖像之間視差明顯, 算法有效地恢復了場景光場圖像的視差信息.圖5(g)和圖5(h)為目標圖像, 圖5(f)和圖5(i)為殘差圖, 兩個虛擬視角的殘差總體水平都較低, 可見重建虛擬視角圖像在不同深度上對目標的恢復質量較高.
3)實驗3選取數據集中包含自遮擋目標、高低頻信息豐富的場景rosemary進行實驗, 并與基于深度的圖像繪制算法 (depth image based rendering, DIBR)重建結果進行對比. 如圖6(a)所示為本文算法恢復的虛擬角度圖像, 樹葉的自遮擋區域中恢復的邊緣信息較為明顯, 低頻信息較為一致, 算法能夠對特征相似、深度不同的目標進行高質量重建, 并能對場景中的光照陰影進行恢復,殘差也處于較低水平. 圖6(b)為DIBR算法恢復的圖像, 圖中可以看到存在明顯的裂紋, 放大區域可以觀察到明顯的空洞, 零值像素為無效像素,恢復圖像的局部顏色一致性較差, 所示的定量評價指標為去除恢復圖像右側無效像素后計算所得,由于空洞和裂縫的存在, 重建圖像的峰值信噪比較低.
將本文算法應用于多種不同場景進行重建實驗, 選擇稀疏度K= 16, 冗余度N= 256, 重建結果如表2所列, 結果表明本文提出的方法對不同場景的適應性較好, 能夠對稀疏光場進行高質量的稠密重建.

圖5 包含遮擋目標的稠密光場恢復(a) 稠密光場; (b), (e) 參考圖像; (c), (d) 恢復的 view 2, view 5虛擬角度圖像; (g), (h)目標圖像; (f), (i) 殘差圖Fig. 5. Dense reconstruction of light field with occluded targets: (a) Dense light field; (b), (e) reference images; (c), (d) reconstructed virtual images of view 2 and view 5; (g), (h) target images; (f), (i) residual images.

圖6 稠密光場恢復(a) 本文算法恢復圖像; (b) DIBR 算法恢復圖像; (c) 目標圖像; (d) 殘差圖; (e) 稠密光場Fig. 6. Dense reconstruction of light field: (a) Reconstructed image for proposed algorithm; (b) reconstructed image for DIBR;(c) target image; (d) residual image; (e) dense light field.

表2 不同場景光場稠密重建結果Table 2. Dense reconstruction of light field in different scenes.
相機陣列獲取的光場空間分辨率較高, 使得待訓練數據規模極其龐大, 傳統的字典訓練算法變得難以實現[22], 因此, 本文算法實現時采用批量在線字典學習方法[23], 以損失一定重構精度為代價提高算法運算效率.
實驗結果表明DIBR重建方法有一定的局限性, 由于遮擋、平移等因素的存在, 在深度圖的求取過程中, 被遮擋目標的深度信息無法獲取, 使得視角合成過程中會產生“空洞”; 又由于像素滲透,在邊緣處往往會產生裂縫, 使合成圖像質量大幅下降. 而基于深度學習的方法中, 自遮擋目標由于遮擋物與被遮擋物特征相似度極高, 使得算法無法對目標進行有效區分從而導致局部重建失敗[24].
本文方法應用于稠密光場重建取得了較好的結果. 重建的虛擬角度光場圖像中的紋理信息清晰, 表明有限的四維光場數據也存在較高的冗余性, 可以在一定場景范圍內構建近似完備的光場數據集, 通過訓練得到的小規模全局光場字典包含了該場景中幾乎全部的特征, 稀疏編碼僅通過幾個訓練得到光場原子的線性組合就能夠恢復光場中的復雜結構信息, 這正是利用了自然場景光場在結構上存在稀疏性, 在特征上存在冗余性; 重建圖像中的遮擋、視差以及復雜的光照陰影變化信息的恢復, 說明四維光場的空間-角度約束關系得到保持,碎片化降維構建光場訓練集的方法對于特征選擇和變換域數據間相關性保持是有利的.
本文方法目前僅適應于對線性相機陣列獲取的光場進行稠密重建, 而實際應用中相機陣列的排布方式是多樣的, 這就使得變換域編碼構建模型的構建變得困難. 后續研究將圍繞非線性相機陣列光場稠密重建展開.
本文基于稀疏表示理論, 由線性相機陣列采集場景的稀疏光場, 通過建立有效的光場字典學習和稀疏編碼模型, 對稀疏光場進行字典訓練和稀疏表征. 采用變換域稀疏編碼插值方法構建虛擬角度稀疏表征矩陣, 再由稀疏逆變換重建圖像碎片后, 經圖像融合實現虛擬角度圖像重構, 進而達到稀疏光場稠密重建的目的. 實驗結果表明, 本文采用的稀疏編碼構建方法能夠有效地對虛擬角度圖像進行恢復. 從重建圖像中能夠觀察到明顯的視差; 遮擋、復雜光照陰影變化信息也得到有效的恢復. 本文方法相比于傳統的DIBR視角恢復方法, 不需要場景深度信息的復雜求取和填充過程, 避免了失真像素的產生; 相比于基于深度學習的方法, 本文方法能夠對局部自遮擋區域中具有相似特征的目標進行有效的區分、重建. 同時本文提出的方法避免了復雜的場景建模與大規模的數據集采集過程, 具有較高的重建效率和可行性.