劉震
(四川大學計算機學院,成都610065)
在數(shù)字圖像領域,動態(tài)范圍(Dynamic Range)是指所拍攝場景中最大亮度與最小亮度的比值,即最大像素值與最小像素值之比。對于傳統(tǒng)的低動態(tài)范圍(Low Dynamic Range,LDR)圖像,每個像素值用8 位二進制數(shù)表示,最大只能表示256 個灰度等級,因此圖像所能表示的動態(tài)范圍有限。相較于LDR 圖像,高動態(tài)范圍(High Dynamic Range,HDR)圖像中每個像素值具有更高的位深,能夠更加準確地記錄和展示真實場景中的亮部與暗部細節(jié),從而獲得更好的視覺效果。
隨著智能手機與超高清電視等電子設備的普及,HDR 成像與顯示技術的需求日趨旺盛。同時,HDR 在衛(wèi)星氣象、遙感探測、醫(yī)療等諸多方面也具有廣泛的應用前景。受限于成本,目前絕大部分智能手機的攝像頭傳感器只能拍攝LDR 圖像。目前獲得HDR 圖像的方式主要有兩種,一種是用專用的設備直接拍攝與存儲HDR 圖像,但是這種方法成本過高,無法普及[1]。另一種方法則是拍攝多張LDR 圖像,通過算法后期合成為HDR 圖像,這種方法無需特定設備,預期成本低,因此在近些年受到很多研究人員的關注[2-5]。
在本文中,我們針對動態(tài)場景下的多曝光高動態(tài)范圍成像技術進行研究。在同一場景中,不同曝光值(Exposure Value,EV)的LDR 圖像包含的圖像細節(jié)不同,例如,高EV 圖像中整體亮度較高,場景暗部細節(jié)更豐富,低EV 圖像整體偏暗,場景中亮部細節(jié)更多。跨曝光HDR 融合問題就是需要將不同EV 的LDR 圖像融合成一張具有豐富的亮、暗部細節(jié)的HDR 圖像。對動態(tài)場景來說,由于手持相機抖動或者被拍攝目標物的運動,經(jīng)常會在融合后產(chǎn)生鬼影問題,導致最終融合的結果圖效果不好。
針對上述問題,本文基于深度神經(jīng)網(wǎng)絡,提出一種特征融模型,用于動態(tài)場景下的多曝光HDR 成像。該模型由特征編碼器、特征融合模塊以及后處理模塊組成。特征編碼器負責提出多個尺度的LDR 圖像特征,特征融合模塊利用融合掩碼(mask)對每一個尺度的特征進行融合,最后使用一個后處理模塊優(yōu)化融合的特征,產(chǎn)生最終的HDR 結果。本文做了大量的測試與對比實驗,實驗結果表明我們的方法在HDR 效果與鬼影去除能力上均要優(yōu)于傳統(tǒng)方法。
目前通過LDR 合成HDR 圖像主要有兩種形式:通過單一曝光或者多重曝光。對于單一曝光HDR 成像,其思路是直接學習LDR 圖像到HDR 圖像的映射,這種方法由于只需要對輸入圖像進行一次曝光,因此不存在鬼影問題,但是需要算法具有能夠有效恢復出飽和區(qū)域的細節(jié)的能力。另一種更為常見的形式則是通過多張不同曝光的LDR 圖像融合產(chǎn)生最終的HDR結果。此類方法通過融合不同曝光圖像中的良好曝光區(qū)域(如高曝光圖像中的暗部以及低曝光圖像中的亮部),因此通常能夠獲得更好的圖像細節(jié)。Sen 等人[4]和Hu 等人[5]先后提出基于塊匹配的方法,這種方法在靜態(tài)場景下能夠獲得較好的結果。對于手持相機,由于手的抖動或者前景目標運動,導致不同曝光的LDR 圖像內容存在沒有對齊的區(qū)域,直接融合會導致鬼影現(xiàn)象。本文主要針對動態(tài)場景進行研究。
近年來,隨著計算機硬件的發(fā)展,深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)逐漸成為主流方法,在人臉識別[6]、目標檢測[7]、醫(yī)療影像[8]等領域取得了巨大成功。DNN 獲得成功的一個重要原因是其擁有傳統(tǒng)方法無法比擬的數(shù)據(jù)表征能力。與傳統(tǒng)方法不一樣,DNN是基于數(shù)據(jù)驅動的學習方法,能夠更好地挖掘數(shù)據(jù)中的信息。在本文中,針對傳統(tǒng)方法在動態(tài)場景多曝光HDR 成像任務中表現(xiàn)不佳的問題,我們引入DNN,旨在設計一個高性能的神經(jīng)網(wǎng)絡,用于合成高質量、無鬼影的HDR 圖像。
與傳統(tǒng)塊匹配方法或者基于圖像尺度的DNN 方法不同,本文從特征尺度出發(fā),提出一個特征融合網(wǎng)絡。算法的整體流程為:輸入三幀動態(tài)場景下拍攝的LDR 圖像Il、Ir和Ih,通過我們提出的特征融合網(wǎng)絡進行訓練,輸出HDR 圖像IH,即:

其中f 表示本文提出的特征融合網(wǎng)絡,θ表示網(wǎng)絡需要優(yōu)化的參數(shù)。
如圖1 所示,我們的特征融合網(wǎng)絡的結構主要分為三部分:特征編碼器、特征融合模塊以及后處理模塊。特征編碼器用于抽取輸入三張LDR 圖像的四級尺度特征,即:

E 表示特征編碼器。我們的出發(fā)點是,在多尺度特征上進行由粗糙到精細的融合要比在單一尺度上容易獲得更好的融合效果。與此同時,為了能夠適應性的選取亮幀和暗幀LDR 圖像中相對應的細節(jié)區(qū)域,同時有效地去除鬼影,我們將輸入圖像Il和Ih拼接起來送入一個mask 生成器,輸出相對應尺度的mask:

M 表示mask 生成器,這里我們同樣生成四個尺度的mask。

圖1 網(wǎng)絡結構圖
在獲取了多尺度特征和mask 之后,我們對每一個尺度的特征進行融合,如圖所示,對于第k 個尺度,特征融合過程如下:

同樣的,對于四級尺度特征的融合也是一個由粗糙到精細的過程,在獲取一個尺度的融合特征fkfusion之后,我們將其與上一級輸出特征fk-1up以及中間幀的特征fkr拼接起來,作為當前尺度融合模塊的輸出,即:

最后,在獲得最高級融合特征f4up之后,我們將其送入后處理模塊進行優(yōu)化,獲得最終的HDR 結果。后處理模塊由一系列殘差模塊組成。為了網(wǎng)絡更好的訓練與優(yōu)化,我們采用了殘差連接(圖1 紅色實線所示)。
本文提出的模型使用Kalantari[9]提出的數(shù)據(jù)集作為訓練數(shù)據(jù)。該數(shù)據(jù)集具有74 組訓練樣本和15 組測試樣本,每一組樣本包含三張LDR 圖像作為輸入以及一張HDR 圖像作為標簽。每一張圖片的尺寸為1500×1000。為了提升硬件利用率以及更好的優(yōu)化模型,我們不是直接輸入原圖,而是在訓練過程中隨機裁剪出256×256 的圖像快作為輸入,同時我們隨機對輸入圖像塊進行隨機翻轉和旋轉等數(shù)據(jù)增強。
本文中所有的實驗均在Linux 操作環(huán)境下進行,使用NVIDIA RTX 2080Ti 顯卡訓練模型,訓練代碼使用PyTorch 框架實現(xiàn)。在實驗過程中,使用Xavier 初始化函數(shù)對模型參數(shù)進行初始化,初始學習率設為1x10-4,每訓練100 輪,學習率減半,一共需要訓練300 輪收斂。我們使用L2 損失作為模型的目標函數(shù),使用Ad?am 優(yōu)化器優(yōu)化模型。
為了評價生成HDR 圖像內容的質量,我們使用PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structure SIMilarity)作為實驗結果的評價指標。PSNR 用于計算圖像的峰值信噪比:

其中MAXI2表示圖像可能的最大像素值,對于8位圖像來說就是255,MSE 表示圖像的均方誤差。SSIM 是計算圖片結構相似性的一個重要指標。除此之外,我們還記算了HDR-VDP-2 作為評價HDR 效果的指標,HDR-VDP-2 用于衡量HDR 圖片質量。這三個評價指標的值均是越大越好。
在模型訓練收斂以后,我們在測試集上對模型進行測試。對于測試結果,我們進行了客觀評價指標分析和主觀結果對比。如表1 所示,我們記算和對比了兩個傳統(tǒng)方法和我們方法測試結果的PSNR、SSIM 和HDR-VDP-2 等指標。從表中數(shù)據(jù)可以看出來,本文方法在這三個指標上均大幅超過傳統(tǒng)方法,證明本文方法恢復出來的HDR 圖像在圖像質量以及HDR 效果上均要優(yōu)于傳統(tǒng)方法。
除了客觀指標,我們還從主觀結果圖上進行了對比分析。如圖2 所示,左邊展示了動態(tài)場景下輸入的三張不同曝光值LDR 圖像,右邊分別為Sen 的方法[4]、Hu 的方法[5]、本文方法和真實標簽結果。從圖中可以看出來,由于輸入場景中人的手臂運動,導致Sen 和Hu 的方法在融合之后產(chǎn)生了鬼影(背景墻壁處),而本文方法的結果則能夠有效的去除鬼影且融合的HDR結構質量更好,更接近真實標簽結果。綜上可知,本文基于深度神經(jīng)網(wǎng)絡的特征融合模型要優(yōu)于傳統(tǒng)方法。

表1 客觀評價指標對比

圖2 主觀結果對比圖
本文針對傳統(tǒng)HDR 成像技術在動態(tài)場景中效果不佳和存在鬼影的問題,利用深度神經(jīng)網(wǎng)絡,提出一種用于多曝光HDR 成像的特征融合模型。該模型由特征編碼器、特征融合模塊和后處理模塊組成,分別用于多尺度特征提取,特征融合和融合特征的優(yōu)化。實驗結果表明,本文提出的模型在PSNR、SSIM、HDR-VDP-2 等指標上高于傳統(tǒng)方法,且主觀視覺效果更好。然后,由于訓練數(shù)據(jù)中缺乏極度過曝/欠曝場景,導致模型在極限場景下的表現(xiàn)不佳。在未來的研究工作中,我們將致力于更好地恢復極限場景中飽和區(qū)的細節(jié)。