鞏文哲, 褚金奎, 成昊遠, 張 然
(大連理工大學 遼寧省微納米系統重點實驗室,遼寧 大連 116024)
海洋面積占地球總面積的70%以上,海洋生態系統是地球上生產力最高、最具活力的生態系統之一,人們在海洋資源勘探、生物考察和水下航行器導航等領域展開了研究[1-5]。水下光學圖像是目前探索海洋的重要媒介之一,但是由于光線在水中受到大量漂浮微粒的影響,實際水下獲得的圖像嚴重退化,存在背景噪聲大、對比度低和細節丟失等問題[1]。因此,水下圖像增強技術的研究對于海洋探測和獲取水下的有效信息具有重要的意義和價值。
在眾多水下成像技術中,水下偏振光學成像技術作為新型光學成像技術備受關注[6-9]。偏振是光的波動性的表現,不同物體反射光的偏振態不同,在一定程度上能表征目標物體的特征信息。研究表明,水下偏振成像技術利用散射光的偏振特性可以在一定程度上減小后向散射光對水下成像的影響[8]。偏振探測中,通常用斯托克斯矢量表征光波的強度和偏振態。其中,總光強包含反射光和透射光并傾向于描述物體的反射率和透射率;線性偏振度(Degree of Linear Polarization, DoLP)圖像用于表征偏振特性并提供詳細的特征。為了獲得同一場景的互補信息,需要融合強度和DoLP 圖像。近年來,圖像處理領域出現了許多圖像融合方法。圖像融合方法根據融合過程可以分為像素級、特征級和決策級3 種不同層級的融合。其中,像素級圖像融合的研究和應用最多,分為基于變換域的融合方法(圖像金字塔[10]、小波變換[11]、Ridgelets 變換[12]、Curvelet 變換[13])和基于空間域的融合方法(HIS 變換融合方法[14]、主成分分析逆變換融合方法[15]、像素值加權法、統計模型融合方法)兩類,可從像素層面實現多源圖像的融合,融合后的圖像信息更加全面、精確、可靠。
近年來,深度學習技術發展飛快,計算機視覺和圖像處理領域的許多問題取得了突破性進展。目前,基于深度學習的圖像融合技術研究日益增多,在數字成像(多焦點圖像融合[16]、多曝光圖像融合[17]等)、多模態成像(可見光與紅外光圖像融合[18-21]、醫學多模態圖像融合[22]、偏振圖像融合[23]等),以及遙感成像[24](多光譜與全色圖像融合、多光譜與高光譜圖像融合等)等多個方向。與傳統方法表征輸入圖像和目標圖像復雜映射關系的能力有限相比,深度學習模型在表征不同信號之間復雜關系方面具有強大的能力,并且可從數據中自動提取有效的特征,解決人工設計的困難。本文將深度學習應用于水下偏振圖像融合,提出了一種基于無監督學習和注意力機制引導的網絡模型,主要分為特征提取、特征融合和圖像重構3 個模塊。其中,特征提取模塊融合了注意力機制,其次構建了相關損失函數及權重參數。該方法能夠有效融合水下光強和偏振度圖像信息,提高視覺成像質量,具有較強的穩定性和自適應性。
Jaffe-McGlamery 模型[25-26]是常用的水下成像模型之一,諸多水下圖像復原算法都是基于此模型提出的。如圖1 所示,Jaffe-McGlamery 模型中探測器最終接收到的圖像是3 個分量的線性組合,這3 個分量分別是探測器接收到的目標反射光S(x,y)、光源在到達目標物前經水體散射的后向散射光B(x,y)和部分目標反射光經水體散射到達探測器的前向散射光F(x,y),則該圖像可表示為:

圖1 Jaffe-McGlamery 模型Fig.1 Jaffe-McGlamery model
假定目標最初的輻照度為J(x,y),由于散射和吸收的作用,光從目標傳播到探測器時損失部分能量,目標反射光S(x,y)可表示為:
式中t(x,y)為介質透射率,其表達式為:
在單一均勻介質中,介質透射率由衰減系數β(x,y)和傳播距離ρ(x,y)決定,衰減系數β(x,y)在空間上是恒定的,即β(x,y)=β0,傳播距離ρ(x,y)是指物體與相機之間光路的水下部分。
后向散射光B(x,y)是背景光經水中顆粒反射到探測器處,可以表示為:
其中B∞表示無限遠處的水下環境光光強。由于前向散射對成像質量的影響極小,通常可以忽略,則式(1)可簡化為:
物體最初的輻照度J(x,y)可表示為:
在偏振探測領域最常用的偏振特性表示方法之一是斯托克斯矢量法,該方法能夠全面地表征入射光波以及物質作用后光波的偏振特性。該矢量由4 個參量組成,如下:
式中:S0代表探測器接收到的總光強,S1代表0°和90°偏振分量I0°和I90°的光強度差值,S2代表45°和135°偏振分量I45°和I135°的光強度差值,S3代表光波中左旋和右旋圓偏振分量Ir和Il的光強差。不同方向的光強可以通過穆勒矩陣得出,即:
式中:θ是主光軸與參考線之間的夾角,S′表示角度為θ的出射光。根據式(8)可得角度為θ的出射光光強為:
偏振相機能夠獲得偏振方向為0°,45°,90°和135°的光強圖,是因為CMOS 傳感器的每個像元上都有4 個不同角度的偏振片(0°,45°,90°,135°)。如圖2 所示,每4 個像元一組作為一個計算單元,進而獲得θ為0°,45°,90°和135°的光強,聯立后可以得到式(7)。利用斯托克斯矢量能夠進一步計算入射光的線偏振度DoLP 以及偏振角φ:

圖2 偏振傳感器原理Fig.2 Schematic diagram of polarization sensor
其中:DoLP 代表光波中線偏振分量占總光強的比例,φ是入射光的優勢偏振方向。
本文采用的網絡結構如圖3 所示,它主要包含:特征提取模塊,特征融合模塊和圖像重構模塊3 個模塊。在特征提取模塊,光強圖像(S0image)和偏振度圖像(DoLP image)采用雙通道輸入,第一層為包含3×3 卷積核的卷積層和激活函數ReLU,用來提取低級特征;之后是包含3 個卷積層的DenseBlock 模塊,用來提取高級特征,每個卷積層也采用3×3 的卷積核,卷積核的運算步長為1。在卷積運算之前還有BN 層和ReLU 激活函數,這種排序方式能夠加快網絡的訓練速度,DenseBlock 結構能夠保留較多的深度特征,增強特征傳播,確保之后的融合過程有足夠的深度特征,也能緩解梯度消失的問題。光強圖像和偏振度圖像輸入的兩個通道共享相同的權重,減少了參數量,有助于降低網絡的計算復雜度。之后是注意力單元(見3.2 節),注意力單元將前一層的特征圖作為輸入,能夠捕獲數據中的全局關系,引導網絡學習特征圖的分布。在特征融合模塊,將特征提取模塊輸出的特征圖疊加,兩個特征圖的通道大小均為128,疊加后融合特征圖的通道大小為256。最后特征融合模塊的輸出作為圖像重構模塊的輸入,圖像重構模塊包括5 個轉置卷積層,每個轉置卷積層的卷積核尺寸為3×3,通過重構模塊從融合特征中重建出融合結果。詳細的網絡結構配置如表1 所示。

表1 水下偏振圖像融合算法的網絡結構配置Tab.1 Network structure configuration of under-water polarized image fusion algorithm

圖3 水下偏振圖像融合算法的網絡結構Fig.3 Network architecture of under-water polarized image fusion algorithm
注意力機制是一種捕獲全局依賴的機制。注意力單元結合了通道注意力和空間注意力,通道注意力能夠使網絡學習通道域的特征重要性,給與特征圖不同的權重,從而在通道域上實現光強圖像和偏振圖像的選擇性結合;而空間注意力聚焦于學習每一層特征圖的有效信息分布,提高顯著性特征的傳遞。注意力單元包括全局平均池化層、卷積層、激活層和拼接層等結構,如圖4所示。
給定X∈RH×W×C和X′∈RH×W×C為注意力單元的輸入和輸出,則注意力單元的計算過程如下:
式中:σ為Sigmoid 激活函數,Fc為通道注意力分支,Fs為空間注意力分支,⊕為廣播加法運算,?為逐元素乘法運算。
作為輸入的特征圖X∈RH×W×C經過通道注意力分支時,首先經過全局平均池化層得到通道特征Xc∈R1×1×C,然后用逐點卷積PWConv1,BN 層和ReLU 激活函數得到尺寸為1×1×r的通道特征,再經過逐點卷積PWConv2和BN 層得到尺寸為1×1×C的通道注意力特征圖Xc。Fc表示為:
其中:δ為ReLU 激活函數,GAP 為全局平均池化。與通道注意力分支相似,在經過空間注意力分支時,先用3×3 卷積Conv1,BN 層和ReLU激活函數得到尺寸為H×W×r的特征圖,再經過1×1 卷積PWConv2和BN 層得到尺寸為H×W×C的空間注意力特征圖Xs。Fs表示為:
本文中的損失函數包括全局加權結構相似性(Structural Similarity Index Measure, SSIM)損失函數(MSW-SSIM)[23],如下:
式中:LossSSIM(x,y;ω) 為基于SSIM 的損失函數,代表在窗口ω上圖像x和y的結構相似性,其表達式為:
SSIM 是衡量兩幅圖像相似度的指標,包括亮度、對比度和結構3 個不同因素。SSIM 的取值為-1~1,SSIM 越接近1,兩個圖像越相似。
該損失函數基于多窗口的SSIM,解決了不同尺度的圖像細節問題。使用的窗口尺寸包括3,5,7,9,11,不同窗口可以提取不同尺度的特征 。 此 外 , 在LossSSIM(IS0,If;ω) 和LossSSIM(IDoLP,If;ω)之間使用權重系數,權重系數基于和確定,定義如下:
其中:g(x)為防止異常情況設置的截斷函數,g(x)=max(x,0.000 1)。當窗口內S0圖像的方差大于對應DoLP 圖像的方差時,說明S0圖像的局部區域具有更多的圖像細節,S0圖像的權重系數γω應該更大。
此外,MSW-SSIM 可以保留高頻信息,但對均勻的偏差不敏感容易導致亮度的改變,所以將它與L1范數損失函數整合,可以保證融合結果的亮度。L1范數損失函數表示為:
式中:M和N分別是圖像的高度和寬度,Iavg為IS0和IDoLP的平均值。最終損失函數可以表示為:LMix=α?LossMSW-SSIM+(1-α)?Gσ?LossL1,(19)式中:α為控制MSW-SSIM 損失函數和高斯加權L1范數損失函數之間權重的超參數,設置為0.84。
為了獲取數據集,進行水下成像實驗,實驗裝置及布局如圖1 所示,主要包括偏振相機、玻璃水箱、偏振光源和目標物體。偏振相機型號為PHX050S-P,目標分辨率為2 448×2 048,采用焦平面偏光成像,鏡頭焦距為10.5 mm,可以一次拍攝4 張偏振角度分別為0°,45°,90°和135°的線偏振光強度圖像。采用透明玻璃水箱作為容器,并在水箱內壁覆蓋黑色絨布,以避免環境光和內壁反射的干擾。將目標放置在裝滿水的玻璃水缸中,獲取光強圖和線偏振度圖像,最終構建了包含150 組圖像的數據集。每組圖像由對應的光強圖和線偏振度圖構成,圖像尺寸為1 224 pixel×1 024 pixel,其中100 組作為訓練集,剩余50 組為驗證集和測試集。對數據集圖像進行翻轉,并裁剪為80×80 大小用作網絡訓練的輸入,訓練過程在顯卡為NVIDA GeForce RTX 2080 Ti 的服務器上進行。在進行權值初始化后,使用mini-batch 大小為 128 的 Adam 優化器進行優化。學習率最初設置為0.000 1,并以0.99 的速率呈指數衰減,最大Epoch 設置為200。
基于無監督學習和注意力機制對網絡進行訓練,并對水下圖像融合性能進行測試。為了客觀衡量融合圖像的質量,采用信息熵(EN)、標準差(SD)、互信息(MI)和結構相似性(SSIM)4 種圖像評價指標。信息熵表示圖像的平均信息量,其計算公式如下:
信息量越大,信息熵越大。圖像融合后會造成圖像信息量的增加,而信息熵可以反映出變化的程度。
標準差指圖像像素灰度值相對于均值的離散程度。標準差越大,表明圖像中灰度級分布越分散,圖像質量也就越好,其計算公式為:
互信息可度量兩幅圖像之間的相似程度,即融合圖像獲取了多少原圖像信息量。互信息越大,表示融合圖像保留更多源圖像信息,質量越好。互信息由圖像的信息熵H(A)和聯合信息熵H(A,B)決定,即:
這里MI 的計算公式為:
SSIM 是一個廣泛使用的圖像質量評價指標,它是基于人眼觀看圖像時會提取其中的結構化信息的假設。SSIM 越接近1,相似度越高,融合質量越好。本文采用的計算公式為:
圖像融合結果如圖5 所示,可以發現,光強圖像質量較差,場景細節退化嚴重,在加入偏振圖像進行融合后,目標物變得更清晰,鑰匙的紋理輪廓能夠清楚地識別。根據采用的圖像指標進行評價,融合后的信息熵提升24.48%,標準差提升139%,表明本方法可提升水下圖像質量。

圖5 融合結果Fig.5 Fusion result
此外,進行了消融實驗,并將本方法得到的融合圖像與其他幾種圖像融合方法進行了比較,包括曲波變換(Curvelet Transform, CVT)[13]、梯度轉移(Gradient Transfer, GTF)[27]、多分辨率奇異值分解(Multi-resolution Singular Value Decomposition, MSVD)[28]、低通率金字塔變換(Ratio of low-pass Pyramid, RP)[10]、離散小波變換(Discrete Wavelet Transform, DWT)[11]以及移除注意力單元后的網絡。如圖6 所示,RP 的結果具有較差的視覺效果,鑰匙邊緣和陰影部分均產生了一定程度的偽影,且噪點較多;CVT,DWT和MSVD 的結果有一定程度的顆粒感,且對比度偏低,對于陰影的處理較差;GTF 的結果具有較高的對比度,但鑰匙的紋理細節不夠清晰;而本文方法具有較為真實的視覺效果,沒有明顯的偽影和失真且對陰影的處理效果較好,相對于移除注意力單元的網絡在細節方面更為精細。

圖6 部分測試集圖像不同方法融合結果對比Fig.6 Comparison of fusion results of different methods for partial test set images
為了客觀地評估方法的性能,使用之前介紹的4 種圖像評價指標對測試集中的圖像進行評估,最終結果取平均值,結果如表2 所示。本方法在信息熵、標準差、MI 和SSIM 3 種圖形評價指標中均具有較好的表現,進一步說明了方法的有效性。

表2 不同方法對偏振圖像融合的定量結果Tab.2 Quantitative results of polarization image fusion by different methods
最后,在配置為NVIDIA GeForce RTX 2080 Ti,3.1GHz Intel Core i9-9600X,128G RAM 的服務器上進行運行時間評估,結果如表3所示。所有方法均在Python 語言下實現,采用多組取平均值,本文方法的處理速度為0.051 s,優于其他方法。

表3 不同方法的運算時間Tab.3 Operating time of different methods
本文針對水下光學成像質量差的問題,通過分析水下主動偏振成像模型,提出了將深度融合網絡應用于水下偏振圖像的方法,搭建實驗裝置獲取水下偏振圖像構建訓練數據集,構造了基于無監督學習和注意力機制引導的端到端網絡模型并設計損失函數。實驗結果表明,本文方法提高了圖像視覺質量,融合后的水下圖像細節更為豐富,相比于光強圖像信息熵提升了24.48%,標準差提升了139%。傳統的圖像融合方法通常需要設定權重參數來控制不同輸入圖像之間的融合程度,而權重參數的設定需要經過反復實驗和調整才能得到最佳效果。相比之下,該方法不需要手動設定權重參數,可以從數據中學習到較優的融合策略。下一步研究包括構建更為全面的數據集、改進損失函數和網絡模塊以進一步提升融合圖像質量,以滿足實際應用的要求;同時還要提高算法的處理效率,減小運算時間,以滿足實時處理水下視頻的需求,實現對水下目標的實時檢測。