張心祎,譚耀,邢向磊
(哈爾濱工程大學 智能科學與工程學院, 黑龍江 哈爾濱 151001)
隨著社會的發(fā)展,人類對海洋資源的探索更加深入,我們越來越需要清晰的水下圖像來進行水下生物,水下操作系統(tǒng)的研究。然而,獲取的水下圖像往往降質(zhì)十分嚴重,其中最主要的因素是水對于不同波長的光吸收率不同,紅色光波長最長吸收最為嚴重,而藍色光波長最短吸收最少,因此水下圖像總是呈現(xiàn)出藍綠色調(diào),同時伴隨著色偏和色彩不鮮明等問題。同時由于水中光線傳播距離短,受到水分子、懸浮顆粒、藻類、微生物等的散射和吸收作用,光線的強度、頻率和顏色均發(fā)生變化,從而導致水下圖像總是模糊,充滿了噪點。水下圖像復原的方法可以被粗略的分為傳統(tǒng)方法和基于深度學習的方法。早期人們嘗試去通過調(diào)整像素值來提高視覺質(zhì)量,例如動態(tài)像素的延展[1]、像素點的自適應分配[2]以及圖像融合[3]。盡管這些方法可以在一定程度上提高視覺質(zhì)量,但它們忽略了水下成像機制,因此往往會導致過度增強或增強不足的問題,并且會導致偽影的產(chǎn)生。例如在一些水下場景中[4]處理的效果并不總是很好。如今被廣泛使用的是水下成像的物理模型,物理模型通過先驗知識來評估水下成像模型的參數(shù),這些基于先驗知識的方法包括紅通道先驗[5]、水下暗通道先驗[6]、最小信息先驗[7]等。盡管這些物理模型取得了不錯的復原效果,但是其計算時間較長,同時其對水下成像公式中參數(shù)評估的準確性十分依賴于水下成像的類型,而且模型中的先驗并不總是成立的,因此這類方法的泛化能力較差。神經(jīng)網(wǎng)絡模型的發(fā)展為水下圖像處理提供了新的思路,隨著Swin-Transformer[8]、ConvNext[9]等網(wǎng)絡架構的提出,神經(jīng)網(wǎng)絡處理視覺任務獲得了進一步的提升。但是與水下圖像相對應的目標圖像難以獲取,現(xiàn)有的數(shù)據(jù)集中數(shù)據(jù)數(shù)量相比于其他任務如分類,語義分割等也十分稀少,這也限制了數(shù)據(jù)驅動模型的應用,為了解決數(shù)據(jù)集問題,文獻[10-11]使用了生成對抗網(wǎng)絡和水下圖像生成公式來合成水下圖像和清晰圖像用于有監(jiān)督學習。為了避免使用成對的訓練數(shù)據(jù),UcycleGAN[12]使用了一個弱監(jiān)督的水下圖像修復網(wǎng)。
水下圖像質(zhì)量低主要體現(xiàn)在色偏和圖像模糊兩個方面,對于圖像模糊的處理往往需要關注圖像內(nèi)物體的邊緣細節(jié),這是局部性的、像素級別的處理,而造成色偏的主要原因是水對于光的均勻吸收造成水下圖像整體偏綠或偏藍,這往往是全局性的與物體所處的位置無關。
考慮到以通用暗通道先驗(generalization of the dark channel prior, GDCP)[13]為代表的傳統(tǒng)方法中物理先驗知識的成功應用,本文提出了基于物理先驗的特征融合水下圖像恢復網(wǎng)絡。首先考慮到水下圖像的成像特點,將水下圖像中局部空間信息和全局色彩信息進行分離,提取出保留像素空間位置關系的低通道數(shù)特征向量和寬、高均為1 且只包含全局性色彩信息的高通道數(shù)特征向量。并且在空間信息提取模塊中,通過空間注意力機制使模型專注于水下圖像中某些局部信息,提高恢復圖像中物體邊緣細節(jié)的表現(xiàn),減少模糊。在色彩信息提取模塊中,考慮到不同成像條件對水下圖像色彩的影響,通過引入通道注意力機制使模型專注于不同通道上色彩、對比度、亮度等全局信息的恢復,減少生成圖像中的色偏,使生成圖像盡可能地接近于陸地圖像(Groud-Truth)。提取出不同信息后,在解碼器中逐步生成恢復圖像,通過調(diào)制操作聯(lián)合不同通道上的全局信息,使不同層級的解碼器將不同尺度的色彩信息逐步融合進空間信息中。最后,在物理先驗模塊中,將水下光學成像模型IMF(image model function)嵌入到最終的生成器中,通過引入注意力機制,使網(wǎng)絡在處理不同的水下圖像時關注不同的成像機制,以綜合利用神經(jīng)網(wǎng)絡和傳統(tǒng)方法的優(yōu)勢。
Jaffe-McGlamery 模型[11,14]是一種用于描述水下光學傳輸?shù)慕?jīng)典模型,其假設水體是均質(zhì)的,并考慮了散射、吸收和反射等因素對光線的影響,如圖1 所示。

圖1 水下圖像成像過程Fig. 1 Underwater image imaging process
該模型可抽象表達為
式中將水下獲得的信號分為Ed直接照射、Ef前向散射和Eb后向散射3 個部分。(x,y)表示圖像中像素的坐標;ET(x,y)代表相機捕捉到的總光能量;Ed(x,y)代表直接照射部分是指光線從物體表面反射并在未經(jīng)散射的情況下到達相機的部分;Ef(x,y)代表前向散射,是物體表面反射的光在到達相機這段距離上發(fā)生的散射;Eb(x,y)代表后向散射部分,是指自然光到達物體表面之前被反射進相機的部分。
在水下環(huán)境中,光線很容易被吸收和散射,導致光線強度衰減快,前向散射能夠傳遞的距離有限,因此前向散射所占比例較小。同時在水中水分子和懸浮顆粒的影響下,散射光線更容易向后方散射,這會進一步導致前向散射的減少,從而擴大后向散射所占比例,因此為了便于計算,我們常常忽略IMF 中的前向散射部分,而使用簡化后的Jaffe-McGlamery 模型,該模型如下表示:
式中:(x,y)表示像素點在圖像中的坐標,c代表紅綠藍(r、g、b)通道,Ic(x,y)表示相機直接拍攝的光強度,tc(x,y)表示在水中介質(zhì)傳輸率,Jc(x,y)tc(x,y)表示場景能量在水的吸收作用后剩余的部分,Jc(x,y)表示未衰減的圖像,Ac表示全局均勻環(huán)境光。
在水中,tc(x,y)也被稱為介質(zhì)傳輸率,其值受到水下衰減系數(shù)和物體與相機間距離的影響,因此tc(x,y)可以通過以下關系式表示:
式中: βc為不同通道的水下衰減系數(shù),其由光的波長決定;d(x)表示目標的深度信息,即目標物體到相機的距離。
使用介質(zhì)傳輸率和全局均勻環(huán)境光,可以得到未衰減圖像的計算公式:
由于使用簡化后的Jaffe-McGlamery 模型會導致一些信息的丟失,同時為了保存一些深度信息,因此在實際應用中,設置t0=0.1作為下邊界,同時裁剪Jc(x,y)在13~255 之間。
單圖像復原的通用暗通道先驗GDCP 算法[13]提出了一種通用的基于物理先驗的水下圖像恢復方法,其通過水下圖像的局部光強度估算介質(zhì)傳輸率通過全局光強最高的點估計全局均勻背景光Ac,最后通過式(4)得到恢復的水下圖像。其具體表達式如下:
該公式通過點x某一鄰域內(nèi)r、g、b三通道中光強的最小值估算不同通道的介質(zhì)傳輸率。其中y∈Ω(x)代表y是始于x鄰域內(nèi)的一個點。該公式的物理含義為點x處的介質(zhì)傳輸率是以x為中心的某一區(qū)域內(nèi),r、g、b 三通道中,像素值最小的點與均勻背景光Ac的比值。為了計算Ac,需要先計算暗通道先驗的光強圖其數(shù)學表達式如下:
該公式的物理含義為點x處的暗通道先驗光強是以x為中心的某一鄰域內(nèi),r、g、b三通道中,像素值最小的點所對應的光強。
Ac的數(shù)學表達式為
其中P0.1%是中前0.1%最大像素值點所構成的位置集。
盡管GDCP 算法取得了不錯的恢復效果,但是由于物理參數(shù)很難估計準確,因此限制了該算法的應用。
本文網(wǎng)絡的整體流程如圖2 所示,受水下圖像光學成像公式(式(1))和GDCP 算法[13]中利用背景光和色彩信息計算傳輸率的啟發(fā),本文提出通過數(shù)據(jù)驅動的深度學習方法,自適應地學習式(4)中的全局背景光Ac和介質(zhì)傳輸率圖t?c。在解碼器中充分利用局部空間信息和全局色彩信息估算傳輸率特征圖t?d,再通過物理先驗模塊(physical priors, PPAM)中的調(diào)制卷積和物理先驗知識分別生成基于數(shù)據(jù)的恢復圖像Ig和基于物理先驗的恢復圖像Ip,最后通過PPAM 模塊中的混合注意力機制,將Ig與Ip進行深度特征級融合,并重建為最終的恢復圖像Irec。

圖2 基于物理先驗的深度特征融合水下圖像恢復網(wǎng)絡的整體流程Fig. 2 Overall flow of underwater image restoration network based on physical prior deep feature fusion
恢復圖象Irec的具體數(shù)學表達式如下:
式中:PPAM、SFSFE、CACFE 分別代表物理先驗模塊,空間注意力空間信息提取(spatial attention spatial feature extraction, SASFE)模塊,通道注意力色彩信息提取(channel attention color information extraction, CACFE) 模塊;Fmid是中間特征向量;Fs是空間特征向量;Fc是色彩特征向量;Dθ2是以θ2為參數(shù)得解碼器;Eθ1是以 θ1為參數(shù)的編碼器;Iw是水下圖像;具體實現(xiàn)將在后文介紹。
由圖2 可知,本文網(wǎng)絡的整體流程由5 個部分組成,分別為編碼器、解碼器、SFSFE、CACFE、PPAM。
網(wǎng)絡的輸入為歸一化至[-1,1]范圍內(nèi)的水下圖像Iw∈R3×h×w,其中h和w分別代表水下圖像的高和寬,本文中均取256。將Iw送入編碼器編碼,編碼器輸出中間特征向量Fmid=Eθ1(Iw),F(xiàn)mid∈Rc×hmid×wmid。其中hmid和wmid分別代表了Fmid的高和寬,本文中均為16,c代表通道數(shù)。然后Fmid經(jīng)過SFSFE 和CACFE 分別得到空間特征向量Fs∈Rc×hs×ws和色彩特征向量Fc∈Rc;最后在解碼器中通過調(diào)制操作將Fs與Fc融合,輸出介質(zhì)傳輸率向量M(Fc))∈R3×h×w,M是調(diào)制操作。下面對網(wǎng)絡進行詳細介紹。
圖3 詳細的展示了編碼器結構,其由1 個卷積模塊和4 個殘差模塊組成。

圖3 編碼器結構Fig. 3 Encoder structure
首先水下圖像Iw由一個卷積操作編碼為一個水下特征向量Fw=Conv(Iw)∈R32×256×256,得到的水下特征向量送入后續(xù)的殘差模塊,特征向量通道數(shù)由32 逐漸增長至512,其增長因子是2,在通道數(shù)增長的同時,在每一個殘差模塊中,都對特征向量進行下采樣,逐步提高神經(jīng)網(wǎng)絡的感受野,其下采樣因子也為2,經(jīng)過四個殘差結構后,可以得到中間特征向量Fmid=Eθ1(Iw)∈R512×16×16。
本文的編碼器和解碼器由殘差模塊作為基本單元組成,具體結構如圖3 中所示,每一個殘差模塊由3 個卷積層2 個激活層組成,使用殘差模塊的目的是提高數(shù)據(jù)的保真度并且可以避免梯度消失的問題[15],在每一個殘差模塊中,卷積層具有相同數(shù)量的濾波器。殘差模塊中所有的卷積層卷積核大小都為3,其步長均為1。殘差模塊的具體數(shù)學表達式如下:
式中:Fo代表輸出特征,F(xiàn)i代表輸入特征, *代表卷積操作,k1、k2、kskip分別代表第1層、第2層和跨層的卷積核參數(shù),b1、b2、bskip分別代表第1 層、第2 層和跨層的卷積偏置值,R(·)代表Relu 激活函數(shù),B(·)代表Blur 下采樣操作。
在殘差模塊中使用了Blur[16]進行下采樣,這是因為使用Blur 進行下采樣可以降低圖像中的高頻信號,減少噪聲和細節(jié),從而避免神經(jīng)網(wǎng)絡學習到不必要的細節(jié)信息。此外,使用Blur 進行下采樣可以使圖像保持平滑的特性,避免出現(xiàn)鋸齒和馬賽克等問題。最后,使用Blur 進行下采樣可以避免出現(xiàn)深度網(wǎng)絡中的梯度消失問題,使得神經(jīng)網(wǎng)絡更加穩(wěn)定和易于訓練。
SFSFE 由2 個空間注意力模塊所組成,空間注意力模塊如圖4 所示。

圖4 空間注意力空間特征提取模塊Fig. 4 Spatial attention spatial feature extraction module
空間注意力模塊輸出的計算公式如下:
式中:Fo為輸出向量,F(xiàn)=Conv(Fi)代表輸入特征經(jīng)卷積操作后輸出的特征圖,f7×7是卷積核大小為7 的卷積操作是圖5 中的第2 個卷積操作,F(xiàn)Avg=Avgpool(F)、FMax=Maxpool(F)分別代表在通道方向上的平均池化和最大池化后得到的特征圖,F(xiàn)cat=cat[FAvg,Fmax],sig 是sigmoid 激活函數(shù), ⊕和?分別代表了像素級別的加法和乘法。

圖5 通道注意力色彩信息提取模塊Fig. 5 Channel attention color information extraction module
第1 個空間注意力模塊不改變特征向量的通道數(shù),在第2 個注意力模塊中,在通道方向上進行壓縮,最終輸出的空間信息特征向量Fs∈R8×16×16。
不同于GDCP[13]直接使用局部光信息與全局均勻背景光估算介質(zhì)傳輸率圖,本文設計了CACFE 模塊以使用神經(jīng)網(wǎng)絡提取水下圖像的全局色彩信息,以便在后續(xù)的模塊中計算全局均勻背景光Ac。
考慮到每個通道空間所包含的信息意義不同,因此提取色彩信息時每個通道應該具有不同的貢獻。使用通道注意力模塊提取水下圖像的色彩信息。通道注意力模塊如圖5 所示。
其輸入特征是Fi∈RN×H×W的空間向量,其中Fi是輸入特征圖,H和W分別代表特征圖的高和寬。首先使用全局平均池化,從而得到一個信息描述符Z∈RN×1,這是一個嵌入式的逐通道特征響應全局分布。第k個z可以表述為
其中k∈[1,N],為了更好地利用通道之間的相互依賴性,使用了自門控機制來生成每個通道調(diào)制的權重集合。
其中: σ代表sigmoid 激活函數(shù), δ代表Relu 激活函數(shù), *代表卷積操作,W1和W2分代表了2 個卷積層的權重,其輸出通道分別為和N,其中r等于16,其目的是為了減少運算量,加快程序的運行速度。同時,為了避免梯度消失和保持原有特征的特性,以殘差的形式處理通道注意力的權重。
其中Fo∈Rc×H/2×W/2是輸出特征向量,其高寬通過卷積操作變?yōu)樵瓉淼?/2, ⊕和 ?分別代表了像素級別的加法和乘法。
色彩信息提取模塊由兩個通道注意力模塊[17]依次串聯(lián)組成,考慮到色彩信息與空間信息無關,因此中間特征向量每通過一個通道注意力模塊其寬高都會縮減為原來的1/2,在最后一個全連接層前使用全局平均池化替代下采樣以消除空間信息,最終輸出色彩信息特征向量Fc∈R2048。
受GDCP[13]算法中利用局部信息和全局色彩信息計算傳輸率圖的啟發(fā),在解碼器中將Fc與Fs相結合計算以便在PPAM 模塊中利用式(4)生成一張基于物理先驗的恢復圖像。
如圖6 所示,本文的解碼器共由9 個殘差模塊組成,前4 個殘差模塊只進行通道方向上的擴展并不進行上采樣操作,受文獻[18]的啟發(fā),本文使用調(diào)制操作,將色彩信息逐步融入進特征向量中。

圖6 解碼器結構Fig. 6 Decoder structure
簡單來說調(diào)制操作是將學習到的調(diào)制向量映射到特定層的平均值和方差上,調(diào)制操作的數(shù)學表達式如下:
其中:w和w′分別代表原始權重和調(diào)制權重,“·”代表元素相乘,si是通過全連接層所學到的與第i個輸入特征圖相對應的比例。本文中為色彩信息,j和k分別為特征圖和卷積核的空間下標。經(jīng)過調(diào)制和卷積操作后,輸出向量的標準差為
為了將輸出特征圖恢復為單位標準差,本文需要解調(diào)操作,即將上述標準差再次嵌入到卷積權重中:
ε的作用是防止分母為0。
后5 個殘差模塊在通道方向上不斷的壓縮,同時依舊使用Blur 對圖像進行上采樣,在最后的殘差模塊中,生成傳輸率特征圖
為了更好地利用已有的物理先驗知識和深度神經(jīng)網(wǎng)絡的非線性學習能力,本文設計了物理先驗模塊。

圖7 物理先驗模塊Fig. 7 Physical prior module
其中Fp具體表達式如下:
其中:t0=0.1,Ac=mlp(Fc)∈R3是通過mlp全連接層計算出的均勻背景光。
混合注意力流程如圖7 中所示,其具體數(shù)學表達式如下:
其中Ms和Mc分別代表空間注意力和通道注意力,具體實現(xiàn)見2.2、2.3 節(jié)。PPAM 的數(shù)學表達式如下:
其中Irec為恢復圖像,F(xiàn)cat=concat[Fp,Fg]代表是將物理特征向量和生成特征向量沿通道方向堆疊后的堆疊特征圖, Conv、 ⊕分別為卷積操作、元素加法。
為了訓練本文網(wǎng)絡,本文使用了3 種損失函數(shù)的組合,分別為L1損失、SSIM[19]損失、感知路徑損失[20]。
L1損失,也被稱為平均絕對誤差(mean absolute error,MAE),是將每個樣本的預測值與真實值之差的絕對值求和后再求平均值。
式中:Ilabel和Irec分別代表了目標圖像和復原圖像在i處的像素值,n為整張圖像的像素點個數(shù)。
相比于L2損失,L1損失對離群值更穩(wěn)健,即數(shù)據(jù)集中存在的一些噪聲點或異常值對損失的影響較小。并且L1損失更傾向于保留細節(jié),在訓練過程中易于優(yōu)化,訓練穩(wěn)定,因此L1損失更適合于重構圖像的任務[21]。
同時,為了增強生成圖像對于局部結構和細節(jié)的表現(xiàn)能力,提高原始圖像與生成圖像在亮度,對比度和結構上的相似性,本文也使用結構相似度SSIM[19]作為損失函數(shù)的一部分。
式中:S代表結構相似度, μrec和μlabel分別代表復原圖像和目標圖像的均值, σrec和σlabel分別表示復原圖像和目標圖像的標準差,σreclabel表示兩幅圖像的協(xié)方差,C1和C2是兩個常數(shù),用于避免分母為0 的情況。
像素級別的差異有時并不一定能夠反映人眼對圖像質(zhì)量的感知差異,因此引入了感知路徑損失,其通過將圖像轉換為特征向量表示,并比較它們在特征空間中的相似度,可以更好地捕捉人眼對圖像質(zhì)量的感知,文獻[22]的實驗結果表明感知路徑損失可以提高生成圖像對于細節(jié)的表現(xiàn)能力和網(wǎng)絡風格轉換的能力。
本文中的感知路徑損失是基于在ImageNet數(shù)據(jù)集上預訓練的VGG-19 網(wǎng)絡來計算的,其具體表達式為
式中: φj表示VGG-19 中的第j個卷積層,H、W分別代表圖像的高和寬,m、n分別代表對應的像素點,本文使用特征提取層的輸出之間的差值來衡量重構圖像與真實圖像之間的差值。
最終的整體損失函數(shù)為
式中: λ用于平衡不同損失之間的范圍,最終設置λ1=1,λSSIM=1.1, λper=0.1。
本文使用Adam 優(yōu)化器來訓練網(wǎng)絡,設置其學習率為0.000 2, β1為0.9, β2為0.999。設置學習率每10 個epoch 縮小到原來的1/5,最終學習率固定在0.000 001,設定batch size 為8,將圖片隨機裁剪為256,隨機使用水平翻轉,垂直翻轉等數(shù)據(jù)增強手段。
由于水下環(huán)境的復雜性和特殊性導致獲取真實水下圖像數(shù)據(jù)并進行標注是十分困難和昂貴的,因此現(xiàn)有的真實水下圖像數(shù)據(jù)集中圖像數(shù)量有限,成像條件單一。綜上所述,本文使用文獻[23-24] 中的合成數(shù)據(jù)集進行模型預訓練,并在Heron Island Coral Reef 數(shù)據(jù)集(HICRD)[25]上進行遷移訓練,以下對數(shù)據(jù)集進行詳細介紹。
3.1.1 合成數(shù)據(jù)集
如表1 所示,文獻[26]中給出了不同成像條件下的衰減系數(shù),其中I、IA、IB、II 和 III 是開闊水域,1、3、5、7 和9 是沿海水域,1 代表最干凈,9 代表最渾濁。

表1 不同成像條件下的衰減系數(shù)Table 1 Attenuation coefficient under different imaging conditions
本文使用表1 中的衰減系數(shù),IMF 圖像公式和NYU-V2RGB-D[27]數(shù)據(jù)集,按照文獻[23-24]中所使用的方法合成了一個水下圖像數(shù)據(jù)集。其中NYU-V2RGB-D 數(shù)據(jù)集作為清晰圖像的來源。首先隨機生成深度系數(shù)d(x),其中x代表位置坐標,然后使用生成的深度系數(shù)與數(shù)據(jù)集中的深度圖像元素相乘,得到合成水下圖像所需的深度圖。最后我們生成背景光強度Ac,得到所有參數(shù)后送入1.1 節(jié)中的水下圖像生成公式(式(2))中,得到合成的水下圖像。
為每種水質(zhì)類型生成5 張合成圖像,這樣每張清晰圖像都會有50 張與之對應的水下圖像。
3.1.2 真實數(shù)據(jù)集
Heron Island Coral Reef 數(shù)據(jù)集(HICRD)[25]包含了來自8 個不同場地的原始水下圖像,每個場地都有詳細的元數(shù)據(jù),包括水參數(shù)(漫反射衰減)、最大潛水深度和相機型號等信息。其中6 個場地有詳細的衰減系數(shù)。根據(jù)原始圖像的深度信息和物體與相機之間的距離,具有相似深度、恒定距離和良好視覺質(zhì)量的圖像被標記為高質(zhì)量。文獻[25]中精確計算了未衰減的原始圖像,并手工剔除了一些效果不盡如人意的圖像,最終得到了一個包含6 003 張低質(zhì)量水下圖像、3 673 張高質(zhì)量水下圖像和2 000 張未衰減的原始圖像的數(shù)據(jù)集。
如圖8 所示,本文使用UWCNN[23]和UIEDAL[24]作為對比對象,UWCNN 使用合成的數(shù)據(jù)集進行訓練,針對不同的水質(zhì)環(huán)境,訓練不同模型,每次使用時需先根據(jù)水質(zhì)類型選取對應的模型參數(shù),由于類型I、IA、IB 的衰減系數(shù)十分接近,為了簡化訓練過程,UWCNN 合并了類型I、IA、IB 因此共8 個模型;UIE-DAL 使用了對抗網(wǎng)絡的思想,使用編碼器獲取剔除了水質(zhì)環(huán)境因素的特征向量,使用該特征向量直接恢復目標圖像,是一種通用模型。從對比圖可知,UWCNN 所恢復的圖像在細節(jié)方面有所不足,但是其色彩表現(xiàn)稍好;UIE-DAL 會在圖像中添加偽影,使生成的圖像偏紅;本文模型在所有的水質(zhì)類型中均可以做到對水下圖像的恢復,特別是在類型5、7、9 這樣的極端環(huán)境中,其恢復效果要遠好于UWCNN 和UIE-DAL,但是在這樣的極端環(huán)境當中,本文生成的圖像與目標圖像仍有較大差距,恢復圖像中色彩信息表現(xiàn)不足。這是因為本文采用了空間信息和色彩信息相分離的生成結構,在極端環(huán)境下其色彩信息很少,因此恢復的圖像總是缺乏色彩的。

圖8 合成數(shù)據(jù)集重構效果Fig. 8 Reconstruction effect of composite dataset
通過對比類型7、Ⅱ、Ⅲ,可以發(fā)現(xiàn)經(jīng)本文模型處理后的圖像顯著地減少了黃色和藍色色偏。
相比于UWCNN[23]和UIE-DAL[24],本文模型所生成的圖像中偽影和色偏顯著減少,并且本文的模型可以很好的保留圖像中的細節(jié)部分,如在類型1、3 中仍可看清床上的物品細節(jié)。
如圖9 所示,使用HICRD 來測試本文的模型,圖9(b)是由UIE-DAL 的預訓練模型生成,圖9(c)是直接使用本文模型在合成數(shù)據(jù)集上訓練的權重,圖9(d)是本文模型在HICRD 上進行遷移訓練的結果。通過圖9 可以看出,本文模型在真實數(shù)據(jù)集上的泛化性顯然好于UIE-DAL,盡管使用預訓練模型時,大部分情況下,輸出圖像與目標圖像有明顯差異,輸出圖像的亮度顯然高于目標圖像,但這有可能是目標圖像的不完全恢復所造成的,因為在第2 行中,顯然使用合成數(shù)據(jù)集訓練的模型的輸出結果更好,即更傾向于GroudTruth。這也從側面證實了使用合成數(shù)據(jù)集進行訓練的可靠性。

圖9 HICRD 重構效果Fig. 9 Reconstruction effect of HICRD
通過生成圖像與原圖像之間的對比,發(fā)現(xiàn)生成圖像的綠色色偏明顯減少。不論使用何種模型,恢復圖像的紋理細節(jié)表現(xiàn)顯然好于水下圖像,這證明了本文模型對于水下圖像具有明顯的增強效果,具有良好的泛化性,同時由于本文模型具有通用性,當在對應數(shù)據(jù)集上進行訓練時,可以快速地逼近目標圖像。
使用SSIM 和PSNR 進行不同模型的定量對比。SSIM 是一個評估圖像質(zhì)量的指標,它考慮圖像的結構信息和亮度信息,更能反映出人眼對圖像細節(jié)和結構的敏感度,更接近于人類主觀感受,其值范圍從0 到1,值越大,表示兩幅圖像越相似,具體公式見式(21)。
PSNR 是最常用的評估圖像質(zhì)量的指標之一,表示生成圖像與目標圖像之間的差異大小,值越大,表示圖像保真度、圖像去噪的效果越好。
表2 給出了本文模型與當前主流模型在合成數(shù)據(jù)集上訓練后的定量表現(xiàn)。從表2 可以看出,隨著成像條件變差,模型恢復效果也逐漸變差,在大多數(shù)的成像條件下,本文模型可以取得超越主流模型的性能表現(xiàn),往往具有更高的SSIM 值和PSNR 值,在類型1 成像條件下,盡管沒有達到最大的SSIM 值,但是其與UWCNN 模型的差距非常小。

表2 不同模型的定量分析Table 2 Quantitative analysis of different models
水下圖像處理是為了更好地執(zhí)行后續(xù)的高級視覺任務,例如顯著性目標檢測。顯著性目標檢測(saliency object detection)是指在一張圖片中自動識別出最顯著、最引人注目的區(qū)域,即顯著性區(qū)域,通常被認為是人眼在圖片中第一時間注意到的區(qū)域。
圖10 給出了使用預訓練模型BASNet[30]在水下圖像和復原圖像上進行顯著性目標檢測的結果。從左至右分別為水下圖像、復原圖像、水下圖像顯著目標檢測結果、復原圖像顯著目標檢測結果。

圖10 重構圖像顯著目標檢測表現(xiàn)Fig. 10 Performance of significant target detection in reconstructed images
通過分析圖10 可以發(fā)現(xiàn),復原圖像顯著目標檢測效果遠好于水下圖像顯著目標檢測,例如在第1 行中,使用復原圖像可以更好地檢測出水下蛙人的腿部和腳部細節(jié);在第2 行中,使用復原圖像可以更好地檢測出水下雕像的輪廓,并且可以檢測出雕像手中的一些細節(jié);在第3 行中,原圖像無法檢測出的右下角石塊在復原圖像中可以被檢測出;在第4 行中,與原始水下圖像相比復原圖像可以檢測出更多的人形雕塑。
本文提出一種將物理先驗知識和深度神經(jīng)網(wǎng)絡相結合的水下圖像復原模型。受暗通道先驗中使用RGB 色彩信息計算傳輸率的啟發(fā),該模型分別提取水下圖像的空間信息和色彩信息,再通過調(diào)制操作將色彩信息與空間信息融合以推斷水下傳輸率,最后通過混合注意力機制將基于水下光學成像模型和調(diào)制卷積的復原特征圖融合,生成最終的恢復圖像。實驗的結果表明,使用平均絕對誤差損失,結構相似度損失和感知路徑損失可以有效訓練本文模型。本文模型在可以極大地改善水下圖像的成像效果,減少圖像中的模糊、色偏等問題,提高目標檢測的檢測效果。由于采用了信息分離的結構,本文模型具有良好的泛化性,適用于多種水下成像條件,特別是在極端的水下環(huán)境當中,本文模型仍可以恢復圖像的部分細節(jié)。