羅俊 宣士斌 劉家林



摘 要:低光照圖像分割一直是圖像分割的難點,低光照引起的低對比度和高模糊性使得這類圖像分割比一般圖像分割困難很多。為了提高低光照環境下語義分割的準確度,根據低光照圖像自身特征,提出一種噪聲指導下過濾光照風格的低光照場景語義分割模型(SFIS)。該模型綜合利用信噪比作為先驗知識,通過指導長距離分支中的自注意力操作、長/短距離分支的特征融合,對圖像中不同噪聲的區域采用不同距離的交互,并設計了一個光照過濾器,該模塊從圖像的整體風格中進一步提取光照風格信息。通過交替訓練光照過濾器與語義分割模型,逐步減小不同光照條件之間的光照風格差距,從而使分割網絡學習到光照不變特征。提出的模型在數據集LLRGBD上優于之前的工作,取得了較好的結果。在真實數據集LLRGBD-real上的mIoU達到66.8%,說明所提出的長短距離分支模塊和光照過濾器模塊能夠有效提升模型在低光照環境下的語義分割能力。
關鍵詞:語義分割;低光照;注意力機制;域自適應
中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-050-0314-07
doi:10.19734/j.issn.1001-3695.2023.06.0285
Filtering illumination style under guidance of noise to achieve semantic segmentation of low-light scenes
Abstract:Low-light image segmentation is always the difficulty of image segmentation.The low contrast and high fuzziness caused by low light make this kind of image segmentation much more difficult than general image segmentation.In order to improve the accuracy of semantic segmentation in low light environment,this paper proposed a semantic segmentation model of low light scene with filtering light style under noise guidance (SFIS) according to the characteristics of low-light image.The model comprehensively used signal-to-noise ratio as prior knowledge,and adopted different distance interaction for different noise regions in the image by guiding the self-attention operation in the long distance branch and the feature fusion of long/short distance branches.This paper also further designed an illumination filter,which was a module that further extracted the illumination style information from the overall style of the image.By alternately training the illumination filter and the semantic segmentation model,the lighting style gap between different lighting conditions was gradually reduced,so that the segmentation network could learn illumination invariant features.The proposed model outperforms the previous work on the dataset LLRGBD and achieves the best results.The mIoU on the real dataset LLRGBD-real reaches 66.8%,it shows that the proposed long and short distance branch module and the illumination filter module can effectively improve the semantic segmentation ability of the model in low light environment.
Key words:semantic segmentation;low light;attention mechanism;domain adaptation
0 引言
語義分割作為計算機視覺中的一項重要分支,其目的是根據目標鄰域特征,針對每個像素進行分類,最終得到一個具有像素級的語義標注圖像。大多數網絡模型主要是在良好的環境下提高精度,并沒有考慮到不利的環境條件,比如過度曝光和曝光不足、噪聲等導致的圖像退化。現有的語義分割模型主要是在光照良好的白天圖像上進行訓練,由于網絡模型受訓練集分布的限制,往往對光照的變化不具有魯棒性。低光照圖像會產生較多噪聲,而且對低光照圖像的標注也較為困難,現有模型的性能主要受限于低曝光和缺乏真實標簽。本文專注于低光照環境下的語義分割。
LISU模型[1] 先利用分解網絡將低光照圖像分解為光照分量和反射分量,然后利用聯合學習網絡同時學習恢復反射信息和分割反射圖,最終實現低光照室內場景下的語義分割。付延年[2]提出了可見光與紅外融合圖像的語義分割方案,從而改善了夜間場景的分割精度。另一方面,針對低光照圖像的恢復問題,大多數方法主要是利用神經網絡學習操縱顏色、色調和對比度等來增強低光照圖像,而最近的一些工作進一步考慮了低光照圖像中的噪聲。Liu等人[3]提出了RUAS模型,以Retinex理論為基礎,建立了反映低光照圖像內在曝光不足結構的模型。Xu等人[4] 提出了一種基于頻率的低光照圖像分解與增強模型。Xu等人[5]提出了利用噪聲自適應地考慮低光照圖像中的不同區域,以實現空間變化增強。但簡單地將現有分割模型的前端加一個低光照增強網絡,并不總能提高低光照圖像分割網絡的模型精度,而且還會帶來更多的計算和內存消耗。
為了提高分割模型對光照變化的魯棒性,也有許多域適應方法被提出,以使白天訓練的模型適應夜間,而無須夜間域中的真實標簽。在模型MGCDA[6]與DANNet[7]中應用圖像遷移網絡來風格化白天或夜間的圖像并生成合成數據集,然而,風格遷移網絡并不能充分利用分割任務的語義嵌入,也增加了推理時間。Dai等人[8]提出利用黃昏圖像作為中間目標域,將白天場景上訓練的語義模型漸進地適應夜間場景。這些方法不僅需要額外的訓練數據,而且訓練過程復雜[9]。Wang等人[10]提出了域自適應方法FADA,通過學習域不變特征來實現特征級自適應,將鑒別器與分割模型一起訓練,以便鑒別器最大化源域和目標域之間的差異,而分割模型學習最小化差異。Isobe等人[11]提出了一個協作學習框架來實現無監督的多目標域適應,將所有其他域都轉換為當前目標域的風格以進行進一步訓練。張桂梅等人[12]提出SG-GAN方法對虛擬數據集GTA5進行預處理來代替原有數據集。Lee等人[13]提出了FIFO模型,將圖像的霧條件視為其霧風格,學習霧不變特征的霧天場景分割模型。大多數現有的低光照語義分割模型往往忽略了高噪聲區域對模型性能造成的不利影響。另一個存在的問題是,只有在理想情況下,風格才獨立于其內容,如果直接更改圖像的整體風格,會使圖像的內容信息產生部分損失。
針對上述問題,本文提出了一種新的域自適應方法。因為低光照圖像的不同區域中的特征差距較大,低信噪比區域的局部信息往往已經嚴重丟失,而高信噪比區域中仍然可以具有合理的特征信息,所以需要自適應地考慮低光照圖像中的不同區域。為了實現這種長、短距離的自適應,本文在特征提取器中設計了兩個分支操作,長、短距離分支分別基于Transformer結構[14]和卷積殘差塊[15],將信噪比圖作為一種先驗知識,從而指導這兩個分支的特征融合。另一方面,為了減小圖像內容信息上的損失,本文設計了一種可學習的光照過濾器,根據特征圖所計算的Gram矩陣作為輸入,嘗試從圖像的整體風格中進一步提取與光照風格相關的信息,學習將不同光照條件的信息區分開。語義分割模型在訓練過程中縮小不同光照風格信息的差距,最終得到語義分割網絡的光照不變特征。本文的貢獻可以總結如下:a)在分割網絡的淺層特征中設計了長、短距離分支來自適應地考慮低光照圖像中的不同區域,并利用信噪比圖進一步修改了自注意力操作;b)設計了一個光照過濾器,用于低光照圖像的語義分割;c)提出了一種新的域自適應框架,在LLRGBD數據集上的實驗表明,該框架優于現有方法,取得了最好的分割效果。
1 相關概念
1.1 低光照圖像的語義分割
針對真實低光照室內場景的語義分割問題,Zhang等人[1]提出了一種級聯框架LISU,用于弱光室內場景理解。根據Retinex理論研究了顏色恒常性,并進一步發展為解決圖像的固有分解問題。如圖1所示[1],框架由兩部分組成:a)無監督分解網絡LISU-decomp,將RGB圖像分解為相應的光照圖和粗反射圖;b)編碼器-解碼器網絡LISU-joint,以多任務方式學習反射圖的恢復和語義分割。將來自兩個任務的特征圖融合在一起,以進行更緊密的聯合學習。
采用級聯結構的LISU網絡模型,其語義分割結果嚴重依賴于分解網絡的效果,而且同時學習恢復反射信息和分割反射圖加重了特征提取器的負擔。LISU也沒有考慮到低光照環境下噪聲的影響。圖2[1]顯示了LISU的錯誤實例,其中第一行是反光材料造成的白點,第二行顯示了邊界上的故障分割。(a)為輸入的低照度圖像;(b)為LISU-decomp輸出的反射圖;(c)和(d)分別為LISU-joint輸出的恢復反射圖和分割圖;(e)是分割標簽。紅色矩形表示感興趣的區域(參見電子版)。如圖2所示,即使是LISU恢復后的反射圖依然還有不小的噪聲,而且由于光照不均勻,部分反射材料在局部圖像中會引起過度曝光,此時圖像部分的局部信息丟失嚴重。由于局部信息的失真,在可見度較低區域的邊緣上甚至還可能出現分割故障。
1.2 風格遷移
風格遷移被用于研究圖像內容以外的風格。文獻[16]的研究表明,特征圖所映射的Gram矩陣可以作為圖像風格的表示,并能夠通過近似對應的Gram矩陣將圖像的風格遷移到另外一張圖像上。Luan等人[17]提出的攝影風格轉換的深度學習方法也進一步證明了Gram矩陣的有效性。李鑫等人[18]提出了一個內容語義和風格特征匹配一致的風格遷移網絡。特征圖的Gram矩陣記為G∈RApC×C,用來表示特征圖C個通道之間的相關性。對于G中的每個元素Gi,j=aTiaj,表示第i個特征圖通道與第j個特征圖通道之間的相關性,其中ai與aj分別表示第i與第j個特征圖通道的向量表示。分別計算基準圖像和目標風格圖像的特征圖的Gram矩陣,以兩個圖像的Gram矩陣的差異最小化為優化目標,不斷調整基準圖像,使風格不斷接近目標風格圖像。
1.3 域自適應
域自適應方法是遷移學習的一種,通常用來解決不同領域數據分布不一致的問題。本文工作也與域自適應相關,因為兩者都將模型適應于未標記的目標域。語義分割的域自適應方法可以根據執行自適應的級別進行分類,分為輸入級別[19]、特征級別[10]和輸出級別[20]。本文模型SFIS特別與學習域不變特征的特征級自適應有關。該類別中的大多數現有方法的主要目標是希望特征提取器針對源域和目標域數據集所提取的特征盡可能相近,鑒別器用于判斷提取的特征屬于哪個域,將鑒別器與分割模型一起訓練,以便鑒別器最大化源域和目標域之間的差異,而分割模型學習最小化差異。SFIS與這些方法有類似的想法,但正如展示的那樣,在SFIS中是通過縮小光照風格信息之間的差距來使特征提取器學習到光照不變特征。
2 噪聲指導下過濾光照風格的低光照分割模型
本文模型基于域自適應方法,對圖像中不同的噪聲區域采用不同距離的信息交互,并通過光照過濾器從圖像的整體風格中提取光照風格并學習區分它們。語義分割網絡和光照過濾器模塊會交替訓練,最終使編碼器學習到光照不變特征。
2.1 模型總體架構
現有的LISU模型并沒有考慮到低光照環境下噪聲的影響,由于光照不均勻,部分反射材料在局部圖像中會引起過度曝光,此時圖像部分的局部信息丟失嚴重。針對這類問題,本文引入了長短距離分支模塊的方法,對圖像中不同的噪聲區域采用不同距離的信息交互,在高噪聲區域采用長距離的自注意力操作,在低噪聲區域采用短距離的卷積操作,從而避免高噪聲區域帶來的不利影響。
另一方面,由于LISU網絡模型采用的是級聯結構,其語義分割結果嚴重依賴于分解網絡的效果,而且同時學習恢復反射信息和分割反射圖加重了特征提取器的負擔。本文基于域自適應方法,使語義分割網絡最小化不同域間的風格差異。以往基于風格遷移的網絡模型往往是直接對圖像整體風格進行遷移,但圖像的整體風格也會受到光照以外因素的影響,所以這種方式會導致部分的內容信息被更改。針對這個問題,本文采用將光照視為風格的方法,設計了一個光照過濾器來過濾大部分內容信息,從圖像的整體風格中提取光照風格,從而減小風格遷移中圖像內容信息上的損失。
SFIS模型主要包括語義分割網絡中的長短距離分支模塊和光照過濾器模塊,其中,長、短距離分支分別基于Transformer結構和卷積殘差塊。如圖3所示,上下兩部分語義分割網絡的權重參數共享,網絡在訓練階段的輸入數據為一對圖像,低光照圖像Ia與正常光照圖像Ib。對于其中給定的一幅輸入圖像I∈RApH×W×3,本文首先計算圖像I對應的信噪比圖S∈RApH×W,將S作為掩碼來遮蔽高噪聲的區域塊,從而指導長距離分支中自注意力的計算,還會作為權重來指導長、短距離分支的特征融合。將圖像Ia與Ib分別輸入上下兩部分分割網絡后,得到的第一層特征圖會分別進入長距離分支和短距離分支。對于融合后的特征和其下一層特征(圖3中的橙色虛線框,參見電子版),將計算這兩層特征圖的Gram矩陣表示圖像的整體風格,并將其上三角部分的向量表示ua,l、ub,l作為光照過濾器Fl中第l層的輸入,來提取光照風格信息fa,l、fb,l。光照過濾器學習將不同的光照風格信息區分開,而語義分割網絡不斷縮小不同光照風格信息的差距,分別對應圖3中的LFl與Llfsm。光照過濾器模塊和語義分割網絡會交替進行訓練,最終使其編碼器學習到光照不變特征,在測試階段只依靠語義分割網絡。
2.2 長短距離分支
在低光照圖像的不同區域中,噪聲和可見度等特征差距較大,對于極暗區域,由于相鄰的局部區域可見度較弱且多為噪聲,局部信息不足以分割像素,而長距離中光照較好的區域中仍然可以有合理的特征信息。例如在圖2的中下方極暗區域很難辨別出物體,但旁邊的床頭墻壁等特征信息有利于識別出該物體的類別。在圖2中的過度曝光區域也是同理。所以需要自適應地考慮低光照圖像中的不同區域,而Transformer結構通過全局自注意力機制能很好地捕獲長距離的依賴關系,這在許多的高層級任務[21,22]和低層級任務[23,24]中都得到了證明。低光照圖像中低信噪比的區域往往信息丟失嚴重,本文在信噪比低的區域中,利用長距離分支考慮長距離范圍內的非局部圖像信息進行交互;在信噪比較高區域中,利用短距離分支考慮短距離范圍內的局部圖像信息就足夠了。信噪比也會作為權重,高噪聲區域的權重將會降低,從而避免高噪聲區域帶來的不利影響。
如圖4所示,首先需要根據式(1)計算輸入圖像I∈RApH×W×3的信噪比圖S∈RApH×W,將其按照特征圖F∈RAph×w×C的大小進行重新調整后得到S′∈RAph×w,進一步分解成塊(與特征圖F相同的分解方式)。然后根據式(2)利用閾值將得到的值視為掩碼,遮蔽掉極低信噪比的塊,從而根據式(4)利用信噪比圖S′指導長距離分支中自注意力的計算,進一步根據式(6)指導長短距離分支的特征融合。在長距離分支中,需要將特征提取器得到的第一層特征圖F分解成塊。假設每一個塊的大小為p×p,那么特征圖F可以分解為m塊,m=(h/p)×(w/p),即Fi∈RApp×p×C,i∈{1,…,m}。這些塊將會被進一步拉平為一維向量,并被輸入到Transformer進行自注意力的計算,由于自注意力計算中輸出的塊序列維度大小與輸入序列的維度大小相同,所以將輸出的序列重新拼接為特征圖Fl∈RAph×w×C。對于短距離分支,采用的就是基本的殘差塊,其輸出特征與輸入特征的大小也會保持相同,即Fs∈RAph×w×C。特征圖Fl,Fs則根據式(6)融合為特征圖Fm。
2.2.1 信噪比圖
如圖4所示,網絡模型需要先估計輸入圖像的信噪比圖S。與以往傳統的去噪方法[25,26]類似,本文將噪聲視為空間域上相鄰像素之間的不連續過渡。噪聲分量可以建模為噪聲圖像與對應無噪聲圖像之間的距離。信噪比圖像的具體計算方法如下:對于給定的一幅輸入圖像I∈RApH×W×3,首先計算圖像I的對應灰度圖,即Ig∈RApH×W,然后根據式(1)計算信噪比圖S∈RApH×W。
其中:denoise代表傳統的去噪方法,本文采用均值濾波;abs代表絕對值;N是估計的噪聲圖。
2.2.2 信噪比圖指導自注意力
在原始的Transformer結構中,自注意力的計算是在所有塊中進行的,所以不管圖像區域的噪聲水平如何,都會與之計算相應的注意力。但在低光照圖像的不同區域中,特征差距較大,極低信噪比的區域往往已經被噪聲嚴重污染,所以極低信噪比區域的信息是不準確的。本文用信噪比圖來指導自注意力的計算。
圖5顯示了信噪比圖指導自注意力的計算過程。給定一張輸入圖像I∈RApH×W×3,計算得到的對應信噪比圖為S∈RApH×W。首先需要將信噪比圖S重新調整大小S′∈RAph×w,從而使信噪比圖能夠與特征圖F相匹配。然后同樣地,按照分解特征圖F的方式,將S′分解為m塊,再計算每個塊中信噪比的平均值,即Si∈RAp1,i∈{1,…,m},將這些值拼接為一個向量Sv∈RApm。向量Sv在Transformer的自注意力計算中主要起到掩碼的作用,從而避免極低信噪比區域中噪聲的影響。Si中第i個元素的掩碼值為
其中:s是設置的閾值。然后將Sv復制m份,堆疊成一個矩陣S′v∈RApm×m。在自注意力計算最后的softmax部分,利用掩碼將信噪比極低的塊過濾掉。假設多頭自注意力中的頭數為B,那么Transformer中第i層中的第b個頭自注意力的計算Attentionb可以表示為
將特征圖F拆分得到的Fi∈RApp×p×C,i∈{1,…,m}打平成一維向量,LN為歸一化層,通過式(5)即可得到q,k,v∈RApm×(p×p×C)。
q=k=v=LN([F1,…,Fm])(5)
2.2.3 信噪比圖指導特征融合
對于長距離分支得到的特征圖Fl∈RAph×w×C和短距離分支得到的特征圖Fs∈RAph×w×C,本文將信噪比圖作為一種先驗知識,指導這兩個分支的特征融合。對于重新調整大小的信噪比圖S′∈RApH×W,進一步將其值歸一化到[0,1],并將歸一化后的S′作為權重來融合Fl和Fs。長距離分支與短距離分支特征圖的融合可以通過式(6)計算。
Fm=Fs×S′+Fl×(1-S′)(6)
2.3 光照過濾器
Gram矩陣可以作為圖像的風格表示已經在許多工作中得到了證實[16,17]。但只有在理想情況下,風格才獨立于其內容,而圖像的整體風格也會受到光照以外的因素甚至圖像內容的影響,如果直接更改圖像的整體風格,會使圖像的內容信息產生一定程度的損失。低光照圖像與正常光照圖像的主要差別來自于光照,本文將光照視為風格,從整體風格中進一步提取光照風格信息,只對光照風格進行遷移修改,從而減小圖像內容信息上的損失。值得注意的是,光照過濾器模塊不是直接將特征圖作為輸入,而是將特征圖的整體風格表示作為輸入,通過過濾掉圖像的大部分內容信息,更專注于圖像的風格。這樣,風格表示可以看做是編碼本文先驗知識的硬連線層[27]。
將特征圖的Gram矩陣記為G∈RApC×C,用來表示特征圖C個通道之間的相關性。對于G中的每個元素Gi,j=aTiaj,表示第i與第j個特征圖通道之間的相關性,其中ai與aj分別表示第i與第j個特征圖通道的向量表示。由于Gram矩陣是對稱的,所以只需要將Gram矩陣的上三角部分的向量表示作為光照過濾器模塊的輸入。
如圖6所示,光照過濾器中的兩層模塊由包含Leaky ReLU激活函數[28]的多層感知器實現。分割網絡編碼器對于低光照圖像Ia與正常光照圖Ib所提取的特征圖(圖3中的橙色虛線框),將對應層所計算的Gram矩陣的上三角部分的向量表示ua,l、ub,l作為該模塊的輸入,嘗試從整體風格中進一步提取與光照相關的風格信息fa,l、fb,l。光照過濾器模塊根據式(8)中的LFl損失學習將不同光照條件的風格信息區分開,而語義分割模型在訓練過程中根據式(10)中的 Llfsm(fa,l,fb,l)損失縮小不同光照風格信息的差距,最終使語義分割網絡的編碼器學習到光照不變特征。
用Ia、Ib來表示小批量數據中的一對輸入圖像,Fl表示光照過濾器中第l層模塊,ua,l、ub,l分別表示對應Gram矩陣上三角部分的向量表示,Gram矩陣是由輸入圖像的對應層特征圖所計算得到的。那么對應圖像的光照風格信息可以由式(7)得到。
fa,l=Fl(ua,l),fb,l=Fl(ub,l)(7)
光照過濾器的作用是通過得到的光照風格信息fa,l與fb,l,讓分割網絡了解到輸入圖像Ia、Ib在光照條件方面的不同。為此,光照過濾器會學習光照風格信息的映射空間,使不同光照條件的光照風格信息彼此遠離。對于給定小批量數據中每個圖像對的集合P,光照過濾器中每個層Fl的損失函數設計如下:
其中:m是超參數,代表邊界;d(·)代表余弦距離。
2.4 分割網絡損失函數
語義分割網絡使用一對圖像進行訓練,包括一張低光照圖像和一張正常光照圖像,分別用于語義分割、光照不變性的學習和不同光照但同一場景下的一致性分割預測。
2.4.1 分割損失
對于語義分割的學習,本文采用像素級的交叉熵損失函數應用于單個圖像。具體來說,分割損失由式(9)計算。
其中:pci表示預測的像素i屬于類別c的概率;M是定義的類別集;n是像素的總個數。
2.4.2 光照風格匹配損失
對于給定小批量數據中的一個圖像對,分割網絡學習使光照風格信息之間的距離盡可能接近,從而使特征提取器學習到光照不變特征,所以光照風格損失與光照過濾器所得到的光照風格信息相匹配。分別用fa,l與fb,l來表示光照過濾器每個層Fl所得到的光照風格信息,那么光照風格損失可以通過以下損失進行計算:
其中:dl和nl分別代表光照風格信息的維數和特征提取器中第l層特征的空間大小。
2.4.3 一致性損失
同一場景下的低光照圖像和正常光照圖像之間有高度重疊的語義信息,所以對應語義分割的預測結果應當是盡量相同的,所以本文利用損失函數鼓勵網絡模型預測相同的分割圖。用Pai∈RApc和Pbi∈RApc分別表示針對圖像的每個像素i,分割網絡所預測的類別概率向量,其中c為類別數。一致性損失強調所有像素Pai和Pbi的一致性,可以通過下面的損失函數來計算:
其中:KLdiv(·,·)代表KL散度。一致性損失與式(10)光照風格匹配損失具有相同的目標,但是在網絡模型的預測層,通過更強制的手段學習光照不變特征,鼓勵模型預測相同的分割圖,更積極地對齊兩種域。而且一致性損失與式(9)中的分割損失是彼此互補的,因為式(11)中的概率分布進一步提供了分割損失所使用的類標簽之外的信息。
最終,分割網絡的整體損失如下:
L=Lce+λfsmLlfsm+λconLcon(12)
其中:λfsm和λcon是用來平衡的超參數。
3 實驗與結果
3.1 數據集
LLRGBD[1]是一個低光照室內場景數據集,由一個大規模合成數據集LLRGBD-synthetic和一個稱為LLRGBD-real的小規模真實數據集組成,針對每一個圖像對,還提供了相應的深度圖。數據集LLRGBD包含室內場景的一對低光照和正常光圖像,其中共有32個室內場景,真實標簽共包括13個類別。合成的LLRGBD-synthetic數據集中總共包含了29 K×2張圖像,圖像分辨率為640×480,并按90%~10%的比例隨機分為訓練集和測試集。真實數據集LLRGBD-real中共包含515對640×480分辨率的低/正常光照圖像,其中使用415對圖像作為訓練集,100對圖像作為測試集。
3.2 實驗細節
本文利用PyTorch[29]實現了網絡模型的整體框架,并在具有Quadro RTX 8000 GPU的Linux系統上進行了訓練和測試。在模型的訓練階段,將所有圖像的大小調整為320×240,并且沒有采用任何的數據增強。對于LLRGBD-synthetic數據集,模型訓練50個epoch,在LLRGBD-real數據集上訓練300個epoch。
為了避免光照過濾器冷啟動,前100輪只訓練光照過濾器,然后對于每個小批量的數據交替訓練語義分割網絡和光照過濾器。整體網絡結構采用ResNet-101[15]為骨干網的RefineNet-lw[30]作為本文的分割網絡,將兩層特征圖的Gram矩陣作為光照過濾器的輸入,分割網絡由SGD訓練,動量為0.9,編碼器的初始學習率為6E-4,解碼器為6E-3,兩個學習率都通過0.5次多項式衰減降低。兩個光照過濾模塊使用Adamax[31]進行訓練,初始學習率分別為5E-4和1E-3,將光照風格信息的維度設置為64。超參數λfsm、λcon和m分別設置為5E-7、1E-4和0.1。
3.3 定量分析
表1、2分別在LLRGBD-synthetic和LLRGBD-real數據集上比較了本文模型和現有方法的定量結果。本文在LLRGBD-synthetic數據集上與SegNet[32]、U-Net[33]、LISU[1],還有域適應方法FIFO[13]和SePiCo[34]的分割精度進行了比較,進一步在LLRGBD-real數據集上還與DLv3p[35]和其變體DLv3p-joint的分割精度進行了比較。其變體DLv3p-joint采用LISU的改進策略,通過聯合學習進一步恢復反射圖,詳細信息可以參考文獻[1]。本文的主干網絡為基于ResNet-101的RefineNet-lw。FIFO模型的主干網絡采用的也是RefineNet-lw,對于SePiCo,本文采用的是 ResNet-101實現的DeepLab-V2作為主干網絡SePiCo(DistCL)的對比模型。為了比較的公平性,對于FIFO模型,并沒有進一步采用合成的低光照圖像作為補充域。
如表1、2所示,本文方法在兩個數據集上的性能都優于現有的模型。評估指標主要包括總體精度 (OA)、平均精度(mAcc)、平均交并比(mIoU)。LISU模型是當前LLRGBD數據集上性能最好的模型,由于SFIS采用的是域自適應方法,本文進一步比較了最新的兩種域自適應模型FIFO和SePiCo。實驗結果表明,在低光照環境下的圖像上,SFIS優于之前的方法。相較于較好的域自適應方法FIFO,本文模型SFIS在LLRGBD-synthetic數據集上的mIoU提升了2.9%,在LLRGBD-real數據集上的mIoU提升了2.6%。這些提升很可能是由于SFIS進一步利用了低光照圖像中的噪聲信息。
本文還進一步與在合成數據集LLRGBD-synthetic上預訓練的LISU模型進行了比較,最終在LLRGBD-real數據上的定量結果如表3所示。本文預訓練的SFIS模型在真實數據集LLRGBD-real上的結果遠優于LISU (pre-trained)模型,OA、mAcc和mIoU分別提升了10.1%、11.5%、14.6%。本文的預訓練模型相較于原模型的mIoU提升了2.6%。
表4進一步列出了一些網絡的詳細定量比較,包括每個類別的IoU以及整體的mIoU,其中最好的結果用粗體顯示。SFIS在墻壁、椅子、書籍等物體上的分割精度要明顯優于其他模型。
3.4 定性結果
本節可視化了部分對比模型的語義分割結果,包括當前LLRGBD數據集上表現最好的模型LISU,以及域自適應方法中較好的模型FIFO。圖7中顯示了定性比較的結果,可視化了它們與本文方法的預測圖。雖然在網絡模型的推理階段并不需要正常光照圖像,但為了更好地可視化比較,圖中依然顯示它們。對于低光照圖像中物體的語義分割效果,LISU模型的輸出結果還是相對較差的,FIFO模型的輸出結果相比前者來說更平滑一些,但在物體邊緣部分的擬合效果還不夠完善。SFIS的語義分割預測圖在物體邊緣部分,比如椅子、家具、杯子等較小物體的邊緣,其擬合效果要明顯優于前兩個模型。
3.5 消融實驗
通過從模型中刪除不同的組件,考慮了幾種消融設置。“ours w/o L”表示去掉了長距離分支,分割網絡中只保留卷積操作;“ours w/o S”表示去掉了短距離分支,保留長距離分支和信噪比圖指導的自注意力操作;“ours w/o A”表示去掉了信噪比圖指導的自注意力操作;“ours w/o IF”表示去掉了光照過濾器,只用分割網絡進行訓練和測試。表5總結了相應消融結果,與所有的消融設置相比,完整框架設置在三個指標上都取得了最高分數。實驗結果顯示了信噪比圖指導的自注意力操作、長短距離分支和光照過濾器的有效性。
4 結束語
本文針對室內低光照環境下的語義分割進行了研究,提出了一種新的解決方案。在低光照圖像中,不同區域擁有不同的噪聲,為了避免高噪聲區域的影響,本文采用了兩個不同距離的分支操作。利用信噪比圖指導長/短距離分支的特征融合,進一步指導長距離分支中自注意力計算,只讓高信噪比的區域參與自注意力計算。另一方面,提出了光照過濾模塊,從圖像的整體風格中進一步提取光照風格信息,通過減小不同光照風格信息之間的差距和分割損失來訓練分割網絡,從而使分割網絡學習光照不變特征。實驗表明,本文方法在低光照環境下取得了較好的分割效果。接下來,本文會在更多更具有代表性的數據集上進行測試,并調整網絡模型,探索高噪聲區域自注意力的計算方式。
參考文獻:
[1]Zhang Ning,Nex F,Kerle N,et al.LISU:low-light indoor scene understanding with joint learning of reflectance restoration[J].ISPRS Journal of Photogrammetry and Remote Sensing,2022,183:470-481.
[2]付延年.面向自動駕駛的可見光和紅外圖像語義分割算法研究[D].杭州:浙江大學,2021.(Fu Yannian.Research on visible and infrared images semantic segmentation for autonomous vehicles[D].Hangzhou:Zhejiang University,2021.)
[3]Liu Risheng,Ma Long,Zhang Jiaao,et al.Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:10556-10565.
[4]Xu Ke,Yang Xin,Yin Baocai,et al.Learning to restore low-light images via decomposition-and-enhancement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2278-2287.
[5]Xu Xiaogang,Wang Ruixing,Fu C W,et al.SNR-aware low-light image enhancement [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:17693-17703.
[6]Sakaridis C,Dai Dengxin,Van Gool L.Map-guided curriculum domain adaptation and uncertainty-aware evaluation for semantic nighttime image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,44(6):3139-3153.
[7]Wu Xinyi,Wu Zhenyao,Guo Hao,et al.DANNet:a one-stage domain adaptation network for unsupervised nighttime semantic segmentation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:15764-15773.
[8]Dai Dengxin,Gool L V.Dark model adaptation:semantic image segmentation from daytime to nighttime[C]//Proc of the 21st International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2018:3819-3824.
[9]Gao Huan,Guo Jichang,Wang Guoli,et al.Cross-domain correlation distillation for unsupervised domain adaptation in night time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:9903-9913.
[10]Wang Haoran,Shen Tong,Zhang Wei,et al.Classes matter:a fine-grained adversarial approach to cross-domain semantic segmentation[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:642-659.
[11]Isobe T,Jia Xu,Chen Shuaijun,et al.Multi-target domain adaptation with collaborative consistency learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:8183-8192.
[12]張桂梅,潘國峰,劉建新.域自適應城市場景語義分割 [J].中國圖像圖形學報,2020,25(5):913-925.(Zhang Guimei,Pan Guofeng,Liu Jianxin.Domain adaptation for semantic segmentation based on adaption learning rate[J].Journal of Image and Gra-phics,2020,25(5):913-925.)
[13]Lee S,Son T,Kwak S.FIFO:learning fog-invariant features for foggy scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:18889-18899.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[15]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[16]Gatys L A,Ecker A S,Bethge M.Image style transfer using convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2414-2423.
[17]Luan Fujun,Paris S,Shechtman E,et al.Deep photo style transfer[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2017:4990-4998.
[18]李鑫,普園媛,趙征鵬,等.內容語義和風格特征匹配一致的藝術風格遷移[J].圖學學報,2023,44(4):699-709.(Li Xin,Pu Yuanyuan,Zhao Zhengpeng,et al.Content semantics and style features match consistent artistic style transfer[J].Journal of Graphics,2023,44(4):699-709.)
[19]Pizzati F,Charette R,Zaccaria M,et al.Domain bridge for unpaired image-to-image translation and unsupervised domain adaptation[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2020:2990-2998.
[20]Luo Yawei,Zheng Liang,Guan Tao,et al.Taking a closer look at domain shift:category-level adversaries for semantics consistent domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2507-2516.
[21]Han Kai,Wang Yunhe,Chen Hanting,et al.A survey on vision transformer[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(1):87-110.
[22]Khan S,Naseer M,Hayat M,et al.Transformers in vision:a survey[J].ACM Computing Surveys,2022,54(10):1-41.
[23]Chen Hanting,Wang Yunhe,Guo Tianyu,et al.Pre-trained image processing transformer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12299-12310.
[24]Wang Zhendong,Cun Xiaodong,Bao Jianmin,et al.Uformer:a general U-shaped transformer for image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:17662-17672.
[25]Buades A,Coll B,Morel J M.A non-local algorithm for image denoi-sing[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:60-65.
[26]Dabov K,Foi A,Katkovnik V,et al.Image denoising with block-matching and 3D filtering[M]//Nasrabadi N M,Rizvi S A,Dougherty E R.Image processing:algorithms and systems,neural networks,and machine learning.[S.l.]:SPIE,2006:606414.
[27]Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1):221-231.
[28]Maas A L,Hannun A Y,Ng A Y.Rectifier nonlinearities improve neural network acoustic models[C/OL]//Proc of the 30th International Conference on Machine Learning.(2013).https://ai.stanford.edu/%7Eamaas/papers/relu_hybrid_icml2013_final.pdf.
[29]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:article No.721.
[30]Nekrasov V,Shen Chunhua,Reid I.Light-weight RefineNet for real-time semantic segmentation [EB/OL].(2018-10-08).https://arxiv.org/abs/1810.03272.
[31]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[32]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[33]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[M]//Navab N,Hornegger J,Wells W,et al.Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[34]Xie Binhui,Li Shuang,Li Mingjia,et al.SePiCo:semantic-guided pixel contrast for domain adaptive semantic segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(7):9004-9021.
[35]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:833-851.