楊子軒,肖 嵩,2,董文倩,曲家慧
(1.西安電子科技大學 綜合業務網理論及關鍵技術國家重點實驗室,陜西 西安 710071;2.北京電子科技學院 電子與通信工程系,北京 100070)
紅外目標檢測作為目標檢測的子領域,由于其獨特的成像方法,在夜間[1],醫學掃描[2],電力監控[3]等特定場景有非常好的應用效果。區別于可見光檢測,紅外圖像有紋理信息更少,以及分辨率差、對比度低、信噪比低、視覺效果模糊、灰度分布與目標反射特征無線性關系等特點,導致紅外目標檢測的方法性能較差。
近些年實現的一些紅外目標檢測算法,如基于小波的方法[4],基于導數熵的方法[5],基于導數差異度量的方法[6],基于多尺度灰度差的特定數理統計的方式[7]去獲取更好的檢測效果,搭配如模態閾值降噪的方式[8],雙樹小波去噪的方法[9],自動編碼器[10]的方式以改善輸入圖片質量獲取更好的檢測性能。對于通常的目標檢測方法來說,基于學習的檢測算法主要分為單階段和雙階段的方法,單階段如基于回歸的方法,yolo系列[11],基于關鍵點檢測等方法[12],兩階段如基于RCNN的檢測算法等[13]。在融合其他信息的紅外檢測任務上,可以通過可見光和紅外圖像做特征融合的方式進行檢測[14],通過多模態的方法補充紅外圖像紋理細節缺失的問題[15],或者通過可見光訓練,紅外圖像微調網絡的方式,補充紅外檢測的紋理細節,但由于紅外數據集較少,近些年相比于可見光檢測算法,基于深度學習的紅外檢測算法研究較少。
紅外圖像由于其紋理細節弱的特點,筆者考慮使用注意力機制以增強紅外的圖像表征能力。注意力機制由于其易于嵌入已有網絡的特點,近年來在分類,檢測,分割等視覺任務上收到廣泛的應用,作為一種即插即用提升模型表征能力的方法,可以緩解由于紅外成像方法導致的空間信息含量較少的情況,可起到增強紅外圖像特征表達,同時起到過濾紅外成像噪聲的作用[16]。在注意力機制的設計上,通常設計思路分為通道注意力機制和空間注意力機制。通道注意力機制通常使用全局池化或卷積等方式將信息歸納到通道數目大小上,再通過全連接層捕捉通道的高階非線性關系,如SENet[17],SKNet[18]引入縮減和擴張的方式,通過縮減方式降低參數量,提升泛化能力以提升網絡性能,如ECANet[19],通過全連接分組正則的方式提升模型表現,這種思路通常從全局或局部的通道關系獲取每個通道的注意力權重。空間注意力機制通過通道含有的空間信息進行權重抽取,通常會與通道注意力機制相結合,如NL-Net[20]通過通道間像素的關系獲取重要性差異,再通過Softmax將對應通道的權重乘在原圖上,GCNet[21]將獲取通道長依賴的信息與通道注意力方法相結合,CBAM[22]使用多種全局池化方式進行特征融合,并在串行解耦結構上將通道和空間維度的注意力機制結合在一起,Dual Attention Network[23]使用并行方式分別計算通道注意力和空間注意力的相關關系來捕捉對應的權重參數,Double Attention Network[24]先獲取一部分的重要特征信息,再將這些特征表達做外積建模高階的通道關系,TripleNet[25]將通道,高度,寬度的注意力機制解耦開來,并基于全局池化的方式進行優化,在輕量化的設計上有較好的性能提升。還有一些特定方式的注意力機制設計方法,如FCANet[26]是基于頻率的注意力機制設計,從離散余弦變換的角度對SENet進行了信息補充等。可以看到,注意力機制的演變方式是由簡單的通道注意力,直到對空間注意力的細致建模,再到將具體模塊解耦的方式進行演變的。
筆者提出在紅外檢測場景下基于注意力機制的Cascade-RCNN算法。其主要貢獻如下:提出顯隱性通道交互的注意力機制,從顯性和隱性兩個角度進行通道關系的建模,用因子分解機[27]補充全連接層引出的隱性建模方式;同時提出一種局部池化方式,替換常用的全局池化方式,以獲取更多的紅外空間信息;在空間維度使用多尺度的卷積方式,提取不同感受野的目標信息;由于空間注意力方式是在局部注意力機制后進行的,因此整個注意力機制是輕量化的設計。相比于常見的注意力機制方法,在不引入過多參數量的同時,使得整個網絡的檢測性能有一定性能的提升。
筆者提出的引入注意力機制的檢測算法是在Cascade RCNN的骨干網絡上添加注意力機制的方法,其整體框架如圖1所示。檢測方法沿用兩階段方法,首先使用骨干網絡抽取高階特征,區域建議網絡召回可能存在目標的位置,再經過頭部網絡將邊框和類別預測頭分開,同時使用不同的IOU超參數,用逐層提高IOU閾值進行預測計算損失,改善預測邊框的質量,紅外場景的小目標通常較多。因此,筆者選擇了Cascade-RCNN檢測算法作為基準算法,并引入注意力機制提升網絡檢測性能。

圖1 Cascade-RCNN算法框架圖
筆者設計了一種顯隱性通道交互的解耦注意力機制(Factor Decoupled Attention,FDA),其結構分為全局通道注意力,局部通道注意力和空間注意力。在全局通道注意力上引入因子分解機的方法補充通道的顯性建模信息;在局部通道注意力上,提出了一種局部池化方法;對于空間注意力,引入多尺度卷積的方法,通過不同感受野以增進對不同大小目標的特征提取能力;在整理結構上采用串行解耦的結構,將通道注意力和空間注意力分解,并從寬度和高度分解,將多種池化方式融合,從更細粒度的建模方式上獲取高質量的信息表達。

圖2 顯隱性通道交互的解耦注意力機制結構圖
在機器學習領域,特征二階非線性特征是一種非常重要的交叉特征,可以直接反饋特征間的緊密程度;在通道注意力機制上,通道二階關系,即表征特征二階關系;文中通過因子分解機引入一種顯性建模通道關系的方法補充全連接層隱性建模不充分的問題。
因子分解機(Factor Machine,FM)是一種數學關系提取顯性二階特征交叉的方法,用于建模通道間的二階顯性建模,在顯隱性的特征建模方式下,當輸入為x,下層單節點為y時,有以下的關系:
(1)
其中,xi表示輸入對應的通道,n表示輸入通道的數目,wixi可以簡單表示全連接層的隱性通道交互方式,wijxixj表示顯性通道交互方式。對顯性建模通道關系進行建模時,空間復雜度至少需要O(n2)個數目的權重參數,而當使用單權重向量時,可將空間復雜度降低至O(n)。因子分解機常會將特征表示為k維的空間表示,進行向量級別的特征交互;而在通道關系計算中如果將二階顯性交叉的結果通過相加統一到一個維度,容易出現特征表達不充分的問題,因此將因子分解機遷移到注意力機制建模中時,引入超參數k,用以控制顯性交叉特征維度的充分表達,使用權重向量vi替換wi。二階建模結點信息表示如下:
(2)
對于FM中獨立節點,若按xi與xj的逐個計算,從時間復雜度上是O(n2),會造成比較大的計算負擔,因此將FM獨立項計算如下:
(3)
將FM中關于xixj的結構分解表示如下:
(4)
在式(4)中,分解后發現xi、xj的權重項是等價的,整理后公式如下:
(5)
通過上述的等價計算公式,將空間復雜度和時間復雜度從O(n2)均降低到了O(n)的程度,使得顯性通道特征交叉在理論上產生了可能。
在通道的隱性特征交互方法中,筆者在測試SENet,ECANet等方法的過程中,發現縮減,擴張以及組正則化的方法會使得指標不穩定甚至下降,因此文中采用SAM注意力機制方法作為隱性特征交互的基本方法。其結構如圖3(a)所示,即在縮減,擴張的卷積方式中加入了一層強化抽取特征的卷積層,基本卷積結構組成為卷積層、批量正則化層和激活函數;由于SENet縮減過程的存在,引入較少參數量的同時,提升了注意力機制的泛化效果。

(a) SAM結構圖
在顯隱性通道交互方式上,文中進行了多種實驗,將原始輸入通道信息與其他通道的交互信息按照每個通道的交互特征加到單個通道上,也嘗試將因子分解機的結果直接引入到輸出部分進行相加融合。經過多次實驗,文中發現先用因子分解機先顯性抽取一部分的通道關系表征,再將顯性特征與經過全連接層的隱性特征結合在一起,將信息歸納到同一空間維度下的方式實驗效果較好。單獨使用顯性特征的以及采用顯隱性交互方式的網絡結構如圖3(b)和圖3(c)所示。
為建模空間注意力機制且輕量化建模,同時提取更多紅外圖像信息,文中在空間注意力機制前引入局部通道注意力機制(Local Channel-wise Attention,LCA)以緩解全局池化帶來的信息量極度下降的情況,同時將寬度和高度進行解耦,單獨從寬高兩個維度進行更細粒度的通道建模方式,公式如下:
pi=fpermute(x,n,m,l) ,
(6)
fLCA=fconv([favg(fsplit(pi)),fmax(fsplit(pi))]) ,
(7)
其中,pi表示解耦方式后的特征矩陣,n,m,l表示置換的維度,具體解耦方式將C(通道維度),H(高),W(寬)置換為H,C,W和W,H,C,并在后兩個維度進行局部池化計算。計算過程中,首先將輸入特征分解為s個子矩陣,在每個子矩陣上進行全局池化;這時矩陣寬高維度為s,再引入一層卷積核大小為s的卷積層,將整體維度統一到1的維度上。計算過程如圖4所示。

(a) 全局池化方法
空間注意力機制使用卷積層以抽取矩陣像素的非線性關系,通過引入不同步長,補零或空洞方式等獲取與輸入矩陣相同大小的權重矩陣,表示在空間信息上的不同像素重要程度。在紅外目標檢測任務中,由于其特定應用場景,目標的尺度分布差異性更大,因此在這里引用多尺度卷積的方式進行優化。conui表示不同卷積核的卷積計算,公式如下:
(8)
筆者采用的數據集是公開的紅外FLIR數據集[28],同時包括熱圖像和無注釋的RGB圖像。為了適配紅外場景的注意力機制效果,實驗只使用紅外圖像,共14 452幀,119 491個目標,有60%的日間場景和40%的夜間場景,包括晴到多云等多種天氣的情形,且包括人、汽車等多種檢測目標;評估算法的方式以COCO的評價指標為標準評估算法性能,在FLIR數據集,小目標約占據了58.3%,中目標約占據了35.7%,中小目標數目約占有數據集整體的94%。筆者使用平均精確率(mean Average Precision,mAP)作為主要的評價指標,并在骨干網絡使用ILSVRC進行預訓練以緩解檢測網絡過擬合的問題。
實驗過程共包含注意力機制空間復雜度,注意力機制對比實驗,不同骨干網的對比實驗,不同超參數的對比實驗,共4個部分;從多個角度驗證提出方法在紅外檢測任務上的有效性。
筆者在理論上分析了算法的空間復雜度,其中FDA-light表示只使用局部通道和空間注意力,FDA-SAM,FDA-FM,FDA-SFAM表示在局部通道和空間注意力使用全局的方式下,對比FM的融合實驗的對照,FDA表示使用所用模塊的結構。C表示通道數目,γ表示縮減系數,k表示空間注意力機制的卷積核大小,g表示ECANet中分組維度,l表示因子分解機中的維度,s表示局部通道注意力機制的分割維度,其中k,g,l,s,γ遠遠小于C,在表1中,對于FDA-light,空間復雜度遠遠小于SENet的,FDA與SAM參數量基本相同,同時添加的FM時間空間復雜度都為O(n),模型的FPS基本不變。

表1 注意力機制空間復雜度表
在驗證算法設計有效性的過程中,在resnet50的骨干網上測試多種注意力機制在Cascade RCNN上的表現,如表2所示。對SENet進行了多種縮減系數調參實驗。對于紅外目標檢測任務,ECANet表明通道注意力機制效果較差,甚至由于表征能力不夠準確而起到反向的作用;GCNet表明通道注意力和空間注意力機制相結合的方法的有效性;CBAM表明解耦的串行結構對特征提取起到輔助作用。

表2 注意力機制對比實驗表

圖5 夜間道路紅外目標識別結果對比圖
FDA-light表示只使用局部通道注意力和空間注意力機制的版本,在只引入0.01 M參數的情況下,相比于Cascade-RCNN提升了約1.6%的性能。為了獲得更高的性能,FDA在FDA-light的基礎上添加了SEFM模塊,相比Cascade-RCNN提升了約1.9%。筆者也同時嘗試了全連接層和FM的效果對比,在FDA-SFAM中發現,FM和全連接層確實提供了不同維度的信息,彌補了獨立隱性通道交互方法的信息單一性。
為了消除設計注意力機制在縱向對比實驗中的偶然性,筆者在resnet34和resnet101上進行了補充實驗。對照組為Cascade-RCNN和GCNet,實驗組為FDA和FDA-light;在不同的骨干網絡上,Cascade-RCNN的指標浮動比較大,滿足在不同性能下驗證所提出方法的有效性假設。在表3中,FDA-light在resnet34上相比于Cascade-RCNN有輕微的指標浮動,在resnet101上FDA-light在各個指標上有約0.8%的提升,FDA在resnet34和resnet101都有約1.8%的提升,從多方面說明了FDA在紅外圖像檢測任務上的有效性。

表3 不同骨干網絡檢測性能表
在表4中,筆者在所設計的SFAM模塊上進行了超參數的測試實驗。在FM的設計過程中,表征維度過低會導致性能退化現象,而過高則會引起表征冗余問題,都會導致性能變差;合適值不但可以同時引入顯性的通道交互信息,同時可以給予模塊設計正則化的效果,提升此部分對于模型擬合的泛化能力。在表4中給出了1,8,16,32,64共5種超參數,并在骨干網絡為resnet50的Cascade-RCNN中驗證,當特征維度為8時性能最佳。

表4 不同超參數檢測性能表
4 結束語
筆者對比了多種注意力機制在Cascade-RCNN框架上的性能,如SENet,ECANet等方法,發現通道注意力機制在紅外檢測任務上較弱的性能表現,同時發現解耦結構和空間注意力對于任務優化的重要性。基于以上考慮,筆者提出的FDA方法在FLIR紅外數據集上的不同骨干網絡上,相比于Cascade-RCNN有約2%的精確率的提升;同時在理論和實際參數上進行實驗比較,從各個方面充分說明了設計方法的有效性。在紅外目標檢測的任務上,相比可見光的應用場景,仍有許多挑戰需要解決,如針對紅外小目標檢測,可見光紅外圖像多模態融合方法的研究等。經過實驗研究,發現對于紅外檢測任務,針對紅外圖像進行細粒度的注意力機制設計顯得尤為重要。