李貞 任明武
(南京理工大學計算機科學與工程學院 南京 210094)
軍用迷彩服在作戰中可以成功打亂目標在觀察者視野中的輪廓線,使對方難以察覺和分辨。軍用迷彩服最新研發包括更高級別的防火、防彈、防紅外輻射、防熱輻射和反雷達探測等功能[1]。我軍新式迷彩服“星空迷彩”劃分為叢地、荒漠、叢林、城市、沙漠五個品種,而且根據實際情況選擇相應的服裝、根據作戰地形進行發放[2],使穿著者更能“融入”隱蔽處不易被察覺,可見光范圍內偽裝目標越來越難以識別。軍事偽裝正朝著多波段、多元化、智能化的方向發展[3],這無疑為迷彩偽裝目標檢測帶來了更大的挑戰。
對于偽裝目標的檢測,許多傳統的方法基于可見光圖像下迷彩目標特征提取[4~6]。武國晶等[7]利用目標特有的三維凸面形狀特征表現出的灰度差異檢測迷彩偽裝目標。鄧小桐等[8]將空間注意力機制引入目標檢測框架中,在擴展后的數據集上將檢測精度提升了8.7%。近年來語義分割網絡也被應用于迷彩目標識別當中[9]。Fang 等[10]構建強語義膨脹網絡,對淺層特征圖的語義信息進行加強,進一步提升了檢測效果。卓劉等[11]使用一個并行的多采樣率的空洞卷積識別不同大小的迷彩目標。多光譜圖像在多個波段上形成影像,將光譜技術和成像技術結合,不僅可以獲取目標的二維空間信息,還可以獲得各個目標的光譜信息,形成“數據立方體”[12]。通過對不同波段的圖像特征和光譜特性進行分析,可以極大提高檢測迷彩偽裝目標的能力。嚴陽等[13]分析迷彩偽裝的光譜特性,利用不同地物之間的光譜曲線的差異識別偽裝。但由于“同物異譜”現象和“同譜異物”現象,需要將目標的空間特征和光譜特征聯合以實現更精準的目標識別。本文基于U-Net[14]語義分割網絡進行改進,將得到的多光譜圖像進行數據預處理,利用目標的深層光譜特征和局部空間特征實現端到端的偽裝目標識別。
U-Net 網絡結構整個網絡結構呈現U 型對稱結構,是經典的編碼-解碼結構。解碼過程將編碼過程中同尺寸級別的特征圖進行堆疊,利用編碼結構中的特征對于解碼過程中的特征進行細節補充,實現不同層級的特征融合。將相同尺寸級別的淺層和深層特征圖進行拼接,通過兩者的結合在卷積過程中學習到更豐富的信息。
作用于網絡輸入層的卷積層可以用不同尺度的卷積核提取特征[15],卷積核的尺寸分別為1×1×B,3×3×B和5×5×B,其中B 為輸入多光譜圖像的波段數。1×1 的卷積核提取輸入圖像的光譜相關性特征。3×3和5×5卷積核可以提取輸入多光譜圖像的空間相關性特征。將不同尺度的卷積核提取到的特征圖在通道維度上進行堆疊,形成聯合的光譜-空間特征圖。
批標準化[16](Batchnormalization,BN)是一個深度神經網絡常用的訓練技巧。批標準化把每層神經網絡任意神經元這個輸入值的分布符合標準正態分布,把越來越偏的分布拉回標準的分布,這樣使得激活輸入值落在非線性函數對輸入比較敏感的區域,避免梯度消失問題產生,同時梯度變大意味著學習收斂速度快,能大大加快訓練速度。
殘差模塊[17]在加深網絡深度方面有明顯優勢。一個具體的殘差模塊如圖1 所示。殘差模塊的引入很好地解決了加深網絡深度帶來的訓練困難問題。用x 和y 分別代表殘差模塊的輸入和輸出,則可用式(1)表示殘差模塊:

圖1 殘差模塊

F(x,{Wi})表示待學習的殘差映射。當殘差為F(x)=0 時,此時堆積層僅僅做了恒等映射,至少網絡性能不會下降,而當殘差不為0 時,堆積層在輸入特征基礎上學習到新的特征,從而擁有更好的性能。
改進的網絡模型結構如圖2所示。基于U-Net的改進網絡模型(multiWind-ows Resnet U-Net,MS-UNet)保持原有對稱的編碼-解碼網絡結構。MS-UNet 左側部分為編碼結構。對網絡的輸入層采用多尺度窗口,得到不同尺度上的特征圖進行拼接提取輸入圖像的空譜聯合特征。用步長stride=2 的卷積實現特征圖的壓縮。每經過兩個殘差模塊,特征圖的寬高縮減1/2,每個殘差模塊之后使用批標準化和RELU 激活函數。網絡中對較深層的特征圖進行上采樣并與淺層特征圖相加這樣加強了不同層之間的連接,并將增強淺層特征圖中的語義信息,如圖2中虛線框所示。

圖2 MS-UNet網絡結構模型
右側部分為解碼結構。解碼結構對得到編碼得到的特征圖進行上采樣并和相同寬高的特征圖進行拼接,利用編碼結中的特征對于解碼過程中的特征進行細節補充,實現跳躍連接。
本實驗所用迷彩服飾包括87 式老款迷彩服,荒漠迷彩以及07 式新款迷彩服。采集樣本過程中,采集的多光譜圖像數據應當包含陰影遮擋、順光、逆光、正常光線等光照條件,采集時間應當覆蓋一天之內的多個時間段。采集的多光譜圖像數據應當包括晴朗、多云、陰天等多種天氣情況。模特身穿各式迷彩服呈現出多種不同的姿態,如躺、趴、蹲、站立、臥等,圖像數據中迷彩目標出現的位置、目標數盡可能多樣。
實驗采用CGT GVN-2S 光譜設備進行迷彩人員多光譜數據集的采集,整個采集系統包括電源箱、電腦工作站、標準白板等,搭建可移動的圖像采集裝置。該設備直接通過網絡連接和USB 串口進行數據的傳輸,采集的圖像寬高尺寸為1920×1000。采集的原始圖像波段覆蓋范圍為400nm~1000nm,包含1080個波段,本實驗選用的迷彩服飾的特征波段分別為455nm、589nm、612nm、681nm、698nm、710nm。將6 個波段合成mat 文件作為網絡的輸入。
訓練集樣本數據共3550 幅多光譜圖像,其中按照該8∶2 的比例對訓練集進行劃分,80%用于訓練,20%用于驗證。測試集數據223 幅多光譜圖像。
實驗分為訓練和測試兩個部分,網絡基于keras 架構,訓練部分在服務器中進行,硬件環境為Titan V 顯卡、Intel(R)Xeon(R)Silver 4116 CPU、128GB 內存等,軟件環境為Ubuntu18.04,Python3.6,TensorFlow1.9,Keras2.2.4。
測試部分在本地的筆記本上,其中硬件環境為1050 顯卡、Inter(R)Core(TM)i5-9300H CPU、8GB 內存,軟件環境Windows10,PyCharm。訓練參數設置如表1 所示。

表1 訓練參數設置
本實驗評價指標為語義分割領域常用的評價指標:準確率Accuracy,精確率Precision,召回率Recall,F1-Score。測試集上各個指標的結果如表2 所示。

表2 MS-UNet識別結果
3 通道U-Net 為原始U-Net 網絡結構模型,6通道U-Net只是將3通道U-Net的輸入層通道數改為6。6 通道U-Net 和MS-UNet 所用數據集完全相同,數據集均包含6 個波段。而3 通道U-Net 使用數據集為可見光圖像,僅僅包含3 個波段。設置訓練多次求平均值,結果如表3所示。
從表3可知,6通道U-Net 和3通道U-Net 相比,Recall明顯增大。在網絡結構的對比上,3 通道U-Net 和6 通道U-Net 只有輸入層的通道維度不同,6 通道數據集能提供更多的迷彩目標信息,使得誤檢明顯減少,說明包含更多波段的數據集能提供更多的目標信息,證明了采用多光譜識別迷彩目標的顯著優勢。

表3 不同語義分割網絡識別結果對比
6 通道U-Net 和MS-UNet 在網絡結構上有較大的不同。MS-UNet 仍采用編碼解碼結構,輸入層使用多尺度窗口,使用殘差學習加深了網絡的深度,解碼部分實現跳躍連接融合不同尺度信息,使誤檢進一步減少,Recall 進一步增大。MS-UNet 相較于6通道U-Net而言,Precision稍有下降但Recall增大了3.42%,F1-Score 增大了1.62%。造成這一現象的原因是MS-UNet 在學習到更深層特征的同時對于特征的描述也更加具體,漏檢減少的同時也檢測到一部分不相關的“目標”,使得Precision有所下降。
各模型識別效果對比圖如圖3 所示。

圖3 各模型識別效果對比圖
本文提出了一種基于U-Net 語義分割網絡的多光譜迷彩目標識別方法,從兩個角度改進迷彩目標識別效果。第一,采用包含更多波段的多光譜數據集。多光譜數據集相比于可見光數據集包含更多地波段,能提供更多關于迷彩目標的信息,能極大地改善目標漏檢情況。第二,網絡輸入層采用多尺度窗口提取目標的光譜-空間聯合信息,引入殘差模塊加深網絡深度,更進一步融合不同尺度信息,可以進一步減少誤檢。本文提出的MS-UNet相比于6 通道U-Net 而言Recall 有明顯增大,但是Precision 有所減少,后續改進可考慮如何更進一步提高Precision和Recall。