迷彩偽裝目標檢測的視覺特征偏好研究

2023-12-30 05:26:30曹鐵勇鄭云飛王燁奎付炳陽

計算機技術與發展 2023年12期

韓彤,曹鐵勇,鄭云飛,王楊,陳雷,王燁奎,付炳陽

(1.陸軍工程大學指揮控制工程學院,江蘇南京 210007;2.95911部隊,甘肅酒泉 735000;3.陸軍炮兵防空兵學院,江蘇南京 211100;4.31401部隊,吉林長春 130000)

0 引言

迷彩偽裝是最基本的軍事偽裝技術之一,其設計旨在模仿背景的顏色及紋理等特征來降低目標的顯著性,以此規避人眼及機器偵察。近年來,基于卷積神經網絡(Convolutional Neural Networks,CNN)[1]來檢測迷彩偽裝目標的研究取得了良好的進展[2-6]。如何進一步提升其檢測模型的遷移性和有效性,關鍵之一在于需要深入分析迷彩偽裝目標檢測模型的內在機理。然而,神經網絡的黑盒性質使得模型的運行機制難以被準確理解。

近來的研究表明,CNN與人類視覺系統(Human Visual System,HVS)的決策機制有相似之處[7-8]。研究者嘗試分析顏色、形狀、紋理特征在常規對象識別中的作用,但相關研究[9-10]主要針對的是顯著性目標分類,其結果無法直接用于指導迷彩偽裝目標檢測模型的優化。

為此,該文從人類視覺特征角度出發,針對迷彩偽裝目標檢測的特點,設計了一種新的視覺特征解耦方法,在此基礎上研究了CNN迷彩偽裝目標檢測模型對不同視覺特征的偏向性。在迷彩偽裝人員數據集與常規人員檢測數據集上進行的對比實驗表明,CNN目標檢測模型對于迷彩偽裝目標偏向于學習其紋理,對于常規目標偏向于學習其形狀,顏色特征在二者的檢測中均不占主導地位。

1 相關工作

1.1 迷彩偽裝目標檢測

20世紀中期,迷彩偽裝技術逐漸成熟并廣泛用于軍事領域。早期研究人員通過設計特定的紋理提取算子來檢測迷彩圖案[11-14]。隨著深度學習技術的發展,研究人員開始使用基于卷積神經網絡的模型來解決迷彩發現問題。Zheng等人[15-16]構建了迷彩偽裝人員數據集并對迷彩偽裝目標進行分割。文獻[2-6]使用基于CNN的目標檢測模型實現了迷彩偽裝目標的精準分類與定位。文獻[17]使用相同的對抗樣本對不同迷彩偽裝目標檢測模型進行攻擊,產生了不同程度的性能下降,然而該文獻缺乏對模型機理的進一步研究。文中工作一方面有助于檢測模型的改進,另一方面對提升迷彩偽裝目標檢測的對抗攻擊效果有指導意義。

1.2 CNN模型的視覺特征研究

神經科學研究證明,顏色、形狀和紋理是人類視覺系統中最重要的三個特征且相互獨立[18-23]。由于人類視覺系統是許多計算機視覺算法的黃金標準,研究[7-8]將HVS與CNN進行比較。2018年,Geirhos等人[9]使用風格遷移構建具有沖突線索的數據集,通過實驗揭示了在ImageNet上訓練的分類模型具有紋理偏重并且提高形狀偏重可以提升模型的魯棒性。此后,研究人員致力于設計提高模型形狀偏重的方法[24-25],對任務本身的特征偏重研究較少。直至2022年,文獻[10]指出,模型的偏向性是任務相關的。例如,識別同樣形狀但不同類別的鳥主要依靠顏色,而區分斑馬和印有斑馬條紋的汽車主要依靠形狀。

為了對模型的視覺特征偏重進一步研究,Ge等人[10]提出了常規目標分類模型的特征解耦框架,分別提取數據集的顏色、形狀、紋理特征。在提取顏色時將圖片變換到頻域進行相位加擾再逆變換;在提取形狀時,通過分割圖像的顯著區域得到形狀掩膜;在提取紋理時,先將圖像的顯著區域進行灰度化處理,然后將其切割成多個方塊,取其中四個方塊拼接成一個新的圖像,作為該圖像的紋理特征。

解耦并分析迷彩偽裝目標檢測模型的視覺特征有助于解釋模型工作機理、提高模型性能。然而目前還沒有針對該問題的研究。現有研究旨在提取單一視覺特征,無法用于迷彩偽裝目標檢測,具體表現在:如果對全圖提取單一視覺特征會導致目標位置信息丟失,如果只對目標提取單一視覺特征會破壞目標的偽裝性。

2 針對迷彩偽裝目標檢測的視覺特征分析

2.1 分析框架

與以往框架不同,所提框架旨在分別消除目標某單一特征并保留其余特征。基于此框架,分別在顏色、紋理、形狀方面設計解耦方法。

分析框架如圖1所示。首先,在數據集的訓練集上訓練好模型;其次,對數據集的原始測試集分別解耦顏色、紋理、形狀特征得到三個特征解耦測試集;最后,在訓練好的模型上分別驗證特征解耦測試集。分別計算模型mAP的變化率,并進行歸一化處理,用不同特征的占比表示模型的視覺特征偏好。

圖1 視覺特征偏好分析框架

2.2 解耦方法

在對不同屬性特征進行解耦時應遵循以下原則:一是最大化改變一種屬性特征的同時其余屬性應盡量保持不變;二是紋理的變化應遵循迷彩的特點和規律,不應破壞其偽裝性;三是在迷彩偽裝場景下,目標自身結構被迷彩紋理破壞,目標的形狀特征體現在目標的外圍輪廓。解耦方法將目標分割輪廓視作目標形狀,將分割輪廓內的灰度圖像視作目標紋理,使用RGB空間描述圖像的顏色。

2.2.1 消除顏色

(1)

其中,w1為0.299,w2為0.587,w3為0.114分別表示圖像的R,G,B分量加權值。式1為灰度心理學公式,該公式的權重系數根據心理學上關于人類視覺系統對綠色最敏感等結論得出。

2.2.2 破壞紋理

紋理是人類視覺系統的一種感知形式,迄今還沒有文字或公式化定義,但諸多研究認為:局部紋理體現在像素及其周圍空間鄰域的灰度分布,全局紋理體現在局部紋理不同程度的重復性[26-29]。改變紋理的方法包括對像素值的操作(如濾波、仿射變換)和對像素空間關系的操作(如交換、置亂)。像素值的改變可能影響顏色信息,為了保持形狀和顏色不變,選擇在目標分割輪廓內對像素的空間關系進行操作。此處借鑒像素置亂的思想,對區域內的紋理塊進行置亂。

給定圖像X,將目標輪廓內的區域切分為若干個N×N像素的紋理塊,然后將紋理塊的空間位置進行置亂。具體流程如算法1所示,其中n表示尺寸為N×N的紋理塊。由于紋理的破壞程度受置亂區域的大小影響,在此進行了不同尺度的區域置亂實驗,效果如圖2所示。分別設置N為20,10,5,2,1,當N=1時即為像素置亂。

圖2 不同尺度的區域置亂

算法1:區域置亂

輸入:圖像X、圖像X的二值化mask、空數組E

2.whilen∈Pdo

3.E=E∪{Xn}

4.end while

5.E=Shuffle(E)

6.whilet∈Eandn∈Pdo

8.end while

2.2.3 改變形狀

對目標形狀的破壞包括消除目標輪廓和改變目標輪廓為其他形狀。在消除輪廓時,嘗試使用濾波方法將目標輪廓與背景融合,當濾波區域較小時不能達到明顯消除輪廓的效果,當濾波區域較大時,背景與前景邊界處的紋理產生了較大改變。因此,研究改變目標形狀的方法。

給定一幅寬W高H的圖像X,對目標輪廓內區域隨機取最大內接圓形或內接矩形,步驟如算法2所示。

算法2:取目標最大內接圓或內接矩形

輸入:寬W高H的圖像X,X的掩膜mask

輸出:目標最大內接圓或內接矩形的掩膜maskc

1.對mask先腐蝕后膨脹,消除尖端和噪聲,得到mask

2.對mask'進行輪廓提取

3.隨機選擇取圓形或取矩形,若取圓形則轉步驟4,若取矩形則轉到步驟5

4.遍歷每個輪廓的所有坐標,取輪廓內點到輪廓的最大值為圓半徑,此時的點為圓心。繪制寬W高H的掩膜maskc,令圓形區域內像素值為1,其余為0

5.遍歷每個輪廓的所有坐標,使用中心擴散法[30]求四個邊界點坐標。繪制寬W高H的掩膜maskc,令矩形區域內為像素值1,其余為0

為解決取內接形狀后,內接形狀和原始輪廓之間像素缺失問題,考慮以下兩種方案:一是用背景紋理覆蓋整個目標真實框,二是用背景紋理覆蓋目標輪廓?？梢暬Ｐ洼敵龊?發現方案一產生的定位偏差更小,方案二仍然能檢測到原始目標形狀,因此使用方案一更合適。在提取背景紋理時,以目標最小外接矩形為單元,以8鄰域內的背景單元作為候選區域,如圖3所示。

圖3 背景候選區域

為了選擇與目標顏色相似度最大的背景單元,計算目標區域與背景單元的顏色直方圖,使用巴氏系數表示顏色相似度:

(2)

(3)

其中,maskc為內接形狀的掩膜,B為使用背景單元M覆蓋目標GT框區域所得的圖像。

3 實驗與分析

本節重點對迷彩偽裝目標檢測模型的視覺特征進行分析,為了比較迷彩偽裝目標與常規目標檢測任務在視覺特征偏向性的差異,使用第2節提出的視覺特征偏好分析框架及解耦方法,選取相同的CNN模型在迷彩偽裝目標與常規目標兩類數據集上進行實驗。

3.1 數據集

CAMP[15]是一種公開的迷彩偽裝數據集,由2 600張迷彩偽裝人員圖片及其分割標注構成。該文對原數據集中的分割標注結果用最小外接矩形框重新標注,以用于檢測任務。

由于CAMP數據集目標為人,為方便對比,對于常規目標檢測的實驗,數據集中的目標也應設置為人。SBD數據集對PASCAL VOC數據中沒有分割標注的數據重新進行了標注。從SBD數據集中選擇類別為人的圖片,設置為常規人員檢測數據集(以下簡稱為SBD_PERSON)。實驗數據集的類別及樣本劃分情況見表1。

表1 數據集類別及樣本劃分

3.2 模型

現有CNN目標檢測模型可分為基于候選區域的Anchor-based模型(以Faster R-CNN[31]算法為代表)、基于回歸的Anchor-based模型(主要有SSD[32],RetinaNet[33],YOLO系列算法)和Anchor-free的檢測模型(包括FCOS[34],CenterNet2[35]等)。實驗使用Faster R-CNN,Cascade R-CNN[36],Mask R-CNN[37],SSD,RetinaNet,YOLOv5s,YOLOv7[38],FCOS,CenterNet2共9種通用的CNN目標檢測模型。

3.3 評價指標

3.3.1 平均準確度均值

目標檢測的結果按是否正確可分為:真正例(True Positive,TP)、真反例(True Negative,TN)、假正例(False Positive,FP)、假反例(False Negative,FN)。由此可計算模型的查準率p和查全率r,計算公式如下:

(4)

(5)

平均準確度均值(mean Average Precision,mAP)反映了模型中各類別檢測的平均精度的均值,其計算如下:

(6)

其中,Q是數據集中包含的類別數,AP指某一類別的平均精度,AP計算如下:

(7)

3.3.2 mAP變化率

不同模型訓練得到的初始mAP值不同,為了便于分析,使用mAP變化率作為評價指標。將mAP變化率定義為視覺特征解耦后mAP值的變化量占原始mAP值的比率,其計算如下:

(8)

3.4 實驗方法

3.4.1 區域置亂的尺度選擇

為比較不同置亂尺度下的紋理特征破壞程度,使用顏色直方圖衡量顏色相似度,使用SSIM指標衡量紋理相似度。給定圖像X、經紋理破壞后的圖像Y,SSIM指標計算如下:

(9)

其中,μX,μY分別為X,Y的平均值,σX,σY,σXY分別為X的標準差、Y的標準差、XY的協方差。計算不同尺寸N下紋理塊置亂圖與原圖在紋理和顏色特征的相似度,結果見表2。置亂后的測試集與原始測試集的顏色相似度始終較高,SSIM值隨N逐漸減小,這說明顏色特征的統計量不受置亂區域的大小影響,紋理特征的破壞程度隨N的減小而增大。故取N=1(像素值亂)的區域置亂用于特征解耦方法中紋理特征的破壞。

表2 不同尺度紋理置亂圖與原圖相似度

3.4.2 解耦方法的有效性驗證

文獻[10]制作了在人類視覺上分別具有顏色偏重、形狀偏重和紋理偏重的三個分類數據集并且對每個數據集分別訓練了顏色、形狀和紋理三種特征編碼器。為驗證所提解耦方法的有效性,使用所提解耦方法對不同屬性偏置數據集分別解耦其對應偏置屬性的特征。將解耦后的數據輸入特征編碼器中,與將原始圖像輸入特征編碼器輸出的準確率進行比較,結果見表3。括號外和括號內的數字分別表示不使用解耦方法和使用解耦方法后的準確率。

表3 特征解耦數據與原始數據在視覺特征編碼器的表現

由表3知,在特定屬性偏置數據集上使用視覺特征解耦方法,可以消除對應屬性的特征,導致該屬性特征編碼器失效,但不影響其他屬性特征編碼器的性能。因此,提出的特征解耦方法能夠消除數據集某一屬性特征,同時不改變其他屬性特征。

3.4.3 方法對比

文獻[10]中提取圖像單一特征的解耦方法僅適用于常規目標的分類任務,而該文提出的分析框架及方法在分類任務和檢測任務、常規場景和偽裝場景中均可使用。為比較兩種方法的效果,在常規目標的分類任務上進行分析。使用文獻[10]提供的數據集,在數據集原始圖像上訓練好模型,分別將使用文獻[10]中方法所得圖像和使用文中方法所得圖像輸入模型,模型準確率如表4所示。解耦方法為表格第一列,方法中是否保留顏色、紋理、形狀特征示于表格第二至四列,Ds1,Ds2,Ds3分別為顏色偏置數據集、紋理偏置數據集、形狀偏置數據集。

表4 不同解耦方法對模型準確率的影響比較

文獻[10]提取單一特征輸入模型,模型在特征解耦數據的準確率越高表示在該特征偏好越強。文中方法消除圖像的單一特征,模型準確率越低表示在該特征的偏好越強。由表4知,當使用文獻[10]中方法時,對數據集Ds1,模型的準確率均保持較低水平,難以比較模型的偏向性。對Ds2,模型對紋理特征有較強偏好,但對顏色特征和形狀特征的偏向性難以區分;對于Ds3,模型在顏色和形狀特征的偏向性難以區分。使用文中方法,模型在數據集上對顏色、紋理、形狀特征的偏向性區分更加明顯。

3.5 實驗結果

在CAMP數據集上應用所提視覺特征解耦方法,效果如圖4所示。將原始測試集與特征解耦后的測試集輸入訓練良好的目標檢測模型,檢測結果見表5,括號外數據為mAP值,括號內數據為mAP變化率。

表5 CAMP數據集特征解耦后模型mAP

圖4 特征解耦效果

由表5知,對于CAMP數據集,表中9個CNN目標檢測模型皆對紋理特征更為敏感。當消除顏色特征時,模型的mAP變化率范圍為2.1%～9.8%,均值為4.5%;破壞紋理特征后,模型的mAP變化率范圍為55.9%～86.6%,均值為74.1%;改變形狀特征后,模型的mAP變化率范圍為26.1%～59.6%,均值為40.2%。取三種特征解耦數據上的mAP變化率均值,歸一化處理后,可得模型在CAMP數據集上的視覺特征偏向性為:紋理(62%)>形狀(34%)>顏色(4%)。

在SBD_PERSON上進行同樣的實驗,實驗結果見表6。由表6知,對于SBD_PERSON數據集,模型皆對形狀特征更為敏感。消除顏色后,模型的mAP變化率均值為8.5%;破壞紋理后,模型的mAP變化率均值為42%;改變形狀后,模型的mAP變化率均值為68.4%。取三種特征解耦數據上的mAP變化率均值,歸一化處理后,可得模型在SBD_PERSON數據集上的視覺特征偏向性為:形狀(58%)>紋理(35%)>顏色(7%)。

基于上述研究結果,得出如下結論:盡管不同模型對不同視覺特征的敏感程度略有不同,總體來講,現有基于CNN的通用目標檢測模型在學習迷彩偽裝目標的特征時具有較強的紋理偏好,在學習常規目標的特征時具有較強的形狀偏好。

同時,相對于形狀和紋理特征,顏色特征對二者的檢測影響較小。因此,迷彩偽裝目標的檢測任務不應與常規目標的檢測任務一概而論,針對迷彩偽裝目標檢測的模型改進可以從設計特征網絡使之捕捉更精細的紋理特征、使用紋理增強的方法進行數據處理等方面入手。

4 結束語

通過實驗對比了迷彩偽裝目標與常規目標的視覺特征在目標檢測任務中的敏感程度。實驗證明:對于CNN目標檢測模型,迷彩偽裝目標的檢測主要依賴其紋理,常規目標的檢測主要依賴其形狀。同時,顏色特征在二者的檢測中不占主導地位。

實驗結論可用于指導下一步迷彩偽裝技術的發展和迷彩目標檢測模型的改進。實驗中運用的視覺特征解耦方法和思路可用于驗證不同數據集在計算機視覺任務中的特征偏向性,指導設計具有特定偏向性的數據集和網絡模型。