23
(1.中國(guó)科學(xué)院大學(xué), 北京 100049; 2.中國(guó)科學(xué)院電子學(xué)研究所, 北京 100190;3.中國(guó)科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190)
近年來,合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)在軍事和民用領(lǐng)域的應(yīng)用越來越廣泛,其中一個(gè)主要應(yīng)用是識(shí)別機(jī)動(dòng)目標(biāo),如坦克、車輛和艦船等。
相比于光學(xué)圖像,SAR圖像較難提取特征,傳統(tǒng)方法已經(jīng)很難滿足分類精度和速度需求,而深度學(xué)習(xí)為發(fā)展一種SAR圖像智能解譯框架提供了可能。當(dāng)前深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了較好的成果,在一些光學(xué)圖像競(jìng)賽上取得了非常大的突破[1-2]。但是,在SAR目標(biāo)識(shí)別中深度學(xué)習(xí)處于起步階段,可用于研究的SAR數(shù)據(jù)集屈指可數(shù)[3]。深度學(xué)習(xí)是由大量數(shù)據(jù)驅(qū)動(dòng)完成的,而目前也存在如ImageNet,MicrosoftCOCO等大型光學(xué)圖像數(shù)據(jù)集;與光學(xué)圖像不同,SAR圖像受相干斑噪聲等成像機(jī)制的影響,目標(biāo)、陰影與背景之間的過渡區(qū)域很難分離,對(duì)其進(jìn)行手工標(biāo)注具有很大的主觀性和隨機(jī)性,所以獲取大量帶標(biāo)注的SAR圖像數(shù)據(jù)需要耗費(fèi)高昂的人力成本。因此,研究深度學(xué)習(xí)在少量樣本下的SAR目標(biāo)識(shí)別不僅能降低數(shù)據(jù)需求,還能提高識(shí)別精度。
深度學(xué)習(xí)中一般采用樣本增強(qiáng)的方式進(jìn)行數(shù)據(jù)擴(kuò)充,然而傳統(tǒng)的圖像旋轉(zhuǎn)、裁剪、扭曲等擴(kuò)充方式不利于網(wǎng)絡(luò)充分挖掘數(shù)據(jù)的深層信息;其次在SAR圖像中,待識(shí)別目標(biāo)的圖像特征和相干斑噪聲復(fù)雜耦合,只使用單支卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行特征提取難以對(duì)目標(biāo)特征和噪聲進(jìn)行解離。目前,遷移學(xué)習(xí)在少量樣本下目標(biāo)識(shí)別問題上取得了不錯(cuò)的成果[4],通過把大型通用數(shù)據(jù)集上預(yù)訓(xùn)練得到的模型遷移到其他小規(guī)模數(shù)據(jù)集上,有效解決了CNN在少量樣本下訓(xùn)練樣本不足的問題。但是遷移學(xué)習(xí)的理論基礎(chǔ)是目標(biāo)域和源域數(shù)據(jù)具有相似的底層特征,而SAR圖像和光學(xué)圖像在成像方式、噪聲等方面仍存在較大差異,因此遷移學(xué)習(xí)在SAR數(shù)據(jù)集上的魯棒性較差。
針對(duì)上述少量樣本下SAR目標(biāo)識(shí)別訓(xùn)練樣本不足的問題,本文提出了一種創(chuàng)新的構(gòu)建正負(fù)樣本對(duì)的方式實(shí)現(xiàn)樣本擴(kuò)充,在此基礎(chǔ)上結(jié)合度量學(xué)習(xí)和深度學(xué)習(xí)設(shè)計(jì)了一種能充分挖掘樣本信息的深度度量網(wǎng)絡(luò)——孿生卷積神經(jīng)網(wǎng)絡(luò),最后通過多任務(wù)聯(lián)合學(xué)習(xí)的方式訓(xùn)練模型,降低過擬合風(fēng)險(xiǎn)。
當(dāng)訓(xùn)練樣本較少時(shí),SAR目標(biāo)識(shí)別可以仿照人臉識(shí)別的解決方案[5-6],比較待識(shí)別樣本與訓(xùn)練集中的每張圖片,然后挑選出哪一張與它最可能是同樣類別,從而將目標(biāo)識(shí)別問題轉(zhuǎn)化為判斷兩個(gè)樣本是否屬于同一類的二分類問題。深度學(xué)習(xí)可以提取樣本的特征向量,而度量學(xué)習(xí)可以學(xué)習(xí)兩個(gè)特征向量的距離度量。該距離可用來刻畫樣本之間的相似程度,距離越小,兩個(gè)樣本越相似,屬于同一類的概率就越大。
如上所述,判斷兩個(gè)樣本是否同類時(shí)模型的輸入不再是單個(gè)樣本,而是兩個(gè)樣本構(gòu)成的樣本對(duì)。這里樣本對(duì)分為兩類:來自同一類的正樣本對(duì)和來自不同類的負(fù)樣本對(duì),如圖1所示。由于模型采用逐對(duì)訓(xùn)練,因此將會(huì)有平方級(jí)別數(shù)目的樣本對(duì)來訓(xùn)練模型,這相當(dāng)于一種變相的數(shù)據(jù)擴(kuò)充,使模型很難過擬合。假設(shè)訓(xùn)練集有E類,每類有C個(gè)樣本,總共可能的樣本對(duì)數(shù)量可由式(1)計(jì)算:

C≥2,E≥2
(1)
相比原始數(shù)據(jù)集擴(kuò)充了(C·E-1)/2倍。

圖1 構(gòu)建正負(fù)樣本對(duì)
1.2.1 孿生卷積神經(jīng)網(wǎng)絡(luò)
本文將兩個(gè)完全相同且共享權(quán)值的CNN通過一個(gè)非參的相似度量層相連,構(gòu)成可用于度量?jī)蓚€(gè)樣本間相似度的孿生卷積神經(jīng)網(wǎng)絡(luò),如圖2所示。為了降低模型復(fù)雜度,本文采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)ShuffleNet作為特征提取網(wǎng)絡(luò)。ShuffleNet[7]是曠視提出的基于組卷積和深度可分離卷積的輕量級(jí)網(wǎng)絡(luò),在大幅減少參數(shù)量的同時(shí)仍能保持較大的容量,非常適合少量樣本下的識(shí)別任務(wù)。

圖2 孿生卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
首先將SAR樣本對(duì)Xi=(xi,1,xi,2,…,xi,n)和Xj=(xj,1,xj,2,…,xj,n)輸入模型,通過ShuffleNetGW(X)提取特征,得到特征向量GW(Xi)和GW(Xj),長(zhǎng)度為1 000。然后計(jì)算GW(Xi)和GW(Xj)的差值向量EW,如式(2)所示。
EW=abs(GW(Xi)-GW(Xj))=
(|xi,1-xj,1|,|xi,2-xj,2|,…,
|xi,1 000-xj,1 000|)
(2)
再將EW通過一shape=[1 000,1]的全連接層,得到GW(X1)和GW(X2)的距離度量:
dist(Xi,Xj)=
ω1·|xi,1-xj,1|+ω2·|xi,2-xj,2|+
…+ω1 000·|xi,1 000-xj,1 000|+b=
EWW+b
(3)
式中,W=(ω1,ω2,…,ω1 000)T是該全連接層的權(quán)重矩陣,b為偏差,可通過學(xué)習(xí)確定。易知,dist(Xi,Xj)=dist(Xj,Xi),滿足對(duì)稱性。然后經(jīng)過Sigmoid層將dist(Xi,Xj)轉(zhuǎn)化為一個(gè)[0,1]區(qū)間內(nèi)的數(shù)值PW,即樣本對(duì)屬于同一類的相似概率:
PW=Sigmoid(margin-dist(Xi,Xj))
(4)
式中,margin為間隔閾值,取margin=6.0。當(dāng)dist(Xi,Xj)>margin時(shí),PW<0.5,則判定樣本對(duì)不屬于同一類;dist(Xi,Xj)越小,PW更接近于1,表示樣本對(duì)的相似度更高。訓(xùn)練時(shí),模型會(huì)傾向于使正樣本對(duì)的距離不斷減少;而使負(fù)樣本對(duì)的距離不斷增大,逐步趨近于margin。最后構(gòu)造一個(gè)基于PW的交叉熵?fù)p失函數(shù):
Lmetric=-[l*log(PW)+(1-l)*

(5)

1.2.2 多任務(wù)聯(lián)合學(xué)習(xí)
孿生CNN可以衡量?jī)蓚€(gè)樣本是否屬于同一類,但無法分辨單個(gè)樣本的具體類別。因此可以在孿生CNN上添加額外的全連接層(shape= [1 000,10])和Softmax層,構(gòu)造兩個(gè)基于交叉熵?fù)p失的單樣本分類任務(wù),如圖3所示。

圖3 多任務(wù)聯(lián)合學(xué)習(xí)模型
通過這種多任務(wù)聯(lián)合學(xué)習(xí)[8]的訓(xùn)練方式,相似度量和分類任務(wù)可以互相輔助學(xué)習(xí),使得模型既可以分辨兩個(gè)樣本是否相似,也能識(shí)別單個(gè)樣本的類別;另外,由于各任務(wù)有不同的噪聲模式,同時(shí)學(xué)習(xí)多個(gè)任務(wù)可以對(duì)噪聲進(jìn)行平均,分擔(dān)各自的過擬合風(fēng)險(xiǎn),得到更為泛化的表示,有利于緩解SAR圖像相干斑噪聲的影響。
該模型包含了兩個(gè)分類任務(wù)和一個(gè)相似度量任務(wù),因此總損失函數(shù)由3部分組成,如式(6)所示,其中Lcls_Xi和Lcls_Xj是分類任務(wù)的交叉熵?fù)p失,λ是其損失權(quán)重。
Ltotal=λ*(Lcls_Xi+Lcls_Xj)+
(1-2λ)*Lmetric
(6)
由式(1)可知,若訓(xùn)練集有E類,每類有C個(gè)樣本,則正樣本對(duì)的數(shù)量為

C≥2,E≥2
(7)
因此正負(fù)樣本對(duì)的比例為
(8)
可見當(dāng)類別較多時(shí),負(fù)樣本對(duì)要遠(yuǎn)多于正樣本對(duì),因此在訓(xùn)練時(shí)需對(duì)負(fù)樣本對(duì)作難區(qū)分負(fù)樣本挖掘[9-10](hard negative mining),這樣有利于避免振蕩,加快網(wǎng)絡(luò)收斂。基于前文定義的樣本距離度量dist(Xi,Xj),設(shè)定一區(qū)間[A,B],可將負(fù)樣本對(duì)分為以下3類:
a) 易區(qū)分負(fù)樣本對(duì):dist(Xi,Xj)>B,此類負(fù)樣本對(duì)相似度較低,因此較容易識(shí)別;
b) 模糊負(fù)樣本對(duì):A≤dist(Xi,Xj)≤B,處在模糊區(qū)域的負(fù)樣本對(duì);