徐 晶 張譯方 邱光輝 張生杰 徐才進(jìn)
(西南電子設(shè)備研究所 成都 610036)
雷達(dá)輻射源識(shí)別是電子偵察的重要環(huán)節(jié),在信號(hào)分選基礎(chǔ)上,對(duì)偵收的雷達(dá)參數(shù)進(jìn)行分析,完成對(duì)雷達(dá)型號(hào)甚至個(gè)體的準(zhǔn)確判識(shí),為作戰(zhàn)籌劃、戰(zhàn)術(shù)決策等提供重要的情報(bào)支撐[1]。
近年來(lái),隨著雷達(dá)技術(shù)體制不斷升級(jí)更新,現(xiàn)代作戰(zhàn)空間呈現(xiàn)電磁信號(hào)數(shù)量繁多、密級(jí)重疊、動(dòng)態(tài)交疊、樣式變化快的特點(diǎn)。大數(shù)據(jù)人工智能技術(shù)的發(fā)展,為雷達(dá)輻射源識(shí)別帶來(lái)了新的思路:基于大量偵收數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練方法,自動(dòng)完成對(duì)雷達(dá)特征的提取及識(shí)別空間的構(gòu)建,以此解決對(duì)新體制、多功能雷達(dá)的準(zhǔn)確判識(shí)。常見(jiàn)的智能化雷達(dá)輻射源識(shí)別有基于機(jī)器學(xué)習(xí)的識(shí)別方法[1]及基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法[3-4]。另一方面,受實(shí)戰(zhàn)環(huán)境、戰(zhàn)術(shù)使用及技術(shù)條件的限制,雷達(dá)輻射源識(shí)別所面臨的信號(hào)是一種“小樣本空間”[5],對(duì)應(yīng)的數(shù)據(jù)存在完備性不足、連續(xù)性差、類別不均衡的缺點(diǎn),基于數(shù)據(jù)驅(qū)動(dòng)的人工智能識(shí)別方法存在對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合、泛化能力差、魯棒性不足的問(wèn)題,造成人工智能技術(shù)無(wú)法良好適應(yīng)于電子戰(zhàn)系統(tǒng)和裝備的應(yīng)用。
為解決上述問(wèn)題,本文提出針對(duì)偵察低截獲雷達(dá)的型號(hào)識(shí)別技術(shù),具體地,提出基于K-means和組合采樣的樣本擴(kuò)展技術(shù),實(shí)現(xiàn)對(duì)小樣本類別數(shù)據(jù)的擴(kuò)展,達(dá)到不同類別數(shù)據(jù)的樣本均衡,以此解決基于機(jī)器學(xué)習(xí)的雷達(dá)型號(hào)識(shí)別技術(shù)對(duì)大樣本數(shù)據(jù)過(guò)擬合的問(wèn)題,提高模型的泛化能力,提升對(duì)偵察低截獲雷達(dá)的型號(hào)識(shí)別準(zhǔn)確度。
本文提出一種針對(duì)低偵察目標(biāo)的雷達(dá)型號(hào)識(shí)別技術(shù)框架,如圖1所示。在已有智能處理識(shí)別基礎(chǔ)上,增加基于K-means和組合采樣的樣本均衡技術(shù):首先,運(yùn)用K-means算法對(duì)各型號(hào)樣本進(jìn)行聚小類處理;進(jìn)一步,對(duì)于樣本數(shù)量少的小類,運(yùn)用SMOTE方法進(jìn)行樣本擴(kuò)充,對(duì)于樣本數(shù)量過(guò)多的小類,運(yùn)用隨機(jī)采樣方法進(jìn)行樣本抽樣。以此形成數(shù)量充足、分布均衡的樣本數(shù)據(jù),達(dá)到對(duì)機(jī)器學(xué)習(xí)算法的充分訓(xùn)練,形成泛化能力更強(qiáng)、適應(yīng)性更廣的智能識(shí)別模型,解決運(yùn)用人工智能方法對(duì)偵察低截獲雷達(dá)型號(hào)識(shí)別率低的問(wèn)題,提升電子戰(zhàn)系統(tǒng)或裝備對(duì)威脅電子目標(biāo)的識(shí)別效果。

圖1 針對(duì)偵察低截獲雷達(dá)的型號(hào)識(shí)別框架
受限于戰(zhàn)場(chǎng)環(huán)境和偵收條件,所收集的雷達(dá)型號(hào)樣本數(shù)據(jù)往往存在類別不均衡的現(xiàn)象。因此,雷達(dá)型號(hào)識(shí)別問(wèn)題屬于不平衡分類問(wèn)題,導(dǎo)致運(yùn)用基于機(jī)器學(xué)習(xí)方法的識(shí)別結(jié)果向樣本數(shù)量多的類別傾斜,而忽略樣本少的類別,造成整體分類效果不理想。
針對(duì)上述問(wèn)題,提出一種基于K-means和組合采樣的樣本均衡方法,用以對(duì)雷達(dá)型號(hào)樣本庫(kù)進(jìn)行均衡處理,以此降低由于樣本不均衡造成識(shí)別準(zhǔn)確度低的問(wèn)題,以二分類為例,所提出的技術(shù)識(shí)別流程如圖2所示。

圖2 基于組合樣本采樣的識(shí)別流程圖
SMOTE是一種被廣泛應(yīng)用于不平衡分類問(wèn)題的數(shù)據(jù)預(yù)處理方法[6]。SMOTE基本思想是在每個(gè)少數(shù)類樣本和K個(gè)類內(nèi)近鄰樣本之間線性插值,隨機(jī)地生成一個(gè)新樣本。因?yàn)楹铣傻臉颖臼莾蓚€(gè)樣本間的隨機(jī)值,所以能有效增加少數(shù)類樣本多樣性,解決了由隨機(jī)過(guò)采樣導(dǎo)致的過(guò)擬合問(wèn)題。SMOTE原理如圖3所示。

圖3 SMOTE算法說(shuō)明圖
SMOTE算法運(yùn)用K-NN算法計(jì)算近鄰,K-NN分類算法是數(shù)據(jù)挖掘領(lǐng)域一種非常成熟而典型的分類方法,具有思路簡(jiǎn)單、易于實(shí)現(xiàn)的優(yōu)點(diǎn),同時(shí)往往具有較高的分類準(zhǔn)確率。算法基本思路是給定含有類別標(biāo)簽的標(biāo)記樣本集,對(duì)于無(wú)標(biāo)簽的待測(cè)樣本,計(jì)算其與所有已標(biāo)記樣本集中所有樣本的距離,選擇聚類最近的K個(gè)樣本作為近鄰,然后根據(jù)這K個(gè)近鄰樣本的類別標(biāo)簽,采用少數(shù)服從多數(shù)的原則對(duì)待測(cè)樣本進(jìn)行類別標(biāo)注。
SMOTE的基本步驟為:
首先,利用K-NN算法,在類內(nèi)尋找少數(shù)類樣本Xi的K個(gè)近鄰樣本,作為合成新樣本的根樣本,樣本間的相似性度量用歐氏距離來(lái)表示為
(1)
然后,從K個(gè)根樣本中隨機(jī)選擇一個(gè)作為合成樣本的輔助樣本,重復(fù)n次,在Xi和每個(gè)輔助樣本Xij之間進(jìn)行線性插值,最終得到n個(gè)新合成樣本。線性插值可表示為
Xnew=Xi+(Xi-Xij)·γ
(2)
其中,Xi是原有樣本;Xij是近鄰樣本,j=1,2,…,K;γ是[0,1]之間的隨機(jī)數(shù);Xnew是新合成的樣本。
新體制、多功能雷達(dá)呈現(xiàn)模式多樣、頻率捷變快、參數(shù)變化多的特點(diǎn)。同一雷達(dá)型號(hào)的樣本數(shù)據(jù)呈現(xiàn)離散程度高,分布不平衡的特點(diǎn)。如機(jī)載相控陣?yán)走_(dá),大部分時(shí)間工作于搜索或跟蹤模式,造成我方偵收、處理形成的參數(shù)大多為上述兩種模式的樣本,而缺少LPI、頻率分集等特殊運(yùn)用模式的樣本。造成同一雷達(dá)型號(hào)的樣本數(shù)據(jù)呈現(xiàn)出類內(nèi)不均衡的特點(diǎn)。
如果直接運(yùn)用SMOTE方法對(duì)上述類內(nèi)不均衡的樣本進(jìn)行采樣,所形成的樣本數(shù)據(jù)分布無(wú)法擬合真實(shí)的樣本分布情況,難以全面刻畫雷達(dá)型號(hào)的樣本特征,造成對(duì)LPI等特殊模式下雷達(dá)的識(shí)別準(zhǔn)確度低。直接運(yùn)用SMOTE擴(kuò)增造成識(shí)別錯(cuò)誤的示意如圖4所示。

圖4 類內(nèi)不均衡導(dǎo)致識(shí)別錯(cuò)誤示意
針對(duì)上述問(wèn)題,本文提出結(jié)合K-means和SMOTE的樣本均衡方法。運(yùn)用K-means方法對(duì)不同類別的雷達(dá)型號(hào)進(jìn)行類內(nèi)的聚類,形成類內(nèi)的小類劃分;進(jìn)一步,運(yùn)用SMOTE和隨機(jī)采樣方法對(duì)所有小類進(jìn)行均衡處理,以此形成類內(nèi)、類間分布均衡的樣本數(shù)據(jù)集。
K-means聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,可用于分析數(shù)據(jù)的分布特性[7]。基本步驟如下:
1)選取K個(gè)初始聚類中心;
2)分別計(jì)算每個(gè)樣本點(diǎn)到K個(gè)簇心的距離(一般為歐氏距離),找到離該點(diǎn)最近的簇心,將其劃分到對(duì)應(yīng)的簇;
3)所有樣本點(diǎn)被劃分到K個(gè)簇后,重新計(jì)算各簇中心(平均距離中心);
4)反復(fù)迭代步驟2)和3),直到達(dá)到終止條件。
為獲取同一類別內(nèi)樣本的分布信息,利用K-means對(duì)每類樣本進(jìn)行聚類,使特征參數(shù)接近的樣本歸為統(tǒng)一小類。每種型號(hào)的樣本可被劃分為多個(gè)小類。
對(duì)于樣本數(shù)量少的小類,運(yùn)用SMOTE方法進(jìn)行插值擴(kuò)增。對(duì)于樣本數(shù)量冗余的小類,運(yùn)用隨機(jī)不放回抽取的方法,對(duì)樣本進(jìn)行抽樣精簡(jiǎn)。以此,形成小類間樣本數(shù)據(jù)相當(dāng)?shù)木鈽颖炯?duì)小類進(jìn)行處理的過(guò)程如圖5所示。

圖5 樣本均衡過(guò)程示意
本節(jié)運(yùn)用仿真形成的7型雷達(dá)型號(hào)數(shù)據(jù)驗(yàn)證所提出方法的有效性。利用識(shí)別率RC評(píng)估分類效果(NC為識(shí)別正確的樣本個(gè)數(shù),NA為待識(shí)別樣本總數(shù))
(3)
本文分別運(yùn)用原始樣本和均衡后樣本對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并對(duì)比分析上述兩種情況的識(shí)別準(zhǔn)確度。
本文采用的卷積神經(jīng)網(wǎng)絡(luò)由三個(gè)卷積計(jì)算層(卷積層+池化層)和一個(gè)全連接層組成。網(wǎng)絡(luò)結(jié)構(gòu)示意如圖6所示。

圖6 本文采用的卷積神經(jīng)網(wǎng)絡(luò)示意
圖7、圖8分別為A、D兩種型號(hào)均衡前后的樣本分布圖。由圖可以看出,對(duì)于每一種型號(hào),采用本文提出的樣本擴(kuò)展方法,能在不改變?cè)袠颖究傮w分布的基礎(chǔ)上,對(duì)各參數(shù)范圍內(nèi)的樣本進(jìn)行合理擴(kuò)充,既能讓每個(gè)新增樣本與原有樣本保持相似,也能夠?qū)颖颈壤M(jìn)行一定調(diào)整,使得各小類的樣本數(shù)目更加均衡,從而確保模型具有良好的訓(xùn)練效果。

圖7 型號(hào)A原始樣本與均衡后樣本分布圖

圖8 型號(hào)D原始樣本與均衡后樣本分布圖
表1為均衡前后各型號(hào)樣本數(shù)量的對(duì)比情況,從表1中可看出,運(yùn)用所提出方法進(jìn)行樣本均衡后,各型號(hào)的樣本數(shù)量能夠達(dá)到相同的數(shù)量級(jí)。

表1 各型號(hào)樣本數(shù)量
為進(jìn)一步說(shuō)明組合樣本均衡方法對(duì)識(shí)別性能提升的有效性,表2給出了樣本均衡前后,卷積神經(jīng)網(wǎng)絡(luò)對(duì)不同型號(hào)的識(shí)別準(zhǔn)確度。

表2 不同型號(hào)的識(shí)別結(jié)果
由表2可知,低偵察型號(hào)A、B、F、G的識(shí)別準(zhǔn)確率均得到顯著提高。圖9詳細(xì)給出了均衡前樣本和均衡后樣本訓(xùn)練生成模型對(duì)型號(hào)A的識(shí)別結(jié)果對(duì)比圖(其中0為正確識(shí)別、1為錯(cuò)誤識(shí)別)。可得出,所提出方法能夠有效提高對(duì)低偵察型號(hào)的識(shí)別準(zhǔn)確度。

圖9 型號(hào)A識(shí)別結(jié)果圖
對(duì)于樣本數(shù)據(jù)充足的型號(hào)C、D、E,識(shí)別準(zhǔn)確度仍能保持在98%以上,表明對(duì)于樣本充足型號(hào),所提出方法能夠保持原有的高識(shí)別準(zhǔn)確度。
以上實(shí)驗(yàn)結(jié)果表明,本文提出的組合均衡方法能夠有效解決樣本數(shù)據(jù)不平衡的問(wèn)題,改善機(jī)器學(xué)習(xí)算法對(duì)大樣本過(guò)擬合情況,使得訓(xùn)練生成的識(shí)別模型能夠同時(shí)適用于大樣本和小樣本場(chǎng)景,具備更強(qiáng)的泛化能力,整體提升機(jī)器學(xué)習(xí)算法對(duì)雷達(dá)型號(hào)的識(shí)別準(zhǔn)確度。
本文研究并設(shè)計(jì)了一種基于K-means和組合采樣的樣本均衡方法:針對(duì)新體制雷達(dá)參數(shù)分布廣的特點(diǎn),首先提出運(yùn)用K-means算法對(duì)各型號(hào)雷達(dá)樣本進(jìn)行聚類處理,將特征相似的樣本劃分為同一小類;進(jìn)一步,提出了基于組合采樣的樣本均衡策略,對(duì)樣本量較少的低偵察型號(hào)采用SMOTE擴(kuò)充,對(duì)樣本量充足的型號(hào)采用均勻抽樣去冗余,以實(shí)現(xiàn)各型號(hào)樣本數(shù)量的平衡。仿真結(jié)果表明,本文方法能有效增強(qiáng)智能識(shí)別模型的可靠性和泛化能力,明顯提升了偵察低截獲雷達(dá)的型號(hào)識(shí)別準(zhǔn)確率,同時(shí)也能保持樣本充足型號(hào)的高識(shí)別準(zhǔn)確度,具有較高的工程應(yīng)用價(jià)值。