劉 振,陳阿磊,李世飛,袁俊泉,黃 亮
(空軍預警學院,湖北 武漢 430019)
輻射源個體識別(SEI)[1-3]技術是針對同一型號、批次及工作方式的不同輻射源,綜合分析并提取能有效區分輻射源個體的特征,通過高性能的分類算法來識別具體的輻射源個體的一種方法。在復雜戰場信號環境中,可以通過截獲各輻射源信號的細微特征來區分信號源個體,進一步鎖定并監視輻射源,同時對判定通信網絡的組成也能提供有力支撐,具有重要的軍事應用前景。在民用方面,為了有效管理頻譜環境,相關管理部門需要定位識別那些非法的電磁輻射源個體,如何從眾多輻射源中識別出非法輻射源個體則十分關鍵。
當前,輻射源個體識別技術的研究大多都是在提取特征后,采用傳統機器學習進行分類識別的[1-2]。在現實中,輻射源個體特征受時間、空間、應用條件等因素的影響,不同時間段某一輻射源設備具體組網方式、使用情況都不相同,不同時間段獲取的數據往往并不完全服從相同分布。在這種情況下,傳統機器學習難以取得可靠的分類識別效果。遷移學習[4-6]不需要傳統機器學習的這種假設,能夠從與目標域不同但相似的源域數據中挖掘有用知識并遷移到目標域學習中,因而得到了廣泛的關注和研究。立足于輻射源個體識別應用特點,本文對基于遷移學習的SEI技術開展研究,提出了基于遷移學習的輻射源個體識別分類方法。

如圖1所示,圓形和方形表示2種類別,黑色點表示已標記的訓練數據,空心點表示未標記的測試數據。在圖1(a)中,由于訓練數據與測試數據的分布結構不同,直接使用訓練數據學習的分類模型對測試數據進行分類識別,往往具有較高的錯誤率。基于聚類分析和重采樣的遷移學習方法不僅不需要直接估計域分布,且能夠修正不同類型的域間差異[7]。圖1(b)~(d)給出了遷移學習過程:圖1(b)首先通過對整個數據集進行聚類分析,尋找數據結構信息;然后,圖1(c)按照一定的策略對每個聚類子類進行數據篩選,選取與測試數據集分布盡可能相似的數據用于分類模型的學習;圖1(d)使用重采樣的訓練數據所得到的模型分類識別效果有了較好的改善。

圖1 聚類分析與重采樣的遷移學習基本思路
如圖1(b)所示,通過在總數據集X上進行聚類分析來探求數據的固有結構信息,理論上可以采用任何具有良好性能的聚類算法,如同樣使用該遷移學習框架的BRSD(Bias Reduction via Structure Discovery)算法[7]就采用了基于DBSCAN(Density Based Spatial Clustering of Application with Noise)的聚類分析。
DBSCAN算法不用預先設定聚類子類個數,能夠挖掘不規則子類數據結構,具有更好的聚類性能。其主要思想是:從某一個核心點開始,然后最大化它的密度可達區域,從而形成一個內部只有核心點和邊界點且2點之間密度可達的新子類。如何在整個數據集中發現核心點對DBSCAN聚類的效果十分關鍵,通常定義近鄰個數大于閾值的數據xi為核心點,即滿足式(1)的數據點:
(1)
式中:近鄰基數C(xi)用于衡量xi近鄰集合的大小;門限值T可以通過所有數據點的近鄰基數平均值進行估計;M(xi,xj)表示xj對xi的近鄰歸屬度:
(2)
式中:d(xi,xj)表示數據xi與xj之間的距離;r為近鄰半徑,可利用有標記數據進行近似估計[7]。
如果xj在xi的鄰域內,則M(xi,xj)=1;否則為0,故而M(xi,xj)又稱為離散近鄰歸屬度,如圖2所示。

圖2 離散近鄰歸屬度
如圖2所示,由于沒有考慮鄰域內數據的距離差別,鄰域內所有數據的作用都是相同的,故而無法區分它們的差異性。在圖3中,大的實線圓表示鄰域邊界,xi1和xi2的近鄰個數相同但近鄰分布不同。由式(1)和式(2)可知,xi1和xi2的近鄰基數是相同的,但可以明顯看出它們的數據結構不同。利用離散近鄰歸屬度表征近鄰關系會造成數據近鄰結構信息的丟失,而這種信息可能會對學習具有重要的作用。在圖3(a)中,盡管xj和xk都非常靠近鄰域邊界,它們的離散歸屬度卻完全不同。若鄰域半徑變為r1,則xi1的近鄰基數就會從10變成20;而若鄰域半徑變為r2,近鄰基數會從10變成1,很可能導致xi1從核心點變為非核心點。離散近鄰歸屬度會使算法對參數r的取值過于敏感,進而對不同分布形狀和密度的數據魯棒性較差。但是參數r一般是很難精確得到或估算的,也就導致無法保證算法的性能。

圖3 不同數據分布的近鄰歸屬度
由于聚類算法的性能對數據結構信息的挖掘至關重要,針對離散歸屬度在挖掘數據結構信息時存在的缺陷,提出一種基于模糊近鄰密度聚類與重采樣的遷移學習算法(TL-FNDCReK)。該方法使用模糊近鄰歸屬度[8]代替離散近鄰歸屬度,以更好地挖掘數據結構信息用于目標域的學習。式(3)給出了一種線性模糊近鄰歸屬度:
(3)
式中:β(β>0)用于調節近鄰歸屬度對距離的敏感度,為了使M(xi,xj)在[0,1]內,β一般計算如下:
β=(1-m0)
(4)
式中:m0∈[0, 1],表示恰好處于鄰域邊界上的數據的近鄰歸屬度。
在鄰域內,M(xi,xj)對距離的敏感度與m0的取值成反比。圖4給出了線性模糊近鄰歸屬度的示意圖。

圖4 線性模糊近鄰歸屬度
通過式(3)和式(4)的定義,可以看出:鄰域內數據點的模糊近鄰歸屬度隨著其與中心數據的距離不同而不同,越靠近中心數據,其模糊近鄰歸屬度也越大,據此能夠較好地區分鄰域內數據的差異性。在圖3中,xi2的近鄰基數也會大于xi1的近鄰基數,更加符合實際的數據鄰域結構信息。并且,在圖3(a)中,如果m0趨于0,則靠近鄰域邊界的數據點無論在鄰域內外,其模糊近鄰歸屬度都趨于0,參數r的微小變化就不會對整個學習過程造成大的影響,有助于提高算法對參數r的魯棒性,進而能夠適應不同分布形狀和密度的數據。
此外,考慮到數據之間可能會存在非線性關系,導致數據距離與近鄰歸屬度的關系也可能是非線性關系,此時線性模糊近鄰歸屬度可能就無法適用。因而,式(5)給出一種非線性的模糊近鄰歸屬度,即指數模糊近鄰歸屬度:
M(xi,xj)=
(5)
式中:調節M(xi,xj)對距離敏感度的參數β(β>0)計算如下:
(6)
式中:m0=(0, 1],表示在鄰域邊界上的近鄰歸屬度。
圖5給出了指數模糊近鄰歸屬度的示意圖。
假設對數據集X進行聚類處理,得到聚類子類{C1,C2,…,CNC},其中子類個數為NC,第i個子類的數據個數為NCi。然后進行重采樣時,在每個子類Ci中優先選擇標記可信度高、數據代表性高的數據[7],選取數據的個數比例一般為源域樣本數與總樣本數的比值NS/N。首先,從每個子類中選擇一定數目(大于NCiNS/N)的標記可信度較高的數據。然后,再從中選擇NCiNS/N個數據代表性較高的數據加入到新訓練樣本集。在遍歷完所有聚類子類后,便完成了整個新訓練樣本的選擇過程。數據xi的標記可信度Rl(xi)為:
(7)

數據代表性Rp(xi)為:
(8)

由式(7)和式(8)可以看出,數據的標記可信度和代表性的計算其實就是一種相似性度量,是通過距離dist(·)來表征的,dist(xi,xj)越小,則xi與xj就越相似。BRSD算法計算dist(xi,xi)采用的是曼哈頓距離:
(9)
式中:xik表示第i個數據向量的第k個分量;d表示數據的特征維數。
distM(xi,xj)的值越小,則xi與xj之間相似性越高。
曼哈頓距離應用在早期的計算機圖形學中,將其用于衡量數據間的相似性則未必合適。圖6給出了在二維情況下,使用曼哈頓距離表征數據間相似性的示意圖。可以看出,相同相似度區域呈現菱形分布的特點,但這種分布使得與中心原點距離相同的2個數據點(圖中的2個黑點)卻與中心點具有不同的相似性。

圖6 基于曼哈頓距離和高斯核函數的數據相似性
針對曼哈頓距離不能很好地度量數據間相似性的不足,將高斯核函數用于數據相似性度量,使用式(10)代替1/(dist(·)+ε)進行相似性度量:
(10)
式中:參數σ用于控制高斯核函數的徑向作用范圍,一般取所有數據距離的平均值即可;sG(xi,xj)值越大,則xi與xj之間相似性越高。
高斯核函數具有更大的作用范圍,并且能夠實現數據的非線性映射,將原始低維特征xi和xj映射到具有無限高維的φ(xi)和φ(xj)。這種高維映射的特性,使得原本在原始低維空間不可分的數據能夠在高維空間中線性可分,因此高斯核函數比曼哈頓距離更適合用于衡量數據間的相似性,尤其在數據維度高或線性不可分時。圖6(b)給出了二維情況下的基于高斯核函數的數據相似性示意圖。
基于上述分析,表1給出了TL-FNDCReK遷移學習算法的基本流程。

表1 TL-FNDCReK遷移學習算法的基本流程
如圖7所示,本文將第1節提出的TL-FNDCReK遷移學習算法用于輻射源個體識別。

圖7 輻射源個體識別框架
截獲到敵方輻射源的信號后,接下來的任務是提取能夠表征輻射源細微特征的特征參數。經過提取大量輻射源細微特征進行對比,最終本文選取了包括非線性、非平穩和非高斯特征在內的3大類、6小類特征,具體為:包絡盒維數[9]、信息維數[9]、Lempel-Ziv復雜度[9]、高階R特征[10]、高階J特征[11]、Hilbert時頻能量參數[12]。圖8舉例給出了對某電臺輻射源數據所提取的特征。

圖8 電臺輻射源信號特征
如何利用提取的信號特征對輻射源個體進行有效識別是分類決策要解決的問題。在現實中,輻射源個體特征受時間、空間、應用條件等因素的影響,不同時間段某一輻射源設備具體組網方式、使用情況都不相同,不同時間段獲取的數據往往并不完全服從相同分布。然而,傳統機器學習的前提假設是數據始終符合相同分布,否則就難以達到可靠的分類識別效果。遷移學習不需要傳統機器學習的這種假設,能夠從與目標域不同但相似的源域數據中挖掘有用知識并遷移到目標域學習中。在分類決策階段使用遷移學習訓練分類模型,將有助于提高對輻射源個體識別的性能。為此,將本文第1節提出的TL-FNDCReK遷移學習算法用于輻射源個體識別的分類決策,提出了一種基于遷移學習的輻射源個體識別分類方法。在分類決策階段,基于遷移學習分類決策的數據處理流程如圖9所示。

圖9 基于TL-FNDCReK的數據處理流程圖
本文實驗采用的數據為外場實測電臺輻射源數據。
采集了2部不同工作頻率、不同說話人、不同傳播環境的同類型調頻電臺實測數據。電臺型號、批次相同,工作頻率為160 MHz和410 MHz。采用3個不同說話人形成基帶話音調制,分別在近距離有直達波和遠距離無直達波的傳播環境進行接收,接收機信道帶寬為100 kHz,發射信號帶寬為25 kHz,以204.8 kHz的采樣頻率進行采樣。采集到輻射源信號后,提取第2節所述的信號特征用作后續的分類決策。
在遷移學習實驗設置中,將160 MHz工作頻率的1號說話人遠距離無直達波電臺話音數據集作為目標域,并從每類數據中隨機選擇100個樣本作為目標域測試數據。源域則選擇與目標域不同的數據集:410 MHz工作頻率的1號說話人遠距離無直達波數據(Source 1)、160 MHz工作頻率的2號說話人遠距離無直達波數據(Source 2)、160 MHz工作頻率的3號說話人遠距離無直達波數據(Source 3)或160 MHz工作頻率的1號說話人近距離有直達波數據(Source 4)。選定源域數據集,再從每類隨機選擇NS=r′×100個數據作為源域數據,其中r′為源域訓練樣本數與目標域測試樣本數的比值,實驗中r′的取值范圍為[0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]。為了驗證所提算法對采用不同基分類器均有較好的性能提升,分別使用2種基分類器進行實驗:C4.5決策樹和樸素貝葉斯(Na?ve Bayes)。為簡化表述,將基于線性模糊近鄰歸屬度和基于指數模糊近鄰歸屬度的TL-FNDCReK算法分別用TL-Linear、TL-Exp表示。
將所提算法的2種類型TL-Linear、TL-Exp與Baseline和BRSD算法進行對比實驗。其中,Baseline表示直接使用源域數據作為訓練集訓練基分類器,然后對目標域數據進行分類識別,不存在遷移學習過程。表2~表5分別給出了選擇不同源域數據時,20次重復獨立實驗的識別準確率平均結果。不同方法間的識別率最大值用加粗字體表示。每個表格的最后一行給出了每一方法對訓練樣本個數的識別率平均值。

表2 源域數據采用Source 1數據集的分類識別率

表3 源域數據采用Source 2數據集的分類識別率

表4 源域數據采用Source 3數據集的分類識別率

表5 源域數據采用Source 4數據集的分類識別率
通過表2~表5可以看出,TL-FNDCReK(TL-Linear和TL-Exp)在大部分情況下都能夠有效地提高識別率,這主要歸功于其能更好地挖掘數據結構信息。Baseline直接使用源域數據而沒有考慮域間差別,其識別率大多數情況都很低。基于頻率變化、說話人變化(Source1、2、3)的識別率要高于傳播環境變化(Source4)的識別率,這可能是因為近距離有直達波的信號特征與遠距離無直達波的信號特征差別較大、可用于遷移的共同知識較少造成的。通過比較還可以發現,在TL-FNDCReK 2種類型中,TL-Exp的識別效果要略優于TL-Linear。總之,相比于Baseline和BRSD,TL-FNDCReK能夠取得更高的識別率,較好地完成了SEI任務。
圖10給出了訓練樣本不同個數時的平均識別率,可以看出,所有方法的識別率并不隨著源域樣本個數的增加而單調提高,甚至會有所下降。這種現象的一個可能解釋是:由于域間差異,從源域能夠遷移到目標域的有用信息是有限的。當源域數據達到一定數量時,源域就無法提供更多的有用信息,相反還會對目標域的學習造成干擾。

圖10 不同訓練樣本比例的平均識別率
在TL-FNDCReK的聚類分析過程中,模糊近鄰歸屬度的主要參數為m0,下面實驗分析m0對算法的影響。圖11給出了源域數據為410 MHz工作頻率的1號說話人遠距離無直達波數據,r′=0.2,基分類器為樸素貝葉斯分類器,m0分別取10-10、10-6、10-5、10-4、10-3、10-2、0.1、0.5、1的識別準確率。

圖11 參數m0對算法的影響
由于Baseline和BRSD使用的離散近鄰歸屬不存在參數m0,其識別率與m0無關。當m0趨于0時,TL-Linear的識別率趨于穩定,而TL-Exp卻一直在變化。這種差別是由它們的模糊近鄰歸屬度的性質不同決定的。如圖12(a)所示,在m0趨于0時,線性模糊近鄰歸屬度也都趨于相同,因而TL-Linear的識別率能夠趨于穩定。而不論m0如何趨近于0時,指數模糊近鄰歸屬度都有明顯的區別,如圖12(b)所示。當m0取非常小的正數時(如m0=10-10),處在r鄰域內相當大區域里的數據的指數模糊近鄰歸屬度都近似為0,即m0取值過小不僅改變了指數模糊近鄰歸屬度的性質,而且使實際起作用的r值變小。因此,在TL-Linear中,m0一般取0值即可;在TL-Exp中,同時考慮m0對近鄰歸屬度和r的影響,m0的取值一般不能太小,通常取[10-3,10-1]范圍內即可。

圖12 m0對模糊近鄰歸屬度的影響
立足于輻射源個體識別應用的特點,本文提出了一種基于遷移學習的輻射源個體識別分類方法。該方法通過聚類分析和重采樣從數據集中選擇新訓練樣本用于目標域學習,使用模糊近鄰密度聚類提高對參數選擇的魯棒性及不同分布數據的適應性,并使用高斯核函數度量數據間的相似性以提高新訓練樣本選擇的可靠性。通過實測數據實驗,驗證了該算法的性能。此外,在實驗結果的基礎上,通過理論分析,對源域樣本個數對識別性能的影響進行了分析,并指出了模糊近鄰歸屬度的重要參數m0的選取范圍。目前,TL-FNDCReK方法仍有進一步研究的方向,如更加有效地估計參數r,更有效的重采樣策略等。