(1.四川大學電子信息學院, 四川成都 610064; 2.中國人民解放軍77618部隊, 西藏拉薩 850000)
雷達信號分選是指將接收機接收到的各種雷達信號采取適當的分選辦法,按照不同輻射源一一區分開來的過程。傳統的雷達信號分選方法是對脈沖參數進行預處理,然后根據脈沖間隔PRI的交錯進行主處理,從而實現信號分選。然而,隨著信息化裝備平臺的廣泛運用,戰場電磁環境日趨復雜化,傳統的信號分選方法已不再適用于現有信號分選工作。
聚類分析是利用未知數據對象之間的關系,將數據性質相似的聚集成一類的分類行為,是數據挖掘的重要方法之一[1]。在探索新的雷達輻射源信號分選算法過程中,許多學者提出將聚類分析應用于雷達信號分選,如傳統聚類算法的基于迭代自組織數據分析聚類[2]、仿生優化算法中的人工魚群聚類算法[3]、群智能算法的粒子群優化算法[4]等都能夠很好實現未知雷達輻射源信號的聚類分選。
本文則是首先介紹國內學者對傳統的聚類算法及其改進算法在雷達輻射源信號分選中的應用和理論研究成果,再歸納總結提出了選擇最優聚類分選算法的參考標準和意見。
聚類分選因對先驗知識要求小、大數據處理能力較強且具有無監督的分類的優勢而被應用到雷達輻射源信號分選。傳統的聚類分選可大致分為劃分、層次、網格、密度、模型、圖論六類算法,其中前四類算法及其組合常應用于雷達輻射源信號分選。
劃分法是對給定的脈沖數據集N,先基本劃分為K(K≤N)類,然后通過迭代重定位技術重新劃分,直到找到局部最優的聚類方法。劃分聚類算法里最具有代表性的是K-Means算法和FCM算法,其中FCM算法本質上是對K-Means算法的改進,所以本文以K-Means算法為例介紹其算法流程,如圖1所示。

圖1 K-Means聚類法流程圖
1.1.1 基于K-Means算法的雷達信號分選
1967年,Mac Queen首次提出了K-Means聚類算法,這是一種非監督實時聚類算法,具有快速收斂、分類迅速、計算簡單等優點[5],但是該算法因需要人為設定聚類數、對異常數據敏感、易陷入局部最優解等缺點而不能直接應用于未知雷達輻射源信號的分選。因此,為了達到未知信號聚類分選的目的,部分學者針對其缺點提出了一些基于K-Means聚類算法的改進算法。
針對需要人為設定聚類數和類中心的缺點,文獻[6]采用加權毆氏距離和距離閾值、文獻[7-8]利用數據場理論、文獻[9]引入蟻群算法、文獻[10]采用基因表達式編程、文獻[11]采用SVC算法的方式都能夠很好地自動完成簇數和類中心的選取,然后再利用K-Means算法均很好地實現了未知雷達輻射源信號的分選,但不可避免地都帶來了計算時間較長、相關參數設置較難的問題,有待進一步解決。另外,針對該算法在分選雷達輻射源信號時存在的其他缺點,文獻[8]采用灰關聯度代替歐式距離,提高數據之間相似性的判斷;文獻[12-13]分別使用人工蜂群算法和免疫規劃算法與K-Means算法相結合,有效避免了陷入局部最優解的同時也降低了對初始聚類中心的依賴性;文獻[14]提出的改進K-Means算法能夠有效克服孤立點對聚類的影響同時有效提高分類效率。
在研究雷達輻射源信號聚類分選時,K-Means算法的改進算法理論研究成果相對較為成熟,且都具有一定工程應用價值。
1.1.2 基于FCM算法的雷達信號分選
模糊C均值聚類(Fuzzy C-Means,FCM)算法是由Bezkek于1974年提出,并經Baraldi改進推廣[15]。FCM算法和K-Means算法一樣,也存在著需要預先人為設定聚類數目、易陷入局部最小等問題,不能夠直接應用于未知雷達輻射源信號的分選。因此,為了完成對雷達輻射源信號的聚類分選工作,需在該算法的基礎上加入其他技術綜合使用或者對算法加以改進。
文獻[16-17]采用Chriplet時頻原子與入侵雜草智能算法相結合的分配技術、文獻[18]利用粒子群優化算法的全局優化能力、文獻[19]介紹了核函數思想并采用人工魚群算法和文獻[20]利用數據場理論并聯合云模型都能有效解決聚類中心自動選取的問題,通過FCM算法均能夠很好實現雷達信號的聚類。這些改進算法減少了人為因素對分選時的干擾,分選正確率有所提高,但計算時間相對有所延長,分選效率有待提高。而文獻[21]則引入誘導矩陣,采用自適應距離準則,利用拉格朗日乘法優化目標函數,在FCM算法的基礎上提出了G-K聚類算法,具有更高的分選正確率,但是由于聚類數目仍需人為設定,可用范圍有限。
基于FCM算法的改進算法屬于模糊聚類,先驗知識需求較少,同時具有較強抗干擾能力,在一定程度上解決了雷達信號分選的問題,實用性較K-Means算法有一定提高。
層次法是在給定的數據集N中,判斷數據點之間的距離值d是否小于給定的距離閾值以確定是否屬于同一類的方法。算法初始閾值設置為0,所有數據各為一類,分類完畢以后給閾值一定增量Δ,再次完成數據分類,通過計算每次分類的評價指標Q來找到最優分類,實現數據自動聚類,其中Δ和Q的設置可以參考文獻[22],算法流程如圖2所示。

圖2 層次聚類法流程圖
該算法可有效處理任意形狀數據集,不依賴相似度,可以靈活應對各種聚類粒度的數據,但是在復雜情況下相關參數設置困難,運算量大,且不能實現增量式聚類。
在研究雷達輻射源信號聚類分選時,國內學者對層次聚類算法的應用還相對較少。文獻[22]提出的層次聚類方法實現未知雷達輻射源信號的分選,根據實驗仿真結果可知僅對參數固定和參差變化雷達具有良好分選效果,使用范圍有限;文獻[23-24]是考慮復雜電磁環境條件下,提出了利用數據場理論的層次聚類方法,有效解決了信號分選“增批”的現象,優化了分選參數選擇;文獻[25]則在脈內細微特征運用的基礎上,將灰關聯分析運用到分裂式層次聚類算法進行雷達信號聚類分選,該方法有較高的分選效率和正確率。
1.3.1 網格聚類法
網格聚類法[26]是將歸一化后的樣本數據集N映射到劃分好的K個網格單元,通過分析網格之間的密度閾值MinPts與給定的閾值ε的關系,去除低密度網格,連通相鄰的高密度網格,從而實現數據聚類的算法,其流程大致如圖3所示。

圖3 網格聚類法流程圖
該算法能夠識別任意形狀的簇,有效消除干擾數據的影響,且運算速度快、正確率高。但是,人為設定網格大小和密度閾值也限制了分選的精確度,在未知雷達輻射源信號分選時,易出現“漏批”的情況,針對此情況,文獻[27-29]提出了多種動態生成網格、自動生成密度閾值、優化網格邊界的改進算法,有效解決了雷達輻射源信號分選時人為干擾因素的影響,分選正確率高、速度快,適合大規模數據的分選。此外,文獻[30]在原有網格聚類的基礎上提出了雙密度閾值策略,利用邊緣稀疏網格優化方法,提高了雷達輻射源信號聚類精度及其抗干擾能力;文獻[31]采用表征信號的脈內特征相像系數與網格聚類法相結合的方法,能夠對參數交疊嚴重的雷達脈沖信號進行有效分類,并且滿足工程實施的要求。
1.3.2 密度聚類法
密度聚類法是以數據集在空間分布上的稠密程度為依據而進行的聚類[32],該算法不需要預先設定簇的數量,先驗知識的需求較少。學者在研究雷達輻射源信號聚類分選時,多以DBSCAN聚類算法[33]為基礎,其流程如圖4所示。

圖4 DBSCAN聚類算法流程圖
DBSCAN聚類算法在處理分布不均勻的雷達信號時,易出現“漏批”情況,文獻[34-35]均針對這個問題提出了理論上可解決的方法。其中,文獻[34]采用的自適應密度閾值的方法,文獻[35]則是采用近類點和模糊點的改進算法,均能很好實現雷達信號的聚類,并對噪聲不敏感,不過,密度閾值和最佳鄰域半徑的自動設定是該算法急需解決的實際問題。此外,該算法在實現大數據聚類分選時,計算量較大、難以實時分選,文獻[36]提出用一定量的參考點代表一定領域范圍內的數據點,建立兩種之間關系,利用廣度優先搜索算法完成信號聚類的改進算法,一定程度上減少計算量、縮短計算時間,同時保證較高的分選正確率。
鑒于密度聚類能夠有效識別任意形狀的聚類和噪聲信號以及網格聚類的分選速度快、伸縮性好的優點[30],部分學者在研究雷達輻射源信號分選時,提出了將兩者結合起來使用的觀點并作了一定推廣運用。例如,文獻[37]運用的改進的網格密度聚類方法,高效、快速地實現了未知雷達輻射源信號分選工作;文獻[26]分別提出了固定網格密度聚類法、動態網格密度聚類算法及其改進算法來應用于雷達輻射源信號分選,而其中改進的動態網格密度聚類算法對先驗知識要求低,識別信號能力強,聚類精度高、速度快,適用范圍較廣;文獻[38]則運用了自適應網格密度聚類來實現雷達輻射源信號的聚類分選,能夠有效處理大規模雷達信號數據集,且有良好的抗噪聲性能;文獻[39-40]則是在基于網格密度聚類的思想基礎上,分別采用了滑動窗口機制和動態網格生成技術,并利用雙密度閾值提高精度,有效實現了雷達輻射源信號的動態聚類分選。
網格密度法由于其聚類本質是密度閾值的判定,因此如何利用信號數據本身實現密度閾值的自動提取還值得深入探究。
對上述應用于未知雷達輻射源信號分選的傳統聚類算法分析后,可得結論如表1所示。

表1 傳統聚類算法分析
現代戰場環境中,雷達信號愈發密集,信號之間交疊愈發嚴重,實現雷達信號聚類分選時的特征參數選擇至關重要,這將直接影響分選的有效性[41]。另外,在選擇合適的聚類算法時,為了提高分選的效率和質量,充分考慮分選影響因素能夠有效避免在計算時浪費資源、增加計算難度等問題。
常見的雷達信號參數主要包括脈沖間特征參數、脈內特征參數以及極化特性等。
2.1.1 脈沖間特征參數
雷達信號脈沖間特征參數包括瞬時參數和二次測量參數,其中,瞬時參數主要是脈沖描述符PDW(到達方向DOA、到達時間TOA、載頻RF、幅度PA、脈寬PW),二次測量參數則有脈沖重復間隔PRI、天線掃描周期ASP等[42]。其中,PA在測量時因受外界因素影響非常大,往往不作為聚類分選參數考慮。
實施崗位管理包括進行系統的崗位調查、崗位信息的采集、崗位分析等。醫院人事處處長王慧卿介紹,北醫三院聯合中國人民大學勞動人事學院于2013年5月至2014年9月啟動全院員工崗位分析項目,通過訪談法、問卷調查法、資料回顧法等對全院93個科室進行崗位分析,完成“部門職責說明書、核心崗位架構圖、核心崗位說明書”的編寫,形成了醫院人力資源管理的基礎性文件和可持續應用工具。在崗位說明書中,結構化定義了崗位的基本信息、工作描述、在組織中的位置等要素內容。
2.1.2 脈內特征參數
脈內調制參數主要包括脈內有意調制和脈內無意調制兩類[43]。脈內有意調制是為了提高雷達檢測性能和抗干擾能力而采取的特定調制樣式,主要包括相位調制、頻率調制、幅度調制以及3種調制的組合調制方式等;脈內無意調制又稱為指紋特征[44],具有唯一性、可測量性、普遍性、穩定性等特點,主要包括了頻率穩定度、高階譜分析、信號包絡等特征參數。
2.1.3 極化特性
雷達常用的極化方式[45]主要包括4種形式,分別是垂直極化、水平極化以及左、右旋圓極化,但是雷達后向散射波是橢圓極化。極化特性不會隨著信號的頻率、幅度、相位、波形等變化而發生變化[43],只與輻射源天線有關,因此能夠在一定程度上反映雷達輻射源的類別和屬性。
2.2.1 數據量規模
現代戰場是一個信息化、電子化、數字化的戰場,各種電子信號變化多端、充斥其間,電磁脈沖數量早已達到百萬級每秒甚至更高。未知雷達輻射源信號分選直接關系著決策者的決議,所以在選擇聚類算法時必須考慮其伸縮性,不僅對小規模數據能夠實現實時、高效的分選,對于大規模數據也能有良好的分選效果。
2.2.2 數據簇形狀
現代戰場是海陸空天多維戰場,雷達數據參數實時多變,數據場景并不是常見的球形簇或者凸形簇,這也導致部分聚類算法不能實現有效分選。所以在選擇聚類算法時,為了保證分選的準確性,建議選擇能夠發現任意形狀簇的聚類算法[46]。
2.2.3 異常數據處理
雷達接收機在接收信號時,除了雷達輻射源的信號以外,還包括雜波、噪聲等干擾信號,另外接收機自身在處理信號時也會產生噪聲。在實現信號聚類之前,接收機需對信號的相關特征參數進行測量,其中的噪聲信號和錯誤數據易導致異常數據點或孤立點的出現,因此,在選擇聚類算法時必須考慮該算法對異常數據的處理能力,盡量選擇對異常數據不敏感的聚類算法[46]。
2.2.4 相似度測量
在部分聚類算法中,選擇一個合適的相似度測量方法能夠直接影響聚類效果的質量。而在研究未知雷達信號聚類時,常見的相似度測量方法有歐式距離、Minkowsky距離[47]、海明距離[48]、灰關聯度[8,25]以及相像系數[49-51]等。每種測量方法在計算相似度值都預先設置適當的權重參數,以便提高簇質量。
2.2.5 其他因素
其他因素包括多維數據處理能力和數據輸入順序。目前常用的雷達信號聚類算法都是基于兩維或三維的數據,對高維數據處理要求相對較低。另外,部分聚類算法對數據輸入順序有要求,這并不滿足在戰場上對雷達信號實時聚類的要求。
在實現雷達信號聚類分選時,單個傳統聚類分選算法基本上是無法有效完成分選任務,如K-Means聚類算法不能發現非凸面形狀的簇[52],DBSCAN聚類算法不能分選密度不均勻的數據簇。所以,在選擇聚類算法時,首先考慮接收數據集的特征參數選擇,選擇代表性強的特征參數能夠為后面算法計算減輕壓力、提高效率;其次是綜合考慮上述的外在影響因素,減小分選時“增批”“漏批”的可能性,提高分選的正確率、實時性;最后是在傳統的聚類分選算法上,引入恰當的智能算法,形成智能聚類分析,可以有效解決對先驗知識的依賴性的問題,減少人為因素的干擾。
此外,除了運用傳統的聚類算法及其改進算法對未知雷達輻射源信號進行聚類分選,單獨基于支持向量聚類[11,53-59]、數據場聚類[60-62]、BFSN聚類[63-66]、集對分析聚類[67-68]、神經網絡聚類[69-72]和模糊聚類[73-78]等方法也受到學者關注,提出了一些理論研究成果,同樣值得關注。
近年來,隨著軍事科技的快速發展,各種新體制雷達層出不窮,更新換代愈加頻繁,雷達信號分選面臨著嚴峻的挑戰和考驗。屬于無監督學習的聚類分選正好滿足未知環境下雷達信號缺乏先驗知識的特性,同時與智能算法的有機結合能夠很好地勝任雷達信號的分選工作。本文介紹了近年來國內學者對傳統的聚類算法的改進算法在雷達信號分選中理論研究成果,分析了聚類算法的影響因素,提出了算法選擇的意見,在以后的拓展研究具有一定的參考意義。