閆勝剛,田 田,張 冉,賈 然
(中國船舶集團有限公司第八研究院,南京 211153)
輻射源編批是指將多個分選間隔內由信號分選生成的所有輻射源描述字(Emitter Descriptor Word,EDW)按照一定的規則進行合并、關聯及更新,以生成最終的目標EDW,每個目標EDW都賦予一個唯一的批號。EDW關聯的準確性是決定輻射源編批效果的關鍵:一方面,現有編批算法通常基于預設的“信號參數容差”(載頻、重復周期、脈寬等)計算相似度,而“信號參數容差”易受到雷達發射機的工作模式、反偵察波形設置以及接收機所處的電磁環境、接收機體制、性能和工作狀態等眾多因素的影響,因此,準確地分析和設置“信號參數容差”較為困難[1];另一方面,受制于輻射源天線和截獲接收機天線不同的掃描方式、掃描周期等原因,對某個輻射源的截獲可能并不是連續存在的,現有編批算法在編批時并沒有考慮當前目標與歷史編批目標的關聯性,表現在對某個目標編批時,即使該目標曾經成功編批(但當前已刪除),還是會賦予該目標新批號,導致同一個輻射源不同時刻具有不同批號,影響了編批準確率。
針對上述問題,提出一種基于長時聚類關聯的輻射源編批方法,通過單個聚類間隔內的EDW聚類提高EDW關聯的準確度,通過多個聚類間隔間EDW聚類結果的關聯、合并和更新,實現長時間維度上的輻射源信號碎片關聯,提高輻射源編批準確率。
已有的研究大多將聚類算法用于對截獲的PDW數據進行聚類預分選或分選[1-2],缺乏利用聚類算法對EDW數據進行聚類編批方面的研究。事實上,聚類算法作為機器學習的一個重要分支,計算量通常比較大,具有較高的時間復雜度,在計算資源有限的情況下并不太適合實時性要求較高且數據量較大的處理場景,典型如PDW數據處理;相反,若對EDW進行聚類,由于數據量得到了極大降低,可以保證實時性。
從聚類觀點思考,每個輻射源相當于一個信號類,每個分選生成的EDW相當于對應輻射源的一次觀測樣本,每個EDW的參數個數相當于可供聚類選擇的特征維數。由于EDW數據屬于流式數據,因此對EDW進行聚類編批屬于流式數據處理,必須設定聚類時間間隔TL,對各個聚類間隔內的EDW數據進行實時聚類以生成類EDW,然后再將多個聚類間隔間的類EDW數據進行關聯和更新,以實現目標編批。
長時聚類關聯的輻射源編批流程如圖1所示,與原有編批流程相比,增加了EDW聚類相關的操作:當達到聚類時間間隔時,對當前聚類間隔內的所有分選EDW進行聚類,得到聚類結果(用類EDW表示);新生成的分選EDW與聚類結果進行關聯,關聯成功打上類標識;對于有類號標識的EDW直接編批輸出,未關聯成功的無類號的分選EDW按照原有流程進行航跡起始后編批輸出。

圖1 長時聚類關聯的輻射源編批流程圖
新增的各個模塊及其功能簡述如下:
(1)分選EDW聚類:對當前聚類間隔TL內的所有分選EDW進行頻率和PRI二維聚類。
由于實際環境中脈寬測量不準的概率較大,所以沒有引入脈寬進行三維聚類。采用DBSCAN密度聚類算法[3],形成當前間隔TL的EDW聚類結果,用ClusterNew表示。頻率以M為單位,重復周期以μs為單位,計算歐幾里得距離,以此得到聚類時任意兩個EDW間的距離。每個EDW類記錄的參數值包括該EDW類的載頻最小、最大值,重復周期最小、最大值,脈寬最小、最大值,方位最小、最大值,類中包含的EDW個數等。
(2)EDW類關聯:將當前EDW聚類結果ClusterNew與已有聚類結果ClusterOld進行關聯。
對于ClusterNew中每個EDW類CluNewi,若其能夠與ClusterOld中的某個類CluOldj關聯成功,則更新CluOldj;否則將CluNewi加入到ClusterOld中。其中關聯條件設置為:兩個EDW類的載頻最小值之差、最大值之差都小于預設閾值或者兩個類的載頻范圍存在交集,且兩個EDW類的重復周期范圍也存在交集。
(3)EDW類合并:關聯后的EDW類可能存在載頻范圍或重復周期范圍參數重疊的情況,需要對EDW類進行合并。
(4)EDW與EDW類關聯:將單個分選EDW與當前的EDW類進行關聯,若關聯成功,則打上類號,否則不做處理。
算法的“長時”聚類關聯主要體現在兩個方面:(1)單個聚類間隔設置為較長的時間,通常為單個掃描周期的幾十倍,以積累足夠多的EDW樣本,提高聚類結果的準確率;(2)每個聚類間隔新生成的類EDW與已生成的類EDW進行關聯,以實現更長時間維度上(多個聚類間隔)類EDW的關聯和更新。
算法中涉及的分選EDW、目標EDW和類EDW的區別如表1所示。

表1 分選EDW、目標EDW與類EDW的區別
采用DBSCAN密度聚類算法設置鄰域參數和密度參數。
鄰域參數epsilon的設置對聚類結果有較大影響:設置較大會將屬于不同類的EDW聚到同一個類中;設置較小又會產生較多的類,將同屬于一個類的EDW分割到多個類。
基于外場采集數據開展大量測試,獲取了不同參數設置情形的仿真結果,限于篇幅,此處只給出一組典型數據的聚類結果。
圖2、圖3中每個不同顏色、不同圖例的所有點為一個EDW類,當設置epsilon=20、MinPts=15時,PRI為1 000 ms附近的EDW只被聚成了一個類。圖3為圖2的放大版,可以發現1 000 μs附近的EDW應該屬于兩個類,因為一個真實的輻射源基本上不可能出現圖3這樣類似于“直角”形狀的EDW分布情形,其更可能是由兩個輻射源所形成的EDW分布情形。為此,減小epsilon參數值,設置epsilon=10、MinPts=10,聚類結果如圖4、圖5所示。可以看出,PRI為1 000 ms附近的EDW聚成了兩個類,更符合實際情形,表明epsilon=10的設置能夠提供更好的EDW聚類隔離度。經大量數據測試后,最終選定epsilon =10。

圖2 周期1聚類結果(epsilon=20,MinPts=15)

圖3 周期1聚類結果(epsilon=20,PRI為1 000 s附近)

圖4 周期1聚類結果(epsilon=10,MinPts=10)

圖5 周期1聚類結果(epsilon=10,PRI為1 000 s附近)
同樣對外場采集數據進行測試,此處給出一組典型數據的測試結果,該段數據共有7 205個EDW,分別測試其在epsilon=10和不同MinPts參數下的聚類情形,測試中不再進行分時段的聚類,而是將所有EDW作為DBSCAN聚類的輸入,只進行一次聚類,以更好地驗證MinPts參數對聚類結果的影響。不同MinPts設置時的聚類個數和噪點個數如圖6所示。

圖6 MinPts設置對聚類個數和噪點個數的影響
可以看出,密度參數MinPts減小導致聚類個數增加、噪點個數減少,這是因為隨著密度參數的減小,有更多的噪點能夠被聚成類。事實上,若聚類間隔為TL,單個周期間隔為TS,截獲概率為α,則密度參數MinPts應滿足

(1)
綜合上述考慮,經過大量數據測試,最終選取MinPts=10。
在VxWorks環境中加入被動數據處理程序,在此基礎上編程實現長時聚類關聯的編批算法。采用數據回放模式,導入12組外場采集的真實數據進行輻射源編批實驗。
圖7顯示了12組數據作為輸入時,分別利用長時聚類關聯編批算法和原有編批算法的輻射源編批結果,可以看出前者極大地降低了輻射源的編批數量。為了對該結果進行進一步驗證,挑選第1組數據(即圖7中的數據1)中部分輻射源的編批數據進行詳細分析,結果如表2所示,可以看出單個輻射源的編批數量得到了降低。

表2 數據1部分輻射源編批數比較

圖7 輻射源編批結果對比
選取數據1中一個典型輻射源(標識為輻射源A,對應于表2中序號為3的輻射源)的編批結果進行詳細分析。該數據時長約4.5 h,共723個周期,并在第28個周期生成了第1次的聚類編批結果,因此只分析28周期之后的輻射源編批數據。輻射源參數為載頻3 020~3 040 M,重復周期1 754 μs,采用聚類關聯編批算法前后的編批情況如表3所示,其中采用傳統編批分配了17個批號,采用聚類編批只分配了一個批號,與表2數據一致。

表3 輻射源A編批結果對比
對采用傳統編批出現17個批號的原因分析如下:
(1)該輻射源并不是每個周期都被截獲。例如表3中的批號3 023、3 024、3 025一直到批號3 117,都是該輻射源在不同時間段內被賦予的批號,在起始建批后,因為一段時間沒有被截獲到,從而被刪除,再次起始建批時就被分配了與之前完全不同的批號,即原有編批算法在建批時并沒有考慮到當前輻射源與歷史編批輻射源的關聯性。
(2)同一輻射源被分選成了兩批或多批目標,典型如批號3 020和3 021,兩批目標的存在時間有很大的重疊。經數據分析是因為兩批目標的載頻相差較大,超過了原有編批算法中EDW關聯計算設置的載頻容差,因而被認定為是兩批不同的目標。
對于第1種情況,長時聚類關聯編批算法在運行時會存在1個EDW類緩存,該緩存中存儲了算法自運行開始期間就存在的EDW類,且該緩存每個聚類間隔都會更新;即使某個輻射源不是一直截獲,但其每次建批時都要與已有的EDW類進行關聯,關聯成功則賦予該類號對應的初始批號,避免了同一輻射源不同時間段具有不同批號的問題。
對于第2種情況,DBSCAN算法通過密度聚類實現EDW間的關聯,其實質是通過數據自身的分布情況進行分類識別,不再受固定“信號參數容差”的限制,能夠更好地識別屬于同一個輻射源的EDW,此例輻射源A載頻相差20 M仍能聚為一類。這種特性也對重復周期有效,例如相控陣雷達常用的反偵察波形措施之一就是在預設的PRI上進行幾微秒左右的抖動,這種情形若采用“容差”,則EDW關聯失敗的概率較大,而采用本文的密度聚類及參數設置仍然可以聚為一類。
本文提出一種基于長時聚類關聯的輻射源編批方法,基于真實采集數據的回放實驗表明其對改善信號增批率效果顯著。該算法能夠大幅降低輻射源目標批數的原因主要是以下兩點:
(1)長時聚類關聯編批算法在編批時考慮了與歷史編批目標的關聯,避免了同一輻射源因截獲不連續導致的不同時刻具有不同批號的問題;
(2)相對于基于“信號參數容差”的EDW關聯算法,聚類算法通過更為準確的EDW密度聚類,降低了同一個目標分配多個不同批號的概率。
對于能夠實現頻率快速捷變的有源相控陣雷達輻射源,長時關聯聚類編批算法在捷變頻模式作為先驗信息輸入的情形下,能夠更好地解決此類復雜輻射源的編批問題,此時須結合頻率捷變的跳變幅度等信息對聚類的鄰域參數epsilon進行優化設置,這也是后續研究方向。