吳連慧,周秀珍,宋新超
(中國船舶重工集團公司第七二三研究所,江蘇 揚州 225101)
雷達信號分選是由多部隨機交錯的脈沖信號流分離出各單部雷達輻射源脈沖的過程[1]。雷達信號分選分為預分選和主分選。傳統(tǒng)的雷達信號預分選一般采用小盒法[2]。小盒法簡單易行,但是由于采用固定容差的方式,聚類形狀固定,容易引起邊界效應,造成增批和漏批現(xiàn)象[3]。
聚類分析[4]是數(shù)據(jù)挖掘中的重要技術,基本思想是根據(jù)數(shù)據(jù)對象之間的相似性,將數(shù)據(jù)樣本分成不同的簇,使得同一簇內差異盡可能小,不同簇中差異盡可能大。利用聚類分析可以彌補傳統(tǒng)預分選方法的不足。
文獻[5]提出了一種改進的DBSCAN聚類分選方法,減少了參與聚類運算的數(shù)據(jù)個數(shù),提高了未知雷達信號的聚類分選速度。然而由于DBSCAN對參數(shù)敏感,使得該方法不能有效作用于密度差異較大的雷達信號。文獻[6]提出了一種基于近類點和模糊點的未知雷達信號分選算法,能夠發(fā)現(xiàn)密度不均勻的聚類,但分選速度有待提高。
針對以上不足,本文結合雷達信號本身各參數(shù)的特點,采用基于密度的OPTICS算法,并進行網格單元劃分,采用兩級處理,縮短運行時間。這是一種能夠克服邊界模糊效應,得到任意聚類形狀的雷達信號預分選方法。
OPTICS算法是一種由DBSCAN算法發(fā)展而來的密度聚類算法[7-8],引入了核心距離和可達距離的概念。通過建立增廣數(shù)據(jù)集排序(可達圖)[9]來表示它基于密度的數(shù)據(jù)結構,可達圖可以看作一系列參數(shù)設置的基于密度的聚類[10-11]。
使用OPTICS算法進行雷達信號預分選的核心思想是:從一個隨機選定的脈沖出發(fā),朝著脈沖最為密集的區(qū)域擴張,最終將所有同類的脈沖組織成可視化有序序列。
基于OPTICS聚類的雷達信號預分選過程如下所述。
輸入脈沖數(shù)據(jù)集{vi},i=1,2,…,N,其中vi為脈沖描述字(PDW)中載頻(RF)、到達角(DOA)、脈寬(PW)構成的三維空間,N為總脈沖樣本個數(shù)。
歐式距離計算。設置ε為半徑,MinNp為同一聚類的最小脈沖數(shù),計算每個脈沖樣本vi與脈沖數(shù)據(jù)集所有樣本的歐式距離公式如下:
(1)
式中:j=1,2,…,N;fri代表vi的RF特征量;doai代表vi的DOA特征量;wpi代表vi的PW特征量。
核心距離計算。用Nε(i)表示d(vi,vj)中距離小于半徑ε的脈沖樣本數(shù)。若|Nε(i)|≥MinNp,即半徑ε內脈沖樣本數(shù)超過最小脈沖數(shù)門限,則vi為核心對象。脈沖樣本vi的核心距離是指vi成為核心對象的最小εi′。如果vi不是核心對象,那么vi的核心距離沒有任何意義。核心距離為:
(2)
式中:MinNp是自然數(shù),MinNp-d(vi)表示vi到其最鄰近的MinNp個鄰接點的最大距離。
可達距離計算。脈沖樣本vj到脈沖樣本vi的可達距離是指vi的核心距離εi′和vi與vj歐式距離之間的較大值。如果vi不是核心對象,vi和vj之間的可達距離沒有意義。可達距離公式:
dr(vi,vj)=
(3)
核心距離和可達距離示意圖如圖1所示。已知半徑ε,最小脈沖數(shù)MinNp=4。A的核心距離為ε′(A)=d(vA,vB),C到A的可達距離dr(vA,vC)=εi′(A),D到A的可達距離dr(vA,vD)=d(vA,vD)。

圖1 核心距離和可達距離示意圖
有序種子隊列建立和結果隊列生成。將待處理的脈沖樣本按照可達距離升序排列得到有序種子隊列,總是選擇可達距離最小的脈沖進行處理,使得聚類朝著脈沖最為稠密的區(qū)域擴張。直到處理完當前稠密區(qū)域,才會探索稀疏的邊界,進入下一個稠密區(qū)域。根據(jù)有序種子隊列,生成結果隊列,用以存儲聚類結果。
脈沖聚類標記數(shù)組{mi}的獲得。通過識別結果隊列中陡峭下降沿和上升沿區(qū)域來提取聚類,得到脈沖聚類標記數(shù)組:
(4)
式中:k=1,2,…,K,表示聚類個數(shù),如圖2所示。
脈沖聚類通道劃分。根據(jù)聚類標記數(shù)組{mi},將脈沖數(shù)據(jù)集{vi}進行分類,送往聚類緩沖區(qū)中聚類號所對應的通道中,從而實現(xiàn)信號預分選。

圖2 聚類通道緩沖區(qū)示意圖
由于DBSCAN對參數(shù)敏感的特點決定了該方法不能有效作用于簇密度差異較大的脈沖數(shù)據(jù)集中,繼而不適用于復雜體制雷達的信號分選。OPTICS算法雖然在一定程度上克服了DBSCAN對參數(shù)的敏感性,但是應用到信號分選中存在著一些不足之處。當脈沖密度過大時,處理時間比較長。
本文提出一種網格化的思想:將RF、DOA和PW劃分成網格單元,以網格的質心代替網格中數(shù)據(jù)點的集合[12],將落在某個單元中的脈沖個數(shù)當成這個單元的密度。最后,利用OPTICS算法輸出簇排序的可達圖。由于脈沖集合有效壓縮,因此使得算法運行速度得到提高。
設網格單元RF分辨率為Δfr,DOA分辨率為Δda,PW分辨率為Δwp。輸入脈沖數(shù)據(jù)集{vi},i=1,2,…,N,其中vi為脈沖描述字(PDW)中載頻(RF)、到達角(DOA)、脈寬(PW)構成的三維空間,記作vi={fri,doai,wpi},N為總脈沖樣本個數(shù)。

(5)
式中:Cntl為單元內的脈沖個數(shù);SRFl為單元內所有對象的RF之和;SDOAl為單元內所有對象的DOA之和;SPWl為單元內所有對象的PW之和。
將網格單元中有脈沖(Cntl>0)的單元格取出來,生成壓縮后的脈沖數(shù)據(jù)集{wm},m=1,2,…,M,對應脈沖數(shù){cntm},m=1,2,…,M,其中wm={frcm,doacm,wpcm},M為壓縮后的網格單元數(shù)。相關參數(shù)對應公式(5)。
(6)
式中:frcm,doacm,wpcm,cntm分別為第m個有脈沖(Cntl>0)的單元格的載頻質心、方位質心、脈寬質心和單元格脈沖數(shù)。
對壓縮后的脈沖數(shù)據(jù)集進行OPTICS算法處理,計算核心距離和可達距離時,考慮計數(shù)值的影響。
網格單元脈沖數(shù)生成示意圖如圖3所示。圖3左側表示原始脈沖的RF和DOA關系,進行網格單元劃分后,記錄每個單元的質心和脈沖數(shù),如圖3右圖所示。

圖3 網格單元脈沖數(shù)生成示意圖
針對密度不均的雷達信號分選,當信號環(huán)境存在噪聲時,采用網格單元劃分的OPTICS算法對高密度分選有效,但對低密度信號效果不明顯。本文提出一種兩級OPTICS網格單元處理方法。基本思想是:一級OPTICS網格單元處理,將高密度信號分選處理,并進行網格過濾;將低密度信號和噪聲流入第二級處理,進一步累積,若為低密度信號,繼續(xù)累積存在一定的規(guī)律,若為噪聲,則繼續(xù)累積也沒有規(guī)律。圖4為兩級OPTICS處理示意圖,網格顏色越深,表示脈沖數(shù)越多。

圖4 兩級處理示意圖
為了驗證聚類算法的有效性,本文進行仿真實驗。
雷達參數(shù)設置如表1所示。

表1 雷達參數(shù)信息表
從表1可以看出,不同屬性維度上4部雷達都相互混疊,相同時間內,雷達1和雷達4脈沖數(shù)多,雷達2和雷達3脈沖數(shù)少。采用DBSCAN聚類進行雷達信號分選,若ε設置偏小,則分選出雷達1和雷達4,而認為雷達2和雷達3是噪聲,沒有分選成功;若ε設置偏大,能夠分選出雷達2和雷達3,但雷達1和雷達4合并成一批了。
采用OPTICS聚類進行雷達信號預分選可達圖如圖5所示。通過識別結果隊列中陡峭下降沿和上升沿區(qū)域,可以看出共有4部信號。每部信號對應的脈沖數(shù)與設置相同。

圖5 OPTICS聚類的雷達信號預分選可達圖
對表1脈沖進行網格單元劃分,將脈沖依次添加到網格單元中,計算出單元的質心和脈沖數(shù)。圖6以RF-DOA網格單元劃分為例,高度為脈沖數(shù),高度越高表示脈沖數(shù)越多。

圖6 RF-DOA網格單元劃分
圖7為采用網格單元劃分的OPTICS聚類的雷達信號預分選可達圖,可以看出同樣分為4部信號。

圖7 網格單元OPTICS聚類的雷達信號預分選可達圖
根據(jù)表1的輻射源參數(shù)產生雷達脈沖數(shù)據(jù)流,對前1 200個脈沖分別進行OPTICS聚類和改進OPTICS聚類,表2為2種算法在不同噪聲情況下的分選正確率。可以看出,高密度信號分選正確率受噪聲影響小;在噪聲情況下,通過網格劃分和兩級處理,低密度信號的分選正確率有效提高。

表2 不同噪聲情況下的分選正確率
對表1信號分別選取1 200,2 000,5 000,8 000,10 000個脈沖,對比傳統(tǒng)OPTICS聚類和本文改進OPTICS聚類的運行時間,隨著脈沖數(shù)的增加,傳統(tǒng)OPTICS聚類時間增加明顯,而改進OPTICS聚類時間增加較少,大大減少了運行時間,如圖8所示。

圖8 不同輸入脈沖數(shù)情況下運行時間
由于在DBSCAN算法中,變量ε,MinNp是全局唯一的,當空間脈沖密度不均勻時,聚類質量較差。為了克服在聚類分析中使用一組全局參數(shù)的缺點,提出了OPTICS聚類的雷達信號預分選方法。同時采用網格單元劃分來提高聚類速度。實驗結果表明,與傳統(tǒng)的DBSCAN算法相比,改進OPTICS算法適用于不同密度分布的雷達信號,從而提高了復雜體制雷達信號分選的正確率,同時降低了算法運行時間。后期為了進一步提高分選正確率,可以將固定網格劃分變成自適應網格劃分[12]。