趙小瑞,李宏權,梁復臺,3,楊 凡
(1.空軍預警學院,湖北 武漢 430019;2.解放軍96714部隊,福建 永安 366000;3.解放軍31121部隊,江蘇 南京 210000)
預警探測體系中,目標航跡數據具有量大、更新快、價值高等特點。如何高效利用目標歷史航跡大數據,從數據中挖掘其蘊含的價值,尋找目標內在的規律,為快速、準確地判斷空中目標提供支撐是當前研究的熱點。在數據壓縮上,文獻[1]提出基于空間曲線壓縮算法的空中目標航跡提取算法,通過設定閾值提取關鍵點的方法,減少數據量,降低了計算的復雜度。航跡匹配通常采取K-means算法、層次方法[2]等進行航跡擬合聚類,再建立神經網絡預測模型[3]進行航跡匹配。文獻[4]提出一種多屬性加權關聯關系匹配模型,重點解決熱點區域戰略空中目標經典航跡提取及實時航跡的關聯匹配問題。目前大部分文獻都是針對數據本身進行篩選,航跡匹配只與當前輸入的數據有關,對歷史數據利用率不高,對應結果只能反映當前數據信息,不具備可持續性。
本文針對空中目標航跡數據量大、運算量過高,傳統目標航跡空域特征提取較為復雜的情況,提出基于空間格的連續時間空域特征提取算法。通過對選定空域以一定長度為單位距離進行網格化劃分,再將收集到的航跡大數據進行預篩選、坐標轉換,將航跡點與網格對應匹配,統計出每個網格內出現的航跡點次數,實現對目標航跡空域特征的提取,保留能突出航跡特點的網格,以減少數據量。并且可隨著數據的不斷輸入,結果不斷更新,該結果可反映出輸入數據所有時間的航跡總體規律,避免了歷史數據利用率不高以及結果反映過于片面的問題。
(1) 空間格定義

(2) 空間格坐標
空間格采用直角坐標系,將指定區域地圖的左下角坐標作為空間格的原點(0,0),以正東方向為直角坐標的x軸,正北方向為直角坐標的y軸,以a作為單位長度,將空域范圍劃分成m×n的二維網格,每個網格都有一個唯一的編號,即由空間格左下角的x軸和y軸坐標組成,坐標之間用逗號分隔。
(3) 目標空域特征
目標空域是指目標所在的空間位置。對于空中目標而言,目標空域通常由目標情報點的經度、緯度和高度來表示。單批目標的空域信息就是由其整條航跡所有點的經度、緯度和高度構成;某類目標的空域信息就是由該類所有歷史航跡數據點的經度、緯度和高度構成。目標空域特征是指能夠表征某批或某類目標空間位置信息的典型、有代表性的特殊數據集。本文所研究的目標空域特征就是以空間格為基礎,將歷史航跡的空間位置信息映射到空間格之中,進而獲取某批或某類目標的空域特征值。
(4) 目標空域特征提取
特征提取就是在目標空域網格化的基礎上,將目標航跡數據點按照地理坐標位置,對應放入網格中,同時對前后小于30 s的2個點進行連接,將2點間航跡粗略看成直線[5],航跡點本身,以及按時間順序相連的直線所經過的網格,其對應點數全部加1,以便增加對航跡判別有幫助的點數量。
由于常用算法大部分對單條航跡進行特征點提取,不具有針對時間的連續性。因此本文提出基于空間格的連續時間空域特征提取算法進行目標空域特征提取。首先需要對原始航跡進行預處理,篩選出符合要求航跡點的基礎上,對目標活動空域進行網格布設,其次通過航跡坐標變換,實現航跡點空域映射,最后得到目標空域特征矩陣。
對目標活動空域進行網格化處理,將目標空域映射到直角坐標系中。首先需要確定空域的區域范圍,然后根據區域邊緣經緯度信息,按照經緯度距離公式,求出最大區域距離范圍,再根據設定的網格邊長,求出劃分網格的長寬個數m×n。
需要特別注意的是數據空域范圍的選定,由于網格是由多個方格構成的矩形,受地球曲率影響,相同距離下,在低緯度地區跨過的經度要比高緯度地區跨過的經度少。地球上同一經度上所有緯度1°間的距離均約為111.12 km,即1′的距離均約為1.86 km,而對于同一緯度,2個不同經度的距離為:
d=111.12(x2-x1)cosy
(1)
式中:d為同一緯度y上2點之間的距離,單位為km;x1、x2分別為2點經度,單位為°;y為緯度數據,單位rad。
由于2個經度之間,高緯度長度低于低緯度,為了空間格的完整度,需要將高緯度的長度延長至低緯度長度,故高緯度區域的截止經度將會發生改變。高緯度調整后的經度計算方法為:
(2)
目標航跡數據包含經度、緯度、時間、類型、批次、架數等信息。將航跡點對應到相應空間格中,則需要對數據進行坐標轉換,航跡坐標變換就是將目標航跡點的經度和緯度從地理坐標轉換成空域網格坐標。設航跡點數據集合為Hi={P1,P2,…,Pk,…,Pn},其中n為航跡點總個數,Pk=(類型,架數,ak,bk),ak為第k個航跡點坐標經度,bk為第k個航跡點坐標緯度(1≤k≤n)。
以選定空域高緯度為x軸,以西側經度為y軸,兩者交點為原點,建立笛卡爾坐標系。將航跡點數據集合Hi={P1,P2,…,Pk,…,Pn},即Pk=(類型,架數,ak,bk)的經緯度坐標,轉換為空域網格坐標系里的距離坐標,即pk=(類型,架數,xk,yk)。其中xk的坐標為:
xk=111.12(ak-109°)cosbk
(3)
同理,yk的坐標為:
yk=111.12|bk-21°|
(4)
形成一個新的數據點集合Hi={p1,p2,…,pk,…,pn},pk=(類型,架數,xk,yk),xk為第k個數據點橫坐標距離位置信息,yk為第k個數據點距離位置信息。
基于空間格定義,構建空間格數據存儲矩陣,然后將航跡點空間特征值存入空間格矩陣。令空間格矩陣為G=(gij)m×n,gij=(類型,架數,次數),i、j分別為空間格第i行、第j列的網格坐標,0≤i≤m,0≤j≤n。具體步驟如下:


(3) 判斷若i1≠i0,且|k|≥1,則將j0與j1之間的整數值依次代入函數關系式中的值y(j),求出對應的值x(i),并將x(i)向上取整,對應的gij中對應的次數加1。若|k|<1,則將i0與i1之間的整數值依次代入函數關系式中的值x(i),求出對應的值y(j),并向上取整y(j),對應的gij中對應的次數加1。
(4) 讀取新的航跡數據,再次執行(1)~(3)。
將點數較高的網格予以保留,但是防止航線過于密集,而出現整體航跡占用網格較寬的情況,只保留最密集最能體現航跡規律的網格;同時,對于數量不多,但是和其他航跡有明顯區別的航跡,所占用的網格也要保留。步驟如下:
(1) 以單個單元格中的數據點出現的次數為橫軸,以包含同一數據點量的單元格數量為縱軸,畫出柱狀圖;
(2) 設定單個單元格點內數量閾值為M,若不少于M,則單元格暫時保留,并采用3×3的框架,將框架中的數據數量Aij進行排序,取最高的3個值的單元格予以徹底保留,舍棄其他的單元格;
(3) 若閾值小于M,但頻次不少于給定閾值N,則單元格暫時保留,且以此單元格為中心,用3×3的框架,框架內,若暫時保留的單元格數超過3個,則將所有暫時保留網格予以徹底保留,否則將該單元格去除;

以南北縱跨為400 km、緯度橫越為180 km的某空域為例。由于大多預警雷達掃描1圈的時間約為10 s,目標飛行速度通常為800 km/h,則10 s內的飛行距離約為2.22 km,故將空間單元格的邊長設為2 km,空間格由200×90個單元格組成。數據來源為某站1周內在該區域經過數據預處理后的150條航線的8 959條雷達數據。
將數據進行初步清洗后,按本文方法進行坐標轉換,而后對應到空間格中,數據點數量即空間格矩陣數值分布如圖1所示,橫坐標為矩陣元素數值,縱坐標為單元格數量,其中不包括數據量為0的單元格數量。

圖1 空間格矩陣數值分布圖
空間格矩陣做成的熱力圖如圖2所示。

圖2 空間格矩陣熱力圖
由圖1可知,橫坐標中位數為12,因此將M閾值設為12,可得結果如圖3所示。篩選出典型航跡,但是原數據中下方的少量異常航跡被消除,損失了重要信息。從圖1也可以直觀地看出,眾數為6,即有700多個單元格中包含的數據點數量為6,因此可以得出結論:雖然數據點數量較少,但同時有大量單元格擁有相同數據,證明此處很可能包含數據量較少的異常航跡,因此將2.4步驟中的閾值N設為5而不設置成6的原因是盡量保證異常航跡的數據量。得到的特征格矩陣做成熱力圖如圖4所示,異常航線顯現。

圖3 篩選后的高頻航線熱力圖

圖4 特征格矩陣熱力圖
由圖4可以直觀看出,未經處理的航線數據較多且密集,經過特征網格提取后的航線,數據量少很多,并且很好地保留了原有航線的特征,下方數量較少的異常航線也被很好保留。原8 959條數據,經過生成空間格,數據量減少至1 671,經過提取特征格后,數據降為341,僅為原始數據的3.81%。
本算法的優勢在于:存儲空間最多為m×n×2(空間格矩陣及特征格矩陣大小),此后不會因為原始航跡的增加而增加。航跡關鍵點提取[1]和曲線擬合法[6]等傳統航跡處理方法,都是對航跡點進行壓縮,達到用最少的參量來表示整條航跡的運動特征。但算法的處理能力有限,可同時處理的航線最多為幾十條,并且著眼于數據本身,反映的結果是當前輸入的數據。本文方法可隨著數據的不斷輸入,特征網格位置隨著輸入數據的增加而發生變化,聚類結果能反映出隨著時間推移的總體航跡趨勢。因為航跡點的增加最終都會對應成空間格矩陣中的數值變化,理論上可處理的數據無上限,但是若處理的數據在時間跨度上過長,會導致大量歷史因素對結果產生影響,降低時效性。
本文基于空中目標的歷史大數據,提出對目標空域進行網格化處理,生成目標活動空間格。基于布設的空間格,將歷史航跡的空間位置映射到空間格中,實現目標空域特征的提取,也就是將海量的歷史航跡數據轉變成有限的空間格數據集。經過算法處理后,大幅減少了數據量,在存儲空間利用、對連續時間的軌跡研究等方面具有較為明顯的優勢,便于后續對目標的空間活動規律進行聚類、分類、關聯關系等分析。并且本算法具備可持續性,可不斷輸入新數據進行規劃完善,輸入數據越多,航跡聚類越精確,且不增加數據存儲容量。但是此方法忽略了目標航跡高度的影響,下一步還需把高度納入考慮范圍,對空間格進行三維化處理。