宋根陽,李宏權
(1.空軍預警學院,湖北 武漢 430019;2.解放軍93498部隊,河北 石家莊 050000)
隨著國家低空開放以及無人機的大量涌現,社會飛行活動頻繁,“黑飛”現象頻發;重要地區周圍的電磁環境日益惡化,電磁頻譜日益擁擠,電磁干擾特性復雜;邊境、海岸線及氣象條件多變,導致雷達雜波動態多變,易產生“仙波”、幻影回波等。這些目標環境的新變化使得不明空情信息時敏性極強,動態變化更復雜。大數據技術擁有其獨特的優勢,不在乎數據的規模結構、不再一味追求因果關系,而是注重利用全數據關聯分析,注重利用數據間的相關關系,使分析決策更加高效、準確、智能。大數據技術改變了數據使用方式以及解決問題的方法視角,給預警情報分析帶來新的機遇。大數據模式通過以大數據為核心技術的數據挖掘、知識發現等,準確把握事物規律,預測目標運動、空中態勢的發展變化等復雜問題,為空中目標活動規律分析模式轉變提供契機和可能[1-2]。
利用大數據技術開展不明空情研判,首先是利用云平臺進行空情信息采集、整理,積累空情大數據,將雷達、偵察、民航、氣象、公安等信息加以匯聚融合,經過集成、清洗、轉換等一系列處理后,形成供大數據挖掘分析的基礎,交云平臺對其進行數據存儲管理,并形成數據目錄、數據服務和元數據服務;然后抽取符合需求的數據進行格式轉換,運用大數據的深度挖掘、關聯分析等技術,進行目標特性分析,構建研判識別證據庫,最后通過模板匹配、事件關聯、綜合分析等技術實現不明空情的研判識別與威脅等級評估,為決策人員提供空情研判決策依據。系統整個信息處理流程如圖1所示[3-4]。
不明空情大數據研判識別所需數據除了雷達情報外,還需要氣象、偵察、公安等情報數據作為支撐,因此在收集雷達情報的基礎上,還需要實時引接匯聚國家氣象局、體育總局、公安部、民航局、中科院等部門的多源情報數據。
由于不同數據源所采用的數據格式、度量單位、屬性描述等不一定相同,因此需要經過篩選、集成、清洗、規約等一系列處理,才能得到相對完整準確的數據。但也有一些數據屬性還需要人工整編才能得到進一步完善。
以雷達數據收集為例,需要收集的數據包括雷達裝備工作狀態參數、工作環境數據、原始視頻數據、原始航跡數據、綜合航跡數據等。
一是雷達裝備工作狀態參數,包括雷達工作頻率、功率、極化方式、調制方式等。這些參數有的保存在視頻數據中,有的需要人工記錄。
二是視頻數據,包括雷達原始視頻數據、1 Bit檢測視頻數據以及雷達改造后的IQ視頻數據。視頻數據包含有效距離采樣點數、有效距離、處理脈沖數、雷達工作模式、脈沖寬度調制參數等。部分雷達的視頻數據保存在記錄儀中。視頻數據可以用來提取目標回波波峰、波寬等特征。
三是航跡數據,包括原始航跡和綜合航跡,可以用來分析目標的活動規律。原始航跡數據中包含信息源代號、目標的批號、時間、方位、距離、高度、屬性、目標威脅等級、干擾方位、干擾指向、干擾強度等要素。綜合航跡數據包括信息源代號、批號、時間、經度、緯度、高度、屬性、機型、架數、任務、國別等。部分雷達的原始航跡數據保存在記錄儀中。綜合航跡保存在信息系統的數據庫中。
四是無源雷達偵收數據,包括無源雷達航跡數據(批號、距離、方位、時間、識別結果等)、偵察參數數據(批號、航跡起始終止時間、識別結果等)和原始視頻數據(目標輻射源視頻采集數據及目標批號、采集時間等信息)。這些數據保存在*.mdb文件中。
對于視頻數據、航跡數據和無源偵收數據的收集,可以采用人工或自動方式收集。當雷達信息系統、無源站系統和云平臺處于連接狀態,則可以通過設置權限,利用提取、轉換、裝載(ETL)來自動收集數據庫中的數據,這種情況對收集策略以及網絡帶寬有較高的要求;當處于不連接狀態,則可以通過在記錄儀、數據庫服務器上外掛存儲設備定期收集數據,再將存儲設備與云平臺連接,導入數據,這種方式需要大量的人力物力作為支撐。
數據收集時或之后要進行數據篩選。如在進行綜合航跡數據收集時,可以重點收集容易導致不明空情的目標航跡數據,對于民航等目標的數據可以少收集一些。在收集原始視頻之后,如果已有重點目標開窗數據,則直接收集。對于一般的視頻數據,則先進行格式解析,再提取其中重點目標的回波數據。
一是人工建立相關聯系,數據整編主要是在數據集成、數據清洗、數據規約等一系列處理之后,還需要應用人工方式進行數據屬性補充、相關關系建立等的操作。如航跡數據中機型屬性缺失,采用其他方式都無法補充完善的情況下,只有采用數據整編的方式進行補充。比如統一目標在同一天不同時段飛行的航跡采用了不同的批號,這也需要采用人工的方式使不同時段航跡建立相關關系。
二是整編界面人性化,數據整編是采用人工方式進行的,所需工作量比較大,也很重要,如果不補充完善,很可能導致挖掘結果的不完善。因此在設計數據整編界面時,盡可能人性化,能夠充分展現數據的屬性特性,同時也需要熟悉數據特點和分析業務需求的人員來進行。
常見的數據集成方法有模式集成法、數據復制法,以及融合了模式集成法和數據復制法優點的綜合性集成方法。
一是模式集成法,在構建集成系統時將各數據源的數據視圖集成為全局模式,使用戶能夠按照全局模型透明地訪問各數據源的數據。全局模式描述了數據源共享數據的結構、語義及操作等。用戶直接在全局模式的基礎上提交請求,由數據集成系統處理這些請求,轉換成各個數據源在本地數據視圖基礎上能夠執行的請求。模式集成方法的特點是直接為用戶提供透明的數據訪問方法。采用模式集成需要解決的問題:首先是構建全局模式與數據源數據視圖間的映射關系;其次是處理用戶在全局模式基礎上的查詢請求。聯邦數據庫和中間件集成方法采用現有的2種典型的模式集成方法。
模式集成方法為用戶提供了全局數據視圖及統一的訪問接口,透明度高;但是該方法并沒有實現數據源間的數據交互,用戶使用時經常需要訪問多個數據源,因此該方法需要系統有很好的網絡性能。
二是數據復制法,是將各個數據源的數據復制到與其相關的數據源上,并維護數據源整體上的數據一致性,提高信息共享利用的效率。采用數據復制法需要解決數據異構性問題,包括語法異構和語義異構。數據異構性可以追溯到數據源建模時的差異:當數據源的實體關系模型相同,只是命名規則不同時,造成的只是數據源之間的語法異構;當數據源構建實體模型時,若采用不同的粒度劃分、不同的實體間關系以及不同的字段數據語義表示,必然會造成數據源間的語義異構,給數據集成帶來很大麻煩。對于語法異構,需要實現字段到字段、記錄到記錄的映射,解決其中的名字沖突和數據類型沖突。語義異構集成相對比較麻煩,需要字段拆分、字段合并、字段數據格式變換、記錄間字段轉移等。
數據復制方法在用戶使用某個數據源之前,將用戶可能用到的其他數據源的數據預先復制過來,用戶使用時僅需訪問某個數據源或少量的幾個數據源,這會大大提高系統處理用戶請求的效率;但數據復制通常存在延時,使用該方法時,很難保障數據源之間數據的實時一致性。
三是綜合性集成方法,是將模式集成方法和數據復制方法混合在一起使用,提高基于中間件系統的性能。該方法仍有虛擬的數據模式視圖供用戶使用,同時能夠對數據源間常用的數據進行復制,對于用戶簡單的訪問請求,綜合方法總是盡力通過數據復制方式,在本地數據源或單一數據源上實現用戶的訪問需求;而對那些復雜的用戶請求,無法通過數據復制方法實現時,才使用虛擬視圖方法。
收集整編后的數據具有不同的結構,而不同的結構數據采用不同的數據庫來保存,如綜合航跡數據是結構化數據,采用關系型數據庫來保存;原始視頻、偵察圖像是非結構化數據,采用分布式文件系統(HDFS)保存。在保存數據時,需要實時監控各個存儲節點的存儲資源,當某一節點出現過載時,則需要將數據遷移到其他節點,從而達到負擔均衡。
收集整編的數據中蘊涵目標識別判性的證據,具有一定的價值,因此在存儲數據時采用相應的冗余策略,避免出現某一節點崩潰導致數據丟失的現象。同時,大部分數據具有一定的密級,需要設置訪問權限、加密存儲、數據隔離等措施來提高數據安全性。
從海量數據中快速準確檢索所需數據是一新的挑戰。可采用分布式數據檢索,優化查詢解析策略、資源管理策略、容錯策略、查詢派遣策略等。
3.1.1 分類存儲
(1) 結構化數據存儲。航跡數據是結構化數據,數據量龐大,數據價值密度比較高,主要應用于通過OLAP挖掘目標的運動規律等。利用關系數據庫和NoSQL數據庫中的列數據庫都能夠存儲結構化數據,但關系數據庫難于擴展容量不適合存儲海量數據,因此采取列數據庫存儲航跡數據。針對目標情報數據、計劃數據等,這類數據的數據量較少,隨時間增長也較少,且查詢使用較多,可采取傳統的關系型數據庫進行存儲。
事實上,對于人類存在的意義,從古至今,就有無數哲人進行過痛苦的思考,對于欲壑難填的人性之惡,及其所造成的巨大惡果,王鉆清則在詩歌中對此進行了無情的鞭撻。正因如此,王鉆清的詩歌不僅僅是一種橫向的,簡單的東西方比較,而是在不斷向著歷史的更深之處進行著縱深的掘進:
HBase是構建在HDFS上的列數據庫,可以存儲結構化和半結構化數據,針對某列或某幾列的查詢具有I/O優勢,查找速度快,可擴展性強,容易進行分布式擴展。
(2) 非結構化數據。雷達回波數據是非結構化數據,數據量大且在快速增長;其應用場景是通過順序讀取原始數據選取指定視頻片段進行回放。因此,雷達回波數據并不需要利用關系型數據庫存儲,而是采取易于部署、擴展性好的分布式存儲系統進行存儲。
Hadoop分布式文件系統HDFS是運行于普通機器構建的大規模集群上,對上層應用程序提供一個統一的文件系統應用程序接口,可實現對超大文件的存儲、高吞吐量的數據訪問以及高容錯性。可以文件格式存儲海量非格式化數據,也可以基于HDFS構建列數據庫HBase。Hadoop中的Hive是一種SQL on Hadoop 技術,它把SQL編譯成MapReduce,從而可讀取和操作Hadoop上的數據。通過Hive,可利用SQL語言來操作和分析預警情報大數據。同時,為了對格式化數據進行管理和查詢,加入MySQL數據庫系統,通過Sqoop工具實現與Hadoop存儲系統的同步。
3.1.2 分層存儲
(1) 在線存儲。在線存儲是指將數據存放在高速的磁盤系統(如閃存存儲介質、FC磁盤或SCSI磁盤陣列等)存儲設備上,適合存儲那些需要經常和快速訪問的程序和文件,其存取速度快,性能好,存儲價格相對昂貴。在線存儲是工作級的存儲,其最大特征是存儲設備和所存儲的數據時刻保持“在線”狀態,可以隨時讀取和修改,以滿足前端應用服務器或數據庫對數據訪問的速度要求。實時分析所需的數據可以采用在線存儲,如作為目標研判證據的“證據庫”,以防止因研判證據讀取延時而影響目標性質研判及時性。
(2) 近線存儲。近線存儲是指將數據存放在低速的磁盤系統上,一般是一些存取速度和價格介于高速磁盤與磁帶之間的低端磁盤設備。近線存儲外延相對比較廣泛,主要定位于在線存儲和離線存儲之間的應用。就是指將那些并不是經常用到,或者說訪問量并不大的數據存放在性能較低的存儲設備上。但對這些設備的要求是尋址迅速、傳輸率高。因此,近線存儲對性能要求相對來說并不高,但又要求相對較好的訪問性能。同時多數情況下由于不常用的數據要占總數據量的較大比重,這也就要求近線存儲設備在需要容量上相對較大。近線存儲設備主要有SATA磁盤陣列、DVD-RAM光盤塔和光盤庫等設備。事后分析所需的數據可以采用近線存儲,如經過集成、清洗、規約處理后的數據,利用這些數據進行研判證據挖掘時的時效性要求不是太高。
3.1.3 數據一致性
數據一致性包括強一致性和弱一致性。強一致性是指更新操作完成后,任何多個后續進程或線程的訪問都會返回最新的更新過的值。弱一致性是系統不保證后續進程或線程的訪問都會返回最新的更新過的值。最終一致性是弱一致性的特定形式,系統保證在沒有后續更新的前提下,最終返回上一次更新操作的值。對于不明空情大數據研判識別而言,研判證據需要實現強一致性,而其他待挖掘數據需要實現最終一致性。
二級索引是對全表數據進行另外一種方式的組織存儲,是針對table級別的。對于HBase而言,創建二級索引方式:一種是利用SQL通過Inceptor分布式SQL引擎與HBase交互,創建二級索引;一種是直接在HBase Shell中創建二級索引。
3.2.2 MapReduce查詢處理
在大規模數據存儲系統中,查詢優化工作主要集中在MapReduce執行計劃選擇以及負載均衡等方面。MapReduce執行計劃選擇的基本思想則是在多個可選MapReduce執行計劃中選擇代價最小的,包含CPU性能、網絡帶寬、內存等評價特征。
完善高效的挖掘分析算法模型是空防預警大數據研判識別系統的核心。按照數據準備、建立模型、模型評估的步驟,豐富和完善特征提取、規律分析、事件關聯挖掘等方法,進而獲取研判識別的目標特征庫、活動規律庫、事件關聯庫等有效證據。以目標運動特征為例,其運動特征統計內容和統計流程分別如圖2和圖3所示。

圖2 目標運動特征統計內容

圖3 運動規律統計流程圖
空防預警大數據中蘊含的目標多維特征,是目標識別和威脅研判的基礎依據。運用大數據的統計分析、深度挖掘、關聯分析等技術優勢,提取目標特征,分析活動規律,挖掘關聯因素,構建研判證據庫。
如基于雷達原始視頻提取波峰、波寬、波色、波內組織等回波特征,基于極化信息提取目標材料特征(塑料、金屬、碳纖維),基于光學圖像和雷達圖像挖掘目標外形輪廓,基于多普勒(微多普勒)信息獲取目標運動特征,基于電子偵察和無源雷達數據獲取目標輻射源工作頻率、脈寬、重頻等參數特征等,依此綜合構建起多維、全面、可靠的特征數據庫,通過定期更新、擴展和完善,可為空情研判識別提供證據基礎。
利用數據統計、聚類分析、深度挖掘等方法,統計分析出目標在特定區域、特定航線、特定時間反復出現的活動狀態,挖掘出不同類型目標規律性的活動區域、活動航線以及對應的活動時間、飛行高度、速度等基本特性,進而綜合分析和歸納總結出目標的活動規律,并將提取的各類目標活動規律按照一定的格式組裝后,建立起活動規律的數據庫。
運用統計分析和聚類方法,提取氣象回波產生及鳥類遷徙活動的一般性規律;可基于國家體育總局、公安部等單位部門提供的重大活動信息,建立起事件關聯庫。
大數據技術在未來不明空情研判中的具體應用主要體現在研判要素的快速提取、分析,研判證據的快速挖掘、提供,最終實現研判結果的精準化呈現。
對不明空情目標的真偽、屬性、類型、數量、類別、活動企圖和威脅等級的研判,是不明空情大數據價值的具體體現,也是構建空防預警大數據研判識別研究平臺的初衷。
構建分級的研判識別模式,第一層級利用大數據挖掘分析的目標特征庫、活動規律庫等證據性結果,結合目標的瞬態特征,對目標的真偽、類型、數量等進行研判識別;第二層級結合大樣本的實測數據,依據實時數據挖掘分析結果,在第一層級初判的基礎上,對目標的真偽、屬性、類型、數量、企圖等進行綜合研判;第三層級結合更大樣本的關聯信息,如與目標有所關聯的氣象、地理、事件等信息,在各知識庫的支持下,對不明空情做終極研判,給出目標的威脅等級。目標行動企圖的貝葉斯網絡分析如圖4所示。

圖4 目標行動企圖的貝葉斯網絡分析示意圖
發揮人工智能優勢,實現研判成果按需推送,以滿足不同用戶空情研判的需要。上一級機構上報并向下級分發,同時對友鄰單位等用戶按需推送。各級各類用戶都可以通過檢索、定制等手段獲取空情研判結果。
隨著大數據技術的發展,航空工業的迅速壯大,尤其每天各類空中情況產生的數據量驚人,如果不加篩選,很多有用的數據信息提取不出來,就會造成巨大的資源浪費。要從海量的數據信息中準確地找到用戶所需要的成為當前研究的重點問題之一。針對這一背景,本文主要研究了不明空情大數據研判可行性及整體框架,分析了大數據的存儲和分析過程,將海量數據收集整編后,分門別類進行存儲,并對存儲的數據進行研判證據挖掘,將其用于不明空情研判識別,從而實現對數據的積累、存儲、證據挖掘和應用。
空防預警系統包含了海量數據資源,想要將數據資源詳盡描述并與用戶需求匹配的工作量非常巨大,本文提出的只是一種方法,在此基礎上,下一步的工作包括:一是健全法規制度研究;二是創新人才培養模式研究。