李高云,曠生玉,江 果,何 歡
(中國電子科技集團公司第二十九研究所,四川 成都 610036)
電磁空間作戰是體系與體系之間的對抗。通常復雜體系網絡具有涌現性,即便精準地實現了對單個目標對象的掌握,也難以保證準確表征組合后體系目標的能力情況,因此,需要將電磁目標體系作為一個整體對象展開研究。而網絡是表征復雜體系的有效手段之一,以圖論相關理論為基礎建立起來的復雜網絡科學成為研究電磁目標體系網絡的有效工具。
電磁空間域的博弈,普遍具有攻防快速轉換、對抗激烈和真假迷惑等特點,撥開戰場電磁迷霧,達成對敵電磁目標體系的深入洞悉是一件異常棘手和重要的任務。在現實中由于偵察探測的局限性,存在部分關系鏈接錯誤或者冗余,以及部分實際存在的潛在鏈接關系沒能探測到的情況。因而對電磁目標體系網絡潛在關系預測,進而指導電子對抗專項偵察行動,就顯得異常的迫切。
體系網絡潛在關系分析是鏈路預測的重要研究方向,即通過已知的網絡節點以及網絡結構等信息,預測網絡中尚未產生連邊的2 個節點之間產生鏈接的可能性,近年來該方向異?;钴S。魯磊等采用疾病-基因關聯二分網絡的網絡拓撲相似性來發現更多潛在致病基因;張新猛等基于鏈路預測方法解決因微博用戶弱關系結構導致的難以發現潛在朋友的問題;劉竟等采用Katz 指標和Cosine 距離計算網絡中的路徑相似性和學者科研興趣相似性,預測了潛在科研合作關系;袁國廷等基于網絡局部信息的相似性指標實現對聯盟院校潛在關系的預測與識別。前述典型研究成果及思路為電磁目標體系網絡潛在關系預測研究提供了很好的借鑒。
本文擬以資料情報和海量偵察數據為基礎,通過軍事事件和對應涉及的目標個體建立起二分網絡模型,進而分解為目標對象間的單模網絡,采取鏈路預測算法,對電磁目標體系網絡未知潛在關系進行分析。旨在為體系網絡分析,提供技術參考和運用模式借鑒。
軍事活動往往是由一系列的軍事事件所組成,戰場數據是以事件的形式傳遞。軍事演習演練、任務行動,某種意義上是對戰術、戰法或新型作戰概念的實兵驗證和體現。因此,分析外軍的演習演練和軍事行動中的復雜體系運用,具備發現深層次體系運用模式和預測體系節點間新關系的可能,也即對事件-目標網絡關系分析,具有實際可行性和軍事應用研究價值。
軍事事件與目標之間的關系,如同文獻與作者之間的關系,所組成的網絡包含了事件和目標2 類頂點集合,屬于二分網絡。事件-目標關系二分網絡構建,是開展后續電磁目標體系網絡挖掘分析的基礎。目前,其構建方法大致可以分為文本資料情報提取和偵察大數據挖掘2 大類。
事件抽取是從描述事件信息的非結構化自由文本中抽取出用戶感興趣的信息,并以結構化的形式存儲或呈現給用戶。
圍繞規范化事件提取和事件-目標關系二分網絡構建需求,事件描述的結構化模型可抽象為一個四元組結構模型,數學描述為:

式中,e為事件名稱;T為事件涉及的目標名稱集,R為事件-目標的關系集,M為目標-目標之間的相互關系集(如指揮協同關系、通信聯通關系、信息流轉關系等),L為本事件關聯的其他事件集合。對于一個抽取成功的事件至少e≠?且T≠?。
基于觸發詞集(如演習演練、南海闖島、自由航行、穿越臺海等),通過手動建立一系列事件知識模板,采取各類模式匹配算法,將待抽取的資料文本(如戰場要報、專題資料、公開報道等)與知識模板進行事件要素模式匹配,抽取生成事件e。基于模式匹配的事件提取流程,如圖1 所示。

圖1 基于模式匹配的事件提取流程
在資料文本預處理環節,采用觸發詞集作為敏感詞進行文本實體提取,進而針對性提取前件、后件概念本體,完成候選模式的生成,支撐后續模式匹配運算,將事件要素識別轉化為分類問題,最終完成事件集的生成。
長期積累的海量原始電子對抗偵察結論數據,最為客觀地記錄和反映了電磁目標體系內,各個目標的時、空、頻活動行為和相互關系證據。采取電磁大數據挖掘分析技術,可針對已知事件場景(滿足事件約束條件),從海量數據中挖掘存在目標間相互配合關系的證據,輔助構建事件-目標、目標-目標關系網絡。
針對未知事件-目標關系情況,也即“事件-目標”的潛在關系提取,站在數據視角可轉換為從海量數據中篩選一定范圍內(事件發生的特定時間、特定區域、特定目標集等)數據,展開多目標數據潛在關系挖掘問題。
基于Hadoop+Spark 平臺,采用時、空聯合頻繁項挖掘算法,航跡重合度計算算法,定期對增量數據開展時-空伴隨關聯等例行化多目標關系挖掘分析,對存在疑似強關聯關系的目標組,進行時、空、頻結論存儲,并對多目標關系可視化展示,供情報專家研判和確認。多目標時空頻疑似配合關系結論可視化,如圖2所示。

圖2 多目標時空頻疑似配合關系結論可視化
根據前述基于知識模板或者大數據挖掘技術提取的事件-目標關系結論,即事件-目標RDF 關系元組,生成事件-目標關系非完全二分網絡,如圖3 所示。盡可能構建反映真實鏈接情況的網絡,對保證后續預測分析的精準性至關重要。

圖3 事件-目標關系非完全二分網絡
具體方法是梳理軍事事件,作為事件集的元素,并將事件元素相應涉及的目標納入目標集,構建該事件元素及其涉及的目標的關聯關系。最終形成事件集與目標集之間的二分關系網絡。
構建二分網絡時需要注意約束條件的選擇,如是否同屬于相同國別、剔除民用屬性非軍事目標等,以及可根據研究側重點,改變或增加相應約束條件。
通常在分析具有二分圖結構的網絡時,一般采取先將二分圖投影為單模網絡,再做網絡分析處理的方式。事件-目標二分網絡,按照參與了共同軍事事件的目標,判定具有配合聯系的原則,投影生成電磁目標體系的單模網絡。即將事件-目標二分圖先投影到目標或者事件集合中的頂點構成的單模圖(UG)。
投影規則為:如果原來二分圖中,目標集合中2 個或多個頂點都與事件集合中某個頂點相連,那么在目標單分圖中這2 個或多個頂點之間建立連邊;同樣事件單分圖的投影規則亦是如此。事件-目標二分圖投影分解如圖4 所示。

圖4 事件-目標二分圖投影分解
基于上述單模網絡的投影生成方法,可以得到所關注體系目標網絡拓撲結構的無權無向無環圖。
雷達、通信、導航、敵我識別等電磁目標作用距離遠,電磁傳播速度快,天然具備廣域范圍內組網體系化運用特征,尤其是網絡中心戰概念運用,電磁高維空間的目標運用關系(指揮控制關系、通信聯通關系、信息流轉關系等)疊加于戰場三維物理空間,融合成為一張復雜的電磁目標體系網絡。
鑒于戰場情報對節點屬性信息獲取的困難性(敵我博弈、真假迷惑,往往導致節點的屬性信息并不容易獲取),設計基于電磁目標體系網絡拓撲結構的相似性預測算法(共同鄰居相似預測算法、共同鄰居占比量相似預測算法)和資源分配評分預測算法,開展電磁目標體系網絡潛在鏈路關系預測。
不妨假設目標-目標單模網絡中的節點為,定義節點的鄰居為(),則()=|()|為節點的度。
1)共同鄰居相似預測算法
古語云“物以類聚、人以群分”,共同鄰居(CN)相似預測算法認為節點之間的結構屬性越相似就越有可能產生聯系。其中基于局部信息的相似性指標(CN)也就是2 個節點如果有更多的共同鄰居,則它們更趨向于產生聯系。
CN 相似性預測指標,如式(2)所示:

2)雅卡爾相似預測算法
雅卡爾(Jaccard)相似預測算法,主要考慮2 個節點的共同鄰居數與2 個節點所擁有的鄰居數總和的占比值,該值也將會影響節點之間的相似程度。因此,在共同鄰居(CN)算法的基礎上,考慮兩端節點自身的鄰居數(節點度)的影響,形成了Jaccard 相似預測指標。
Jaccard 相似性預測指標,如式(3)所示:

3)資源分配評分預測算法
資源分配(RA)評分預測算法,考慮2 個節點產生連邊,即交互聯系意味著需要耗費能量。鄰居越多自然平均分配到單個鄰居上的耗費資源就會越少,基于該假設構建(RA)評分預測算法,根據共同鄰居節點的度為每個節點賦予一個權重值,且該權重值為該節點度的倒數。
RA 評分預測指標,如式(4)所示:

預測精度評價指標(AUC)從全局衡量鏈路預測算法的精確度。即測試集中的存在邊的預測分數值比隨機選擇的一條不存在邊的分數值高的概率。每次從測試集中選擇一條存在邊與隨機選擇的不存在邊進行比較,如果測試集中存在邊的預測分數值大于不存在邊的分數值,就加1 分;如果相等就加0.5 分,否則不加分。獨立地比較次,則AUC 為:

式中,為測試集中的存在邊分數值大于不存在邊的分數值的次數,為兩者分數值相等的次數。
可見,如果所有的分數值都是隨機產生的(好比拋硬幣正反決定是否產生鏈路連接),那AUC=0.5;因此只要AUC >0.5 就說明算法比隨機方法好,而AUC 值的大小程度衡量了預測算法在多大程度上比隨機選擇的方法精確。
假設一個包含5 個頂點和7 條連邊的網絡,稱該7 條邊為已存在邊,而(1,2)、(1,4)和(3,4)就稱為 3 條不存在邊。
不妨把已存在邊中的(1,3)和(4,5)這2 條邊作為測試集,而把其他5 條已存在邊作為訓練集。假設一個鏈路預測算法為訓練集之外的其他所有可能的5 條連邊的打分如下:=0.4,=0.5,=0.6,=0.5,=0.6。網絡訓練和測試集設置示意圖如圖5所示。

圖5 網絡訓練和測試集設置示意圖
為了計算AUC,先比較2 條測試邊的分數與3 條不存在邊的分數。6 種比較情況如下:

從而求得:

采用大量的文本資料情報素材和大量原始電子對抗偵察結論數據,提取各次事件涉及的目標,挖掘數據中隱含的多目標關系,構建事件-目標二分網絡,經投影生成目標單模關系網絡。提取生成某電磁目標體系的關系網絡,具體涉及了89 個節點127 條邊,若該體系為全連接網絡則關系邊總和應為3 916條邊。
為可視化展示該電磁目標體系網絡的特點,采用Pajek 分析工具可視化功能,直觀描繪網絡拓撲關系,如圖6 所示。

圖6 某電磁目標體系網絡拓撲關系圖
采取本文前述的3 種鏈路預測方法,將一部分真實鏈接(存在邊)作為訓練集,其他隱掉的真實鏈接和不存在邊合在一起作為測試樣本集。
為了仿真驗證預測算法的性能,以及具備預測能力的條件邊界。分別對不同場景(不同比例占比數量的存在邊作為訓練集),基于Matlab2012 采用蒙特卡洛模擬仿真方法,仿真10 000 次,并統計預測結果,分析不同方法的預測精度。
分別取90%、80%、70%的真實鏈接作為訓練集進行測試,采取蒙特卡洛模擬仿真各10 000 次,其中受限于篇幅,各場景仿真結果前10 次的記錄原始數據,如表1 所示。

表1 預測結果原始數據記錄表(各場景前10 次記錄)
3 種不同方法預測10 000 次原始數據的統計數據情況,包括預測結果數據的平均值、最大值、最小值和均方值等參數,如表2 所示。

表2 預測結果統計結論表
從上述統計信息可見,3 種場景下,CN 和 RA 預測算法,預測精度平均值均大于80%,最小值也超過58%(大于隨機概率50%),具有預測效果和應用價值,而Jaccard 預測算法,預測精度低于隨機概率,預測效果完全無效。
鏈路預測準確率,與訓練集(存在邊)的占比大小基本呈現出正相關關系。也即訓練數據越多(對網絡的真實鏈接掌握越多),預測準確率越高。
此外,訓練集進一步降低測試具備預測能力的條件邊界,當測試集占比降為58% 時,前述3 類算法預測精度瞬間降為不足10%,也即預測能力幾乎消失。當訓練集超過65%,CN 和RA 算法預測精度的最低值均超出隨機選擇概率(50%準確率),也即具備了鏈路預測能力,這也證實了復雜網絡的涌現性。
基于目標共同鄰居數量的相似預測和基于資源分配評分指標預測精度較高,最大值曾達到了95%,而Jaccard 預測算法幾乎無效。反向可以揭示和說明,該類型電磁目標體系網絡明顯存在“大度優先”“馬太效應”“HUB 超級節點”的網絡結構生長與演化特征,在作戰中對大度節點(如圖6 中的節點38、40、51等)攻擊或摧毀,將達到體系破擊的效果。
復雜網絡分析作為一門新興學科,是對復雜系統的抽象和描述。鏈路預測的準確性,本質是反映了我們對該復雜網絡結構生長和演化機理的洞察程度。換言之若能夠高精度地預測某復雜網絡體系的鏈路生長或消失,則意味著已深入洞悉了該網絡的內在機理,基于此,所開展的系列電磁目標體系網絡潛在關系預測,也將更具置信度。本文只是拋磚引玉,鏈路預測不光需要IT 算法工程師,更需要具有資深業務專家的介入,只有深入地洞悉了網絡內在本質,才可能撥開戰場迷霧,預測未來。后續該方法還可應用于知識圖譜構建,可根據圖譜中已存在的實體間的網絡拓撲關系,去預測缺失的實事關系,輔助解決知識圖譜不完整性的問題。