陳剛, 姚麗亞, 王國新, 商曦文, 陳旺, 閻艷, 明振軍
(1.北京理工大學 機械與車輛學院, 北京 100081; 2.中國北方車輛研究所, 北京 100072)
未來智能化戰爭的核心是以決策為中心作戰,科學合理的態勢認知是智能決策的基礎,是實現觀察- 判斷- 決策- 執行(OODA)高效循環的關鍵。在信息復雜多樣且多變的現代戰爭背景下,不僅軍用仿真技術是未來戰爭的重要環節,戰場信息融合更成為了決定勝負的關鍵因素[1]。只有依靠完備的信息融合有效感知戰場態勢,才能及時準確地判斷戰場動態、敵方威脅以及作戰效能等關鍵信息,最大程度支撐作戰決策。
地面突擊裝備的作戰環境具有復雜性、隱蔽性、欺騙性和信息不確定的特點,僅靠乘員主觀判斷或機器輔助決策進行態勢評估的方法在效率和準確性上存在不足,亟需融合人的“人類智能”以及機器的“人工智能”實現綜合態勢評估。復雜、高強度對抗環境下實現綜合態勢評估人機智能融合的關鍵是人機共識的形成,面臨著人機認知方式存在差異、不確定性因素多和人機交互效率低、靈活性差等兩大挑戰。
戰場綜合態勢評估中的人機混合魯棒決策是一種盡可能在已有信息的基礎上消除不確定性因素,并最終做出一個對不確定性不敏感的穩健決策的過程。指揮員在海量、多源、復雜、異構且快速增長的戰場態勢數據和人機認知過程不確定性的干擾下做出決策的正確性和及時性將直接影響到戰爭的成敗,因此,實現態勢評估人機智能融合從而輔助指揮員做出魯棒決策顯得尤為重要,也是未來智能化戰爭的客觀需求。
目前,國內外主要圍繞基于規則知識、貝葉斯網絡、深度神經網絡以及數據挖掘等的態勢評估方法進行了技術探索和系統構建,周獻中等[2]建立了基于知識的海戰場態勢評估輔助決策系統,孟光磊等[3]建立了基于混合動態貝葉斯網絡的無人機空戰態勢評估模型,張宏鵬等[4]建立了基于深度神經網絡的無人作戰飛機自主空戰決策模型;霍士偉等[5]提出了基于自訓練半監督學習的戰場態勢評估模型,較大程度提高了評估準確率;Yu等[6]研究了編隊指揮決策的關鍵技術——目標威脅評估技術,Yu等[7]基于數據挖掘技術構建了海戰態勢數據集,提取出海戰態勢評估最優規則。在軍事應用領域,主要集中于空軍和海軍,陸軍應用相對較少;同時缺乏對其認知原理的研究,無法有效支撐地面突擊裝備戰術級、高動態、分布式、強實時作戰。對于人機智能融合形成人機共識的研究局限于給定人機偏好下的“人主機輔”、“機主人輔”和“人機協同”三種策略[8],不能適應于信息復雜多樣且瞬息萬變的未來智能化戰爭,并且對戰場環境和人機認知過程不確定性下的魯棒決策問題研究還很少。
本文通過采集乘員(專家)態勢評估數據的行為實驗樣本,模擬乘員(專家)態勢評估認知過程,構建戰場態勢評估兩級智能代理;針對綜合態勢評估人機智能融合,提出對人機偏好不敏感的決策魯棒指數,為高強度對抗下的車輛乘員快速判斷形成人機共識做出魯棒決策提供依據。
戰場態勢是指戰場環境中敵方、我方和中立方各作戰要素的當前狀態及其變化趨勢[9]。戰場態勢中的“態”強調當前的狀態,是對作戰單元實體屬性、狀態信息和戰場環境的描述;戰場態勢中的“勢”主要指戰場的發展趨勢,即戰場中作戰單元實體的能力變化、動態關系和行為趨勢[10]。
地面突擊裝備典型作戰要素包括敵我雙方的兵力部署、武器裝備等軍事要素;參與作戰的空中和地面作戰實體的屬性狀態等動態目標要素;地理、氣候、電磁等環境要素;以及政治、經濟、文化等社會要素。未來智能化戰爭中,地面戰場環境態勢具有復雜性、實時性、動態性和不確定性等特征,給戰場綜合態勢評估帶來了巨大挑戰。
態勢評估是分析戰場態勢從而輔助指揮員決策的過程,其來源于美國空軍首席科學家Endsley在1988年提出的一個更寬的概念——態勢感知[11]。態勢感知被定義為在一定的時間和空間范圍內感知環境中的要素,理解它們的意義并預測它們在未來的狀態。Endsley于1995年提出了一個通用的態勢感知三級模型,如圖1所示[12]。第一級是感知層,感知環境中的要素信息;第二級是理解層,綜合集成并理解環境的當前態勢;第三級是預測層,預測環境的未來狀態和趨勢。

圖1 動態決策環境中的態勢感知三級模型
戰場綜合態勢評估是在多源信息融合基礎上,對戰場態勢的判讀、理解和預測,實現對作戰區域戰場形勢優劣研判的定量化分析,以支持快速高效的戰術指揮決策。典型地面突擊裝備作戰環境的綜合態勢評估通常考慮敵方作戰意圖識別、敵方目標威脅評估以及敵我力量對比分析等三個維度,本文重點研究如何對敵方作戰意圖進行識別。具體通過基于智能代理和人機共識的方法進行敵方作戰意圖識別,即構建敵方作戰意圖識別智能代理,將車輛乘員與智能代理在判別敵方作戰意圖時的沖突轉化為共識,從而輔助指揮員做出魯棒決策。
針對戰場態勢評估中的敵方作戰意圖識別問題,采集乘員(專家)的行為實驗樣本并訓練得到能夠自動識別敵方意圖的兩級智能代理模型,如圖2所示。構建兩級代理模型的目的是模仿乘員(專家)識別敵方作戰意圖的認知和思維過程,將認知過程“白盒化”,建立從戰場環境信息提取到敵方意圖識別的邏輯鏈條,形成用于機器判斷的智能代理。

圖2 敵方作戰意圖識別智能代理構建
一級代理模型模仿乘員(專家)從復雜多變的戰場環境中提取態勢信息并進行初步分析的過程。作戰意圖識別作為戰場態勢評估的關鍵問題,按戰場環境可分為海戰、陸戰、空戰作戰意圖識別,按戰場規模可分為戰略級、戰役級和戰術級作戰意圖識別[13]。本文主要針對地面突擊裝備典型作戰(陸戰)場景,對敵方戰術級意圖進行識別,將敵方作戰意圖分為進攻、偵察、佯攻、撤退。通過對歷史戰例、演習訓練的戰場態勢數據和信息進行分析總結,結合地面突擊裝備典型作戰的特點和乘員(專家)的寶貴經驗可知:敵軍數量的多少、行軍速度的快慢、與我軍距離的遠近、敵軍的行軍方向、毀傷狀況以及武器裝備的優良程度會直接影響我方對敵方作戰意圖的判斷[14]。因此,本文選取敵方作戰意圖識別的主要影響因素為敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度。運用如下相關公式[15-17]對作戰意圖識別的影響因素進行量化并進行表1所示的隸屬度等級劃分。

表1 態勢信息隸屬度等級劃分
(1)
式中:Tv為敵方速度威脅度;vm為我方作戰單元速度;vt為敵方作戰單元速度。
(2)
式中:Td為敵方距離威脅度;x為雙方作戰單元的距離;xRmax為雷達最大探測距離;xMmax為導彈最大攻擊距離;xMkmax和xMkmin分別為不可逃逸最大和最小距離。
TA=(|φ|+|q|)/360°
(3)
式中:TA為敵方朝向威脅度;φ為目標方位角,0≤φ≤180°;q為目標進入角,0≤q≤180°。
VW=(IR+ID)P, 0
(4)
式中:VW為武器殺傷能力;IR=Si/Smax;Si為被評估目標武器裝備的有效射程值,Smax為整個敵方陸戰分隊所有裝備中,最遠的有效射程值;ID為導彈或子彈擊中目標后的破壞能力;P為武器裝備的毀傷概率。
二級代理模型模仿乘員(專家)在態勢信息初步分析的基礎上做出最終判斷的過程。例如在敵方作戰意圖識別中,乘員(專家)綜合敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度的分析結果,判斷敵方作戰意圖為進攻、偵察、佯攻或撤退。本文運用貝葉斯網絡來完成二級智能代理的構建。
貝葉斯網絡,又稱信念網絡,或有向無環圖模型,是一種模擬人類推理過程中處理因果關系不確定性的模型,其網絡拓撲結構是一個有向無環圖(DAG)[18]。本文綜合乘員(專家)對戰場態勢信息的分析過程和敵方四種作戰意圖:進攻、偵察、佯攻、撤退,將貝葉斯網絡構建為如圖3所示的拓撲結構。

圖3 敵方作戰意圖識別貝葉斯網絡拓撲結構
敵方作戰意圖識別貝葉斯網絡具體表示為B=〈G,P〉,其中G=(L,E)表示有向無環圖模型,L={x1,x2,x3,…,xn}是圖形中所有節點的集合,對應模型中的隨機變量,即敵方意圖和意圖識別的六個影響因素;E是圖形中單向箭頭的集合,對應節點間的相互依賴關系,即各個隨機變量間的因果關系,若有一個單向箭頭由Xi指向Xj,則稱Xi是Xj的父節點,在敵方作戰意圖識別貝葉斯網絡中表示Xi對敵方意圖Xj有影響;P表示模型中的條件概率表(CPT),用于量化各隨機變量間的相互依賴程度。因此,根據概率的鏈式規則,貝葉斯網絡的聯合概率分布[19]表示為:
(5)
由馬爾可夫理論可知,在給定其父節點集的條件下,任意節點都獨立于其所有非后繼節點,即
P(Xi|X1,X2,…,Xi-1)=P(Xi|π(Xi))
(6)
根據(5)式和(6)式,可以得到如下公式
(7)
式中:π(Xi)表示節點Xi的父節點集。
確定了貝葉斯網絡的拓撲結構之后,需要結合某仿真系統中采集的乘員(專家)訓練樣本(部分訓練樣本見表2)進行參數訓練,以獲得各節點的條件概率。本文采用EM算法進行參數訓練。在敵方作戰意圖識別貝葉斯網絡的樣本數據中,Z={z(1),z(2),…,z(n)}為已知觀測數據,Y={y(1),y(2),…,y(n)}為未知數據集,EM算法是由E步和M步交替完成的參數估計算法[20],其算法原理為:
初始化參數θ,即各個節點的條件概率,這個值可以是隨機的;
E步:根據參數θ計算聯合分布的條件概率期望
(8)
式中:y(i),z(i)分別表示未知數據樣本和已知數據樣本,Qi(y(i))=p(y(i)|z(i),θ)表示在當前參數θ下未知數據樣本y(i)的條件概率分布。
EM算法可以對各節點的條件概率進行計算推理,是一種具有較好魯棒性的數值計算方法。
本文借助Netica軟件來構造貝葉斯網絡,在確定了敵方作戰意圖識別貝葉斯網絡的拓撲結構的基礎上,依據乘員(專家)樣本數據進行參數訓練,確定各節點的條件概率。通過Netica軟件可以構建貝葉斯網絡并確定各節點的條件概率,最終形成敵方作戰意圖識別貝葉斯網絡,如圖4所示。

圖4 敵方作戰意圖識別貝葉斯網絡
在信息多源融合、環境復雜多變的地面突擊裝備典型作戰場景下,車輛乘員與智能代理在戰場態勢信息提取和分析方面可能會存在差異。本文針對“人類智能”和“人工智能”在戰場態勢評估中的共識形成問題,即如何將“人類智能”和“人工智能”的認知沖突轉化為共識的問題,提出一種對人機權重不敏感的決策魯棒指數,基于該指數進行人機混合敵方作戰意圖識別的流程如圖5所示。首先,車輛乘員和智能代理分別觀察或輸入戰場態勢信息,對敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度的隸屬度等級做出判斷,找到雙方對這六個維度隸屬度等級判斷的共識與沖突(經過簡單的比對即可得到,因此不作為一個技術點);然后,針對雙方發生沖突的維度,基于貝葉斯網絡計算不同人機權重下的敵方作戰意圖;最后,基于決策魯棒指數將沖突轉化為共識,分別計算經人機融合后判斷敵方意圖為進攻、偵察、佯攻、撤退時的決策魯棒指數DnS、DnA、DnF、DnR,并根據其大小進行排序,獲得對人機權重最不敏感的結果作為最終的敵方意圖識別結果,即人機融合后的共識結果。

圖5 人機共識形成方法
在基于人機協同的敵方作戰意圖識別過程中,由于車輛乘員和智能代理在戰場多源復雜的原始數據的提取和分析方面存在差異,可能導致兩者在敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等維度上產生認知沖突。
在地面突擊裝備典型作戰場景中,考慮兩種沖突識別的方式:一種是車輛乘員與智能代理對戰場態勢信息進行獨立分析并在六個維度上分別判斷,消除兩者之間的相互干擾,然后對人機的判斷進行比對和沖突識別;另一種是為了減輕車輛乘員的工作負荷,智能代理在六個維度形成判斷后車輛乘員根據自身觀察的態勢信息進行沖突識別。這兩種識別方式如圖6所示。

圖6 人機認知沖突識別方式
兩種認知沖突識別方式分別考慮車輛乘員和智能代理分析戰場態勢信息的獨立性和減輕車輛乘員的工作負荷。本文重點研究人機混合戰場綜合態勢評估的共識形成問題,更注重人機認知沖突的獨立性,因此采用第一種識別方式。
“人類智能”和“人工智能”的認知沖突向共識轉化本質上是一個“聽人聽多少”和“聽機器聽多少”的問題,即“人類智能”和“人工智能”分別占多少權重。本文提出的決策魯棒指數是指車輛乘員與智能代理產生認知沖突并進行人機融合時,融合后的決策對人機權重的不敏感程度。具體而言,在敵方作戰意圖識別中,判斷敵方作戰意圖為進攻、偵察、佯攻、撤退的四個決策分別對應了四個不同的決策魯棒指數。決策魯棒指數越大表示對人機權重的不敏感程度越高,由此做出的決策具有更高的魯棒性。決策魯棒指數的計算公式為

(9)
式中:n代表車輛乘員與智能代理產生沖突的維數,式中第一項表示決策魯棒性的魯棒項,第二項為針對人機權重差異的懲罰項。為計算判斷敵方作戰意圖分別為進攻、偵察、佯攻、撤退時的決策魯棒指數,需要輸入人機認知沖突矩陣L和魯棒性系數矩陣M,其表達式分別為
(10)
(11)
人機認知沖突矩陣L中,Ci1,Ci2分別表示劃分隸屬度等級區間時的兩個區間臨界點,在結合軍事專家知識經驗對態勢信息隸屬度等級區間進行劃分后獲得(如本文第4章案例分析部分表3),Ci0,Ci3分別表示車輛乘員和智能代理的實際認知值,由兩者在某作戰仿真系統中觀察或輸入戰場態勢信息后獲得。例如,兩者在敵方數量維度的認知發生沖突,C10,C11,C12,C13表示將敵方數量劃分為少、適中、多三個等級的對應隸屬度區間為[0-C11]、(C11-C12]、(C12-1],車輛乘員與智能代理對于敵方數量的認知值分別為C10、C13。
魯棒性系數矩陣M中,αi,βi分別表示某個維度上魯棒項和懲罰項所占權重,魯棒項用于表征評估結果對人機權重的不敏感程度,魯棒性數值越大表示對人機權重不敏感程度越高,由此做出的決策更有魯棒性;懲罰項用于表征人機權重的差異性,某個維度上人機權重差異越大,由此做出的決策則更極端,懲罰項數值越大,人機權重差異越小,由此做出的決策更大程度的融合了人機信息,懲罰項數值越小。
在決策魯棒指數的計算中,魯棒項和懲罰項分別針對人機權重的不敏感程度和人機權重的差異性。決策魯棒指數表征人機融合后做出判斷的魯棒程度,相較于人機權重差異而言更注重人機權重的不敏感程度,因此魯棒項系數αi的取值大于懲罰項系數βi的取值。魯棒項系數αi與懲罰項系數βi的設置可以具有一定的靈活性,以適應不同的作戰環境。作為示例,本文取αi=0.8,βi=0.2。
結合構建的敵方作戰意圖識別貝葉斯網絡與決策魯棒指數,分別計算判斷敵方作戰意圖為進攻、偵察、佯攻、撤退時的決策魯棒指數DnA、DnS、DnF、DnR,比較其大小并進行排序,決策魯棒指數最大值表示該意圖判斷對人機權重不敏感程度最高,由此做出的決策具有最大的魯棒性。
假設車輛乘員與智能代理對觀察或輸入的戰場態勢信息進行獨立分析,分別對敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度的隸屬度等級做出判斷,并由此識別敵方作戰意圖。對車輛乘員與智能代理在六個維度的共識與沖突進行識別:在敵方速度、敵方距離、敵方朝向、毀傷狀況四個維度已經形成共識,而在敵方數量與武器裝備兩個維度的認知發生沖突。

圖7 不同人機權重敵方作戰意圖分析
車輛乘員與智能代理在兩個維度發生沖突時,魯棒項表示的是敵方作戰意圖分別為進攻、偵察、佯攻、撤退時所對應的人機權重范圍的面積之和,懲罰項為每一個矩形中心點與點P*(0.5,0.5)之間的歐氏距離平方。分別計算敵方作戰意圖為進攻、偵察、佯攻、撤退時的決策魯棒指數為:D2A=0.32、D2S=0.032、D2F=0.032、D2R=0.032,判斷敵方作戰意圖為進攻對人機權重的不敏感程度最高,指揮員做出敵方作戰意圖為進攻的決策具有最大的魯棒性。
以某型地面突擊裝備典型作戰場景為例,在某作戰仿真系統中,設定藍方(敵方)對紅方(我方)進行偵察任務,藍方(敵方)派遣裝備精良的小股偵察部隊快速向紅方(我方)靠近,同時后方大部隊緩慢向紅方(我方)靠近,做出進攻假勢,為偵察行動進行掩護。紅方(我方)車輛乘員和智能代理分別根據觀察或輸入的戰場態勢信息,對藍方(敵方)作戰意圖進行識別。想定示意如圖8所示。

圖8 想定示意
對敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度態勢信息的隸屬度等級區間進行歸一化處理后如表3所示。

表3 態勢信息隸屬度等級區間
車輛乘員觀察戰場態勢信息,對敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度的認知分別為:0.85-多、0.90-快、0.15-威脅、0.23-靠近、0.95-完好、0.93-優良;智能代理根據輸入的戰場態勢信息,從原始數據中分析得到六個維度態勢信息的認知分別為:0.93-多、0.25-慢、0.80-友好、0.15-靠近、0.92-完好、0.94-優良。將車輛乘員與智能代理對六個維度的認知序列輸入構建的敵方作戰意圖識別貝葉斯網絡,推理得到兩者對敵方作戰意圖的判斷如圖9所示。

圖9 敵方作戰意圖判斷
由圖9可知,根據車輛乘員對戰場態勢的認知,敵方作戰意圖有88.9%的概率為進攻;而根據智能代理對于戰場態勢的認知,敵方作戰意圖有80.6%的概率為佯攻。此時,車輛乘員與智能代理在敵方數量、敵方朝向、毀傷狀況、武器裝備等四個維度已經形成共識,而在敵方速度與敵方距離兩個維度的認知發生沖突,導致雙方對藍方(敵方)作戰意圖的判斷發生沖突。因此,為使人機形成最終共識,應對雙方在敵方速度與敵方距離兩個維度的認知進行人機融合,并將人機融合后的結果作為最終的敵方作戰意圖識別結果。



圖10 不同人機權重敵方作戰意圖分析
分別計算藍方(敵方)作戰意圖為進攻、偵察、佯攻、撤退時的決策魯棒指數為:D2A=0.045 797、D2S=0.285 445、D2F=0.139 869、D2R=0.096 037,大小排序為D2S>D2F>D2R>D2A,即判斷藍方(敵方)作戰意圖為偵察對人機權重的不敏感程度最高,我方(紅方)指揮員可由此判斷藍方(敵方)的作戰意圖為偵察,與藍方(敵方)的真實作戰意圖相符。
本文基于決策魯棒指數將“人類智能”和“人工智能”的認知沖突轉化為共識,現將人機認知沖突矩陣L與魯棒性系數矩陣M的參數取值對共識形成結果的影響說明如下:
人機認知沖突矩陣L=[Ci0Ci1Ci2Ci3]中,Ci0,Ci3分別表示車輛乘員與智能代理在兩者發生沖突維度的認知值,其取值對共識形成結果有直接影響;Ci1,Ci2分別表示對發生沖突維度劃分隸屬度等級區間時的兩個區間臨界點,其數值來源于表3(結合軍事專家知識經驗對態勢信息隸屬度等級區間進行劃分,為減輕認知或計算負擔,劃分為3個等級),Ci1,Ci2的取值帶有主觀性,對不同人機權重下的敵方作戰意圖分析(如圖10所示)會帶來一定程度的影響,進而影響共識形成結果。這種影響是無法避免的,影響的好壞取決于軍事專家的知識經驗水平。
魯棒性系數矩陣M=[αiβi]中,αi,βi分別表示發生沖突維度上魯棒項和懲罰項所占權重,為探究共識形成結果與魯棒項系數αi與懲罰項系數βi取值的關系,本文對魯棒項系數與懲罰項系數在不同取值(αi+βi=1)下人機融合后四種敵方作戰意圖的決策魯棒指數進行計算,如圖11所示。可知:魯棒項系數αi與懲罰項系數βi取不同值時,各結果的魯棒程度排序不變(圖中各曲線并未出現交叉),均為:偵察>佯攻>撤退>進攻,即魯棒項系數αi與懲罰項系數βi取不同值時,人機融合后對敵方作戰意圖最魯棒的結果均為偵察。因此,本文提出的基于決策魯棒指數的共識形成方法并不依賴于魯棒項系數αi與懲罰項系數βi的取值,即αi與βi的取值未影響共識形成結果。

圖11 魯棒項系數與懲罰項系數不同取值下四種作戰意圖的決策魯棒指數
案例中車輛乘員與智能代理在敵方速度與敵方距離兩個維度的認知值出現較大差異,本文進一步對案例中出現反差很大的數據的原因及其與L和M參數取值的關系說明如下:
在某型地面突擊裝備典型作戰場景中,態勢信息復雜多變且具有高度不確定性,造成車輛乘員與智能代理對戰場態勢信息的提取和分析存在差異,導致兩者在六個維度上的認知發生沖突。此外,智能代理對于態勢信息的認知是基于輸入的所有態勢信息,在處理大量數據、高速計算和響應既定事件等方面具有優勢;而車輛乘員對態勢信息的處理有一定的選擇性與傾向性,在主觀推理、處理突發事件和臨機決策等方面具有優勢。車輛乘員和智能代理在以上多個方面的差異,導致了兩者在對敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度態勢信息的隸屬度等級判斷時發生沖突,相應的認知值數據出現較大反差。本文案例中,由于地面作戰環境存在地形復雜、障礙物多、區域阻隔、通視性差、通信受限、甚至電子壓制等特征,給精確認知理解從而判斷局域戰場態勢帶來困難。在高動態、強實時作戰過程中,智能代理對具有復雜性、隱蔽性、欺騙性和不確定性的全局態勢信息進行高速計算從而判斷隸屬度等級,而車輛乘員更多關注局部小股部隊的快速靠近這一突發事件,導致兩者在敵方速度和敵方距離兩個維度的判斷出現巨大反差。
出現反差很大的數據直接決定人機認知沖突矩陣L中Ci0和Ci3的參數取值,案例中車輛乘員與智能代理對敵方速度與敵方距離兩個維度的判斷發生沖突,其認知值反差很大,由此選擇Ci0,Ci3的參數為C10=0.90、C13=0.25、C20=0.15、C23=0.80。另外,出現反差很大的數據也對魯棒性系數矩陣M=[αiβi]的取值有一定影響。數據反差越大說明車輛乘員與智能代理的沖突越大,兩者對于戰場態勢信息的認知差異越大,在將沖突化為共識時,更加需要考慮共識形成結果的魯棒性,同時也需要更大程度融合兩者信息。因此,當“出現反差很大的數據”時可以考慮選擇更大的魯棒項系數αi、更小的懲罰項系數βi。
通過案例分析驗證了本文提出的決策魯棒指數的有效性,可以融合車輛乘員和智能代理觀察到的戰場態勢信息,化解兩者在提取和分析戰場態勢信息時的沖突并形成人機共識,在此基礎上準確識別敵方作戰意圖,從而對地面突擊裝備典型作戰場景進行高效準確的態勢評估。
本文針對地面突擊裝備戰術級、高動態、分布式、強實時作戰綜合態勢評估亟需融合人的“人類智能”和機器的“人工智能”,以及人機智能融合的關鍵——人機共識形成問題,提出一種面向魯棒決策的人機共識形成方法,得出主要結論如下:
1)圍繞戰場態勢評估中的敵方作戰意圖識別問題,采集乘員(專家)態勢評估數據的行為實驗樣本,構建戰場態勢評估兩級智能代理模型,模仿乘員(專家)戰場態勢信息中分析得到敵方數量、敵方速度、敵方距離、敵方朝向、毀傷狀況、武器裝備等六個維度的認知,進一步對敵方作戰意圖為進攻、偵察、佯攻、撤退做出判斷的過程;
2)圍繞人機混合戰場綜合態勢評估的共識形成問題,提出一種對人機偏好不敏感的決策魯棒指數,將車輛乘員與智能代理在對戰場態勢信息分析中產生的沖突轉化為共識,輔助指揮員進行魯棒決策。通過案例驗證了所提方法能夠正確識別敵方作戰意圖,進行高效準確的戰場態勢評估。
本文所提出的面向魯棒決策的戰場態勢評估人機共識形成方法,輸入的是某作戰仿真系統中的仿真數據,存在信息相對完備的基本假設。然而從更實際的應用角度來看,戰場態勢評估主要是不完全信息的博弈問題。本文采用的貝葉斯網絡是一種解決不確定性知識推理和預測的工具,在參數訓練時采用的EM算法是一種具有較好魯棒性的數值計算方法,一定程度上可處理數據缺失的問題,因此本文所提方法具備一定的不完全信息處理能力。
對于實際作戰場景中由于態勢信息難以完全獲取導致的不完全信息問題,本文所提方法存在一定的局限性。在未來的研究中將考慮解決不完全信息問題,具體思路如下:
第一層態勢數據的缺失和模糊很大程度上來源于戰場中的各種噪聲、電子對抗和電磁干擾,這導致了傳感器探測到的戰場數據與實際情況存在一定偏差。針對這一問題擬采取數據補齊的思路,通過最小二乘法、多項式擬合、極大似然估計和貝葉斯等方法,利用連續數據前后數值之間的關聯對缺失數據進行修補。針對第二層態勢數據的缺失和模糊問題,擬采取模型擴展的思路,在不破壞原始不完備信息系統中任何信息的前提下對經典粗糙集進行擴展,直接處理不完全信息。利用數據特征量之間的關聯,通過貝葉斯、隨機森林和決策樹等方法,在已知特征量的基礎上直接推理出結果。