劉力源,周洪濤,蘇厚勝
(華中科技大學 人工智能與自動化學院,湖北 武漢 430074)
任務決策作為無人系統技術的核心,目前面臨著場景復雜多樣、事件不確定性難以描述、模型自適應能力差等難題,因此任務決策的理論研究具有重要價值。
任務決策的方法分為基于學習的決策方法和基于規則的決策方法。基于學習算法方面,在無人艇避碰決策方向,使用強化學習[1],雙向長短記憶網絡學習[2]算法獲得避碰策略,驗證其在多障礙物復雜模糊場景下的有效性。在無人機空戰決策方向,使用深度神經網絡算法[3]訓練預測系統,將其輸出的機動策略應用于一對一仿真場景,提升了空中作戰能力。在無人駕駛決策系統方向,使用卷積神經網絡算法[4]進行端到端學習,實現了無人車轉向和油門的輸出。基于規則方面,在概率邏輯下的決策規則,文獻[5]利用條件隨機場評估周圍車輛的風險,生成連續時間避碰策略。在不確定性條件下的決策規則,文獻[6]使用部分可觀察馬爾可夫決策過程算法,推理無人機應用中的不確定性,包括觀測模型中出現的遮擋、噪聲等因素;文獻[7]構建多實體貝葉斯網絡模型,對水下機器人交換信息過程中的不確定因素進行推理;文獻[8]構建模糊邏輯和貝葉斯推理的空戰機動決策模型,通過引入模糊邏輯構造決策因子的函數,適用于不確定性的空戰博弈,提升了決策結果的魯棒性。在時序因素作用下的決策規則,文獻[9]構建了變結構離散動態貝葉斯網絡模型,完成突發威脅下的任務決策,融合威脅評估、目標價值評估和態勢評估因素,通過轉移概率反映動態環境對決策的影響。總體來說,無人機、無人駕駛等領域能夠較好地解決特定場景中的任務決策問題,但無人艇領域中基于規則推理的方法研究還相對不足,仍存在一些局限性:1)決策問題受時序因素影響需進行動態建模;2)決策過程中不確定性因素推理困難;3)決策結果可解釋性差且模型修正困難。
為此,本文提出一種動態多實體貝葉斯網絡(dynamic multi-entity Bayesian network, DMEBN)模型,該模型采用概率本體語言描述本體屬性的不確定性,同時考慮時序因素對變量的作用,將相鄰時間步驟的變量關聯起來,推理不同時刻的任務決策方案,并依據策略概率結果自適應調整決策因素所占權重,以提高決策的準確性。在設計的場景想定中,該模型能夠得到離散時間內不同策略的概率分布,驗證了模型的有效性和可靠性。
綜合多實體貝葉斯網絡和動態貝葉斯網絡模型的優點為DMEBN 模型的設計提供思路。多實體貝葉斯網絡(multi-entity Bayesian network, MEBN)的優勢在于同時具備一階邏輯的知識表示能力和貝葉斯網絡(Bayesian network, BN)的概率推理能力,用于復雜不確定性邏輯關系推理,并且能夠通過擴展BN 來表示具有重復子結構的圖形模型[10]。動態貝葉斯網絡(dynamic Bayesian network, DBN)是以概率網絡為基礎,將事件信息與BN相結合的邏輯系統,具有處理時序數據的能力[11]。在不同時間片段下DBN 節點概率狀態反映了變量的發展變化規律,因此能夠對動態事件進行分析處理。
設計面向無人艇本體的語義推理框架,表示無人艇、環境和目標等信息,采用MEBN 的概率圖模型對其進行知識表達。根據節點和決策結果的動態變化,在概率本體語言描述不確定知識基礎上,結合DBN 的概率網絡對MEBN 模型進行改進,考慮時序因素對變量的影響,構建動態多實體貝葉斯網絡模型。概率圖模型描述了實體和實體間的因果關系,能夠考慮到決策問題的邏輯結構,使推理過程具有良好的可解釋性;使用概率本體語言描述不確定知識,能夠減少不確定因素信息帶來的影響;考慮時序因素對變量的影響,綜合上一時刻的策略,則能夠自適應調整決策因素權重。
本文結合無人艇的特定功能[12],并參考水面艦船的總體系統[13],將無人艇劃分為多個子系統,這些子系統是無人艇本體推理框架的重要組成結構。無人艇本體推理框架如圖1 所示,它是一種層級式混聯結構,決策層級和框架層級的設計采用并聯式,上下文層級為串聯式。依據無人艇的功能進行劃分,決策層級包含設備監測、危險預警、環境感知、信息傳輸及任務決策;參考水面艦船的設計,框架層級包含通信系統、導航系統和感知系統。建立功能與系統的組成關系,使用上下文層級細化描述類、關系及實體。

圖 1 無人艇本體推理框架圖Fig. 1 Unmanned surface vehicle ontology reasoning framework graph
上下文層級包含了影響決策的重要因素,能夠描述決策層級和框架層級中本體的信息。上下文結構對應實體間的因果關系,同時根據決策場景的變化可靈活調整上下文的實體和關系,因此該推理框架具有可解釋性和擴展性。本文從環境、無人艇和目標三方面考慮對決策的影響。環境本體方面,海域環境狀況復雜多變,重點研究水面深度對無人艇與目標移動速度的影響,海浪大小和天氣能見度對設備與通信有效性的影響等;無人艇本體方面,考慮無人艇搭載的載荷類型以及設備的不同,包括導航設備、傳感器設備和武器載荷,其中導航設備由定位系統和慣性導航系統兩部分組成,傳感器設備主要包含聲吶、光電傳感器和激光雷達,武器載荷使無人艇可具備攻擊能力;目標本體方面,針對突發事件的態勢,框架中的目標意圖由目標航向、速度和位置等信息推理得到。
本體的概率擴展是在貝葉斯網絡概率擴展的基礎上,通過定義新的概念類和轉換規則,將本體與貝葉斯網絡相結合,可以支持不確定知識的表示和推理。常見的方法有BayesOWL[14],OntoBayes[15]等,其中MEBN 的邏輯擴展采用概率本體語言的方法。
概率本體語言是通過帶參數的隨機變量表示本體屬性的不確定性。定義網絡本體語言的類,如MTheory,MFrag,Node 等,同時定義類之間的關聯屬性,如hasMFrag,hasPossibleValues 等,完成對MEBN 理論的上層本體的擴展,如圖2 所示。其中類RandomVaria ble 表示本體屬性的不確定性,隨機變量的參數對應領域本體的實例,作用是推理網絡本體語言中不確定部分,類ProbabilityDistribution 表示隨機變量的概率分布,一般通過UnBBayes 工具中的本體概率表定量描述。局部概率分布作為先驗條件,概率圖模型節點間的因果依賴關系與簡單邏輯規則語句對應,編譯運行能夠獲得特定場景貝葉斯網絡的推理概率值。

圖 2 MEBN 上層本體關系圖Fig. 2 MEBN upper ontology relationship graph
與MEBN 模型相比,系統動態建模是在其基礎上考慮了相鄰時間片段的轉移網絡,體現時序因素對節點的影響。基于DBN 模型結構,通過對無人艇的實際應用設計不同的轉移網絡結構,并計算相應的概率,以此構建DMEBN 模型。
2.3.1 局部動態貝葉斯網絡結構
局部動態貝葉斯網絡是指當前時刻的節點狀態受到上一時刻節點的影響,從無人艇的領域本體中選擇具有動態特征的節點,節點包含目標屬性與無人艇傳感器設備等,對應圖3 兩種基本圖結構。

圖 3 局部動態貝葉斯網絡圖Fig. 3 Local dynamic Bayesian network graph
如圖3(a)所示,同一節點網絡結構表示節點A 在相鄰時刻的狀態共同作用于節點B 在當前時刻的狀態,應用于目標的速度變化、位置變化以及意圖分析等方面,例如基于目標在相鄰2 個時刻的位置來獲取目標運動趨勢的概率。節點B 在t+1時刻的轉移概率,計算公式為:

系統內的各個組件之間相互獨立,組件一般有正常和故障2 種狀態。圖3(b)表示上一時刻節點A 和B的狀態會影響當前時刻節點A 和B,同一時刻內的A 和B 分別為C 的父節點并共同作用于節點C。轉移概率計算公式為:

其中A(t)表示設備A 在t時刻的狀態,正常和故障分別對應著1 和0。若上一時刻狀態正常,則下一時刻正常的轉移概率為1。若上一時刻狀態故障,通過對概率密度函數積分計算其不可靠度的轉移概率,fA(t)表示設備失效時間的概率密度函數,呈指數函數分布,λA表示設備失效率。
無人艇常用設備有全球定位系統(global positioning systems, GPS)、慣性導航元件(inertial measurement units,IMU)、聲吶、光電傳感器和雷達。表1 為查詢設備故障率的結果[16]。

表 1 設備故障率Tab. 1 Equipment failure rate
?t表示傳感器已工作時長,設置為1000 h,相對于使用總時長而言,設備在工作過程中的時長誤差可以忽略不計,從而計算出傳感器可靠性在不同時刻發生轉移概率。
2.3.2 全局動態貝葉斯網絡結構
無人艇的任務決策是由上一時刻策略的影響和當前時刻領域本體的推理結果共同作用。全局動態貝葉斯網絡解決上一時刻策略的定量描述問題,設置相鄰時刻的策略轉移概率,并引入概率系數表示上一時刻策略權重大小。計算所有的策略概率后,進行歸一化,得到新的策略概率分布,計算公式為:

其中轉移概率矩陣中元素 λi j表示策略j轉移到策略i的概率,X(t)為t時刻下的策略集合,n為設置的策略個數,Pi(t) 表示t時刻下策略ii的概率。
下一時刻策略i的概率是通過當前時刻策略i的概率與下一時刻策略i的推理結果按比例相加求和得到,計算公式為:

基于無人艇集群的安全巡邏背景,設計一個島礁區域防守的場景想定,目的是阻止敵方目標接觸島礁。無人艇集群在島礁防守范圍內進行巡邏,若目標在某一時刻進入集群覆蓋的防守區域,無人艇搭載的傳感器就會探測到目標位置等信息,然后結合探測數據和環境信息等因素推理目標意圖,進而推理出無人艇在當前時刻下的任務決策,阻止目標進入防守區域。
假設環境信息為晴朗、水深中等和無浪,在無人艇巡邏過程中,探測到某一目標出現在島礁附近,其速度及目標變化如圖4 所示。離散時間下目標在t1~t4時刻遠離島礁位置,由低速到中速。t5~t7時刻距離島礁位置中等,速度降低,同時在t6~t8時刻主動干擾信號,引發無人艇GPS 和雷達設備的失靈。t8~t10時刻高速靠近島礁位置,準備發動攻擊。t11~t12時刻目標降速遠離島礁。

圖 4 目標速度及位置變化圖Fig. 4 Target speed and position change
將無人艇本體推理框架中定義的本體實例化,確定實體狀態,任務策略分為4 種,包括攻擊、跟蹤干擾、偵察和巡邏。無人艇在目標威脅程度快速提高或攻擊我方重要區域時采用攻擊策略,在目標有進攻意圖時采用跟蹤干擾策略,在敵方意圖判斷不清且目標威脅程度逐漸提高時采用偵察策略,在目標威脅程度較低且遠離我方區域時采用巡邏策略。每一實體狀態如表2 所示。

表 2 實體狀態Tab. 2 Entity Status
基于概率本體語言方法構建無人艇領域推理網絡,對場景中的不確定性進行建模和推理。MEBN 理論定義了8 個實體片段,分別為通信系統、環境感知、任務載荷、控制系統、信息傳輸、設備監測、任務決策及目標意圖。
計算目標屬性和無人艇的傳感器設備等受時序因素影響的節點的轉移概率。DMEBN 模型中策略間的轉移概率根據專家經驗預設。此實驗場景下無人艇通常保持巡邏或偵察狀態,任務策略頻繁切換會導致無人艇執行效率的降低,為增加策略的連續性,需提高這2 種狀態的轉移概率。由偵察或跟蹤干擾的狀態切換到攻擊狀態,為綜合考慮攻擊和跟蹤干擾策略的影響因素,需提高其他狀態到當前狀態下的轉移概率。
攻擊策略閾值設為20%,其他3 種策略不設置。由于攻擊策略的約束條件較多,攻擊概率最高時再發動攻擊會延誤時機,因此在其超過閾值時無人艇優先選擇攻擊策略。
在模型推理開始前,設置局部概率分布作為先驗條件。綜合目標速度變化、位置變化、上一時刻位置和體積等信息,推理當前時刻下目標意圖為佯動,其概率值為49.2%。假設無人艇的數據和視頻信號傳輸正常,聲音信號傳輸異常,抗電磁干擾能力為80%,推理傳輸正確信息的概率為86%。無人艇配備并安裝武器,得到任務載荷的推理結果。無人艇配備雷達、光電傳感器和聲吶,其中雷達及光電傳感器的狀態正常,聲吶狀態未知,推理現有設備完成任務的概率為69.55%。綜合無人艇的傳輸能力、武器配置和設備能力等信息,推理其具備攻擊能力的概率為51.02%。無人艇在當前時刻具備攻擊、跟蹤干擾、巡邏和偵察能力的概率分別為51.02%,57.95%,58.53%及49.72%。最后綜合水面目標意圖和無人艇的能力推理得到任務決策概率,推理無人艇偵察策略的概率最高,概率值為38.44%。
依次按照上述過程推理12 個時刻下的狀態概率,分析目標意圖,得到無人艇的任務策略。
在目標進入島礁安全區域范圍后,無人艇的偵察策略概率最高,但在t5和t8~t9時刻概率明顯下降,是因為目標意圖發生變化,威脅程度提升。在t5時刻根據目標快速接近島礁等因素推理出目標佯動的概率最高,在t8~t9時刻目標攻擊的概率迅速增加,因此無人艇的跟蹤干擾和攻擊在這2 個階段下概率超過偵察和巡邏,也符合預設場景下目標的真實情況,如圖5所示。

圖 5 目標策略時序圖Fig. 5 Target strategy time series graph
為了判斷觀測時序對最終任務決策的影響,將DMEBN 模型推理任務決策的概率與僅使用MEBN 模型得到的結果進行比較。圖6 和圖7 顯示2 種模型在12個時刻下4 種任務決策的概率折線圖。在t1~t4時刻2種模型的無人艇4 種任務策略變化趨勢相同,DMEBN模型推理結果中執行攻擊的概率小幅度增加,是因為攻擊策略綜合在上一時刻其他狀態概率影響。在t5~t7時刻DMEBN 模型偵察和巡邏的概率波動變化較小,是因為綜合相鄰時間片段的信息保證推理結果的連續性。在t8~t9時刻2 種模型任務策略均發生變化,說明獲取的本體具有普遍性,能隨態勢變化推理出正確的任務決策,但在t9時刻DMEBN 模型的攻擊策略不會陡然下降,更符合真實戰場下攻擊的決策,而僅使用MEBN 模型未充分完成任務策略就迅速改變。最后t10~t12時刻由于模擬武器載荷被完全使用,攻擊策略概率為0,其余策略概率變化趨勢相同。
DMEBN 模型的在該場景下推理結果與目標意圖相符,并得到了合適的任務策略,驗證了模型的可行性和有效性。MEBN 中沒有考慮時序對變量的影響,策略僅由當前時刻的態勢決定,策略的概率波動很大,而DMEBN 模型的推理可綜合上一時刻概率,增加策略執行的連續性,在真實戰場中,這種策略變換能夠提高決策的準確性。

圖 6 基于MEBN 推理策略時序圖Fig. 6 MEBN-based inference strategy time series graph

圖 7 基于DMEBN 推理策略時序圖Fig. 7 DMEBN-based inference strategy time series graph
本文提出基于DMEBN 模型的無人艇任務決策方法,確定無人艇的基本功能,綜合考慮影響任務決策的因素,用概率本體語言描述領域內實體狀態的不確定性,通過模型相鄰時刻的轉移概率反映動態環境對決策結果的影響,能夠自適應地調整決策因素所占權重,并根據定義閾值選擇不同場景下的執行策略。設計實驗模擬區域安全巡邏的場景,完成水面目標意圖推理以及無人艇的決策方案選擇,得到離散時間下不同策略的概率分布情況,與MEBN 輸出結果對比,表明生成策略的連續性,驗證了模型的有效性。
本體框架采用自頂向下的方式構建,不能完全覆蓋無人艇及環境信息,下一步采用自底向上的方法獲取更多的實體及關系,用于構建領域知識圖譜,再結合實際場景下先驗信息,提高推理能力和準確性。實際應用中無法直接使用基于DMEBN 模型得到的推理結果,需要轉化為無人艇識別語言,對無人艇的任務問題采用規劃領域定義語言表示,進一步在真實場景下驗證模型。