馮振宇,彭倍,王剛
(電子科技大學 機械與電氣工程學院,四川 成都 611731)
圖神經網絡(graph neural network,GNN)是一種流行的圖形數據學習表示工具,包括但不限于社交網絡、分子圖和知識圖[1]。GNN 比傳統的決策樹的邏輯推理更具有效性[2-4]。基于圖神經網絡的水下無人系統智能決策,是針對水下無人系統集群實際應用的特殊需求,如通信受限、多任務、復雜多變環境等約束,為了滿足水下無人系統集群智能的決策需求,采用認知推理理論,運用圖神經網絡方法解決水下無人系統集群智能實現過程中存在的智能決策問題。集群智能決策主要是基于“約束—集群—環境”的認知推理,并在實時交互環境中實現集群的任務分配策略、任務執行策略的推理決策。
人工智能強化學習(reinforcement learning,RL)領域是基于知識表示、認知學習實現智能推理決策的,當前的強化學習方法在關系型問題推理和約束動態推理上存在很多不足[5]。所以,根據領域最新的研究成果,基于圖神經網絡的強化學習方法是實現關系型問題推理和約束動態推理的研究方向之一[6]。
強化學習的基本思想是智能體(Agent)在與環境交互的過程中根據環境反饋得到的獎勵不斷調整自身的策略以實現最佳決策,主要用來解決決策優化類的問題。其基本要素有策略、回報函數、值函數、環境模型,學習過程可以描述為如圖1 所示的馬爾科夫決策過程。強化學習基本學習模型首先智能體感知當前狀態 S ,從動作空間A 中選擇動作 at執行; 環境根據智能體做出的動作來反饋相應的獎勵 rt+k,并轉移到新的狀態St+k,智能體根據得到的獎勵來調整自身的策略并針對新的狀態做出新的決策。強化學習的目標是找到一個最優策略 π*,使得智能體在任意狀態和任意時間步驟下,都能夠獲得最大的長期累積獎賞:

圖 1 強化學習基本框架Fig. 1The basic framework of Reinforcement learning
其中π 表示智能體的某個策略,γ∈[0,1]為折扣率,k 為未來時間步驟,S 為狀態空間。
圖神經網絡算法理論是基于人腦認知推理決策的認知學科的推理決策模式[7]。基于GNN 強化學習智能決策算法,是運用人工智能GNN 算法來實現集群Agents 的智能決策策略的求解,通過構建帶有屬性的圖[頂點,邊],繼而通過頂點到邊,邊到頂點,邊和頂點到全局圖屬性的迭代計算實現智能決策推理學習[3]。
圖2 為針對無人系統集群智能輔助決策系統作戰應用的具體場景。首先,進行認知建模,將決策影響因素抽象成實體與關系的圖。然后,根據GNN 算法原理構建實體、關系,進行推理決策參數訓練。

圖 2 GNN 理論模型Fig. 2GNN theoretical model
基于圖神經網絡的無人系統集群智能強化學習研究,是在傳統集群智能的基礎上,將人工智能-強化學習技術融合進去,主要采用的是連結主義核心思想(見表1),采用最新的圖神經網絡算法理論,實現無人系統集群的智能的推理決策、模型訓練、經驗學習,進一步提高無人系統集群智能程度[8]。

表 1 人工智能實現方法主要流派Tab. 1 The main schools of artificial intelligence implementation methods
航行器節點屬性矩陣 Ui,t為描述單個航行器平臺固有屬性和狀態屬性的矩陣。該矩陣能夠描述航行器性能和當前位置等狀態并實時更新,從而在決策圖中作為頂點來進行決策圖全局屬性的迭代計算;任務節點屬性矩陣 Ti,t為描述水下無人系統集群在一次任務中需要完成的一個或者多個特殊任務屬性的矩陣,該矩陣包含需要執行任務的類型,任務信息描述(區域,范圍等);約束節點屬性矩陣 Ci,t為描述任務執行過程中的約束條件矩陣,該矩陣包含一次任務過程中水下無人航行器集群會面臨的時間約束,能量約束,復雜環境約束等信息;隊形節點屬性矩陣Fi,t為描述水下無人航行器集群任務執行、行進過程中的隊形的矩陣,包含集群需要保持的隊形信息;全局屬性矩陣Gi,t為描述決策圖所有頂點及其之間對應關系邊所構成的決策結果描述矩陣,包含該次決策結果的衡量和描述信息。
頂點屬性更新邊的屬性,邊是有方向的,接收頂點矩陣與發出點矩陣通過對應回報計算函數給當前有向邊屬性進行賦值,表示當前邏輯連接關系的回報。通過對應的預先設定的回報計算函數來進行任務←f(T,U) → 航行器,約束←f(C,U)→航行器回報,隊形←f(F,U)→航行器的對應邊關系進行邊屬性回報值計算:

圖3(a)為基于GNN 的水下無人系統智能決策的決策表示,決策圖中頂點分別表示在一次智能決策中所有的任務、約束、航行器、隊形等需要進行決策和影響決策的信息。圖3(b)為在初始化的決策圖的基礎上,通過決策算法1 的強化學習迭代求解對決策圖的頂點屬性、邊屬性、全局圖屬性進行了一定程度的更新,直至最終算法迭代終止,完成一次基于GNN 的水下無人系統智能決策的強化學習,并根據強化學習結果給出對應的最優智能決策的策略。

圖 3 決策訓練Fig. 3Decision training
基于GNN 的水下無人系統決策仿真試驗驗證,對1 個任務、1 個約束、1 個隊形約束、4 臺不同類型的水下無人航行器進行智能決策GNN 圖的強化學習,目的是從4 臺無人水下航行器中選擇幾臺來執行滿足該約束與隊形的任務。圖4 為MDP 強化學習的仿真GNN 決策圖。其中節點1 表示搜索任務,節點2 表示能量約束,節點3 表示任務對應的隊形約束,節點4~節點7 表示可以選擇來完成任務的航行器,每個航行器的最大速度、續航能力等都不相同。如果能夠滿足任務需求該航行器代表的頂點與約束頂點的邊屬性即強化學習回報為1,否則回報為0。同理,決策時能夠滿足任務需求的邊屬性回報值為1,否則為0。

圖 4 MDP 仿真模型GNN 決策圖Fig. 4Simulation GNN Decision Graph of MDP
圖5 為基于圖神經網絡技術的水下無人系統智能決策Matlab 仿真試驗結果,其中縱坐標是決策圖全局屬性的總回報,橫坐標是決策圖進行強化學習訓練的迭代步數。由圖可知,在進行100 次訓練時就可以通過GNN 決策圖輸出可以滿足任務執行需求的決策結果。最優的決策圖全局策略回報值為4,如果強化學習對決策圖的訓練結果總回報為4 時即表示策略成功。

圖 5 智能決策強化學習仿真結果Fig. 5Intelligent decision RL simulation results
最終基于GNN 的水下無人系統智能決策強化學習仿真給出的決策策略結果如圖6 所示。從備選UUV 中選擇航行器02,航行器03,航行器04 即可順利完成節點2、節點3 約束下的節點1 任務。

圖 6 智能決策策略結果Fig. 6Intelligent Decision Policy Result
所以,從該決策仿真試驗的結果來看,水下無人系統能夠基于圖神經網絡技術與人工智能強化學習方法有效結合,在較短的時間內提出智能決策策略,從而為指揮人員提供參考。
本文的研究表明基于圖神經網絡的智能決策方法能夠滿足水下無人系統智能決策動態任務,動態約束,動態集群需求的智能決策,并且能夠快速訓練出最優的決策策略,為指揮人員提供智能決策建議。但是,本文的研究簡化了決策圖頂點屬性及頂點間邊屬性的回報值計算。在后續的研究中,將結合實際應用場景進行決策邊屬性的更新計算,并探索不同決策圖之間共性頂點的經驗學習。