趙玉新,杜登輝,成小會,周迪,鄧雄,劉延龍
(1.哈爾濱工程大學 智能科學與工程學院, 黑龍江 哈爾濱 150001; 2.中國艦船研究設計中心, 湖北 武漢430064)
海洋環境觀測在海洋學中有著至關重要的作用,對海洋環境的觀測是人類認識和開發海洋的基礎[1]。區域海洋環境觀測系統作為全球海洋觀測系統中的重要組成部分,為海洋科學研究、海洋資源探測以及海洋環境狀況以及變化趨勢等方面提供了有效的觀測數據資料。盡管海洋環境觀測對人類生活有著重要的科學意義和和社會經濟價值,但是其依然面臨著巨大的挑戰[2],如何基于有限的海洋環境觀測平臺,構建海洋環境移動觀測網絡,實現對區域海洋環境的最優化觀測,以及如何基于海洋移動觀測平臺獲取的實時的海洋環境觀測數據,實現海洋環境觀測平臺的自適應路徑優化成為當前區域海洋環境觀測技術發展的重要課題[3-4]。
本文將深度強化學習算法用于區域海洋環境觀測網絡的觀測方案設計。強化學習算法是一類學習、預測、決策的方法,通過智能體與環境的交互,利用試錯的方式學習最優策略[5]。強化學習算法已經被廣泛應用到路徑規劃中[6-14],以往的這些工作或將優化算法結合強化學習,或直接采用和改進強化學習方法,解決了傳統的針對避障的路徑規劃問題。但是區域海洋觀測網絡的路徑規劃不只是針對避障,其主要目的是通過獲取海洋環境預報數據,智能地選擇觀測價值較大的區域,針對這個問題尚未被提出有效的方法。本文吸收了深度強化學習解決路徑規劃問題的經驗[15-21],考慮海洋環境預報數據,將海洋環境自適應觀測看成一類序列決策優化問題,海洋環境移動觀測平臺接到指令,通過獲取當前復雜的海洋環境背景場信息做出下一步決策,實現復雜海洋環境下的最優觀測。
區域海洋環境移動觀測網絡由移動觀測平臺如無人測量船(unmanned survey vessel,USV)、水下滑翔器(underwater glider)、自主水下航行器(autonomous underwater vehicle, AUV)等組成,觀測的對象是海洋中一定時間梯度下溫差變化較大的區域。本文主要討論無人測量船在海洋中的采樣點觀測路徑規劃。如圖1所示,USV要從選定的起始點(x1,y1)出發,對海洋中的溫差改變較大的區域進行測量,并根據未知的障礙物實時對USV進行操控,避免其碰撞,目標就是在約束條件下最大化對該區域范圍內溫度變化梯度較大的點進行采樣。
第i個 U SVi從一個點 (xi,yi)到另一個點(xi+1,yi+1)的路徑可表示為

式中:θ為USV在第i個路徑點的航向;vi為USV在第i個路徑點的速度;t為時間步長。
USV的海洋環境探測示意圖如圖1所示。USV在一定方向范圍內對周邊的海洋環境進行探測,探測角度為 αi,探測半徑為R,在該點探測到的采樣點的溫度差為 (ΔTi1,ΔTi2,···,ΔTim),對探測到的溫度差進行比較,選取溫度差最大的 ΔTij為下一點的采樣點。

圖1 路徑規劃采樣示意Fig.1 Path planning sampling diagram
所以,對于該問題,其目標函數為

式中:d為續航里程約束函數;vi為速度約束;θ為探測方向角約束;t為時間步長。
在本文中,主要是將海洋環境要素數值預報信息作為重要參考,對海洋移動觀測網絡設計觀測方案。因此首先需要構建一個海洋環境數值預報系統,以獲取區域的海洋環境數值預報信息。本文選擇在一個中等復雜程度的耦合環流模式(intermediate complex coupled model, ICCM)的基礎上進行優化調整,從而獲取更加符合區域海洋移動觀測網絡路徑規劃的數值預報信息。由于ICCM本身的水平分辨率較大,這樣大粒度的數據很難作為區域性移動觀測網絡路徑規劃的參照,因此本文采用一種多層嵌套的方式將耦合模式系統的分辨率由3.75°變為0.1°,并且采用一種最優觀測時間窗口的耦合數據同化方法,構建區域耦合環境分析預報系統。在該系統中,本文選取經度為 124.0°~129.0°E、緯度為 16.0°~21.0°N 的范圍獲取時長為5 d的海表溫度預報信息作為海洋移動觀測網絡路徑規劃依據。
深度強化學習(deep reinforcement learning,DRL)是近年來人工智能領域一個蓬勃發展的方向,目的是解決計算機從感知到決策控制的問題,從而實現通用人工智能[22]。圖2展示了強化學習模型中涉及的基本思想和要素。深度強化學習本質上是使用深度神經網絡來代替表格作為強化學習算法的策略函數。傳統的強化學習算法(例如Q-learning)采用表格作為策略函數,表格中的數值代表每個狀態下采取某個動作時的價值,智能體通過比較同一個狀態下價值的大小從而選擇合適的動作。但是當環境越來越復雜,狀態越來越多甚至是連續的時候,采用表格的方法實現決策就越來越困難,而深度神經網絡正好具有強大的擬合能力,所以可以將這個決策函數用深度神經網絡來代替,這樣就形成了深度強化學習。目前,絕大多數強化學習算法都是使用深度神經網絡代替傳統強化學習算法中的表格作為策略表示。

圖2 強化學習示意Fig.2 Schematic diagram of reinforcement learning
對于強化學習算法的研究,也在不斷地發展,如圖3所示。Mnih等[23]等將神經網絡與傳統強化學習(RL)中的Q-Learning算法相結合,提出了深度Q網絡(deep Q-network, DQN)模型,該模型用于處理基于視覺感知的控制任務,開創了深度強化學習領域新局面[24]。

圖3 DQN算法圖解Fig.3 DQN algorithm diagram
DQN算法使用均方差更新網絡權重來定義目標函數:

DQN有兩個特質:1) 經驗回收,DQN有一個經驗池用來存儲學習數據,由于DQN是一種離線學習方法,所以每次DQN更新的時候,都可以從記憶庫中隨機抽取數據;2) 目標神經網絡,它是一個結構與Q網絡完全相同但參數不同的神經網絡,用于產生目標值[25]。
在本文中,數據預處理主要是指將數值模式預報出的海洋環境數據處理成可被讀取、易于訓練的形式。本文針對的是區域海洋環境數據,因此主要獲取的是區域海洋環境要素場隨時間變化的數據和該區域的障礙物信息,然后對原始數據進行數據變形、數據插值、構建時間梯度場、裁切局部環境場、構建障礙物場等。
首先對原始數據進行變形,原始數據無法體現出各點之間的相對位置關系,對于路徑規劃任務基本沒有意義。因此本文根據數據的坐標信息將原始數據重整成均勻分布的海洋環境場數據。輸入數據不僅要能表征全局的絕對數據,還要能表征海洋環境要素的時間梯度和觀測平臺周圍的局部數據,因此分別求取海洋環境要素場的時間梯度場和對全局數據場進行裁切獲得局部海洋環境要素場;另外,避障約束是路徑規劃的基本要求,因此輸入數據也要能體現該區域障礙物的位置信息,將障礙物進行環境建模,構建區域障礙物場。其中局部環境場的裁切如圖4所示。

圖4 局部環境場的裁切Fig.4 Trimming of local environmental fields
此外,在對深度強化學習算法中的神經網絡模型進行訓練的過程中,通常不直接使用源數據,而是將數據進行歸一化處理,由于經過上述處理后的數據為二維柵格數據,因此采用二維數據歸一化。在本文中,采用了RankGaussion數據標準化方法。在RankGaussion方法中是先將數據按照大小進行排序,然后再將數據標準化為高斯分布,在訓練基于梯度的模型(如神經網絡)時使用這種方法能夠加快收斂速度。
強化學習的環境指的是對現實環境反映模式的模擬,或者更一般地說,它允許對外部環境的行為進行推斷。例如給定一個狀態和動作,模型就可以預測下一個狀態和收益。除此之外,環境還能模擬整個規劃過程,包括環境狀態的重置,環境數據的調度,環境的可視化等。環境對應著我們所要解決的問題的場景,它通過模擬現實情況進行算法的訓練。總之環境就是提供給強化學習算法一個運行平臺,強化學習代理通過與環境進行交互獲取狀態、動作、獎賞等數據進行訓練,環境則是通過強化學習代理產生的策略根據狀態得到動作,進行完整的狀態迭代過程。
強化學習算法中環境的搭建首先要明確狀態和動作,動作即為路徑規劃過程中的決策,想要通過訓練得到期望的動作,那么神經網絡的輸入即狀態必須包含足夠且精準的環境信息。考慮到海洋環境觀測路徑規劃的目的,于是取狀態為全局海洋環境場、局部海洋環境場和觀測平臺的位置,如圖5所示。

圖5 環境狀態設計Fig.5 Environmental state design
環境動作空間的設計指定了智能體所能采取的動作的范圍,也決定了其所能探索的狀態空間的最大范圍。一個好的動作空間的設計是在探索范圍和訓練效率之間的權衡,既不能將動作空間設計過于保守,壓縮探索空間范圍造成局部最優;同時又不能將動作空間設計得過于繁瑣,導致訓練過程難以收斂;另外,動作空間的設計還要考慮動作的“合法性”,即需要考慮設計的動作是否能夠達到或者會不會造成嚴重的后果,在設計動作空間的過程中要拋棄不合法的動作。
本文中的動作空間主要指能夠對移動觀測平臺的移動造成影響的變量,對于宏觀的路徑點規劃來說,將運動變量歸納為航向和航速。如圖6所示,航向和航速兩個變量都對移動觀測平臺的空間探索范圍有所影響,因此為了權衡探索范圍和訓練效率,分別將兩個變量限制在一定的范圍內。

圖6 動作空間設計Fig.6 Action space design
獎賞函數的設計對強化學習算法來說至關重要。強化學習的最終目標就是使得累計期望獎賞最大化,因此獎賞函數的設計決定了訓練的方向,獎賞函數的設計在一定程度上也就決定了訓練效果的上限。本文獎賞函數涉及多個目標,對多目標優化的處理是通過線性加權的方式轉化為單目標優化。獎賞函數應該體現所規劃路徑的目標以及約束,即應包含海洋環境待測要素的信息梯度、移動觀測平臺的測量屬性約束、多個移動觀測平臺之間的避障和重疊約束等。
1) 海洋環境待測要素的信息梯度
在本文中,移動觀測平臺執行海洋觀測任務主要的目的就是捕捉海洋環境要素的變化特性,所以當觀測資源有限時,觀測應該集中在變化劇烈的區域。待觀測要素分析預報場的標準差和水平梯度能有效表征待測要素在時間和空間上的變化特性,所以分別采用基于待測海域海洋要素的時間梯度和空間梯度作為獎賞函數:

2) 移動觀測平臺的測量屬性約束
本文針對觀測平臺自身的測量屬性,包括時間間隔、測量范圍、續航里程,構建了相應的約束。移動觀測平臺續航里程則對應整個觀測平臺的觀測軌跡總長度。
3) 觀測平臺的避障約束
對移動觀測平臺進行路徑規劃,避障是一個不可能回避的問題,任何觀測任務如果不能保證其安全性那么將失去意義。本文針對的是相對全局的路徑規劃,因此只需考慮海面存在的島嶼等固定障礙元素,這些障礙信息也是執行路徑規劃的重要信息考量。在本文中,為了完成避障任務需要對智能體施加一個避障約束,當智能體遇到障礙時對其施加一個負的獎賞值,訓練智能體避免再碰到障礙。
對智能體的設計首先是選擇深度強化學習算法,它決定了智能體的結構以及參數更新方式,本文選擇了DQN和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法。另外就是神經網絡的搭建。
神經網絡是強化學習算法中策略的表征,它是狀態空間到動作空間的映射。深度神經網絡實現對環境的精確感知,以及強化學習算法從環境狀態到決策動作映射的決策能力,實現海洋環境觀測路徑規劃結果最優。神經網絡的架構應與狀態以及動作相符合,如圖7所示。由于本文的狀態包括全局海洋環境場、局部海洋環境場,以及移動海洋環境觀測平臺的X、Y坐標,因此神經網絡的輸入為混合輸入,采用卷積神經網絡對海洋環境場數據進行處理,再與觀測平臺坐標進行融合作為整個神經網絡的輸入。神經網絡的輸出為各離散動作Q值,輸出的維度為離散動作的個數。

圖7 神經網絡架構Fig.7 Neural network architecture
以上設計主要是針對單個智能體的情況,對于多智能體的設計主要是對多個單智能體進行組合,以達到整體最優結果。本文所采用的多智能體是完全合作的關系,所有智能體的目標一致,均是改善觀測效果,只需要調整智能體訓練時的獎賞即可。因此將單個智能體獎賞函數中海洋環境待測要素的信息梯度部分進行求和,作為整體獎賞函數替換單個智能體的梯度獎賞。
在第2節中,搭建了采用強化學習訓練移動觀測平臺進行路徑規劃的框架,分別設計了環境的狀態、動作、獎勵函數以及智能體的神經網絡架構,本節主要是進行實驗以及對實驗結果進行分析。采用DQN及DDPG算法進行訓練的偽代碼分別算法1和算法2所示。
算法1使用DQN算法生成路徑
1)創建環境,生成并初始化智能體
2) for episode=1,Mdo
3)初始化環境狀態s1
4) fort=1,Tdo
5)以 ?的概率隨機選擇一個動作at否則選擇at=maxaQ?(st,a;θ)
6)在環境中執行at得到獎賞rt和st+1
7)在記憶池中存儲樣本(st,at,rt,st+1)
8)從記憶池抽取樣本(sj,aj,rj,sj+1)
9)當sj+1為回合終止狀態時,yj=rj,否則

10)根據式 (yj?Q(sj,aj;θ))執行梯度下降;
11) end for
12) end for
算法2使用DDPG算法生成路徑
1)創建環境,生成并初始化智能體;
2)初始化critic網絡Q(s,a|θQ), actor網絡 μ (s|θμ);
3) for episode=1,Mdo
4)初始化環境狀態s1;
5) fort=1,Tdo
6)根據策略和噪音選取at= μ(st|θμ)+Nt;
7)在環境中執行at得到獎賞rt和st+1;
8)在記憶池中存儲樣本 (st,at,rt,st+1);
9)從記憶池抽取N個樣本 (sj,aj,rj,sj+1);
10)設置yi=ri+ γQ′(si+1,μ′(si+1|θμ′)θQ′);
11)更新critic網絡:

12)更新actor網絡:

13)更新目標網絡:

14) end for
15) end for
為驗證本文所提出方案的有效性,分別在有障礙和無障礙、單平臺和多平臺的情況下對實驗方案進行測試,在單平臺無障礙情況下對DQN和DDPG算法進行對比。實驗場景設置為經度124.0~129.0°E,緯度 16.0~21.0°N,分辨率為 0.1°的海區,模擬移動觀測平臺從西向東進行海洋環境要素觀測。
實驗中的參數設置如表1所示。

表1 智能體參數設置Table 1 Agent parameter setting
單平臺的環境參數設置如表2所示。

表2 環境參數設置(單平臺)Table 2 Environmental parameter setting(single platform)
多平臺的環境參數設置如表3所示。

表3 環境參數設置(多平臺)Table 3 Environmental parameter setting(multi-platform)
在單平臺實驗中,選定移動平臺運動初始位置,分別進行有障礙和無障礙的實驗。最終得到獎賞函數曲線和損失函數曲線,并畫出單平臺采樣路徑,如圖8所示。

圖8 單平臺實驗Fig.8 Single platform experiment
多平臺實驗是選取5個移動觀測平臺,設置5個起始點,分別使用DQN算法和DDPG算法進行有障礙和無障礙采樣實驗。多平臺進行1 000次迭代。實驗結果得到獎賞函數曲線、損失函數曲線和多平臺采樣路徑,如圖9所示。

圖9 多平臺實驗Fig.9 Multi-platform experiment

對單平臺和多平臺通過DQN算法得到的采樣結果與背景場平均溫度進行對比。結果如圖10所示。

圖10 采樣結果對比Fig.10 Comparison of sampling results
對于單平臺實驗,如圖8,分別采用DQN和DDPG算法在有障礙和無障礙的情況下進行了實驗,在進行500次的實驗迭代后,實驗結果表明,采用離散動作空間的DQN算法能夠得到較好的獎賞曲線,并且其損失函數值相對較小。實驗表明,在本觀測平臺采樣任務中,采取離散的動作空間更有利于找到較高的獎賞值,即可以采集到更多的觀測信息。
對于多平臺實驗,如圖9,可明顯看出總的獎賞函數的上升趨勢。當進行有障礙實驗時,由于當路徑碰撞障礙物或出界時環境會自動給出負的獎賞值來“警告”智能體,因此可以看到前期獎賞曲線會有比較稠密的負值。隨著訓練的不斷進行,可以觀察到負值明顯減少,并且獎賞值有比較明顯的提高。
在單平臺和多平臺實驗中,觀測平臺在有障礙的環境下,基于離散動作的DQN算法都能有效地避開障礙,對海洋環境信息進行有效采集。
通過對單平臺和多平臺得到的采樣結果與背景場平均溫度對比分析,如圖10,單平臺和多平臺的采樣結果都要高于背景場的平均溫度,說明基于離散動作的深度強化學習的海洋移動觀測平臺可以在有限資源條件下采集更多的海洋環境信息,進一步說明DQN算法在海洋移動觀測網絡觀測路徑規劃中的可行性和有效性。
本文主要研究在有限資源條件下如何對移動海洋觀測平臺進行合理有效的設計,使得觀測平臺可以對龐大海洋環境中采集更多的有效信息。本文分別設計了基于離散動作的DQN算法和基于連續動作的DDPG算法對海洋環境移動觀測網絡進行規劃,并對通過算法得到的采樣結果的有效性進行了分析。
首先通過獲取海洋環境數值預報信息,基于RankGaussion對預報信息進行數據預處理,在此基礎上結合海洋環境信息和移動觀測平臺的碰撞及能量約束設置獎賞函數,采用DQN和DDPG算法最終從與環境的交互信息中學習路徑規劃策略完成單智能體路徑規劃任務。在此基礎上,構建基于行為分析的多平臺觀測網絡,通過將具有完全合作關系的移動觀測平臺獎賞進行結合,指導多個移動觀測平臺各自的采樣路徑規劃。實驗結果表明,采用基于離散動作的深度強化學習算法能夠有效提高觀測效率。
本文將在以下幾個方面展開更深入的研究:
1) 針對多觀測平臺,設計基于協作的多智能體強化學習算法,對移動海洋觀測網絡進行規劃,以期獲得更多有效的觀測信息;
2) 海洋環境信息復雜,不同的獎賞函數設計都會影響觀測效果,下一步將考慮更多的環境因素,研究設計更合理有效的獎賞函數;
3) 將觀測方案結果與海洋環境數值預報系統進行深度結合,使得觀測數據更好服務于海洋環境數值預報系統。