趙甜,錢晶,曾云
(1.650093 云南省 昆明市 昆明理工大學 冶金與能源學院;2.650093 云南省 昆明市 云南省高校水力機械智能測試工程研究中心)
黃河是位于中國北方地區的大河,近年來由于環河農業的不斷發展,周邊城市缺乏污水處理系統以及沿岸工業廢棄物處理等因素,造成河水富營養化,因此,對黃河水域的環境監測十分必要[1]。
在為改善黃河狀況而采取的諸多行動中,有效監測其環境狀態以獲取藻華生物狀態的最新圖像至關重要。然而,手動監測需要花費大量人力物力資源,需要使用機動船從岸邊不斷航行到主要水域,并對水域進行手動采樣。董加鑫[2]提出使用配備水質傳感器的自主水面車輛(ASV)代替手動采樣,能夠以相對較低的成本自動采樣和監測水質[3]。但是,該方法精確度低,模型復雜度高,不能達到檢測實時性的要求[4];李輝等[5]設計并建議使用一組水質傳感器(如PH 計、氧化電位還原傳感器、溫度計等)監測黃河,該方法在動態避障過程中不具備優勢。為了提高效率,可以部署分布式微電網的多智能體船艇機器人用于監測每個單獨任務,探索不同區域并測量水的質量[6]。深度強化學習的路徑規劃方法已成為處理函數逼近(神經網絡作為非線性參數逼近器)的最常用方法。并且,深度強化學習已成為使用自主水面和水下設備進行被動路徑規劃和碰撞避免的最常見方法之一。徐宏威[7]提出了一種使用Q-Learning 方法優化水下航行器運動規劃器的方法,成為強化學習在此類航行器控制中的成功應用。
本文受深度強化學習的啟發,提出一種基于深度強化神經網絡的分布式微電網多智能體機器人路徑規劃方法(DDQL)。
自動水面交通工具(ASV)具有自主性、移動性,擅長監測和測量水生營養物質[8]。在規劃此類船艇的路徑時,結合黃河水域方向的復雜性和高維性,通常采用啟發式方法(如強化學習,參見圖1)解決多智能體的巡邏任務。本文通過引用強化學習將環境狀態映射到將長期返回最大獎勵的動作的最佳策略π(s)。在這項工作中,提出了2 種Q 學習改進方式:雙深度Q 網絡和Q值優化的競爭網絡架構。在這2 種算法中,Q函數都是通過在損失函數中針對給定深度網絡的每個參數采取下降梯度步驟優化,主要區別在于Q值的計算方式,Q值是直接估計的,而在競爭網絡中是用估計的優勢函數A(s,a)和價值函數V(s)。

圖1 基本的強化學習方案Fig.1 Basic reinforcement learning solution
基于Q 網絡,本文提出Q函數優化的2 種估計量:狀態值函數V(s)和優勢函數A(s,a)。V(s)根據未來預期獎勵返回當前狀態s的值,A(s,a)評估狀態s中單個動作a相對于其他可能動作的預期獎勵,表達式為
為了解決可識別性問題(在給定Q的意義上不能唯一恢復V和A),必須修改式(1)以添加A的基線。該基線被選擇為每個A的平均值,公式為
本文使用公共集中網絡直觀地估計狀態值函數,考慮到了許多任務的整個場景[9]。各個輸出層估計每個任務的優勢函數,正如之前估計Q值一樣。圖2 這個變體有2 個積極的方面:一是DQN 保持不變,除了V(s)估計器只有一個額外的神經元和聚合層,所以DDQL 算法可以被回收;二是學習問題表明該架構可以專注于協作行動,允許任務使用估計值函數改進其策略,如Wang[11]所建議的。該算法與A(s,a)中Q(s,a)的對抗性演算保持相同,并且V(s)函數被視為嵌入函數本身,如Zheng[12]的研究。

圖2 集中分布式Q-Learning 網絡。Fig.2 Proposed centralized distributed Q-Learning network
為評估復雜背景下分布式微電網的多智能體船艇機器人路徑規劃性能,使用了2 個指標:
(1)累積獎勵R:累積獎勵顯示獎勵函數的表現[10],獎勵越高越符合設計目標。獎勵的偏差給出了從一個開始條件到另一個開始條件推斷策略的穩健性[11]。R的表達式為
式中:N——任務數;t——時間步長,從0~T可能的時間步長。
(2)平均加權空閑率μ:是巡邏問題解決方案的替代評估量,計算可導航單元的平均加權空閑率。表達式為
為了進行比較,將深度強化學習方法(DDQL)、淺層強化學習方法IDQL 和競爭網絡(Dueling)策略都更改為完全貪婪(?=0)以衡量最佳策略,對3 種基于強化學習的方法進行消融比較。表1 為不同數量任務和方法的比較結果。對于單任務情況,IDQL 和DDQL 結果相近,3 種強化學習方法的性能比傳統路徑規劃方法好得多。DDQL 分別提高了12%、20%、15%和13%,是4 種任務數量中的最佳解決方案;Dueling Network 分別提高了24%、21%、12%和11%;而IDQL 分別提高了12%、15%、12%和12%。強化學習方法將軌跡計算考慮在內,從而更好地最小化整個場景中的平均加權空閑。

表1 與黃河傳統規劃方法的累積獎勵和平均加權閑置的比較結果Tab.1 Comparison of rewards and average weighted idleness with the traditional planning methods of Yellow River
在深度強化學習方法方面,所提出的DDQL方法相對于其他算法實現的最大獎勵略有改進,盡管IDQL 被證明也是適用于多任務情況的算法,但DDQL 方法實現了更好的記錄軌跡,盡管與IDQL相比平均值非常相似。參見圖3。

圖3 1 臺、2 臺、3 臺和4 臺ASV 的軌跡Fig.3 Trajectories of one,two,three,and four ASVs
由于獎勵函數確定的獎勵和冗余標準與車隊規模無關,因此新任務的邊際改進會減少。通過DDQL 進行實驗,從1 到2 個任務的最佳DDQL 軌跡中的獎勵改進約為78%;從2 個任務增加到3個將獎勵提高19%;從3 個任務增加到4 個只會帶來7%的改進。
圖4 允許在給定多個步驟和多個任務的情況下預先規劃所需的覆蓋范圍,如果任務時間較短,則可以選擇更多的任務,反之亦然。圖5 顯示了最佳情況下每個任務學習的優化軌跡,優化策略迫使任務共享興趣空間。在單任務情況下,由于步數不足以覆蓋整個地圖,ASV 將重點放在最重要的區域并至少訪問最大值一次,偶爾2 次。在多智能體實驗中,ASV 首先訪問最近的最大興趣區域,然后繼續探索其他區域,一旦空閑率上升,往往會避免很長的路徑來重新訪問那些重要區域[12]。結果表明具有良好的協調和合作行為,因為智能體探索了完整的地圖,并且探索了與其興趣成比例的區域。

圖4 使用經過訓練的網絡進行100 次模擬的平均加權空閑Fig.4 Average weighted idleness of 100 simulation using trained networks

圖5 各任務數量的DDQL 最佳軌跡中的空閑和訪問頻率Fig.5 Idle and access frequency in DDQL optimal trajectory of each task number
雖然IDQL 算法確實實現了與所提出的DDQL和Dueling 算法相似的結果,但它面臨與收斂所需的優化步驟數量相關的可擴展性問題[13]。一方面,IDQL 方法為每個智能體提供了一個單獨的卷積神經網絡,因此,在訓練期間,每個智能體都必須訓練自己的小批量,并采取與智能體數量一樣多的優化步驟;另一方面,解耦方法可以通過共享更大的網絡部分來提高學習效率,如此勢必減少訓練時間,而這是本研究需考慮的重要指標。為遷移學習過程重新訓練網絡的需要以及因重要性圖的變化,算法在可擴展性方面必須是可行的。更高的訓練時間并不能彌補其他方法幾乎相同的性能。圖6 顯示了使用可用于任務學習的計算機工作站來訓練前面提到的場景所需的時間,可見,所提出的DDQL 方法比獨立方法快3 倍。

圖6 3 種DRL 方法的訓練時間Fig.6 Training time of three DRL methods
在處理多任務情況時存在大量不同的可能路徑,傳統方法無法有效解決問題。本文提出的集中分布式Q-Learning 網絡方法通過實驗驗證表明,在解決此類問題非常有效,不需要先前的環境模型,因為DDQL 可以穩健地適應不同的動態和交互。使用本算法的多智能體案例通過集中式卷積神經網絡處理,提取特征以供智能體選擇其動作,由于每個任務都有自己的并行獨立神經網絡,并且由于它們的動作是等效的,因此所提出的架構在大多數情況下都比獨立強化學習對應物獲得更高的獎勵。此外,提出的DDQL 架構的學習速度比獨立方法提高了3倍,因為它使用了共同的經驗重放,需要的優化步驟更少,在處理黃河流域路徑規劃問題上具有良好表現。