基于改進DQN的復合模式在軌服務資源分配

2020-06-03 02:02:30劉冰雁葉雄兵周赤非劉必鎏

航空學報 2020年5期

劉冰雁，葉雄兵，周赤非，劉必鎏

1. 軍事科學院，北京 100091 2. 中國人民解放軍32032部隊，北京 100094

隨著空間碎片清理、在軌加注等在軌服務技術的不斷應用，有限的航天器資源與日益增長的在軌服務需求之間矛盾日益突出。當前，“一對多”服務模式已是國內(nèi)外主要方式，為了提升任務完成效果與成功概率，“多對一”模式也多被采用[1-2]。“一對多”“多對一”混合共存的服務模式將成為在軌服務的主流。因此，突破傳統(tǒng)單一分配原則，最大限度地實現(xiàn)資源最少投入與服務效果最大化，是當前在軌服務資源分配急需解決的重點問題。

任務執(zhí)行前的在軌資源分配問題本質(zhì)上是多目標非線性組合優(yōu)化決策問題，屬于多項式復雜程度的非確定性(NP)難題。常用求解方法主要有整數(shù)規(guī)劃、拍賣機制、遺傳算法和蟻群算法等。例如，文獻[3-4]對“一對多”模式的航天器在軌加注服務分配問題進行了研究，以軌道轉(zhuǎn)移燃耗為優(yōu)化目標，采用遺傳算法進行求解。文獻[5]將空間燃料站技術與“一對多”在軌加注問題相結(jié)合，構建了一種基于燃料站的可往返式在軌加注分配模型，并用遺傳算法求解。文獻[6]為實現(xiàn)“一對一”自主式在軌服務，以服務效能、燃料消耗、燃料消耗均衡性為指標，對在軌服務飛行器目標分配問題進行了研究。通常，這些方法由于算法限制只能分別處理“一對多”和“多對一”決策問題[7]，對復合服務模式下的資源分配問題適用性相對較差。

當前，新一代人工智能方法依靠其在自主訓練、自我優(yōu)化方面的優(yōu)勢，處理組合優(yōu)化決策問題不受服務模式限制，在軍事、計算機、通信和交通等領域廣泛運用，并取得了顯著成效。文獻[8]將電磁干擾信道分配問題建模為一個馬爾科夫決策過程，運用強化學習算法進行求解，相較傳統(tǒng)方法收斂速度更快、方法更智能。文獻[9]針對蜂窩網(wǎng)資源分配多目標優(yōu)化問題，基于深度強化學習提出了一種蜂窩網(wǎng)資源分配方法，在傳輸速率和系統(tǒng)能耗優(yōu)化方面明顯優(yōu)于傳統(tǒng)方法。文獻[10]針對傳統(tǒng)的流水車間資源分配方法數(shù)據(jù)利用率低、實時性較差等不足，利用神經(jīng)網(wǎng)絡和強化學習實時性、靈活性優(yōu)勢進行改進，使新方法能夠在更小的迭代次數(shù)內(nèi)獲得較優(yōu)解。

本文依據(jù)在軌服務的復合服務模式需求，在任務執(zhí)行前，綜合考慮服務對象重要性、資源投入綜合效益以及總體能耗估計，基于對DQN(Deep Q-Network)收斂性和穩(wěn)定性的改進，提出了在軌服務資源分配方法。該方法在建立資源分配模型的基礎上，構建資源分配雙向訓練網(wǎng)絡，即以綜合效益為優(yōu)化目標進行前向傳輸、能耗效率作為獎懲值進行反向訓練，是目前能夠滿足復合服務模式下資源分配需求的有效方法。該方法自主性強、收斂速度快，在分配效益和總體能耗的優(yōu)化方面具有明顯優(yōu)勢，能夠更有效地解決多目標非線性組合優(yōu)化問題。

1 復合服務模式的在軌資源分配模型

在軌服務的復合模式，是針對眾多不同類型、不同重要程度的服務對象，綜合考慮航天器投入及效益，采取普通對象“一對多”、重要對象“多對一”分配策略的一種混合服務模式。相較單一服務模式，此種方式需要同時兼顧航天器投入量和各類對象服務效果，對分配模型的綜合決策能力要求高，通常還需人工輔助。本文借鑒先期毀傷準則[11-12]和能量效率思維[13-14]，提出了一種滿足此類復合服務模式的資源自主分配模型。

假設m∈{1,2,…,M}表示能夠提供在軌服務的第m個航天器，n∈{1,2,…,N}表示在軌服務的第n個對象，Lm,n表示航天器m與服務對象n之間的資源分配關系，若航天器m服務對象n，則Lm,n=1，反之Lm,n=0。令Wn為第n個對象的重要程度。針對不同重要程度的服務對象，兼顧服務成功概率和燃料消耗，通過自主分配航天器，以達到既節(jié)省航天器投入又滿足期望效果。資源分配綜合效益可表示為

(1)

式中：G為航天器分配的綜合效益；Dm,n為任務執(zhí)行前，對航天器m服務對象n的燃料估計量，是對此次任務執(zhí)行成本的一種考量，其值可根據(jù)該航天器與服務對象的軌道根數(shù)，基于當前環(huán)境選取最優(yōu)軌道轉(zhuǎn)移方式，通過機動推進劑消耗模型和服務過程燃料消耗模型計算獲得[15-17]。

用服務對象同時受多個航天器服務的燃料估計量以及服務成功概率來綜合衡量系統(tǒng)能耗，則資源分配的總體能耗效率可以表示為

(2)

根據(jù)資源分配目標，在滿足預期服務成功率約束的條件下，需要求解的多目標非線性組合優(yōu)化決策問題描述為

(3)

2 方法介紹

本文除了考慮資源分配綜合效益外，還綜合考量能耗效率，于是復合服務模式下的在軌資源分配問題便成了NP-hard問題，難以求得最優(yōu)解。當前常用方式是將該問題轉(zhuǎn)化為次最優(yōu)解求解，但這類求解的復雜度高，影響模型運行效率[7]，本文對經(jīng)典DQN方法進行了收斂性和穩(wěn)定性改進，并基于此求解該問題。

2.1 經(jīng)典DQN方法改進

針對在軌服務資源分配智能化需求，彌補經(jīng)典DQN方法存在獎勵偏見和過估計的問題[18]，進行了方法適應性改進，以提升方法的收斂性和穩(wěn)定性。

2.1.1 DQN的收斂性改進

為大幅提升神經(jīng)網(wǎng)絡訓練效果，加快收斂速度，采用一種競爭網(wǎng)絡取代經(jīng)典方法中的單輸出網(wǎng)絡模型[19]。行為值函數(shù)Q(St,a)可自然拆分為狀態(tài)值函數(shù)V(St)和行為優(yōu)勢函數(shù)A(St,a)2部分。其中，狀態(tài)值函數(shù)與行為無關；動作優(yōu)勢函數(shù)與行為相關，為行為相對狀態(tài)的平均回報的好壞程度，可用以解決獎勵偏見問題。據(jù)此，將經(jīng)典神經(jīng)網(wǎng)絡方法的全連接層分為一個輸出狀態(tài)函數(shù)V(St)和一個輸出行為優(yōu)勢函數(shù)A(St,a)，最后再通過全連接合并成行為狀態(tài)Q(St,a)，即

Q(St,a)=V(St)+A(St,a)

(4)

狀態(tài)值函數(shù)被拆分后，當行為優(yōu)勢值一定時，狀態(tài)值和行為優(yōu)勢值有無窮種可行組合，而事實上只有小部分的組合是合乎情理的。為此，利用行為優(yōu)勢函數(shù)A(St,a)期望值為0這一特性[19]，對行為優(yōu)勢函數(shù)A(St,a)加以限制，將式(4)修改為

Q(St,a)=V(St)+

(5)

這樣，用行為優(yōu)勢函數(shù)減去當前狀態(tài)下所有A(St,a′)的均值，使行為優(yōu)勢函數(shù)的期望值保持為0，進而確保模型快速收斂且輸出高效。

2.1.2 DQN的穩(wěn)定性改進

深度強化學習的目標是找到最優(yōu)的策略，但過估計量的非均勻出現(xiàn)，致使值函數(shù)的過估計影響決策，從而導致最終的決策并非最優(yōu)，而只是次優(yōu)。采用Q-learning學習機制的行為選擇中，通過值函數(shù)更新，時間差分(TD)方法的目標為[20]

(6)

式中：Rt+1為狀態(tài)St+1的獎懲值；γ∈[0,1]為折扣因子；Q(St+1,a;θt)為采用行為a和參數(shù)θt時，神經(jīng)網(wǎng)絡對狀態(tài)St+1價值的預測。

選出狀態(tài)St+1的最佳行為a*后，DQN方法是利用同一個參數(shù)θt來選擇和評估行為。為了削弱最大誤差的影響，在此引入另一個神經(jīng)網(wǎng)絡，分別用不同的值函數(shù)選擇和評估行為[21-22]。由此，利用參數(shù)θt通過式(6)進行行為選擇，在選出最佳行為a*后，運用另一個神經(jīng)網(wǎng)絡的參數(shù)θ′t進行行為評估:

(7)

將這一思路運用到強化學習中，修改得到新的TD目標式為[23]

(8)

2.2 在軌服務資源分配的智能方法

基于改進的DQN方法，發(fā)揮強化學習試錯自主學習優(yōu)勢，運用神經(jīng)網(wǎng)絡前向傳輸和反向訓練特性，求解在軌資源分配的多目標非線性組合優(yōu)化決策問題。

2.2.1 前向傳輸優(yōu)化目標

在前向傳輸過程中，在追求資源分配高效益的同時，為確保各對象要有航天器服務且均能達到預設服務成功概率門限，結(jié)合式(3)，將資源分配綜合效益最優(yōu)化問題表示為

(9)

采用懲罰函數(shù)法將約束優(yōu)化問題轉(zhuǎn)換為如下無約束優(yōu)化問題

(10)

式中：參數(shù)δ為懲罰系數(shù)；hn、gn和Dn的表達式分別為

(11)

2.2.2 反向訓練獎懲值

在反向訓練過程中，依據(jù)式(5)和式(8)，構建損失函數(shù)：

(12)

其中，將資源分配的總體能耗效率作為獎懲值，即

(13)

為了有效解決強化學習中的探索與利用問題，即持續(xù)使用當前最優(yōu)策略保持高回報的同時，敢于嘗試一些新的行為以求更大地獎勵，則依據(jù)探索率ε采取ε-greedy貪婪策略：

π(a|St)=

(14)

2.2.3 資源分配網(wǎng)絡架構

整個網(wǎng)絡架構由訓練、誤差、Q現(xiàn)實、Q估計以及行為選擇等模塊組成，借助TensorFlow展現(xiàn)改進的深度強化學習網(wǎng)絡，如圖1所示。圖中：S為當前狀態(tài)；S_為下一步狀態(tài)；Value為價值函數(shù)；Advantage為優(yōu)勢函數(shù)；l1為神經(jīng)網(wǎng)絡；eval_net為估計網(wǎng)絡；target_net為目標網(wǎng)絡；Q_target為目標Q函數(shù)；loss為損失函數(shù)；Assign[0-5]為分配；Train為訓練網(wǎng)絡；DuelDoubleDQN為DQN收斂性和穩(wěn)定性改進網(wǎng)絡。

圖1 DQN收斂性和穩(wěn)定性改進的網(wǎng)絡結(jié)構TensorFlow表示Fig.1 Network structure on DQN convergence and stability improvement by TensorFlow representation

2.2.4 DQN綜合改進方法的流程

在明確網(wǎng)絡輸入、輸出、關鍵模型和訓練結(jié)構后，綜合DQN穩(wěn)定性改進與收斂性改進，給出智能方法的主體流程：

步驟1 利用隨機θ初始化行為值Q。

步驟2 令θt=θ，根據(jù)式(4)和式(5)計算TD目標的行為值Q。

步驟3 循環(huán)每次事件。

步驟4 初始化事件的第一個狀態(tài)，通過式(1) 預處理得到當前資源分配綜合效益。

步驟5 循環(huán)每個事件的每一步。

步驟7 仿真器中執(zhí)行行為at，觀測回報Rt。

步驟8 設置St+1=St，整合(St,at,Rt,St+1)并存儲在回放記憶Memory中。

步驟9 從Memory中均勻隨機采樣一個轉(zhuǎn)換樣本數(shù)據(jù)，用(St,at,Rt,St+1)存儲結(jié)果表示。

步驟12 如果St+1是終止狀態(tài)，當前輪迭代完畢，否則轉(zhuǎn)到步驟5。

3 算例求解與分析

為驗證本文構建的復合服務模式下的在軌資源分配模型的適用性，以及DQN收斂性和穩(wěn)定性改進方法求解該在軌資源分配問題的有效性和優(yōu)越性，進行了算例仿真。

3.1 問題描述

假設在某次在軌加注任務中，有9顆重要程度Wn=0.6(n=1,2,…,9)、1顆W10=0.9的ECO衛(wèi)星等待加注燃料，其軌道根數(shù)[24]如表1所示。表中：e為離心率；i為軌道傾角；Ω為升交點黃道經(jīng)度；ω為近心點角；τ為平近點角。現(xiàn)有3架位于軌道半徑39 164 km、初始真近點角0°、推進系統(tǒng)比沖300 s的航天器可開展在軌加注服務。航天器擬采用多圈Lambert軌道轉(zhuǎn)移方式，結(jié)合軌道根數(shù)確定到各目標軌位的速度增量，結(jié)合齊奧爾科夫斯基公式估算得到燃料消耗量D[25-26]。現(xiàn)已知各航天器對衛(wèi)星的服務成功概率P。

表1 GEO衛(wèi)星的軌道根數(shù)[24]Table 1 Orbit elements of GEO satellite[24]

任務要求在滿足70%服務成功概率的基礎上，提升對10號衛(wèi)星的服務成功概率并達到85%。由此，決定采取“1對9”和“2對1”的復合服務模式。

3.2 方法對比

為解決該資源分配問題，本文試圖借鑒在軌服務資源分配相關研究成果[4-6,25-28]進行求解，但發(fā)現(xiàn)這些方法只能單獨解決“一對多”或“一對一”服務模式的資源分配問題，不適合本文涉及的復合服務模式。為了對比分析不同方法的運算耗時情況，只考慮算例中的“一對多”在軌服務資源分配問題，分別用3種方法進行求解。

仿真運算依托1.6 GHz、1.8 GHz雙核CPU、8 G RAM計算硬件，運用python語言PyCharm編譯環(huán)境進行，各方法的耗時情況如圖2所示。其中，蟻群算法運用全局搜索方式計算開銷較大，不同的起始方向?qū)е逻\算時間波動大，平均耗時0.32 s；遺傳算法沒能夠利用反饋信息訓練時間相對較長，隨機交叉變異致使運算時間波動較大，平均耗時0.19 s；改進DQN方法運用神經(jīng)網(wǎng)絡自主訓練時間最短，探索與利用策略的使用致使運算時間有小范圍波動，平均耗時0.06 s。因此，本文所提方法充分發(fā)揮神經(jīng)網(wǎng)絡前向傳輸和反向訓練的運算優(yōu)勢，利用強化學習試錯獎勵的決策機制，相比較運算效率更高，也更適合本文所涉及的復合模式下的在軌資源分配問題。

圖2 3種方法的運算耗時對比Fig.2 Operation time comparison between three method

3.3 求解分析

針對復合模式下的在軌服務資源分配問題，根據(jù)問題描述，運用本文提出的基于DQN收斂性和穩(wěn)定性改進的在軌服務資源分配方法，通過網(wǎng)絡自主訓練、自主決策可獲得最優(yōu)資源分配策略，即由航天器2和3共同對衛(wèi)星10進行加注，其他衛(wèi)星由航天器1提供服務。

如表2所示，以全0矩陣初始化資源分配狀態(tài)①，代入在軌資源分配模型，此時無資源投入，不符合任務要求，進而通過改進的深度強化學習網(wǎng)絡自主學習。訓練過程中，狀態(tài)②資源投入較節(jié)省，但不符合服務模式要求；狀態(tài)③高資源投入使得能耗效率低，綜合效益達到最低值；狀態(tài)④符合各項約束，但綜合效益值非最大。通過多次自主學習、多輪迭代后，方法收斂至狀態(tài)⑤，所提供策略即滿足各項服務要素，又實現(xiàn)綜合效益最大化，是該任務的最優(yōu)資源分配策略。

與此同時，運用經(jīng)典DQN方法進行求解，獲得了相同結(jié)果，側(cè)面印證了結(jié)果的準確性。2種方法的誤差函數(shù)值對比如圖3所示，改進DQN方法對全連接層的區(qū)分處理方式，促使僅學習70次便可實現(xiàn)誤差0.01的訓練效果，整個訓練過程的誤差函數(shù)值也以快近一倍的速率下降，在收斂性方面的改進效果明顯。2種方法的獎懲值對比如圖4所示，改進DQN方法在行為估計時引入另一神經(jīng)網(wǎng)絡，確保獎懲值在快速上升的同時波動更小，自主學習僅33次后便可保持在0.197 8最佳獎懲值附近，充分體現(xiàn)了穩(wěn)定性方面的改進優(yōu)勢。

表2 基于改進深度學習的在軌加注資源分配策略Table 2 An on-orbit injection resource allocation strategy based on improved deep learning

圖3 2種方法的誤差函數(shù)值對比Fig.3 Error function value comparison between two method

圖4 2種方法的獎懲值對比Fig.4 Rewards comparison between two method

4 結(jié) 論

1) 構建了復合服務模式下的在軌資源分配模型。針對在軌服務多樣化模式需求，為彌補當前資源分配模型應對復合任務的不足，同時考慮重要性、效益以及能耗因素，研究了在軌服務資源分配問題。

2) 進行了DQN方法的收斂性和穩(wěn)定性改進。針對在軌服務資源分配問題特性，彌補經(jīng)典方法獎勵偏見和過估計問題，改進DQN方法，提升了方法斂性和穩(wěn)定性。

3) 提出了基于DQN收斂性和穩(wěn)定性改進的在軌服務資源分配方法。區(qū)分服務對象重要程度，在提高資源分配綜合效益的同時，盡可能地增大總體能耗效率，有效解決了多目標非線性組合優(yōu)化決策問題，同時對于解決其他領域資源分配問題具有較強的借鑒意義。