基于深度強化學習的航天信息綜合應用與決策研究

2019-06-25 09:54:04陳金勇

無線電工程 2019年7期

王港，帥通，陳金勇，高峰

(中國電子科技集團公司航天信息應用技術重點實驗室，河北石家莊 050081)

0 引言

隨著航天裝備的不斷發展，全球在軌衛星已突破千顆。航天資源的種類和規模不斷擴大，其所應用的領域也不斷拓展，包括了通信、導航、遙感的所有領域，正在提供災害評估預測、國土資源調查、城市管理規劃、農業估產減災、軍事偵查保障、導航定位授時、衛星寬帶通信等服務[1]。與此同時，由于歷史原因，各類航天信息資源仍然是各自建設并獨立對外提供服務，其信息資源服務的深度和廣度無法滿足現階段用戶在航天信息的綜合應用需求，這就迫切需要在現有機制體制下，尋找航天信息綜合應用的需求籌劃和決策方法，為高效率、綜合化、深度化應用航天信息提供技術支撐。

現有航天資源籌劃與應用方面的研究，主要是為衛星管控機構服務，從而在專業角度優化航天衛星資源。張超為了解決航天資源應用優化的問題，在工程實踐方面提出了基于貪婪算法的遙感衛星接收站的調度技術[2]。李軍等為解決現有空天資源規劃調度系統相對獨立、協同困難的問題，分析總結了SWE(Sensor Web Enablement)標準，并在此基礎上提出了空天資源對地觀測協同任務規劃服務模型[3]。陳英武等提出了一種求解多星任務規劃問題的演化學習型蟻群算法，從而將人工智能算法應用于衛星資源應用方面[4]。張超等針對現有衛星管控體制，提出了星地聯動的運行機制[5]。陳韜亦等在星地聯動的基礎上更是提出了衛星的自主管控，從而將部分任務決策功能置于衛星上[6]。上述學者和技術人員在航天信息應用與優化方面做出了大量的貢獻，但是其研究對象為專業化的衛星管控與接收機構，無法適用于通用用戶。

深度強化學習是人工智能領域的一個新的研究熱點。它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合，并能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制和決策。自提出以來，在許多需要感知高維度原始輸入數據和決策控制的任務中，深度強化學習方法已經取得了實質性的突破，包括基于值函數的深度強化學習、基于策略梯度的深度強化學習和基于搜索與監督的深度強化學習，其發展的前沿方向主要在分層深度強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基于記憶與推理的深度強化學習等方面[7]。

針對航天資源種類較多、應用機制復雜難以被普通用戶所掌握的難題，提出基于深度強化學習的航天信息綜合應用決策方法，將航天應用需求、航天信息資源屬性進行建模，以航天應用需求向量作為強化學習模型中的環境變量，以航天信息資源屬性向量作為約束條件，通過典型場景的學習和反饋，實現模型的優化，從而具備一定的航天信息綜合應用決策能力。

1 航天信息綜合應用需求分析

美軍的航天信息應用代表了國際最高水平，目前，美軍不但實現了空間信息與戰場信息系統的高度集成，還實現了與主戰武器系統的有效鉸鏈。美軍大力發展集無人機、人工平臺、天基、海基和陸基系統在內的綜合系統，應對情報搜集需求與挑戰，建立了軍、民、商用遙感衛星應用系統以及天基通信系統，具備最強大的偵察、監視、情報、通信、導航、定位以及氣象保障能力。同時美軍不惜巨資打造了FBCB2(旅及旅以下作戰指揮)系統、“快速戰術影像終端”、陸地勇士系統及“未來部隊勇士”系統，用以實現了從“傳感器到射手”鏈接應用[8]。

美軍利用戰術應用終端向作戰部隊提供了情報、通信、導彈預警、偵察監視、空間導航和氣象保障服務，提供運動中實時的指揮控制信息、態勢感知信息；為指揮官、小分隊和單兵顯示敵我雙方的位置；能夠利用多種衛星通信、戰地無線網通信、戰術電臺等通信方式收發作戰命令和后勤數據，進行目標識別等，極大地提高了指揮員對戰場的感知能力和指揮效率。但是戰術終端造價和重量等因素一直制約著美軍終端的繼續發展，隨著新一代智能手機的出現，美軍迅速采用商業手機改造的形式，加載特殊軟件，相比普通手機經過了防塵、防震、防彈等改造。通過模塊化、總線化設計，實現“全戰場可視性”以及供戰斗條件下使用的穩定真實界面與數字化戰場的一體化，能夠提供有關敵方戰斗人員、路邊炸彈和友軍的照片、地圖及其他關鍵任務信息，并且可共享和實時更新。美軍戰術應用終端如圖1所示。

圖1 美軍戰術應用終端

綜上所述，美軍按照天地一體化的設計原則開展航天武器裝備研究的同時，將航天裝備與戰場信息系統密切結合，戰術應用終端呈多種應用功能于一體的發展方向，整體發展趨勢如下：

① 由點及面縱向發展。首先表現為戰術終端全面進入指揮所、武器系統、士兵各個作戰單元，通過作戰領域縱向發展，作戰裝備層次也由指揮機構到單兵層次，能夠改善航天信息的流通和處理。

② 重視互聯互通的發展。目的在于合理地利用航天信息應用系統和其他信息系統的數據信息，優化合成部隊的作戰和部隊系統的整體效能，能夠保證各種武器系統、諸兵種之間信息、力量的相互協調。

③ 重視系統一體化的設計。強調戰術終端具有航天信息顯示與應用、指揮控制和信息共享的能力，可提供終端的信息數據“全戰場可視性”、戰斗條件下使用穩定性以及多種功能的一體化。

美軍的發展趨勢對我國在航天信息綜合應用方面具有十分重要的啟發。其在航天信息一體化應用、多層次應用以及戰術應用均具有借鑒意義。隨著航天信息綜合應用的深化和軍民需求的不斷拓展，其用戶群體將呈現爆炸式增長。而航天信息應用處理的專業化人才并沒有出現太多的增長。這就要求在實現航天信息應用深化和拓展的同時，必須充分考慮航天信息應用的知識基礎。在專業人才有限但應用需求眾多的情況下，應用人工智能技術結合航天信息綜合應用模式，實現一些應用環節的自動化和智能化十分必要。

2 深度強化學習

2.1 強化學習

強化學習的學習過程是Agent與環境進行交互并從環境中取得反饋信息的學習過程。作為一種交互式的學習方法，強化學習的主要特點是試錯和延遲回報[9]。Agent與環境的交互過程如圖2所示。在每個時間步長，Agent觀察環境得到狀態st，然后執行動作at，環境根據at生成下一時刻的st+1，rt。這樣的過程可用馬爾可夫決策過程(Markov Decision Processes，MDP)來進行描述。MDP分為4個部分，也可稱為四元組：

①S表示狀態集；②A表示動作集；③P(s′|s，a)表示狀態s下采取動作a之后，轉移到s′狀態的概率；④R(s，a)表示狀態s下采取動作a獲得的獎勵。

圖2 強化學習示意

策略的目標是使未來的累積獎賞最大，因而當前狀態(或狀態-動作對)的好壞可以通過該狀態(狀態-動作對)能夠帶來的未來累積回報的大小來衡量。強化學習引入回報函數來表示某個時刻t的狀態下具備的回報值：

由于距離當前狀態越遠，回報值的不確定性越大，因而一般采用γ作為折扣系數，對未來的回報值乘以一個折扣γ。進而，引入值函數的概念，用值函數來表示一個狀態的價值，也就是未來累積回報的期望。定義如下：

動作-狀態價值函數就可表示為：

2.2 深度強化學習

經典的強化學習方法往往無法解決狀態和動作空間維度很高的問題，一個有效的解決途徑就是使用函數近似的方法，即將值函數或者策略用一個函數顯性的來進行表示。常用的近似函數有線性函數、核函數、神經網絡等。而近年來最成功的方法就是使用深度神經網絡作為強化學習的近似函數，即深度強化學習。深度神經網絡不僅具有強大的非線性逼近能力，而且實現了端到端的學習，能夠直接從原始數據的輸入映射到分類或回歸結果，而不再需要特征工程引入過多的人為因素。深度學習與強化學習的結合最早可追溯于文獻[9]將AutoEncoder應用于強化學習中，解決了路徑規劃尋優的問題。而深度強化學習真正的開端是DeepMind在2013年NIPS會議上發表的DQN算法[10]，其直接從像素圖像中學習策略來進行Atari游戲。近年來，深度強化學習的研究成為機器學習的一個重要方向，文獻[11]在Nature上發表的深度學習綜述一文也將深度強化學習作為深度學習的重要發展方向。

Mnih等人[12-13]將卷積神經網絡與傳統RL中的Q學習[14-15]算法相結合，提出了深度Q網絡(Deep Q-Network，DQN)模型。該模型用于處理基于視覺感知的控制任務，是DRL領域的開創性工作。DQN模型的輸入是距離當前時刻最近的4幅預處理后的圖像。該輸入經過3個卷積層和2個全連接層的非線性變換，最終在輸出層產生每個動作的Q值。DQN的模型架構如圖3所示。

圖3 DQN網絡模型結構

3 基于深度強化學習的航天信息綜合應用決策

航天系統獲取了相關的各類空間數據，各類地面應用系統要對所獲取的原始數據進行加工、處理和應用。而在應用系統的開發過程中，如果每一個應用都從底層進行開發，將存在大量的重復工作，開發周期長，系統質量難以保證。通過對航天信息應用系統功能的研究，抽取應用中的公共部分，以應用開發平臺的方式為各類航天信息應用系統的開發提供一個通用的航天信息綜合應用平臺，將是實現各種用途的航天信息應用系統的基礎，能極大地提高航天信息應用系統的開發效率，加強航天信息的綜合應用。航天信息綜合應用系統的體系結構如圖4所示。由航天系統中的遙感設備獲取的各類航天數據通過傳輸系統和接收系統，傳到各類應用系統的數據接口，航天信息應用平臺提供對數據的處理、存儲和管理能力，并通過虛擬仿真平臺為應用系統的開發提供底層功能，直接支持應用系統功能的開發。

圖4 航天信息綜合應用系統結構

在考慮將航天信息綜合應用的時候，需要將各個航天資源進行個體化屬性描述，以本體形式進行組織和描述。本體作為共享概念模型的形式化規范化說明，其技術目的在于使信息都能得到共享和重用。已經在語義網、知識工程、信息系統建模等多個領域得到應用。相關研究表明，本體技術是促進空間信息服務在語義層次上進行知識庫構建和知識描述操作的一個有效途徑。航天資源本體描述的示例如圖5所示。

圖5 航天資源本體描述示例

接下來，研究描述向量構建的方法，將上述屬性描述改進為標準化，形成可以被強化學習模型所認識的序列輸入。一般以固定的格式順序進行標準化，形成序列。主要工作為對非數值類的屬性進行編碼描述，形成一個標準描述向量，如圖6所示。

航天器類型軌道信息載荷信息分辨率信息所屬機構重訪周期光譜信息帶寬信息Value1Value2Value3Value4Value5Value6Value7Value8

圖6 航天資源向量描述示例

如何高效利用多顆衛星的資源完成目標任務，是目前衛星任務規劃領域的熱點。當前，按照衛星任務規劃模式可分為集中式和分布式協同規劃方法。雖然集中式任務規劃系統可從全局的角度對問題進行求解和優化，但在實際規劃過程中存在求解復雜度高、魯棒性差、可擴展性不足等局限，難以保證遙感需求的質量和時效性。

為了解決上述問題，提出基于深度強化學習的航天信息綜合應用決策算法。采用深度強化學習算法求解航天信息綜合應用面臨建模難、籌劃難的問題，模型參數的知識難以完全獲取。因此，如何制作深度強化學習算法訓練樣本并建立模型使其可以為航天信息綜合應用決策提供有價值的指導，成為本項目研究的重要內容。

3.1 樣本內容

同時，制作樣本的后續評價數據，T={t1，t2，…，tM}為對應的觀測目標集合，?ti∈T可表示為ti=〈ui，Ai(k)〉，satk∈SAT，ui表示完成ti獲得的效用值，Ai(k)=(Ai，Vst(k)，Ai，Mem(k)，Ai，Eng(k))表示ti對衛星satk的資源需求向量，由于衛星能力異構，不同衛星對于同一目標ti的資源需求向量不相等。

3.2 樣本模型建立

綜合應用方案主要由指針神經網絡產生，該神經網絡在結構上由2個循環神經網絡(RNN)構成，分別作為規劃方案的編碼器和解碼器。這2個網絡均由長短時記憶核(LSTM Cell)構成。每一個樣本內容為一個序列，其包含衛星的各類相關信息。因此，需要使用神經網絡進行編碼，將信息序列編碼為可以供機器掌握的特征序列。進入強化學習訓練流程后，進過訓練，輸出為調整序列，同時此時進行解碼工作，獲得任務序列情況。

強化學習作為一種無監督學習方法，提供了一種訓練上述指針神經網絡求解衛星任務規劃問題的合理框架。基于衛星任務規劃問題的目標函數相對簡單，本項目提出一種基于策略的無模型強化學習算法用來優化上節中的指針神經網絡的參數。網絡的訓練算法使用類似于Asynchronous Advantage Actor-critic (A3C)算法，算法流程如下所述：

AlgorithmActor-critic Training

1：procedure TRAIN(training set S，number of training steps T，batch size B)

2：Initialize pointer network paramsθ

3：Initialize critic network paramsθv

4：for t = 1 to T do：

5：si～SAMPLEINPUT(s)fori∈[|1，B|]

6：πi～SAMPLESOLUTION(pθ(.|si))fori∈[|1，B|]

7：bi←bθv(si)

10：θ←ADAM(θ，θ)

11：θv←ADAM(θv，θvLv)

12：end for

13：returnθ

14：end procedure

其中，算法訓練的目標函數是使安排的任務數量最大化為：

J(θ|s)=Eπ～pθ(.|s)L(π|s)。

在使用過程中，將用戶的航天信息應用需求進行向量化，同樣進行編碼，輸入到決策模型中去，經過決策模型對已知可用衛星集的籌劃和安排，從而輸出航天信息應用決策結果，主要內容為需求衛星及其使用時間、使用載荷等數據。

4 實驗與分析

4.1 仿真與實驗

為了選擇最優的價值網絡模型，本文建立了模擬仿真環境，通過測試結果選取最優的價值網絡模型，主要候選模型為DQN，Double DQN(簡稱DDQN)。實驗環境為Windows10操作系統，Python3.6、Tensorflow 1.8 GPU版、Keras2.1.6、Gym0.10.8。設置8類環境評價變量，最大迭代次數為600次，主要考察訓練的損失函數值、回報函數值以及測試的回報函數值，回報函數值最大為200。主要測試的價值模型為DQN，Double DQN[16]，訓練和測試結果如圖7～圖9所示。

圖7 2種價值模型訓練過程獎勵值曲線圖

圖8 2種價值模型訓練過程損失值曲線圖

圖9 2種價值模型測試過程曲線圖

從訓練結果和測試結果可以看出，在使用相同參數的情況下，Double DQN收斂速度更快，在測試中Double DQN獲得的滿分更多。從而證明了Double DQN在訓練學習和測試應用中具有更好的性能。

4.2 結果分析

DQN本質上是Q-learning，只是利用了神經網絡表示動作值函數，并利用了經驗回放和單獨設立目標網絡這2個技巧。DQN無法克服Q-learning本身所固有的缺點——過估計[15-17]。一般來說，Q-learning之所以存在過估計的問題，根源在于Q-learning中的最大化操作[18-19]。取最大值操作使得估計的值函數比值函數的真實值大。如果值函數每一點的值都被過估計了相同的幅度，即過估計量是均勻的，那么由于最優策略是貪婪策略，即找到最大的值函數所對應的動作，這時候最優策略是保持不變的。也就是說，在這種情況下，即使值函數被過估計了，也不影響最優的策略。強化學習的目標是找到最優的策略，而不是要得到值函數，所以這時候就算是值函數被過估計了，最終也不影響解決問題。然而，在實際情況中，過估計量并非是均勻的，因此值函數的過估計會影響最終的策略決策，從而導致最終的策略并非最優，而只是次優[20]。為了解決值函數過估計的問題，Double Q-learning將動作的選擇和動作的評估分別用不同的值函數來實現。這一設計符合航天信息資源的具體情況，因此，作為今后航天信息決策與優化模型實現的候選網絡模型。

5 結束語

本文通過分析航天信息應用在新的時代背景下的新需求，得出航天信息綜合應用需要大眾化和平民化的結論。在航天專業人才規模沒有跟上時代發展的情況下，提出應用人工智能技術中的深度強化學習方法來處理航天信息綜合應用決策的問題。通過介紹深度強化學習方法原理、航天信息綜合應用決策建模等內容，達到航天信息綜合應用智能化決策的目的，從而打通從普通用戶需求到航天信息資源專業化應用的途徑。同時仿真環境搭建，仿真了衛星資源數據庫，在仿真環境下進行了相關模型的訓練和測試。實驗顯示，Double DQN價值函數網絡模型具有更好的收斂性，適合作為航天信息優化決策的價值網絡。后續將在網絡模型設計的基礎上構建典型應用場景，并且進行基于實際數據和專家參與的模型訓練與測試，在算法的實用化等方面開展研究工作。