基于A2C算法的低軌星座動態波束資源調度研究

2023-07-21 02:20:04劉偉鄭潤澤張磊高梓賀陶瀅崔楷欣

中國空間科學技術 2023年3期

劉偉,鄭潤澤,張磊,高梓賀,陶瀅,崔楷欣

1.國家航天局衛星通信系統創新中心,北京 100094 2.中國空間技術研究院通信與導航衛星總體部,北京 100094 3.西北工業大學,西安 710072 4.北京理工大學,北京 100081

1 引言

隨著未來天基信息網絡的戰略謀劃、快速建設和創新應用,對海、陸、空、天不同類型用戶的天基信息支持將在社會民生、市場經營、國家安全中發揮越來越重要的作用。當前,國外科技巨鱷已經開始如Oneweb、Starlink等低軌星座的建設和商業運行[1],并謀求為地面用戶提供多樣化的天基信息服務。低軌星座衛星的軌道高度遠遠低于地球同步軌道高度,位于500～2000km之間。在信號衰減、傳播時延、靈活發射、彈性抗毀和研制成本方面具有顯著優勢[2],同時相對于地面信息網絡在全球覆蓋方面具有突出的優點。

當前低軌星座波束資源調度研究主要方向包括對地表用戶的接入覆蓋、波束功率頻率資源的分配等,面向用戶航天器如運載火箭、載人飛船、空間站、遙感衛星通信需求的研究成果還比較少。本文面向中國未來低軌星座的建設與應用,通過對低軌星座動態波束資源調度場景進行建模,開展預先研究。旨在多星、多波束、多用戶場景下選擇最合適的波束資源為用戶航天器提供服務,以緩解日益凸顯的數據回傳與通信服務需求和有限的波束資源之間的矛盾。

使用低軌星座為用戶航天器提供服務的主要約束來源于用戶任務需求和波束資源狀態兩方面,涉及到任務數量、波束數量、任務持續時間、資源可用時間、通信建鏈時間等具體內容。因此,低軌星座動態波束資源分配是一類多約束的組合優化問題,對于衛星資源動態調度(DBRS,dynamic beam resource scheduling)領域的相關問題,A.Aroumont等人在文獻[3]中提出了一種無線電資源管理算法,該算法通過衰減減緩技術提高了資源利用率。在文獻[4]中,D.K.Petraki等人認為衛星資源分配問題可以用博弈的思想和算法來解決,如采用馬爾可夫鏈模型形成議價模型。D.Shi等人提出了一種改進的布谷鳥算法來優化[5]中的衛星資源分配。在文獻[6-9]中提到了基于多波束的DBRS建模。其他DBRS問題求解的相關研究均列于文獻[10-13]。

然而這些資源分配成果主要面向傳統高軌中繼系統、低軌星座對地覆蓋場景和涉及通信體制的功率帶寬分配,在強動態、高切換的低軌衛星通信波束資源調度領域的有效性還未進行驗證。

基于強化學習框架的資源分配算法被廣泛關注并形成豐碩成果[14]。在文獻[15-16]中,基于強化學習的算法分別成功地解決了低延遲無線接入網絡和智能移動邊緣計算系統下的動態資源分配問題。在文獻[17-18]中,采用強化學習的算法,解決了與通信相關的動態資源分配問題。文獻[19-23]中列出強化學習在資源分配領域的其他成果。鑒于強化學習框架在資源分配問題中的出色性能,本文采用將其作為低軌星座動態資源調度問題的基本框架。

其中基于值(value-based)和基于策略(policy-based)是強化學習領域的兩類重要方法,基于值方法試圖尋找最佳值函數,值越高意味著動作(action)評價越好,基于策略方法則嘗試直接找到動作最佳策略。本文采用的A2C架構結合了兩種方法的優點,其核心思想是將模型分為兩部分,一部分用于根據狀態(state)計算動作(基于策略),一部分用于評估動作的Q值(基于值)。本文將低軌星座波束資源的動態調度場景抽象為序列預測問題,以符合A2C算法的應用邏輯。在智能體(agent)執動作用過程中采用了基因遺傳算法中個體(任務規劃結果)和基因(用戶任務)的概念,通過基因的操作實現智能體的動作。在動作評價方面采用了多參數多權重的評價函數,可根據動作狀態自適應調整權重以優化評價方法。本方法與傳統順序更新法相比,能夠在較短的時間內形成最優規劃策略,且理論上可以在任何合適的應用環境(environment)下快速獲得最優分配方案,這對低時延的用戶服務體驗是重要的。

由于本強化學習框架沒有直接的引導信息,智能體需要不斷與環境交互,通過多個回合試驗獲得最優策略。傳統A2C算法的難點在于訓練過程中每一回合每一次更新步驟之間強相關的環境特征會存在無法收斂的問題。本文提出了一種基于卷積網絡的環境反饋提取設計使得算法在快速獲得資源調度結果的同時還避免了無法收斂的問題。

2 動態波束資源調度問題數學模型

圖1中給出了多用戶動態、并發提出用戶接入需求的場景,本文提出的動態波束資源調度算法就是要滿足復雜約束下航天器用戶的接入需求產生的波束資源分配問題。

圖1 低軌星座波束服務航天器用戶場景

圖2 用戶任務模型示意圖

場景中的主要要素包括低軌星座衛星、用戶航天器、用戶任務、波束資源等部分。每一個低軌星座衛星會有若干波束資源,每一個用戶航天器會產生若干用戶任務。

2.1 動態資源調度場景數學模型

低軌星座波束資源調度優化旨在解決多個用戶需求和多個波束資源之間的匹配問題,其數學模型中主要包括波束資源分配時間窗口、用戶航天器、用戶任務、低軌星座衛星、及波束資源、可見時間窗口以及通信鏈路建立的數學模型。本模型中,設置波束資源分配時間窗口為T=[Ts,Te],其中Ts為窗口起始時間(默認取值為0),Te為結束時間。將根據此時間窗口內的所有用戶需求和波束資源進行分配優化。按照時間切片長度t進行劃分,波束資源分配時間窗口內則會包含tot=(Te-Ts)/t個連續的時間切片,盡量選取(Te-Ts)為t的整倍數以保證時間切片數量為整數。

本模型中,設置用戶航天器數量為nts,每一個用戶航天器編號分別為tsj,用戶航天器最多可以生成tmax個用戶任務,用戶任務編號分別為tsjm,每個任務的可用的起始時間和終止時間分別為btjm和etjm,每個任務可用時間dtjm為兩個時間的差值,每個任務實際持續時間長度為extjm,其中下標j為用戶航天器的索引,j∈{1,2,…,nts}。下表m為用戶任務索引,m∈{1,2,…,tmax}。不同用戶任務起止時間需滿足btjm

本模型中,設置低軌星座衛星數量為nrs,每一個低軌星座衛星的編號分別為rsi,且每個衛星擁有nbc=4個可用波束資源,每個波束資源編號為rsik,下標i為低軌星座衛星的索引,i∈{1,2,…,nrs}。下標k為波束資源的索引,k∈{1,2,3,4}。

本模型中,用戶航天器和低軌星座衛星只有滿足可見時間窗口的約束時波束資源才可被分配給用戶以執行數據傳輸業務。可見時間窗口用矩陣KJ=[visij,vieij]表示,visij表示第i個低軌星座衛星和第j個用戶航天器之間可見時間窗口的起始時間,vieij表示對應的結束時間。

用戶航天器和低軌星座衛星在開始業務傳輸之前需要進行波束指向對準,需要占用的時間長度為lct。因此每個任務需要占用波束資源時間長度attjm為任務實際執行時間長度extjm和建鏈時間lct之和。除此之外,低軌星座衛星每一個波束資源每一時刻只能為一個用戶航天器的一個任務進行服務。

為了表述方便,設置三維矩陣ES來存放用戶任務的相關重要參數。ES有j行、m列、7層,對應用戶航天器用戶任務的7個關鍵參數[j,m,p,bt,et,dt,att],不同參數需滿足以下約束關系。

btjm

pjm∈{1,2,3,4}

dtjm=etjm-btjm

attjm=extjm+lct

lct

式中:用戶任務的可用的結束時間et必須大于開始時間bt,任務優先級取值范圍為{1,2,3,4};用戶任務可用時間長度dt為結束時間et和起始時間bt的差值,實際占用波束資源的時間att為任務實際時間ext和建鏈時間lct之和,且小于用戶任務可用時間dt。

設置VIS和VIE矩陣用于存儲nrs個低軌星座衛星和nts個用戶航天器之間可見時間窗口的起止時間。每個矩陣包含nrs行和nts列,VIS矩陣中的visij元素表示第i個低軌星座衛星和第j個用戶航天器之間可見時間窗口的起始時間,VIE矩陣中的vieij元素表示第i個低軌星座衛星和第j個用戶航天器之間可見時間窗口的終止時間。

用戶任務和波束資源之間匹配過程是選擇能夠滿足用戶任務tsjm需求和約束的波束資源rsik并占用該資源。一旦波束資源被某一任務占用,則被占用的部分不能再用于服務其他用戶任務。假如att對應的起止時間為[pts,pte],則需滿足下述要求:

visij≤pts

即最終用戶任務執行時間(包括任務自身時間和建鏈時間)必須為可見時間的子集。

由此可見,在波束資源分配時間窗口內的資源是確定的,用戶任務也是確定的。如何在滿足約束的條件下,利用有限的資源滿足盡可能多的用戶需求與任務優先級高的任務,是本文研究內容的主要目的。

2.2 優化求解數學模型

根據上述場景的數學模型設置三個二維矩陣TSM、DUR和REW用于記錄任務規劃算法求解過程中的輸入和中間輸出信息。其中,用戶任務信息矩陣TSM中包含nts行和tot列。每一行代表一個用戶航天器,每一列代表波束資源分配時間窗口內的一個時間切片。矩陣中元素的值為用戶任務的編號tsjm,以反映用戶任務的具體順序和時間信息。資源分配結果矩陣DUR中包含nts行和tot列,矩陣中的元素值為任務對應波束編號的rsik,反映的是用戶實際占用波束資源的時間長度att(包含lct和ext兩部分),以及具體的起止時間信息。任務獎勵矩陣REW中包含nts行和tot列,矩陣中元素值為與DUR矩陣中的對應位置上對應用戶任務的即時任務獎勵。每個用戶任務的獎勵rjm定義為:

irjm=pjm

rjm=irjm*attjm

式中:pjm為第j個用戶航天器第m個任務的優先級。

當某一個波束資源與一個用戶任務匹配時,將從TSM、DUR和REW中收集該用戶任務的相關信息,并使用xjm作為任務是否選擇的標識。

式中:0表示未選中任務航天器j的第m個用戶任務,1表示選中。因此,所選擇的每個任務對應獲得的任務獎勵可以描述為:

obirjm=xjm*irjm

obrjm=xjm*rjm

將nrs個低軌星座衛星的所有波束資源定義為模型的單一智能體(agent)。創建一個4*nrs行和tot列的矩陣SR,其中行表示4*nrs個波束資源,列表示tot個時間切片。SR中的元素記錄的是動態波束資源調度窗口內的動作(action)信息。在每個資源調度回合中需記錄的總步數為:

tostep = 4×nrs×tot

此外,SR與狀態矢量同步,并具有軌跡記錄的功能。

為了避免不同參數對應問題模型性能無法直接比較算法效能的問題,設計歸一化u來衡量波束資源分配優化算法生成的調度方案的性能。其定義為成功獲得波束資源的任務獲取的獎勵回報Ro和環境總任務的獎勵回報Rt的比值。換句話說u值越大,動態資源分配優化算法的效果就越好。

u=Ro/Rt

3 基于A2C的波束調度算法

傳統強化學習模型與算法中往往僅有一個輸出量,策略或值[18]。AC(actor-critic)算法兼具兩種變量輸出的能力,其中通過演員(actor)網絡來學習動作(action)的策略,輸出動作策略。通過評價(critic)網絡來學習對動作的評價,輸出評價值。本文算法中動作采用了基因遺傳算法中基因突變的類似的概念以提升算法效率。通過多要素的線性優勢函數替代AC算法中評價網絡的原始回報,通過設計自適應評價參數更新機制可以衡量智能體的動作與平均動作的差異并采取優勢動作。意味著本文算法對動作的評價不僅取決于動作的良好程度還取決于動作可以改善的程度。

3.1 回合單步環境特征提取

傳統A2C算法指導智能體的動作決策由演員網絡AN和評論網絡CN完成,θ和w為兩個網絡的重要參數,這且兩個神經網絡的參數都是基于單步更新的。由于單步更新策略下的環境反饋存在強相關性,導致了該算法在優化求解時可能會因為不收斂而無法進行有效學習。為了解決此問題,本文通過引入中間卷積層來消除強相關性。卷積層的輸入形式為從大小為tostep的一維向量變形得到的conv1in*conv1in的二維矩陣,其中

tostep=conv1in×conv1in

將該二維矩陣作為卷積層的輸入,通過兩層卷積過程獲得卷積特征向量convf,并為AN和CN的輸入。卷積過程如圖3所示,其中圖左為AN,右側為CN。其輸出結果分別為對應單步的智能體動作以及狀態值函數。算法具體過程如表1所示,這種方法在解決強相關環境反饋引起的算法不收斂是有效的,通過改變卷積層參數,可以解決不同規模的各種環境反饋的強相關性問題。

表1 卷積特征提取

圖3 神經網絡輸入卷積處理過程示意

3.2 基于A2C框架的調度算法架構

在強化學習算法中,智能體感知環境狀態,并根據之前從環境反饋得到的獎勵(reward)選擇動作。在波束資源動態分配場景中,智能體為一個可用的任務規劃結果,動作是用戶任務和波束資源對應關系的調整。對于每一個波束資源調度回合中離散的步驟,智能體可以選擇若干用戶任務并改變當前的資源分配結果作為其在此步驟的動作,在經判定有效后得到對應任務獎勵。

狀態、動作、獎勵(reward)的具體定義如下:

(1)狀態

狀態向量State是一個包含tostep個元素的一維向量表示,每個資源調度回合中的狀態向量元素值的初始化默認為0。狀態向量中的0表示當前每個低軌星座衛星上波束資源為空閑狀態。在每一個時間步,智能體的行為可以為選擇一個任務衛星索引j,環境根據智能體做出的動作返回相應的下一個狀態向量以及對應的即時任務獎勵;智能體也可以選擇不選擇任務衛星在此時間步保持對應波束資源的空閑狀態。

如果狀態矩陣中對應的元素在一個時間步內不為0,則當前操作決策將不會被定義為有效。一旦確定動作是有效的,這意味著低軌星座衛星和用戶航天器匹配時間在可見時間窗口內,用戶任務也可以在可見時間窗口內完成。然后將所選任務衛星編號寫入當前狀態向量,使該波束資源在后續的時間步中無法選擇其他任務,直到當前任務完成。所選擇的任務衛星的信息將從TSM矩陣中刪除,使該任務無法被資源衛星上其他未占用的波束信道選擇。

State=(sstep=1,sstep=2,…,sstep=tostep)

其中狀態向量中的每個元素對應回合內智能體所選擇的相應動作,回合結束所得狀態向量即為回合智能體動作序列。為了節省算法對計算和存儲資源的占耗,算法中將每個回合內的狀態通過評價函數轉換為收益值,以節約存儲資源。

(2)動作

動作的定義是將不同的用戶任務隨機的分配至可用的波束資源上,每一次動作都會形成新的具有不同收益的智能體。考慮到每個用戶航天器只有一個通信波束的約束,同一個低軌衛星波束資源在某個時間切片上,只允許對應一個用戶任務。所選擇的動作將記錄在狀態向量及其記錄矩陣SR中,每一步的動作定義為:

式中:astep=0表示在該步驟沒有選擇任務衛星;astep=j表示在該步驟選擇任務衛星索引為j。

(3)獎勵

獎勵的定義是成功規劃任務數量與任務優先級的線性組合。每個任務的即時任務獎勵可以從矩陣REW中獲得。使用向量R去記錄每個回合中的單步即時獎勵。向量R中元素值的最后一個值為每個回合獲得的最終任務獎勵。為了節約對存儲資源的占耗,REW中在每次回合結束后將最后一個獎勵值輸出后進行清空,以重復使用該變量并節約存儲空間。

為了讓智能體能夠學習到最優的資源分配策略(π),波束調度算法具體實現有兩種方式,其一基于貪心算法的資源調度回合中每一步更新過程具體如下:①基于當前狀態向量,AN網絡根據ε-貪心算法選擇一個輸出動作或者在動作空間中隨機選擇一個動作。一旦所選擇的動作步驟被評估為有效的,環境將返回相應的即時獎勵和下一個狀態向量。②然后CN將動作、即時獎勵、當前狀態和下一狀態作為輸入產生TD誤差δπθ,其中TD誤差是對優勢函數Aπθ(s,a)的無偏估計,本文A2C算法采用的優勢函數的定義如(1)所示。無偏估計和TD誤差的計算公式如(2)和(3)所示。

Aπθ(s,a)=Qπθ(s,a)-Vπθ(s)

(1)

Aπθ(s,a)=Eπθ[δπθ|s,a]

(2)

δπθ=r+γπθ(s′)-Vπθ(s)

(3)

在公式1的優勢函數中,s為智能體當前狀態,a為智能體當前動作,πθ為當前執行的策略。Qπθ(s,a)為動作價值函數,表示智能體處于狀態,πθ在采用動作a后的預期回報。Vπθ(s)為狀態價值函數,表示當智能體處于狀態S時基于策略πθ的預期回報。公式2中的Eπθ[δπθ|s,a]即為基于當前狀態和動作求TD誤差并取期望。公式3中的r為獎勵回報,γ為獎勵衰減率,Vπθ(s′)代表基于下一個狀態,s′的價值函數值,γπθ(s)代表基于當前狀態s得到的價值函數值。

CN使用均方誤差(MSE)方法基于TD誤差更新其參數w,然后將計算出的w傳遞給AN,AN使用策略梯度方程更新其參數θ。這一過程將持續進行,直到一個資源調度回合結束,具體過程如圖4所示。具體算法過程如表2所示。

表2 動態資源分配

圖4 A2C算法流程示意

圖5 原始任務甘特圖

θJ(θ)=Eπθ[θlogπθ(a|s)δπθ]

第二種方式是通過線性評價函數對智能體的動作進行實時評價,該評價函數包括用戶任務規劃狀態、該任務的優先級絕對值和波束的切換次數。該函數可同時評價對用戶任務需求的響應和對系統資源的占耗。

式中,x為當前智能體中成功規劃任務對應的標志,取值為1;P為所有成功任務對應的優先級絕對值,SW為當前智能體對應波束切換次數(越小越好)。權重α,β,λ影響每一個量對評價函數的貢獻。CF的值越高,說明智能體采取該動作獲得的獎勵越高。

這兩種方式均可以使得智能體學習動作選擇的策略,方式一中可以在較短回合數內完成策略的選擇,由于每一回合中計算較為復雜占用時間反而較長。第二種方式需要在全部求解空間內進行搜索,需要較多的回合數能夠發現動作偏好,由于每個回合中計算過程較為簡單,用時反而較少。

4 算法效能評估

本部分從三個方面(有效性、適用性和不同算法對比)對提出的算法進行了仿真分析。根據仿真環境性能的差異,相同的場景配置參數產生的時間消耗、計算資源占用數值可能不同。

4.1 算法可用性評估

建立一個典型場景用于驗證低軌星座波束資源算法的有效性,其中設置50個用戶航天器在波束資源分配時間窗口長度為30min的時間內隨機生成若干不同優先級的用戶任務。每一個用戶任務所需時間為時間切片(t=20s)的整倍數,取值范圍為1t至20t,即每個用戶任務可能的持續時間為20s到400s不等。用戶任務得到執行需要的時間包括任務本身的時間和建立鏈路所需的時間之和,其中lct取值為100s。仿真采用的是Python語言、Matlab和Torch深度學習框架。仿真環境為主頻為2.6GHz內存為16GB的通用計算機。用戶任務甘特圖如5所示,仿真具體參數配置如表3所示。

表3 仿真配置參數

圖中橫軸代表時間,共包含90個時間切片。縱軸為用戶編號,對應50個用戶航天器。其中每一個有色條塊代表該用戶航天器在不同時間產生的用戶任務,共計207個任務。該圖同時能夠反映每一個任務的可用的起止時間信息。

算法在進行資源分配時需要考慮每一個用戶航天器和低軌星座衛星的可見時間是否能夠滿足任務本身和建鏈時間的約束。其中可見時間的visij從[0,45]中隨機得到,vieij從[45,90]中得到,意味著可見時間長度取值范圍為[0,90]。

基于3.2中方式一,提出的算法在應用卷積層從環境反饋中提取特征時,經對不同范圍參數的測試,最終得到了收斂速度最快、實驗效果最好的參數配置結果,卷積層參數如表4所示,兩組網絡配置參數如表5所示。

表4 網絡配置參數

表5 AN/CN網絡配置參數

在上述仿真模型中對提出的算法進行仿真,波束資源分配結果如圖6所示。

圖6 任務規劃結果

圖中橫軸代表時間,對應30min內的90個時間切片。縱軸對應40個波束資源編號,其中的有色條塊代表不同的用戶任務被分配在對應波束資源上占用的時間。每一個有色條塊的長度包含建鏈時間和任務本身持續時間兩部分。成功調度任務數為169個,成功率不低于80%,其中任務失敗原因主要是由于沒有足夠的波束資源。使用40個波束資源服務50個用戶存在較多的資源沖突。該仿真結果可驗證提出算法在任務規劃中的有效性。

4.2 算法適用性評估

為了進一步驗證動態波束資源調度算法的靈活性和適用性,設計了不同場景并進行針對多種結果進行了仿真分析。對比實驗共分為三組,其中場景參數主要包括用戶航天器數量nts、資源衛星數量nrs、每顆資源衛星波束數量nbc等。場景1為典型高軌場景、場景2為典型中軌場景、場景3為典型低軌場景,具體參數設置如表6所示。

表6 對比實驗場景參數

仿真結果主要包括不同場景下用戶任務的數量TN、被成功調度的任務數量STN、任務規劃成功率SR、仿真時間消耗TC等信息。仿真對比結果如表7所示。

表7 對比實驗仿真結果

由于可用波束資源數量少于用戶航天器數量故而存在部分由于資源短缺導致的任務規劃失敗。上述仿真場景中,任務規劃成功率不低于91%,該算法在不同場景配置下能夠有效的進行任務規劃,具有多種場景的應用靈活性。

同時仿真結果表明,隨著用戶任務數量的增加,算法仿真產生的時間消耗也明顯增多。面對用戶航天器快速請求響應的需求,任務規劃算法時間消耗不應大于18s(一個時間切片內可用于計算的時間),當航天器最大任務數超過2600時,算法響應時間為18.4s,因此算法在面對大量用戶任務場景下存在使用局限,需要針對天基算力受限的場景提出如任務分割和分布式計算等方法進行解決。

由于該算法的應用對象是資源受限型的低軌衛星,算法的復雜度直接影響了工程應用的實現難易程度。本算法的計算復雜度由定義的狀態空間、動作空間以及應用的網絡的大小規模所共同決定。面向星載算力受限的場景最直觀的體現在算法對CPU處理器、RAM內存的占用上。在算法設計過程中重點優化了對CPU和內存資源的消耗,如減少非必要的循環語句和非必要變量,通過降低算法復雜度以實現對系統要求的降低。將該算法使用Golang語言進行編譯,并在上述仿真環境中進行仿真,對CPU和RAM的占用隨時間波動,結果取平均值,三種對比場景下的資源占耗如表8所示。

表8 計算占用仿真結果

結果表明,相同的仿真環境下,不同場景中產生的資源占耗較低,CPU占用不大于5%,RAM占用不大于20%。

4.3 不同算法對比分析

為了驗證本算法在響應速度和任務規劃成功率方面的優勢,分別與傳統全連接的A2C算法、DQN算法和傳統雙鏈基因遺傳算法進行了對比仿真分析。

仿真對比一:由于3.2中方式一和全連接A2C算法和DQN算法架構較為類似,進行仿真對比,其中仿真場景參數包括nts=70,nrs=20,nbc=4;三種算法獎勵值結果u如圖7所示。

圖7 不同方法50回合學習結果u

圖中橫坐標代表回合數(無單位),縱坐標代表的每回合生成的調度方案的獎勵值u(歸一化值,無單位)。其中u值越高,意味著資源和任務的匹配程度越高,相應的調度方案性能越好。

本算法相對傳統全連接A2C算法解決了無法收斂的問題,相對于DQN算法可以達到相似的獎勵值,但是達到收斂的所需回合數更少,其中本算法在第8代達到收斂,DQN算法在第13代達到收斂,本文算法收斂速度提升38%以上。

仿真對比二:采用3.2中方式二與傳統基因遺傳算法進行對比。設計100個樣本,其中nts取值范圍為[45:54],nrs取值范圍為[10:19],nbc=4;其中,當nts取值為45時,nrs分別從10取值到19,以此類推,共計100個仿真樣本。如圖8和圖9所示,仿真結果包括兩種任務規劃方法的成功率和任務規劃時間消耗。

圖8 任務規劃結果成功率

圖9 任務規劃時間消耗

結果中橫軸為100個對比樣本(無單位),縱軸為任務規劃成功率(成功任務規劃數/總有效任務數×100)。本方法與傳統基因遺傳方法成功率基本相同,略優于傳統基因遺傳方法。其中部分樣本的任務成功率較低是由于資源不足導致的。如當nts為54時,而nrs為10時,可用波束僅有40個,無法同時滿足54個用戶航天器的接入請求,進而導致任務規劃成功率會降低。

結果中橫軸為100個對比樣本(無單位),縱軸為每次任務規劃產生的時間消耗。由仿真結果可知,隨著nts和nrs的增加本方法時間消耗幾乎不變,而傳統基因遺傳算法隨著計算任務規模的增加時間明顯增加,這是由于傳統算法需要在每一回合中對任務規劃結果進行編碼(將用戶任務和衛星編碼為兩條染色體)和解碼(將染色體解碼為任務規劃結果)導致的效率降低。結合任務規劃成功率對比結果可知,雖然兩種方法在任務規劃成功率方面幾乎相同,但是在時間代價上本算法更具有優勢,平均可節約時間達45%以上。

5 結論

本文研究了低軌星座波束資源動態分配優化的問題,形成了基于A2C框架下的動態波束資源調度算法。經對比分析,形成以下結論:

1)本文提出的算法在進行波束資源分配優化問題求解中是有效的,當資源充足時任務規劃成功率較高,當資源不足時任務規劃成功率較低。

2)算法在多種場景下仍然具有適用性,通過場景參數配置可用于求解各種星座構型下的用戶航天器接入問題。

3)算法在響應速度上具有優勢,雖然與其他算法達到的任務規劃成功率或總體獎勵值相近,但時間開銷相對較小,適用于時敏任務場景。

在后續的研究中,可面向算法復雜度降低開展研究,突破在星上算力受限的場景下工程應用。同時文中所使用參數和取值均面向驗證本文方法和算法的有效性,與工程實際參數物理含義一致,但取值或許存在差異。