999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL的巨型星座星地測控鏈路規劃算法

2023-11-18 05:35:32席超楊博王記榮李公朱睿杰楊肖
中國空間科學技術 2023年5期
關鍵詞:智能

席超,楊博,王記榮,*,李公,朱睿杰,楊肖

1.航天恒星科技有限公司,西安 710000 2.鄭州大學,鄭州 450001

1 引言

衛星通信系統正朝著低軌道、大規模、星座組網和多載荷多功能一體化趨勢發展。以美國SpaceX公司為代表的技術先驅已率先全面啟動天基互聯網建設。全球計劃部署巨型低軌星座數量多達18個以上。全球范圍聚焦、聚力、搶占低軌星座市場。中國也正在規劃、部署和建設相應的低軌巨型星座系統。航天測控技術是一種對航天飛行任務目標跟蹤測量和控制的綜合技術,通過網絡通信技術完成運載火箭和衛星等航天器的跟蹤測軌、遙測信號接收處理、遙控信號發送等任務,巨型星座測控屬于航天測控范疇,面向的航天器是低軌巨型星座中的衛星,是實現低軌星座系統可靠運轉和有序工作的關鍵。巨型星座測控涉及衛星全生命周期管控,管控節點多,周期長,對象廣,階段多,過程頻繁復雜,同時管控效率要求高,現有的測控模式和設施無法滿足供需平衡。要實現對低軌巨型星座系統高效運維管控,必須要擺脫對傳統人工運維的高依賴,深化人工智能等新技術與測控技術多點融合,突破巨型星座系統測運控主要環節的高效運維管控技術。低軌星座衛星和地面測控站相對高動態運動,星地測控窗口動態多變,且存在單星多站和單站多星測控窗口規劃選擇問題。星地測控鏈路規劃是執行對衛星跟蹤測軌、遙測信號接收和遙控信號發送的關鍵和前提[1-3]。國內外對低軌巨型星座測運控相關研究較少。文獻[4]構建了上行注入任務調度問題的多目標混合整數規劃模型,并設計了基于規則的啟發式算法進行求解;文獻[5]提出了基于改進蟻群算法設計的敏捷衛星調度方法;文獻[6]面向具有星間鏈路的衛星導航系統設計了啟發式規劃調度方法;文獻[7]設計了基于遺傳算法的規劃方法,考慮了最大任務數和最小切換次數;文獻[8]基于拉格朗日啟發式方法設計了規劃算法;文獻[9]提出了改進的遺傳算法。

上述方法大多采用傳統的啟發式方法,并且面向的是小規模的衛星系統,對測控站的資源也考慮有限。當應用在更為復雜的巨型星座系統中時,這些方法的性能和魯棒性等都面臨挑戰。對于復雜的序列決策型問題,深度強化學習(deep reinforcement learning,DRL)展示出了強大的決策優化能力。通過智能體對系統環境進行“探索與評價”,利用深度學習的強大感知能力,構建深度神經網絡模型對復雜環境進行特征提取,并結合強化學習的決策能力做出動作選擇,并根據獎懲機制進行策略優化,現已成為解決復雜系統的感知-決策問題的重要手段[10]。本文結合衛星測運控工程經驗和對低軌星座系統深入研究,將深度Q學習網絡(deep Q-network,DQN)強化學習算法[11-15]技術與測控技術進行了融合,提出了一種面向未來巨型星座的高效星地測控鏈路組網規劃算法,可為中國星座系統的建設提供相應的技術解決方案。

2 問題建模

3 基于DRL的星地測控鏈路規劃算法

DQN算法的網絡框架如圖1所示,采用了雙神經網絡架構,一個為評估網絡,用來計算Q值,另一個為目標網絡,用來計算目標Q值。兩個神經網絡的結構和初始權重值都是一樣的,區別在于每次迭代訓練中,評估網絡每次都更新參數,而目標網絡則隔一段時間才會更新參數。由于模型參數的頻繁更新,容易出現震蕩發散、難以收斂的現象,而目標神經網絡的引入可以輔助穩定目標值,降低當前Q值和目標Q值的相關性,加快模型收斂,提升算法的穩定性。DQN的損失函數表示為目標Q值和當前Q值的均方差,智能體會使用梯度下降的方法來更新參數,損失函數的定義如下:

圖1 DQN算法框架Fig.1 Framework diagram of DQN algorithm

Loss(θ)=E[(QTarget-Q(s,a;θ))2]

(1)

(2)

式中:θ為網絡參數;γ為折扣因子;r為獎勵值;s為當前環境狀態;a為狀態s下所采取的動作;s′為智能體做出動作更新后的環境狀態;a′為狀態s′下所采取的動作。

同時,DQN還引入了經驗池的概念,用來存放環境、狀態和獎勵的相關數據,即(s,a,r,s′),在智能體學習過程中會從中抽取批次數據訓練評估網絡。這一機制可以有效地切斷輸入樣本之間的相關性,同時也提升樣本數據的利用率。

3.1 環境狀態設計

為了更好地解決大規模星座星地傳輸規劃問題,將問題解耦到每個離散時間片內的星地規劃問題。在每個時間片內,每個測控站的初始狀態都是一致的,都有相同的天線資源,但在不同的時間片內,測控站的可見衛星序列是不一致的,因此,在進行環境狀態設計中,重點考慮衛星的狀態。對于同一時間片內,如果一顆衛星被多個測控站可見,該衛星記為競爭衛星,對于某個測控站,衛星的狀態情況如表1所示。

表1 環境狀態描述Table 1 Environment status description

State={F(s1),F(s2),…,F(sl),F(s1′),

F(s2′),…,F(sL-l′)}

(3)

式中:F(s1)表示可視衛星s1的狀態,F(s1)∈[0,5],可視衛星序列長度為l;F(s1′)表示填充衛星s1′的狀態,F(s1′)=0,填充衛星序列長度為L-l。

3.2 動作空間選擇

DQN智能體在進行動作選擇時,采用了“探索與利用”的思想,即ε-貪心策略。傳統的貪婪策略只會采用具有最大Q值的動作a=argmaxaiQ(s,ai),這種策略會導致智能體無法對環境信息進行更多的探索,容易陷入局部最優解。而ε-貪心策略是以ε的概率隨機選取動作,以1-ε的概率選擇具有最大Q值的動作,這樣就增加了智能體對環境信息有更為全面的認知與掌握,不易局限于已知的局部信息之中,從而可以積累更多的經驗,并逐步優化策略以獲得最大化的獎勵值。

在時間片tk,測控站gi∈G的動作空間大小與環境狀態空間一致,定義如下:

Action={s1,s2,…,sl,s1′,s2′,…,sL-l′}

(4)

3.3 獎勵函數定義

獎勵函數的設計影響著智能體的動作選擇和策略優化。從提升資源利用率和減少天線切換方面考慮,智能體應當盡可能地多選擇非競爭衛星和在上一個時間片就連接到該測控站的衛星。因此,選中狀態5到狀態2的衛星對應的策略優級依次下降,而選中狀態0和狀態1的衛星均屬于最差策略,因為這兩種狀態下的衛星都是無法建立星地鏈路。

基于上述分析,獎勵函數的定義如下:

(5)

式中:R為基本獎勵,設為20;PW為懲罰權重,設為-5;F(s)表示選擇的衛星s的狀態。選擇的衛星狀態級別越低時,所獲得的獎勵也越低,但對于選擇狀態0和狀態1的衛星則直接給予負獎勵值,因為這兩種狀態下的衛星是無法建立連接的。

3.4 算法流程

本算法流程如下,對于每個時間片,智能體依次為各個測控站進行衛星分配。

1 初始化評估網絡和目標網絡權重參數

2 while iter≤最大迭代次數:

3 fortkin iter≤:

4 forgiinG={g1,g2,…,gM}:

6 根據s,評估網絡生成動作空間對應Q值序列;

7 forbwinBi={b1,b2,…,bW}:

8 根據Q值序列和ε-貪心策略選擇動作a,為天線bw分配衛星;

9 計算獎勵值r,環境狀態更新為s′;

10 將(s,a,r,s′)存進經驗池,記錄分配方案;

11 learn_count += 1;

12 if learn_count % 學習步長 == 0:

13 從經驗池中抽取批次樣本進行網絡訓練;

14 if update_count % 更新步長 == 0:

15 將評估網絡參數復制給目標網絡;

16 目標網絡計算出目標Q值;

17 計算損失函數,采用梯度下降更新網絡;

18 update_count += 1;

19 計算資源利用率、天線切換次數;

20 end while;

21 輸出最優分配方案;

4 仿真及結果分析

在本文的仿真場景中,空間段是由768顆衛星構成的大規模星座網絡,采用極軌星座構型,共有16個軌道平面,每個軌道分布48顆衛星節點,軌道高度為1200km,軌道傾角為86°,軌道偏心率為0。地面段由23個測控站組成,隨機分布在全球的各個大洲,每個測控站配有8根天線,天線的最低仰角為10°。規劃周期時長設為24h,劃分成1440個時間片,每個時間片為60s。

DQN算法所使用的評估網絡和目標網絡的神經網絡架構一致,均設置3層隱藏層,各層的神經單元數量依次為1024、512和256,采用sigmoid激活函數。智能體的學習率設為0.01,學習步長為10,參數更新步長為200,經驗池大小設為500,采樣大小設為100,獎勵折扣因子設為0.9,總的訓練迭代次數為10000,采用24h的歷史TLE數據計算出的可視時間窗口進行訓練。

圖2~4展示了DQN算法在訓練過程中的測控站天線的平均利用率、平均切換次數和智能體獲取的累計獎勵值的變化情況。可以看出智能體通過不斷學習與優化策略,獲得的獎勵值不斷提高,可以將測控站的天線利用率提升到98%以上,并有效降低天線的切換次數。

圖2 測控站天線的平均資源利用率Fig.2 The average resource utilization of the antenna in TT&C station

圖3 測控站天線的平均切換次數Fig.3 The average switching times of the antenna in TT&C station

圖4 DQN智能體獲取的獎勵值Fig.4 Reward values obtained by the DQN agent

圖5和圖6為訓練好的DQN算法模型和遺傳算法、隨機算法對未來5天內的星地鏈路規劃方案的性能比較結果,表2為DQN算法和遺傳算法方案生成的耗時對比。從結果中可以看出DQN算法具有很好的魯棒性和高效性。

圖5 DQN算法、遺傳算法和隨機算法的測控站平均資源利用率對比結果Fig.5 Comparison results of average resource utilization of TT&C stations by DQN algorithm,genetic algorithm and random algorithm

圖6 DQN算法、遺傳算法和隨機算法的測控站平均切換次數對比結果Fig.6 Comparison results of average switching times of TT&C stations of DQN algorithm,genetic algorithm and random algorithm

表2 DQN、遺傳算法和隨機算法方案生成耗時對比Table 2 Comparison of generation time of DQN algorithm,genetic algorithm and random algorithm

5 結論

本文針對巨型星座系統中星地測控鏈路規劃這一關鍵性問題,引入深度強化學習方法DQN進行策略優化。相比于傳統的啟發式算法,本文設計的算法對巨型星座有很強的適應性,利用智能體與環境進行信息交互,結合獎懲機制自動優化衛星選擇策略。仿真實驗表明,該算法可以將測控站天線資源率提升到98%以上,同時有效減少天線的切換次數。此外,訓練好的模型可以根據未來時刻的星地可視窗口,在30s內快速生成規劃方案,效率遠遠高于傳統的蟻群算法。

猜你喜歡
智能
智能與自主
讓紙變得智能
一種智能微耕機的研發
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
爭渡智能石化
能源(2018年4期)2018-05-19 01:53:44
主站蜘蛛池模板: 91麻豆国产精品91久久久| 免费看一级毛片波多结衣| 在线观看热码亚洲av每日更新| 亚洲精品大秀视频| 久久久久久尹人网香蕉| 日韩欧美中文在线| 亚洲中文字幕在线观看| 波多野结衣无码中文字幕在线观看一区二区| 亚洲有无码中文网| 波多野结衣无码中文字幕在线观看一区二区 | 丁香五月婷婷激情基地| 亚洲人成电影在线播放| 国产剧情伊人| 91午夜福利在线观看精品| 国产超碰在线观看| 欧美在线精品怡红院| 9cao视频精品| 99re视频在线| 日本在线亚洲| 国产女同自拍视频| 亚洲视频欧美不卡| 国产va视频| 一级毛片在线播放免费| 十八禁美女裸体网站| 五月婷婷伊人网| 亚洲三级成人| 亚洲男人的天堂久久香蕉网| 四虎综合网| 一级毛片无毒不卡直接观看| 在线观看亚洲国产| 日韩精品欧美国产在线| 国产精品一区在线麻豆| 欧美激情首页| 亚洲国产成人精品无码区性色| 国产女人水多毛片18| 亚卅精品无码久久毛片乌克兰| 在线亚洲精品福利网址导航| 无码中文字幕乱码免费2| 亚洲伊人久久精品影院| 成年女人18毛片毛片免费| 日韩黄色在线| 国产在线欧美| 亚洲综合经典在线一区二区| 就去吻亚洲精品国产欧美| 露脸真实国语乱在线观看| 国产永久免费视频m3u8| 久久毛片网| 在线观看视频99| 三上悠亚精品二区在线观看| 综合五月天网| 精品在线免费播放| 欧美日韩亚洲国产主播第一区| 久久亚洲美女精品国产精品| 国产v精品成人免费视频71pao| 美女扒开下面流白浆在线试听 | 亚洲综合网在线观看| 国产99精品久久| 日本一区二区三区精品国产| 一本大道香蕉久中文在线播放 | 久久综合色视频| 99在线视频免费| 4虎影视国产在线观看精品| 谁有在线观看日韩亚洲最新视频 | 亚洲性色永久网址| 国产福利小视频高清在线观看| 国产欧美视频在线观看| 四虎在线高清无码| 亚洲一区二区三区国产精华液| 园内精品自拍视频在线播放| 国产人在线成免费视频| 国产00高中生在线播放| 久久青草免费91观看| 国产永久在线视频| 亚洲免费黄色网| 亚洲精品在线91| 国产亚洲欧美另类一区二区| 日韩黄色大片免费看| 熟妇丰满人妻av无码区| 欧美亚洲一区二区三区导航| 九九视频免费看| 丁香婷婷久久| 无码粉嫩虎白一线天在线观看|