999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的多層衛星網絡邊緣安全決策方法

2022-07-10 04:55:30左珮良侯少龍郭超蔣華王文博
通信學報 2022年6期
關鍵詞:方法

左珮良,侯少龍,2,郭超,蔣華,2,王文博

(1.北京電子科技學院電子與通信工程系,北京 100070;2.西安電子科技大學通信工程學院,陜西 西安 710068;3.北京郵電大學信息與通信工程學院,北京 100876)

0 引言

21 世紀以來,電子與通信行業發展迅猛,伴隨著5G 通信技術投入商用,全球諸多行業進入高速互聯時代。衛星通信作為地面通信的有力補充,憑借著其覆蓋范圍廣、不受地面地形影響的特點,為偏遠地區以及廣闊的海洋提供了基礎通信保障[1]。然而,衛星通信所具備的價值卻遠不止如此,近幾年來,多層衛星網絡作為空天地一體化網絡技術的空間構成,已成為學術界公認的下一代通信技術(6G)的重要組成部分[2-3]。

低軌衛星由于在衛星網絡中具有對地服務時延小、軌道周期短和高機動的特點,成為地面通信網絡服務的重要輔助者。目前,在軌運營的較知名的低軌衛星系統有銥星系統、OneWeb 和星鏈(Starlink)等[4]。由美國SpaceX 公司主導的星鏈系統目前已部署在軌衛星1 700 多顆,依靠較成熟的發射技術,該公司計劃將星鏈打造成具備三層高度的低軌互聯衛星系統,使其為所服務區域的用戶提供能夠與4G 速度相媲美的網絡服務。

低軌衛星的特征使其成為地面網絡的重要補充[5],一個典型的應用便是能夠實現計算卸載和訪問資源邊緣化存儲的低軌衛星邊緣計算[6]。文獻[7]對低軌星座通信網絡邊緣計算的架構開展了研究,并提出了一種依靠排隊論和加權方式的計算節點選擇策略。文獻[8]考慮了星地多級邊緣計算的場景,對衛星邊緣計算網絡和地面邊緣計算網絡混合模式下的負載調度策略進行了研究,并通過搭建仿真平臺,驗證了所提方案的可行性和優勢性。文獻[9]則考慮將低軌衛星和高空平臺均視為邊緣計算實體,提出了可靠的子問題轉化方法,實現對星地融合網絡場景下用戶、多輸入多輸出天線預編碼、計算任務和資源的聯合劃分。

對于融合高、中、低軌衛星的多層異構衛星網絡場景,目前在理論分析和應用方面的相關研究相對較少。文獻[10]在考慮衛星遠程物聯網的實際信道條件和太陽能攝取轉換的前提下,依靠強化學習方法,解決了高、低軌衛星協同的聯合資源劃分和感知數據規劃問題。文獻[11]對多層衛星網絡的容量水平進行了計算分析,并通過將多層異構衛星網絡的特征納入方法考量,實現了對算力和存儲資源的合理規劃。

與以上現有研究存在明顯不同,本文關注于多層異構衛星系統內部的協同聯動場景。低軌和中軌衛星與地面具有非同步性,且低軌衛星具備高速移動的特點,使多層衛星網絡具備整網高動態和局部弱動態的特點[12],雖然中、低軌衛星的運動相對地面具有周期性,但由局部多層衛星節點組成的區域衛星網絡具備直接互聯時間短、周期時間長的特征,基于以上特征,如何進行快速有效的決策,充分發揮邊緣區域各層衛星節點及網絡協同聯動的潛力,成為一項極具挑戰的研究任務。在本文的場景中,低軌衛星網絡層節點主要負責對地觀測任務,其所獲得數據需要依靠衛星網絡安全地傳回給地面控制中心;中軌衛星節點由于具備較強的算力和存儲能力,承擔邊緣計算任務;高軌衛星節點主要負責計算和數據轉發。本文通過提出一種基于深度強化學習的邊緣安全決策方法,實現觀測數據的快速安全回傳目標。

1 系統模型與待優化問題

本節首先對所關注的多層網絡邊緣決策模型進行介紹,然后對模型場景中存在的待優化數學問題進行描述總結。

1.1 系統模型

本文所考慮的多層衛星網絡如圖1 所示,主要由低地球軌道(LEO,low earth orbit)衛星(又稱低軌衛星)、中地球軌道(MEO,medium earth orbit)衛星(又稱中軌衛星)以及地球靜止軌道(GEO,geostationary earth orbit)衛星(又稱高軌衛星)組成,其中實線代表層內衛星通信鏈路,虛線則代表層間衛星(地面)通信鏈路。

在圖1 所示的場景中,LEO 衛星節點負責觀測偵察業務(如氣象觀測、地理偵測、情報偵察等),考慮到傳統衛星網絡空間電磁環境開放式的特點,本文設定觀測衛星所獲數據需要以加密的方式回傳給地面站(地面控制中心)。需要說明的是,受限于國土資源在世界范圍內的實際位置,與衛星網絡進行信息交互的地面站一般數量有限、部署位置較為集中,且觀測衛星所獲數據一般無法直接傳送給地面站,在此情況下,發揮多層衛星網絡的協同處理能力,有助于觀測數據更加安全高效地實現回傳。此外,考慮到衛星星座的多樣性和衛星網絡技術高速發展的特點,本文所設定的由高、中、低軌衛星組成的多層衛星網絡模型可以較直觀地拓展至其他多層(可以為兩層、三層或更多層)衛星網絡場景,例如多層均為低軌衛星網絡的場景或高低軌道、中低軌道混合多層衛星網絡的場景,本文將在第3 節中提出能夠對這些場景具備較優適應性的智能決策算法,相比于單獨依靠低軌衛星網絡星間鏈路完成觀測數據的回傳,多層異構衛星網絡在邊緣運算能力和回傳路徑方面具備更突出的靈活性,因而能夠為數據計算和回傳業務提供更豐富的選擇??紤]到不同層衛星的運行高度、覆蓋范圍、相互可見性[13]以及運算存儲能力,即低軌衛星靈活機動性最好,但其地面覆蓋范圍和運算處理能力最弱;中軌衛星具備較大的地面覆蓋范圍和一定的機動性,運算處理能力較強;地球同步軌道衛星則具備最大的覆蓋范圍(一般3 顆空間合理部署的GEO衛星可以服務整個地球)和最強的運算處理能力,本文將覆蓋低軌觀測衛星的中軌衛星視為邊緣場景中的霧節點,并由其中一顆MEO 衛星擔任霧運算處理中心,負責規劃觀測數據的壓縮處理和安全加密所在衛星節點以及數據回傳的網絡選擇。具體來說,低軌衛星所觀測數據的運算處理和回傳路徑分別有三項選擇,對于數據運算處理來說,可以選擇直接由低軌衛星加密后回傳給地面站進行,也可以傳送給中軌或者高軌衛星進行壓縮加密處理;對于回傳路徑的選擇,可以選擇僅由低軌衛星網絡進行傳送,也可以由中軌衛星或者高軌衛星在內的多層網絡完成數據傳輸。

1.2 待優化問題

圖2 更細化清晰地展示了本文所關注的多層衛星網絡邊緣決策模型,在該場景中,低軌衛星主要負責對地觀測任務,而低軌、中軌和高軌衛星網絡均能夠與地面站進行通信連接,鑒于中軌衛星具備居中的空間位置以及較強的運算通信能力,本文設定邊緣場景中的中軌衛星節點為邊緣(霧)節點,且其中一個節點為邊緣中心??紤]到不同衛星的軌道高度和覆蓋范圍情況,本文設定邊緣場景中存在一顆高軌衛星、Z顆中軌衛星以及N顆低軌衛星,其中低軌衛星為對地觀測衛星。為了確保觀測數據邊緣處理和回傳過程的安全保密性,防止攻擊者對數據進行竊取,本文設定觀測數據在星間的傳輸過程均為加密狀態,需要說明的是,不同的衛星節點由于存在不同的密碼算法庫而具備不同的安全加密能力,且通過一定的合理配置可進一步提升對觀測數據的安全保障,本文當前假設邊緣場景中的衛星節點已經預先完成了密碼算法選擇和密鑰協商,有關于融合二者的進一步綜合決策將作為未來的研究內容。由于低軌衛星的運算處理能力較弱,本文假定低軌衛星僅具備數據加解密的能力,而不具備數據壓縮處理的能力,而場景中的中軌和高軌衛星節點則同時具備此2 種能力。

圖2 多層衛星網絡邊緣決策模型

設定場景中低軌衛星所獲取的數據量為αn,n=1,2,…,N,各低軌衛星的數據加密速度為,n=1,2,…,N,高軌衛星與中軌衛星的數據加密速度分別為γG和γzM,z=1,2,…,Z,解密速度分別為φG和,z=1,2,…,Z,二者的數據壓縮處理速度分別為λG及,z=1,2,…,Z,且壓縮比均為κ,0<κ< 1。此外,低軌衛星節點與高軌衛星節點間的信噪比(SNR,signal-to-noise ratio)為,n=1,2,…,N,與中軌衛星節點間的信噪比為,n=1,2,…,N,z=1,2,…,Z,并設定所有信道連接的傳輸帶寬均為BMHz,設定低軌、中軌和高軌衛星網絡內的傳播時延分別為βL,βM,βG,數據傳輸速度分別為?L、?M、?G,低軌衛星至中軌衛星和高軌衛星的跨層傳播時延分別為,n=1,2,… ,N,z=1,2,… ,Z。以上信息均可以通過預先計算、檢測感知或是通信交互并最終由邊緣中心節點獲得。需要說明的是,受限于衛星的體積大小、發射入軌時間、載荷能力、所處狀態等相關因素,不同軌道的不同衛星在對數據加解密的處理能力和支持的加解密算法方面可能存在不同,本文在系統模型和問題總結中確保相關數據在多層衛星網絡的傳輸過程中始終保持密態,且將場景中各層衛星節點的加解密性能考慮在內,注意到,該設定兼容了中軌、高軌衛星使用安全強度更高的加密算法的情況,因此可以認定系統的安全性得到了保障。

本文設定加密后數據與加密前數據等長,且中軌和高軌衛星僅能夠對明文數據進行壓縮處理,對于低軌觀測衛星的資源決策來說,不難總結并推算出存在以下幾種情況。

1) 若低軌衛星節點n選擇通過低軌衛星網絡回傳加密數據,則總時延為

式(1)中三項內容分別對應低軌衛星的明文數據加密時延、密文數據經由低軌衛星網絡的傳輸時延和傳播時延。

2) 若低軌衛星節點n選擇中軌衛星節點z進行轉發,并依靠中軌衛星網絡將數據回傳,則總時延為

式(2)中五項分別對應低軌衛星明文數據加密時延、低軌衛星至中軌衛星的傳播時延、密文數據由低軌衛星至中軌衛星的發送時延、密文數據在中軌衛星網絡的傳輸時延和傳播時延。

3) 若低軌衛星節點n選擇中軌衛星節點z進行數據處理,并依靠中軌衛星網絡將數據回傳,則總時延為

式(3)中八項分別對應低軌衛星明文數據加密時延、低軌衛星至中軌衛星的傳播時延、密文數據由低軌衛星至中軌衛星的發送時延、密文數據解密時延、明文數據壓縮時延、明文壓縮數據加密時延、密文壓縮數據經由中軌衛星網絡的傳輸時延和傳播時延。

4) 若低軌衛星節點n選擇通過高軌衛星節點進行數據回傳,則總時延為

式(4)中五項分別對應低軌衛星明文數據加密時延、低軌衛星至高軌衛星的傳播時延、密文數據由低軌衛星至高軌衛星的發送時延、密文數據在高軌衛星網絡的傳輸時延和傳播時延。

5) 若低軌衛星節點n選擇通過高軌衛星節點進行數據解加密并回傳,則總時延為

式(5)中八項分別對應低軌衛星明文數據加密時延、低軌衛星至高軌衛星的傳播時延、密文數據由低軌衛星至高軌衛星的發送時延、密文數據在高軌衛星的解密時延、明文數據在高軌衛星的壓縮時延、明文壓縮數據在高軌衛星的加密時延、密文壓縮數據經由高軌衛星網絡的傳輸時延和傳播時延。

2 準備工作

本節對本文所使用的強化學習的相關知識進行介紹,首先簡介了強化學習的基本概念,并在此基礎上描述了深度強化學習的知識內涵。

2.1 強化學習

在強化學習中,智能體通過與環境交互獲得不同狀態下所能采取動作的獎勵值情況。詳細來說,當所處時間點為t、環境狀態為st時,智能體采取了動作at,然后智能體獲得了一個數值獎勵rt,且環境狀態轉化為st+1。隨著循環進行,智能體與環境持續交互得到了經驗序列{(st,at,rt,st+1),…} 。進而,基于該經驗序列,智能體能夠對其策略πt(s,a)進行更新,該策略定義為狀態為st=s時采取動作at=a的概率。在強化學習中,智能體的目標是最大化其未來能夠接收的折扣獎勵和,即,其中?∈[ 0,1]為折扣率。

在眾多的強化學習算法中,Q-learning 是較常用的一個,在該算法中,智能體與環境進行交互以便更新Q值,即在策略π前提和狀態s條件下采取動作a所具備的效用值[14]

定義最優的動作值函數為Q*(s,a)=maxπQπ(s,a),依據貝爾曼最優性方程,Q*(s,a)可以表示為

其中,s′是采取動作a后的新狀態。Q-learning 的本質思路是最優的動作值函數Q*(s,a)可以通過與環境交互所獲得的經驗序列進行持續更新。令q(st,at)為迭代過程中所估計的Q值,則Q-learning更新過程可表示為

其中,ξ∈[ 0,1]為學習速率。為了學習到最優的Q值,智能體需要在探索與利用之間取得平衡,因為若完全按照當前未更新到位的策略進行動作的選擇(即利用過程),其獎勵情況極有可能無法達到最大,一個廣為應用的平衡方法為使用ε貪心算法,該算法可以用以下概率描述所采取的動作

2.2 深度強化學習

在本文所關注的模型中,狀態和動作的數量均隨著衛星節點的數量呈指數增加,毫無疑問,在這種情況下,強化學習的狀態-動作空間將會變得異常龐大,傳統的強化學習方法由于狀態很少被遍歷學習或者所需構建的記錄表過大而導致效率低下,鑒于此,本文考慮應用基于神經網絡的深度強化學習技術作為動作值的近似器學習最優策略。需要說明的是,深度強化學習方法沿襲了傳統強化學習方法的工作模式,但卻依靠深度神經網絡來代替傳統方法的記錄表,由于深度神經網絡最大的優勢在于能夠通過簡單的線性與非線性映射,實現對任意復雜參數關聯關系的擬合,因此使用深度神經網絡也能夠較好地擬合不同狀態與不同動作之間的關聯關系,對于復雜或者龐大的狀態空間或者動作空間,深度強化學習可以通過簡單地增加神經元數量或者網絡深度(層數)去應對,避免了傳統方法記錄表的復雜度出現超線性或者指數增加的困境。

具體來說,神經網絡的輸入為狀態s,而輸出則為動作空間中每個動作的Q值,給定狀態s和動作a,輸出q(s,a|θ)僅由深度神經網絡的權重(即θ)所決定,該權重通過學習過程的反向傳播進行更新。特別地,本文將3 種關鍵技術應用到所提的深度強化學習方法中:一是經驗回放,智能體所獲得的經驗序列被存放于經驗池中,進而從中隨機取出小批量經驗用于神經網絡的學習過程,該方法打破了訓練序列間的關聯性,提升了訓練的收斂速度;二是固定目標網絡[15],該方法固定了用于訓練的主網,同時設定了一個目標網絡用于目標訓練值的更新,2 個網絡的結構完全一致,且目標網絡的權重依據主網的參數進行周期性的更新,這種方式也加快了收斂的速度;三是動作選擇與平均的解耦[16],目標網絡生成Q值以便用于訓練過程中計算損失情況,而主網的Q值則用于指導在下一狀態下所應當采取的最優動作,通過將動作選擇與評價過程相解耦,Q值過擬合的危險被大為緩解。

3 基于強化學習的智能決策方法

本節對本文所提出的基于強化學習的多層衛星網絡邊緣安全決策(DQN-ESD,edge security decision based on deep Q network)方法進行詳細介紹,需要說明的是,深度強化學習方法運行的主要支撐元素是狀態、動作和獎勵,而神經網絡是深度強化學習方法的主要組成構件,以下分別對這些相關內容進行介紹。

3.1 方法參數設定

1) 狀態設置

在本文所關注的待優化問題中,優化的目標為最小化平均回傳時延,雖然影響時延的因素有很多,包含鏈路信噪比、不同節點加解密和壓縮處理的計算速度、分層網絡的傳播時延和傳輸速度等,但對于深度強化學習網絡來說,最直觀、效率最高的用于方法判定Q值的參考因素是計算得到的各鏈路所對應的時延值,若所提方法狀態空間由影響時延的因素組成,雖然主網絡能夠通過學習的過程掌握各因素與優化目標的對應關系,但該學習過程無疑會影響方法的收斂速度,進而影響方法的效能。鑒于此,本文設定狀態空間,?n,z。其中的定義如式6(b)~式6(f)所示,分別對應低軌衛星n在邊緣場景中所面臨的衛星節點和網絡環境條件下的時延情況。

應當補充說明的是,若依靠當前設定的時延作為狀態,則狀態空間的大小為N(2Z+3);若完全以前述各影響時延的參數為狀態,則狀態空間大小為2(2N+NZ+3Z+4)。一方面,后者相比于前者來說,狀態數量增加了N+6Z+8,這無疑會明顯影響訓練的收斂速度;另一方面,更重要的是,若使用后者作為狀態,強化學習所使用的深度神經網絡則需要額外通過訓練過程學習掌握各相關參數與時延或獎勵之間復雜的非線性關系,進而達到較好的決策性能,而這會耗費很長的時間,嚴重拖慢算法的收斂速度。

2) 動作設置

所提方法的最終目的為由邊緣(霧)中心節點通過合理的鏈路規劃,達到低軌衛星節點回傳數據的時延最小化,換言之,對于本文所提方法來說,即依靠狀態情況,合理地對低軌衛星節點的回傳鏈路進行選擇,用數學語言描述動作空間,即

3) 獎勵函數設置

與狀態空間和動作空間設置過程所遵循的原則一樣,獎勵函數的設定尋求能夠直接反映某狀態情況下所提方法進行動作選擇并執行后的效果,考慮到鏈路選擇后的直觀效果即低軌衛星節點數據回傳的時延情況,本文基于回傳平均時延對獎勵函數進行設置,參照待優化問題的求解目標,具體為,不難看出,當平均回傳時延較大時,獎勵值較小,此種設定有利于引導強化學習方法在不同狀態條件下選擇具備低時延的動作,進而提升所提方法的性能。

4) 神經網絡及其他設置

鑒于殘差網絡(ResNet)能夠很好地避免傳統網絡結構容易出現的退化問題,本文所提方法中主網絡和目標網絡采用八層結構的ResNet 對Q值進行估計,同時采用Adam 優化器和ReLU 激活函數[17],網絡的輸入和輸出則分別與狀態空間和動作空間的維度相對應。

3.2 智能邊緣決策方法

本文通過使用深度神經網絡(即殘差網絡)對Q值(也稱深度Q 網絡,即DQN)進行估計,從數學上來講,該估計過程可以描述為Q*(s,a)≈Q(s,a|θ),其中的權重θ可以通過式(11)的過程進行更新。

其中,θ與θ′分別為主網絡和目標網絡的權重。

最終,算法1 描述了本文所提出的基于深度Q 網絡的邊緣安全決策(DQN-ESD,edge security decision based on deep Q network)方法,該方法通過設置歷史回放庫Γ來隨機進行小批量的網絡訓練,以避免網絡陷入過擬合的狀態,對于每個更新后的貪心門限值ε,所提方法僅在學習閾值達到后開展網絡的訓練過程,這樣能夠向回放庫存放足量的歷史經驗數據,同時也避免了頻繁學習操作,此外,所提方法還設定了合理的目標網絡更新頻率φ,防止主網絡學習過程中的過擬合,增加了訓練過程的收斂速度。

算法1DQN-ESD 方法

3.3 方法泛化能力說明

需要補充說明的是,本文所提方法具備針對衛星數量變化的前向兼容性,詳細來說,本文所提方法所訓練的模型能夠適用于比當前模型所對應衛星數量更少的場景,舉例來說,若所訓練模型對應的多層衛星配置(高軌衛星數-中軌衛星數-低軌衛星數)為1-3-8,則該模型能夠兼容(適用)1-2-8、1-3-7 等多層衛星場景,因為對于衛星數量較少的場景,本文所提方法可以通過自動地把相應位置參數進行填補來保持正常運行,若低軌衛星數量減少,則可以通過把待傳數據量(或者時延參數)設置成0 進行填補;若中軌或者高軌衛星數量減少,則可以通過把對應的時延參數調至較大,以確保本文所提方法的運行。由于所做改動僅涉及狀態輸入的簡單調整,因此本文所提方法具備較好的前向兼容性,但本文所提方法不適用于衛星數量更多的場景,鑒于此,可以通過預先訓練得到衛星數量較多的場景下的算法模型,以確保本文所提方法的泛化能力。此外,由于本文所提方法在應用時主要涉及狀態和動作等相關參數的設定,因此其也能夠兼容具備多層特征的衛星星座場景,而不需要嚴格要求高軌-中軌-低軌的衛星網絡層次關系。

4 性能仿真與分析

4.1 仿真設置

為了驗證本文所提DQN-ESD 方法的性能,本節采用Keras 作為深度強化學習的仿真平臺。在仿真實驗中,本節以多層衛星網絡中的某一區域作為仿真對象,設定該區域低軌衛星數量為8 顆,中軌衛星數量為3 顆(其中一顆為邊緣決策中心,不參與數據處理和轉發業務),高軌衛星數量為1 顆。需要說明的是,本文設定當前中、低軌衛星的數量只是為了驗證和展現本文所提方法的性能,目前有較多區域內低軌衛星節點相對密集的系統,如Starlink 系統、Kuiper 系統等,由于本文所提方法具備前向兼容性,因此其并不僅限于該數量配置。此外,不失一般性地,仿真假定低軌衛星的星座為常見的Walker 星座,考慮到Walker 星座對于不同的緯度具備不同數量的可見衛星,這也與本文所關注的多層衛星網絡邊緣場景的特征以及本文所提方法的兼容性相吻合。鑒于本文所提方法的元素設定過程并未對衛星星座提出嚴格要求,因此其對于非Walker 星座也具有一定的適用性。在這種參數設定下,不難算出,邊緣決策中心所面臨的動作空間高達78=5 764 801個,若使用普通的遍歷方法或強化學習方法,則計算量過大,且過于耗時。此外,設定深度強化學習過程的折扣因子為0.9,ε貪心算法的探索因子ε∈[0.005,0.900],且其衰減率為0.995,學習速率ξ為0.01,經驗回放庫的大小Γ=500,且經驗回放庫小批次容量大小為32,目標網絡的更新頻率φ=500。需要額外說明的是,多層衛星網絡是相對來說較復雜的網絡系統,相關參數的取值受衛星節點的空間位置、綜合能力、節點間相互關系影響較大,例如對于低軌衛星網絡來說,當低軌衛星恰好在地面站上空時,其傳播時延為理論上最小,而當其處于地面站所在位置的對立位置時,其傳播時延很大,因此本文設定低軌衛星網絡的傳播時延從一定的范圍中取值,且設定所考慮的場景具備快照的性質,即相關參數和節點與網絡的邏輯關系在所認定的時長內保持恒定不變,且在仿真過程中,低軌衛星待傳數據量、衛星的數據處理能力、鏈路信噪比等參數均在一定范圍內隨機取值,具體的仿真參數設置如表1 所示,本節通過對大量的快照進行實驗得到仿真結果。

表1 仿真參數設置

為了充分體現本文所提方法的優勢性,本節共采用4 種方法進行性能對比,介紹如下。

1) 最優邊緣安全決策(O-ESD,optimal edge security decision)。通過在考慮的場景中遍歷決策結果來找到最優解,該方法能夠表征本文所提方法的性能,但由于復雜度很高(例如在仿真中,該方法針對每一快照需要通過遍歷78個組合來得到最優解),在實際應用中幾乎不具備可行性。

2) 隨機邊緣安全決策(R-ESD,random edge security decision)。通過令每一低軌觀測衛星隨機選擇數據處理衛星節點和回傳網絡,得到回傳時延性能。

3) 以信噪比參數為導向的邊緣安全決策(S-ESD,SNR-edge security decision)。設定每一低軌衛星在中、高軌衛星節點中選擇與其之間鏈路信噪比最高的節點進行數據處理和回傳,得到回傳時延性能。

4) 本文所提方法在“*”網絡中的執行情況(DQN-ESD*)?!?”可以為“L”“M”“G”以及三者的混合,三者分別對應于低、中、高軌衛星網絡,在仿真中,考慮到可選節點的多樣性,設定該類方法主要包含DQN-ESDM、DQN-ESDLM、

DQN-ESDLG以及DQN-ESDMG,此外,本文所提方法DQN-ESD 等同于DQN-ESDLMG。

4.2 性能與分析

本節首先對本文所提方法的收斂性能進行仿真驗證,對于一個隨機快照,設定低軌衛星網絡傳播時延βL為400 ms,本文所提方法的收斂過程如圖3 所示,其中,DQN-ESDM表示本文所提方法在僅有中軌衛星節點可供選擇的情況,此種情況類似于地面通信網絡的邊緣計算場景。考慮到不同快照的狀態以及所采用方法的性能差異可能很大,本節在仿真結果的呈現中使用歸一化時延來進行性能表征。

圖3 本文所提方法的訓練收斂過程

從圖3 中可以清晰地看出,2 種方法的歸一化時延均隨訓練輪數的增加而逐步收斂,本文所提方法在500 輪的訓練時即可基本收斂,此外,考慮到單獨依靠低軌衛星網絡和高軌衛星網絡進行數據回傳幾乎不存在迭代收斂過程,二者在此情況下的歸一化時延分別為0.825 和0.916,可以看出本文所提方法的性能明顯優于3 種單一的網絡,這是因為后者可供選擇的衛星節點更少,這也進一步印證了多層衛星網絡相比于單層衛星網絡在數據處理和回傳方面具有優勢。

此外,考慮到本文所提方法具備前向兼容性,訓練衛星數量更多的模型有助于提升方法的泛化能力,為了進一步體現衛星數量不同情況下方法的性能,本節對衛星數量不同情況下各方法針對隨機快照的收斂性能進行仿真,結果如圖4 所示。圖4中展示了3 種衛星數量情況,分別為情況A(高軌、中軌和低軌衛星數量分別為1、2、12)、情況B(高軌、中軌和低軌衛星數量分別為1、2、10)和情況C(高軌、中軌和低軌衛星數量分別為1、2、8)。需要說明的是,由于衛星數量的變化直接影響了快照(狀態)的參數,因此各時延值不具備互相對比的可行性,但從圖4 中可以直觀地看出,1) 本文所提方法針對不同衛星數量的情況均表現出了收斂趨勢,這表明本文所提方法能夠很好地適用于更加復雜的多層衛星網絡場景;2) 隨著衛星數量的增加,本文所提方法達到收斂所需要的訓練次數明顯增加,情況A、情況B 和情況C 初步收斂的輪數分別為500 輪、2 800 輪和6 000 輪,這是合理的,衛星數量的增加大幅提升了方法動作空間的大?。粗甘緟到M合的數量或者解空間的大小),情況B和情況A 的解空間分別高達 710和 712,如此龐大的解空間對于遍歷等方法來說幾乎是不可行的,這進一步體現了本文所提方法的優勢。

圖4 不同衛星數量情況下本文所提方法的收斂過程

其次,本節隨機選取了4 個不同的快照(其中均設定Lβ=400 ms)對本文所提方法在不同網絡構型條件下的性能進行了對比,仿真結果如圖5 所示。從圖5 中可以看出:1) 本文所提方法在所有4 種不同構型條件下均具有良好的收斂性能,基本上能夠在500 輪時完成收斂;2) 雖然在不同快照下本文所提方法具備不同的性能表現,但本文所提方法在高、中、低軌多層網絡下的時延性能最優,這再一次印證了多層衛星節點為低軌衛星數據的處理和回傳提供了更豐富的選擇;3) 在部分快照(圖5(b)和圖5(c))中,LGDQN-ESD 的起始性能非常優異,但隨著訓練的進行,其收斂后的性能卻相對較差,這是因為LGDQN-ESD 所對應的網絡構型為低軌衛星網絡協同高軌衛星網絡,任一低軌衛星的鏈路選擇僅有2 個,即低軌衛星網絡或者單一高軌衛星節點所在的高軌衛星網絡,這限制了本文所提方法的性能。

圖5 不同快照條件下4 種方法在不同網絡構型條件下的性能對比

接著,本文對不同低軌衛星網絡傳播時延情況下各方法的歸一化時延性能進行了驗證,結果如表2所示。從表2 可以看出,當低軌衛星傳播時延非常小時,本文所提方法相較DQN-ESDMG收斂時延相差最大,這是由于在這種情況下,各低軌衛星會優先選擇直接回傳地面,而隨著低軌傳播時延的逐漸增大,低軌衛星直接回傳所需時延增大,此時,本文所提方法能夠自適應地選擇中軌或高軌衛星進行數據回傳,而這使該方法整體的時延性能依然保持最優。DQN-ESDMG由于不選擇低軌衛星網絡進行數據回傳,因而其時延性能不受低軌衛星網絡傳播時延的影響。

表2 不同低軌衛星網絡傳播時延下各方法的歸一化時延性能

與DQN-ESDLM相比,本文所提方法始終更理想,隨著低軌傳播時延的增加,本文所提方法的時延與DQN-ESDLM的時延的差值也逐步增大,這是因為本文所提方法存在高軌衛星網絡選項,當經由高軌衛星處理或轉發的時延更短時,本文所提方法能夠智能地選擇高軌衛星網絡。同時可以觀察到,當低軌衛星網絡傳播時延大到一定程度時,本文所提方法時延與DQN-ESDMG時延趨于相同,這是因為隨著低軌傳播時延的增大,各低軌衛星不再選擇通過低軌衛星網絡直接回傳,而是都經由中軌或高軌衛星進行數據回傳。

最后,本節采用測試集對本文所提方法與對比方法的性能進行仿真驗證,圖6 展示了各方法在20 個隨機多層衛星網絡邊緣快照狀態下的性能結果。由于隨機進行節點和網絡的選擇,所做決策不具備收斂特點,隨機邊緣安全決策R-ESD 方法的性能在所有4 種方法中表現最差,相比較而言,由信噪比參數為導向的邊緣安全決策S-ESD 方法則表現出了明顯更優的性能,因為鏈路的信噪比特性一般能夠在很大程度上影響回傳鏈路的時延性能。與此同時,從圖6 中可以看出,本文所提方法在時延性能上與最優O-ESD 方法幾乎完全一致,這表明本文所提方法通過一定的模型訓練,已經具備了較優的自主決策能力。

圖6 4 種方法在測試集快照上的時延性能對比

需要補充說明的是,本節主要以觀測數據回傳的時延性能對本文所提方法和對比方法進行了仿真和呈現,而有關數據的安全方面則未有結果進行直接展現,這是因為多層衛星網絡場景中各節點的密碼算法選定和加解密處理性能已在系統模型與仿真參數中進行了設定,這意味著觀測數據在邊緣場景和整個網絡中均以密文形式進行傳輸。本文所提方法的主要能力體現在確保觀測數據以安全密態形式回傳的前提下,通過對場景中節點狀態的合理把握,智能地提供具備低時延特點的邊緣決策動作。有關進一步地展現本文所構建模型或所提方法在回傳數據安全強度方面的量化性能,由于需要更加全面地考慮場景中各節點密碼算法庫維度的信息,筆者將此工作留待下一步進行針對性解決。

5 結束語

本文關注于高、中、低軌多層衛星網絡中的邊緣安全決策場景,針對場景中為低軌衛星進行多層衛星節點的鏈路選擇問題,提出一種基于深度強化學習的數據壓縮與加密回傳決策方法。通過結合場景合理地設計方法的狀態、動作、獎勵以及訓練網絡等相關參數,所提方法能夠以低傳輸時延為目標進行智能的邊緣決策,大量的仿真表明,所提方法相比于多個對比方法具備明顯較優的性能。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产网友愉拍精品视频| 无码一区中文字幕| 亚洲最大福利视频网| 亚洲美女操| 国产特一级毛片| 日本国产一区在线观看| 国产精品女人呻吟在线观看| 国产综合在线观看视频| 91免费观看视频| 视频二区中文无码| 中文字幕在线视频免费| 国产另类视频| 婷婷亚洲综合五月天在线| 2018日日摸夜夜添狠狠躁| 丁香五月激情图片| 色婷婷狠狠干| 亚洲精品麻豆| 永久免费无码日韩视频| 男女性色大片免费网站| 日本欧美成人免费| 午夜国产精品视频| 国产精品自在拍首页视频8| 国产国产人在线成免费视频狼人色| 久久成人免费| 先锋资源久久| 久久婷婷五月综合97色| 在线无码九区| 亚洲国产精品一区二区高清无码久久| 女同国产精品一区二区| 亚洲视频四区| 99性视频| 最新国产成人剧情在线播放 | 四虎国产在线观看| 国产无码性爱一区二区三区| 77777亚洲午夜久久多人| 久久五月视频| 久久精品只有这里有| 国产网友愉拍精品| 久久精品欧美一区二区| 国产一区二区三区夜色| 呦视频在线一区二区三区| 国产原创第一页在线观看| 无码精品国产VA在线观看DVD| 国产亚洲男人的天堂在线观看 | 亚洲91精品视频| 幺女国产一级毛片| 在线免费观看AV| 婷婷六月综合网| 五月天综合婷婷| 国产免费羞羞视频| 好吊色国产欧美日韩免费观看| 国产清纯在线一区二区WWW| 最新日韩AV网址在线观看| 国产成人亚洲精品色欲AV| 99视频在线观看免费| 国产女人18毛片水真多1| 国产激情无码一区二区APP| 91麻豆国产视频| 在线观看免费国产| 欧美综合成人| 国产精品成人观看视频国产| 米奇精品一区二区三区| 97精品国产高清久久久久蜜芽| 精品在线免费播放| 亚洲天堂精品视频| 人妻少妇久久久久久97人妻| 中文字幕在线观看日本| 亚洲精品第五页| 日韩AV手机在线观看蜜芽| 日韩高清在线观看不卡一区二区| 国内精品免费| 免费在线不卡视频| 国产精品无码久久久久久| 青青草久久伊人| 有专无码视频| 不卡无码h在线观看| 色婷婷亚洲综合五月| 国产无人区一区二区三区| 亚洲精品午夜无码电影网| 亚洲热线99精品视频| 亚洲精品午夜无码电影网| 精品人妻AV区|