高 媛 方 海 趙 揚 楊 旭
(西安空間無線電技術研究所 西安 710100)
6G空天地一體化網絡愿景將低軌衛星網絡納入其中,以實現全球覆蓋,滿足更可靠、廣泛、靈活和安全連續的服務需求。為適應未來星地網絡發展,新一代衛星載荷將采用星載動態可重構架構,以及軟件化和智能化技術,以實現資源虛擬化和網絡動態調度[1]。而低軌衛星網絡將面臨星上資源及計算能力有限等挑戰。為將有限的計算、存儲和通信等資源充分利用,文獻[2]提出了一種云邊端一體化協同網絡架構,在低軌衛星集群上部署邊緣云;通過人工智能、分布式信息網絡和星載可重構架構等一系列技術,將軟硬件基礎設施資源云化,從而實現任務的分布式管理。
目前,對衛星邊緣云的研究尚處在初步階段。文獻[3]梳理了近年來低軌衛星通信網絡的進展歷程,首先對多接入邊緣計算(Multi-access Edge Computing, MEC)在天地融合網絡中的應用進行了分析,然后提出了低軌衛星MEC網絡的組網方式,最后對該網絡架構所面臨的挑戰與機遇進行了總結。須指出,隨著6G應用場景的擴展,衛星業務呈現出高并發以及種類多樣性等特點,云邊端一體化協同網絡將面臨如何為不同類型的業務提供定制化服務,以及如何實現資源的智能動態協同適配等挑戰。而文獻[4–6]則提出,將軟件定義網絡(Software-Defined Networking, SDN)和網絡功能虛擬化(Network Function Virtualization, NFV)與云邊端架構相結合,可將任務編排為多個虛擬網絡功能(Virtual Network Function, VNF)的有序組合,用邏輯鏈路的方式合成為一條服務功能鏈(Service Function Chain, SFC),引導業務流依序通過,從而具備提升網絡資源利用率的潛力。
然而,鑒于衛星網絡的高動態性及星地環境的復雜性,衛星邊緣云節點無法與地面云控制中心實時聯通;因此,衛星邊緣云須具備自主控制和自主智能決策能力,以自主執行服務部署和服務遷移。因此,如何設計SFC編排與映射方案,以提升資源利用率并優化服務質量,實現在線智能的快速響應,構成衛星邊緣云一個重要的研究內容[7]。
與地面蜂窩網絡不同,衛星邊緣網絡資源受限且節點快速移動,與地面中心云間的通信成本高、時延大。因此,在自主管理模式下,衛星邊緣云能夠以就近可通原則形成衛星集群,簇頭衛星節點充當臨時管理者,收集局部網絡資源信息并將資源池化管理,從而具備了自主控制能力。進一步,針對臨近衛星節點發送的任務請求信息,中心節點可結合當前網絡的拓撲實時信息,對網絡拓撲中的流量路由和虛擬化資源進行靈活調度,從而依照不同服務請求,實現對SFC的動態編排和映射。此外,在大延遲抖動、間歇聯通和周期移動切換等場景中,當發生運行VNF的衛星節點失聯等情況時,衛星邊緣網絡須根據實時網絡狀態進行服務遷移,由中心節點擔任自主遷移的決策者[2]。
目前,針對SFC部署的研究主要集中在地面網絡。文獻[8]針對在高速變化的5G網絡資源狀態下進行SFC部署的復雜度較高等問題,提出利用深度Q網絡的方法進行在線求解,在滿足服務的端到端時延需求等約束下,最小化系統開銷。同樣基于強化學習和地面網絡,文獻[9]首先建立了VNF和虛擬鏈路的可靠映射模型;其次,以負載均衡和VNF可靠性為聯合優化目標,在線學習最優SFC部署策略。此外,面向衛星網絡,文獻[10]考慮了低軌、中軌和高軌衛星共存的網絡場景,針對多域(multi-domain)和衛星自組成(satellite formation)兩種模式,分別提出啟發式的部署算法。文獻[11]將空間信息網絡建模為時間擴展圖(Time-Expanded Graph, TEG),進而將SFC部署表征為線性約束的最大流路由問題,并利用基于圖論的啟發式算法求解。
綜上所述,目前已有的研究低軌衛星網絡SFC部署的工作往往研究單時隙中服務功能(Service Function, SF)向衛星節點的VNF實例的映射問題[10–12]。然而,低軌衛星網絡的運行和資源管理是一個長期過程,可用資源和網絡環境隨機變化;若只考慮單時隙SFC部署,即逐時隙利用貪婪策略做資源分配,則無法保障網絡的長期獎勵(性能)最大化。例如,鑒于低軌衛星網絡的高動態性和空間環境的復雜性,兩個相鄰時隙的SFC部署結果不同,則導致快速變化的SFC路由拓撲,從而導致SFC服務(包括狀態信息和數據流)遷移代價的增大[13]。因此,單時隙SFC部署方案沒有考慮低軌衛星網絡的動態特性,無法獲得最優的長期收益。
因此,考慮低軌衛星網絡的高動態性和空間環境的復雜性,如何提供在線的快速SFC部署方法,并綜合考慮節點和鏈路容量等約束以及服務遷移等代價,成為低軌衛星邊緣網絡中亟待解決的問題。無模型(model free)強化學習可將系統動態建模為一個馬爾可夫決策過程(Markov Decision Process,MDP),盡管相鄰時隙之間的狀態轉移概率是未知的,但通過在線決策和連續采樣,可獲取即時獎勵值來評價當前狀態的價值函數,最終得到長期最優的連續SFC部署策略。從而,本文擬提出一種基于參與者-評價者(Actor-Critic)強化學習的衛星邊緣網絡在線SFC部署方法。首先,針對低軌衛星網絡的高動態性,對容量約束和遷移代價進行定義,并對長期SFC部署問題進行建模。其次,引入MDP,綜合考慮服務遷移和衛星坐標等因素,對系統狀態、動作和獎勵函數進行定義,描述低軌衛星網絡的狀態轉移過程。再次,提出一種基于自然梯度(natural gradient)法的在線強化學習部署方法,以最小化服務請求的平均端到端時延為優化目標;與標準梯度(standard gradient)法中對參數進行迭代更新不同,自然梯度法進行模型層面的更新,從而避免出現模型更新不均勻的現象,保障模型收斂到全局最優解。最后,仿真結果表明,本文方法在滿足節點容量和服務遷移代價等約束條件下,可最小化SFC的平均端到端時延,逼近長期平均策略函數的全局最優值。
利用NFV技術,每個衛星節點服務器可被虛擬化為多個虛擬機(Virtual Machine, VM),并假設每個VM只能提供一個VNF實例。本文研究一個衛星集群內的SFC部署以及SF到VNF實例的映射,資源分配決策由集群內中心節點衛星負責,如圖1所示。考慮一個虛擬化的邊緣低軌衛星網絡,衛星節點集合可表示為N={1,2,..., N},并用n表示節點的索引值。此外,用F={1,2,..., F}表示該集群內所有節點可提供的VNF實例集合。同時,假設SFC部署的時間尺度小于VNF實例化的時間尺度,即本文假設在VNF部署已完成的基礎上,擬完成SF到VNF實例的映射。最后,考慮一個動態低軌衛星網絡系統,用T={0,..., t,..., T ?1}表示時隙化的時間范圍,并用t表示時隙的索引值。

圖1 SFC部署和遷移示意圖
基于SFC技術,低軌衛星網絡中的每個服務請求均被映射為一個業務流,該業務流被SFC中的一系列SF依序訪問。 因此,與服務請求i相關聯的SFC可表示為


對于每一條SFC,其端到端時延可定義為在衛星服務器上的處理時延和衛星之間鏈路時延之和。首先,在每個VNF實例上,根據M/M/1模型[13],對SFCi的每個分組的處理時延可計算為




本文旨在最小化所有服務請求在時間范圍T內的分組平均端到端時延,即

特定地,令T=1,則式(11)簡化為一個單時隙SFC部署問題,該問題已被證明是一個NP難問題[15];因此,式(11)同樣構成一個NP難問題,其未來系統狀態信息是未知的,難以用離線算法或動態規劃等方法求解。然而,經觀察,式(11)是一個具有MDP性質的動態部署問題,可利用無模型的強化學習框架,逐時隙在線學習不同狀態下的最優部署動作,以實現最大化衛星邊緣網絡長期獎勵的目的。在第3節中,本文將采用強化學習中的Actor-Critic網絡框架,在線學習長期最優的SFC部署策略。
Actor-Critic框架被廣泛應用于實際強化學習過程中,該框架集成了Q值函數估計算法和策略搜索算法。Actor網絡根據參數化策略函數生成符合當前狀態的動作,而Critic網絡將狀態-動作對映射到Q值,從而獲得比傳統的Q學習更高的訓練效率。本文Actor-Critic算法框架采用自然梯度對模型進行更新:與標準梯度法中對參數進行迭代更新不同,自然梯度法進行模型層面的更新,從而避免出現模型更新不均勻的現象。
在長期優化問題中,智能體觀測到的狀態部分是隨機的,部分依賴于智能體采取的動作。因此,MDP可用于狀態具有馬爾可夫性質的系統環境中,以模擬智能體可實現的隨機性策略與獎勵。本文將MDP建模為一個4元組(S,A,P,R), 其中,S表示狀態集合,A表示動作集合,P表示狀態轉移概率,而R:S×A表示即時獎勵。此外,本文做了兩個關鍵假設,即:智能體對環境具有完備的感知能力,且當前狀態排除了任何不確定性。

其次,本文設計的即時獎勵函數并不能由一個閉式表達式直接給出,而是須求解如下優化問題


首先,DNN作為一個監督學習模型,要求樣本服從獨立同分布。因此,通過存儲智能體的經驗值,基于存儲采樣的回放技術將構建一個經驗回放池。經驗回放池將以4元組的形式存儲每一條樣本,隨后DNN會隨機抽取一批樣本進行批量訓練,從而打破了樣本之間的時間相關性。
然后,在每次迭代中,由于DNN參數值是即時更新的,DNN的目標值也在同步變化。若將不斷變化的目標值用于參數訓練中,則Q值的估計值很難趨于穩定。因此,須利用雙神經網絡技術,構建一個額外的目標DNN;與原網絡進行實時更新不同,目標網絡的更新頻率較低,其將一直保持參數不變,直到固定的更新時刻才進行參數更新,并將原網絡的模型直接賦予到目標網絡中。雙神經網絡技術可有效避免訓練過程中的參數發散。至此,可將Q函數的估計值和期望值之差的損失函數設計為


式(20)表示利用不同樣本計算得出梯度信息的平均值,然后再用平均值來調整該DNN的參數。具體地,D表示從經驗回放池中抽取得到的樣本個數,d表示樣本序號,而αc表示Critic網絡的學習率(步長)。
Actor網絡使用策略函數來生成動作并和環境交互;而Critic網絡使用DNN去近似Q值函數,以負責評估Actor的表現,并指導Actor下一時隙的動作。因此,在Actor網絡中,若將參數設為θ,則策略函數π可近似為

其中,p(·)表示所有狀態的初始概率分布。
須指出,在傳統的梯度法中,J(πθ) 和πθ均采用歐氏距離去衡量參數值的變化,例如:參數更新值?θ可 用L2范數| |?θ||2來衡量。然而,文獻[16,17]已證明,不同于參數,策略難以用歐氏距離來準確衡量,即:在參數空間中距離相等的任意兩對參數,其對應策略可能相差很大,也可能相差很小。因此,本文將采用自然梯度法,在保持| |?θ||2不變和減少迭代次數的前提下,使得J(πθ+?θ)最大。
首先,利用平均Kullback-Leibler(KL)散度來衡量兩個模型之間的策略距離,即


綜合3.2節和3.3節,可得到基于自然梯度的Actor-Critic強化學習的衛星邊緣網絡SFC部署算法,如算法1所示。
須指出,算法1利用式(27)中的自然策略梯度對Actor參數進行更新,可改善訓練穩定性,增大收斂速率,并保障期望獎勵值收斂到某個駐點[18,19]。

算法1 基于自然梯度的Actor-Critic算法
本實驗在仿真服務器上進行,配置如下:4個NVIDIA GTX 1650 GPU,1個銳龍5 3600 6核處理器和1個128 GB內存,軟件環境為TensorFlow 1.14.0, Python 3.7.1和MATLAB R2021a。
為仿真低軌衛星拓撲,本實驗采用MATLAB R2021a推出的衛星通信工具箱。采用極軌星座(每軌24顆衛星,共30條軌道),軌道高度為343.164 km,偏心率為0,軌道傾角為90°,右旋升交點赤經在0~180°內均勻采樣,間隔為6°,真近點角在0~360°內均勻采樣,間隔為15°[20]。為減小仿真負荷,本文只考慮了相鄰4條低軌衛星軌道,每條軌道上衛星數目為2~8。此外,令每個服務請求的分組到達率為200 packets/s,每個衛星節點的處理容量服從500~1000 packets/s的均勻分布,每個服務請求的數據率需求設置為1 mbps,且相鄰兩條軌道上任意兩個衛星節點的鏈路容量服從10~20 mbps的均勻分布。最后,將任一SF的遷移代價統一設置為1,且將每時隙內的遷移門限值設為20。
在搭建Actor網絡時,將隱藏層和輸出層的激活函數分別設置為ReLU和Softmax函數。此外,設置兩個隱藏層,每層50個神經元,折扣率設為0.9,經驗回放池大小設為32;同時,采用ε貪婪策略,貪婪系數為0.9;最后,將最大回合數設為100,且每回合內迭代次數設為200。
為驗證算法1的性能,本文對比分析了文獻[14]中的在線SFC映射算法,即基于正則化的分數階算法(Online Regularization-based Fractional Algorithm, ORFA),以及文獻[8]中的基于深度Q網絡的服務功能鏈部署(Deep Q Network-based Service Chain Deployment, DeepSCD)方法。須指出,ORFA和DeepSCD算法均是在滿足時延約束的前提下,最小化計算和通信資源開銷。同時,為比較自然梯度和標準梯度,將這兩種梯度方法分別記為Natural Actor-Critic(NAC)和Standard Actor-Critic(SAC)。
圖2顯示了本文方法(NAC)在不同學習率和樣本批量設置下的每學習回合內的時間平均獎勵,并設服務請求個數為6,衛星節點數為4 ×3,每條SFC中SF個數為4。圖2(a)中,學習率分別設置為0.001,0.0005,0.0001,0.00005和0.00001。從圖2(a)可看出,首先,學習率設置在算法訓練階段會直接影響獎勵值的大小。其次,學習率過大會導致梯度迭代時的步長過大,錯過全局最優解,從而陷入局部最優解或鞍點;而較小的學習率導致步長過小,逼近最優解的收斂速率較慢。其中,0.0001學習率表現出較好性能,不僅能獲得最大平均獎勵值,而且收斂速率較快;而0.001學習率性能最差,盡管在第10輪學習回合左右開始收斂,但陷入了一個局部最優解。圖2(b)描述了樣本批量大小對本文方法收斂性能的影響,批量大小分別設為4,8和16。如圖2(b)所示,樣本批量大小將影響訓練階段獎勵函數的收斂速率。樣本批量過小可能導致較大方差,使得收斂速率較慢甚至不收斂。反之,樣本批量較大時,梯度估計值更加穩定和準確,但需要較長計算時間,且可能導致神經網絡陷入局部最優解。特定地,在樣本批量大小為8時,平均獎勵在第10輪回合時開始收斂,且獲得最大獎勵值。因此,以下實驗均將學習率大小設為0.0001,批量大小設為8。

圖2 不同學習率和樣本批量大小對平均獎勵函數的影響
圖3表示了不同服務請求個數下,所有SFC的端到端時延和在一個回合內的時間平均值。每條SFC中的SF個數設置為4,衛星節點數為4× 3。如圖3(a)所示,當請求數等于9時,所有算法的可行解比例下降到60%左右,并且在請求數等于8時迅速攀升至90%以上。這是因為:當SFC數量增加時,剩余資源和可用容量將趨于飽和,無法為所有SFC提供可行的映射結果。而圖3(b)表示,隨著SFC條數的增加,NAC方法始終獲得最低的時延,并且在SFC數目較低時,4種算法的性能相近。這是因為:SFC數目較低時網絡資源較為充分,可為所有的SFC提供最短路由路徑。此外,通過計算所有服務請求的總時延值大小,可知相較其它3種算法,NAC方法的時延平均值分別低7.8%, 10.1%和12.3%。

圖3 不同服務請求個數對端到端時延性能的影響
圖4表示在不同SF數目設置下算法的時延性能比較。此時,將SFC個數設為4。如圖4所示,首先,隨著SF的增多,衛星節點的處理時延,以及衛星鏈路之間的傳播時延均會增大,從而導致每條SFC的端到端時延增大。此外,NAC方法總是具有最低的總時延,并且能在一定數值范圍內保持相對穩定;然而,當SF數接近10時,隨著非可行解的增多,NAC方法的總時延也迅速增大。相較其它3種算法,NAC方法的時延平均值分別低7.1%,15.7%和20.1%。

圖4 每條SFC內不同SF個數對端到端時延性能的影響
圖5表示在不同低軌衛星節點數設置下算法的性能比較,將SFC個數設為5,每條SFC中的SF個數設為4,軌道數設為4。如圖5所示,隨著衛星節點數的增大,可用計算資源也逐漸增多,SFC路由路徑更加靈活,從而獲得更低的端到端SFC時延。

圖5 每條極地軌道上衛星節點個數對端到端時延性能的影響
本文研究了基于自然梯度的Actor-Critic強化學習方法在低軌衛星網絡SFC部署問題中的應用。與標準梯度法不同,自然梯度法在非凸神經網絡訓練中可獲得更高收斂速率,且不易陷入局部最優解。同時,本文研究了SFC部署中的服務遷移問題,通過考察連續兩個時隙的分配變量,將服務遷移代價建模為一個凸約束問題。此外,為降低動作空間大小,本文采取了一種基于子優化問題的獎勵函數計算方法。最后,實驗驗證了本文提出方法的有效性,其具有較高收斂速率,且在端到端時延性能上優于已有方法。