999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練深度強化學習的星地網絡SDN部署策略

2023-05-15 07:27:42王敏竹羅永華
現代計算機 2023年5期
關鍵詞:經驗策略

王敏竹,羅永華,寧 芊

(四川大學電子信息學院,成都 610065)

0 引言

天地一體化網絡[1]作為6G 網絡必不可缺的一部分[2],將是未來通信趨勢之一。骨干網絡將接入管理,依靠衛星通信系統[3]對地面通信網絡進行補充[4]。LEO衛星在軌道資源等諸多方面有很大優勢,Starlink、GW 等星座計劃通過大量的LEO 衛星部署,實現全地區全時覆蓋,文獻[5]提出的3層(GEO/MEO/LEO)Walker星座能夠支持天地一體化網絡。LEO 衛星在帶寬上優于GEO 衛星[6],但LEO 衛星意味著穩定通信時間短,節點具有高動態性。

軟件定義網絡(software defined networking,SDN)是一種采用集中控制策略的網絡架構,其數據平面和控制平面分離,實現全局路由策略的動態調整。利用SDN 控制器[7]可以制定路由策略,能更容易地構建全網通信狀態表,應對突發情況能力更強、更具時效性。

天地一體化進程中,衛星通信網絡中拓撲的高動態性、流量的不均勻分布等因素使傳統路由策略無法適應星地鏈路。為解決上述問題,研究人員嘗試將SDN 應用到該領域,文獻[8]對SDN 網絡中衛星網絡的問題進行了建模;文獻[9]將SDN 和ICN 應用于衛星網絡任務部署。但是特定的網絡環境需要特定的策略;文獻[10]中利用整數線性規劃和遺傳算法得到SND 部署方案,最大化整個網絡的負載均衡;文獻[11]通過Q-學習解決SDN 負載均衡的問題;文獻[12]提出了一種通過最小化所有本地控制器的最大負載的方案。這些基于SDN 的負載均衡方案都依賴于SDN 節點部署策略,高動態拓撲結構可被分割成時序的靜態網絡切片[13],從而構成拓撲表,然而每一次拓撲切換都需要特定的SDN 節點部署策略,而傳統的由先驗知識去配置SDN節點的方式已顯得力不從心。

近年來,深度強化學習活躍在路徑規劃、路由決策等領域,通過構建馬爾可夫決策過程(Markov decision processes,MDP)不斷學習,從而得到基于貪心思想的決策。電力網絡和通信網絡在節點之間的拓撲關系和鏈路的流量傳輸特性上有相似之處,文獻[14]和文獻[15]都基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)提出了電壓控制框架和功率控制框架,自適應地解決電壓波動和提高能源效率等問題;文獻[16]提出將遷移學習和強化學習相結合以解決電網動態功率分配問題;文獻[17]提出基于DDPG 的VNF 遷移策略,使得資源利用率提高。相較于傳統深度學習和機器學習,深度強化學習能在做出控制決策的同時快速應對突發情況,也能在SDN 控制平面自適應地得到SDN節點部署策略。

在此基礎上,針對高動態拓撲結構,本文提出了一種基于預訓練的深度確定性策略梯度(Pre-trained deep deterministic policy gradient,P-DDPG)的SDN 部署策略配置框架。該框架把高動態拓撲分割為時序的多個拓撲,參考遷移學習的思想,通過對深度強化學習模型中神經網絡的權重進行預訓練及遷移,提高求解不同網絡拓撲的SDN節點部署策略的效率。

1 場景及模型

1.1 星地網絡結構

相比于地面網絡,衛星組網的加入與補充能夠對地面目標實現全覆蓋。把網絡拓撲中衛星節點高動態性看作每一個時隙相對靜止的拓撲結構,針對不同的網絡結構可以由優化算法給出特定網絡拓撲結構下的SDN節點部署策略。

對于網絡的拓撲結構,可用有向無環圖(directed acyclic graph,DAG)來表示。定義一個鄰接矩陣E∈Rn×n來表示n個節點之間的連通性,鄰接矩陣中的每個元素Ei,j∈E都表示一條鏈路。把骨干網絡中的節點、基站、天基網絡的衛星節點對應到網絡拓撲中的節點Ni,不同節點之間的連通性由源節點Ni和目的節點Nj之間的邊表示。每個節點之間擁有兩條鏈路,分別是Ei,j和Ej,i,Ei,j表示數據流量從Ni流向Nj。

1.2 馬爾科夫決策過程

強化學習中,通常定義用馬爾科夫決策過程(MDP)來對實際問題進行抽象建模,通常把MDP定義為一個四元組{S,A,ρ,f}。

S為所有環境狀態的集合,st∈S表示整個網絡在t時刻所處的狀態,形式為流量分配矩陣st∈Rn×n,其中flowi,j∈st表示從節點i流向節點j的流量大小。

A為網絡可執行的動作集合,at∈A表示在t時刻整個網絡的動作,即SDN 部署策略,把節點定義為鏈路中轉站,通過轉發流量實現節點之間的數據傳輸。若節點Nm和Nn節點在物理鏈路中不連通,但Nk節點同時連通了Nm和Nn節點,且Nk節點被部署為SDN 節點,則Nm節點到Nn節點的數據流量可以由Nk節點轉發完成,流量途經路徑Routem,n=Em,k+Ek,n。

f(st,at)表示網絡在狀態st下執行動作at轉移到下一狀態st+1的概率。

ρ(st,at)表示網絡在狀態st執行動作at獲得的回報值rt~ρ(st,at)。與環境交互,從網絡拓撲得到節點Nm到Nn的鏈路集合,從流量需求矩陣中獲得需要傳輸的流量大小作為約束條件,求解流量分配矩陣st+1∈Rn×n,元素flowm,n∈st+1表示節點Nm到Nn在t+1時刻的流量,用t時刻鏈路中的流量和鏈路最大容量的比值flowm,n/volumem,n來計算當前時刻回報值rt。

2 P-DDPG框架

2.1 P-DDPG與遷移學習

利用DDPG可以有效地解決特定拓撲下SDN節點部署決策的問題,但在本文的星地網絡場景中,拓撲具有時序性、高變動性的特點,因此,提出一種通過預訓練和遷移學習思想改進DDPG 從而提高拓撲改變之后Actor-Critic 網絡訓練效率的P-DDPG方法。

2.1.1 P-DDPG

如圖1 所示,P-DDPG 方法對應不同的拓撲結構時,采用權重遷移和繼承經驗緩沖池的方式來學習預訓練中前序訓練中的知識。P-DDPG算法由預訓練遷移得到權重作為Actor-Critic 網絡的初值,經驗緩沖池也繼承自預訓練,在賦予Actor-Critic 網絡初值之后,對拓撲和流量信息進行學習訓練,由Actor 網絡得到動作即SDN部署策略,與環境交互之后得到新的狀態放到經驗緩沖池中。取用經驗緩沖池中的數據訓練Actor-Critic預估網絡,Actor-Critic目標網絡由預估網絡的權重軟更新得到,訓練學習之后,累計reward值將會收斂。

圖1 P-DDPG SDN節點部署決策框架

2.1.2 權重遷移及經驗緩沖池繼承

不同拓撲對應的策略及環境交互是不同的,但流量矩陣即狀態信息st、SDN 部署策略即動作信息at的部分特征是相似的,因此先對一個Actor-Critic 網絡進行預訓練之后,把預訓練中神經網絡的權重繼承到新的Actor-Critic 網絡中,作為初值在新的拓撲下進行訓練學習,預訓練的知識將會通過遷移的方式對當前拓撲的Actor-Critic網絡訓練產生影響。

訓練初期經驗緩沖池繼承于預訓練中的信息即batcht=(st,at,rt,st+1)。讓當前時間切片拓撲對應的Actor-Critic 獲取預訓練中的學習記憶,更快地學習特征提取、決策判斷。

2.2 Actor-Critic網絡原理

Q-學習算法可以用來解決SDN 節點部署的問題,但本文的狀態空間和動作空間都是連續值集合,而DDPG 能在連續狀態空間給出SDN節點部署決策,經驗放回池從一定程度上提高了DDPG 學習的穩定性。DDPG 中的預估網絡(eval)和目標網絡(target)如圖2所示,分別構建各 自 的Actor-eval、Actor-target 和Critic-eval、Critic-target 網絡。通過訓練eval 網絡去不斷預估當前狀態信息下的動作和Q值,使得整個算法在自監督模式下不斷收集更高的reward 值。而target 網絡作為實際動作產生環節,其網絡模型中的權重參數由eval 網絡中對應的參數軟更新得到。

圖2 深度確定性策略梯度(DDPG)算法

2.2.1 Actor-Critic網絡

Actor 網絡是動作生成網絡,狀態信息輸入Actor 網絡產生動作at,輸入到Critic 網絡中。Critic 網絡的作用是預估Q值,輸入動作at和狀態st得到Q值。優化器優化Critic 網絡使Q值不斷上升,達到用自監督的方式使得回報值上升的目的。

根據1.2小節中馬爾科夫決策過程,Qt+1(st,at,rt)的值可以通過st,at,rt由公式(1)計算得到,帶入計算rt的公式rt~ρ(st,at),Qt+1可由公式(2)計算得到:

其中:θ表示估計Q網絡的權重參數;at是Actor網絡輸出得到的動作;st是狀態信息。

2.2.2 預估網絡(eval)的權重更新

深度強化學習中,Q值則通過Critic-eval 網絡中估計Q值近似得到,定義Q值的均方誤差(MSE)作為損失函數,則Critic-eval 網絡的損失函數可以表示為

Critic網絡的輸入中包含了Actor網絡的輸出at,所以Critic-eval 網絡的梯度反向傳播到輸入層,at部分的梯度繼續訓練Actor-eval網絡。

2.2.3 經驗緩沖池

每一次at與環境交互得到的batcht=(st,at,rt,st+1)放入經驗緩沖池中。每一次Actor-Critic網絡訓練都從經驗緩沖池中取出N條,此時的損失函數由公式(3)變成

根據公式(4)中的損失函數訓練Critic-eval網絡,若經驗緩沖池已滿,則刪除已經取出的當前batcht,保證經驗緩沖池不會因為大量的訓練而冗余。

3 實驗與分析

3.1 收斂性分析

本文實驗模擬了12個節點的星地網絡拓撲,其中衛星節點為3個(動態變化節點),網絡中流量滿足泊松分布,SDN 部署率為33.34%,模擬節點動態變化出現不同時序拓撲,將其中最初的一個時序拓撲作為預訓練得到Actor-Critic 網絡的權重和經驗緩沖池,每條鏈路的最大鏈路容量為80 Mbps。

本文評估提出的P-DDPG 算法的收斂性,采用傳統DDPG 算法與P-DDPG 算法相對比,其中具體參數設置如表1所示。算法通過回報值來衡量每一次step 給出的SDN 部署策略是否使得網絡整體負載更加均衡,通過每個episode 中steps累計的回報值來衡量一次episode 給出更優SDN部署策略的概率。

表1 實驗參數

兩種方法的回報值如圖3所示,為了方便對比兩種方法的累計回報值,本文將累計回報值做了歸一化處理。從圖3 可以看出,reward 曲線反映了隨著訓練次數的增加,單次episode累計的回報值上升。時序一、時序二在起始點P-DDPG的回報值比傳統DDPG高0.1,而收斂之后前者比后者高0.3。這是因為繼承預訓練權重作為后續訓練權重的初值和遷移經驗緩沖池,繼承了狀態信息的特征提取和根據特征做出SDN節點部署策略的知識。

圖3 收斂性比較

3.2 有效性及性能分析

本小節對P-DDPG 方法做出的SDN 節點部署策略進行性能分析和有效性分析。其中,有效性分析SDN 部署策略與環境交互之后,各鏈路中的流量分配情況,比較其訓練起始點與收斂之后的負載均衡效果。

SDN 節點部署完成之后,流量會重新進行分配,使得網絡向著整體負載均衡方向優化,各條鏈路分配的流量越平均,則負載均衡的效果越好。如表2 所示,Topo0 的最大鏈路流量在訓練后比起始點少0.55×105,而Topo2 的最大鏈路流量在訓練后也比起始點少1.02×105,說明P-DDPG 能夠通過學習訓練給出更優的SDN節點部署策略,使得網絡整體負載更加均衡。并且,訓練之后各條鏈路流量的方差也隨之降低,方差越小說明各鏈路的流量更加均衡。因此P-DDPG能夠針對變動之后的拓撲給出相對應的SDN 節點部署策略,并通過學習訓練優化SDN節點部署策略使得網路整體負載更加均衡。

表2 流量分配對比

DDPG 方法與P-DDPG 方法的累計回報如表3 所示,P-DDPG 在起始點累計回報值比傳統DDPG 方法高出509.442,P-DDPG 的最大累計回報比傳統DDPG高出796.947,平均每次step高出0.797,收斂后平均累計回報P-DDPG 也比傳統DDPG 高出644.758,平均每次step 高出0.645。說明P-DDPG 能夠比DDPG 在每一步獲得更多的回報值,能夠給出更優的SDN 節點部署策略來使網絡負載更加均衡。

表3 P-DDPG與DDPG算法累計回報對比

累計回報上升率方面,P-DDPG 比傳統DDPG 高出0.11,這說明繼承權重和遷移經驗緩沖池能夠使得每一次訓練中steps 給出更優SDN部署節點的概率提高了,所以獲得高回報值的概率也隨之提高了,從而使得每一步episode 在累計回報時有更高的上升率。

4 結語

本文提出了一種基于預訓練的深度強化學習框架P-DDPG算法,用于給出星地網絡一體化場景下SDN 節點部署策略,提升網絡整體負載均衡水平。首先利用初始拓撲進行Actor-Critic網絡預訓練,得到其網絡權重及經驗緩沖池;然后獲取變化之后的拓撲結構,繼承預訓練的網絡權重作為新的Actor-Critic 網絡權重的初值,并遷移預訓練中的經驗緩沖池,來有效應對衛星節點高速移動導致的星地網絡拓撲結構的高動態性問題,對網絡整體的負載均衡進行優化,而不用從頭開始訓練。實驗結果表明,P-DDPG 能夠給出并優化星地網絡場景下SDN節點部署策略,相較于傳統DDPG 而言,P-DDPG在拓撲時序變化之后學習訓練中累計回報的獲取速度更快。綜上所述,P-DDPG 框架能夠更加高效地解決星地網絡場景下隨拓撲時序變動快速部署SDN節點使得網絡整體負載均衡的問題。

猜你喜歡
經驗策略
2021年第20期“最值得推廣的經驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
經驗
2018年第20期“最值得推廣的經驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
小經驗試試看
中國蜂業(2018年6期)2018-08-01 08:51:14
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
當你遇見了“零經驗”的他
都市麗人(2015年4期)2015-03-20 13:33:22
主站蜘蛛池模板: 国产激爽大片在线播放| 亚洲三级a| 欧美一级大片在线观看| 福利在线不卡一区| 亚洲天堂网站在线| 亚洲第一成人在线| 国产美女人喷水在线观看| 精品福利视频网| 亚洲天堂视频网站| 91精品国产一区| 国产区精品高清在线观看| 亚洲男人在线天堂| 日韩久久精品无码aV| 91丝袜在线观看| 欧美黄网在线| 中文字幕va| 91福利国产成人精品导航| 91精品视频播放| 国产幂在线无码精品| 亚洲丝袜第一页| 婷婷六月天激情| 国产精品第三页在线看| 亚洲欧美日韩成人高清在线一区| 精品亚洲欧美中文字幕在线看| 国产精品人人做人人爽人人添| 日韩精品成人网页视频在线| 99在线观看精品视频| 亚洲色欲色欲www在线观看| 国产在线精彩视频二区| 欧美成a人片在线观看| 啪啪永久免费av| 亚洲欧美不卡| 国产极品嫩模在线观看91| 一级毛片在线播放免费观看 | 国产成人麻豆精品| 综合色区亚洲熟妇在线| 国产女同自拍视频| 欧美在线一二区| 精品国产污污免费网站| 国产人人乐人人爱| 色成人综合| 中文字幕在线看视频一区二区三区| 久久免费观看视频| 亚洲中文在线看视频一区| 91在线播放免费不卡无毒| 国产小视频a在线观看| 久久综合色88| 色哟哟国产精品一区二区| 黄色三级毛片网站| 91成人在线免费视频| 亚洲高清无码久久久| 欧美精品三级在线| 污网站在线观看视频| 精品国产网站| AV老司机AV天堂| 香蕉久久永久视频| 国产亚洲精久久久久久无码AV| 国产老女人精品免费视频| 粉嫩国产白浆在线观看| 久久99久久无码毛片一区二区 | 欲色天天综合网| 国产人人乐人人爱| 呦系列视频一区二区三区| 日韩高清一区 | 四虎影视8848永久精品| 色天堂无毒不卡| 青青久视频| 无码精品国产VA在线观看DVD| 色综合久久综合网| 五月丁香在线视频| 国产精品网曝门免费视频| 乱人伦中文视频在线观看免费| AV在线麻免费观看网站| 青青青国产视频| 91网红精品在线观看| 波多野结衣二区| 中文字幕久久波多野结衣| 中文字幕久久亚洲一区 | 亚洲国产精品日韩av专区| 国产在线观看99| 久久精品波多野结衣| 亚洲精品国产日韩无码AV永久免费网 |