999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

星地融合網絡中基于深度強化學習的多業務緩存策略

2023-10-11 04:47:00閆曉曈劉丹譜張志龍
無線電通信技術 2023年5期
關鍵詞:內容策略

閆曉曈,劉丹譜,張志龍

(北京郵電大學 信息與通信工程學院,北京 100876)

0 引言

星地融合網絡作為地面網絡與衛星網絡緊密融合的通信網絡架構,憑借靈活組網、抗災性強、可靠性高、應急通信等優勢實現全球無縫立體覆蓋[1],是關乎國家安全戰略需求的關鍵基礎設施[2-3],具有廣闊的發展潛力與應用前景。與此同時,緩存作為一種應用廣泛的網絡性能優化技術,可有效緩解由重復請求業務導致的網絡擁塞,進而縮短獲取請求內容時延,對于提升星地融合網絡性能與用戶體驗質量(Quality of Experience,QoE)具有重要意義。

通用移動通信系統中的業務,依據業務的時延敏感度被劃分為會話型(Conversational)、流媒體型(Streaming)、交互型(Interactive)與背景型(Background)[4]。星地融合網絡所承載的通信業務劃分也可參照上述分類[5-7]。

目前已有多位學者針對異構物聯網[8]、端到端輔助無線網絡[9]、移動信息物理融合網絡[10]與無人機通信網絡[11]等傳統通信網絡的緩存策略展開研究,通過優化緩存策略獲得性能提升。上述研究在傳統無線通信網絡中有較好的應用效果,但其網絡組成相對簡單、拓撲結構穩定,難以直接集成到具有網絡組成多元異構、網絡拓撲動態變化等特征的星地融合網絡中,且未考慮使用緩存的業務類型。也有許多學者針對具體業務類型展開緩存策略研究。文獻[12]將松弛凸問題與裝箱問題相結合,提出一種隨機緩存與多播聯合策略,對大規模無線網絡中流媒體型業務成功傳輸率進行提升。文獻[13-15]則對包含宏基站與微基站的異構地面無線網絡中流媒體型業務的緩存策略進行優化,改善了時延、QoE、緩存命中率等性能。文獻[16]基于吞吐量設計資源調度策略以提升蜂窩網絡中流媒體型業務的QoE。

現有與緩存策略相關的研究大多聚焦于傳統無線網絡或單一業務,在多類型業務并發場景中如何量化評估不同業務的緩存收益并實現對有限緩存資源的最高效利用,目前并無現成解決方案。此外,若單純將已有地面網絡緩存策略集成到星地融合網絡也難以適應其網絡組成多元異構、網絡拓撲動態變化等特征。對此,本文將對星地融合網絡中多類型業務并發場景的緩存策略展開探索與驗證。

1 系統模型

星地融合網絡場景如圖1所示,該網絡中包含S顆緩存容量均為Caps的LEO,其集合表示為S={si|i=1,2,3,…,s,…,S};B個緩存容量均為Capb的地面站,其集合為B={bi|i=1,2,3,…,b,…,B},地面站覆蓋范圍內均勻分布X個小區,每個小區平均Z個用戶。假定遠端核心網(Core Network)處包含所有用戶請求內容。

1.1 網絡連接模型

使用一個S×(S+B)的0-1矩陣Gt表示星地融合網絡內節點間的連接狀態。

(1)

1.2 多類型業務請求模型

如表1所示,會話型業務以雙方或多方實時交流為主,上行數據與下行數據具有近似對稱、高時延敏感度等特征。在實際場景中此類業務并不存在大量重復請求情況,因此不在緩存策略中對其進行考慮。而流媒體型、交互型、背景型則均有下行數據量明顯高于上行數據量的不對稱性與重復請求等特性,其緩存需求較高。然而現有緩存策略往往缺少對多類型業務差異化需求的考慮,網絡性能與用戶體驗質量都存在提升空間。因此,有必要對星地融合網絡中的緩存策略進行進一步研究與優化。

表1 4種業務類型及其屬性Tab.1 Four types of services and their attributes

(2)

式中:a為業務類型,C為請求業務內容總數,r為業務內容的流行次序,βa為(0,1]的Zipf特征參數,NC,βa為C階歸一化系數。設定三類業務的特征參數βa為相同值β,根據Riemann’s zeta函數性質可得,β值越大,pa(r,β,C)取值越集中。

1.3 緩存模型

(3)

1.4 通信鏈路模型

通信鏈路包含用戶與地面站之間的用戶鏈路(User Link,UL),地面站與LEO間的饋電鏈路(Feeder Link,FL),LEO之間的星間鏈路(Inter-Satellite Link,ISL),以及LEO到Core Network之間的回程鏈路。對于下行饋電鏈路,接收信噪比可表示為[20]:

SNRFL(dB)=EIRP-LOSS+G-K-k-Bf,

(4)

式中:EIRP為等效全向輻射功率,P為放大器輸出功率,G為天線增益,K為系統等效噪聲溫度,k為玻爾茲曼常數,Bf為信道帶寬,LOSS為饋線損耗。為方便建模,饋電鏈路數據傳輸速率設為理想香農容量,由此可得:

RFL=Bflog(1+SNRFL),

(5)

式中:RFL為饋電鏈路傳輸速率,Bf為LEO波束的下行饋電鏈路信道帶寬。

2 優化問題建立

對不同緩存狀態下獲取請求內容的時延情況進行分析,進一步建立各類業務的時間效用函數,最終構建系統和效用最大化問題。

2.1 時延分析

在多類型業務并發的星地融合網絡場景中,用戶終端獲取請求內容的時延包含以下4種情況。

① 從地面站側獲取請求內容的時延等于用戶鏈路時延,即:

(6)

式中:RUL代表每個用戶可分配到的地面站側信道速率,

(7)

式中:Rb為地面站b的鏈路容量。

② 從衛星側獲取請求內容的時延組成為D1與FL傳輸及傳播時延:

(8)

③ 從相鄰衛星側獲取請求內容的時延組成為D2與ISL傳輸及傳播時延。ISL的信道模型可使用由空間傳播模型[21]:

(9)

④ 從遠端核心網獲取請求內容的時延包含D2與BL時延T(s,c),即:

(10)

2.2 多類型業務時間效用函數

本文基于文獻[22-23]中不同類型業務的時間與帶寬效用函數與不同業務自身時延敏感度,使用Sigmoid函數對星地融合網絡中多類型業務的時間效用函數進行擬合,得到三類典型業務的時間效用函數數學表達模型如下:

① 流媒體型業務

(11)

② 交互型業務

(12)

③ 背景型業務

(13)

2.3 系統和效用最大化問題

考慮有三種內容重復請求類業務并發的星地兩級緩存網絡場景,將緩存策略的優化目標設定為最大化系統和效用,引入內容流行度作為效用權重,即特定時間內所有瞬時效用的加權總和。

(14)

3 基于DRL的多類型業務并發緩存策略

基于上述系統模型與優化問題,本文考慮采用深度強化學習算法對多類型業務并發緩存策略問題進行求解。由于以DQN為代表的DRL方法需要對操作空間進行離散化處理,顯然不適用于星地融合網絡場景中緩存策略的探索。而深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法能有效彌補Actor-Critic神經網絡每次參數更新前后均存在關聯性,導致神經網絡陷入局部最優解與難以同時收斂的缺點,可用于解決星地融合網絡中連續緩存動作控制問題[24]。

鑒于星地融合網絡中節點眾多且拓撲關系動態變化,使得單智能體DRL實際應用困難,本文最終采用DDPG的多智能體版本——多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法。MADDPG作為一種基于DDPG算法進行擴展的多智能體DRL算法,核心思想為分散執行、集中評價,其算法架構如圖2所示。首先,為避免智能體(agent)之間的策略相互干擾,每個agent使用獨立的行動者網絡來選擇動作空間(action),這種分散執行機制使得每個agent可學習到自己的最優策略。其次,以經驗回放來解決樣本的相關性問題,即評論者網絡使用之前的經驗樣本來集中訓練策略網絡,并通過隨機抽樣的方式來減小樣本間的相關性。

圖2 MADDPG算法架構Fig.2 Architecture of MADDPG algorithm

3.1 馬爾可夫決策過程建模

① agent:星地兩級緩存網絡中每一個地面站與每一顆衛星都被認為是一個agent。

⑤ 獎勵函數(reward):

(15)

即:t時刻agent單位緩存資源的效用值,Total_Utilityt為當前agent獲得的總效用,Cache_resource為當前agent擁有的緩存容量大小。若直接以總效用值作為獎勵函數,會使得獎勵數值波動空間較大,造成深度強化學習算法難以收斂,故以agent單位緩存資源的效用值作為獎勵函數。

3.2 算法流程

MADDPG作為一種基于DDPG算法進行擴展的多智能體DRL算法,其設計思路基于分離策略與經驗回放兩個關鍵要素。首先,為避免agent之間的策略相互干擾,每個agent使用獨立的行動者網絡來選擇action,這種策略分離機制使得每個agent可學習到自己的最優策略。其次,以經驗回放來解決樣本的相關性問題,即使用之前的經驗樣本來訓練策略網絡,并通過隨機抽樣的方式來減小樣本間的相關性。為解決多類型業務并發緩存問題,本文提出的MADDPG-CMTS算法流程如算法1所示。

4 仿真驗證

本節對多類型業務并發緩存策略仿真實驗參數設置與結果進行分析說明。

4.1 仿真參數設置

衛星軌道及移動模型主要參考Iridium星座[25],利用STK軟件獲取。在具體仿真中選取兩個相鄰軌道面,共計22顆LEO。以OFDMA技術為地面用戶終端動態分配帶寬資源。仿真的具體參數配置如表2所示。

設置MADDPG算法的訓練次數K為2 000,訓練步數M為50,行動者網絡學習率為1×10-4,評論者網絡學習率為1×10-3,經驗回放池大小為20 000,從經驗回放池抽取的批大小為128,折扣因子γ設為0.95。在神經網絡結構方面,將行動者網絡與評論者網絡設計為兩層神經元數量為256的隱藏層。

對比算法設置如下:

① 僅在地面站節點部署MADDPG-CMTS算法,在衛星節點部署MPC算法;

② 僅在衛星節點部署MADDPG-CMTS算法,在地面站節點部署MPC算法;

③ 星地融合網絡所有節點均部署MPC算法;

④ 星地融合網絡所有節點均部署RR算法。

4.2 仿真結果分析

圖3為衛星側緩存空間為50 MB,小區平均用戶數為60時,總效用隨Zipf分布參數β(即請求內容流行集中度)的變化曲線。

(a) Caps=Capb=50 MB,Z=60

(b) Caps=50 MB,Capb=100 MB,Z=60圖3 不同Zipf分布參數下總效用對比Fig.3 Comparison of total utility under different Zipf distribution parameters

由圖3(a)可知,內容流行度越集中,緩存內容被請求的概率越高,緩存策略產生的效用亦越高。其中對比算法3由于在地面站側與衛星側均緩存有最受歡迎的請求內容,兩級緩存之間沒有協作,造成緩存資源的重復占用,因而獲取的總效用較低。對比算法4隨機緩存請求內容,由于較大概率緩存到被請求概率較低的內容,因此效用值很低,且其緩存策略與內容流行度無關,因此曲線變化趨勢不明顯。所提MADDPG-CMTS算法相較于對比算法在內容流行度集中程度不同的情況中均能獲得更高的系統總效用。

為更好地切合現實情況,將地面站側緩存空間設置為衛星側的兩倍(即100 MB),保持其他條件不變進行仿真對比,結果如圖3(b)所示。與圖3(a)對比,總效用隨內容流行集中度變化的趨勢相似,然而各算法的總效用均有較為明顯的提升。因此在后續仿真驗證中將衛星側與地面站側緩存空間分別固定為50 MB與100 MB,Zipf分布參數取值為1。其中,對比算法1因地面站緩存資源占比增大,其效用變化相較于星地兩級緩存資源相同時更貼近于所提MADDPG-CMTS算法。此外,對比算法4的效用值有一定程度的提升,然而由于整體數值偏低,曲線變化趨勢不明顯。

圖4為系統總效用隨小區平均用戶數的變化曲線。隨著小區用戶數的增多,系統中用戶終端及請求次數同比例增加,已緩存內容被請求的概率亦會隨之增加。

圖4 不同小區平均用戶數下總效用對比Fig.4 Comparison of total utility under different average number of cell users

圖4表明,所提MADDPG-CMTS算法在所設用戶數范圍內均能獲得更好的系統效用。其中,在小區平均用戶數為60時即可取得較理想的系統總效用,因此在其他仿真驗證中小區平均用戶數取值固定為60。

圖5為所提算法與MPC算法在地面站側與衛星側緩存情況的對比圖。

(a) 地面站側

(b) 衛星側圖5 所提算法與MPC算法的緩存情況對比Fig.5 Comparison between the proposed algorithm and MPC algorithm

由圖5可知,MPC算法并不關注業務的類型,對不同的業務無差別的緩存其流行度最高的請求內容。而所提MADDPG-CMTS算法對不同類型業務的緩存則呈現差異性,流媒體型業務相較于交互型業務時延敏感度更高,然而其常見請求為音頻、視頻等,內容大小高于交互型,其單位緩存資源的效用值隨之降低。在實際場景中,用戶對流媒體型業務的信息流內時間關聯性更為在意,如同樣觀看一段視頻,播放過程中多次卡頓與視頻延遲1 min流暢播出相比,用戶對于前者更為敏感。

圖6為衛星側緩存空間為50 MB,地面站側緩存空間為100 MB,Zipf分布參數為1,小區平均用戶數為60時,所提算法與MPC算法中不同類型的業務獲取請求內容的平均時延。

圖6 所提算法與MPC算法獲取請求內容 平均時延對比Fig.6 Comparison between the proposed algorithm and MPC algorithm to obtain request content average delay

由圖6可知,相對于MPC算法,所提算法中背景型業務獲取請求內容的時延更長,而流媒體型與交互型業務獲取請求內容的時延則有不同程度的降低。由背景型業務的時間效用曲線可知,其效用隨時延變化并不明顯,對于流行度相同的內容,是否緩存對應的效用相差不大,而所提MADDPG-CMTS算法對流行度較高的內容進行緩存則可在一定程度上緩解背景型業務重復請求造成星地融合網絡對回程鏈路的依賴。

5 結論

本文針對未來星地融合網絡中多類型業務并發的問題,為具有重復請求特征的三類業務構建時間效用函數,提出一種MADDPG-CMTS算法,并對所提方案性能進行了評估。仿真結果表明,與最受歡迎內容、隨機替換等傳統緩存策略相比,所提方案可明顯提升系統總效用,從而提高用戶體驗質量。

猜你喜歡
內容策略
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
Passage Four
主站蜘蛛池模板: 国产丝袜一区二区三区视频免下载| 国产日韩欧美黄色片免费观看| 一级成人a做片免费| 99国产在线视频| 97国产在线观看| 亚洲精品免费网站| 亚洲视频a| 国产欧美另类| 99在线观看精品视频| 亚洲全网成人资源在线观看| 亚洲精品中文字幕无乱码| 中文字幕亚洲另类天堂| 九色视频最新网址 | 美女免费黄网站| 亚洲Aⅴ无码专区在线观看q| 真实国产乱子伦高清| 国产精品尤物铁牛tv| 亚洲,国产,日韩,综合一区| 久久国语对白| 在线观看国产精美视频| 色妞永久免费视频| 欧美日韩一区二区在线免费观看| 欧美日韩中文国产va另类| 91在线播放国产| 国产波多野结衣中文在线播放| 四虎影视库国产精品一区| 日本免费一级视频| 毛片在线播放a| 精品久久香蕉国产线看观看gif| 亚洲黄色高清| 久青草国产高清在线视频| 尤物精品国产福利网站| 国产一线在线| 一区二区三区国产| 在线视频精品一区| 99久久国产精品无码| 综合社区亚洲熟妇p| 免费中文字幕一级毛片| 波多野结衣一二三| 国产三级国产精品国产普男人| 极品国产在线| 中字无码av在线电影| 久久国产亚洲偷自| 亚洲综合色婷婷| 亚洲无码电影| 久久福利网| 免费一级全黄少妇性色生活片| 免费日韩在线视频| 国产人妖视频一区在线观看| 亚洲a级毛片| 精品国产成人av免费| 国产精品无码久久久久久| 亚洲第一网站男人都懂| 国产成人精品在线1区| 亚洲精品成人7777在线观看| 激情综合五月网| 亚洲三级影院| 久久国产精品影院| 亚洲精品第一在线观看视频| 伊人久久婷婷五月综合97色| 婷婷中文在线| 九九视频在线免费观看| 九色最新网址| 一级毛片在线播放免费观看| 丁香五月婷婷激情基地| 欧美亚洲国产视频| 国产呦视频免费视频在线观看| 成人午夜在线播放| 亚洲伊人电影| 国产精品入口麻豆| 日韩黄色大片免费看| 亚洲人成影视在线观看| 日韩精品专区免费无码aⅴ| 特级毛片免费视频| 日韩欧美中文| 国产成人综合久久精品下载| 试看120秒男女啪啪免费| 国产精品网址你懂的| 97亚洲色综久久精品| 最新亚洲人成无码网站欣赏网| yy6080理论大片一级久久| 99视频国产精品|