999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智體強化學習的接入網絡切片動態切換

2020-04-06 08:47:40趙冠群
電子科技大學學報 2020年2期
關鍵詞:動作用戶

秦 爽,趙冠群,馮 鋼

(電子科技大學通信抗干擾技術國家級重點實驗室 成都 611731)

以5G 為代表的未來移動通信系統,將廣泛采用SDN 和NFV 技術,通過構建軟件定義的移動通信網絡,為用戶提供靈活按需的網絡傳輸服務[1-2]。在軟件定義的移動通信網絡架構下,將采用網絡切片技術,來滿足多樣化業務的差異化服務需求,也越來越成為研究者的共識[2-4]。每個端到端網絡切片服務于網絡中某一類具有特定需求的業務,在邏輯功能層面對應相互獨立的端到端虛擬網絡,多個切片對應的不同邏輯虛擬網絡,將通過映射部署到相同的物理網絡之上。

當移動用戶到達網絡時,需要選擇一個滿足自身業務服務需求的切片接入網絡。在實際的網絡中,網絡條件和用戶業務需求動態變化,使得用戶到不同接入站點的信道條件以及不同切片中的可用資源情況不斷變化。因此,為了保證用戶的接入和傳輸性能,需要根據用戶的接入信道條件和可用資源情況,進行用戶接入切片的動態切換。在傳統的移動通信網絡中,用戶的接入切換只需要考慮從一個接入站點切換到另一個接入站點。而在基于切片的軟件定義移動通信網絡中,一個接入站點上往往部署了多個不同的網絡切片,而同一切片可能覆蓋多個不同的接入站點。由此,用戶與接入站點二者之間的接入選擇和切換問題,就變成了用戶、切片和接入站點三者之間的優化匹配問題。

在移動通信網絡中,用戶的接入切換一直是研究熱點[5-8]。但現有的研究主要關注傳統移動通信網絡中的用戶切換問題,而對于如何在基于切片的軟件定義移動通信網絡中,進行用戶接入切片的動態優化切換,保障用戶業務的服務性能,還少有涉及。同時,在實際的通信系統中,切片的可用傳輸資源有限,接入同一切片的多個用戶將競爭有限的傳輸資源。某一用戶的接入選擇,會改變接入切片中可用傳輸資源數量,進而對其他用戶的接入和傳輸性能產生影響。因此,需要綜合考慮網絡中多個用戶的接入決策之間的相互制約和影響關系,從提升多個用戶整體傳輸性能的角度,設計多用戶協同的接入切片動態切換機制。

本文重點關注了基于網絡切片的軟件定義移動網絡中,移動用戶接入切片的動態優化選擇和切換問題。首先,考慮到多個用戶共存的網絡中,不同用戶的接入選擇將相互影響相互制約,結合移動通信應用場景下,動態的網絡條件和業務需求對用戶接入決策的影響,將網絡中多個用戶的接入切換建模為一個多人隨機博弈問題。然后,通過多智體強化 學 習(multi-agent reinforcement learning, MARL)方法[9-11]對該問題進行求解,并提出了一種基于分布式多智體強化學習[12]的多用戶接入切換算法。在此基礎上,通過仿真實驗,驗證本文提出算法的性能。

1 系統模型

本文考慮的網絡模型如圖1 所示,M 個基站組成的移動網絡中部署了N 個網絡切片。多個切片部署在相同的物理網絡之上,共享相同的物理傳輸資源,包括接入網的無線傳輸帶寬和功率,以及核心網的傳輸帶寬。一個切片可能覆蓋多個基站,一個基站上也可能部署多個不同的切片,基站的無線傳輸資源將根據需求被分配給各個切片。在接入網,多個不同的基站之間可以通過Xn 接口相互連接,各個基站通過NG 接口連接到核心網中的AMF(access and mobility management Function)。AMF 負責切片的部署和管理,一個AMF 可以同時管理多個切片。AMF 通過與SDN 控制器的信息交互,可以獲得切片在核心網中可用的傳輸資源情況,并通過NG 接口告知部署了該切片的各個基站。而一個用戶可能處于多個接入站點的覆蓋范圍內,由此通過基站的廣播信息,可以獲得不同基站上可接入的切片狀態信息,并從中選擇合適的切片接入。為了便于分析,本文假設一個用戶只產生一條業務流,用戶和業務是一一對應關系。

當一個用戶接入某一切片,其獲得的服務速率,同時受切片在接入網和核心網中可用傳輸資源的限制。如果用戶通過基站m 上的切片n 接入網絡,則其在接入端獲得的無線接入速率 rm,n將由用戶到基站m 的信道條件,以及此時切片n 在站點m 上可用的無線傳輸帶寬和傳輸功率共同決定。而用戶在核心網能夠獲得傳輸速率 cn,則由切片n 在核心網部分的容量以及業務負載共同決定。因此,用戶接入網絡后可以獲得的端到端服務速率bm,n=min(rm,n,cn)。由于如何進行切片傳輸資源的優化配置并非本文的關注重點,為了便于分析,本文簡單假設切片覆蓋范圍內的用戶信道條件相近,且切片可用的接入網和核心網傳輸資源平均分配給接入切片的多個用戶。因此,用表示站點m 上的切片n 能夠提供的總的最大傳輸速率,則當有K 個用戶同時通過站點m 上的切片n 接入網絡時,某一用戶k 獲得服務速率

由于基站m 通過與AMF 的交互,可以獲得切片n 核心網部分的容量和負載。結合切片n 在基站m 獲得的無線傳輸資源數量,基站可以得出當前基站m 上的切片n 能夠提供的最大傳輸速率同時,根據當前接入用戶數量,基站就可以計算出當前有新用戶k 接入網絡時能夠提供的服務速率并且可以通過基站廣播,把這一信息提供給用戶。

2 問題建模

2.1 多用戶切換策略

網絡用戶的移動及業務需求的變化,使得各個切片中服務的業務流不斷到達和離開。由于每個切片在接入端和核心網可用的傳輸資源有限,切片負載的變化使得接入用戶獲得的服務速率動態變化。由此,考慮網絡中的用戶每隔一段時間,將根據當前網絡狀態的變化,判斷是否需要進行接入切片的切換,以獲得更高的服務速率。

用戶在進行接入切換時,會帶來相應的信令傳輸、處理時延等切換開銷,頻繁的切換可能導致過大的切換開銷,從而降低用戶體驗和網絡服務性能。因此,本文的設計目標是希望在通過用戶接入切片的優化切換來提升用戶服務速率的同時,盡量減少由此帶來的切換開銷。

2.2 多用戶隨機博弈模型

在實際網絡中,往往多個用戶同時處于多個切片的覆蓋范圍內,每個切片可用的傳輸資源有限,一個用戶的接入選擇,將對其他用戶的可用傳輸資源和接入決策產生影響。因此,本文將動態網絡條件下,多用戶的周期性接入選擇和切換決策過程建模為一個多用戶隨機博弈問題。

多用戶隨機博弈可以看作一個包含多個決策者的馬爾科夫決策過程,并用元組(S,A1,A2,···,AK,r1,r2,···,rK,p)表 示,其中S 為系統狀態空間, Ak為決策者k 的動作空間, rk:S×A1×···AK→R為回報函數,p 為狀態轉移概率。本文考慮將每個用戶看作一個決策者,在每個決策時刻,用戶k 執行動作ak,并且獲得收益 rk( s,a1,a2,···,aK)。用戶所處的狀態s 會根據轉移概率跳轉到下一狀態s’。

因此,在本文考慮的多用戶切換對應的多人隨機博弈問題中,每個用戶周期性地根據當前網絡狀態,以最大化自身的累積收益為目標,進行接入切片的切換決策。多用戶隨機博弈問題中各個組成元素可以表示為:

1) 系統狀態:用 s ∈S表示網絡狀態,其中S 為所有狀態的集合。設網絡中存在N 個切片,M 個基站,則某一時刻用戶k 所處的狀態可表示為表示決策者k 當前通過基站m 接入切片n,反應了用戶當前的連接狀態。的含義如第1 節所述,表示當前時刻,用戶k 如果接入基站m 上的切片n 可以獲得的服務速率。在實際網絡中,往往很多基站上只部署了部分切片,因此如果基站m 上沒有部署切片n時,可以在狀態向量中將對應的去掉,從而降低狀態空間的大小。同時,可以將傳輸速率表示為單位速率的倍數,通過將傳輸速率的離散化來進一步簡化狀態空間,則有其中表示通過基站m 上的切片n 能提供的最大服務速率。周期,用戶k 采取動作 ak=(m,n)表示用戶k 選擇通過基站m 接入切片n,其中 ak∈Ak,Ak={(m,n)|1}為用戶k 的動作空間。

2) 動作:在本文所考慮的切換問題中,將用戶的動作定義為用戶對接入切片的選擇。在每個決策

4) 回報函數:在某一決策周期,用戶k 處于狀態s 采取動作 ak后,獲得的立即回報由兩部分決定:一是用戶采取動作后獲得的服務速率;二是用戶接入切片發生切換所帶來的切換開銷。

值得注意的是,本文考慮切片將可用傳輸資源平均分配給接入的多個用戶,所以用戶k 處于狀態s 采取動作 ak后獲得服務速率與系統跳轉后的狀態相關,受系統中其他用戶的動作影響。因此用fk(s,a1,a2,···,aK)來表示在某一決策周期,處于狀態s 的用戶k 在所有用戶采取聯合動作(a1,a2,···,aK)后獲得的服務速率。為了便于分析,假設用戶獲得單位服務速率的收益為1。同時,當用戶k 采取動作 ak后,從狀態 s= [Im,n,B1,1,···,Bm,n,···,BM,N]跳轉到狀態用戶的接入切片可能發生變化,從而帶來切換開銷 gk( s,ak)。開銷函數 gk( s,ak)定義為:

在多用戶隨機博弈過程中,用戶之間的決策會相互影響。因此考慮每個用戶都是以最大化系統的累積收益為目標進行切換策略的優化決策,從而將用戶的立即回報函數定義為K 個用戶的總收益,即:

在多人隨機博弈問題中,如果所有決策者都具有相同的回報函數,則稱為團隊博弈。已有研究證明,在團隊博弈中,存在全局最優均衡點[14]。本文采用多智體強化學習(MARL)方法來求解上述多人隨機博弈問題。

3 模型求解與算法設計

3.1 MARL 方法

多人隨機博弈可以看作一個多智體強化學習問題。在包含K 個智能體的MARL 中,設智能體k 的策略為 πk,則根據文獻[12],其狀態值函數可以表示為:

與傳統強化學習相比,MARL 存在多個智能體,在求解對應的多用戶隨機博弈問題時,可以將傳統的Q-Learning 方法[15]擴展到多智體系統。對于一個K 個智能體構成的多智體系統,對應的Q 函數可以表示為:

式中, α為探索率, (a1,a2,···,aK)和 (π1,π2,···,πK)分別為K 個智能體的聯合動作和聯合策略;rk(s,a1,a2,···,aK)為用戶k 的立即回報,可由式(2)得到。

本文考慮的多用戶切換問題中,在每個決策時刻,一但用戶的聯合動作 (a1,a2,···,aK)確定,則K 個用戶的連接狀態就確定了,由此可以確定系統的跳轉狀態 s′, 并得到 p(s′|s,a1,a2,···,aK)=1。則式(4)可以簡化為:

由此,對應的多智體Q-Learning 算法中,Q函數的更新公式可表示為:

3.2 基于分布式多智體Q-Learning 的切換算法

在基于網絡切片的軟件定義移動通信網絡中,(a1,a2,···,aK)相對應,這使得算法的狀態空間和動作空間都較大,導致很高的算法復雜度。因此,本文考慮采用一種分布式的在線多智體Q-Learning算法,每個智能體只維護與自身動作相對應的Q 值函數,降低了算法的復雜度,同時算法運行過程中用戶之間只需進行少量的信息交互。

本文設計的分布式Q-Learning 算法如下。在該算法中,每次迭代計算,智能體k 根據當前的網絡s,獨立 地 采取 ε? greedy策 略 選擇自己 的 動作ak。由此,可以得到網絡中的聯合動作( a1,a2,···,aK)。利用SDN 控制器,可以方便地實現集中控制的多智體Q-learning 算法。由式(6)可以看到,集中控制算法中,Q 值函數與所有用戶的聯合動作執行動作后,智能體通過觀察網絡轉移到的新狀態s’計算得到的立即回報 rk( s,a1,a2,···,ak),并更新對應的動作值函數 Qk(s,ak)。

算法 1 基于分布式Q-learning 的動態切換決策算法

輸入:S; A; r; α; γ;

1) 初始化 Qk(s,ak)=0, ?ak∈Ak,k=1,2,···,K

2) Repeat

3) 獲取當前s

4) if exploration then

5) 隨機選擇 ak∈Ak,k=1,2,···,K

6) if exploitation then

7) ak=argmaxaQk(s,a) ,k=1,2,···,K

8) for k=1,2···,K

9) 觀 察 下 一 狀 態s′,agent k 獲 得 的 回 報 rk(s,a1,a2,···,aK)

11) s ←s′

12) end for

13) until(完成特定步數或所有 Qk(s,ak)都收斂)值得注意的是,分布式算法中,每個智能體只需要維護與自身動作相對應的動作值函數 Qk(s,ak),而不需要維護聯合動作值函數 Q( s,a1,a2,···,aK)。但這并不表示在算法中,每個智能體完全獨立地進行學習。由系統狀態的定義可知,當智能體要判斷當前所處狀態時,需要獲得網絡切片當前可以提供的服務速率。這除了取決于智能體自身的接入選擇決策外,也將受其他智能體接入選擇策略的影響。此外,從算法第10)行可以看到,Q 函數的更新需要獲得聯合動作(a1,a2,···,aK)下的立即回報 rk( s,a1,a2,···,aK)。因此,為了計算立即回報,在此多智體系統中,智能體之間需要通過基站進行必要的信息交互。

3.3 算法復雜度

在本文的多用戶隨機博弈問題中,系統狀態空間的大小為 |S|, 每個用戶的動作空間大小為 |A|,設用戶的數量為K。則可以得到,在對應的分布式Q-Learning 算法執行過程中,系統中所有智能體需要維護的Q 值表中狀態-動作對的總數為 K· |S|·|A|。因此,在算法運行過程中,存儲所有Q 值表所需要的存儲空間復雜度和算法每次迭代運算的計算復雜度都是 K· |S|·|A|。

與本文中采用的分布式Q-learning 算法相比,傳統的多智體算法中,動作值函數由所有智能體的聯合動作決定,表示為 Q( s,a1,a2...,aK),則每個智能體對應Q 值表中的狀態-動作對的個數就變為了|S|·|A|K。因此,系統中所有智能體需要維護的Q值表中狀態-動作對的總數就是 K· |S|·|A|K。因此,傳統的多智體Q-learning 算法運行過程中,空間復雜度和每次迭代的計算復雜度為 K· |S|·|A|K。相比于傳統的多智體Q-learning 算法,算法1 采用的分布式多智體Q-learning 算法在計算復雜度和空間復雜度上都有明顯的提升。

4 數值結果分析

在仿真實驗中,考慮將設計的MARL 算法與多種傳統算法性能進行對比,對比算法包括:

1) Fixed 算法:用戶在到達網絡后,固定選擇一個切片接入,不進行切換;

2) RSS-based 算法:在每個決策時間點,用戶總是選擇RSS 最大的基站上的切片接入;

3) BW-based 算法:在每個決策時間點,用戶總是選擇能夠提供最大服務速率的切片接入;

4) SAW (simple additive weighting method)算法:用戶僅考慮自己采取的動作帶來的收益,不考慮用戶之間的相互影響。在每個決策時間點,選擇收益最大的切片接入。

在圖1 網絡場景下進行仿真實驗,仿真參數如表1 所示。假設每個基站覆蓋范圍內有業務不斷動態到達或離開,業務的到達和離開服從泊松分布,對應的聯合到達速率可以表示為 λ= (λ1,λ2,···,λM),其中 λm為基站m 上的用戶到達速率,同理有μ=(μ1,μ2,···,μM)。本文中的數值結果為100 次隨機仿真結果的平均值。

表1 仿真實驗參數

圖2 和圖3 分別給出了系統中的累積回報和吞吐量隨決策步數的變化關系。如圖所示,在不同的算法下,系統累積回報和吞吐量的值都隨著決策步數的增加而遞增,其中本文提出的MARL 算法的性能總是優于其他算法。BW-based 算法和RSS 算法分別根據服務速率最大和RSS 最大進行切換決策,沒有考慮切換開銷帶來的影響,可能導致較多的切換和較大的切換開銷。Fixed 算法在用戶接入網絡后不進行切換,當網絡條件發生變化時無法切換到性能更好的切片。而SAW 算法在進行切換決策時,不考慮其他用戶決策的影響,可能導致多個用戶選擇相同切片接入,從而競爭有限的切片資源。而MARL 算法一方面綜合考慮了用戶服務速率和切換開銷的之間相互影響和約束關系,另一方面也考慮了系統中多個用戶間的相互競爭關系,因此能取得比其他幾種算法更好的性能。

圖4對比了不同算法下系統中的累積切換次數。從圖中可以看出,除了Fixed 算法不會進行切換,MARL 算法的切換次數少于其他幾種算法。其中,RSS 算法的切換次數相對較少,這是因為仿真中沒有考慮用戶移動,用戶到接入站點的信道條件相對固定,當用戶找到信道強度較好的基站就基本不再切換。而SAW 算法由于沒有考慮其他用戶接入選擇的影響,容易造成多個用戶競爭同一切片資源,導致切換次數較高。BW-based 算法只考慮了當前切片可以提供的服務速率,而沒有考慮切換帶來的開銷,也會導致切換次數較高。

圖5給出了切換開銷 Kc與系統中累積回報的關系。隨著 Kc增大,各算法的累積回報逐漸減小。當Kc值較大時,如圖 Kc>5時,切換開銷很大,用戶通過切換獲得的服務速率增益小于切換帶來的開銷,因此MARL 算法下,用戶基本不進行切換,算法曲線與Fixed 算法重合。同理,SAW 算法在切換開銷較大時也很少切換,使得累積回報基本保持不變。而BW-based 算法在進行切換決策時并沒有考慮切換開銷的影響,因此不會因為 Kc的增大額而調整自己的切換策略,使得其累積回報受 Kc影響較大,隨著 Kc的增大而持續下降。

圖6 給出了隨著切換開銷的增大,不同切換算法下,系統吞吐量的變化情況。由于 Kc較大時,為了避免較多的切換開銷,MARL 算法傾向于較少的切換,使得很多用戶不會切換到當前能夠提供最大服務速率的切片,造成系統吞吐量下降。同理,SAW 算法吞吐量的變化規律與MARL 算法類似,同樣隨著 Kc的增大而降低。而其他3 種算法在進行切換決策時,沒有考慮切換開銷的影響,隨著 Kc的增大,系統吞吐量基本不受影響。綜合圖2~圖6可以看到,與其他算法相比,本文提出的MARL算法能獲得較好的網絡傳輸和服務性能。

最后,圖7 和圖8 給出了本文提出的MARL算法的收斂性能。如圖7 所示,當 α= 0.2時,算法在進行約20 000 次迭代訓練后逐漸收斂。圖中結果顯示,α的取值越大,算法的收斂速度越快,但相應的數值結果波動越大,反之亦然。在此基礎上,圖8 給出了所采用的分布式Q-Learning 算法中,對應Q 值函數的收斂情況。Q(s,ai)為系統處于狀態s 時,采取動作ai得到的動作值函數。從圖中可以看到,與圖7 相似,在經過約20 000 次迭代訓練后,Q 函數的取值趨于穩定。

5 結 束 語

本文研究了面向網絡切片的移動網絡中,移動用戶接入切片的動態優化切換問題。考慮到網絡中,多個用戶之間的相互影響和制約關系,將多用戶協同的接入切片切換過程建模為一個多人隨機博弈問題。在此基礎上,設計了基于多智體強化學習的多用戶接入選擇和切換算法。仿真實驗的結果證明,本文提出的算法能夠在提升網絡服務性能的同時降低網絡中的切換開銷。

猜你喜歡
動作用戶
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
非同一般的吃飯動作
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 日韩AV无码一区| 国产人人射| 先锋资源久久| 欧美午夜视频在线| 香蕉99国内自产自拍视频| 99无码熟妇丰满人妻啪啪| 日韩高清中文字幕| 精品一区二区三区无码视频无码| 精品久久国产综合精麻豆| 欧美日韩亚洲综合在线观看| 精品国产99久久| 97国产精品视频人人做人人爱| 欧美在线视频不卡| 精品国产免费人成在线观看| 国产精品手机视频| 秋霞午夜国产精品成人片| 国产一区免费在线观看| 欧美成人精品高清在线下载| 国产麻豆另类AV| 国产欧美日本在线观看| 亚洲欧美精品在线| 在线观看热码亚洲av每日更新| 欧美精品H在线播放| 天堂岛国av无码免费无禁网站 | 日本不卡视频在线| 国产乱子伦精品视频| 欧美高清国产| 婷婷六月在线| 国产99免费视频| 97人人模人人爽人人喊小说| 精品人妻一区无码视频| 老色鬼久久亚洲AV综合| 在线观看免费人成视频色快速| 中文字幕在线一区二区在线| 在线视频一区二区三区不卡| 日韩在线播放中文字幕| 国产精品自在自线免费观看| 91亚洲视频下载| 亚洲一区二区在线无码| 久久一级电影| 中文字幕亚洲第一| 亚洲美女一级毛片| 一区二区理伦视频| 中文字幕 日韩 欧美| 亚洲精品天堂在线观看| 99在线视频网站| 一区二区自拍| 国产青榴视频| 97国产成人无码精品久久久| 天天综合网亚洲网站| 黄色网在线| 71pao成人国产永久免费视频| 国内老司机精品视频在线播出| 欧美综合成人| 亚洲成年网站在线观看| 欧美日韩激情在线| 欧美成人精品高清在线下载| 99爱视频精品免视看| 久久午夜夜伦鲁鲁片不卡| 狠狠干综合| 中文字幕日韩久久综合影院| 国产情侣一区二区三区| 日韩在线影院| 丰满人妻被猛烈进入无码| 亚洲成年人网| 国内黄色精品| 国产男人天堂| 1级黄色毛片| 亚洲精品大秀视频| 国产综合网站| 免费无码又爽又刺激高| 毛片在线播放a| 国产精品美女网站| 欧美成人综合在线| 亚洲欧美在线精品一区二区| 色播五月婷婷| 欧美精品二区| 直接黄91麻豆网站| 国产午夜无码专区喷水| 国产精品成人久久| 国产精品成人免费视频99| 日本91在线|