嚴牧 孫耀 馮鋼
摘要:介紹了無線網絡中的強化學習算法,認為由于強化學習算法與環境交互并動態決策的特點,其對復雜網絡環境有著較強的適應能力;然后針對無線網絡中的強化學習方法的應用場景做了概述,并給出了兩個基于強化學習的無線接入技術案例:毫米波技術的切換技術和Multi-RAT接入技術。可以看到:智能的無線接入技術由于具備充分挖掘和擴展無線網絡資源的潛力,能夠顯著提高無線網絡用戶的體驗。
關鍵詞: 未來無線網絡;切換;接入控制;強化學習
Abstract: In this paper, the application of reinforcement learning in wireless network is briefly introduced. Due to the characteristics of interacting with environment and dynamic decision making, reinforcement leaning algorithm has strong adaptability to complex network environment. Then the application scenarios of reinforcement learning method in wireless network are summarized, and two cases of wireless access technology based on reinforcement learning are given: handoff policy of mmWave HetNets and multi-rat access control. Intelligent access control of wireless network is powerful in exploiting wireless network resources, which can improve the quality of experiences of mobile users.
Key words: future wireless network; handoff; access control; reinforcement learning
當今社會已經邁入信息經濟時代,信息技術已成為推動經濟結構向多樣化消費和低能耗高效發展的重要驅動力。據思科公司預測,到2019年全球移動數據總流量將增長至每月24.3 EB,接近2000年全球互聯網總流量的200倍[1]。另據全球移動通信系統(GSM)協會分析[2],到2020年全球支撐物聯網的機器對機器通信(M2M)連接數將達到9.8億,接近2000 年全球M2M 連接數的14倍。無線通信網絡在面臨無線資源趨于枯竭的同時,正在經歷著前所未有的高增速無線服務需求與低效率無線服務供給之間的矛盾。
未來無線通信將利用復雜異構網絡來支持多樣化應用場景,包括連續廣域覆蓋、熱點高容量、高可靠低時延以及低功耗巨連接等。由于用戶終端性能和業務需求的不同,用戶體驗質量(QoE)在不同通信場景也存在極大的差異性。出于成本和兼容性的考慮,未來無線網絡將長期處于多網共存的狀況,包括2G、3G、4G、5G、Wi-Fi 等,由于不同網絡利用不同的無線接入技術,因而形成了接入技術的差異性。同時,為了進一步提升網絡的容量,需要在傳統接入站點的基礎上引入Micro、Pico、終端直通(D2D)、移動自組織(Adhoc)及小蜂窩等接入站點,因而形成了對網絡的重疊異構覆蓋。網絡的高密度部署和多網絡共存使得復雜異構網絡下的無線干擾環境變得更加復雜,并對無線接入網的資源調度和控制管理提出了更高的要求。
傳統的無線接入技術在“網絡-頻譜”的靜態匹配關系下對網絡進行規劃設計和資源配置。設備的接入往往基于某一參數(如信號強弱、區域位置)選擇單一接入網絡和固定接入站點。由于復雜異構網絡中海量用戶行為的隨機性,不同網絡的業務需求呈現出極大的時空動態變化特性。靜態的“網絡-頻譜”匹配使得網絡容量無法滿足變化的網絡業務需求,大大地限制了無線網絡的接入能力,并導致用戶接入體驗差等問題。
為根本性地提高無線網絡接入能力,必須打破傳統的無線資源管理和服務接入控制的僵化機制,研究智能的無線接入理論與技術,充分挖掘和擴展無線網絡資源的利用潛力,顯著提高無線網絡用戶的體驗。在無線網絡中,由于用戶行為以及網絡的動態性和復雜性,使得接入控制和資源分配是非常具備挑戰性的[3]。人工智能(AI)技術,比如機器學習,賦予計算機分析環境并解決問題的能力,并提供了一種有效的方法來處理動態性高、復雜度明顯的問題[4]。
1 強化學習在無線網絡中 的應用
強化學習是一種在非確定環境下做決策的強勁的工具[5]。Google Deepmind最近所研發的AlphaGo以及AlphaGo Zero所使用的強化學習在圍棋這類動態性明顯、環境信息復雜的博弈游戲中表現良好[6],并且取得較好的成績。在異構網絡接入控制的過程當中,由于網絡的動態性導致了決策過程也必然是動態性的,我們需要主體和環境進行頻繁交互、感知,從而智能化地協調用戶和基站的決策行為。因此,強化學習由于其所具備的特點被我們利用到異構網絡的決策過程中也是順其自然的。
1.1 強化學習的分類
(1)根據強化算法是否依賴模型可以分為基于模型的強化學習算法和無模型的強化學習算法。這兩類算法的共同點是通過與環境交互獲得數據,不同點是利用數據的方式不同。基于模型的強化學習算法利用與環境交互得到的數據學習系統或者環境模型,再基于模型進行決策。無模型的強化學習算法則是直接利用與環境交互獲得的數據改善自身的行為。兩類方法各有優缺點:一般來講基于模型的效率比無模型要高,因為智能體可以利用環境信息;但是有些無法建立模型的任務只能利用無模型強化學習算法,因此無模型強化學習算法更具備通用性。
(2)根據策略的更新和學習方法,強化學習算法可分為基于值函數的強化學習算法、基于直接策略搜索的強化學習算法以及Actor-Critic(AC)的方法。所謂基于值函數的強化學習方法是指學習值函數,最終的策略根據值函數貪婪得到。也就是說,任意狀態下,值函數最大的動作為當前最優策略。基于直接策略搜索的強化學習算法,一般是將策略參數化,學習實現目標的最優參數。基于AC的方法則是聯合使用值函數和直接策略搜索。
(3)根據環境返回的回報函數是否已知,強化學習算法可以分為正向強化學習和逆向強化學習。在強化學習中,回報函數是人為指定的,回報函數指定的強化學習算法稱為正向強化學習。很多時候,回報無法人為指定,如無人機的特效表演,這時可以通過機器學習的方法由函數自己學出來回報。
1.2 強化學習在無線網絡中的應用
考慮到無線網絡的特殊應用場景,在基于圖1的分類下,我們進一步按照無線網絡的特點對強化學習進行分類,如圖2所示。首先由于受限于網絡中有限的頻譜資源,用戶總是以競爭的關系接入到網絡中,那么資源調度、小區切換等考慮用戶QoE的問題往往可以建模成一個多主體馬爾科夫決策過程(MDP);然后考慮到網絡狀態空間變化基于時間的連續性或離散性,可將網絡決策過程建模為連續時間或者離散時間MDP,連續時間MDP需要決策做到快速反應,盡量做到在線學習;再者,基于網絡動作空間的連續性或離散性,有分別基于策略迭代和值迭代的強化學習方法;最后考慮到傳統的強化學習方法利用到網絡環境中的一些不足,我們可以和深度學習結合起來做一個改進。
根據做決策的時序先后,我們可以把網絡中接入用戶的決策分為基于多主體的序貫博弈過程或同時博弈過程,如圖3所示。具體來說,由于普通的強化學習本身就是基于MDP建模,并且解決的是序貫博弈的問題。為了解決同時博弈的問題,我們可以采用Nash Q-learning算法[7]。在Nash Q-learning的算法中,所有的決策主體在同一個決策時間從一個隨機的決策開始去嘗試學習它們的最優Q-value。為了達到這樣的目的,每一個主體都通過其他主體的Q-value來更新自己的決策,直到達到納什均衡點。例如:在文獻[8]中,作者在認知無線mesh網絡中考慮在盡可能保證主用戶的服務質量(QoS)條件下,為同時接入的次級用戶分配功率資源和頻譜資源。考慮到次級用戶之間的競爭關系(博弈關系),采用了基于多主體的Nash Q-learning算法,并得到較好的結果。在決策空間集較小,并且主體數量較少的情況下,Nash Q-learning是一種很好的用于解決多主體同時博弈的算法。
在無線網絡中,經常存在動作(決策)空間過大的現象,例如:在時頻資源塊分配問題中或者在長期演進(LTE)中非連續接收(DRX)cycle長度的設置問題中。如果我們把頻譜資源或者cycle的長度范圍劃分為較小的決策單元,那么就會使得策略空間異常大,會消耗大量的計算資源。如果我們能通過策略迭代用更平滑的手段去搜索最優策略,會顯著增加學習效率,更加貼合無線網絡中需求快速決策的特點。
基于狀態空間在時間上的連續性或離散性,我們可以把MDP建模成連續時間上的MDP或離散時間上的MDP。連續時間MDP是基于時間序列連續的馬爾科夫過程,其依然具備馬爾科夫性。連續時間MDP和離散時間MDP區別在于時間指標參數從離散的[T={0,1,2...}]改為連續的實數[T={t|t>=0}]。當我們考慮小時間尺度上的網絡問題,由于用戶流的不間斷涌入,信道質量的無規律變化等都會造成網絡狀態的頻繁波動。因此快速決策就變得尤為重要。這里基于連續空間較好的算法是AC算法。AC較好地平衡了值迭代和策略迭代這兩種方法。例如:文獻[9]中,作者考慮把基于流量變化下的基站開關操作建模為一個連續狀態的MDP。考慮到用戶的接入流量是一個連續變化的過程,那么整個網絡的狀態也相應具有很強的動態性和連續性。所使用的AC算法在該工作中不僅加快了學習速率,TD-error還具備預測的功能性。
無線網絡中,強化學習還可以和深度學習結合起來使用,兩者各有優缺點。強化學習本身由于狀態空間過大會導致學習時間較長(維度詛咒),在復雜的無線網絡環境中,由于網絡狀態復雜,單純的強化學習由于算法收斂過慢并不是十分貼合。基于神經網絡的深度學習方法,可以利用歷史數據對下一時刻的用戶行為或者網絡狀態進行預測。但是,盡管深度學習能夠提供較為精準的趨勢分析和模式識別,也很難推導出與數據完全匹配的分布函數,在無線網絡中帶來決策上的明顯失誤,使得數據失去其應用價值。此外,為了及時保存和處理蜂窩網絡數據,基站作為中心控制器需要存儲大量的蜂窩網絡數據,需要消耗大量的存儲和計算資源。因此,我們可以將深度學習利用起來為小時間尺度上的網絡決策提供先驗信息,從而加速強化學習算法的收斂速度。
2 智能化接入控制案例分析
我們考慮兩種智能化的接入控制技術作為案例研究:(1)針對毫米波異構蜂窩網我們提出了一種基于機器學習的智能切換策略,在保證用戶服務質量的前提下,減少不必要的切換次數。針對單個用戶,在強化學習方法中采用基于置信區間上界(UCB)算法的基站選擇策略,可以降低某個用戶的切換次數。(2)我們考慮將不同的QoS需求的用戶接入到蜂窩網和Wi-Fi共存的異構網絡中。為了在復雜和動態環境中最大化系統吞吐量并且同時滿足用戶QoS需求,我們利用基于多主體強化學習的智能多無線電接入技術,通過動態感知網絡環境,來為每個用戶分配相應的信道資源。
2.1 基于毫米波技術的智能切換技術
(1)強化學習的獎勵函數設計
由于處在同一服務類型的用戶切換準則相近,在經過一段時間的學習之后,回報函數期望的估計值具有較高的準確性。
(3)基站選擇策略
由于強化學習中的定理——探索和利用,我們不能夠總是選擇當前回報函數期望值最大的基站進行切換。通常,我們用Regret來衡量強化學習中的一個策略的優劣程度。Regret是指所采取的策略與最優策略之間的差距。在我們的這個問題中,UE n在策略π下在執行了W次切換后的Regret可以表示為:
我們考察了毫米波異構網中智能(SMART)切換策略下的性能,并與下面兩種傳統策略進行了對比:基于速率的切換策略(RBH)是每次用戶發生切換時總是選擇當前可以提供最大傳輸速率的基站進行切換;基于干擾加噪聲比(SINR)的切換策略(SBH)是用戶總是選擇可以提供最大信號SINR的基站進行切換。圖4代表了這3種切換策略下的系統總的切換次數/系統吞吐量與毫米波小基站(mm-FBS)所占比例λ之間的關系。通過圖4可以看出:我們可以通過較小的系統吞吐量的損失而帶來較明顯的切換次數的降低。
2.2 Multi-RAT智能接入技術
為了在復雜和動態環境中最大化系統吞吐量并且同時滿足用戶QoS需求,我們利用基于多主體強化學習方法的智能多無線電接入(SARA)技術,通過動態感知網絡環境,來為每個用戶分配相應的信道資源。
(1)場景描述
我們研究的場景是蜂窩網小基站(SBS)和Wi-Fi熱點共存的場景。LTE下行執行正交頻分多址的傳輸方式(OFDMA),其頻譜資源包含很多的時頻資源塊(RB),又叫做子信道。在傳輸的過程中,非連續波段的頻譜可以利用傳輸數據流。為了保護正在進行的會話流,我們假設新到的業務流必須在沒有多余頻譜資源的情況下進行等待。基站作為中心控制器是能夠獲取全局的網絡信息,包括用戶的QoS需求和網絡環境信息。由于網絡的動態性和跨無線電技術(RAT)的資源調度復雜特性,多無線電技術的聚合需要更加智能化的技術支撐。
(2)基于多主體強化學習的Multi-RAT接入機制
多無線電接入過程是一個多主體的隨機過程[9]。在多主體的環境中,我們可以觀測到其他所有主體所做的決策已經反饋的回報值。基于該多主體的隨機過程,和圖5提出的兩層決策框架,無線電/信道選擇過程(RSP)和資源分配過程(RAP)中分別存在著同時博弈和序貫博弈的過程。我們采取Nash Q-learning算法[9]以及蒙特卡洛樹搜索(MCTS)方法[10]來解決這兩個博弈的相關問題。
我們把接入過程建模成一個基于半馬爾科夫(SMDP)的強化學習模型。具體來說,在我們的工作中有兩個決策階段,如圖5所示:第1階段為RSP,該階段的目的在于盡可能地去避免碰撞和亂序情況的發生,從而壓縮決策空間。當我們的算法收斂后,我們就開始第2階段——RAP,在該階段中,基于有限的網絡資源和多樣的用戶喜好,我們考慮去使用有限的信道資源為用戶提供合適的服務,并且使得系統平均吞吐量最大化。在這一階段中,我們假設在蒙特卡洛樹搜索中,每一個節點s包含了[{r(s,a),N(s,a),Q(s,a)}]的信息,其中[r(s,a)]是即時的獎賞值用來衡量該資源分配決策的好壞,[N(s,a)]是節點的被訪問次數,[Q(s,a)]是該節點的Q-value。在決策的搜索過程中,用到了上界信心樹搜索(UCT)[11]方法。每個節點所需要滿足的是單個用戶流的QoS需求,根節點所需要滿足的是整個系統的吞吐量的最大化。
我們使用了下面的一些調度技術作為比較:多載體的比例公平調度算法(PFSMTS)[12];LTE作為輔助傳輸的算法(LAA):在該算法中,Wi-Fi作為流量優先卸載的頻段,LTE作為輔助頻段;在線學習(OLA):對SARA中的用戶進行流式處理。
從仿真圖我們得到的結論分別是:如圖6a)所示,SARA所需的收斂學習次數隨著用戶數量的增加而增加,復雜度也隨之上升。考慮到小時間尺度調度特性,我們可以設置在短時間內進行資源調度,這樣相應進入用戶數量也較少,算法收斂較快,網絡性能容易被滿足。如圖6b)所示,SARA的系統吞吐量性能明顯要高于其他的調度算法(當用戶數量大于3的時候),這意味著SARA這樣的智能化的LTE-WiFi聚合方式可以在動態的環境中明顯地提高系統資源的利用率。
3結束語
本文中,我們簡要介紹了強化學習,并研究了強化學習在無線網絡中的一些應用。我們給出了兩個針對復雜異構無線網絡、動態網絡環境下的智能接入技術。從仿真結果來看:和傳統的接入控制算法相比,我們提出的智能化接入技術可在增加很小代價的情況下提升較大的網絡性能。
參考文獻
[1] Cisco. Visual Networking Index: Global Mobile Data Traffic Forecast Update 2014-2019[R], 2015
[2] GSM Association. The Mobile Economy Report[R],2015
[3] CAO B, HE F, LI Y, et al. Software Defined Virtual Wireless Network: Framework and Challenges[J]. IEEE Network, 2015:29(4): 6-12, 2015.DOI: 10.1109/MNET.2015.7166185
[4] SIMON P.Too Big to Ignore: The Business Case for Big Data[M].British: John Wiley & Sons, 2013
[5] LITTMAN M L. Reinforcement Learning Improves Behavior from Evaluative Feedback[J] Nature, 2015,521(7553):445-451
[6] SILVER D, HUANG A, MADDISON C J, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search[J].Nature, 2016, 529(1):484-489
[7] HU J, WELLMAN M P. Nash Q-Learning for General-Sum Stochastic Games [J]. Journal of Machine Learning Research, 2003, 4(6):1039-1069
[8] CHEN X F, ZHAO Z F, ZHANG H G. Stochastic Power Adaptation with Multi-agent Reinforcement Learning for Cognitive Wireless Mesh Networks[J]. IEEE Transactions on Mobile Computing, 2013, 12(11):2155-2166.DOI: 10.1109/TMC.2012.178
[9] LI R, ZHAO Z, CHEN X, PALICOT J, et al. TACT: A Transfer Actor-Critic Learning Framework for Energy Saving in Cellular Radio Access Networks [J]. IEEE Transactions on Wireless Communications,2014,13(4):2000-2011.DOI: 10.1109/TWC.2014.022014.130840
[10] SILVER D, HUANG A, MADDISON C J A, et al. Masteringthe Game of Go with Deep Neural Networks and Tree Search[J]. Nature, 2016, 529(1):484-489
[11] ROSIN C D. Multi-Armed Bandits with Episode Context[J]. Annals of Mathematics and Artificial Intelligence, 2011, 61(3):203-230
[12] KIM H, KIM K, HAN Y, et al. A Proportional Fair Scheduling For multi-carrier Transmission Systems[C]//Vehicular Technology Conference. USA,2004,(1):409-413