楊 飛王海超、解放軍理工大學通信工程學院學員大隊一營一連 、解放軍理工大學通信工程學院研二隊 南京 0007
?
5G微蜂窩網(wǎng)絡中基于分布式學習的時頻資源聯(lián)合調(diào)度算法
楊 飛1王海超2
1、解放軍理工大學通信工程學院學員大隊一營一連 2、解放軍理工大學通信工程學院研二隊 南京 210007
【摘要】本文研究了微蜂窩網(wǎng)絡中上行鏈路通信場景下移動用戶的干擾管理問題,不同于現(xiàn)有大量基于信道調(diào)度和時隙調(diào)度的干擾避免方案,本文中每個移動用戶可以自主選擇接入的時頻資源塊,并根據(jù)反饋的干擾情況學習并動態(tài)調(diào)整策略;為了刻畫用戶之間的相互作用和影響,將該問題建模為一個非合作博弈,并證明該博弈模型為精確勢能博弈,至少存在一個純策略納什均衡點,最優(yōu)的純策略納什均衡點對應到全網(wǎng)干擾水平最小。最后,設計了一種基于異構獨立修正算法的分布式學習算法。仿真分析表明,所提出的分布式學習算法可以有效地收斂到干擾最小化博弈的納什均衡,相比于現(xiàn)有的干擾管理方案性能更優(yōu)。
【關鍵詞】干擾管理;時頻資源調(diào)度;博弈論;分布式學習
無線數(shù)據(jù)服務的需求成倍增加迫使移動運營商尋求新的方法來擴大覆蓋,提高網(wǎng)絡容量。微蜂窩技術被認為是滿足用戶迫切需求的最有效的手段之一。微蜂窩技術具有覆蓋面小、傳輸能量低和安裝方便的特點,主要用于提高網(wǎng)絡容量或覆蓋率。但是隨著微蜂窩的超密集部署,現(xiàn)有的網(wǎng)絡中的干擾情況越來越復雜。例如在頻譜共享模式下的微蜂窩網(wǎng)絡中的同層干擾問題愈加凸顯,導致網(wǎng)絡吞吐性能的惡化。因此,有效地干擾管理對于微蜂窩網(wǎng)絡而言十分重要。
現(xiàn)有的干擾管理研究主要分為集中式和分布式干擾管理。集中式的干擾管理方法通常需要一個集中控制器來搜集全網(wǎng)的信息進行資源的優(yōu)化分配,例如頻率、時隙和功率的分配。但是由于在超密集的微蜂窩網(wǎng)絡中,并非所有的微基站都由運營商部署,存在用戶或者企業(yè)部署和管理的微基站,出于通信安全以及隱私考慮,全網(wǎng)信息的獲取通常難以實現(xiàn)。其次,由于無線環(huán)境的動態(tài)變化,集中式優(yōu)化決策方案的時效性較差,性能并不穩(wěn)健。即使能夠獲取大規(guī)模微基站的即時優(yōu)化所需信息,全網(wǎng)產(chǎn)生的大量回程鏈路的通信開銷以及通信延遲都不能忽略。另一方面,分布式的資源分配方案因其較低的復雜度以及靈活穩(wěn)健性引起了學術界的廣泛關注。但目前現(xiàn)有的分布式方案中大量工作研究的是動態(tài)信道接入以及分布式時隙接入優(yōu)化。
不同于現(xiàn)有大量基于信道調(diào)度和時隙調(diào)度的干擾避免方案,本文中每個移動用戶可以自主選擇接入的時頻資源塊,并根據(jù)反饋的干擾情況學習并動態(tài)調(diào)整策略。本文的主要貢獻如下:
(一)提出了一種分布式的時頻資源調(diào)度方法,與傳統(tǒng)的主要集中在頻率資源或時間資源的干擾管理方式不同,本文提出的干擾管理方式研究的是時頻資源聯(lián)合分配,即相鄰用戶在相同時隙占用不同的信道或在不同的時隙內(nèi)占用相同信道以避免干擾。
(二)提出聯(lián)合頻率和時隙資源塊接入的干擾最小化博弈,證明了它是一個精確勢能博弈,且至少存在一個純策略納什均衡點,對應整個網(wǎng)絡的最小干擾水平。
(三)提出了允許所有用戶同時更新選擇的基于分布式的聯(lián)合時頻資源調(diào)度的學習算法。該學習算法基于對獨立修正算法(independent revision process (IRP))的擴展,允許所有用戶獨立操作且沒有任何協(xié)調(diào)機制。
如圖1所示,假設微蜂窩用戶的位置是隨機分布的,在上行鏈路通信中,當兩個用戶的微基站服務同時在同一信道上同時傳輸時,會互相干擾。由于用戶的傳輸能量有限,因此其相應的干擾距離是有限的。上行傳輸中,對于基站側(cè)而言,有兩種類型的干擾:來自相鄰基站用戶的強干擾和來自非相鄰用戶的弱干擾,通常情況下只考慮來自相鄰用戶的強干擾,可以通過干擾圖(沖突圖)來刻畫相鄰小區(qū)之間的干擾情況,干擾圖中可以將對應的微蜂窩基站和用戶(后文中簡稱為微蜂窩用戶對)視為干擾圖中的一個頂點,相鄰的微蜂窩用戶對之間存在干擾關系時,存在一條邊連接對應的頂點。

圖1 系統(tǒng)模型
將可用的頻譜資L源=B{劃1,2分,3,為...,L}個子信道,信道集合為L={1,2,3,...,L}。一幀由選擇時段和傳輸時段組成,用戶在選擇時段選擇他們的信道和時隙,然后在傳輸時段傳輸數(shù)據(jù)。可用的傳T輸時=段{1又,2,分3,為...,T }個時隙,時隙集合可表示T ={1,2,3,...,T}。用S={1,2,3,...,S} 表示微蜂窩基站的集合,并假設每個基站只服務一個用戶,令N={1,2,3,...,N}表示對應用戶的集合。
假定用戶n的傳輸功率設置為pn。用戶在t時l刻占用的信道l 進行上行傳輸,對應的微基站側(cè)所接收到的信干噪比為 :

上式中Jn表示用戶n的鄰居集合,表示相鄰用戶引起的總干擾;gn是從用戶n到微蜂窩基站的信道增益;N0是均值為零、方差為σ2的加性高斯白噪聲。微蜂窩基站和用戶之間的信道增益可以表示為,其d中表示微蜂窩基站和用戶之間的距H離,表示瑞利衰落,m是路徑損耗指數(shù)。定義fn和tn作為用戶n選擇的信道和時隙,則和表示為:

和

信干噪比(SINR)與函數(shù)Xn(k)和ξn(k)密切相關。具體說,在同一時隙占用相同信道的相鄰用戶的數(shù)量越少,對應基站承受的干擾也將越少。受文獻[7]中碰撞水平的啟發(fā),定義干擾水平如下:

其中

本文的優(yōu)化目標是找到能夠使干擾最小化的最佳信道和時隙組合,讓用戶n選擇相應的資源塊,則

上述的優(yōu)化問題屬于經(jīng)典圖著色問題,可證明其為NP難問題,現(xiàn)有的集中式方法大多采用貪婪搜索的方法尋找次優(yōu)解。同時由于,集中式的資源優(yōu)化方案難以適用于大規(guī)模超密集部署的微蜂窩網(wǎng)絡場景下。因此,本文尋求通過分布式優(yōu)化的方案求解上述優(yōu)化問題。
由于缺少集中控制器為用戶制定分配的信道和時隙,每個用戶需要自主選擇接入的時隙和頻率資源塊。由于用戶之間的決策行為存在相互影響,本文采用博弈論來分析用戶決策行為之間的相互影響。本文將這個問題建模為一個非合作博弈,每個用戶是一個博弈參與者。信道和時隙干擾最小化博弈可以表示為:

式中N = {1,2,..., N}代表博弈用戶的集合 ,An是用戶n的策略集合,Un是用戶n的效用函數(shù)。an∈An標示用戶n的一個動作,a-n∈A-n表示除用戶n之外的所有用戶的動作集合。由于用戶之間決策行為存在相互影響,即用戶n的效用函數(shù)Un通常表示為Un(an, a?n),在本文中用戶的效用函數(shù)只與相鄰的用戶的策略有關,
故Un(an, a?n)可以進一步簡化為Un(an, aJn)。本文的優(yōu)化目標是當多個相鄰用戶在同一時間選擇同一信道時的干擾水平最小化。受文獻[7]中的效用函數(shù)的啟發(fā),用戶的效用函數(shù)可以寫成以下表達式:

信道和時隙干擾最小化博弈可以定義如下:

定理1:信道和時隙干擾最小化博弈是一個精確勢能博弈,至少有一個純策略納什均衡點,對應整個網(wǎng)絡的最低干擾水平。
證明:證明過程遵循文獻[7]中定理2.2的證明思路,可證明信道和時隙干擾最小化博弈是一個精確勢能博弈,同時,根據(jù)精確勢能博弈的性質(zhì)可證明納什均衡點的存在性。
上一節(jié)已經(jīng)分析了信道和時隙干擾最小化博弈至少存在一個純策略納什均衡點。由于用戶的超密集部署,難以通過集中式的方法實現(xiàn)全局優(yōu)化,本文嘗試使用分布式的方法來解決這個問題。目前研究中已經(jīng)提出一些分布式的學習方案進行最優(yōu)解的搜索,如空間并發(fā)自適應行動(C-SAP),無悔學習(NRL)算法等。本節(jié)設計了一種基于對獨立修正算法(independent revision process(IRP))的擴展的學習算法,可以使得每個用戶分布式的學習最佳的時頻資源聯(lián)合調(diào)度策略,該算法利用用戶間的差異提高了收斂速度,可以實現(xiàn)了最優(yōu)納什均衡的搜索。

表1 基于分布式學習的時頻資源聯(lián)合調(diào)度算法
在步驟4中,用戶通過不同的概率更新動作選擇。如果當前的動作選擇獲得的回報較大時,用戶保持當前動作選擇的概率較大;而當現(xiàn)在的動作選擇的回報較低時,用戶更愿意進行探測,即更換其他的動作。在獨立修訂算法中,所有用戶以相同的概率δ=exp(?β?m)更新動作選擇。較大的學習參數(shù)β和m導致較少的用戶更新選擇,收斂速度慢;而較小的學習參數(shù)允許大量相鄰用戶同時更新選擇,算法可能無法收斂到納什均衡點,本文中不同用戶的異構學習參數(shù)可以解決這個問題。
考慮一個蜂窩網(wǎng)絡中一個150m×30m的熱點區(qū)域內(nèi)的上行通信傳輸場景。每個微蜂窩基站服務一個最大功率為100mW的用戶。有N個均勻分布的微蜂窩用戶對,且數(shù)量范圍為10到25對。如果兩個蜂窩用戶對之間的距離小于30m,那么它們是相鄰用戶(不同的閾值會導致不同的性能,在文獻[6]中已有研究)。噪聲功率是-130dbm,路徑損耗指數(shù)為4。在下述模型中給出的信道和時隙的數(shù)量是不同的。
(一)學習算法的收斂性
假設在上述的網(wǎng)絡中有40個用戶,信道數(shù)和時隙數(shù)分別為6 和1。圖2通過與并發(fā)空間自適應行動和獨立修正算法的比較顯示了所提算法的收斂性。其中IRP算法和C-SAP算法的學習參數(shù)β分別是200和100,在獨立修正算法中m=k/8。所提的基于分布式學習的時頻資源聯(lián)合調(diào)度算法的參數(shù)設置為δ1=0.01和δ2=0.5, k為迭代次數(shù)。仿真結(jié)果為100次蒙特卡洛獨立試驗的平均值。
圖2表明所有算法的干擾水平隨迭代次數(shù)的增加而減小,而且基于分布式學習的時頻資源聯(lián)合調(diào)度算法收斂到全局最優(yōu)的速度快于其他兩種學習算法,獨立修正算法和空間并發(fā)自適應行動的收斂速度相近。仿真發(fā)現(xiàn),由于獨立修正算法在一次迭代中允許多個用戶同時改變選擇導致其收斂到納什均衡的速度低于空間并發(fā)自適應行動。當β→∞時,每個用戶都做出了最優(yōu)選擇,因此每一次迭代之后干擾水平都會降低。但對于獨立修正算法,所有的用戶都可能會改變其動作選擇,相鄰的用戶可能同時更新動作選擇,干擾水平可能不會在每次迭代后都減小。此外,在獨立修正算法中m的大小對于收斂速度是至關重要,小的 值意味著用戶更愿意更新選擇,而大的m值意味著保持當前選擇的可能性更大。所提出的基于分布式學習的時頻資源聯(lián)合調(diào)度算法考慮到了用戶之間的差異,收斂速度通常快于空間并發(fā)自適應行動算法,而且與空間并發(fā)自適應行動相比,基于分布式學習的時頻資源聯(lián)合調(diào)度算法可以在沒有任何協(xié)調(diào)機制的情況下實現(xiàn),這使得它能更靈活地應用于未來的超密集微蜂窩網(wǎng)絡中。

圖2. 全網(wǎng)干擾水平隨迭代次數(shù)變化曲線

圖3. 不同子信道數(shù)量下平均用戶吞吐量隨用戶數(shù)的變化曲線
(二)吞吐量性能評估
圖3.不同子信道數(shù)量下平均用戶吞吐量隨用戶數(shù)的變化曲線
如圖3所示,在信道數(shù)為1的條件下,每個用戶的平均吞吐量隨用戶數(shù)的增加而減小。若將全部頻譜分為兩個信道,可以使干擾大大減輕,平均吞吐量大幅增加。
本文研究了各種參數(shù)對系統(tǒng)性能的影響。雖然用戶可以獨立地選擇信道和時隙,但并沒有使得平均吞吐量最大化的所需信道數(shù)和時隙數(shù)的先驗信息。通過仿真發(fā)現(xiàn),最大化吞吐量的參數(shù)與特定的場景有關,太多的信道和時隙會增加算法的復雜度和額外開銷,故不需要設置太多時隙來避免相鄰的強干擾。
圖4反映了兩種不同資源調(diào)度方法下的平均吞吐量隨用戶數(shù)的變化。時隙數(shù)隨用戶數(shù)的變化已在文獻[3]的方案中表明,設置。當用戶數(shù)量增加時,每個用戶占用更少的信道和時隙資源,所以用戶的吞吐量下降。結(jié)果表明,如果將頻譜分為兩個信道,用戶可以獲得較高的平均吞吐量。此外,所提方案在超密集部署的微蜂窩網(wǎng)絡中更具優(yōu)勢,較文獻[3]中的方案性能提高了約33%。但在吞吐量能夠滿足用戶最低速率要求的前提下,信道和時隙不能分得太多。

圖4. 不同調(diào)度方案下平均用戶吞吐量隨用戶數(shù)的變化
本文研究微蜂窩基站和用戶隨機分布的蜂窩系統(tǒng)中的分布式信道和時隙聯(lián)合選擇的問題。針對相鄰用戶間用戶決策相互影響的特點,將這個問題建模為一個非合作博弈,證明了這是一個精確勢能博弈,且至少存在一個純策略納什均衡點。為實現(xiàn)該納什均衡的搜索,提出了一個允許所有用戶同時更新選擇的基于分布式學習的時頻資源聯(lián)合調(diào)度算法。仿真表明,所提分布式學習算法能夠收斂到干擾最小化博弈的納什均衡,且相比于其他現(xiàn)有的干擾管理方案有更好的性能。
參考文獻
[1]Chandrasekhar V, Andrews J G, Gatherer A. Femtocell networks: a survey[J]. IEEE Communications Magazine, 2008,46(9):59-67.
[2]Zhang H, Wang Y, Ji H. Resource Optimization Based Interference Management for Hybrid Self-Organized Small Cell Network[J]. IEEE Transactions on Vehicular Technology,2015:1-1.
[3]Ahuja K, Xiao Y, Mihaela V D S. Distributed Interference Management Policies for Heterogeneous Small Cell Networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 33(6):1112-1126.
[4]Ramesh Kumar M R, Bhashyam S, Jalihal D. Throughput improvement for cell-edge users using selective cooperation in cellular networks[C]// Ifip International Conference on Wireless and Optical Communications Networks. 2008:1 - 5.
[5]Samarakoon S, Bennis M, Saad W, et al. Backhaul-Aware Interference Management in the Uplink of Wireless Small Cell Networks[J]. IEEE Transactions on Wireless Communications, 2013, 12(11):5813-5825.
[6]Aliu O G, Imran A, Imran M A, et al. A Survey of Self Organisation in Future Cellular Networks[J]. IEEE Communications Surveys & Tutorials, 2013, 15(1):336-361.
[7]Xu Y, Wang J, Wu Q, et al. Opportunistic Spectrum Access in Cognitive Radio Networks: Global Optimization Using Local Interaction Games[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(2):180-194.
[8]Young H P, Young H P. Individual strategy and social structure[J]. Princeton University, 1998.
[9]Neel J O, Reed J H, Gilles R P. Convergence Of Cognitive Radio Networks[C]// Wireless Communications and Networking Conference, 2004. WCNC. 2004 IEEE. 2004:2250 - 2255 Vol.4.
Marden J R, Shamma J S. Revisiting log-linear learning:Asynchrony, completeness and payoff-based implementation[J]. Ga
作者簡介
楊飛,男,漢族,山東省濱州市,研究生,中國人民解放軍理工大學信息與通信工程。