劉惠茹,馬 琳,徐玉濱
(1.北京機電工程研究所,北京 100074;2.哈爾濱工業大學 通信技術研究所,黑龍江 哈爾濱 150080)
基于Q學習的CDMA/WLAN異構網絡接入控制算法*
劉惠茹1,馬 琳2,徐玉濱2
(1.北京機電工程研究所,北京 100074;2.哈爾濱工業大學 通信技術研究所,黑龍江 哈爾濱 150080)
針對CDMA和WLAN異構網絡環境下用戶呼叫阻塞率高和系統資源利用率低的問題,提出一種結合Q學習的CDMA/WLAN網絡智能接入控制方法。該方法通過將Q學習引入接入控制算法,對網絡的進行網絡狀態離散化處理,并根據各網絡所處的狀態,驅使網絡選擇適合自己的用戶,進而提高系統資源利用率。仿真結果表明,該方法通過Q學習的在線試錯學習,降低了系統阻塞率,從整體上實現兩個網絡中用戶累計回報值的最大化,并獲得智能接入的系統狀態——動作Q值表。
異構網絡;Q學習;接入控制;CDMA;WLAN
現有的CDMA和WLAN網絡接入選擇策略中,常用的接入算法主要分為三類:①基于終端位置算法[2]是在重疊覆蓋區盡可能使用WLAN網絡,當用戶處于高速移動狀態或處于WLAN系統邊緣時,會導致切換頻率加快;②基于信號強度的方法[3]是通過周期性地測量WCDMA和WLAN網絡信號,從而保證服務的持續連接;③基于系統收益的方法[4]引入效用參數,計算目標網絡的代價函數,代價最小說明該網絡具有最多的資源,從而接入到該網絡。
強化學習中的Q學習理論是一種試錯的在線學習技術,智能體通過與環境的交互獲得經驗,并逐步改進其行為策略。隨著Q學習算法研究以及應用的越來越廣泛,近年來已有學者將Q學習算法應用到網絡的接入控制領域,并且取得了一定的成果。文獻[5]提出了一種WCDMA/WLAN異構網絡中適用于多媒體業務的模糊Q學習接入控制算法,采用效用函數方法判斷一個用戶業務請求接入到哪個網絡最為合適。在保證服務質量的同時,將低了對新用戶和切換用戶的阻塞率,增大了系統吞吐量,減少了切換發生率,平衡了兩個網絡的負荷和系統利用率。文獻[6]提出一種基于Q學習的WCDMA系統多速率傳輸控制策略的無線資源管理,將該控制問題根據用戶QoS和傳輸代價建模為一個馬爾科夫決策問題,以實現保證用戶QoS需求的前提下,提高頻譜利用率。2008年,張永靖提出給予Q學習的自主聯合無線資源管理算法[7],即設置一個聯合無線資源管理控制器,通過與環境的交互,學習環境中的知識,進而更有利于采取能夠提高頻譜效用的動作,并且實現了呼叫阻塞率與頻譜效用的折中。文獻[8]則提出一種能夠適應網絡環境動態變化的Q學習異構網絡選擇算法。該算法考慮了網絡的負載情況,并結合呼叫的業務類型、終端在網絡中所處的位置,實現了網絡的自主選擇,降低了系統阻塞率。
鑒于用戶數目和業務類型的增加,網絡狀態呈現出爆炸式增長的問題。同時,為了使用戶獲得更好的網絡接入性能,需要充分利用CDMA和WLAN的網絡特性,挖掘Q學習算法的技術優勢。為此,本文提出一種基于Q學習的異構網絡接入控制方法,以實現對用戶的智能接入控制,提高系統資源利用率。
本文考慮一個CDMA網絡和一個WLAN網絡的情形,且WLAN網絡位于CDMA網絡的覆蓋區域內。
1.1CDMA網絡準入條件
在CDMA網絡中,判斷一個新用戶能否接入需要滿足兩個條件:①接入后是否會影響已有用戶QoS;②網絡能否滿足該呼叫用戶的QoS要求。
CDMA網絡上行鏈路準入條件分析。假設CDMA網絡中用戶數為N,信噪比Eb/N0為每個用戶比特能量與噪聲譜密度之比,用戶i的信噪比為:

式中,W為碼片速率;Pi為來自用戶i的信號接收功率;vi為用戶i的激活因子;Ri為用戶i的比特速率;Itotal是基站處的總接收功率,可表示為:

因此,解得Pi為:

定義Pi=LiItotal,得到一個連接的負載因子Li:

負載因子中考慮來自其他小區的干擾,各條連接負載因子之和ηUL可寫成:

式中,f為其他小區與本小區干擾之比,取0.55[4]。
當上行負載因子ηUL增加時,上行干擾功率Itotal也增加。由文獻[9]可知,預測干擾功率增加量為:

式中,新用戶負載因子ΔL是新連接的負載因子:

CDMA網絡的準入條件需同時滿足:
(1)新的總干擾電平低于門限,即

(2)新的總負載不大于負載門限,即

式中,Ithreshold和ηthreshold為干擾電平和負載門限。
1.2WLAN網絡準入條件
由文獻[10]得到,WLAN網絡信道利用率為:

采用RTS/CTS機制來避免沖突。根據信道利用率,WLAN網絡歸一化吞吐量S可通過式(11)得到:

式中,Tdata是成功傳輸一次數據包所需要的平均時間。WLAN網絡的最大吞吐量只有在非飽和情況下,通過控制沖突概率為一個最優值p*才能達到[10]。此時,WLAN網絡提供的總帶寬為:

式中,B為WLAN網絡的總發射速率。定義WLAN網絡中用戶i的負載為:

式中,bi為用戶i的帶寬,Ba由式(12)決定。因此,有n個用戶的WLAN網絡總負載為:

當一個新用戶接入WLAN網絡后總負載小于負載門限時,該請求才被允許。
由于Q學習算法訓練是利用網絡狀態和選取動作進行迭代并獲得即時回報,從而引導智能體選擇有利于增大系統收益的動作。所以,用戶的選擇過程中,參數對網絡性能有直接的影響。Q學習里的狀態是離散的,需要將CDMA和WLAN網絡中的網絡狀態離散化。同時,即時回報需要深入探討,因為它是智能體在采取某個動作的重要衡量標準,影響著智能體選擇動作的正確性。
2.1網絡狀態離散化
主要采取了取樣試驗和鉆孔壓注水檢查手段,結果均滿足設計要求。通過鉆孔提取芯樣分析,墻體連續性和完整性較好,滿足設計要求。
由于網絡中的最大用戶數和最小用戶數相差較大,均勻離散化網絡狀態會導致網絡中的某些狀態出現次數較少,因此需要仿真更多次數才能使Q學習算法達到收斂。文中充分利用網絡中用戶數的均值和方差來進行網絡離散化處理,有助于Q學習在線學習時保證每一個狀態都能夠被遍歷無數次,加快收斂速度。根據CDMA和WLAN網絡中的用戶數,將分別對兩個網絡的狀態離散為4個,分別用SCDMA和SWLAN表示CDMA和WLAN網絡中離散化后的四個狀態。
CDMA網絡中,狀態SCDMA定義如下:

式中,NCDMA為CDMA網絡當前用戶數;Naver_CDMA為CDMA網絡中的平均用戶數;δCDMA為CDMA網絡中的用戶數方差。根據方差的定義,CDMA網絡用戶數的方差為:

式中,N為CDMA網絡中當前在線用戶數。
同理,WLAN網絡中也可得到類似的表達式。WLAN網絡狀態SWLAN定義如下:

式中,NWLAN為WLAN網絡中當前在線用戶數;Naver_WLAN為WLAN網絡平均用戶數;δWLAN為WLAN網絡用戶數方差:

分別得到CDMA和WLAN兩個網絡中的4個狀態后,考慮異構網絡環境時,則兩兩組合可以組成的狀態總共有16種。每個用戶到達網絡后,智能體可選擇的動作有三個:接入到CDMA系統、接入到WLAN系統和拒絕用戶請求。于是,通過Q學習能得到16行3列的Q值表。
2.2回報函數定義
本文業務屬性函數定義為:若新呼叫用戶為語音業務,用戶接入CDMA網絡,業務屬性η(v,d)=5,用戶接入到WLAN網絡,業務屬性η(v,d)=2,用戶請求被拒絕,業務屬性η(v,d)=0;若新呼叫用戶為數據業務,用戶接入CDMA網絡,業務屬性η(v,d)=2,用戶接入WLAN網絡,業務屬性η(v,d)=5,用戶請求被拒絕,業務屬性η(v,d)=0。
根據用戶請求帶寬和網絡能夠給用戶提供的實際帶寬,定義網絡收益函數[4]。

式中,θ為用戶請求的帶寬,x為當前系統能夠分配給用戶的帶寬。根據網絡收益函數的定義及業務屬性,得到CDMA/WLAN異構網絡的回報函數:

通過Q學習算法的在線學習,獲得即時回報值,該值由式(20)給出。
2.3算法流程
本文綜合考慮CDMA和WLAN網絡中的用戶數、用戶請求速率、業務屬性以及系統實際分配給用戶的速率等諸多因素,利用Q學習算法,根據網絡狀態和回報函數的分析,提出基于Q學習的CDMA/WLAN異構網絡接入控制算法。
算法具體步驟如下:
步驟一:初始化Q(s,α)。初始化Q值表,可以令Q值表中每一個元素都為零或者利用函數產生隨機值,并分別設定初始學習率α和折扣因子γ,設定初始動作選擇探索概率ε。因為Q學習需要通過狀態-動作進行迭代,故需要在迭代過程中快速、高效地遍歷每一個策略空間。避免貪婪算法開始迭代過程中,由于學習的環境知識較少,會“掩蓋”最優策略的問題。為了避免其發生,本文采用Boltzmann[11]搜索方法,在網絡的當前狀態s下,按式(21)定義的概率來選擇動作a,即:

式中,T為模擬退火溫度參數,隨迭代逐漸降為0。
步驟二:獲取當前狀態s。先判斷當前CDMA和WLAN網絡的各業務用戶數,然后根據網絡離散化策略獲得兩個網絡的當前所處狀態,從而判斷出當前網絡所處16個狀態中的位置。
步驟三:選擇執行的動作α。觀察作集合A(CDMA、WLAN和拒絕),根據當前時刻網絡的狀態-動作函數值Qt(s,α),按式(21)給出的概率來選擇動作α,并執行該動作。
步驟四:獲取回報r和下一時刻的狀態s'。根據動作執行的結果,計算當前用戶獲得的回報值R,并獲得網絡下一個狀態的動作值函數的最大值利用式(22)更新Qt(s,α):

步驟五:系統參數更新。每次迭代結束后,更新探索概率和學習率。
步驟六:更新Q值表,最后找到最優的Q值,即:

步驟七:比較前后兩次Q值的變化情況。如果滿足ΔQ( s, a)<ε,?s∈S, a∈A,算法達到收斂,停止計算。否則,重復步驟二到步驟六。
3.1仿真建立
根據以上對Q學習接入控制策略的分析,在CDMA/WLAN異構網絡條件下,考察一個由單一小區重疊覆蓋區域的異構網絡環境,如圖1所示。CDMA和WLAN的覆蓋范圍和小區容量不一樣,假設都支持12.2 kbps和32 kbps的語音和數據兩種業務。用戶達到率服從泊松分布,業務持續時間服從負指數分布。為了驗證所提出的Q學習接入控制算法的性能,仿真評估基于Q學習的CDMA/WLAN異構網絡接入控制策略的系統阻塞率、用戶收益及吞吐量。

圖1 CDMA和WLAN單小區重疊覆蓋場景
根據離散化的16個狀態,可選動作為三個:CDMA網絡、WLAN網絡和拒絕用戶接入。對CDMA/WLAN異構網絡采用Q學習進行接入控制算法訓練,同時根據當前網絡的用戶數判斷網絡所處的狀態,根據Q學習迭代公式進行訓練。仿真10 000次在不同到達率情況下的阻塞率情況,最后給出某個到達率下訓練結束后的Q值表。智能體根據最終Q值表,從為用戶帶來收益的角度選擇最適合異構網絡的最佳動作。CDMA/WLAN系統仿真參數設定如表1所示,并設定語音業務和數據業務的速率與CDMA中的請求速率一樣。

表1 系統仿真參數
3.2結果分析
為了說明本文提出Q學習接入控制方法的性能,本文與WLAN優先接入控制算法的系統阻塞率和長期累計回報值進行比較。圖2和圖3給出了不同用戶到達率情況下系統阻塞率和歸一化的累計回報。

圖2 不同到達率下的系統阻塞率
如圖2所示,本文提出的Q學習接入控制算法比WLAN網絡優先接入控制算法有著更低的阻塞率。因為在WLAN優先接入控制算法中,只考慮了當用戶到達時所有用戶都嘗試接入到WLAN網絡中,而沒有考慮當前兩個網絡的整體情況。例如,當WLAN網絡中用戶數較多時,更多的用戶向WLAN網絡發起呼叫請求,那么呼叫請求被系統引導到CDMA網絡中的用戶數較多。本文提出的Q學習接入控制算法是通過在線學習選擇能夠最大化網絡中用戶總收益的網絡進行接入,能夠從長遠角度考慮,使智能體能夠選擇一個最優的動作。這樣不僅平衡了兩個網絡負荷,同時也降低了系統阻塞率。可見,該Q學習接入控制算法從整體上實現了兩個網絡中用戶累計回報的最大化。
圖3給出了兩種算法在不同到達率下用戶的歸一化累計回報值。可以看出,當采用本文提出的Q學習接入控制算法后,用戶的歸一化累計回報明顯高于WLAN網絡優先接入算法,說明提出的算法在通過學習網絡當前的狀態而采取相應的策略,不僅能夠降低系統阻塞率,同時系統還能得到更高的長期回報,從而驗證了本文提出算法的有效性。

圖3 不同到達率下歸一化用戶累計回報
根據 對網絡狀態進行離散化和定義的回報函數,仿真中分別考慮了CDMA和WLAN網絡的4個狀態組合后形成的16個新的狀態。在給定的每一個用戶到達率下,本文所提出的Q學習異構網絡接入控制方法都能夠獲得一個Q表。假設用戶平均到達率為0.5個/秒,則根據學習結束后獲得的Q表,每個對應的狀態下智能體做出的動作是選擇該狀態行中Q的最大值所對應的動作,如表2所示。

表2 Q學習狀態—動作表
由表2可以得到,當CDMA/WLAN異構網絡系統處于某個狀態時,則找到Q表中對應于該狀態的行,選擇該行中最大值對應的動作執行。例如,當網絡處于第6個狀態時,一個新用戶到達后將接入到CDMA系統中;當網絡處于第12個狀態時,用戶接入到WLAN網絡中;當網絡處于第7個狀態時,新用戶的請求被拒絕。根據該Q表可以實現CDMA和WLAN異構網絡接入控制,不僅能夠降低系統對用戶的阻塞率,還能夠簡單明了得從Q值表中即可實現最佳的接入控制。這樣可以根據該Q值表決定用戶接入到某一個網絡中或者拒絕用戶請求,從而實現CDMA/WLAN異構網絡的智能接入控制。
針對CDMA和WLAN異構網絡接入控制策略的不足以及Q學習的優勢,提出了基于Q學習的接入控制算法。根據網絡中的用戶數分別對兩個網絡的狀態進行離散化處理,并根據用戶的業務類型和用戶收益定義智能體選擇動作所獲得的即時回報。通過對Q學習算法進行仿真迭代,降低了系統阻塞率、提高了用戶的累積回報值和系統資源利用效率,同時得到了一定用戶到達率下的網絡狀態-動作Q表,根據該表可以實現對CDMA/WLAN異構網絡的智能接入控制。
[1] 3rd Generation Partnership Project(3GPP),3GPP System to Wireless Local Area Network(WLAN) Interworking System Description,Release 6,TS 23.234 V6.10.0[S].2006.
[2] Yilmaz O, Furuskar A, Pettersson J, et al.Access Selection in WCDMA and WLAN Muti-access Networks[C].IEEE VTC Spring,2005:2220-2224.
[3] Gordon J. Pareto Process as a Model of Self-simiar Packet Traffic[C].IEEE GLOBECOM,1995(03):2232-2236.
[4] Pei X, Jiang T, Qu D, et al. Radio Resource Management and Access-Control Mechanism based on a Novel Economic Model in Heterogeneous Wireless Networks[J]. IEEE Trans. Veh. Technol.,2010,59(06):3047-3056.
[5] Chen Y, Chang C, Ren F. Q-learning-Based Multirate Transmission Control Scheme for RRM in Multimedia WCDMA Systems[J].IEEE Trans. Veh. Technol.,2004,53(01):38-48.
[6] Chen Y, Chang C, Huang C. Fuzzy Q-Learning Admission Control for WCDMA/WLAN Heterogeneous Networks with Multimedia Traffic[J].IEEE Trans. Mob. Computing,2009,8(11):1469-1479.
[7] 張永靖,馮志勇,張平.基于Q學習的自主聯合無線資源管理算法[J].電子與信息學報,2008,3(03):676-680. ZHANG Yong-jing, FENG Zhi-yong, ZHANG Ping. A Q-learning Based Autonomic Joint Radio Resource Management Algorithm[J].Journal of Electronics & Information Technology, 2008,3(03):676-680.
[8] 趙彥清,朱琦.基于Q學習的異構網絡選擇新算法[J].計算機應用,2011,31(06):1641-1644. ZHAO Yan-qing, ZHU Qi. New Q-learning based Heterogeneous Network Selection Algorithm [J].Journal of Computer Applications. 2011,31 (06): 1641-1644.
[9] Lundin E, Gunnarsson F, Gustafsson. Uplink Load Estimation in WCDMA[C].IEEE Conference Wireless Communications and Networking, 2003:1669-1674.
[10] Zhai H, Chen X, Fang Y. How Well Can the IEEE 802.11 Wireless LAN Support Quality of Service?[J]. IEEE Trans. Wireless Commun.,2005,4(06):3084-3094.
[11] Kaelbling L, Littman M, Wang X, et al. Reinforcement Learning: A Survey[J]. Journal of Artificial Intelligence Research, 1996, 4(02): 237-285.

劉惠茹(1977—),女,碩士,高級工程師,主要研究方向為寬帶移動通信;
馬 琳(1980—),男,博士,副教授,博士生導師,主要研究方向為寬帶移動通信、室內定位技術;
徐玉濱(1954—),男,博士,教授,博士生導師,主要研究方向為寬帶移動通信、室內定位技術。
Q Learning-based Access-Control Algorithm for CDMA/WLAN Heterogeneous Networks
LIU Hui-ru1, MA Lin2, XU Yu-bin2
(1.Beijing Research Institute of Mechanical & Electrical Technology, Beijing 100074, China; 2.Communication Research Center of Harbin University of Technology, Harbin Heilongjiang 150080, China)
in heterogeneous CDMA and WLAN scenario, aiming at the problem of low system-resource utilization and the high blocking probability, a Q learning-based smart access-control algorithm for CDMA/WLAN heterogeneous networks is proposed. By introducing the Q learning method the proposed algorithm, this smart access-control algorithm could thus implement discrete processing of the network states, and based on the states of various networks, make the networks choose proper users for themselves, and via this enhance the system-resource utilization ratio. Simulation results show that by using Q learning to the online study, the proposed algorithm could globally reduce the blocking probability and maximizes the circulative rewards for the users in the two networks, and acquire the system state-action Q learning table for smart access-control.
heterogeneous network; Q learning; access-control; CDMA; WLAN
異構網絡的融合能夠為用戶提供不同業務需求、滿足不同的服務質量(Quality of Service,QoS)要求。鑒于CDMA和WLAN[1]網絡的互補特性、重疊網絡覆蓋及業務的多樣性,使得二者的融合成為必然。松耦合和緊耦合模式為網絡互聯奠定了基礎。網絡接入選擇作為異構網絡融合的關鍵技術之一,是實現CDMA和WLAN異構網絡間無縫連接的關鍵。
National Natural Science Foundation of China (No.61571162);Science and Technology Project of Ministry of Public Security Foundation (No.2015GABJC38);Major National Science and Technology Project(No.2015ZX03004002-004)
TN925.93
A
1002-0802(2016)-08-01017-06
10.3969/j.issn.1002-0802.2016.08.012
2016-04-24;
2016-07-25
date:2016-04-24;Revised date:2016-07-25
國家自然科學基金(No.61571162);公安部科技強警基礎工作專項(No.2015GABJC38);國家科技重大專項子課題(No.2015ZX03004002-004)