999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的自適應(yīng)網(wǎng)絡(luò)覆蓋優(yōu)化算法研究

2022-10-19 13:02:08柳旭東朱曉榮
光通信研究 2022年5期
關(guān)鍵詞:動(dòng)作優(yōu)化模型

柳旭東,趙 夙,朱曉榮

(南京郵電大學(xué) 江蘇省無(wú)線通信重點(diǎn)實(shí)驗(yàn)室,南京 210003)

0 引 言

移動(dòng)通信網(wǎng)絡(luò)在滿足多樣性需求的同時(shí),也要提供高質(zhì)量的服務(wù)支持[1]。因此,穩(wěn)定的廣域覆蓋成為網(wǎng)絡(luò)發(fā)展中首要的技術(shù)保障[2]。

對(duì)于覆蓋問(wèn)題,現(xiàn)階段的研究方法主要為使用最優(yōu)化方法求解基站參數(shù)的最佳調(diào)整值,從而提高覆蓋率。文獻(xiàn)[3]采用了黃金分割搜索;文獻(xiàn)[4]采用了梯度下降法;文獻(xiàn)[5]采用了粒子群算法;文獻(xiàn)[6]采用了模擬退火算法。

上述方法依賴于對(duì)優(yōu)化場(chǎng)景的大量假設(shè),在實(shí)際網(wǎng)絡(luò)運(yùn)行的過(guò)程中,無(wú)線信號(hào)傳播環(huán)境的改變會(huì)影響對(duì)優(yōu)化場(chǎng)景建立假設(shè)的準(zhǔn)確性與靈活性,對(duì)網(wǎng)絡(luò)環(huán)境的應(yīng)變有較大的局限性。若使用現(xiàn)網(wǎng)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)場(chǎng)景模型,在通用性與基站部署環(huán)境的靈敏度上均有較好的表現(xiàn)。此外,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,能夠積累運(yùn)維經(jīng)驗(yàn)并自主形成優(yōu)化策略的人工智能方法,能夠進(jìn)一步提高網(wǎng)絡(luò)運(yùn)維效率[7]。

針對(duì)上述兩個(gè)方面,本文使用將數(shù)據(jù)挖掘與強(qiáng)化學(xué)習(xí)相結(jié)合的思路,使用通過(guò)現(xiàn)網(wǎng)數(shù)據(jù)訓(xùn)練的預(yù)測(cè)模型作為強(qiáng)化學(xué)習(xí)環(huán)境,使用Q學(xué)習(xí)作為優(yōu)化算法的主體,并在動(dòng)作選擇階段,通過(guò)引入優(yōu)先級(jí)調(diào)整智能體選擇動(dòng)作的策略,得到具有自適應(yīng)優(yōu)先級(jí)的Q學(xué)習(xí)。算法仿真表明,使用改進(jìn)的Q學(xué)習(xí)算法可以將覆蓋率提升20%,并有效提高了收斂速度。

1 系統(tǒng)模型

1.1 系統(tǒng)框架

針對(duì)移動(dòng)通信網(wǎng)絡(luò)覆蓋場(chǎng)景,本文提出的覆蓋優(yōu)化系統(tǒng)模型如圖1所示。

圖1 覆蓋優(yōu)化系統(tǒng)模型Figure 1 Block diagram of coverage optimization system

首先,將從現(xiàn)網(wǎng)中采集到的路測(cè)數(shù)據(jù)在無(wú)線網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中進(jìn)行處理,包括數(shù)據(jù)去重、數(shù)據(jù)平衡化以及特征選擇等操作。將處理后的數(shù)據(jù)根據(jù)網(wǎng)絡(luò)覆蓋標(biāo)準(zhǔn),按照弱覆蓋、重疊覆蓋和正常覆蓋3種情況添加標(biāo)簽。隨后將已標(biāo)記數(shù)據(jù)作為訓(xùn)練樣本,進(jìn)行覆蓋預(yù)測(cè)建模,通過(guò)構(gòu)建小區(qū)天線參數(shù)與其接入用戶覆蓋狀況的映射關(guān)系,實(shí)現(xiàn)能夠根據(jù)每個(gè)小區(qū)的不同參數(shù)調(diào)整,輸出該小區(qū)內(nèi)每個(gè)接入終端的覆蓋標(biāo)簽,從而達(dá)到模擬真實(shí)網(wǎng)絡(luò)環(huán)境的效果。本文使用的網(wǎng)絡(luò)覆蓋預(yù)測(cè)模型是隨機(jī)森林 (Random Forest,RF) 算法[8]。RF算法包含多棵決策樹,每棵樹都作為一個(gè)分類器,在進(jìn)行分類時(shí),RF算法會(huì)將決策樹中得到投票最多的標(biāo)簽作為整體的輸出[9]。為保證模型的準(zhǔn)確性,本文在第3節(jié)中使用現(xiàn)網(wǎng)數(shù)據(jù)對(duì)訓(xùn)練好的模型進(jìn)行驗(yàn)證,并列出了覆蓋場(chǎng)景中RF算法與其他常用算法的性能對(duì)比。

隨后,本文提出了一種基于Q學(xué)習(xí)的自適應(yīng)網(wǎng)絡(luò)覆蓋優(yōu)化算法。Q學(xué)習(xí)屬于強(qiáng)化學(xué)習(xí)的一種,通過(guò)學(xué)習(xí)求解出狀態(tài)—?jiǎng)幼髋c預(yù)計(jì)收益的映射表來(lái)實(shí)現(xiàn)優(yōu)化的目的。如圖1中覆蓋優(yōu)化模塊所示,在每輪迭代開始時(shí),智能體觀測(cè)環(huán)境的狀態(tài),即計(jì)算網(wǎng)絡(luò)中的瞬時(shí)覆蓋率,并根據(jù)覆蓋率維護(hù)一個(gè)優(yōu)先級(jí)列表,覆蓋率越低的小區(qū)會(huì)被設(shè)定越高的優(yōu)化級(jí)。隨后選擇需要調(diào)整的小區(qū),以及該小區(qū)的天線電子下傾角和天線發(fā)射功率的調(diào)整值,并將其輸出到環(huán)境中;隨后環(huán)境輸出小區(qū)內(nèi)所有終端的覆蓋情況,通過(guò)統(tǒng)計(jì)計(jì)算得出小區(qū)以及全局的覆蓋率,反饋給智能體一個(gè)獎(jiǎng)勵(lì),智能體通過(guò)最大化獎(jiǎng)勵(lì)不斷與模型交互,求解出在不同網(wǎng)絡(luò)狀況下的最優(yōu)參數(shù)配置方案。

1.2 覆蓋分析

網(wǎng)絡(luò)中的覆蓋問(wèn)題主要分為弱覆蓋與重疊覆蓋。弱覆蓋也叫作覆蓋不足,定義為服務(wù)小區(qū)不能為接入的終端提供有效覆蓋,通常表現(xiàn)為無(wú)主導(dǎo)小區(qū)、覆蓋間隙以及覆蓋盲區(qū)等。重疊覆蓋定義為網(wǎng)內(nèi)小區(qū)為移動(dòng)臺(tái)提供了過(guò)多的有效覆蓋,通常表現(xiàn)為無(wú)主導(dǎo)小區(qū)和主導(dǎo)小區(qū)信噪比低等情況。在移動(dòng)通信網(wǎng)絡(luò)中,衡量覆蓋程度最關(guān)鍵的參數(shù)是參考信號(hào)接收功率(Reference Signal Receiving Power,RSRP)。

弱覆蓋點(diǎn)的判定標(biāo)準(zhǔn)是,若終端從其服務(wù)小區(qū)接收到的RSRP小于閾值K,則認(rèn)為該終端處于弱覆蓋。無(wú)線網(wǎng)絡(luò)優(yōu)化中規(guī)定弱覆蓋判定閾值為-107 dBm。若假設(shè)用戶設(shè)備位置為x,弱覆蓋評(píng)價(jià)函數(shù)可表示為

式中:RSRP(x)為在x位置的參考信號(hào)接收功率大?。籔ointweak為每個(gè)采樣點(diǎn)的覆蓋標(biāo)簽;W為終端采樣點(diǎn)與弱覆蓋閾值的偏差值。若W>0,則處于x位置的終端RSRP低于閾值,將其判定為弱覆蓋樣本點(diǎn),并標(biāo)記Pointweak=1;若W≤0,則將其判定為正常樣本點(diǎn),并標(biāo)記Pointweak=0,表示該終端所處位置不存在弱覆蓋問(wèn)題。

在長(zhǎng)期演進(jìn)(Long Term Evolution,LTE)網(wǎng)絡(luò)中對(duì)重疊覆蓋的判定標(biāo)準(zhǔn)如下:

(1) 移動(dòng)臺(tái)RSRP>-105 dBm表示移動(dòng)臺(tái)可以正常接收有效信號(hào);

(2) 移動(dòng)臺(tái)接收到來(lái)自鄰區(qū)的RSRP與主服務(wù)小區(qū)同頻率,若有當(dāng)前小區(qū)頻率earfcncell和相鄰小區(qū)i的頻率earfncelli,則表示為earfcncell=earfncelli,且信號(hào)強(qiáng)度差值小于6 dB,若有采樣點(diǎn)收到來(lái)自主服務(wù)小區(qū)的參考信號(hào)接收功率RSRPcell和來(lái)自相鄰小區(qū)i的參考信號(hào)接收功率RSRPcelli,則有|RSRPcell-RSRPcelli|<6 dB,表示移動(dòng)臺(tái)收到過(guò)多的有效信號(hào);

(3) 滿足條件(2)的鄰區(qū)數(shù)量≥3個(gè)。

由此,重疊覆蓋的評(píng)價(jià)函數(shù)可表示為

式中:RSRP0為從主服務(wù)小區(qū)接收到的RSRP;RSRPi為來(lái)自第i個(gè)鄰區(qū)的RSRP[10];E為主服務(wù)小區(qū)的RSRP與相鄰小區(qū)的RSRP的差值;celli為在目標(biāo)區(qū)域內(nèi)的基站;neighbors為當(dāng)前主服務(wù)小區(qū)的相鄰小區(qū)集合;Pointover為1表示該樣本所處位置存在重疊覆蓋問(wèn)題,Pointover為0表示該樣本所處位置不存在重疊覆蓋問(wèn)題。

1.3 優(yōu)化參數(shù)

無(wú)線網(wǎng)絡(luò)覆蓋問(wèn)題產(chǎn)生的原因可概括如下:

(1) 不合理的基站選址。

(2) 網(wǎng)絡(luò)規(guī)劃的結(jié)果與實(shí)際的覆蓋效果產(chǎn)生偏差。在網(wǎng)絡(luò)規(guī)劃和部署之初,工作人員會(huì)根據(jù)基站部署地周邊的傳播環(huán)境和地理信息,結(jié)合指定的覆蓋要求做相關(guān)的鏈路預(yù)算,并根據(jù)計(jì)算出的預(yù)留量來(lái)設(shè)定基站工程參數(shù),如天線下傾角和發(fā)射功率等。隨著基站周圍的環(huán)境發(fā)生變化,如產(chǎn)生新的建筑造成遮擋,或產(chǎn)生新的覆蓋需求等原因,最初的基站工程參數(shù)配置已不是最優(yōu)配置。

(3) 基站的硬件設(shè)施故障。

解決弱覆蓋的思路是,在弱覆蓋地區(qū)找到一個(gè)合適的信號(hào),并使之加強(qiáng),加強(qiáng)信號(hào)主要通過(guò)調(diào)整天線的方位角和下傾角等工程參數(shù)以及修改功率等方式實(shí)現(xiàn)。另外在弱場(chǎng)引入遠(yuǎn)端射頻單元(Remote Radio Unit,RRU)拉遠(yuǎn)也可以解決問(wèn)題。重疊覆蓋的解決思路也很明確,就是減小重疊覆蓋小區(qū)的覆蓋范圍,使之對(duì)其他小區(qū)的影響減到最小。對(duì)下傾角和功率等參數(shù)的調(diào)整能夠有效地減輕重疊覆蓋問(wèn)題[11]。

遠(yuǎn)程調(diào)整基站參數(shù)優(yōu)化成本低,可操作性高,是實(shí)際工作中重點(diǎn)研究的優(yōu)化對(duì)象和優(yōu)化手段。此外,為了保證優(yōu)化過(guò)程中不對(duì)網(wǎng)絡(luò)造成負(fù)面影響,要求保證基站的正常運(yùn)作,在改變天線掛高和機(jī)械下傾角時(shí),需要關(guān)閉整個(gè)系統(tǒng),實(shí)際工作中很少調(diào)整這些參數(shù)。本文使用調(diào)整天線的電子下傾角和天線發(fā)射功率作為優(yōu)化手段提升覆蓋率。

1.4 覆蓋預(yù)測(cè)模型

本文采用RF算法構(gòu)建小區(qū)天線參數(shù)與小區(qū)內(nèi)采樣點(diǎn)覆蓋情況的映射關(guān)系,可以根據(jù)小區(qū)調(diào)整后的工程參數(shù)設(shè)置,預(yù)測(cè)出小區(qū)內(nèi)接入終端覆蓋情況的變化。RF算法屬于多分類器系統(tǒng),是集成學(xué)習(xí)算法之一,該算法通過(guò)構(gòu)建并結(jié)合多個(gè)監(jiān)督學(xué)習(xí)模型實(shí)現(xiàn)學(xué)習(xí)任務(wù)。

RF算法是基于集成學(xué)習(xí)框架下的決策樹模型的,其算法流程如下:

(1) 對(duì)于數(shù)據(jù)集合大小為N的訓(xùn)練集合,隨機(jī)有放回地從中抽取N條數(shù)據(jù)樣本作為決策樹的訓(xùn)練集合,重復(fù)K次,產(chǎn)生K組訓(xùn)練集合;

(2) 從總量為L(zhǎng)的特征向量中隨機(jī)選擇l個(gè)特征;

(3) 利用已選取的l個(gè)特征訓(xùn)練決策樹;

(4) 使用加權(quán)投票法產(chǎn)生最終預(yù)測(cè)結(jié)果H(x):

式中:wi為決策樹的預(yù)測(cè)權(quán)重;hi(x)為每個(gè)決策樹的預(yù)測(cè)結(jié)果。

因?yàn)镽F算法在訓(xùn)練過(guò)程中引入了隨機(jī)樣本與隨機(jī)特征,使得訓(xùn)練后的模型不容易陷入過(guò)擬合。此外由于多棵決策樹的組合,使得RF算法在處理非線性數(shù)據(jù)時(shí)也能得到較好的效果,這些特性使得RF算法在網(wǎng)絡(luò)覆蓋預(yù)測(cè)的應(yīng)用場(chǎng)景中能夠有出色的表現(xiàn)。

1.5 優(yōu)化目標(biāo)

將單個(gè)小區(qū)的網(wǎng)絡(luò)覆蓋率表示為該小區(qū)內(nèi)正常接入的終端采樣點(diǎn)與總終端采樣點(diǎn)的比值,若用Point表示小區(qū)內(nèi)的采樣點(diǎn),則有:

式中:ratiowhole為全局覆蓋率;ratiocelli為第i個(gè)小區(qū)的覆蓋率;M為小區(qū)總數(shù)。覆蓋優(yōu)化的目標(biāo)為弱覆蓋率和重疊覆蓋率最小,即最大化全局覆蓋率。具體地,每次迭代產(chǎn)生小區(qū)的天線參數(shù)調(diào)整值,將其輸入到覆蓋預(yù)測(cè)模型中,對(duì)小區(qū)內(nèi)所有采樣點(diǎn)更新覆蓋標(biāo)簽,進(jìn)而計(jì)算出小區(qū)覆蓋率。需要強(qiáng)調(diào)的是,式(7)中計(jì)算全局覆蓋率的方式為所有小區(qū)的覆蓋率加權(quán)和,為消除每個(gè)小區(qū)終端數(shù)量的差異帶來(lái)的全局覆蓋率計(jì)算偏差,在進(jìn)行仿真前保證每個(gè)小區(qū)中采樣點(diǎn)數(shù)量近似。

2 基于強(qiáng)化學(xué)習(xí)的覆蓋優(yōu)化算法

2.1 強(qiáng)化學(xué)習(xí)概述

強(qiáng)化學(xué)習(xí)是一類特定的機(jī)器學(xué)習(xí)問(wèn)題,一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)由環(huán)境與智能體兩部分組成,智能體通過(guò)觀察環(huán)境,做出行動(dòng),隨后獲取來(lái)自環(huán)境的獎(jiǎng)勵(lì),因此強(qiáng)化學(xué)習(xí)是一個(gè)通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何最大化獎(jiǎng)勵(lì)的優(yōu)化過(guò)程,本文使用Q學(xué)習(xí)作為覆蓋優(yōu)化算法。

若定義回報(bào)Gt為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)和,則有:

式中:t為一個(gè)確定性的變量,表示回合數(shù);T為回合的總步數(shù),是一個(gè)隨機(jī)變量;γ為折扣系數(shù);R為獎(jiǎng)勵(lì)信號(hào)。基于回報(bào)的定義,可以得到Q學(xué)習(xí)中對(duì)于價(jià)值函數(shù)qπ的表示:

式中:St為當(dāng)前狀態(tài);At為當(dāng)前動(dòng)作;s為屬于狀態(tài)空間S內(nèi)的狀態(tài);a為屬于動(dòng)作空間A中的動(dòng)作;π為策略;E為期望。將π定義為從狀態(tài)到動(dòng)作的轉(zhuǎn)移概率,表示為

式中:P為動(dòng)作為a且狀態(tài)為s的轉(zhuǎn)移概率。

強(qiáng)化學(xué)習(xí)訓(xùn)練智能體的目的在于,在迭代的過(guò)程中,通過(guò)最大化回報(bào)來(lái)求解出最優(yōu)策略。對(duì)于不同的策略π和π',若有任意s∈S,都有qπ(s,a)

式中,q*(s,a)為最優(yōu)(動(dòng)作)價(jià)值函數(shù)。

若有不止一個(gè)動(dòng)作使得q*(s,a)最大,則隨機(jī)選取一個(gè)動(dòng)作執(zhí)行即可[12]。q*(s,a)可表示為

式中,maxπ為在策略π下的最大動(dòng)作狀態(tài)函數(shù)值。

強(qiáng)化學(xué)習(xí)框圖如圖2所示,在每次迭代過(guò)程中,Q學(xué)習(xí)智能體將本次迭代所調(diào)整的小區(qū)編號(hào)、天線電子下傾角與天線發(fā)射功率作為動(dòng)作輸入到覆蓋預(yù)測(cè)模型中,該模型會(huì)遍歷小區(qū)中所有的采樣點(diǎn),輸出與該小區(qū)對(duì)應(yīng)的每個(gè)采樣點(diǎn)的覆蓋標(biāo)簽,從而計(jì)算出小區(qū)的覆蓋率,以提高覆蓋率為依據(jù),環(huán)境在每一輪迭代中向智能體反饋獎(jiǎng)勵(lì)信號(hào),智能體根據(jù)獎(jiǎng)勵(lì)信號(hào)更新價(jià)值函數(shù)。Q學(xué)習(xí)算法的輸出是一張Q值表格,表示在每一個(gè)網(wǎng)絡(luò)覆蓋狀態(tài)s下,選取優(yōu)化動(dòng)作a所能帶來(lái)的回報(bào),回報(bào)越高,表示選擇該動(dòng)作對(duì)于覆蓋率的提升有越好的效果。

圖2 強(qiáng)化學(xué)習(xí)框圖Figure 2 Reinforcement learning block diagram

2.2 Q學(xué)習(xí)問(wèn)題映射

針對(duì)網(wǎng)絡(luò)覆蓋優(yōu)化場(chǎng)景的Q學(xué)習(xí)問(wèn)題,映射分為狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、Q值更新以及改進(jìn)的自適應(yīng)優(yōu)先級(jí)動(dòng)作搜索算法5個(gè)方面,下面依次進(jìn)行說(shuō)明。

2.2.1 狀態(tài)空間

將Q學(xué)習(xí)算法應(yīng)用在網(wǎng)絡(luò)覆蓋優(yōu)化場(chǎng)景中時(shí),需要對(duì)狀態(tài)空間進(jìn)行一定的設(shè)置和約束。Q學(xué)習(xí)的狀態(tài)反映了當(dāng)前的無(wú)線網(wǎng)絡(luò)性能狀態(tài),在本文的覆蓋優(yōu)化場(chǎng)景中,智能體每次選擇區(qū)域中多個(gè)小區(qū)中的一個(gè)小區(qū)作為優(yōu)化目標(biāo),調(diào)整其天線參數(shù)配置。將調(diào)整后的網(wǎng)絡(luò)覆蓋率和本輪迭代被調(diào)整的小區(qū)作為Q學(xué)習(xí)的狀態(tài),因此,本文描述的覆蓋優(yōu)化問(wèn)題所對(duì)應(yīng)的狀態(tài)空間State可表示為

式中:Currenteci為當(dāng)前調(diào)整的小區(qū)編號(hào);Coverageeci為該小區(qū)對(duì)應(yīng)的局部覆蓋率;Coveragetotal為整個(gè)待優(yōu)化區(qū)域的全局覆蓋率。

2.2.2 動(dòng)作空間

本文中涉及的覆蓋優(yōu)化問(wèn)題是小區(qū)天線電子下傾角和天線發(fā)射功率的多維優(yōu)化問(wèn)題,因此將本文的動(dòng)作集合Action設(shè)置為

式中:actioneci為選擇調(diào)整參數(shù)的小區(qū)編號(hào);actiondown_tilt和actionpower分別為天線電子下傾角和天線發(fā)射功率的調(diào)整,可表示為{increase,keep,decrease},分別為增加、保持當(dāng)前不變和減少3個(gè)動(dòng)作,在仿真部分會(huì)針對(duì)不同的調(diào)整步長(zhǎng)做比較分析。

2.2.3 獎(jiǎng)勵(lì)函數(shù)

(1)治療:對(duì)照組--抗感染治療,青霉素靜點(diǎn)200-2000萬(wàn)U/d;祛痰治療,口服氯化銨0.3-0.6g/次;病情較嚴(yán)重者以利尿?yàn)橹鲗?shí)施微循環(huán)改善輔助治療,可使用藥物為硝酸甘油(10-200ug/min)。觀察組--在對(duì)照組治療方法基礎(chǔ)上,用冠心寧改善患者血液循環(huán),若患者出現(xiàn)水腫伴心力衰竭,靜推20-40mg/次。臨床治療需對(duì)兩組患者進(jìn)行密切觀察與記錄,根據(jù)患者病情加減藥物。

Q學(xué)習(xí)作為強(qiáng)化學(xué)習(xí)的經(jīng)典模型,學(xué)習(xí)的最終目標(biāo)是構(gòu)建一個(gè)q(s,a)值表格,這個(gè)表格反映了在每個(gè)狀態(tài)下選擇不同動(dòng)作的收益,值越大表示該動(dòng)作所帶來(lái)的收益越高,收益由獎(jiǎng)勵(lì)信號(hào)通過(guò)式(8)和式(9)得出。

獎(jiǎng)勵(lì)信號(hào)為環(huán)境系統(tǒng)對(duì)于智能體上一步操作的評(píng)價(jià)。小區(qū)天線參數(shù)調(diào)整的目標(biāo)是提高基站覆蓋率,即將處于重疊覆蓋或弱覆蓋的接入終端數(shù)量降到最低,因此Q學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào)參考全局覆蓋率變化這一個(gè)量綱,由式(6)和式(7)得出。若有coveragecur表示當(dāng)前覆蓋率,coveragepast表示上一時(shí)刻覆蓋率,n表示獎(jiǎng)勵(lì)的取值,則對(duì)獎(jiǎng)勵(lì)函數(shù)Reward的計(jì)算可表示為

當(dāng)全局覆蓋率提升時(shí),表示當(dāng)前小區(qū)的參數(shù)調(diào)整為積極有效的調(diào)整,此時(shí)應(yīng)反饋給智能體一個(gè)正值獎(jiǎng)勵(lì);若全局覆蓋率下降,則表示當(dāng)前調(diào)整為消極錯(cuò)誤的調(diào)整,應(yīng)反饋給智能體一個(gè)負(fù)值獎(jiǎng)勵(lì);此外,當(dāng)全局覆蓋率在一次迭代后維持不變時(shí),也應(yīng)該反饋給智能體一個(gè)較小的負(fù)值獎(jiǎng)勵(lì),表示當(dāng)前的調(diào)整為無(wú)效調(diào)整,這樣的設(shè)置可以縮短優(yōu)化算法的收斂時(shí)長(zhǎng)。

2.2.4Q值更新

在起始階段,Q表中的每一個(gè)值會(huì)被隨機(jī)賦值,當(dāng)智能體每采取一個(gè)動(dòng)作并執(zhí)行后,就會(huì)產(chǎn)生一個(gè)相應(yīng)的回報(bào),智能體以此回報(bào)更新Q表內(nèi)的數(shù)值。Q表中的值可以根據(jù)價(jià)值函數(shù)來(lái)進(jìn)行更新,價(jià)值函數(shù)的更新可表示為

式中:Qt(s,a)為狀態(tài)—?jiǎng)幼鲗?duì)在t時(shí)刻的值函數(shù);αt∈[0,1]為學(xué)習(xí)因子,用于控制學(xué)習(xí)速度,其值越大收斂速度越快,但是可能導(dǎo)致無(wú)法獲得最優(yōu)解;若有rt表示Q學(xué)習(xí)中當(dāng)前瞬時(shí)的回報(bào)值,則(rt+γmaxa'(Qt(s',a')))為主要的更新內(nèi)容。

2.2.5 改進(jìn)的自適應(yīng)優(yōu)先級(jí)動(dòng)作搜索算法

策略更新算法可能會(huì)以一個(gè)并不好的策略作為起始,在迭代過(guò)程中僅僅經(jīng)過(guò)一些較差的狀態(tài),導(dǎo)致更好狀態(tài)的價(jià)值函數(shù)沒(méi)有得到更新,伴隨著回合更新次數(shù)的增加,最優(yōu)策略卻沒(méi)有找到。為解決此問(wèn)題,可使用貪心策略進(jìn)行動(dòng)作選擇,用于在迭代過(guò)程中覆蓋所有的狀態(tài)動(dòng)作對(duì)。貪心策略可表示為

針對(duì)覆蓋優(yōu)化場(chǎng)景,本文將自適應(yīng)小區(qū)優(yōu)化優(yōu)先級(jí)的概念融入上述貪心策略。對(duì)于一個(gè)由多個(gè)小區(qū)組成的區(qū)域,全局覆蓋率可以由各個(gè)小區(qū)覆蓋率的加權(quán)累和求出,如1.5節(jié)式(7)所示。對(duì)于式(17)所示的傳統(tǒng)貪心策略,選擇動(dòng)作時(shí),有a∈A(s),表示從所有的小區(qū)編號(hào)、天線電子下傾角調(diào)整值和發(fā)射功率調(diào)整值的所有組合中選取一個(gè)動(dòng)作,因此可以縮小動(dòng)作空間A(s)的范圍為A'(s)。具體地,在計(jì)算每個(gè)小區(qū)的覆蓋率之后,智能體可以優(yōu)先選擇覆蓋率較低的小區(qū)進(jìn)行調(diào)整,根據(jù)小區(qū)覆蓋率列表,將動(dòng)作空間縮小為A'(s)=[ECImin,Tilt,Power],式中,Tilt為基站天線的電子下傾角;Power為天線的發(fā)射功率;ECImin為覆蓋率最低的小區(qū),即對(duì)于每一個(gè)時(shí)刻,智能體優(yōu)先選擇覆蓋率最低的小區(qū),在確定了優(yōu)化目標(biāo)小區(qū)后,使用貪心策略和Q值表,從參數(shù)組合中選擇執(zhí)行的動(dòng)作。使用自適應(yīng)優(yōu)先級(jí)的動(dòng)作算法會(huì)加速算法收斂,優(yōu)化曲線更加平滑,提高優(yōu)化效果和效率。

綜上所述,改進(jìn)的自適應(yīng)優(yōu)先級(jí)動(dòng)作搜索算法的實(shí)現(xiàn)過(guò)程如下:

輸入:環(huán)境、策略π。

輸出:動(dòng)作價(jià)值函數(shù)q(s,a)。

1.初始化:q(s,a)←任意值,s∈S,a∈A。若有終止?fàn)顟B(tài)send,則令q(send,a)←0,a∈A。

2.對(duì)每個(gè)回合執(zhí)行以下操作:

2.1.初始化狀態(tài)動(dòng)作對(duì):選擇狀態(tài)s。

2.2.如回合未結(jié)束,執(zhí)行以下操作:

2.2.1.以celli為單位,計(jì)算覆蓋率并將其存入數(shù)組Dict[i],并用i表示對(duì)應(yīng)的索引位置;

2.2.2.選擇覆蓋率最小的ECImin;

2.2.3.在狀態(tài)s下,按照改進(jìn)的貪心策略決定動(dòng)作a;

2.2.4.執(zhí)行動(dòng)作a,觀測(cè)得到獎(jiǎng)勵(lì)R和新狀態(tài)s';

2.2.5.計(jì)算回報(bào)的估計(jì)值U:

U←R+γmaxa∈A(S')q(S',a) ;

更新q(s,a)以減小[U-q(S,A)]2。

3 仿真結(jié)果與分析

為驗(yàn)證算法的可行性,本文使用來(lái)自江蘇省南京市2020年7月某7天內(nèi)的蜂窩網(wǎng)絡(luò)數(shù)據(jù),在北緯 31.770~31.784 °,東經(jīng)118.820~118.862 °,約4.23 km2區(qū)域內(nèi)采樣。

3.1 數(shù)據(jù)說(shuō)明

本文使用的數(shù)據(jù)字段及其說(shuō)明如表1和表2所示。

表1 基站側(cè)數(shù)據(jù)

表2 采樣點(diǎn)數(shù)據(jù)

表1基站側(cè)的相關(guān)字段中,E-CGI由4部分組成:移動(dòng)國(guó)家碼、移動(dòng)網(wǎng)絡(luò)碼、位置區(qū)號(hào)碼和小區(qū)標(biāo)識(shí)碼。在采樣點(diǎn)側(cè)屬性中,ECI為小區(qū)編號(hào),提取基站側(cè)屬性E-CGI中的位置區(qū)號(hào)碼和小區(qū)標(biāo)識(shí)碼字段,通過(guò)ECI將終端采樣點(diǎn)數(shù)據(jù)與對(duì)其進(jìn)行服務(wù)的小區(qū)數(shù)據(jù)進(jìn)行關(guān)聯(lián)拼接,作為一條完整的樣本數(shù)據(jù),即拼接后的數(shù)據(jù)中既包含終端采樣點(diǎn)的數(shù)據(jù),也包含該終端接入小區(qū)的工程參數(shù)配置數(shù)據(jù),該樣本數(shù)據(jù)用于訓(xùn)練覆蓋預(yù)測(cè)模型。

3.2 數(shù)據(jù)處理

本文使用數(shù)據(jù)來(lái)自于城市配送服務(wù)工作者配備的路測(cè)設(shè)備,因此采集到的數(shù)據(jù)中會(huì)夾雜重復(fù)數(shù)據(jù),此外,還存在部分字段值缺失的數(shù)據(jù)。在數(shù)據(jù)處理時(shí),首先應(yīng)該對(duì)冗余和無(wú)效數(shù)據(jù)進(jìn)行清除,隨后對(duì)數(shù)據(jù)添加覆蓋標(biāo)簽,以用于訓(xùn)練覆蓋預(yù)測(cè)模型。文本按照式(2)和式(4),將正常采樣點(diǎn)標(biāo)記為0,將處于弱覆蓋的采樣點(diǎn)標(biāo)記為1,處于重疊覆蓋的采樣點(diǎn)標(biāo)記為2。最終得到6 880條數(shù)據(jù),標(biāo)簽為0的采樣點(diǎn)數(shù)據(jù)量為5 941條,占比86.3%;標(biāo)簽為1的數(shù)據(jù)量為447條,占比6.5%;標(biāo)簽為2的數(shù)據(jù)量為939條,占比13.6%。這是一個(gè)典型的不平衡數(shù)據(jù)集。使用類別標(biāo)簽失衡的數(shù)據(jù)集進(jìn)行訓(xùn)練,會(huì)導(dǎo)致模型失效。合成少數(shù)類過(guò)采樣(Synthetic Minority Over-sampling Techique,SMOTE)算法一直是解決不平衡數(shù)據(jù)集的一個(gè)有效方法[13],本文通過(guò)SMOTE欠采樣與過(guò)采樣結(jié)合的方法,首先對(duì)大樣本數(shù)據(jù)進(jìn)行欠采樣,隨后對(duì)重疊覆蓋以及弱覆蓋采樣點(diǎn)進(jìn)行過(guò)采樣。平衡化前后的采樣點(diǎn)分布如圖3所示,由圖可知,在保證合理分布的情況下,增加了弱覆蓋和重疊覆蓋這些小樣本數(shù)據(jù)的數(shù)量。

圖3 樣本分布Figure 3 Distribution of Samples

3.3 模型驗(yàn)證

本文使用基于強(qiáng)化學(xué)習(xí)的覆蓋優(yōu)化方法,是在覆蓋預(yù)測(cè)模型的基礎(chǔ)上進(jìn)行迭代優(yōu)化,因此覆蓋預(yù)測(cè)模型的準(zhǔn)確度是一個(gè)十分重要的性能指標(biāo)。

本文選擇的參與模型訓(xùn)練的特征包括:基站位置信息(經(jīng)度和緯度)、接入終端位置信息(經(jīng)度和緯度)、基站和基站與接入終端的距離信息、天線方位角、天線電子下傾角、天線機(jī)械下傾角和基站站高。

為了驗(yàn)證預(yù)測(cè)模型的準(zhǔn)確性,將帶標(biāo)簽的現(xiàn)網(wǎng)數(shù)據(jù)集合按比例切分為訓(xùn)練集合與測(cè)試集合,使用訓(xùn)練集合訓(xùn)練模型;隨后使用測(cè)試集合來(lái)驗(yàn)證模型的預(yù)測(cè)性能。測(cè)試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集擁有相同的結(jié)構(gòu),但對(duì)于模型來(lái)說(shuō)屬于陌生數(shù)據(jù)。將使用預(yù)測(cè)模型得到的標(biāo)簽與測(cè)試數(shù)據(jù)集中真實(shí)的標(biāo)簽計(jì)算,得到預(yù)測(cè)模型的準(zhǔn)確率。

RF算法與其他標(biāo)準(zhǔn)分類算法的性能比較如表3所示。其中原始數(shù)據(jù)表示直接使用未經(jīng)過(guò)數(shù)據(jù)清洗的數(shù)據(jù),特征工程表示使用經(jīng)過(guò)平衡化并對(duì)特征進(jìn)行歸一化處理后的樣本數(shù)據(jù)。

表3 預(yù)測(cè)模型準(zhǔn)確率對(duì)比

對(duì)比結(jié)果表明,RF算法對(duì)于新的輸入數(shù)據(jù)具有很好的預(yù)測(cè)效果,且RF算法相較于其他預(yù)測(cè)算法,具有更好的預(yù)測(cè)性能。

3.4 優(yōu)化結(jié)果分析

圖4所示為覆蓋優(yōu)化過(guò)程的迭代對(duì)比圖,使用基于改進(jìn)的Q學(xué)習(xí)算法,并將天線下傾角調(diào)整步長(zhǎng)設(shè)置為1 °,天線發(fā)射功率調(diào)整步長(zhǎng)設(shè)置為10 dBm時(shí),將強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)值n取值為10,傳統(tǒng)的Q學(xué)習(xí)在每一輪迭代中,隨機(jī)選取一個(gè)小區(qū)進(jìn)行優(yōu)化,改進(jìn)算法在優(yōu)化過(guò)程中,優(yōu)化動(dòng)作被限定在覆蓋率最低的小區(qū)所對(duì)應(yīng)的動(dòng)作空間中,因此在覆蓋率提升方面呈現(xiàn)出穩(wěn)定的逐步上升趨勢(shì),有更穩(wěn)定的表現(xiàn)。在減少大量波動(dòng)的情況下,迭代至1 400次時(shí)趨于收斂,相較于傳統(tǒng)算法,收斂速度也得到了提升。優(yōu)化后總覆蓋率提升接近20%。

圖4 覆蓋優(yōu)化迭代對(duì)比Figure 4 Iterative comparison of coverage optimization

圖5所示為對(duì)于天線下傾角和天線發(fā)射功率不同調(diào)整步長(zhǎng)的迭代曲線對(duì)比。分別將天線下傾角和天線發(fā)射功率的調(diào)整步長(zhǎng)設(shè)置為1 °和5 dBm、1 °和7 dBm、1 °和10 dBm、2 °和5 dBm以及2 °和10 dBm。由圖可見(jiàn),當(dāng)天線下傾角調(diào)整步長(zhǎng)設(shè)置為1 °,天線發(fā)射功率調(diào)整步長(zhǎng)調(diào)整為5 dBm時(shí),算法擁有最快的收斂速度;當(dāng)天線下傾角調(diào)整步長(zhǎng)為2 °,天線發(fā)射功率調(diào)整步長(zhǎng)設(shè)置為10 dBm時(shí),收斂最慢,因此可知,仿真使用數(shù)據(jù)的覆蓋率對(duì)于天線發(fā)射功率較為敏感,使用小步長(zhǎng)動(dòng)作空間的收斂速度明顯優(yōu)于使用大步長(zhǎng)的。

圖5 覆蓋優(yōu)化參數(shù)對(duì)比Figure 5 Comparison of coverage optimization parameters

需要指出的是,覆蓋問(wèn)題可能由多個(gè)因素造成,針對(duì)天線下傾角和發(fā)射功率的覆蓋優(yōu)化并不能解決所有的覆蓋問(wèn)題,在工程中,如果始終未能達(dá)到理想的覆蓋效果,應(yīng)該考慮多種因素和對(duì)應(yīng)的解決方案。

4 結(jié)束語(yǔ)

針對(duì)移動(dòng)通信網(wǎng)絡(luò)覆蓋場(chǎng)景,本文提出了基于Q學(xué)習(xí)的自適應(yīng)網(wǎng)絡(luò)覆蓋優(yōu)化算法,使用RF模型模擬網(wǎng)絡(luò)環(huán)境,并以此作為Q學(xué)習(xí)的環(huán)境,使用基于優(yōu)先級(jí)的動(dòng)作決策算法進(jìn)行覆蓋優(yōu)化,減少了對(duì)于環(huán)境假設(shè)以及數(shù)學(xué)建模的依賴。通過(guò)改進(jìn)的Q學(xué)習(xí)算法,優(yōu)化區(qū)域覆蓋率提升達(dá)到20%,有效降低了重疊覆蓋率與弱覆蓋率,同時(shí)相較于傳統(tǒng)的Q學(xué)習(xí)算法,將收斂速度提升至1 500次內(nèi),此外縮小天線參數(shù)調(diào)整的步長(zhǎng),可以將收斂速度進(jìn)一步提升。相較于啟發(fā)式天線參數(shù)優(yōu)化算法,本文提出的算法具有經(jīng)驗(yàn)積累和自主優(yōu)化的優(yōu)勢(shì),訓(xùn)練后的模型能夠識(shí)別覆蓋問(wèn)題,并快速做出優(yōu)化決策;與針對(duì)仿真場(chǎng)景提出的天線參數(shù)優(yōu)化方法相比,本算法從實(shí)際的網(wǎng)絡(luò)場(chǎng)景出發(fā),使用現(xiàn)網(wǎng)數(shù)據(jù)訓(xùn)練模型,具有一定的工程實(shí)踐基礎(chǔ)以及運(yùn)維工作指導(dǎo)意義。

根據(jù)本文研究?jī)?nèi)容,下一步需要將優(yōu)化問(wèn)題擴(kuò)展為小區(qū)容量與覆蓋聯(lián)合優(yōu)化模型,在保證覆蓋率的同時(shí)合理地分配網(wǎng)絡(luò)資源[14]。

猜你喜歡
動(dòng)作優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
動(dòng)作描寫要具體
畫動(dòng)作
動(dòng)作描寫不可少
主站蜘蛛池模板: 成人福利在线视频| 亚洲第一成网站| 国产91色在线| 在线综合亚洲欧美网站| 亚洲香蕉在线| 91福利国产成人精品导航| 精品欧美视频| 99精品影院| 久久国产精品无码hdav| 日本黄色a视频| 国产精品刺激对白在线| 97综合久久| 国产在线精品香蕉麻豆| 久青草网站| 国产www网站| 久青草免费在线视频| 亚洲中文在线视频| 国产精品女人呻吟在线观看| 免费精品一区二区h| 国产青榴视频| 欧美精品一区在线看| 久久美女精品| 国产精品专区第1页| 国产午夜人做人免费视频| 综合色区亚洲熟妇在线| 国产成人综合久久精品下载| 永久成人无码激情视频免费| 美女啪啪无遮挡| 亚洲欧美成人综合| 亚洲视屏在线观看| 日本久久久久久免费网络| 免费啪啪网址| 福利一区在线| 欧美日韩高清在线| 精品福利视频导航| 四虎影视库国产精品一区| 国产在线观看人成激情视频| 日韩第一页在线| 2020国产精品视频| 自慰网址在线观看| 国产永久在线视频| 成人伊人色一区二区三区| 欧美日韩国产系列在线观看| 欧美亚洲日韩不卡在线在线观看| 成人国产免费| 韩日午夜在线资源一区二区| 精品人妻无码中字系列| 国产特级毛片aaaaaaa高清| 欧美激情第一欧美在线| 四虎国产永久在线观看| 亚洲综合中文字幕国产精品欧美 | 国产男人天堂| 91色在线观看| 亚洲视频在线观看免费视频| 夜夜爽免费视频| 欧美亚洲第一页| 97久久超碰极品视觉盛宴| 久久久久国产一级毛片高清板| 国产久草视频| 国产高清在线观看91精品| 亚洲激情区| 免费欧美一级| 精品久久久久久中文字幕女| 欧美福利在线播放| 色偷偷一区二区三区| 青青草综合网| 91在线免费公开视频| 日本精品中文字幕在线不卡 | 久久99国产乱子伦精品免| 国产主播福利在线观看| Jizz国产色系免费| 国产福利小视频在线播放观看| 一本大道视频精品人妻| 亚洲首页在线观看| 免费观看三级毛片| 特级毛片免费视频| 国产成人久视频免费| 国产午夜在线观看视频| 91精品专区| 亚洲天堂视频在线观看免费| 国产女人在线视频| 91免费国产在线观看尤物|