999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于演化博弈的用戶接入機(jī)制

2020-06-07 07:06:50王月平
計(jì)算機(jī)應(yīng)用 2020年5期
關(guān)鍵詞:機(jī)制用戶策略

王月平,徐 濤

(1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106; 2.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300)(?通信作者電子郵箱84545773@qq.com)

0 引言

隨著網(wǎng)絡(luò)結(jié)構(gòu)的密集化、異構(gòu)化,以及全雙工等新技術(shù)的引入,許多無(wú)線通信網(wǎng)絡(luò)中的基礎(chǔ)問(wèn)題需要進(jìn)行重新研究,用戶接入(user association 或cell association)便是其中之一[1-2]。在無(wú)線通信網(wǎng)絡(luò)特別是超密集異構(gòu)網(wǎng)絡(luò)中,一個(gè)無(wú)線終端通常處于多個(gè)基站的服務(wù)范圍內(nèi)。用戶接入問(wèn)題就是為無(wú)線終端選擇接入某個(gè)基站進(jìn)行服務(wù)和數(shù)據(jù)傳輸?shù)膯?wèn)題,無(wú)論采用何種無(wú)線技術(shù)以及網(wǎng)絡(luò)部署方式,用戶接入機(jī)制都是不可或缺的。同時(shí)用戶接入機(jī)制作為無(wú)線資源管理的第一步,對(duì)于網(wǎng)絡(luò)性能有著重要的影響,在實(shí)現(xiàn)負(fù)載均衡、干擾控制、提高頻譜和能量效率等方面起著非常重要的作用[3]。

異構(gòu)網(wǎng)絡(luò)中的用戶接入機(jī)制可以分為網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)Network-driven,即由網(wǎng)絡(luò)中心節(jié)點(diǎn)作出接入決策;以及用戶端驅(qū)動(dòng)的分布式設(shè)計(jì)User-driven,即由用戶終端作出接入決策。網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)的優(yōu)點(diǎn)就是中心節(jié)點(diǎn)能夠收集網(wǎng)絡(luò)的整體信息,因此可以作出針對(duì)系統(tǒng)整體的最優(yōu)接入決策,代價(jià)就是具有較高的復(fù)雜度。相比而言,用戶端驅(qū)動(dòng)的用戶接入機(jī)制的優(yōu)勢(shì)則具有較低的復(fù)雜度。兩種方案各有其優(yōu)缺點(diǎn),適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)及節(jié)點(diǎn)類型。在超密集異構(gòu)網(wǎng)絡(luò)中,大部分的小基站由不同的組織、機(jī)構(gòu)、甚至個(gè)人(如家庭基站)進(jìn)行部署。針對(duì)這種情況,將面向包含宏基站和全雙工小基站的多層異構(gòu)自組織網(wǎng)絡(luò)研究用戶端驅(qū)動(dòng)的低復(fù)雜度用戶接入機(jī)制。

現(xiàn)有的用戶接入機(jī)制的研究[3-8]與設(shè)計(jì)幾乎都是基于上行下行關(guān)聯(lián)的,即用戶終端在上行和下行必須接入到同一個(gè)基站[9]。對(duì)于單層同構(gòu)網(wǎng)絡(luò)來(lái)說(shuō),這種接入機(jī)制簡(jiǎn)單而有效。首先,采用上下行關(guān)聯(lián)的接入機(jī)制便于網(wǎng)絡(luò)的設(shè)計(jì)與運(yùn)行,特別是便于信令同步、資源管理等;其次,在單層同構(gòu)網(wǎng)絡(luò)中,能提供最好下行連接的基站通常也能提供最好的上行連接。而在多層異構(gòu)網(wǎng)絡(luò)中,存在著不同層次基站之間以及上行下行之間的不對(duì)稱問(wèn)題,即不同層次的基站之間以及上行下行之間通常在發(fā)射功率、覆蓋范圍、信道質(zhì)量、數(shù)據(jù)流量、回程容量以及硬件等方面有較大差別,并且這種不對(duì)稱會(huì)隨著各層基站密度的增加而更加突出。這時(shí)基于上行下行關(guān)聯(lián)的用戶接入將會(huì)嚴(yán)重制約系統(tǒng)的性能,如負(fù)載均衡、干擾、頻譜和能量效率等。例如,當(dāng)采用基于最強(qiáng)下行信號(hào)且上下行關(guān)聯(lián)的用戶接入機(jī)制時(shí),因?yàn)楹昊九c小基站發(fā)射功率存在較大差異,該機(jī)制將會(huì)使大部分用戶都連接到宏基站,從而造成嚴(yán)重的負(fù)載不均衡,并降低了小基站部署的意義。此外基于頻譜效率的考慮,宏基站與小基站通常復(fù)用同一頻譜資源,這時(shí)會(huì)存在以下情況:基于最強(qiáng)下行信號(hào)用戶連接到較遠(yuǎn)的宏基站;然而在進(jìn)行上行數(shù)據(jù)傳輸時(shí),該用戶需要使用較大的傳輸功率來(lái)達(dá)到其上行性能要求,但這樣會(huì)對(duì)附近的小基站造成嚴(yán)重的上行干擾,從而影響網(wǎng)絡(luò)的整體性能并增加自身的能量消耗。為此,上行下行分離的概念被提出[10],即上行傳輸和下行傳輸可以選擇接入不同的基站。上行下行關(guān)聯(lián)的用戶接入可以看作是上下行分離用戶接入的一種特例,因此,從理論上說(shuō)上下行分離可以帶來(lái)更好的性能。初步的仿真研究[11-13]已經(jīng)證明在兩層異構(gòu)網(wǎng)絡(luò)中,簡(jiǎn)單的上行下行分離機(jī)制可以帶來(lái)較大的性能提升,例如,可以提高上行傳輸速率、降低發(fā)射功率和上行干擾,以及實(shí)現(xiàn)更好的負(fù)載均衡等。目前只有少量研究面向超密集異構(gòu)網(wǎng)絡(luò)。考慮到超密集網(wǎng)絡(luò)中基站密度大、用戶接入選擇多的特點(diǎn),一些學(xué)者提出了采用雙連接[14]或者多連接[15]的用戶接入機(jī)制,即用戶可以同時(shí)連接到兩個(gè)或者多個(gè)基站。上述工作目前只研究了最簡(jiǎn)單的多接入機(jī)制,即選擇接入最近的k個(gè)基站,但是沒(méi)有作進(jìn)一步的優(yōu)化設(shè)計(jì)。

本文考慮允許一個(gè)用戶在上行和下行接入多個(gè)不同的基站,將自組織分離多接入問(wèn)題建模成演化博弈問(wèn)題,并用一組微分方程(即復(fù)制者動(dòng)態(tài))來(lái)描述用戶接入策略的選擇調(diào)整過(guò)程;提出了演化均衡作為博弈的均衡解,并分析了其穩(wěn)定性;此外,基于強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法,用戶可以根據(jù)當(dāng)前的策略選擇收益來(lái)進(jìn)行策略調(diào)整,并最終達(dá)到均衡狀態(tài),實(shí)現(xiàn)了用戶之間的公平性。

1 系統(tǒng)建模

1.1 網(wǎng)絡(luò)模型

考慮由1個(gè)宏基站、K個(gè)小基站和N個(gè)用戶組成的雙層異構(gòu)網(wǎng)絡(luò),其中小基站可以進(jìn)行全雙工傳輸。假設(shè)網(wǎng)絡(luò)中的小基站和用戶在空間上都是隨機(jī)分布,在所考慮的網(wǎng)絡(luò)中,將使用提出的分離多接入機(jī)制,其中用戶只在下行時(shí)可以選擇接到宏基站。此外,假設(shè)用戶在上行時(shí)只能選擇接入1個(gè)小基站,而下行時(shí)可以選擇多個(gè)小基站。兩個(gè)節(jié)點(diǎn)i和j之間的信道增益Gi,j可以定義為:

式(3)表示只有接入概率大于0,用戶才能成功訪問(wèn)該信道進(jìn)行數(shù)據(jù)傳輸。

1.2 干擾模型

下面分析一下系統(tǒng)中的干擾情況。與傳統(tǒng)的上行下行耦合的用戶接入方法相比,分離多接入不可避免會(huì)導(dǎo)致節(jié)點(diǎn)之間產(chǎn)生額外的干擾,這又會(huì)影響節(jié)點(diǎn)最后的性能。本節(jié)分別分析上行和下行傳輸中的干擾,具體如下:

上行鏈路傳輸中的干擾 上行鏈路傳輸中,用戶作為發(fā)送端,小基站作為接收端,必須分析小基站收到的干擾情況。每一個(gè)小基站在上行和下行允許多用戶同時(shí)接入,同時(shí),對(duì)于某個(gè)用戶來(lái)說(shuō),能在上行和下行連接到多個(gè)不同的小基站。在這樣的系統(tǒng)中,在小基站接收到的與上行干擾包括3個(gè)部分:來(lái)自其他進(jìn)行下行傳輸全雙工小基站的干擾、來(lái)自其他進(jìn)行上行傳輸?shù)挠脩舻母蓴_,以及自干擾,具體表示為:

下行鏈路傳輸中的干擾 用戶作為下行鏈路傳輸?shù)慕邮照邥?huì)受到其他節(jié)點(diǎn)傳輸?shù)母蓴_。類似的,對(duì)連接到小基站k的UE(User Equipment)的干擾進(jìn)行分析,干擾也包含3個(gè)部分,具體表示如下:

1.3 數(shù)據(jù)傳輸速率

在所考慮的網(wǎng)絡(luò)中,將用戶和小基站之間數(shù)據(jù)傳輸速率作為用戶接入的性能衡量指標(biāo)。顯然,一個(gè)用戶更希望接入到能夠提供更高傳輸速率的小基站。影響傳輸速率的關(guān)鍵因素是小基站能提供的帶寬、發(fā)送功率,以及節(jié)點(diǎn)之間的干擾。對(duì)于給定的小基站k,用戶n連接到k的上行和下行傳輸速率可以用Shannon-Hartley定理計(jì)算:

其中SINRnk是信號(hào)干擾噪聲比。對(duì)于分離多接入,有:

其中σ2是加性高斯白噪聲(Additive White Gaussian Noise,AWGN),假設(shè)對(duì)所有用戶都是一樣的。這樣,用戶n在上行和下行連接到小基站k的上行和下行速率可以相應(yīng)表達(dá)為:

2 演化博弈建模及分析

本文將基于演化博弈來(lái)設(shè)計(jì)用戶端驅(qū)動(dòng)的多接入機(jī)制,演化博弈論是研究有限理性博弈方之間相互作用的數(shù)學(xué)工具。在演化博弈論中,博弈方根據(jù)自己的適應(yīng)度(即收益)選擇策略。在無(wú)線網(wǎng)絡(luò)中,博弈方可以是一定區(qū)域內(nèi)爭(zhēng)奪無(wú)線資源的N個(gè)用戶,這也構(gòu)成了群體。用nl(t)表示t時(shí)刻選擇純策略l∈L的代理人數(shù)量,其中L為純策略集合。標(biāo)準(zhǔn)化變量xl(t)=nl()

t N表示策略l的群體份額,此處所有純策略|L|的群體份額構(gòu)成種群狀態(tài),可以用向量示,其中X是狀態(tài)空間。π(l,x)表示使用純策略l的玩家的期望收益,也表示適應(yīng)度。因此群體的平均收益可以推導(dǎo)為,動(dòng)態(tài)策略適應(yīng)過(guò)程(即演化博弈中的選擇機(jī)制)可用以下微分方程描述的復(fù)制者動(dòng)態(tài)方程來(lái)建模:

其中δ是群體的學(xué)習(xí)速率,控制著選擇變化的速度。根據(jù)復(fù)制者動(dòng)態(tài),預(yù)期收益高于平均收益的策略的總體份額將增加,而預(yù)期收益低于平均收益的策略的總體份額將減少。當(dāng)所有的群體份額不變時(shí),演化均衡就會(huì)達(dá)到(i.e.,x?l=0對(duì)于所有的l∈L)。演化均衡是沿著動(dòng)態(tài)軌跡的不動(dòng)點(diǎn),也就是說(shuō),當(dāng)群體狀態(tài)演化為這樣的固定點(diǎn)時(shí),群體狀態(tài)將保持不變。演化均衡的物理意義是,在這個(gè)均衡中,沒(méi)有一個(gè)個(gè)體想要改變策略因?yàn)樗氖找娴扔诳傮w的平均收益。雖然可能存在多種演化均衡,但并不是所有的均衡都是穩(wěn)定的。

本文采用演化博弈的動(dòng)機(jī)如下:

有限理性假設(shè) 在傳統(tǒng)非合作博弈論中通常假設(shè)博弈方都是完全理性的,即博弈方完全清楚在某個(gè)策略組合下自己的收益和別人的收益,并選擇策略追求自身收益的最大化。這是一個(gè)非常強(qiáng)的假設(shè),在很多實(shí)際情況下無(wú)法滿足該假設(shè),而演化博弈只要求博弈方具有有限理性,即在了解部分收益的情況下,通過(guò)不斷學(xué)習(xí)調(diào)整策略,逐漸提高自己的收益。

博弈動(dòng)態(tài)描述 演化博弈可以對(duì)群體之間各博弈方之間的動(dòng)態(tài)交互進(jìn)行描述建模。一個(gè)博弈方可以觀察到其他博弈方的行為,并從觀察中學(xué)習(xí),然后再作出策略調(diào)整。此外,通過(guò)復(fù)制者動(dòng)態(tài),任意時(shí)間t的博弈狀態(tài)可以被確定,這樣可以用來(lái)研究博弈方策略調(diào)整的一個(gè)軌跡或者趨勢(shì)。

篩選博弈均衡解 在傳統(tǒng)博弈論中,納什均衡是最常用的解的形式。納什均衡能保證在其他博弈方法不偏離均衡策略時(shí),一個(gè)博弈方不能單獨(dú)通過(guò)調(diào)整自己的策略來(lái)獲得更高的收益。然而,在許多情況下,一個(gè)博弈可能有多個(gè)納什均衡解,因此,就需要進(jìn)行均衡解的篩選。在演化博弈中,演化均衡提供了一種篩選方法,并且能保證篩選過(guò)后的解的穩(wěn)定性。

低復(fù)雜度學(xué)習(xí)機(jī)制 在演化博弈中,各博弈可以通過(guò)一些低復(fù)雜度的學(xué)習(xí)機(jī)制來(lái)達(dá)到演化均衡,這在許多對(duì)算法復(fù)雜度要求較高的實(shí)際問(wèn)題中很有用處。

公平性 在演化博弈中,在通過(guò)不斷動(dòng)態(tài)調(diào)整達(dá)到演化均衡狀態(tài)時(shí),選擇不同策略會(huì)得到同樣收益,實(shí)現(xiàn)了公平性。

2.1 問(wèn)題建模

考慮用戶接入的策略動(dòng)態(tài)調(diào)整過(guò)程,建模演化博弈問(wèn)題G=(N,S,π),具體介紹如下:

博弈方 在本文的系統(tǒng)模型中,每個(gè)能接入到小基站的活躍用戶都是一個(gè)博弈方。用N={1,2,…,N}來(lái)表示本博弈中的博弈方的集合。

群體 在演化博弈中,博弈方的集合構(gòu)成了一個(gè)群體。

策略集合 每個(gè)博弈方的策略就是選擇要接入的小基站。需要注意的是,同一群體中的博弈方擁有相同的策略集。

群體比例 指在一個(gè)群體中,選擇某個(gè)策略的博弈方數(shù)量占整個(gè)群體數(shù)量的比例,即xi=ni N,其中i∈S,ni是選擇策略i的博弈方數(shù)量。顯然

群體狀態(tài) 一個(gè)群體中的所有策略的群體比例構(gòu)成了群體狀態(tài),可以通過(guò)[x1,x2,…,xi,…,xs] ∈X來(lái)表示,其中X表示在給定網(wǎng)絡(luò)模型下包含了所有可能群體狀態(tài)的狀態(tài)空間。

收益函數(shù) 每個(gè)用戶作為博弈方需要根據(jù)收益來(lái)調(diào)整其接入策略。在本博弈中,定義一個(gè)博弈方的收益函數(shù)為接入速率和接入費(fèi)用之間的加權(quán)差。其中在不同策略下的用戶速率可以表示為r=[r1,r2,…,ri,…,rs]。根據(jù)系統(tǒng)模型部分的數(shù)據(jù)傳輸速率公式,可以得到:

其中:ku、kd表示用戶n在上行和下行連接到的基站集合,相應(yīng)的速率是連接到每個(gè)小基站的速率之和。基于此,一個(gè)博弈方選擇某個(gè)策略的收益函數(shù)可以定義如下:

其中:λ代表收益權(quán)重,c(bi,pi)是用戶接入小基站的費(fèi)用函數(shù),與分配的帶寬b和發(fā)射功率p相關(guān),具體定義如下:

其中μ和ν分別是單位帶寬和功率的費(fèi)用。

2.2 接入策略動(dòng)態(tài)選擇

正如博弈建模階段所述,用戶接入是一個(gè)動(dòng)態(tài)選擇過(guò)程,每個(gè)博弈方在時(shí)間t會(huì)根據(jù)其收到的效益πi(t)以及當(dāng)前整個(gè)群體的平均收益來(lái)動(dòng)態(tài)調(diào)整其策略,這一過(guò)程不斷重復(fù),從而不斷地提升自己的收益,直到達(dá)到均衡狀態(tài)。可以用復(fù)制者動(dòng)態(tài)來(lái)對(duì)這個(gè)策略動(dòng)態(tài)調(diào)整的過(guò)程建立數(shù)學(xué)模型。復(fù)制者動(dòng)態(tài)是一個(gè)常微分方程表達(dá)如下:

其中:x?i(t)是xi(t)關(guān)于t的微分,代表選擇策略i的群體比例xi的變化率,x?i(t)>0時(shí)表示選擇該策略的博弈方將增加;γ是設(shè)定的學(xué)習(xí)率,用來(lái)控制用戶接入策略調(diào)整的頻率;πˉ(t)是同一群體中所有博弈方的平均收益,可以根據(jù)式(22)計(jì)算得出:

從式(22)可以看出,一個(gè)策略的群體比例變化率與選擇該策略得到的收益與整個(gè)群體平均收益成正比。

即使用復(fù)制者動(dòng)態(tài)來(lái)描述群體比例的動(dòng)態(tài)調(diào)整的過(guò)程中,所有策略的群體比例之和始終為1。為了驗(yàn)證這一點(diǎn),令fi(x)=γxi(t)[πi(t)-πˉ(t)]。首先可以得到,即所有群體比例之和不會(huì)隨時(shí)間變化。此外,還可以得到當(dāng)xi(t)=0時(shí)fi(x)≥0,當(dāng)xi(t)=1時(shí)fi(x)≤0,所以可以保證xi(t)∈ [0,1]。

2.3 演化均衡、演化穩(wěn)定策略分析

復(fù)制者動(dòng)態(tài)描述了所有的群體比例變化率。從用戶接入的復(fù)制者動(dòng)態(tài)方程可以看出,當(dāng)采用某個(gè)策略的收益比群體平均收益要高時(shí)(即πi(t)>πˉ(t),πi(t)-πˉ(t)> 0),相應(yīng)的x?i(t)>0,這表示采用策略i的用戶數(shù)量會(huì)相應(yīng)增加。考慮演化均衡作為該演化博弈的均衡解。演化博弈可以定義為上述復(fù)制者動(dòng)態(tài)中的不動(dòng)點(diǎn),即x?i(t) > 0,?i。根據(jù)定義,演化均衡可以通過(guò)求解一組代數(shù)方程x?i=0,?i得到。

當(dāng)達(dá)到演化均衡時(shí),群體中選擇不同策略能得到相等的收益(即πi(t)=πˉ(t)),因此一方面保證了公平性,另一方面,在達(dá)到均衡時(shí),沒(méi)有博弈方有動(dòng)機(jī)來(lái)改變選擇的策略。需要注意的是,根據(jù)上面方法求解代數(shù)方程可能得到多組演化均衡,其中包括邊界均衡點(diǎn)(即?i,xi=1)以及內(nèi)點(diǎn)均衡點(diǎn)(即x i∈ [0,1],?i)。對(duì)于本文定義的用戶接入演化博弈來(lái)說(shuō),邊界均衡解不是一個(gè)穩(wěn)定的解,任何小的擾動(dòng)都會(huì)讓系統(tǒng)偏離這個(gè)均衡解。相比而言,可以證明所求的內(nèi)點(diǎn)均衡是漸近穩(wěn)定并且是一個(gè)演化穩(wěn)定策略(Evolutionary Stable Strategy,ESS)[8]解。下面首先介紹一下演化穩(wěn)定策略解。

如果對(duì)于任一群體狀態(tài)∈X且y≠x,存在εy∈(0,1)使得ε∈ (0,εy)不等式π(x,εy+(1-ε)x)>π(y,εy+( )1-εx)成立,則均衡群體狀態(tài)x*∈X是演化穩(wěn)定的。演化穩(wěn)定策略(ESS)對(duì)入侵者具有很強(qiáng)的抵抗能力,即群體中所有的突變體最終都會(huì)消失。對(duì)于ESS群體分布,狀態(tài)的微小擾動(dòng)并不影響收斂到均衡態(tài)。物理意義是,擾動(dòng)態(tài)的平均效益小于均衡態(tài)的平均效益。這樣,ESS對(duì)入侵者(即擾動(dòng))具有很強(qiáng)的抵抗力。實(shí)際上,在某些情況下,復(fù)制動(dòng)態(tài)是全局漸近穩(wěn)定的。在這種情況下,任何偏離均衡的地方都會(huì)收斂回均衡。

首先來(lái)證明建立的用戶接入演化博弈是一個(gè)穩(wěn)定群體博弈,因?yàn)橄旅鏃l件對(duì)所有群體狀態(tài)x≠y都滿足:

因此,所建模的演化博弈具有如下均衡是中性穩(wěn)定(neutrally stable)的屬性。此外,根據(jù)復(fù)制者動(dòng)態(tài)的特征方程,其系數(shù)矩陣總是有2M個(gè)負(fù)特征值,這樣表明所建立的復(fù)制者動(dòng)態(tài)具有漸近穩(wěn)定屬性(asymptotically stable property)。因此,用戶接入動(dòng)態(tài)系統(tǒng)能夠從任何非邊界初始群體狀態(tài)漸進(jìn)演化到一個(gè)內(nèi)點(diǎn)演化均衡點(diǎn),因此可以知道所得到的內(nèi)點(diǎn)演化均衡點(diǎn)是一個(gè)演化穩(wěn)定策略解(ESS)。

3 基于演化博弈的分離多接入算法設(shè)計(jì)

針對(duì)基于演化博弈的異構(gòu)網(wǎng)絡(luò)中分離多接入,本文設(shè)計(jì)了兩種具體的實(shí)現(xiàn)算法:第一種方法是基于強(qiáng)化學(xué)習(xí),其中每個(gè)用戶嘗試不同的接入策略,觀察其得到收益,并在必要的條件下嘗試策略調(diào)整;第二種是在強(qiáng)化學(xué)習(xí)的機(jī)基礎(chǔ)上引入了深度學(xué)習(xí),基于深度強(qiáng)化學(xué)習(xí)改進(jìn)了第二種算法。下面具體介紹這兩種算法。

3.1 基于強(qiáng)化學(xué)習(xí)的方法

在無(wú)中心節(jié)點(diǎn)條件下,每個(gè)用戶需要獨(dú)立地通過(guò)嘗試、觀察和學(xué)習(xí)來(lái)調(diào)整策略,并最終達(dá)到均衡狀態(tài)。針對(duì)這一情況,基于Q學(xué)習(xí)(強(qiáng)化學(xué)習(xí)的一種,如圖1所示)設(shè)計(jì)了一個(gè)無(wú)需其他用戶信息的分布式算法(見算法1)。在算法中,使用一個(gè)Q值來(lái)維護(hù)每個(gè)策略的相關(guān)信息。

圖1 強(qiáng)化學(xué)習(xí)架構(gòu)Fig.1 Framework of reinforcement learning

在基于強(qiáng)化學(xué)習(xí)的用戶接入算法中,一個(gè)用戶以概率γ執(zhí)行探索階段,相應(yīng)的以概率1-γ執(zhí)行利用階段。λ是學(xué)習(xí)速率,用來(lái)控制Q值的調(diào)整速率。Q值代表用戶對(duì)未來(lái)迭代過(guò)程中的預(yù)期收益,Q值的更新依賴于之前的Q值與新觀察到的收益值。在這一更新迭代過(guò)程中,用戶通過(guò)與環(huán)境交互學(xué)習(xí)逐漸提高其收益。

3.2 基于深度強(qiáng)化學(xué)習(xí)的方法

傳統(tǒng)的強(qiáng)化學(xué)習(xí)局限于動(dòng)作空間和樣本空間都很小。當(dāng)網(wǎng)絡(luò)規(guī)模增加,可選基站數(shù)量也將會(huì)大幅度增加,從而一個(gè)用戶的可選策略將會(huì)極大增加。上述強(qiáng)化學(xué)習(xí)方法難以有效解決。因此,針對(duì)大狀態(tài)空間和策略空間的情況,進(jìn)一步考慮了基于深度強(qiáng)化學(xué)習(xí)的方法。深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,深度強(qiáng)化學(xué)習(xí)原理框架如圖2所示。

圖2 深度強(qiáng)化學(xué)習(xí)架構(gòu)Fig.2 Architectureof deep reinforcement learning

其學(xué)習(xí)過(guò)程可以描述為:

1)在每個(gè)時(shí)刻Agent與環(huán)境交互得到一個(gè)高維度的觀察,并利用深度學(xué)習(xí)方法來(lái)感知觀察,以得到具體的狀態(tài)特征表示;

2)基于預(yù)期回報(bào)來(lái)評(píng)價(jià)各動(dòng)作的價(jià)值函數(shù),并通過(guò)某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動(dòng)作;

3)環(huán)境對(duì)此動(dòng)作做出反應(yīng),并得到下一個(gè)觀察,通過(guò)不斷循環(huán)以上過(guò)程,最終可以得到實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。

基于深度強(qiáng)化學(xué)習(xí)的算法和上述強(qiáng)化學(xué)習(xí)的一大區(qū)別就是采用一個(gè)深度網(wǎng)絡(luò)代表價(jià)值函數(shù),代替了強(qiáng)化學(xué)習(xí)中的Q表。然后依據(jù)強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)值,為深度網(wǎng)絡(luò)提供目標(biāo)值,對(duì)網(wǎng)絡(luò)不斷更新直至收斂。本文使用的人工神經(jīng)網(wǎng)絡(luò)(Aritifical Neural Network,ANN)架構(gòu)如圖3所示。具體算法過(guò)程與基于強(qiáng)化學(xué)習(xí)算法類似,因此不再贅述。

圖3 ANN架構(gòu)Fig.3 Framework of ANN

4 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證所提方法,本文在Matlab中進(jìn)行仿真。具體考慮一個(gè)包含1個(gè)宏基站、2個(gè)小基站與10個(gè)用戶的異構(gòu)網(wǎng)絡(luò),基站與用戶都隨機(jī)分布在一個(gè)半徑100 m的區(qū)域內(nèi),同時(shí),考慮每個(gè)基站有不同的信道資源。

圖4展示了復(fù)制者動(dòng)態(tài)的收斂性,可以觀察到,經(jīng)過(guò)迭代后,不同策略群體比例最終也從初始狀態(tài)達(dá)到了一個(gè)穩(wěn)定的均衡狀態(tài)。在達(dá)到均衡點(diǎn)后,策略選擇的變化率為0,也就是說(shuō)選擇其他策略對(duì)于該用戶并不能提高收益,因此沒(méi)有偏離均衡策略的動(dòng)機(jī)。這個(gè)均衡點(diǎn)也是復(fù)制者動(dòng)態(tài)的不動(dòng)點(diǎn)。此外,能夠觀察到初始占比較高的策略,在達(dá)到均衡時(shí)占比不一定很高,它反映出了提出的動(dòng)態(tài)接入算法的公平性。

圖4 群體比例演進(jìn)Fig.4 Population proportion evolution

在圖5中,以用戶選擇策略l的收益為例,驗(yàn)證了所提出的兩種算法(基于強(qiáng)化學(xué)習(xí)的算法以及基于深度強(qiáng)化學(xué)習(xí)的算法)的收斂性,并與傳統(tǒng)基于群體狀態(tài)演進(jìn)算法進(jìn)行了比較。可以看到:經(jīng)過(guò)迭代三種算法都收斂到了一個(gè)均衡狀態(tài),并獲得了相應(yīng)的收益;基于深度強(qiáng)化學(xué)習(xí)的方法能較快地收斂,并且能夠獲得較高的收益,而基于群體狀態(tài)演進(jìn)和基于強(qiáng)化學(xué)習(xí)的算法最終能獲得相同的收益。

圖5 不同算法比較(策略i=1)Fig.5 Comparison of different algorithms(i=1)

5 結(jié)語(yǔ)

在本文中,研究了自組織網(wǎng)絡(luò)的用戶接入優(yōu)化問(wèn)題。針對(duì)多層異構(gòu)網(wǎng)絡(luò)特點(diǎn),提出了分離多接入機(jī)制。本文將自組織分離多接入問(wèn)題建模成演化博弈問(wèn)題,其中用戶可以根據(jù)當(dāng)前的策略選擇收益來(lái)進(jìn)行策略調(diào)整,并最終達(dá)到均衡狀態(tài)。使用復(fù)制者動(dòng)態(tài)對(duì)這一策略動(dòng)態(tài)調(diào)整進(jìn)行了數(shù)學(xué)建模。基于群體狀態(tài)演進(jìn)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法。通過(guò)仿真驗(yàn)證了復(fù)制者動(dòng)態(tài)以及所提出算法的收斂性并比較了三種算法的性能。

猜你喜歡
機(jī)制用戶策略
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
高中數(shù)學(xué)復(fù)習(xí)的具體策略
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
破除舊機(jī)制要分步推進(jìn)
如何獲取一億海外用戶
注重機(jī)制的相互配合
主站蜘蛛池模板: 国产一级小视频| 精品夜恋影院亚洲欧洲| 在线观看精品国产入口| 亚洲综合久久一本伊一区| 国产第一页屁屁影院| 都市激情亚洲综合久久| 婷五月综合| 国产对白刺激真实精品91| 亚洲第一成年免费网站| 国产不卡在线看| 久久一色本道亚洲| 欧美色伊人| 一级爱做片免费观看久久| а∨天堂一区中文字幕| 伊人福利视频| 亚洲日韩精品无码专区97| 亚洲人成网站18禁动漫无码| 中文字幕在线观| 国产理论最新国产精品视频| 久久久噜噜噜久久中文字幕色伊伊| 91在线激情在线观看| 99这里只有精品6| 99这里只有精品免费视频| 久久精品丝袜| 国产性生大片免费观看性欧美| 另类欧美日韩| 热99精品视频| 国产人在线成免费视频| 日韩精品专区免费无码aⅴ| 美女无遮挡被啪啪到高潮免费| 国产AV毛片| 欧美日韩中文字幕二区三区| 亚洲第一天堂无码专区| 色成人综合| 国产福利在线观看精品| 亚洲av无码成人专区| 无码乱人伦一区二区亚洲一| 亚洲精品福利视频| 久久熟女AV| 99精品影院| 国产91小视频在线观看| 亚洲综合极品香蕉久久网| 久草视频中文| 999精品色在线观看| 日韩精品成人在线| 精品福利网| AV在线麻免费观看网站| 欧美啪啪一区| 四虎国产精品永久在线网址| 永久免费无码成人网站| 亚洲美女视频一区| 国产精品成| 亚洲最大福利网站| 国产超薄肉色丝袜网站| 婷婷亚洲视频| 欧美专区日韩专区| 性色生活片在线观看| 国产男女免费完整版视频| 粗大猛烈进出高潮视频无码| 国产一级无码不卡视频| 日韩在线永久免费播放| 不卡的在线视频免费观看| 2021精品国产自在现线看| 日韩A∨精品日韩精品无码| 国产女人18毛片水真多1| 亚洲AV电影不卡在线观看| 日韩精品一区二区三区大桥未久| www.youjizz.com久久| 成人国产精品网站在线看| 亚洲AⅤ永久无码精品毛片| 日韩黄色大片免费看| 国产在线无码一区二区三区| 就去色综合| 国产精品永久在线| 国产青青操| 女人18毛片一级毛片在线| 国产精品尤物在线| 黄色网址免费在线| 国产成a人片在线播放| 久久人人妻人人爽人人卡片av| 日韩欧美国产精品| 国产成a人片在线播放|