基于演化博弈的用戶接入機(jī)制

2020-06-07 07:06:50王月平

計(jì)算機(jī)應(yīng)用 2020年5期

王月平，徐濤

（1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，南京211106； 2.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，天津300300）（?通信作者電子郵箱84545773@qq.com）

0 引言

隨著網(wǎng)絡(luò)結(jié)構(gòu)的密集化、異構(gòu)化，以及全雙工等新技術(shù)的引入，許多無(wú)線通信網(wǎng)絡(luò)中的基礎(chǔ)問(wèn)題需要進(jìn)行重新研究，用戶接入（user association 或cell association）便是其中之一［1-2］。在無(wú)線通信網(wǎng)絡(luò)特別是超密集異構(gòu)網(wǎng)絡(luò)中，一個(gè)無(wú)線終端通常處于多個(gè)基站的服務(wù)范圍內(nèi)。用戶接入問(wèn)題就是為無(wú)線終端選擇接入某個(gè)基站進(jìn)行服務(wù)和數(shù)據(jù)傳輸?shù)膯?wèn)題，無(wú)論采用何種無(wú)線技術(shù)以及網(wǎng)絡(luò)部署方式，用戶接入機(jī)制都是不可或缺的。同時(shí)用戶接入機(jī)制作為無(wú)線資源管理的第一步，對(duì)于網(wǎng)絡(luò)性能有著重要的影響，在實(shí)現(xiàn)負(fù)載均衡、干擾控制、提高頻譜和能量效率等方面起著非常重要的作用［3］。

異構(gòu)網(wǎng)絡(luò)中的用戶接入機(jī)制可以分為網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)Network-driven，即由網(wǎng)絡(luò)中心節(jié)點(diǎn)作出接入決策；以及用戶端驅(qū)動(dòng)的分布式設(shè)計(jì)User-driven，即由用戶終端作出接入決策。網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)的優(yōu)點(diǎn)就是中心節(jié)點(diǎn)能夠收集網(wǎng)絡(luò)的整體信息，因此可以作出針對(duì)系統(tǒng)整體的最優(yōu)接入決策，代價(jià)就是具有較高的復(fù)雜度。相比而言，用戶端驅(qū)動(dòng)的用戶接入機(jī)制的優(yōu)勢(shì)則具有較低的復(fù)雜度。兩種方案各有其優(yōu)缺點(diǎn)，適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)及節(jié)點(diǎn)類型。在超密集異構(gòu)網(wǎng)絡(luò)中，大部分的小基站由不同的組織、機(jī)構(gòu)、甚至個(gè)人（如家庭基站）進(jìn)行部署。針對(duì)這種情況，將面向包含宏基站和全雙工小基站的多層異構(gòu)自組織網(wǎng)絡(luò)研究用戶端驅(qū)動(dòng)的低復(fù)雜度用戶接入機(jī)制。

現(xiàn)有的用戶接入機(jī)制的研究［3-8］與設(shè)計(jì)幾乎都是基于上行下行關(guān)聯(lián)的，即用戶終端在上行和下行必須接入到同一個(gè)基站［9］。對(duì)于單層同構(gòu)網(wǎng)絡(luò)來(lái)說(shuō)，這種接入機(jī)制簡(jiǎn)單而有效。首先，采用上下行關(guān)聯(lián)的接入機(jī)制便于網(wǎng)絡(luò)的設(shè)計(jì)與運(yùn)行，特別是便于信令同步、資源管理等；其次，在單層同構(gòu)網(wǎng)絡(luò)中，能提供最好下行連接的基站通常也能提供最好的上行連接。而在多層異構(gòu)網(wǎng)絡(luò)中，存在著不同層次基站之間以及上行下行之間的不對(duì)稱問(wèn)題，即不同層次的基站之間以及上行下行之間通常在發(fā)射功率、覆蓋范圍、信道質(zhì)量、數(shù)據(jù)流量、回程容量以及硬件等方面有較大差別，并且這種不對(duì)稱會(huì)隨著各層基站密度的增加而更加突出。這時(shí)基于上行下行關(guān)聯(lián)的用戶接入將會(huì)嚴(yán)重制約系統(tǒng)的性能，如負(fù)載均衡、干擾、頻譜和能量效率等。例如，當(dāng)采用基于最強(qiáng)下行信號(hào)且上下行關(guān)聯(lián)的用戶接入機(jī)制時(shí)，因?yàn)楹昊九c小基站發(fā)射功率存在較大差異，該機(jī)制將會(huì)使大部分用戶都連接到宏基站，從而造成嚴(yán)重的負(fù)載不均衡，并降低了小基站部署的意義。此外基于頻譜效率的考慮，宏基站與小基站通常復(fù)用同一頻譜資源，這時(shí)會(huì)存在以下情況：基于最強(qiáng)下行信號(hào)用戶連接到較遠(yuǎn)的宏基站；然而在進(jìn)行上行數(shù)據(jù)傳輸時(shí)，該用戶需要使用較大的傳輸功率來(lái)達(dá)到其上行性能要求，但這樣會(huì)對(duì)附近的小基站造成嚴(yán)重的上行干擾，從而影響網(wǎng)絡(luò)的整體性能并增加自身的能量消耗。為此，上行下行分離的概念被提出［10］，即上行傳輸和下行傳輸可以選擇接入不同的基站。上行下行關(guān)聯(lián)的用戶接入可以看作是上下行分離用戶接入的一種特例，因此，從理論上說(shuō)上下行分離可以帶來(lái)更好的性能。初步的仿真研究［11-13］已經(jīng)證明在兩層異構(gòu)網(wǎng)絡(luò)中，簡(jiǎn)單的上行下行分離機(jī)制可以帶來(lái)較大的性能提升，例如，可以提高上行傳輸速率、降低發(fā)射功率和上行干擾，以及實(shí)現(xiàn)更好的負(fù)載均衡等。目前只有少量研究面向超密集異構(gòu)網(wǎng)絡(luò)。考慮到超密集網(wǎng)絡(luò)中基站密度大、用戶接入選擇多的特點(diǎn)，一些學(xué)者提出了采用雙連接［14］或者多連接［15］的用戶接入機(jī)制，即用戶可以同時(shí)連接到兩個(gè)或者多個(gè)基站。上述工作目前只研究了最簡(jiǎn)單的多接入機(jī)制，即選擇接入最近的k個(gè)基站，但是沒(méi)有作進(jìn)一步的優(yōu)化設(shè)計(jì)。

本文考慮允許一個(gè)用戶在上行和下行接入多個(gè)不同的基站，將自組織分離多接入問(wèn)題建模成演化博弈問(wèn)題，并用一組微分方程（即復(fù)制者動(dòng)態(tài)）來(lái)描述用戶接入策略的選擇調(diào)整過(guò)程；提出了演化均衡作為博弈的均衡解，并分析了其穩(wěn)定性；此外，基于強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法，用戶可以根據(jù)當(dāng)前的策略選擇收益來(lái)進(jìn)行策略調(diào)整，并最終達(dá)到均衡狀態(tài)，實(shí)現(xiàn)了用戶之間的公平性。

1 系統(tǒng)建模

1.1 網(wǎng)絡(luò)模型

考慮由1個(gè)宏基站、K個(gè)小基站和N個(gè)用戶組成的雙層異構(gòu)網(wǎng)絡(luò)，其中小基站可以進(jìn)行全雙工傳輸。假設(shè)網(wǎng)絡(luò)中的小基站和用戶在空間上都是隨機(jī)分布，在所考慮的網(wǎng)絡(luò)中，將使用提出的分離多接入機(jī)制，其中用戶只在下行時(shí)可以選擇接到宏基站。此外，假設(shè)用戶在上行時(shí)只能選擇接入1個(gè)小基站，而下行時(shí)可以選擇多個(gè)小基站。兩個(gè)節(jié)點(diǎn)i和j之間的信道增益Gi，j可以定義為：

式（3）表示只有接入概率大于0，用戶才能成功訪問(wèn)該信道進(jìn)行數(shù)據(jù)傳輸。

1.2 干擾模型

下面分析一下系統(tǒng)中的干擾情況。與傳統(tǒng)的上行下行耦合的用戶接入方法相比，分離多接入不可避免會(huì)導(dǎo)致節(jié)點(diǎn)之間產(chǎn)生額外的干擾，這又會(huì)影響節(jié)點(diǎn)最后的性能。本節(jié)分別分析上行和下行傳輸中的干擾，具體如下：

上行鏈路傳輸中的干擾上行鏈路傳輸中，用戶作為發(fā)送端，小基站作為接收端，必須分析小基站收到的干擾情況。每一個(gè)小基站在上行和下行允許多用戶同時(shí)接入，同時(shí)，對(duì)于某個(gè)用戶來(lái)說(shuō)，能在上行和下行連接到多個(gè)不同的小基站。在這樣的系統(tǒng)中，在小基站接收到的與上行干擾包括3個(gè)部分：來(lái)自其他進(jìn)行下行傳輸全雙工小基站的干擾、來(lái)自其他進(jìn)行上行傳輸?shù)挠脩舻母蓴_，以及自干擾，具體表示為：

下行鏈路傳輸中的干擾用戶作為下行鏈路傳輸?shù)慕邮照邥?huì)受到其他節(jié)點(diǎn)傳輸?shù)母蓴_。類似的，對(duì)連接到小基站k的UE（User Equipment）的干擾進(jìn)行分析，干擾也包含3個(gè)部分，具體表示如下：

1.3 數(shù)據(jù)傳輸速率

在所考慮的網(wǎng)絡(luò)中，將用戶和小基站之間數(shù)據(jù)傳輸速率作為用戶接入的性能衡量指標(biāo)。顯然，一個(gè)用戶更希望接入到能夠提供更高傳輸速率的小基站。影響傳輸速率的關(guān)鍵因素是小基站能提供的帶寬、發(fā)送功率，以及節(jié)點(diǎn)之間的干擾。對(duì)于給定的小基站k，用戶n連接到k的上行和下行傳輸速率可以用Shannon-Hartley定理計(jì)算：

其中SINRnk是信號(hào)干擾噪聲比。對(duì)于分離多接入，有：

其中σ2是加性高斯白噪聲（Additive White Gaussian Noise，AWGN），假設(shè)對(duì)所有用戶都是一樣的。這樣，用戶n在上行和下行連接到小基站k的上行和下行速率可以相應(yīng)表達(dá)為：

2 演化博弈建模及分析

本文將基于演化博弈來(lái)設(shè)計(jì)用戶端驅(qū)動(dòng)的多接入機(jī)制，演化博弈論是研究有限理性博弈方之間相互作用的數(shù)學(xué)工具。在演化博弈論中，博弈方根據(jù)自己的適應(yīng)度（即收益）選擇策略。在無(wú)線網(wǎng)絡(luò)中，博弈方可以是一定區(qū)域內(nèi)爭(zhēng)奪無(wú)線資源的N個(gè)用戶，這也構(gòu)成了群體。用nl(t)表示t時(shí)刻選擇純策略l∈L的代理人數(shù)量，其中L為純策略集合。標(biāo)準(zhǔn)化變量xl(t)=nl()

t N表示策略l的群體份額，此處所有純策略|L|的群體份額構(gòu)成種群狀態(tài)，可以用向量示，其中X是狀態(tài)空間。π(l，x)表示使用純策略l的玩家的期望收益，也表示適應(yīng)度。因此群體的平均收益可以推導(dǎo)為，動(dòng)態(tài)策略適應(yīng)過(guò)程（即演化博弈中的選擇機(jī)制）可用以下微分方程描述的復(fù)制者動(dòng)態(tài)方程來(lái)建模：

其中δ是群體的學(xué)習(xí)速率，控制著選擇變化的速度。根據(jù)復(fù)制者動(dòng)態(tài)，預(yù)期收益高于平均收益的策略的總體份額將增加，而預(yù)期收益低于平均收益的策略的總體份額將減少。當(dāng)所有的群體份額不變時(shí)，演化均衡就會(huì)達(dá)到（i.e.，x?l=0對(duì)于所有的l∈L）。演化均衡是沿著動(dòng)態(tài)軌跡的不動(dòng)點(diǎn)，也就是說(shuō)，當(dāng)群體狀態(tài)演化為這樣的固定點(diǎn)時(shí)，群體狀態(tài)將保持不變。演化均衡的物理意義是，在這個(gè)均衡中，沒(méi)有一個(gè)個(gè)體想要改變策略因?yàn)樗氖找娴扔诳傮w的平均收益。雖然可能存在多種演化均衡，但并不是所有的均衡都是穩(wěn)定的。

本文采用演化博弈的動(dòng)機(jī)如下：

有限理性假設(shè) 在傳統(tǒng)非合作博弈論中通常假設(shè)博弈方都是完全理性的，即博弈方完全清楚在某個(gè)策略組合下自己的收益和別人的收益，并選擇策略追求自身收益的最大化。這是一個(gè)非常強(qiáng)的假設(shè)，在很多實(shí)際情況下無(wú)法滿足該假設(shè)，而演化博弈只要求博弈方具有有限理性，即在了解部分收益的情況下，通過(guò)不斷學(xué)習(xí)調(diào)整策略，逐漸提高自己的收益。

博弈動(dòng)態(tài)描述演化博弈可以對(duì)群體之間各博弈方之間的動(dòng)態(tài)交互進(jìn)行描述建模。一個(gè)博弈方可以觀察到其他博弈方的行為，并從觀察中學(xué)習(xí)，然后再作出策略調(diào)整。此外，通過(guò)復(fù)制者動(dòng)態(tài)，任意時(shí)間t的博弈狀態(tài)可以被確定，這樣可以用來(lái)研究博弈方策略調(diào)整的一個(gè)軌跡或者趨勢(shì)。

篩選博弈均衡解在傳統(tǒng)博弈論中，納什均衡是最常用的解的形式。納什均衡能保證在其他博弈方法不偏離均衡策略時(shí)，一個(gè)博弈方不能單獨(dú)通過(guò)調(diào)整自己的策略來(lái)獲得更高的收益。然而，在許多情況下，一個(gè)博弈可能有多個(gè)納什均衡解，因此，就需要進(jìn)行均衡解的篩選。在演化博弈中，演化均衡提供了一種篩選方法，并且能保證篩選過(guò)后的解的穩(wěn)定性。

低復(fù)雜度學(xué)習(xí)機(jī)制在演化博弈中，各博弈可以通過(guò)一些低復(fù)雜度的學(xué)習(xí)機(jī)制來(lái)達(dá)到演化均衡，這在許多對(duì)算法復(fù)雜度要求較高的實(shí)際問(wèn)題中很有用處。

公平性在演化博弈中，在通過(guò)不斷動(dòng)態(tài)調(diào)整達(dá)到演化均衡狀態(tài)時(shí)，選擇不同策略會(huì)得到同樣收益，實(shí)現(xiàn)了公平性。

2.1 問(wèn)題建模

考慮用戶接入的策略動(dòng)態(tài)調(diào)整過(guò)程，建模演化博弈問(wèn)題G=(N，S，π)，具體介紹如下：

博弈方在本文的系統(tǒng)模型中，每個(gè)能接入到小基站的活躍用戶都是一個(gè)博弈方。用N={1，2，…，N}來(lái)表示本博弈中的博弈方的集合。

群體在演化博弈中，博弈方的集合構(gòu)成了一個(gè)群體。

策略集合每個(gè)博弈方的策略就是選擇要接入的小基站。需要注意的是，同一群體中的博弈方擁有相同的策略集。

群體比例指在一個(gè)群體中，選擇某個(gè)策略的博弈方數(shù)量占整個(gè)群體數(shù)量的比例，即xi=ni N，其中i∈S，ni是選擇策略i的博弈方數(shù)量。顯然

群體狀態(tài) 一個(gè)群體中的所有策略的群體比例構(gòu)成了群體狀態(tài)，可以通過(guò)[x1，x2，…，xi，…，xs] ∈X來(lái)表示，其中X表示在給定網(wǎng)絡(luò)模型下包含了所有可能群體狀態(tài)的狀態(tài)空間。

收益函數(shù) 每個(gè)用戶作為博弈方需要根據(jù)收益來(lái)調(diào)整其接入策略。在本博弈中，定義一個(gè)博弈方的收益函數(shù)為接入速率和接入費(fèi)用之間的加權(quán)差。其中在不同策略下的用戶速率可以表示為r=[r1，r2，…，ri，…，rs]。根據(jù)系統(tǒng)模型部分的數(shù)據(jù)傳輸速率公式，可以得到：

其中：ku、kd表示用戶n在上行和下行連接到的基站集合，相應(yīng)的速率是連接到每個(gè)小基站的速率之和。基于此，一個(gè)博弈方選擇某個(gè)策略的收益函數(shù)可以定義如下：

其中：λ代表收益權(quán)重，c(bi，pi)是用戶接入小基站的費(fèi)用函數(shù)，與分配的帶寬b和發(fā)射功率p相關(guān)，具體定義如下：

其中μ和ν分別是單位帶寬和功率的費(fèi)用。

2.2 接入策略動(dòng)態(tài)選擇

正如博弈建模階段所述，用戶接入是一個(gè)動(dòng)態(tài)選擇過(guò)程，每個(gè)博弈方在時(shí)間t會(huì)根據(jù)其收到的效益πi(t)以及當(dāng)前整個(gè)群體的平均收益來(lái)動(dòng)態(tài)調(diào)整其策略，這一過(guò)程不斷重復(fù)，從而不斷地提升自己的收益，直到達(dá)到均衡狀態(tài)。可以用復(fù)制者動(dòng)態(tài)來(lái)對(duì)這個(gè)策略動(dòng)態(tài)調(diào)整的過(guò)程建立數(shù)學(xué)模型。復(fù)制者動(dòng)態(tài)是一個(gè)常微分方程表達(dá)如下：

其中：x?i(t)是xi(t)關(guān)于t的微分，代表選擇策略i的群體比例xi的變化率，x?i(t)＞0時(shí)表示選擇該策略的博弈方將增加；γ是設(shè)定的學(xué)習(xí)率，用來(lái)控制用戶接入策略調(diào)整的頻率；πˉ(t)是同一群體中所有博弈方的平均收益，可以根據(jù)式（22）計(jì)算得出：

從式（22）可以看出，一個(gè)策略的群體比例變化率與選擇該策略得到的收益與整個(gè)群體平均收益成正比。

即使用復(fù)制者動(dòng)態(tài)來(lái)描述群體比例的動(dòng)態(tài)調(diào)整的過(guò)程中，所有策略的群體比例之和始終為1。為了驗(yàn)證這一點(diǎn)，令fi(x)=γxi(t)[πi(t)-πˉ(t)]。首先可以得到，即所有群體比例之和不會(huì)隨時(shí)間變化。此外，還可以得到當(dāng)xi(t)=0時(shí)fi(x)≥0，當(dāng)xi(t)=1時(shí)fi(x)≤0，所以可以保證xi(t)∈ [0，1]。

2.3 演化均衡、演化穩(wěn)定策略分析

復(fù)制者動(dòng)態(tài)描述了所有的群體比例變化率。從用戶接入的復(fù)制者動(dòng)態(tài)方程可以看出，當(dāng)采用某個(gè)策略的收益比群體平均收益要高時(shí)（即πi(t)＞πˉ(t)，πi(t)-πˉ(t)＞ 0），相應(yīng)的x?i(t)＞0，這表示采用策略i的用戶數(shù)量會(huì)相應(yīng)增加。考慮演化均衡作為該演化博弈的均衡解。演化博弈可以定義為上述復(fù)制者動(dòng)態(tài)中的不動(dòng)點(diǎn)，即x?i(t) ＞ 0，?i。根據(jù)定義，演化均衡可以通過(guò)求解一組代數(shù)方程x?i=0，?i得到。

當(dāng)達(dá)到演化均衡時(shí)，群體中選擇不同策略能得到相等的收益（即πi(t)=πˉ(t)），因此一方面保證了公平性，另一方面，在達(dá)到均衡時(shí)，沒(méi)有博弈方有動(dòng)機(jī)來(lái)改變選擇的策略。需要注意的是，根據(jù)上面方法求解代數(shù)方程可能得到多組演化均衡，其中包括邊界均衡點(diǎn)（即?i，xi=1）以及內(nèi)點(diǎn)均衡點(diǎn)（即x i∈ [0，1]，?i）。對(duì)于本文定義的用戶接入演化博弈來(lái)說(shuō)，邊界均衡解不是一個(gè)穩(wěn)定的解，任何小的擾動(dòng)都會(huì)讓系統(tǒng)偏離這個(gè)均衡解。相比而言，可以證明所求的內(nèi)點(diǎn)均衡是漸近穩(wěn)定并且是一個(gè)演化穩(wěn)定策略（Evolutionary Stable Strategy，ESS）［8］解。下面首先介紹一下演化穩(wěn)定策略解。

如果對(duì)于任一群體狀態(tài)∈X且y≠x，存在εy∈(0，1)使得ε∈ (0，εy)不等式π(x，εy+(1-ε)x)＞π(y，εy+( )1-εx)成立，則均衡群體狀態(tài)x*∈X是演化穩(wěn)定的。演化穩(wěn)定策略（ESS）對(duì)入侵者具有很強(qiáng)的抵抗能力，即群體中所有的突變體最終都會(huì)消失。對(duì)于ESS群體分布，狀態(tài)的微小擾動(dòng)并不影響收斂到均衡態(tài)。物理意義是，擾動(dòng)態(tài)的平均效益小于均衡態(tài)的平均效益。這樣，ESS對(duì)入侵者（即擾動(dòng)）具有很強(qiáng)的抵抗力。實(shí)際上，在某些情況下，復(fù)制動(dòng)態(tài)是全局漸近穩(wěn)定的。在這種情況下，任何偏離均衡的地方都會(huì)收斂回均衡。

首先來(lái)證明建立的用戶接入演化博弈是一個(gè)穩(wěn)定群體博弈，因?yàn)橄旅鏃l件對(duì)所有群體狀態(tài)x≠y都滿足：

因此，所建模的演化博弈具有如下均衡是中性穩(wěn)定（neutrally stable）的屬性。此外，根據(jù)復(fù)制者動(dòng)態(tài)的特征方程，其系數(shù)矩陣總是有2M個(gè)負(fù)特征值，這樣表明所建立的復(fù)制者動(dòng)態(tài)具有漸近穩(wěn)定屬性（asymptotically stable property）。因此，用戶接入動(dòng)態(tài)系統(tǒng)能夠從任何非邊界初始群體狀態(tài)漸進(jìn)演化到一個(gè)內(nèi)點(diǎn)演化均衡點(diǎn)，因此可以知道所得到的內(nèi)點(diǎn)演化均衡點(diǎn)是一個(gè)演化穩(wěn)定策略解（ESS）。

3 基于演化博弈的分離多接入算法設(shè)計(jì)

針對(duì)基于演化博弈的異構(gòu)網(wǎng)絡(luò)中分離多接入，本文設(shè)計(jì)了兩種具體的實(shí)現(xiàn)算法：第一種方法是基于強(qiáng)化學(xué)習(xí)，其中每個(gè)用戶嘗試不同的接入策略，觀察其得到收益，并在必要的條件下嘗試策略調(diào)整；第二種是在強(qiáng)化學(xué)習(xí)的機(jī)基礎(chǔ)上引入了深度學(xué)習(xí)，基于深度強(qiáng)化學(xué)習(xí)改進(jìn)了第二種算法。下面具體介紹這兩種算法。

3.1 基于強(qiáng)化學(xué)習(xí)的方法

在無(wú)中心節(jié)點(diǎn)條件下，每個(gè)用戶需要獨(dú)立地通過(guò)嘗試、觀察和學(xué)習(xí)來(lái)調(diào)整策略，并最終達(dá)到均衡狀態(tài)。針對(duì)這一情況，基于Q學(xué)習(xí)（強(qiáng)化學(xué)習(xí)的一種，如圖1所示）設(shè)計(jì)了一個(gè)無(wú)需其他用戶信息的分布式算法（見算法1）。在算法中，使用一個(gè)Q值來(lái)維護(hù)每個(gè)策略的相關(guān)信息。

圖1 強(qiáng)化學(xué)習(xí)架構(gòu)Fig.1 Framework of reinforcement learning

在基于強(qiáng)化學(xué)習(xí)的用戶接入算法中，一個(gè)用戶以概率γ執(zhí)行探索階段，相應(yīng)的以概率1-γ執(zhí)行利用階段。λ是學(xué)習(xí)速率，用來(lái)控制Q值的調(diào)整速率。Q值代表用戶對(duì)未來(lái)迭代過(guò)程中的預(yù)期收益，Q值的更新依賴于之前的Q值與新觀察到的收益值。在這一更新迭代過(guò)程中，用戶通過(guò)與環(huán)境交互學(xué)習(xí)逐漸提高其收益。

3.2 基于深度強(qiáng)化學(xué)習(xí)的方法

傳統(tǒng)的強(qiáng)化學(xué)習(xí)局限于動(dòng)作空間和樣本空間都很小。當(dāng)網(wǎng)絡(luò)規(guī)模增加，可選基站數(shù)量也將會(huì)大幅度增加，從而一個(gè)用戶的可選策略將會(huì)極大增加。上述強(qiáng)化學(xué)習(xí)方法難以有效解決。因此，針對(duì)大狀態(tài)空間和策略空間的情況，進(jìn)一步考慮了基于深度強(qiáng)化學(xué)習(xí)的方法。深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合，深度強(qiáng)化學(xué)習(xí)原理框架如圖2所示。

圖2 深度強(qiáng)化學(xué)習(xí)架構(gòu)Fig.2 Architectureof deep reinforcement learning

其學(xué)習(xí)過(guò)程可以描述為：

1）在每個(gè)時(shí)刻Agent與環(huán)境交互得到一個(gè)高維度的觀察，并利用深度學(xué)習(xí)方法來(lái)感知觀察，以得到具體的狀態(tài)特征表示；

2）基于預(yù)期回報(bào)來(lái)評(píng)價(jià)各動(dòng)作的價(jià)值函數(shù)，并通過(guò)某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動(dòng)作；

3）環(huán)境對(duì)此動(dòng)作做出反應(yīng)，并得到下一個(gè)觀察，通過(guò)不斷循環(huán)以上過(guò)程，最終可以得到實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。

基于深度強(qiáng)化學(xué)習(xí)的算法和上述強(qiáng)化學(xué)習(xí)的一大區(qū)別就是采用一個(gè)深度網(wǎng)絡(luò)代表價(jià)值函數(shù)，代替了強(qiáng)化學(xué)習(xí)中的Q表。然后依據(jù)強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)值，為深度網(wǎng)絡(luò)提供目標(biāo)值，對(duì)網(wǎng)絡(luò)不斷更新直至收斂。本文使用的人工神經(jīng)網(wǎng)絡(luò)（Aritifical Neural Network，ANN）架構(gòu)如圖3所示。具體算法過(guò)程與基于強(qiáng)化學(xué)習(xí)算法類似，因此不再贅述。

圖3 ANN架構(gòu)Fig.3 Framework of ANN

4 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證所提方法，本文在Matlab中進(jìn)行仿真。具體考慮一個(gè)包含1個(gè)宏基站、2個(gè)小基站與10個(gè)用戶的異構(gòu)網(wǎng)絡(luò)，基站與用戶都隨機(jī)分布在一個(gè)半徑100 m的區(qū)域內(nèi)，同時(shí)，考慮每個(gè)基站有不同的信道資源。

圖4展示了復(fù)制者動(dòng)態(tài)的收斂性，可以觀察到，經(jīng)過(guò)迭代后，不同策略群體比例最終也從初始狀態(tài)達(dá)到了一個(gè)穩(wěn)定的均衡狀態(tài)。在達(dá)到均衡點(diǎn)后，策略選擇的變化率為0，也就是說(shuō)選擇其他策略對(duì)于該用戶并不能提高收益，因此沒(méi)有偏離均衡策略的動(dòng)機(jī)。這個(gè)均衡點(diǎn)也是復(fù)制者動(dòng)態(tài)的不動(dòng)點(diǎn)。此外，能夠觀察到初始占比較高的策略，在達(dá)到均衡時(shí)占比不一定很高，它反映出了提出的動(dòng)態(tài)接入算法的公平性。

圖4 群體比例演進(jìn)Fig.4 Population proportion evolution

在圖5中，以用戶選擇策略l的收益為例，驗(yàn)證了所提出的兩種算法（基于強(qiáng)化學(xué)習(xí)的算法以及基于深度強(qiáng)化學(xué)習(xí)的算法）的收斂性，并與傳統(tǒng)基于群體狀態(tài)演進(jìn)算法進(jìn)行了比較。可以看到：經(jīng)過(guò)迭代三種算法都收斂到了一個(gè)均衡狀態(tài)，并獲得了相應(yīng)的收益；基于深度強(qiáng)化學(xué)習(xí)的方法能較快地收斂，并且能夠獲得較高的收益，而基于群體狀態(tài)演進(jìn)和基于強(qiáng)化學(xué)習(xí)的算法最終能獲得相同的收益。

圖5 不同算法比較（策略i=1）Fig.5 Comparison of different algorithms（i=1）

5 結(jié)語(yǔ)

在本文中，研究了自組織網(wǎng)絡(luò)的用戶接入優(yōu)化問(wèn)題。針對(duì)多層異構(gòu)網(wǎng)絡(luò)特點(diǎn)，提出了分離多接入機(jī)制。本文將自組織分離多接入問(wèn)題建模成演化博弈問(wèn)題，其中用戶可以根據(jù)當(dāng)前的策略選擇收益來(lái)進(jìn)行策略調(diào)整，并最終達(dá)到均衡狀態(tài)。使用復(fù)制者動(dòng)態(tài)對(duì)這一策略動(dòng)態(tài)調(diào)整進(jìn)行了數(shù)學(xué)建模。基于群體狀態(tài)演進(jìn)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法。通過(guò)仿真驗(yàn)證了復(fù)制者動(dòng)態(tài)以及所提出算法的收斂性并比較了三種算法的性能。