肖 錚
(四川工商職業技術學院信息工程系,四川 成都,611830)
5G網絡系統中,系統采用了終端直通(Device-to-Device,D2D)技術直接通信,并將之視為最具有前景的5G技術。在由D2D用戶組成的網絡中,每一個用戶都能發送并且接受通信信號,同時還具有路由功能。從定義上來說,D2D通信技術就是指兩個對等用戶進行直接通信,而不需要利用基站轉發的一種新型通信方式[1]。如果D2D用戶對之間的距離很近,而兩者距離基站很遠,那么也顯然,此時選用直接通信的方式更好。但是,上述舉例的情況只是一種簡單的特例,有時因為網絡狀態等因素,反而選擇理論上不可取的方式對實際問題更加有利。所以需要尋求的是一種通用的,能適應大部分情況的方法。根據需要對實際問題進行建模,確定一種通用的模式選擇規則,在本研究中,就將D2D模式選擇問題與馬爾可夫決策過程(Markov decision process,MDP)[2]問題聯系在一起。所以,提出了一個解決模式選擇問題的新思路:基于馬爾可夫決策過程的算法研究。
如果D2D用戶采用的是復用蜂窩資源的通信方式,那么網絡內部就會產生新的干擾,每一個接收用戶都會收到來自復用同一頻帶資源的其它用戶的干擾信號,基站也會受到影響。采用平坦瑞利衰落信道模型,接收端信號幅度滿足瑞利分布。瑞利分布是一個平穩的窄帶高斯過程,它的均值是0,方差是σ2[3]。在該信道模型中,假設接收機會受到一個加性高斯白噪聲(AWGN)的影響。該噪聲是無線信道中最基本的噪聲干擾模式,其幅度服從高斯分布(零均值,方差為N0)。在該模型下,可以得到信噪比SINR[4]。
(1)
SINR為設備信號和噪聲的比值,SINR越大,代表信號的質量越好。上述公式(1)中:Preceiver為接收設備處接收到的功率;I為接收設備受到的干擾;N0為接收設備受到的噪聲。其中,Pt為設備發送功率。并且一般情況下,蜂窩用戶和D2D用戶的發送功率并不一致,前者的發送功率相對更高一些。實際情況下,為了最大化網絡吞吐量,還需要進行功率分配的工作,使發送功率按一定的規則進行設置,由于這部分內容不屬于本次研究的內容范疇,所以不多敘述。在這里,為了使計算更加方便,采用默認值在任何情況下,用戶的發送功率都一致,為PDUE,不做發送功率大小的區分。dij代表著信號發送設備i到信號接收設備j的距離。α為路徑損耗系數,代表信號在空間里傳播時,將會產生的損耗。它由兩方面的因素決定:一是信道本身的傳播性質;二是發送功率的輻射效應。根據標準路徑損耗傳播模型,一般情況下,α>2。Hij為信道系數。
如果期望最終能獲得最大化的網絡總體信道容量。需要進一步計算整個系統的總體信道容量Csystem。當討論的模型下,網絡結構中包含了1個蜂窩用戶和兩對D2D用戶,所以Csystem是3個用戶信道容量相加后的結果,如公式(2)所示。
Csystem=CCUE+CDUE1+CDUE2
(2)
C=BW*log2(1+SINR)
(3)
其中,公式(3)是信道容量C的通用計算公式,BW為系統資源帶寬,SINR為公式(1)中計算出來的相應信噪比。
MDP可以從5個要素進行分析:決策時刻和周期、狀態和行動集合、轉移概率和報酬。每一次做決策的時間點集合用T來表示,而對應的系統狀態集合S用來表示,至于行動的集合,用字符A來表示。在某一個時間點,假設存在一個狀態i∈S,那么在這個狀態的可用行動集A(i)中挑選出一個行動a并執行之后,可以立即得到一個報酬r(i,a),同時下一個時刻的系統狀態將根據轉移概率分布函數p(*|i,a)決定。然后在下一時刻,又需要進行另一次行動的選擇。最后,將所有時間點的行動組合起來,就可以獲得一個決策序列,即所做選擇的集合。同時,每一次行動選擇可以帶來一份及時報酬之外,還會對將來產生影響,產生額外的報酬(圖1)。

圖1 馬爾可夫決策過程

步驟1 令t=N且對一切it∈S,
(4)

步驟3 對一切it∈S,計算
(5)
并且記集合
(6)

步驟4 返回到步驟2。
由于行動集合A是有限集合,該馬氏策略的最優解一定存在,并且可以由上述算法得到最終的每一個決策時刻下的行動選擇,將之組合起來就是研究要求的模式選擇的策略序列,即策略Policy。通過查找Policy矩陣,可以準確地知道,某一決策時刻(時隙),在系統處于某種狀態時[7],兩個D2D對應該做出的模式選擇各是什么。同時,也可以得到一個期望報酬最優值。算法的流程見圖2。
結合本研究的網絡結構模型,經設置的參數見表1。表1中的距離參數是初始情況下的取值,具體情況可能會發生一定的改變。為了簡化模型,方便討論,將信道系數Hij取值為1。同時需要注意的是功率以及噪聲的單位并不統一,在實際計算過程中應當注意單位的轉化。

表1 D2D網絡結構模型仿真參數

圖2 基于動態規劃的期望報酬值向后遞歸算法流程
利用有限階段向后遞歸迭代算法將之聯系起來,組合成一個完整的MDP問題,在Matlab平臺上進行建模仿真[8],并適當地改變一些參數,觀察網絡吞吐量的變化情況。具體試驗結果見圖3~圖5。
在圖3中,R1=300 m,r1=10 m,r2=10 m。由于對任一個狀態,它的最優值變化趨勢是保持一致的,而一般情況下,信道狀態良好的可能性會更高一點,同時也更希望了解信道狀態良好時的情況。所以為了簡化圖像,選取其中的兩個狀態(1111和1110)作為代表。
圖4中,R1=300 m,同步改變兩對D2D對之間的距離r1和r2(運動方向均與x軸的夾角為0度,且運動方向保持不變)。通過觀察可以發現,在變化趨勢上,隨著D2D對距離的增大,在期望報酬的具體數值上,很明顯,當兩個D2D對之間的距離同步變化時,最終的期望報酬值會變化得更劇烈,變化范圍也更廣。由此可以類推,當系統中出現多個D2D對,并且同時處于運動狀態時,系統的信道容量有可能出現極端情況,這也是在將來的研究中需要加以考慮的地方。
在圖5中,同樣的,R1=300 m,r2=10 m,改變第一對D2D對之間的距離r1,同時取階數N=100,時隙數為500。通過仿真可以看到距離的增大必定會導致信道容量的減小,這是因為接收到的信號變弱導致的。同時,可以清晰地看到基于MDP和基于信道容量這兩種方法做出的結果,在最大化網絡吞吐量這一性能上存在一定的優劣,基于MDP的模式選擇顯然能獲得更大的系統信道容量。經過計算,得知基于MDP的方法平均要比基于信道容量的方法高出大約6 Mbit/s信道容量,而差距最大的地方(大約在距離為51 m處),基于MDP的方法幾乎高出了7.1 Mbit/s的信道容量,這數值非常的可觀。

圖3 D2D階數N對函數V的影響變化趨勢 圖4 D2D對之間距離對V的影響變化趨勢

圖5 基于不同模式選擇方法的系統總吞吐量比較
在基于信道容量等方法的基礎上,將網絡的信道狀態納入了考慮范圍,通過利用MDP來分析模式選擇問題,并觀察了距離等因素對吞吐量的影響,目的是尋求到能獲取到最大信道容量的一種模式選擇方法。實驗結果表明,提出的馬爾可夫決策過程算法在在最大化網絡總吞吐量這一目標上,采用本次研究的這種方法更好的效果。
利用動態規劃思想中的迭代算法來解決這一問題,在較低計算復雜度下,得出一個與時間有關的決策序列。經過最后的多個時隙下的仿真比較,證實,在最優化網絡吞吐量這一方面,本研究的基于MDP的模式選擇方法確實更具有一定的優勢。在接下來的工作中,希望能夠找到更為合理的選擇方法,以進一步提高算法的決策效果。