劉伯陽,馬 杰,李 偉,萬奕堯
(西安郵電大學 通信與信息工程學院,陜西 西安 710121)
受無線終端計算能力普遍較低限制,無線終端難以獨立完成第五代移動通信技術(5th Generation Mobile Communication Technology,5G)與超越5G(Beyond 5G,B5G)中出現的很多如增強顯示技術(Augmented Reality,AR)、虛擬現實技術(Virtual Reality,VR)等計算復雜度高、時延要求高的業務。另外,在一些物聯網場景中,物聯網節點有限的計算能力使得其只能對收集的信息做簡單的數據發送而不能預處理,從而造成中心節點計算壓力過大。
傳統的云計算技術允許用戶將待計算數據傳輸至云端,利用云服務器強大的計算能力輔助用戶進行計算。然而,用戶使用云計算需經過多層網絡請求與傳輸,時延過大,難以滿足業務低時延要求。為了解決此問題,移動邊緣計算(Mobile Edge Computing,MEC)技術應運而生[1]。MEC將計算服務器下沉至用戶邊緣,與其建立無線鏈路,其消耗一定的能量將待計算任務直接卸載至MEC服務器,計算完畢后將計算結果下載至用戶,從而可迅速完成計算任務,滿足用戶業務低時延要求。
目前,幾乎所有適合通信的頻段都被分配殆盡,頻譜資源的稀缺成為廣泛部署MEC系統的一個挑戰。同時,受體積與成本限制,無線終端難以搭載大容量電池,用戶電量與續航能力有限。特別是在物聯網場景中,大量物聯網節點部署區域不易到達,如何為物聯網終端充電也是一個亟待解決的問題。認知無線電(Cognitive Radio,CR)是一種無線頻譜共享技術,其允許網絡中的未授權用戶(Secondary User,SU)對頻譜授權用戶(Primary User,PU)造成干擾小于一定容限的情況下接入授權用戶頻段,實現頻譜共享,提升頻譜利用率[2]。能量收集(Energy Harvesting,EH)技術允許用戶從周邊環境吸收能量,可提升無線用戶續航能力[3]。因此,可將CR、EH與MEC結合,構建CR-EH-MEC系統,為用戶提供頻譜接入、能量供應與計算服務。
關于EH、CR與MEC的結合已有一些研究。通過在MEC網絡中應用EH技術,能夠有效提高網絡中無線設備續航[4-8]。文獻[4]提出一種EH-MEC框架,通過對用戶的運行模式、CPU計算頻率與卸載功率進行聯合優化最小化任務執行時延與任務計算失敗代價。文獻[5]研究了一種可無線充能的MEC系統并定義了MEC計算概率,即任務被順利執行的概率,通過對本地計算能耗與任務卸載節能量進行優化,最大化MEC計算概率。文獻[6]考慮MEC服務器裝備多天線的場景,通過優化發送波束成形矢量、CPU計算頻率以及卸載的任務量最小化MEC服務器能耗。文獻[7]考慮單天線無線充能MEC協作場景,利用兩個用戶協作對抗雙重遠近效應,靠近基站的用戶首先幫助遠離基站的用戶卸載計算數據,然后卸載自身數據。上述工作都是基于頻譜資源充足,并可為系統分配專用頻段的假設。因此,考慮當前頻譜資源的稀缺,上述假設在實際通信系統中難以實現。為了提高系統頻譜效率,CR是一項解決頻譜稀缺問題的有效技術,得到了廣泛的研究[9-12]。文獻[9]研究在PU干擾容限約束下系統效益最大化問題。文獻[10]提出一種三層CR-MEC網絡架構,通過CR技術為網絡用戶提供頻譜接入機會,然而,該研究只提出框架并未開展詳細研究。文獻[11]與文獻[12]對無線充能的CR-MEC系統進行了研究,分別在PU與SU進行協作[11]與不協作[12]場景下,對SU操作參數進行優化最大化其計算能量效率[11]與計算比特數[12]。但是,上述工作沒有考慮用戶的續航能力。為了提高CR-MEC系統的性能,需要考慮EH技術在CR-MEC系統中的應用,提升系統性能。
MEC與CR-MEC的研究均集中在單個時隙內對MEC服務器與用戶參數優化設計,主要集中在MEC系統的瞬時性能上。對無線網絡來說,單個時隙的性能最佳不等于長期性能收益最佳,相反,專注于單個時隙的性能可能導致長期性能的下降。為了單個時隙性能最佳,可能會在信道條件很差的情況下投入較大的能量最大化吞吐量。從長遠角度考慮,未來時隙中可能會有更好的信道環境,但是可能在之前時隙已耗費過多能量導致無法有效利用更好的信道條件。針對以上問題,擬提出一種基于部分可觀測馬爾科夫決策模型(Partially Observable Markov Decision Process,POMDP)的單SU多PU CR-MEC網絡資源分配方案。考慮單個SU與多個PU共享信道的情景,SU利用POMDP決策每次進行感知與接入的信道,以及接入模式、CPU頻率、卸載功率等參數,使得SU長期收益最大。最后,利用計算機仿真結果對所提方案的有效性進行了驗證。
考慮一個由SU、M個PU與一個搭載了MEC服務器的無線接入點(Access Point,AP)構成的認知MEC網絡,系統模型如圖1所示。所有節點裝備單天線且工作在同步時隙結構模式,每個時隙長度為T。假設PU分布在同一較密集區域,SU到每個PU之間的信道增益相同,令eh表示每個時隙SU可吸收的能量。假設信道相干時間是時隙長度的整數倍,即Tc=ΘT,Θ為大于等于1的整數。在信道相干時間Tc內,信道增益保持不變。

圖1 系統模型
每個PU在每個時隙均具有兩種狀態,令sm表示第m個PU的狀態,則有sm∈{0,1},0為工作狀態,1為空閑狀態。與文獻[13-16]相同,將每個PU的兩個狀態建模為一個二狀態馬爾科夫鏈,第m個PU狀態轉移情況如圖2所示。

圖2 第m個PU狀態轉移

P′=A1?A2?…?AM
其中:Ai為第i個PU的狀態轉移概率矩陣;?為克羅內克積。
令emax表示SU電池最大容量,SU具備EH能力,可從周圍環境吸收能量,如太陽能、電磁能等。將EH過程建模為一個伯努利過程,即每個時隙SU以確定概率吸收的能量。伯努利模型可以很好地建模實際環境中能量捕獲的隨機性與離散性。
令C表示SU計算1 bit數據需要的CPU周期數,f表示SU CPU計算頻率,則SU本地計算速率可表示為f/C。若SU向AP卸載計算任務,當PU處于空閑狀態時,SU可卸載成功,AP成功接收后向SU返回確認信息字符(Acknowledge Character,ACK),即ACK為1。若PU處于占用狀態,SU卸載數據與PU傳輸發生碰撞,不返回ACK,即ACK不為1。

其中,RSN為PU信號接收信噪比。
其中,t為積分變量。
SU對PU的狀態檢測存在誤差,即其不可能完全獲知PU的狀態,需根據觀察值對PU所處的真實狀態進行推測。而PUs聯合狀態轉移具有馬爾可夫性,因此,采用POMDP對SU進行策略決策。
在POMDP模型中,每個時隙開始時SU對PUs的聯合狀態具有一個推斷,即信念概率,記為Bt=[bt(θ1),…,bt(θN)],其中,bt(θi)表示SU認為在時隙t下PUs處于狀態θi的概率。
POMDP包含狀態、狀態轉移概率、行為、獎勵、觀察值、觀察概率以及策略等7個要素。對應于相應場景,環境為PUs,決策者為SU,系統狀態為(es,t,Bt),其中,es,t為時隙t開始時SU的可用能量。在POMDP決策中SU在時隙t的行為表示為At=(mt,ea,t,ζt),其中:mt為SU在時隙t選擇的感知與接入PU信道,即SU在時隙t時對第mt個PU信道進行頻譜感知;ea,t為SU在時隙t擬投入執行MEC的能量;ζt為SU操作模式因子,ζ=1,則SU只進行本地計算,ζt=2,則SU采用部分卸載模式,將一部分任務在本地計算,另一部分任務卸載至AP進行遠程計算。POMDP在時隙t的獎勵對應SU在該時隙能完成的計算任務量(Calculated Number of Bits,CNoB)。
在SU做出決策后,其能獲得的獎勵和CPU工作頻率與SU卸載功率p有關,當At=(mt,ea,t,ζt=1)時,SU能獲得的最大獎勵為
其中,
η為SU每個CPU周期耗能功率系數。當At=(mt,ea,t,ζt=2)時,SU能獲得的最大獎勵為優化問題P1,其最優目標函數值表示為
s.t.C1:p(T-τ)+ηf(T-τ)≤ea,t
C2:0≤f≤fmax
C3:0≤p≤pmax
其中:W為第mt個PU信道帶寬;pmax為SU最大卸載功率;g表示SU與AP之間的信道功率增益;C1為能量因果限制;C2與C3分別為SU的CPU計算頻率與發送功率限制。所建優化問題為凸問題,可用Karush-Kuhn-Tucker Conditions條件[18]對其求解。當ea,t≤pmax(T-τ)+ηfmax(T-τ)時,利用KKT條件,最優解為
其中,
其中,σ2表示噪聲功率。

在每個時隙進行決策并執行決策后,SU將觀察到一個觀察值O,根據此觀察值對SU認為在時隙t下PUs處于狀態θi的概率進行更新,其表達式為

SU能獲得的真實獎勵還與PU真實狀態有關,PU真實狀態可通過觀察值進行推斷。SU執行行為At后可能觀察到6種觀察值,下面分別對這6種觀察值以及對應的觀察概率進行分析。
當采取行為為At=(mt,ea,t,ζ=1)或ea,t=0時,對6種觀察值進行逐一分析。










其中,Ix為指示函數,如果x為真,則Ix=1,否則,Ix=0。









當SU行為為At=(mt,ea,t,ζt=2),且0 SU執行行為At后,其可用能量轉移概率為 頻譜感知只是對信號進行接收判決,其耗能相比MEC耗能小的多,可以忽略不計。 通過POMDP對SU行為進行決策,找到最優策略,即SU在特定狀態下進行選擇何種行為的方案,使得SU在相干時間內得到期望獎勵之和最大。通過Bellman方程對最優策略進行求解,針對所提系統模型,可建立Bellman方程為 (1) 表1 仿真參數 圖3展示了PU用戶數為2時SU期望CNoB即平均每個時隙的CNoB與γ、時間步長Θ的關系曲線。由圖3可觀察到當γ較小時SU期望CNoB隨著時間步長增加而減小。當γ較大時,CNoB隨著Θ增大而增大。γ反應了SU對在當前行為下未來能獲得CNoB的重視程度。γ越大,SU越看重未來收益,越小則越看重短期效益。當γ較小時,SU主要考慮短期時隙收益,時間步長越長則平均收益越小。反之當γ越大時,SU優化對未來長期收益更有利,因此,期望CNoB隨著γ增加而增加。 圖3 SU期望CNoB與γ、Θ的關系曲線(M=2) 圖4展示了SU期望CNoB與其最大CPU計算頻率fmax、最大發送功率pmax的關系,其中PU用戶數為2。fmax與pmax的增大,SU的決策空間變大,因此,收益必然增大。圖4也可間接證明所提算法的正確性。 圖4 SU期望CNoB與fmax、pmax的關系曲線(M=2) 圖5和圖6展示了在PU用戶數為2的情況下,SU期望CNoB與檢測概率pd以及感知時間長度τ的關系曲線。 圖5 SU期望CNoB與pd、τ的關系曲線(M=2) 圖6 SU期望CNoB與τ的關系曲線(M=2) 從圖5可以看出,在感知時間長度τ不變的情況下,檢測概率增加將導致虛警概率的增加,因此,隨著檢測概率增加SU期望CNoB下降。SU易將PU空閑檢測為PU工作,錯失頻譜接入機會。從圖5還可看出,SU收益與τ也有關系。圖6對SU收益與τ的關系進行了仿真,可以看出,τ增加將有效減小虛警概率,提升空閑頻譜挖掘能力,因此,隨著τ的增加,SU收益先增大后減小。但是,也會導致SU進行MEC的時間變短,使收益降低。因此,出現圖6中所示的現象。 圖7展示了SU期望CNoB與PU用戶M、EH概率ρ的關系曲線。由圖7可以看出,SU期望CNoB隨著M與ρ的增加而增加。PU用戶增加SU將有更多的頻譜接入選擇,具有更多的頻譜接入機會。能力捕獲概率增加則SU將有更穩定的續航能力,因此,此二者的增加都將使得SU期望CNoB增加。 圖7 SU期望CNoB與PU,M、ρ的關系曲線 針對當前認知邊緣計算只考慮當前單個時隙性能最佳而未考慮長久期望性能最佳的問題,研究一種由一個次用戶、多個主用戶與一個無線接入點構成的認知邊緣計算網絡。在一個次用戶、多個主用戶網絡中利用POMDP對次用戶計算損耗、操作模式、CPU計算頻率與卸載功率進行優化。仿真結果表明,就長期期望計算數據量而言,所提的方案顯著優于單時隙優化方案,能夠有效地提升頻譜效率,緩解移動邊緣計算網絡中的頻譜稀缺問題。



















3 性能仿真及分析







4 結語