楊 亮,趙 越,鄭子濱,劉明軒
(福州大學 電氣工程與自動化學院,福建 福州 350108)
隨著信息技術的快速發展,利用無線資源的需求在爆炸性地增長,對無線頻譜資源的消耗也在不斷增加[1]。認知無線電(Cognitive Radio,CR)被認為是解決頻譜資源短缺的潛在方案,電視白頻譜資源是第一個被考慮的頻譜共享案例。通過CR 對電視白頻譜資源的靈活使用,能夠提高利用率。智能反射面(Intelligent Reflecting Surface,IRS)作為一種新型的人工電磁超表面,能夠靈活調控電磁波的頻率、幅度、相位及傳播方向等特性,成為面向下一代6G 無線通信網絡的新興傳輸技術[2]。
將IRS 應用到CR 中,成為當下研究熱點。文獻[3] 研 究 了(Single Input Single Output,SISO)認知無線電系統中,通過聯合控制認知發射機(Secondary Transmitter,ST)發射功率與IRS 發射波束成形來優化認知用戶(Secondary User,SU)的通信速率。文獻[4]研究了多輸入單輸出(Multi Input Single Output,MISO)認知無線電系統中引入多個IRS,通過聯合優化在ST 處的波束形成與每個IRS 的反射相移矩陣提高SU 的可實現速率。雖然文獻[3]、文獻[4]中的IRS 優化問題可以利用凸優化理論或啟發式算法來解決,但對于大規模問題[5],非凸優化技術需要對優化變量逐一迭代優化,計算復雜度較高。
本文中,認知用戶SU 通過感知和理解無線電頻譜環境以提供無線通信服務,引入IRS 提高頻譜利用率并利用射頻(Radio Frequency,RF)能量延長電池續航;采用深度強化學習(Deep Reinforcement Learning,DRL)算法將SU 與IRS 控制器當作智能體,通過狀態、動作和獎勵機制與動態環境進行交互,最大限度地提高認知用戶吞吐量。
如圖1 所示,考慮一個用IRS 輔助underlay 模式下的能量采集CR 通信系統,系統中存在一對主用戶(Primary User,PU)和一對SU,PU 與SU 為單天線。在主發送端(Primary Transmitter,PT)到主接收端(Primary Receiver,PR)以及ST 到次接收端(Secondary Receiver,SR)之間配置一個具有L個反射元件的IRS 來輔助通信。PU 與SU 以時隙模式運行,假設有K個時隙,每個時隙的時間為T。PU 由電網供電,SU 可通過能量采集將RF 能量轉變為電能。假設SU 具有完美感知能力,感知時間忽略不計。

圖1 通信系統模型
本文中,IRS 通過部署的反射元件調控無線信號,IRS 反射系數矩陣為Φ=diag(φ)∈CL×L,IRS反射系數向量φ定義為
式中:ai∈[0,1],i∈1,2,…,L表示IRS 第i個元件的振幅反射系數,θi∈[0,2π),i∈1,2,…,L表示IRS 第i個元件的相移反射系數。假設每個IRS 反射元件的振幅反射系數為使得信號反射最大的一個,即ai=1。
對于IRS 輔助的能量采集認知通信系統,在第t個時隙中,PT 和PR 之間、PT 和IRS 之間、IRS和PR 之間、PT 和SR 之間、ST 和SR 之間、ST和IRS 之間、IRS 和SR 之間、ST 和PR 之間的基帶等效信道分別表示為其中Ca×b表示所有a×b復矩陣的集合。考慮小規模衰落模型,除了能量采集鏈路以外,所有信道都假定為萊斯(Rician)衰落模型,且在一個時隙里信道增益保持不變。以ST與IRS 之間的信道為例
式中:β是萊斯因子,表示確定性LoS 分量;表示快衰落NLoS分量,是非視距瑞利衰落分量。為得到確定性LoS 分量,考慮IRS 為沿著方向(0,1,0)(即y 軸)放置的均勻線性陣列,故ST 與IRS 之間的確定性LoS 分量表示為
式中:vIRS與vST為導向矢量。ST為單天線,故vST為1。vIRS可表示為
式中:αAoA表示到達方位角,d表示IRS 相鄰元件之間的間距,載波波長λ,令d/λ=1/2。方向向量esr由ST 與IRS 的相對位置確定,即
式中:PST與PIRS分別表示ST 位置、IRS 位置。到達方位角αAoA可表示為
本文時隙可分為能量采集階段和數據傳輸階段。如圖2 所示,在能量采集階段,能量采集時間為αT,α為能量采集時間因子,T表示每個時隙的時間。采集到的RF 能量可表示為

圖2 時隙結構圖
式中:η為能量采集效率,表示PT 在第t個時隙的發射功率,gtps表示第t個時隙的能量采集增益。當電池滿電時,額外采集能量將被拋棄。假設頻譜感知與電路損耗發熱的能量為es,電池的最大容量為Bmax,電池電量更新公式表示為
在第t個時隙中,SU 消耗能量不超過可充電電池容量與能量采集所獲得能量總和,故有
式中:B0表示ST 電池容量,為第t個時隙下ST發射功率。
假設所有鏈路的信道狀態信息(Channel State Information,CSI)都是完全估計和已知的,第t個時隙在PR 和SR 處的接收信號分別表示為
式中:xpt~CN(0,1)、xst~CN(0,1)分別表示PT 與ST的發射信號,wpt~CN(0,σp2)、wst~CN(0,σs2)分別表示PR 和SR 處的加性高斯白噪聲(Additive Gaussian White Noise,AWGN)。
在第t個時隙,PR 接收到的信干噪比為
在第t個時隙,SR 接收到的信干噪比為
在K個時隙中,SU 總和吞吐量表示為
本文研究在IRS 輔助能量采集CR 系統中,通過聯合優化每個時隙中的ST 發射功率和IRS 的相移矩陣來實現SU 總吞吐量的最大化。優化問題表述為
式中:約束C1表示SU 消耗能量低于初始電池容量與能量采集之和;對PU 的服務質量(Quality of Service,QoS)要求由約束C2定義,約束C2表示PU 的信干噪比最小閾值;約束C3表示ST 發射功率限制在pmax下,約束C4定義IRS 上的L個IRS 反射元件相移。
本文將IRS 輔助能量采集認知通信建模為馬爾可夫決策過程(Markov Decision Process,MDP),由四元組(st,at,Rt,st+1)表示。智能體通過不斷地與環境交互,利用反饋來學習策略以最大化累積獎勵。下面定義基于DRL 算法的關鍵元素,包括狀態空間、動作空間、狀態轉移函數及獎勵函數。
S表示為狀態空間,st∈S表示智能體在第t個時隙從環境觀測到的狀態,定義為
at-1包括ST 發射功率、IRS 相移矩陣。Bt為當前時隙ST 電池容量信息,Et-1為上一個時隙采集能量值。htc為第t個時隙中的信道狀態信息。
A為動作空間。本文將ST 發射功率離散為M個功率層級,即atp∈{p1,p2,…,pM}。將IRS 的反射元件的相位設置為有一定關聯的整體。當IRS 相移矩陣的動作空間大小為5 時,設置為
故第t個時隙智能體采取的動作at∈A可定義為
狀態轉移函數:Pr(st+1|st,at)∈[0,1]是轉移概率矩陣,表示當智能體選擇動作at時的狀態轉移概率。
獎勵函數表示為
智能體每個時間步長上的獎勵通過折扣累積Rt構成智能體長期回報。累積獎勵可表示為
式中:γ∈[0,1]表示折扣系數,策略π(st,at)表示在狀態st之上選擇一個動作at的概率分布。
基于殘差網絡的DDQN 優化算法框架如圖3所示,殘差塊包含一個跳躍連接與殘差映射。跳躍連接將輸入直接添加到殘差映射上,形成“shortcut”路徑,使得信息能直接傳遞到后續層,而不受梯度消失影響。

圖3 基于殘差網絡的DDQN 算法框架圖
圖3 中,決策網絡用于訓練,本文采用ε-greedy策略實現探索和開發的權衡,表示為
式中:p∈[0,1]表示隨機生成的概率。ε給定初始值,并以ξ∈(0,1]的速度遞減下降,直到下界。本文中,DDQN 將決策網絡和目標網絡的計算解耦,先在決策網絡中找出最大Q值對應的動作at,再利用動作at在目標網絡中計算目標Q值,可表示為
式中:表示決策網絡參數,表示目標網絡參數。兩個網絡的結構相同,決策網絡不斷更新w^,目標網絡則通過一定時間步nδ來更新。通過讓兩個獨立網絡的損失函數最小化實現決策網絡參數更新,損失函數可表示為
參數的更新公式為
具體的算法流程如下所示。
基于殘差網絡的DDQN 資源優化算法
輸入:C條通信鏈路信道增益的實部與虛部,電池電量,上一時隙采集的能量,IRS 相移矩陣虛部與實部,ST 發射功率
輸出:智能體最優動作at={pst,Φt}
初始化:經驗回放池M的容量Dm,決策網絡參數,目標網絡參數,ST 電池初始容量B0,IRS相移矩陣Φ,ST 發射功率ps,PT 發射功率pp,小批量訓練數據大小D,C條通信鏈路信道增益
步驟1 for each episode do
步驟2 初始化狀態s1
步驟3 for each steptdo
步驟4 輸入st到DDQN 中獲得狀態動作值函數(st,at;w),at∈A;
步驟5 依據ε-greedy策略選取動作
步驟6 獲得立刻獎勵Rt和下一時刻的狀態
步驟7 將經驗元組存入經驗回放池M中,M←(st,at,Rt,st+1)
步驟8 建立訓練決策網絡的損失函數
步驟9 if |M|≥D
步驟10 從M中隨機取出D個小批量經驗元組(si,ai,Ri,si+1)
步驟11 根據式(22)計算D個經驗元組下目標網絡輸出值
步驟12 根據式(23)建立損失函數,訓練決策網絡參數
步驟13 執行梯度下降,使得預測值與目標值之間的誤差達到最小
步驟14 根據式(24)更新決策網絡權重參數
步驟15 iftmodnδ=0
步驟16 決策網絡參數賦值給目標網絡參數:←w
步驟17 end if
步驟18 end if
步驟19 end for
步驟20 end for
本節給出了數值模擬結果來評估所提方案的有效性。本文建立一個三維坐標系,如圖4 所示。坐標系默認單位是米(m)。IRS 位置坐標為(0,50,2),PT 與PR 坐標為(50,0,0)、(1,24,0),ST 與SR 的坐標為(50,100,0)、(1,74,0)。IRS 反射元件的數量L=4,PT 發射功率Pp=2 W,能量采集增益gps=0.6。詳細參數在表2 中給出。

表2 資源優化算法仿真參數設置

圖4 系統模型三維位置仿真設置
為更好地展示所提算法的收斂性能,考慮即時獎勵和平均獎勵。其中平均獎勵定義為
式中:?表示平滑因子,初始值設置為0。
本文與其他3 種基準方案進行比較,分別是經典DQN 方案、多臂賭博機(Multi Arm Bandit,MAB)和隨機方案。在經典DQN 方案中,采用深度Q 學習方法,通過訓練神經網絡來學習最優的動作策略,與環境交互來更新參數。在MAB 方案中,多臂賭博機有多個臂(拉桿),每個臂都代表一種動作或策略,賭博機的目標是找到最佳的臂以最大化收益。在隨機方案中,智能體通過隨機選擇的策略來選取動作。
圖5 比較了所提算法與其他基準算法的性能。迭代0 ~500 次時,4 種方法的平均吞吐量都在提高,這是因為滑動平均值更新,平均吞吐量會隨著迭代次數的增加跟隨立即獎勵的變化。在平均吞吐量上升階段,本文所提方案中智能體依據最優策略選擇ST 傳輸功率以及優化IRS 相移矩陣;MAB 假設獎勵的分布是固定的,無法建立動作與環境之間的聯系;隨機方案獨立于任何信息。迭代次數在500 以后,平均吞吐量逐漸收斂。相比于經典DQN 算法,本文所提方案可將平均吞吐量提高13.8%。DRL 方法要明顯優于傳統算法。本文所提方案對比MAB 以及隨機策略這兩種方案可提高60.2%和120%。

圖5 平均吞吐量隨訓練回合數變化曲線
圖6 進一步研究了RF 能量采集對系統平均吞吐量的影響。存在RF 能量采集時,通信設備平均吞吐量增高,因為CR 通信設備運行時,RF 能量采集可以利用周圍環境中的能量為設備提供持續電力供應。當能量采集因子為0.2,相較于無能量采集場景,本文方案可使SU 平均吞吐量提高44.8%。

圖6 不同能量采集時間因子下的平均吞吐量
圖7 展示了IRS 反射元件個數L對SU 平均吞吐量的影響。當IRS 反射元件數目增加(如L>4),本文所提方法相比經典DQN 算法更有效。隨機算法和MAB算法無法展現出比DRL更加強大的性能,說明本文所提算法是穩定且實用的,表明IRS 在輔助認知通信上存在巨大應用潛力。

圖7 不同IRS 反射元件數量對平均吞吐量的影響
本文提出一種IRS 輔助認知電視頻譜資源優化方法。先將ST 的功率控制與IRS 相位控制建模為MDP,并提出基于殘差網絡的DDQN 資源優化算法,設計了DRL算法的狀態空間、動作空間及獎勵函數。結果表明,與基準情況相比,在該算法下,SU 長期累積吞吐量提高13.8%。本文還通過仿真驗證了在電池電量受限下的能量采集可以提高SU 的通信續航能力,可將吞吐量提高44.8%。