基于DRL 的IRS 輔助認知電視頻譜資源優化

2023-02-27 05:49:36鄭子濱劉明軒

電視技術 2023年12期

楊亮，趙越，鄭子濱，劉明軒

（福州大學電氣工程與自動化學院，福建福州 350108）

0 引言

隨著信息技術的快速發展，利用無線資源的需求在爆炸性地增長，對無線頻譜資源的消耗也在不斷增加[1]。認知無線電（Cognitive Radio，CR）被認為是解決頻譜資源短缺的潛在方案，電視白頻譜資源是第一個被考慮的頻譜共享案例。通過CR 對電視白頻譜資源的靈活使用，能夠提高利用率。智能反射面（Intelligent Reflecting Surface，IRS）作為一種新型的人工電磁超表面，能夠靈活調控電磁波的頻率、幅度、相位及傳播方向等特性，成為面向下一代6G 無線通信網絡的新興傳輸技術[2]。

將IRS 應用到CR 中，成為當下研究熱點。文獻[3] 研究了（Single Input Single Output，SISO）認知無線電系統中，通過聯合控制認知發射機（Secondary Transmitter，ST）發射功率與IRS 發射波束成形來優化認知用戶（Secondary User，SU）的通信速率。文獻[4]研究了多輸入單輸出（Multi Input Single Output，MISO）認知無線電系統中引入多個IRS，通過聯合優化在ST 處的波束形成與每個IRS 的反射相移矩陣提高SU 的可實現速率。雖然文獻[3]、文獻[4]中的IRS 優化問題可以利用凸優化理論或啟發式算法來解決，但對于大規模問題[5]，非凸優化技術需要對優化變量逐一迭代優化，計算復雜度較高。

本文中，認知用戶SU 通過感知和理解無線電頻譜環境以提供無線通信服務，引入IRS 提高頻譜利用率并利用射頻（Radio Frequency，RF）能量延長電池續航；采用深度強化學習（Deep Reinforcement Learning，DRL）算法將SU 與IRS 控制器當作智能體，通過狀態、動作和獎勵機制與動態環境進行交互，最大限度地提高認知用戶吞吐量。

1 系統模型

1.1 模型描述

如圖1 所示，考慮一個用IRS 輔助underlay 模式下的能量采集CR 通信系統，系統中存在一對主用戶（Primary User，PU）和一對SU，PU 與SU 為單天線。在主發送端（Primary Transmitter，PT）到主接收端（Primary Receiver，PR）以及ST 到次接收端（Secondary Receiver，SR）之間配置一個具有L個反射元件的IRS 來輔助通信。PU 與SU 以時隙模式運行，假設有K個時隙，每個時隙的時間為T。PU 由電網供電，SU 可通過能量采集將RF 能量轉變為電能。假設SU 具有完美感知能力，感知時間忽略不計。

圖1 通信系統模型

本文中，IRS 通過部署的反射元件調控無線信號，IRS 反射系數矩陣為Φ=diag(φ)∈CL×L，IRS反射系數向量φ定義為

式中：ai∈[0,1]，i∈1,2,…,L表示IRS 第i個元件的振幅反射系數，θi∈[0,2π)，i∈1,2,…,L表示IRS 第i個元件的相移反射系數。假設每個IRS 反射元件的振幅反射系數為使得信號反射最大的一個，即ai=1。

1.2 系統信道模型

對于IRS 輔助的能量采集認知通信系統，在第t個時隙中，PT 和PR 之間、PT 和IRS 之間、IRS和PR 之間、PT 和SR 之間、ST 和SR 之間、ST和IRS 之間、IRS 和SR 之間、ST 和PR 之間的基帶等效信道分別表示為其中Ca×b表示所有a×b復矩陣的集合。考慮小規模衰落模型，除了能量采集鏈路以外，所有信道都假定為萊斯（Rician）衰落模型，且在一個時隙里信道增益保持不變。以ST與IRS 之間的信道為例

式中：β是萊斯因子，表示確定性LoS 分量；表示快衰落NLoS分量，是非視距瑞利衰落分量。為得到確定性LoS 分量，考慮IRS 為沿著方向（0，1，0）（即y 軸）放置的均勻線性陣列，故ST 與IRS 之間的確定性LoS 分量表示為

式中：vIRS與vST為導向矢量。ST為單天線，故vST為1。vIRS可表示為

式中：αAoA表示到達方位角，d表示IRS 相鄰元件之間的間距，載波波長λ，令d/λ=1/2。方向向量esr由ST 與IRS 的相對位置確定，即

式中：PST與PIRS分別表示ST 位置、IRS 位置。到達方位角αAoA可表示為

1.3 能量采集模型

本文時隙可分為能量采集階段和數據傳輸階段。如圖2 所示，在能量采集階段，能量采集時間為αT，α為能量采集時間因子，T表示每個時隙的時間。采集到的RF 能量可表示為

圖2 時隙結構圖

式中：η為能量采集效率，表示PT 在第t個時隙的發射功率，gtps表示第t個時隙的能量采集增益。當電池滿電時，額外采集能量將被拋棄。假設頻譜感知與電路損耗發熱的能量為es，電池的最大容量為Bmax，電池電量更新公式表示為

在第t個時隙中，SU 消耗能量不超過可充電電池容量與能量采集所獲得能量總和，故有

式中：B0表示ST 電池容量，為第t個時隙下ST發射功率。

1.4 信號模型

假設所有鏈路的信道狀態信息（Channel State Information，CSI）都是完全估計和已知的，第t個時隙在PR 和SR 處的接收信號分別表示為

式中：xpt～CN(0,1)、xst～CN(0,1)分別表示PT 與ST的發射信號，wpt～CN(0,σp2)、wst～CN(0,σs2)分別表示PR 和SR 處的加性高斯白噪聲（Additive Gaussian White Noise，AWGN）。

在第t個時隙，PR 接收到的信干噪比為

在第t個時隙，SR 接收到的信干噪比為

在K個時隙中，SU 總和吞吐量表示為

1.5 優化問題形成

本文研究在IRS 輔助能量采集CR 系統中，通過聯合優化每個時隙中的ST 發射功率和IRS 的相移矩陣來實現SU 總吞吐量的最大化。優化問題表述為

式中：約束C1表示SU 消耗能量低于初始電池容量與能量采集之和；對PU 的服務質量（Quality of Service，QoS）要求由約束C2定義，約束C2表示PU 的信干噪比最小閾值；約束C3表示ST 發射功率限制在pmax下，約束C4定義IRS 上的L個IRS 反射元件相移。

2 基于DRL 的聯合IRS 相移矩陣優化與認知用戶功率分配

2.1 強化學習優化問題轉換

本文將IRS 輔助能量采集認知通信建模為馬爾可夫決策過程（Markov Decision Process，MDP），由四元組(st,at,Rt,st+1)表示。智能體通過不斷地與環境交互，利用反饋來學習策略以最大化累積獎勵。下面定義基于DRL 算法的關鍵元素，包括狀態空間、動作空間、狀態轉移函數及獎勵函數。

S表示為狀態空間，st∈S表示智能體在第t個時隙從環境觀測到的狀態，定義為

at-1包括ST 發射功率、IRS 相移矩陣。Bt為當前時隙ST 電池容量信息，Et-1為上一個時隙采集能量值。htc為第t個時隙中的信道狀態信息。

A為動作空間。本文將ST 發射功率離散為M個功率層級，即atp∈{p1,p2,…,pM}。將IRS 的反射元件的相位設置為有一定關聯的整體。當IRS 相移矩陣的動作空間大小為5 時，設置為

故第t個時隙智能體采取的動作at∈A可定義為

狀態轉移函數：Pr(st+1|st,at)∈[0,1]是轉移概率矩陣，表示當智能體選擇動作at時的狀態轉移概率。

獎勵函數表示為

智能體每個時間步長上的獎勵通過折扣累積Rt構成智能體長期回報。累積獎勵可表示為

式中：γ∈[0,1]表示折扣系數，策略π(st,at)表示在狀態st之上選擇一個動作at的概率分布。

2.2 基于殘差網絡的DDQN 優化算法框架

基于殘差網絡的DDQN 優化算法框架如圖3所示，殘差塊包含一個跳躍連接與殘差映射。跳躍連接將輸入直接添加到殘差映射上，形成“shortcut”路徑，使得信息能直接傳遞到后續層，而不受梯度消失影響。

圖3 基于殘差網絡的DDQN 算法框架圖

圖3 中，決策網絡用于訓練，本文采用ε-greedy策略實現探索和開發的權衡，表示為

式中：p∈[0,1]表示隨機生成的概率。ε給定初始值，并以ξ∈(0,1]的速度遞減下降，直到下界。本文中，DDQN 將決策網絡和目標網絡的計算解耦，先在決策網絡中找出最大Q值對應的動作at，再利用動作at在目標網絡中計算目標Q值，可表示為

式中：表示決策網絡參數，表示目標網絡參數。兩個網絡的結構相同，決策網絡不斷更新w^，目標網絡則通過一定時間步nδ來更新。通過讓兩個獨立網絡的損失函數最小化實現決策網絡參數更新，損失函數可表示為

參數的更新公式為

具體的算法流程如下所示。

基于殘差網絡的DDQN 資源優化算法

輸入：C條通信鏈路信道增益的實部與虛部，電池電量，上一時隙采集的能量，IRS 相移矩陣虛部與實部，ST 發射功率

輸出：智能體最優動作at={pst,Φt}

初始化：經驗回放池M的容量Dm，決策網絡參數，目標網絡參數，ST 電池初始容量B0，IRS相移矩陣Φ，ST 發射功率ps，PT 發射功率pp，小批量訓練數據大小D，C條通信鏈路信道增益

步驟1 for each episode do

步驟2 初始化狀態s1

步驟3 for each steptdo

步驟4 輸入st到DDQN 中獲得狀態動作值函數(st,at;w)，at∈A；

步驟5 依據ε-greedy策略選取動作

步驟6 獲得立刻獎勵Rt和下一時刻的狀態

步驟7 將經驗元組存入經驗回放池M中，M←(st,at,Rt,st+1)

步驟8 建立訓練決策網絡的損失函數

步驟9 if |M|≥D

步驟10 從M中隨機取出D個小批量經驗元組(si,ai,Ri,si+1)

步驟11 根據式（22）計算D個經驗元組下目標網絡輸出值

步驟12 根據式（23）建立損失函數，訓練決策網絡參數

步驟13 執行梯度下降，使得預測值與目標值之間的誤差達到最小

步驟14 根據式（24）更新決策網絡權重參數

步驟15 iftmodnδ=0

步驟16 決策網絡參數賦值給目標網絡參數：←w

步驟17 end if

步驟18 end if

步驟19 end for

步驟20 end for

3 仿真結果與討論

本節給出了數值模擬結果來評估所提方案的有效性。本文建立一個三維坐標系，如圖4 所示。坐標系默認單位是米（m）。IRS 位置坐標為（0，50，2），PT 與PR 坐標為（50，0，0）、（1，24，0），ST 與SR 的坐標為（50，100，0）、（1，74，0）。IRS 反射元件的數量L=4，PT 發射功率Pp=2 W，能量采集增益gps=0.6。詳細參數在表2 中給出。

表2 資源優化算法仿真參數設置

圖4 系統模型三維位置仿真設置

為更好地展示所提算法的收斂性能，考慮即時獎勵和平均獎勵。其中平均獎勵定義為

式中：?表示平滑因子，初始值設置為0。

本文與其他3 種基準方案進行比較，分別是經典DQN 方案、多臂賭博機（Multi Arm Bandit，MAB）和隨機方案。在經典DQN 方案中，采用深度Q 學習方法，通過訓練神經網絡來學習最優的動作策略，與環境交互來更新參數。在MAB 方案中，多臂賭博機有多個臂（拉桿），每個臂都代表一種動作或策略，賭博機的目標是找到最佳的臂以最大化收益。在隨機方案中，智能體通過隨機選擇的策略來選取動作。

圖5 比較了所提算法與其他基準算法的性能。迭代0 ～500 次時，4 種方法的平均吞吐量都在提高，這是因為滑動平均值更新，平均吞吐量會隨著迭代次數的增加跟隨立即獎勵的變化。在平均吞吐量上升階段，本文所提方案中智能體依據最優策略選擇ST 傳輸功率以及優化IRS 相移矩陣；MAB 假設獎勵的分布是固定的，無法建立動作與環境之間的聯系；隨機方案獨立于任何信息。迭代次數在500 以后，平均吞吐量逐漸收斂。相比于經典DQN 算法，本文所提方案可將平均吞吐量提高13.8%。DRL 方法要明顯優于傳統算法。本文所提方案對比MAB 以及隨機策略這兩種方案可提高60.2%和120%。

圖5 平均吞吐量隨訓練回合數變化曲線

圖6 進一步研究了RF 能量采集對系統平均吞吐量的影響。存在RF 能量采集時，通信設備平均吞吐量增高，因為CR 通信設備運行時，RF 能量采集可以利用周圍環境中的能量為設備提供持續電力供應。當能量采集因子為0.2，相較于無能量采集場景，本文方案可使SU 平均吞吐量提高44.8%。

圖6 不同能量采集時間因子下的平均吞吐量

圖7 展示了IRS 反射元件個數L對SU 平均吞吐量的影響。當IRS 反射元件數目增加（如L＞4），本文所提方法相比經典DQN 算法更有效。隨機算法和MAB算法無法展現出比DRL更加強大的性能，說明本文所提算法是穩定且實用的，表明IRS 在輔助認知通信上存在巨大應用潛力。

圖7 不同IRS 反射元件數量對平均吞吐量的影響

4 結語

本文提出一種IRS 輔助認知電視頻譜資源優化方法。先將ST 的功率控制與IRS 相位控制建模為MDP，并提出基于殘差網絡的DDQN 資源優化算法，設計了DRL算法的狀態空間、動作空間及獎勵函數。結果表明，與基準情況相比，在該算法下，SU 長期累積吞吐量提高13.8%。本文還通過仿真驗證了在電池電量受限下的能量采集可以提高SU 的通信續航能力，可將吞吐量提高44.8%。