999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL 的IRS 輔助認知電視頻譜資源優化

2023-02-27 05:49:36鄭子濱劉明軒
電視技術 2023年12期
關鍵詞:動作優化

楊 亮,趙 越,鄭子濱,劉明軒

(福州大學 電氣工程與自動化學院,福建 福州 350108)

0 引言

隨著信息技術的快速發展,利用無線資源的需求在爆炸性地增長,對無線頻譜資源的消耗也在不斷增加[1]。認知無線電(Cognitive Radio,CR)被認為是解決頻譜資源短缺的潛在方案,電視白頻譜資源是第一個被考慮的頻譜共享案例。通過CR 對電視白頻譜資源的靈活使用,能夠提高利用率。智能反射面(Intelligent Reflecting Surface,IRS)作為一種新型的人工電磁超表面,能夠靈活調控電磁波的頻率、幅度、相位及傳播方向等特性,成為面向下一代6G 無線通信網絡的新興傳輸技術[2]。

將IRS 應用到CR 中,成為當下研究熱點。文獻[3] 研 究 了(Single Input Single Output,SISO)認知無線電系統中,通過聯合控制認知發射機(Secondary Transmitter,ST)發射功率與IRS 發射波束成形來優化認知用戶(Secondary User,SU)的通信速率。文獻[4]研究了多輸入單輸出(Multi Input Single Output,MISO)認知無線電系統中引入多個IRS,通過聯合優化在ST 處的波束形成與每個IRS 的反射相移矩陣提高SU 的可實現速率。雖然文獻[3]、文獻[4]中的IRS 優化問題可以利用凸優化理論或啟發式算法來解決,但對于大規模問題[5],非凸優化技術需要對優化變量逐一迭代優化,計算復雜度較高。

本文中,認知用戶SU 通過感知和理解無線電頻譜環境以提供無線通信服務,引入IRS 提高頻譜利用率并利用射頻(Radio Frequency,RF)能量延長電池續航;采用深度強化學習(Deep Reinforcement Learning,DRL)算法將SU 與IRS 控制器當作智能體,通過狀態、動作和獎勵機制與動態環境進行交互,最大限度地提高認知用戶吞吐量。

1 系統模型

1.1 模型描述

如圖1 所示,考慮一個用IRS 輔助underlay 模式下的能量采集CR 通信系統,系統中存在一對主用戶(Primary User,PU)和一對SU,PU 與SU 為單天線。在主發送端(Primary Transmitter,PT)到主接收端(Primary Receiver,PR)以及ST 到次接收端(Secondary Receiver,SR)之間配置一個具有L個反射元件的IRS 來輔助通信。PU 與SU 以時隙模式運行,假設有K個時隙,每個時隙的時間為T。PU 由電網供電,SU 可通過能量采集將RF 能量轉變為電能。假設SU 具有完美感知能力,感知時間忽略不計。

圖1 通信系統模型

本文中,IRS 通過部署的反射元件調控無線信號,IRS 反射系數矩陣為Φ=diag(φ)∈CL×L,IRS反射系數向量φ定義為

式中:ai∈[0,1],i∈1,2,…,L表示IRS 第i個元件的振幅反射系數,θi∈[0,2π),i∈1,2,…,L表示IRS 第i個元件的相移反射系數。假設每個IRS 反射元件的振幅反射系數為使得信號反射最大的一個,即ai=1。

1.2 系統信道模型

對于IRS 輔助的能量采集認知通信系統,在第t個時隙中,PT 和PR 之間、PT 和IRS 之間、IRS和PR 之間、PT 和SR 之間、ST 和SR 之間、ST和IRS 之間、IRS 和SR 之間、ST 和PR 之間的基帶等效信道分別表示為其中Ca×b表示所有a×b復矩陣的集合。考慮小規模衰落模型,除了能量采集鏈路以外,所有信道都假定為萊斯(Rician)衰落模型,且在一個時隙里信道增益保持不變。以ST與IRS 之間的信道為例

式中:β是萊斯因子,表示確定性LoS 分量;表示快衰落NLoS分量,是非視距瑞利衰落分量。為得到確定性LoS 分量,考慮IRS 為沿著方向(0,1,0)(即y 軸)放置的均勻線性陣列,故ST 與IRS 之間的確定性LoS 分量表示為

式中:vIRS與vST為導向矢量。ST為單天線,故vST為1。vIRS可表示為

式中:αAoA表示到達方位角,d表示IRS 相鄰元件之間的間距,載波波長λ,令d/λ=1/2。方向向量esr由ST 與IRS 的相對位置確定,即

式中:PST與PIRS分別表示ST 位置、IRS 位置。到達方位角αAoA可表示為

1.3 能量采集模型

本文時隙可分為能量采集階段和數據傳輸階段。如圖2 所示,在能量采集階段,能量采集時間為αT,α為能量采集時間因子,T表示每個時隙的時間。采集到的RF 能量可表示為

圖2 時隙結構圖

式中:η為能量采集效率,表示PT 在第t個時隙的發射功率,gtps表示第t個時隙的能量采集增益。當電池滿電時,額外采集能量將被拋棄。假設頻譜感知與電路損耗發熱的能量為es,電池的最大容量為Bmax,電池電量更新公式表示為

在第t個時隙中,SU 消耗能量不超過可充電電池容量與能量采集所獲得能量總和,故有

式中:B0表示ST 電池容量,為第t個時隙下ST發射功率。

1.4 信號模型

假設所有鏈路的信道狀態信息(Channel State Information,CSI)都是完全估計和已知的,第t個時隙在PR 和SR 處的接收信號分別表示為

式中:xpt~CN(0,1)、xst~CN(0,1)分別表示PT 與ST的發射信號,wpt~CN(0,σp2)、wst~CN(0,σs2)分別表示PR 和SR 處的加性高斯白噪聲(Additive Gaussian White Noise,AWGN)。

在第t個時隙,PR 接收到的信干噪比為

在第t個時隙,SR 接收到的信干噪比為

在K個時隙中,SU 總和吞吐量表示為

1.5 優化問題形成

本文研究在IRS 輔助能量采集CR 系統中,通過聯合優化每個時隙中的ST 發射功率和IRS 的相移矩陣來實現SU 總吞吐量的最大化。優化問題表述為

式中:約束C1表示SU 消耗能量低于初始電池容量與能量采集之和;對PU 的服務質量(Quality of Service,QoS)要求由約束C2定義,約束C2表示PU 的信干噪比最小閾值;約束C3表示ST 發射功率限制在pmax下,約束C4定義IRS 上的L個IRS 反射元件相移。

2 基于DRL 的聯合IRS 相移矩陣優化與認知用戶功率分配

2.1 強化學習優化問題轉換

本文將IRS 輔助能量采集認知通信建模為馬爾可夫決策過程(Markov Decision Process,MDP),由四元組(st,at,Rt,st+1)表示。智能體通過不斷地與環境交互,利用反饋來學習策略以最大化累積獎勵。下面定義基于DRL 算法的關鍵元素,包括狀態空間、動作空間、狀態轉移函數及獎勵函數。

S表示為狀態空間,st∈S表示智能體在第t個時隙從環境觀測到的狀態,定義為

at-1包括ST 發射功率、IRS 相移矩陣。Bt為當前時隙ST 電池容量信息,Et-1為上一個時隙采集能量值。htc為第t個時隙中的信道狀態信息。

A為動作空間。本文將ST 發射功率離散為M個功率層級,即atp∈{p1,p2,…,pM}。將IRS 的反射元件的相位設置為有一定關聯的整體。當IRS 相移矩陣的動作空間大小為5 時,設置為

故第t個時隙智能體采取的動作at∈A可定義為

狀態轉移函數:Pr(st+1|st,at)∈[0,1]是轉移概率矩陣,表示當智能體選擇動作at時的狀態轉移概率。

獎勵函數表示為

智能體每個時間步長上的獎勵通過折扣累積Rt構成智能體長期回報。累積獎勵可表示為

式中:γ∈[0,1]表示折扣系數,策略π(st,at)表示在狀態st之上選擇一個動作at的概率分布。

2.2 基于殘差網絡的DDQN 優化算法框架

基于殘差網絡的DDQN 優化算法框架如圖3所示,殘差塊包含一個跳躍連接與殘差映射。跳躍連接將輸入直接添加到殘差映射上,形成“shortcut”路徑,使得信息能直接傳遞到后續層,而不受梯度消失影響。

圖3 基于殘差網絡的DDQN 算法框架圖

圖3 中,決策網絡用于訓練,本文采用ε-greedy策略實現探索和開發的權衡,表示為

式中:p∈[0,1]表示隨機生成的概率。ε給定初始值,并以ξ∈(0,1]的速度遞減下降,直到下界。本文中,DDQN 將決策網絡和目標網絡的計算解耦,先在決策網絡中找出最大Q值對應的動作at,再利用動作at在目標網絡中計算目標Q值,可表示為

式中:表示決策網絡參數,表示目標網絡參數。兩個網絡的結構相同,決策網絡不斷更新w^,目標網絡則通過一定時間步nδ來更新。通過讓兩個獨立網絡的損失函數最小化實現決策網絡參數更新,損失函數可表示為

參數的更新公式為

具體的算法流程如下所示。

基于殘差網絡的DDQN 資源優化算法

輸入:C條通信鏈路信道增益的實部與虛部,電池電量,上一時隙采集的能量,IRS 相移矩陣虛部與實部,ST 發射功率

輸出:智能體最優動作at={pst,Φt}

初始化:經驗回放池M的容量Dm,決策網絡參數,目標網絡參數,ST 電池初始容量B0,IRS相移矩陣Φ,ST 發射功率ps,PT 發射功率pp,小批量訓練數據大小D,C條通信鏈路信道增益

步驟1 for each episode do

步驟2 初始化狀態s1

步驟3 for each steptdo

步驟4 輸入st到DDQN 中獲得狀態動作值函數(st,at;w),at∈A;

步驟5 依據ε-greedy策略選取動作

步驟6 獲得立刻獎勵Rt和下一時刻的狀態

步驟7 將經驗元組存入經驗回放池M中,M←(st,at,Rt,st+1)

步驟8 建立訓練決策網絡的損失函數

步驟9 if |M|≥D

步驟10 從M中隨機取出D個小批量經驗元組(si,ai,Ri,si+1)

步驟11 根據式(22)計算D個經驗元組下目標網絡輸出值

步驟12 根據式(23)建立損失函數,訓練決策網絡參數

步驟13 執行梯度下降,使得預測值與目標值之間的誤差達到最小

步驟14 根據式(24)更新決策網絡權重參數

步驟15 iftmodnδ=0

步驟16 決策網絡參數賦值給目標網絡參數:←w

步驟17 end if

步驟18 end if

步驟19 end for

步驟20 end for

3 仿真結果與討論

本節給出了數值模擬結果來評估所提方案的有效性。本文建立一個三維坐標系,如圖4 所示。坐標系默認單位是米(m)。IRS 位置坐標為(0,50,2),PT 與PR 坐標為(50,0,0)、(1,24,0),ST 與SR 的坐標為(50,100,0)、(1,74,0)。IRS 反射元件的數量L=4,PT 發射功率Pp=2 W,能量采集增益gps=0.6。詳細參數在表2 中給出。

表2 資源優化算法仿真參數設置

圖4 系統模型三維位置仿真設置

為更好地展示所提算法的收斂性能,考慮即時獎勵和平均獎勵。其中平均獎勵定義為

式中:?表示平滑因子,初始值設置為0。

本文與其他3 種基準方案進行比較,分別是經典DQN 方案、多臂賭博機(Multi Arm Bandit,MAB)和隨機方案。在經典DQN 方案中,采用深度Q 學習方法,通過訓練神經網絡來學習最優的動作策略,與環境交互來更新參數。在MAB 方案中,多臂賭博機有多個臂(拉桿),每個臂都代表一種動作或策略,賭博機的目標是找到最佳的臂以最大化收益。在隨機方案中,智能體通過隨機選擇的策略來選取動作。

圖5 比較了所提算法與其他基準算法的性能。迭代0 ~500 次時,4 種方法的平均吞吐量都在提高,這是因為滑動平均值更新,平均吞吐量會隨著迭代次數的增加跟隨立即獎勵的變化。在平均吞吐量上升階段,本文所提方案中智能體依據最優策略選擇ST 傳輸功率以及優化IRS 相移矩陣;MAB 假設獎勵的分布是固定的,無法建立動作與環境之間的聯系;隨機方案獨立于任何信息。迭代次數在500 以后,平均吞吐量逐漸收斂。相比于經典DQN 算法,本文所提方案可將平均吞吐量提高13.8%。DRL 方法要明顯優于傳統算法。本文所提方案對比MAB 以及隨機策略這兩種方案可提高60.2%和120%。

圖5 平均吞吐量隨訓練回合數變化曲線

圖6 進一步研究了RF 能量采集對系統平均吞吐量的影響。存在RF 能量采集時,通信設備平均吞吐量增高,因為CR 通信設備運行時,RF 能量采集可以利用周圍環境中的能量為設備提供持續電力供應。當能量采集因子為0.2,相較于無能量采集場景,本文方案可使SU 平均吞吐量提高44.8%。

圖6 不同能量采集時間因子下的平均吞吐量

圖7 展示了IRS 反射元件個數L對SU 平均吞吐量的影響。當IRS 反射元件數目增加(如L>4),本文所提方法相比經典DQN 算法更有效。隨機算法和MAB算法無法展現出比DRL更加強大的性能,說明本文所提算法是穩定且實用的,表明IRS 在輔助認知通信上存在巨大應用潛力。

圖7 不同IRS 反射元件數量對平均吞吐量的影響

4 結語

本文提出一種IRS 輔助認知電視頻譜資源優化方法。先將ST 的功率控制與IRS 相位控制建模為MDP,并提出基于殘差網絡的DDQN 資源優化算法,設計了DRL算法的狀態空間、動作空間及獎勵函數。結果表明,與基準情況相比,在該算法下,SU 長期累積吞吐量提高13.8%。本文還通過仿真驗證了在電池電量受限下的能量采集可以提高SU 的通信續航能力,可將吞吐量提高44.8%。

猜你喜歡
動作優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
下一個動作
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: www.日韩三级| 内射人妻无套中出无码| 99热这里只有精品免费| 久久国产精品波多野结衣| 亚洲成人福利网站| 日韩国产综合精选| 日本不卡在线播放| 精品精品国产高清A毛片| 欧美日韩一区二区在线免费观看| 欧美国产成人在线| 老色鬼欧美精品| 欧美日韩福利| 国产亚洲精品无码专| 午夜老司机永久免费看片| 成年av福利永久免费观看| 9啪在线视频| av天堂最新版在线| 久久国产精品影院| 日韩精品成人在线| 无码中文字幕乱码免费2| 免费看美女毛片| 午夜精品久久久久久久无码软件| 国产三区二区| 欧美成人看片一区二区三区 | 99久久精彩视频| 国产精品香蕉| 免费jjzz在在线播放国产| 日韩黄色在线| 99久久亚洲综合精品TS| 成人福利在线视频| 亚洲第一页在线观看| 日韩精品资源| 97成人在线观看| 在线播放国产99re| 日日拍夜夜嗷嗷叫国产| 成人午夜久久| 久久久久亚洲精品成人网 | 一级黄色网站在线免费看| 国产精品第页| 2020精品极品国产色在线观看 | 中文字幕资源站| 国产区福利小视频在线观看尤物| 日本黄色a视频| 又猛又黄又爽无遮挡的视频网站| 日韩第一页在线| 亚洲国产在一区二区三区| 午夜天堂视频| 高清色本在线www| 国产一区亚洲一区| 国产福利免费视频| 国产97视频在线观看| 99这里只有精品在线| 国产欧美在线视频免费| 免费可以看的无遮挡av无码| 国产成人免费手机在线观看视频| 国产尤物视频网址导航| 韩国自拍偷自拍亚洲精品| 在线亚洲小视频| 热99精品视频| 色综合天天操| 91伊人国产| 18禁黄无遮挡免费动漫网站| 亚洲天堂首页| 日韩精品一区二区三区免费在线观看| 国产欧美日韩视频怡春院| 国产免费怡红院视频| 大香网伊人久久综合网2020| 久久免费成人| 亚洲精品第一页不卡| 熟妇人妻无乱码中文字幕真矢织江 | 老司机精品一区在线视频| 97av视频在线观看| 精品人妻AV区| 欧美性猛交一区二区三区| 亚洲最猛黑人xxxx黑人猛交| 在线国产毛片| 国产不卡网| 国产精品冒白浆免费视频| 欧美国产日本高清不卡| 青青青亚洲精品国产| 91成人在线免费观看| 亚洲精品欧美重口|