999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的可見光定位通信一體化功率分配研究

2022-09-03 10:30:26馬帥李兵盛海鴻谷榮妍周輝王洪梅王悅李世銀
通信學報 2022年8期
關鍵詞:分配用戶系統

馬帥,李兵,盛海鴻,谷榮妍,周輝,王洪梅,王悅,李世銀

(中國礦業大學信息與控制工程學院,江蘇 徐州 221000)

0 引言

隨著移動互聯網業務不斷深入,無線設備數量的增長和高速通信需求的增多給傳統的通信網絡帶來了很大壓力[1]。據Cisco 預計,2023 年全球互聯網用戶規模將達到53 億,移動設備總數將達到131 億,且值得注意的是,超過50%的語音流量和70%的無線數據流量發生在室內環境,這使射頻(RF,radio frequency)通信頻譜資源短缺問題日益突出。可見光通信(VLC,visible light communication)和可見光定位(VLP,visible light position)由于具有遠高于RF 頻段的免授權帶寬(430~790 THz)、綠色節能和電磁免疫等優點,近年來受到學術界和工業界的研究關注[2-3]。

VLC 通常利用簡單的強度調制和直接檢測方式進行信息傳輸,可同時實現照明和通信功能,被視為B5G 和6G 的關鍵技術之一[4]。目前已有大量文獻研究如何提升VLC 系統的性能。文獻[5]研究了多用戶VLC 系統的容量區域,并提出了一種基于交替方向乘子法的干擾管理方案。文獻[6]研究了無小區VLC系統的資源分配方案,可在滿足光功率約束和用戶速率要求的條件下提高通信速率。文獻[7]利用五色硅基LED,實現了速率為14.6 Gbit/s 的水下VLC 系統。此外,作為VLC 的一個重要應用,VLP 能實現室內高精度定位,可應用于室內導航和物流管理等領域中。通過測量不同的可見光信號特性,現有的VLP 方案主要使用基于接收信號強度指示(RSSI,received signal strength indication)、到達角度、到達時間和到達時間差等技術。在上述方案中,RSS定位技術由于其復雜度較低和部署簡單等優勢被廣泛采用。文獻[8]使用RSS 和接收端多個光電二極管(PD,photodiode)之間的相對位置來確定目標的位置,在對稱的圓形區域實現了定位精度小于1.5 cm 的定位誤差。文獻[9]研究了由單個LED和多個傾斜接收器組成的室內高精度VLP 系統,基于傾斜角的先驗信息,使用RSS 定位方法進行二維和三維的定位,定位精度小于6 cm。文獻[10]提出了使用機器學習方法提升基于RSS 的VLP系統的定位精度的方案,并通過線性插值減少了模型訓練所需的樣本數。

現有研究大多僅關注VLC 或VLP 系統,而在室內場景下關于可見光定位通信(VLPC,visible light position and communication)一體化系統資源分配的研究具有很強的現實意義,近年來受到了研究者的重視。文獻[11]研究了一個面向物聯網的VLPC 一體化系統的資源分配問題,在保證定位精度約束的同時,通過聯合優化用戶接入、帶寬分配和功率分配以最大化傳輸速率。文獻[12]基于正交頻分復用(OFDM,orthogonal frequency division multiplexing)技術,提出了一種適用于室內可見光通信和定位的穩健傳輸方案,通過將LED 的發射信號調制到不同的子載波以克服用戶間干擾,仿真結果表明該方案能同時滿足通信和定位要求。文獻[13]提出了基于濾波器組多載波調制技術的VLPC 一體化系統傳輸方案,相較于OFDM,該方案可有效提高帶寬利用率。文獻[14]考慮到VLPC 一體化系統中定位精度和用戶最低通信速率要求,提出了一種基于無模型強化學習的資源分配方案來最大化多用戶和速率。

在實際的VLPC 系統中,由于用戶的移動性、不準確的信道狀態信息(CSI,channel state information)和對服務質量的要求,導致很難獲得動態系統的完整信息,使傳統優化方法很難解決該類具有時變特征的優化問題。近年來,深度強化學習(DRL,deep reinforcement learning)被廣泛應用于多種復雜無線通信環境下的動態資源分配問題中,其主要思想是在與環境的長期交互過程中,利用深度學習感知環境,利用強化學習改善策略[15-16]。為了解決上述問題,本文旨在研究VLPC 一體化系統的基本原理,并提出一種基于深度確定性策略梯度(DDPG,deep deterministic policy gradient)的動態功率分配方案,主要的研究工作如下。

1)建立了移動用戶場景下VLPC 一體化系統模型,通過幀結構的設計,使發射端不需要利用導頻序列進行信道狀態信息估計,而是根據定位信息獲得該結果,這可以顯著降低系統開銷;推導了定位誤差的克拉美羅下界(CRLB,Cramér-Rao lower bound)和可達通信速率的表達式,揭示定位和通信的內在關系。

2)研究了滿足CRLB 門限、實際光功率約束和總功率約束條件下的動態功率分配問題,以最大化移動用戶的平均速率。由于該問題難以用傳統優化方法解決,首先將該問題重構為馬爾可夫決策過程,然后提出一種基于DDPG 的動態功率分配算法,以充分發掘歷史數據中有價值的信息。

3)仿真結果表明,本文所提算法能取得良好的通信性能,并能緩解定位誤差帶來的影響。與深度Q 網絡(DQN,deep Q network)和等功率分配方案對比,驗證了本文算法的有效性。

1 VLPC 一體化系統模型

考慮一個室內下行鏈路VLPC 一體化系統,如圖1 所示,包括一個配備N個LED 的發射基站和一個配備單個PD 的移動用戶。定義LED 的索引集為N?{1,2,…,N},第i個 LED 的位置為vi=[xi,yi,zi]T,?i∈N,在時隙t處用戶的位置為u(t)=[xu(t),yu(t),zu(t)]T,且信道狀態在每個時隙內保持不變。

圖1 VLPC 一體化系統模型

如圖2 所示,在每個時隙上,VLPC 一體化系統發送的信息幀被劃分為定位子幀、反饋子幀和通信子幀。具體地,在定位子幀中,基站先向用戶發送定位信號,接收端則通過接收到信號的RSS 值來估計用戶位置。在反饋子幀中,用戶的估計位置被反饋給基站,基站再根據估計位置計算每個LED與用戶之間的CSI 估計值。在通信子幀中,基站根據CSI 估計值與用戶進行定向通信。考慮到LED 與用戶之間的信道增益取決于直射鏈路[17],定義時隙t處第i個LED 和移動用戶之間的信道增益為

圖2 VLPC 一體化系統幀結構

1.1 定位子幀

在定位子幀中,基站先發送定位信號給用戶,接收端根據獲得的RSS 值計算用戶的估計位置。具體地,在時隙t處,定義sp,i(t)表示第i個LED 發送的定位光信號,滿足峰值約束 ?A≤sp,i(t)≤A,均值約束 E{sp,i(t)}=0,均方約束=ε,其中,A>0和ε分別表示光信號的峰值和方差。第i個LED 發送的定位信號xp,i(t)為

其中,Pp,i(t)表示分配給第i個LED 的定位功率,b表示LED 的直流偏置。為了保證發送信號的非負性,定位功率應滿足≤b。

移動用戶在時隙t處接收到來自第i個LED 的定位信號yp,i(t)可表示為

其中,np,i表示服從均值為零和方差為的高斯白噪聲。

根據式(4),用戶接收到來自第i個LED 的信號的電功率為

聯立式(3)和式(5),可得到時隙t處關于用戶位置的等式,表示為

通過最小二乘法求解式(6),可以得到時隙t處的用戶估計位置。

從實際角度看,由于噪聲和非視距傳輸等因素的影響,定位誤差難以避免,令ep(t)=u(t)?表示定位誤差,且在每個時刻上服從高斯分布[18],則定位誤差的CRLB 可表示為[19]

1.2 反饋子幀

則第i個LED 和用戶之間理想的CSI 可表示為gi(t)=+Δgi(t)。

聯立式(3)和式(8),CSI 誤差 Δgi(t)為

1.3 通信子幀

在通信子幀中,基站根據估計的CSI 值與用戶進行定向通信。具體地,在時隙t處,定義sc(t)表示基站發送的通信光信號,滿足 ?A≤sc(t)≤A、E{sc(t)}=0和=ε,其中,A>0和ε分別表示通信光信號的峰值和方差,定義表示對應的波束成形向量,則發射端通信信號表示為

其中,b=[b,…,b]T∈RN×1表示直流偏置向量。

考慮到CSI 誤差的存在,接收端信號表達式為

其中,nc表示服從均值為零和方差的高斯白噪聲。

利用α-β-γ(ABG)分布[5],移動用戶在時隙t處的可達通信速率為

其中,α、β和λ為ABG 參數。

1.4 問題建模

在滿足定位精度要求、總發送功率約束和LED實際功率約束條件下,最大化移動用戶在整個移動時間T上的平均可達速率。數學上,可達速率最大化可建模為如下問題

其中,χ表示定位誤差門限,Ptotal表示每個時隙上總的發送功率門限。

由于用戶具有移動性,問題(14)是在總時隙T上的組合優化問題,傳統的優化方法需要在大空間上進行搜索,很難以較低的時間復雜度得到此類問題的高質量解[15]。此外,由于目標函數和約束C1的影響,問題(14)的優化變量相互耦合,很難直接獲得功率分配的解析解。因此,本文提出了一種基于DRL 的功率分配算法,以高效地解決該問題。

2 算法設計

2.1 強化學習問題建模

作為機器學習的一個重要分支,強化學習旨在通過不斷地“試錯”與環境交互,進而學習到最佳的策略,以最大化系統的長期獎勵或者實現特定的目標。強化學習方法的訓練過程可被建模為形如(S,A,P,R)的馬爾可夫決策過程[21],其中,S 表示狀態空間,包含了系統完整的狀態信息;A 表示動作空間,包含了有限個可能采取的動作;P 表示狀態轉移概率的集合;R 表示系統即時獎勵的集合。具體地,在時隙t處,處于狀態st∈S 的智能體會根據某一策略執行動作at∈A,然后通過與環境交互獲得即時獎勵rt∈R,接著會根據概率轉移到下一狀態st+1∈S。在本節中,狀態、動作和獎勵的定義如下。

狀態。在VLPC 一體化系統中,定位功率的分配決定了定位的準確性和CSI 估計值的準確性。進一步,由于LED 根據CSI 估計值進行定向通信,CSI 估計值的準確性在很大程度上影響系統的功率分配策略。因此,在時隙t處,定義狀態st為所有LED 到用戶之間的CSI 估計值,其可以通過上一個時隙t處分配的定位功率,利用式(6)計算得

動作。當智能體處于狀態st時,會進行定位功率和通信功率的分配,則at定義為

獎勵。在每個訓練回合中,智能體會根據當前所處的狀態st選擇一個動作at執行,然后從環境中獲得一個獎勵值rt作為反饋。由于問題(14)的優化目標是在滿足約束的條件下最大化用戶的平均可達通信速率,則rt定義為[15]

通過不斷地與環境交互,智能體可以學習到一個最優策略θ*,以最大化長期折扣獎勵,定義為

其中,γ∈[0,1]表示折扣系數,用于智能體權衡當前獎勵和未來獎勵的重要性。當γ越靠近1 時,表示智能體越重視長期獎勵;當γ越靠近0 時,表示智能體僅注重短期獎勵。

強化學習的目標是找到一個策略以最大化智能體獲得的長期折扣獎勵。令Qθ(st,at)表示Q值函數,用于評價智能體在策略θ的指導下,以狀態st選擇動作at的價值,可根據貝爾曼方程推導如下[22]

2.2 基于DDPG 的功率分配算法

問題(14)可以通過使用基于強化學習的DQN算法來解決,其中關鍵步驟是將功率在可行域內量化為一些離散值。然而由于量化誤差難以避免,這可能導致某些關鍵的功率分配取值丟失。雖然可以通過增大量化等級減少誤差,但同時也會增大DQN的搜索空間,給算法收斂帶來困難。受文獻[24]啟發,本文提出了一種基于深度確定性策略梯度的功率分配算法,其框架如圖3 所示。

圖3 DDPG 算法框架

基于Actor-Critic 模式,DDPG 網絡由4 個深度神經網絡(DNN,deep neural network)組成,包括一個權值為φ的Actor 網絡μ(si;φ),用于輸出對應的動作;一個權值為ρ的Critic 網絡Q(si,a i;ρ),用于評估所選擇動作的Q值;一個權值為φ′的目標Actor 網絡μ(st;φ′);一個權值為ρ′的目標Critic 網絡Q(si+1,μ(si+1;φ′);ρ′),用于產生訓練的Q值。

為了保證問題(14)中光功率約束C3,需要對DDPG 網絡的動作輸出層進行改寫。具體地,令xt=μ(si;φ)表示Actor 網絡的輸出,使用高斯隨機噪聲n平衡對新動作的探索和對已知動作的利用。考慮到定位和通信功率的上界ξ,DDPG 網絡的實際動作at可表示為

其中,S(xt)=為sigmoid 函數。式(20)確保每一個LED 的發送功率被約束到[0,ζ],以使其滿足問題(14)中的約束條件C3,若為其他激活函數則不滿足問題(14)中的約束條件C3。

當在線決策處于初始階段時,基站作為智能體,先給所有LED 分配相等的定位功率,通過式(6)獲取初始的用戶估計位置。在時隙t處,基于式(8),智能體將估計的CSI 視為狀態st,并將其發送到DDPG 單元中,然后基于式(20),得到對應的功率分配動作at,并利用at中分配的通信功率獲得用戶的即時通信速率,進而基于式(17)獲得獎勵rt。之后,隨著用戶移動到下一位置,通過at中分配的定位功率得到用戶移動后的估計位置,進而獲得狀態st+1。

本節采用隨機從經驗池D 中采樣Z個樣本(si,ai,ri,si+1)的方法,以打破訓練時數據的相關性。具體而言,在離線訓練過程中,利用目標Actor 網絡μ(st;φ′)和目標Critic網絡Q(si+1,μ(si+1;φ′);ρ′)生成用于訓練的目標Q值,即

同時,Critic 網絡通過最小化均方誤差(MSE,mean square error)損失函數來更新其權重ρ,MSE函數曲線光滑、連續、處處可導,便于使用梯度下降算法,是一種常用的損失函數。而且隨著誤差的減小,梯度也在減小,這有利于收斂,即使使用固定的學習速率,也能較快地收斂到最小值。因此本文選用MSE 作為誤差度量函數,即

根據確定性策略梯度定理[23],Actor 網絡μ(st;φ)在獲得更大的累積折扣獎勵的方向上更新其權重φ,即

其中,J(φ)=表示在所有狀態都遵循策略θ的預期總回報。

使用D 中的Z個隨機采樣元組,式(23)可以通過近似計算式(24)得到

最后,使用軟更新的方式更新目標網絡的權值

其中,τ表示軟更新系數,且滿足0≤τ≤1。算法1總結了基于DDPG 的功率分配算法。

3 仿真分析

為了驗證本文算法的有效性,本節給出了數值結果用于評估所提出的基于DDPG 功率分配算法的性能,并與DQN 算法和等功率分配算法進行對比。在仿真中,考慮一個部署在5 m×5 m×3 m 房間內的VLCP 一體化系統,其中距離單位為m。將房間建模為三維坐標系(X,Y,Z),房間的一角為坐標原點(0,0,0),VLPC 系統參數如表1 所示,DDPG算法參數如表2 所示。基站包括4 個LED,其坐標分別為(1,1,3),(3,3,3),(1,3,3),(3,1,3)。移動用戶起點坐標為(2,2,1.3),移動范圍為半徑2 m 的圓形區域,移動速度為0.2 m/s,且在每個時隙上從向前、向后、向左與向右這4 種移動方向中隨機選擇一種。

表1 VLPC 系統參數

表2 DDPG 算法參數

為了直觀地比較DDPG 和DQN 方案在平均可達速率上的差距,圖4 給出了2 種方案的平均可達速率隨量化等級的變化情況,以DDPG 方案為基準,其中量化等級集合設置為{3,6,10,15,20,30,40,50} 。從圖4 可以看到,當量化等級從3 提高到50 時,DQN 方案的平均可達速率先逐漸增加,然后開始減小。這說明通過增大量化等級可以提升DQN 方案的性能,但是過大的動作空間會導致DQN 方案的實際訓練困難,并且通過簡單地增加動作空間的維度來消除量化誤差是不可行的。而DDPG 方案本質上不需要對功率進行量化取值,因而其性能優于DQN 方案。由圖4 可知,不同量化等級下的DDPG 方案的平均可達速率均大于DQN 方案。

圖4 平均可達速率隨量化等級的變化情況

圖5 給出了3 種方案的平均可達速率隨訓練回合數的變化曲線以及2 種量化等級下的DQN 變化曲線。從圖5 中可以看出,DDPG 和DQN 方案的平均可達速率剛開始都比較小,經過訓練后都分別收斂到一個相對穩定的值,這說明這2 種基于DRL的方案均能在與環境的不斷交互中學習到新信息,具備良好的收斂性,而等功率分配方案通過在每個時隙上給LED 分配相等的定位和通信功率,并沒有自主決策的能力,故難以取得較好的通信速率。由圖5 可知,量化等級k=30 的DQN 方案的平均可達速率優于量化等級k=10 的DQN 方案的平均可達速率,并由圖4 知當量化等級k>30 時,平均可達速率隨之減少。由圖5 可知,DQN 方案的收斂訓練回合數為200,DDPG 為300。本文采用分布式DQN[15,24]方案,使用多DQN 單元分布式運行結構以減少動作空間維度,加快了收斂速度。此外還可以看出,當所提出的2 種方案收斂后,基于DDPG 的方案在平均可達速率上優于DQN 方案。這是因為DDPG 單元采用Actor-Critic 架構來構造策略函數來直接輸出所選擇的動作,可以解決DQN 因量化功率取值導致的誤差問題,因而能取得更優的性能。

圖5 平均可達速率隨訓練回合數的變化曲線

圖6 定位誤差的 的CDF 曲線

本文通過運行1 000 次回合所需時間來比較方案的復雜度,等功率分配方案為1 160 s,DQN 方案為1 100 s,DDPG 方案為6 428 s,雖然DDPG 方案所需時間較長,但DDPG 方案的平均可達速率最高。

圖7 給出了3 種方案的平均可達速率隨總功率門限Ptotal的變化曲線。由式(12)可知,平均可達速率隨著功率增加而增加。從圖7 可以看出,3 種方案的平均可達速率都隨著Ptotal的增加而增加,這是因為隨著總功率門限的增加,用于定位的功率就越多,CSI 估計就越準確,且LED 獲得的通信功率也會隨之增加,從而使用戶的平均可達速率增加。

圖7 平均可達速率隨總功率門限 Ptotal 的變化曲線

4 結束語

本文提出了一種基于深度強化學習的VLPC 一體化系統的功率分配方案。首先,提出了定位通信一體化幀結構設計;然后,利用定位信息實現了信道狀態信息的估計,并推導了定位誤差的CRLB 和通信速率,闡明了定位精度和通信速率的內在耦合關系;在此基礎上,研究了滿足CLRB 門限、LED 實際功率約束下的動態功率分配問題,以最大化移動用戶的平均通信速率。由于傳統優化方法難以解決該動態功率分配問題,本文提出了基于DDPG 的VLPC 動態功率分配方案。仿真結果表明,所提方案能取得良好的通信性能,并能有效緩解定位誤差帶來的影響。

附錄1 CRLB 的推導

簡潔起見,本節推導省略時隙t。定義用戶的三維位置坐標u=[xu,yu,zu]T表示待估計的用戶位置向量,根據式(4),定位信號yp,i的似然函數可表示為

其對數似然函數可表示為

其中,κ是與未知參數無關的常數,Tp是定位信號的持續時間。

FIM 矩陣Ju(pp)是定位功率向量pp=的函數,可表示為

其中,一階導數計算過程為

基于式(29),二階導數計算過程為

由于定位信號滿足 E{sp,i}=0,=ε,式(28)可重新表示為

其中,矩陣Φ可表示為

其中,相關微分項可表示為

根據CRLB 對任何無偏估計量的均方誤差的定義,定位誤差ep的CRLB 可表示為

猜你喜歡
分配用戶系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 亚洲男人天堂久久| 日本人妻一区二区三区不卡影院| 免费看a级毛片| 九色视频最新网址 | 看你懂的巨臀中文字幕一区二区 | 一级毛片免费播放视频| 亚洲美女一区二区三区| 岛国精品一区免费视频在线观看| 美女被操黄色视频网站| 在线观看热码亚洲av每日更新| 精品无码一区二区三区在线视频| 国产一级α片| 久久人搡人人玩人妻精品一| 91在线无码精品秘九色APP| 秘书高跟黑色丝袜国产91在线 | 四虎影视库国产精品一区| 一本无码在线观看| 日本妇乱子伦视频| 在线精品欧美日韩| 亚洲中文无码av永久伊人| 欧美中出一区二区| 免费不卡视频| 美女国产在线| 亚洲最大福利网站| 熟女成人国产精品视频| 国产精品女人呻吟在线观看| 欧美不卡二区| 四虎亚洲国产成人久久精品| 久久久久亚洲AV成人人电影软件| 国产精品19p| 国产在线视频自拍| 亚洲色图在线观看| 欧美成人午夜在线全部免费| 国产一级裸网站| 久久99热66这里只有精品一| 国产亚洲美日韩AV中文字幕无码成人| 国产乱人视频免费观看| 亚洲va视频| 国产主播福利在线观看| 狠狠色综合网| 最新无码专区超级碰碰碰| 亚洲,国产,日韩,综合一区| 91欧美亚洲国产五月天| 中文字幕亚洲综久久2021| 一级毛片在线播放免费| 欧美日本在线观看| 人妻中文久热无码丝袜| www中文字幕在线观看| 国产欧美精品一区aⅴ影院| 国产亚洲精品资源在线26u| 19国产精品麻豆免费观看| 色天堂无毒不卡| 一级香蕉视频在线观看| 国产福利一区视频| 亚洲最大福利视频网| 91福利片| 日韩精品无码不卡无码| 午夜不卡福利| 国产无遮挡猛进猛出免费软件| 久久伊人操| 国产资源免费观看| 麻豆AV网站免费进入| 天堂av高清一区二区三区| 日本精品影院| 波多野结衣无码中文字幕在线观看一区二区 | 99偷拍视频精品一区二区| 无码一区18禁| 久久精品91麻豆| 免费在线视频a| 午夜电影在线观看国产1区| 久久综合AV免费观看| 欧美另类精品一区二区三区| 国产精品手机在线观看你懂的 | 久久久久人妻一区精品色奶水| 香蕉eeww99国产在线观看| 538精品在线观看| 日韩精品一区二区深田咏美| 中文字幕 欧美日韩| 国产成人综合网| 71pao成人国产永久免费视频 | 亚洲精品制服丝袜二区| 美女扒开下面流白浆在线试听 |