李本翔,向路平,胡 杰,楊 鯤
(電子科技大學 信息與通信工程學院,四川 成都 611731)
隨著無線通信技術的發展,聯網設備的數量急劇增加,產生了許多新的通信場景和需求[1-2],例如車聯網(Vehicle-to-Everything,V2X)、物聯網(Internet of Things,IoT)等。未來6G承載多種智能應用的V2X系統不僅對通信性能有著較高的要求[3],還要完成一定的感知任務。然而,隨著通信系統的載波頻段不斷提升,已經和雷達感知的頻段相近,這會對雷達感知造成干擾,同時雷達也會影響通信性能。而通感一體化技術(Integrated Sensing and Communication,ISAC)是解決這一問題的關鍵,并且如今對于V2X系統中ISAC技術的研究已經獲得了學術界和工業界的廣泛關注[4]。
傳統的通信和雷達系統使用不同的正交頻帶并進行獨立設計[5]。然而隨著大規模天線技術發展和毫米波技術的應用,通信和雷達系統的性能都得到了大幅提升,并且可以共用一些硬件設備和頻譜資源,例如大規模天線雷達和大規模天線通信[6]。此外,在載波頻率達到毫米波頻段時,雷達系統與通信系統的信道特性和信號處理方法十分相似[7]。正是由于這些相似性,具有感知和雷達集成增益的ISAC被認為是一種很有前景的技術。例如,在基于ISAC的V2X網絡中,路邊單元(Roadside Unit, RSU)通過利用從車輛上反射的ISAC回波信號來預測車輛的位置,從而提供更好的通信服務[8]。
發射機可以通過多種方式利用回波中的隱藏信息提高通信性能,包括自適應調制(Adaptive Modulation,AM)、波束成形和自適應編碼等。眾所周知,AM是一種基于信道估計來實現最優容量的簡單且有效的方法[9]。通常,發射機從上行導頻信號中獲取信道信息,并根據誤碼率(Bit Error Rate,BER)選擇調制方案來提升通信性能。例如,文獻[10]提出了一種自適應編碼和調制(Adaptive Coding and Modulation,ACM)技術,該技術根據來自上行導頻反饋的飛機之間的距離信息確定調制和編碼方式。同時,文獻[11]使用深度強化學習(Deep Reinforcement Learning,DRL)根據導頻反饋的歷史信道狀態信息(Channel State Information,CSI)預測調制模式。然而,在ISAC系統中,發射機可以直接從雷達回波信號中獲得信道信息,無需導頻交互的過程。
如何根據反射的回波做出決策對ISAC系統來說是一個重要的挑戰。通常,這個過程被分為兩個步驟:① 從回波中估計反射體的位置和速度信息并由此估計信道狀態;② 提升各種通信技術[5,12-15]。文獻[12]使用匹配濾波估計用戶的位置和速度,實時調整車輛的波束寬度,以此來覆蓋整個車輛。同樣,在匹配濾波之后,也可以利用擴展卡爾曼濾波(Extended Kalman Filter,EKF)[13]、因子圖[14]等方法實現波束預測。此外,數據驅動技術也與ISAC系統相結合用來適應復雜的時變環境[15],例如文獻[5]根據估計的信道狀態信息采用深度神經網絡(Deep Neural Networks ,DNNs)進行波束預測。這些研究已經證明了ISAC系統的優越性。然而,ISAC系統中自適應調制方案的設計還存在空缺,因此本文主要考慮基于ISAC系統AM的實現,并與傳統通信進行比較。
本文提出了一種ISAC系統傳輸協議,能夠基于回波預測下一個時刻的調制模式。相比于傳統通信減少了導頻開銷,提升了信道容量,并且減少了信道預測過程帶來的計算資源消耗。為了實現所提出的框架,采用DRL算法來實現AM,根據車輛距離預測下一時刻的調制模式,在保證滿足誤碼率約束同時,最大化通信容量。具體來說,RSU從回波中提取車輛的距離信息,并且將歷史距離作為DRL狀態輸入,下一時刻調制模式作為DRL動作輸出。
如圖1所示,本文考慮了V2X場景下基于ISAC的多輸入多輸出(Multiple-input Multiple-output,MIMO)系統,一個配備了兩組均勻線性陣列天線(Uniform Linear Array,ULA)RSU為一輛車提供服務。其中,RSU包含Nt根發射天線和Nr根接收天線。通過多天線,RSU能夠向車輛發射下行ISAC信號并接收反射回波。

圖1 基于ISAC的系統通信模型
如圖2(a)所示,RSU與車輛之間的傳輸數據流被劃分為不同的時隙。在傳統通信中的AM策略依賴于車輛的上行導頻來獲得CSI從而做出決策[10-11],而在車輛高速移動的V2X網絡下,信道狀態時刻變化,頻繁的導頻交互會導致通信資源的浪費,也會導致信道估計的滯后。
ISAC輔助的傳輸協議可以有效地解決這個問題。如圖2(b)所示,在本文提出的基于ISAC的傳輸協議中,發射機連續發送ISAC信號用于下行通信和感知。具體來說,ISAC系統將每個時隙分為兩個階段:① 信號傳輸和回波接收;② 信號處理。例如,在第一階段,RSU根據上個時隙預測的調制模式傳輸ISAC信號并接收回波信號。在第二階段,RSU首先從回波信號中提取車輛的距離信息,然后根據距離直接預測下一個時隙的調制模式。因此,由于舍去了上下行導頻信號,ISAC系統下的AM相比于傳統通信能較大程度的提升系統容量,并且省去了信道預測的過程,一定程度上減少了計算資源的消耗。

(a) 傳統AM
在車輛運動過程中,RSU可以使用ISAC信號感知車輛的位置。假設t時刻RSU傳輸給車輛的信息為s(t),所以RSU發送的下行信號表示為:

(1)

RSU通過天線接收車輛反射的ISAC回波。因為光速足夠快,本文假設車輛的位置在一個傳輸時隙中保持不變。所以反射的回波可以表示為:
(2)

RSU在接收到車輛反射回波后,采用匹配濾波的方法獲得信號的時延和多普勒頻移,由此估計車輛的距離和速度。匹配濾波如下所示:

(3)
式中,ΔTe表示 ISAC回波信號的持續時間。根據時延τn和多普勒頻移υn,車輛的距離dn和速度μn可以表示為:
(4)
(5)
式中,fc為載波頻率。
裝有單天線的車輛在t時刻接收到由RSU發送的下行信息可以表示為:
(6)

(7)

(8)
基于式(6)和式(8),車輛接收信號的SNR可以表示為:
(9)
假設RSU使用多進制正交幅度調制(Multiple Quadrature Amplitude Modulation,MQAM),并且每個調制符號被傳輸的概率都一樣。根據文獻[18], 傳輸系統容量C*可以被上界和下界約束為:
Clow≤C*≤Cupper,
(10)
式中,上下邊界Clow和Cupper可以表示為:
(11)
式中,M表示RSU選擇的調制方式,χ表示調制星座點的集合,其中,xi和xj表示在集合中的任何一對調制符號。并且根據文獻[18],Clow和Cupper是漸進緊的。因此,使用Cupper作為C去衡量系統的最大容量,可以描述為[19]:
(12)
此外,假設每個星座點的最近鄰數量均為4,則誤碼率可以表示為[20]:
(13)
式中,函數F(x)表示如下:
(14)
在式(12)~(13)的基礎上,可以建立一個優化問題,在保證誤碼率滿足要求的同時提高通信速率:

(15)
s.t.ρ≤ρ0,
(16)
式中,ρ0為給定瞬時誤碼率上界。
本節基于文獻[21]提出了一種基于DRL的AM算法,DRL 智能體會根據狀態選擇具體的調制模式,這個過程可以被建模為一個馬爾可夫決策過程(Markov Decision Process,MDP)。由于車輛在V2X網絡中的狀態不斷變化,基本的RL算法的Q表不能管理無限連續的狀態空間,而DRL使用DNN建立Q表,然后通過更新DNN的權重來更新Q表[22],可以較好地適應大規模動態環境[23]。如圖3所示,本文采用經驗重放和固定目標網絡策略來加速訓練過程[24]。

圖3 DRL結構

(17)

(18)

基于所提出的ISAC傳輸協議,DRL網絡的輸入為汽車當前距離dt和前k個時刻的距離{dt-1,dt-2,…,dt-k},輸出為預測的下一個時隙調制模式。因此,對DRL的狀態空間、動作空間、即時獎勵定義如下。
狀態空間即所有可能的狀態集合。具體時刻t的狀態由(k+1)個車輛距RSU的距離組成。可以描述為:
st={dt,dt-1,…,dt-k}。
(19)
動作空間包括所有可能選擇的調制模式,如下所示:
A={M1,M2,…,MP},
(20)
在時隙j選擇的動作aj∈A。
即時獎勵為了在保證最佳的通信速率和質量,即時獎勵被設計為:
(21)
式中,Ct+1和ρt+1可分別用式(12)~(13)計算。ρ0為最大瞬時誤碼率。該算法在約束ρt+1<ρ0下使Ct+1最大化,來實現下一時隙調制模式的預測,并由此解決式(15)~(16)中描述的優化問題。DRL具體實現如算法1所示。

算法1 DRL算法輸入:存儲空間O,獎勵衰減γ,學習速率l,樣本數量B,初始化:分別用隨機權值θ+和θ-初始化Q網絡和目標Q^網絡1. forepisode=1, E do2. 初始化狀態s13. fori= 1, I do4.根據貪婪因子隨機選擇動作為隨機值 或者最大Q值對應動作,即ai=argmaxaQ(si,a;θ+)5.執行動作ai,得到獎勵ri和下一個狀態si+16.將(si,ai,ri,si+1)存儲到O7.隨機在存儲空間采樣B個元組(sj,aj,rj,sj+1)8.計算ytarget j=rj+γmaxa'Q^(sj+1,a';θ-),并跟據預測誤差對Q網絡的權值θ+進行梯度下降更新,預測誤差計算如式(17)9.每隔J步更新目標網絡Q^=Q10. end for 11.end for
本節利用一些數值結果來評估所提算法的有效性。在所考慮的V2X系統中,N0=N1=-50 dBm。使用笛卡爾坐標系來表示RSU與車輛之間的空間關系,RSU定義在[0 m, 0 m],車輛坐標為[X,Y]。為不失一般性,設置Y為30 m。此外,假設車輛的初始速度μ0為23 m/s,車輛從道路左邊界[-150 m, 30 m]駛向右邊界[150 m, 30 m],加速度設置為a~N(0, 5 m/s2)。此外,假定發射機支持6種調制模式:0、4QAM、8QAM、16QAM、32QAM、64QAM,模式0意味著發射機繼續傳輸4QAM信號僅進行感知。并且將輸入的距離信息進行歸一化處理,設k=5。其他仿真參數見表1。

表1 仿真參數
本文使用如下基線來評價系統的性能:
傳統導頻訓練考慮文獻[9]中使用的傳統通信方案,它從導頻交互中得到過時的CSI。本文直接使用此時刻ht作為下一時刻ht+1來選擇調制模式,其中導頻開銷假定為8%[25]。
理想模式根據完美CSI選擇給定瞬時BER約束下最優調制模式。
DRL算法它建立在本文提出的考慮歷史距離的ISAC系統上。DRL中的DNN由一個包含(k+1)個神經元的輸入層,3個分別包含200、100和40個神經元的全連接隱藏層和一個包含6個神經元的輸出層組成。此外,對DRL的一些參數進行設置,例如存儲大小O、獎勵衰減γ、學習速率l,樣本數量B,更新間隔J分別設置為5 000、0.2、0.005、256、100,并且訓練迭代次數E×I=1 000×1 000 。
自回歸(Auto Regressive,AR) 本文采用基于預測的AR算法,并將其運用到提出的ISAC自適應調制協議中,從而與本文提出的DRL算法進行進一步對比。即發射機通過回波估計信道狀態,然后使用AR預測下一時刻信道狀態,基于預測的信道狀態選擇調制模式。本文使用burg方法來估計AR模型的系數。
圖4展示了平均吞吐量(bit/s)和BER的對比。由圖4(a)可以看出,由于導頻符號占據一部分信息符號,傳統方法的平均吞吐量最低。AR、理想、DRL方法的平均吞吐量接近,證明了ISAC系統確實能夠提高通信速率。圖4(b)展示了模式選擇臨界點BER的比較,可以看出DRL可以滿足瞬時BER的約束,保證了信號傳輸的可靠性。

(a) 吞吐量比較
圖5為車輛運動過程中RSU在模式切換臨界點附近模式選擇的比較。由圖5可知,傳統方法使用的過時的CSI,所以具有滯后性,而基于回波的ISAC策略可以較為準確地預測調制方案。

圖5 不同方法下模式選擇隨時間變化
本文考慮了ISAC系統下的自適應調制方案設計,在V2X網絡中RSU根據車輛的位置提供不同調制模式來提升通信性能。在該場景下,RSU接收到車輛反射的回波信號后,通過匹配濾波估計車輛的距離和速度。為了在保證通信質量的情況下最大化容量,RSU根據當前車輛的距離,采用DRL算法預測下一時隙的調制模式。仿真結果表明,本文采用的基于ISAC的DRL算法能夠準確地預測調制模式,相較于傳統通信在保證誤碼率的情況下,通信容量有較大的提升,并且具有較好的魯棒性。此外,本文僅考慮了視距信道,在今后的工作中可以考慮在有非視距信道影響下的自適應調制問題。