趙軍輝,陳垚,張青苗
(華東交通大學 信息工程學院,江西 南昌 330013)
在現代化城市建設中,城市軌道交通系統發揮著越來越重要的作用。作為城市軌道交通系統的大腦和中樞,基于通信的列車控制(Communica‐tion Based Train Control,CBTC)系統是當前常用的列車控制系統。CBTC 系統通過無線通信方式實現列車運行狀態和控制信息的傳遞,以保障列車高效安全運行,其主要有車地(Train-to-Ground,T2G)通信和車車(Train-to-Train,T2T)通信2 種基本通信模式。T2G 通信是利用車載設備和軌旁設備及控制中心的信息交換進行列車控制,是目前實際運行的CBTC通信模式,這種通信模式下軌旁設備繁多、系統結構復雜。T2T通信是列車之間直接通信模式,減少系統對控制中心的依賴,降低系統復雜度,能夠顯著提升列車的運行效率,因此,T2T通信已經被研究人員視為下一代軌道交通列車通信模式[1-2]。徐紀康[3]根據法國里爾1 號線的CBTC系統模型,提出了一種基于T2T 的新型CBTC 系統,并對該系統的系統結構、系統功能、數據傳輸特性進行了理論分析和深入的研究。林俊亭等[4]對列車防碰撞系統進行了研究,指出列車間通信存在的必要性。林俊亭等[5]對列車防碰撞系統進行了建模分析,得出了T2T 通信有助于增強系統安全性的重要結論。王鵬等[6]研究了T2T 通信的通信方案,并對不同的方案進行了分析比較,得出適合當前系統的最佳通信方案。這些研究為T2T 通信的實際應用提供了理論基礎,但未考慮T2T 通信和T2G 通信共存的問題。目前,系統中的軌旁設備仍然是必需的,例如,當相鄰的2 列車通過T2T通信獲取彼此的位置和狀態信息時,列車仍需要與軌旁設備通信。但如今,隨著各種無線通信設備數量的急劇增加,無線通信資源已經嚴重不足,這已經成為制約無線網絡發展的重要因素[7]。為了能夠充分利用有限的頻譜資源,頻率復用已被證明是一種有效的技術[8]。但不幸的是,頻譜復用必然會帶來同信道干擾,從而影響無線通信的服務質量(Quality of Service,QoS)。在T2T 通信與T2G 通信并存的情況下,合理地利用頻譜資源是一大挑戰。目前,對T2T 通信資源分配的研究較少。ZHOU 等[9]基于博弈論的方法,提出了一種應用于列車控制系統上行鏈路的通信資源分配方案。ZHAO 等[10]提出了一種基于多智能體深度Q 網絡(Multi-Agent Deep Q-Network,MADQN)的T2T 通信信道選擇和傳輸功率選擇算法以減少同信道干擾,但是,該方案中每個智能體都學習基于自身行動和觀測的分散策略,將其他因素視為環境的一部分,這將導致環境不穩定,從而破壞學習的準確性。本文針對T2T 通信和T2G 通信鏈路復用引起的干擾問題,提出了一種基于深度強化學習的T2T 通信智能頻譜共享方案。本文的主要創新點如下:
1) 以T2T 通信鏈路為智能體,將頻譜共享建模為多智能體深度強化學習(Multi-Agent Deep Re‐inforcement Learning,MADRL)問題,并設置合適的獎勵函數,以最大化系統的信道容量。
2) 引入能夠表征智能體行動軌跡的低維指紋(Low-Dimensional Fingerprint,LDF)信息,以提升深度強化學習的穩定性。
T2T 通信系統模型如圖1 所示。為了降低軌旁設備的復雜性,列車和軌旁控制器集成了區域控制器(Zone Controller,ZC)、列車自動監控(Auto‐matic Train Supervision,ATS)和計算機互鎖(Com‐puter Interlock,CI)功能,每輛列車都可以通過列車控制模塊中的T2G 通信終端與軌旁設備進行通信,軌旁設備可以根據列車發送的路線信息直接控制道岔的旋轉和打開[11-12]。不僅如此,相鄰列車還可以通過T2T 終端直接通信,以傳達列車速度和位置等關鍵信息。相比于傳統的T2G 通信,這種直接通信的方式可以使列車獲取信息更及時,從而提升列車運行的安全性。由于列車運行環境的特殊性,城市軌道交通列車通信網絡中的基站是沿軌道線性分布的,且每個蜂窩小區的列車數量是有限的。假設在單個小區中,存在M個T2G 通信鏈路,存在N個T2T 通信鏈路,可用帶寬被分為R個資源塊,不失一般性,定義R=M,每個T2G通信鏈路使用單個資源塊,即T2G 鏈路之間沒有頻譜共享。

圖1 T2T通信系統模型Fig.1 T2T communication system model
在一個相干時間段內,在第m個資源塊上第t個T2T通信鏈路的信道功率增益表示為:

其中:αt為大規模衰落系數,包括路徑損耗和陰影衰落;為小規模衰落功率分量。在資源塊m上,設第t個T2T 列車和第t'個T2T 列車之間的信道增益表示為第t個T2T 列車和軌旁基站(Base station,BS)之間的信道增益可以表示為,第m個T2G 列車和軌旁BS之間的信道增益可以表示為,第m個T2G 列車和第t個T2T列車之間的信道增益可以表示為。
因此,在資源塊m上,第m個T2G 通信鏈路的信干噪比(Signal to Interference Plus Noise Ratio,SINR)可以表示為:

第t個T2T通信鏈路的SINR可以表示為:

其中:表示第m個T2G列車的發射功率;表示第t個T2T 列車的發射功率;σ2表示噪聲功率;表示頻譜資源共享指標;=1時表示第t個T2T通信鏈路使用第m個資源塊;=0 時表示不使用。

表1 重要符號說明表Table 1 Table of important symbols
因此,第m個T2G 通信鏈路使用第m個資源塊時的信道容量可表示為:

其中:B為每個頻譜的帶寬。
第t個T2T 通信鏈路使用第m個資源塊時的信道容量可表示為:

在使用MADRL 的頻譜共享問題中,將所有T2T通信鏈路當作智能體共同探索列車所處的通信環境[13-14]。如圖2 所示,展示了智能體與通信環境交互的過程。在一個相干時間段k內,給定當前環境狀態Sk,此時,第t個智能體從環境中獲取的觀測值,然后采取動作,根據智能體采取的動作,可以獲得相應的獎勵Rk+1,環境狀態會以p(s',r|s,a)的概率進入下一個狀態Sk+1,此時每個智能體將得到新的觀測值,在整個環境中,所有智能體都共享同一獎勵。

圖2 智能體與通信環境交互示意圖Fig.2 Schematic diagram of interaction between agents and communication environment
在實際交互中,不妨假設,在第t個T2T 通信鏈路在一個相干時間段k的開始階段便能準確估計其他信道狀態信息,并且該類信息能夠及時獲取。在一個相干時間段k內,可以從軌旁BS 處對信道狀態信息估計,然后以廣播的方式發送給小區內其他列車,這樣可以減小信令開銷。在本地觀測空間中,智能體t的觀測函數可以表示為:

其中:Gm為T2G 通信鏈路信道狀態信息;Ht為T2T通信鏈路信道狀態信息;Bt和Tt分別表示列車傳輸數據包大小以及傳輸數據所用時長。
在解決MADRL問題時,研究者通常采用獨立的Q 學習算法[15]。但是,將神經網絡與獨立的Q 學習算法簡單的結合起來會出現不兼容的問題,因為在學習過程中,每個智能體都面臨一個不穩定的環境,所有智能體都在學習并調整自己的行為。隨著經驗池的不斷擴大,不兼容的問題變得更加嚴重,此時,從經驗池獲取的樣本已經不再反映當前智能體的狀態,從而破壞學習的準確性。為了解決這個問題,研究人員通常采用加入低維指紋的方法,該方法的具體思想是通過估計其他智能體的行動策略來擴大每個智能體的觀測空間,從而避免環境的不穩定性[16-17]。但是,動作值函數中包含的所有參數并不是都能夠作為輸入的,因為每個智能體的行動策略都由高維深度Q 網絡(Deep Q-Network,DQN)組成,將所有參數均作為輸入將會導致網絡變得十分復雜,因此,就需要將輸入變成在文獻[17]中提到的包含重要信息的低維指紋,該指紋能夠跟蹤其他智能體行動策略的變化軌跡,從而起到表征智能體特征的效果。進一步的分析表明,在Q 學習廣泛使用的ε貪婪策略中,每個智能體的行動策略更改都與訓練迭代次數e及其探索率ε高度相關,因此,本文將ε和e都包含在智能體的觀測空間中。此時觀測空間可以表示為:

列車通信鏈路的資源共享方案是基于T2T 通信鏈路頻譜選擇和傳輸功率控制設計的。本文共設置了R個不相交的子帶,每個子帶都由一個T2G通信鏈路占據,智能體的每個動作會對應頻譜和功率選擇的一種特定組合。
強化學習(Reinforcement Learning,RL)算法由于獎勵設計很靈活,所以常被用來解決難以優化的問題。設置合適的獎勵函數,使其與優化目標相關,可以極大地提高系統性能。本文的主要目標是最大化系統的總容量,并在一定的時間內增加T2T 通信鏈路數據傳輸的成功概率。因此,本文將獎勵函數設置為:

其中:λ為T2G 通信鏈路信道容量在整個系統中所占權重;分別表示T2G 通信鏈路與T2T通信鏈路在相干時間k內的信道容量。
基于MADRL 的頻譜復用方案分為2 個階段:第1個階段為訓練階段,第2個階段為測試階段。
在訓練階段,利用深度Q 學習和經驗重播對多個智能體進行訓練[18],使智能體能夠有效地學習頻譜共享策略。Q 學習算法是基于策略π的動作-值函數Q(s,a)來采取行動的一種算法,其定義為從狀態s跟隨行動策略π采取動作a,可以將動作-值函數表示為:
其中:Gk為經過折扣后的獎勵。
在Q 學習算法中,智能體所采用的策略π和其動作-值函數息息相關。一般來講,智能體會選擇Q值最大的動作a,并以此來更新策略π,然后再通過新的策略π來更新Q值,反復迭代直到Q值收斂到最優值Q*(s,a)。因此,可以將動作-值函數的迭代式表示為:

其中:α是學習速率;γ是折扣因子。在Q 學習算法中,Q值存儲在Q表中,Q表的大小為|A||S|。
在T2T 通信的頻譜共享問題中,由于狀態空間S很大,進而導致Q 表也變大,因此本文采用能夠處理該問題的DQN。如圖3 所示,將觀測到的狀態視為神經網絡的輸入,將每個動作對應的Q值當作神經網絡的輸出值,此時Q表已經可以被Q網絡所替代。

圖3 DQN結構Fig.3 Structure of Deep Q-Network
在智能體的學習過程中,主要存在2 個問題:一是目標不穩定,參數學習的目標取決于參數本身;二是樣本之間有很強的相關性。為了解決這2個問題,DQN 算法主要采取2 種措施:一是凍結目標網絡,即在一定時期內固定目標網絡中的參數以穩定學習目標;二是經驗重放,建立體驗池以消除數據依賴性[19-20]。本文提出的算法在這2 種措施的基礎上,引入能夠表征智能體行動軌跡的低維指紋信息,該算法的具體過程如下所示:
步驟1 初始化神經網絡參數;
步驟2 啟動環境模擬器;
步驟3 啟動循環;
步驟4 從環境獲取初始狀態:s∈S;
步驟5 根據策略π選擇頻譜;
步驟6 產生下一個狀態和獎勵;
步驟7 更新列車位置和信道狀態信息;
步驟8 將數據項{sk,ak,rk,sk+1}保存到經驗池中;
步驟9 從經驗池中隨機選擇一部分數據來訓練神經網絡;
步驟10 選擇最大Q值對應的動作;
步驟11 定期更新目標Q網絡;
步驟12 結束循環。
在測試階段,在一個相干時間段k內,每個智能體首先估計環境觀測值,然后根據已經訓練完成的Q 網絡,智能體自主選擇策略價值最大的策略π*,最后智能體根據選定策略采取行動,確定的發射功率和頻譜資源開始傳輸數據。
在本小節中,在Python 環境下對頻譜共享算法的系統性能仿真,并對仿真結果進行解釋說明。結合相關文獻以及列車的實際運行情況,在城市軌道交通T2T 通信場景中采用Winner II 路徑損耗模型。每列列車上都可以同時存在T2T 通信模式和T2G通信模式,主要仿真參數列于表2中。

表2 主要仿真參數Table 2 Main simulation parameters
如圖4所示,隨著訓練次數的不斷增加,累積的獎勵不斷提高,這說明了所提出訓練算法的有效性。當訓練次數達到大約1 000 次時,盡管在城市軌道交通環境中,由移動性引起的信道衰落會導致一些波動,但系統的整體性能仍然呈現出收斂的趨勢。基于這樣的觀測,在后續評估T2T 和T2G鏈路的性能時,將每個智能體的Q網絡均訓練了1 500次,以此來保證模型均收斂。

圖4 訓練次數及獲取平均獎勵Fig.4 Training times and average reward
如圖5 所示,隨著T2T 鏈路傳輸數據包大小的增加,最大信道容量、引入低維指紋的MADRL與MADRL 方案的性能都會下降。顯而易見,當傳輸的數據包大小增加時,為了提高T2T 鏈路數據傳輸成功的概率,需要T2T 鏈路增加傳輸數據的時長以及提高T2T鏈路的發射功率。隨著T2T鏈路傳輸數據的時間變長,由于頻譜共享,T2T 鏈路對T2G 鏈路也會造成更強的干擾。由圖5 中可以看出,本文所提方案在不同的T2T 傳輸數據包大小上相對于其他方案能夠達到更好的性能。這也進一步說明,本文所提方案在引入多智能體低維指紋之后,經驗復用池的穩定性大大提升,使得訓練結果更加準確。

圖5 數據包大小與信道容量關系Fig.5 Relationship between data packet size and channel capacity
如圖6所示,在使用相同大小數據包訓練模型情況下,隨著需要傳輸數據包大小增大,除最大信道容量外,加入低維指紋的MADRL 和MADRL方案的成功率都在逐漸變小,相比于未加入低維指紋的MADRL方案,本文所提方案的傳輸成功概率更接近于最大信道容量下的傳輸概率且下降幅度很低。結合圖6的觀察結果,可以得出結論:本文所提方案訓練后的DQN,在數據包大小發生變化后,即使在未重新訓練的情況下,也能達到較好的效果。

圖6 數據包大小與數據傳輸成功概率關系Fig.6 Relationship between data packet size and data transmission success probability
1) 在現有研究的基礎上,提出一種新的頻譜選擇方案,降低了不同通信模式的列車之間產生的干擾對整個通信系統帶來的影響。
2) 在傳統多智能體強化學習算法的基礎上創新性地引入多智能體低維指紋,大大降低Q 函數的維數,從而提高學習的穩定性。
3) 有效提高T2T 通信系統的信道容量,應用在城市軌道交通T2T 通信的環境中,具有較強的實用性。