陳玲玲,趙全軍
(吉林化工學院 信息與控制工程學院,吉林吉林,132022)
近些年,伴隨著通信技術的高速發展以及物聯網與智能汽車的普及,交通行業也逐漸走向了智能化,車聯網技術成為物聯網與智能汽車兩大領域的重要交集[1~3]。因此車聯網在智能交通系統中扮演著重要角色。隨著通信需求爆發式增長,充分利用頻譜資源成為車聯網通信的一項重要挑戰。
為了提高頻譜利用率[4],認知無線電能夠通過對空閑頻段的智能使用這種方式恰好可以滿足車聯網通信的需求。于是,認知車聯網的概念從此被提出[5-6],即能夠支持認知無線電技術的車聯網。認知車聯網是指通過車載傳感器、認知無線電等技術,使車輛之間、車輛與基礎設施之間建立起智能化交互,實現信息共享和協同決策,提高交通安全性、舒適性和效率的新型交通系統。認知車聯網能通過感知、分析和推理來獲取對車輛及其周圍環境的認知能力,并通過車輛間和車路間通信來實現協同決策和共同優化的車輛互聯網簡單來說,就是將車輛、道路和智能化設備進行互聯互通,形成一個智能化的交通網絡,通過共享和交換數據,實現車輛和交通基礎設施之間的智能互動和協同決策,從而提升整個交通系統的效率、安全性和舒適性。在認知車聯網中,車輛類型主要分為兩種:授權車輛與認知車輛[7-8]。授權車輛優先使用授權頻段進行數據傳輸,認知車輛感知信道狀態嘗試使用未被授權車輛占有的頻段,于是動態頻譜接入是認知車聯網中的重要難題之一。近些年來,強化學習[9~12]逐漸用來解決動態頻譜接入問題。
本文提出了基于新型強化學習的認知車聯網頻譜接入的方法,構建了存在多個認知車輛,同時包含V2V 與V2I兩種不同通信鏈路的認知車聯網環境。通過對比貪婪算法和傳統的強化學習方法,所提方法能夠有效提高認知車輛接入信道的成功率,本文同時探索了認知車輛數目所提方法的影響,進一步說明所提方法的穩定性。
本文建立一個存在V2V 鏈路與V2I 鏈路的認知車聯網通信模型,為了保證可靠的通信環境,假設每輛車都配備了一個發射機與一個接收機,并且每一條信道僅被一輛授權車輛占用。正如圖1 所示,本文考慮的認知車聯網場景中包含C輛授權車輛與V輛認知車輛兩種類型。授權車輛優先使用授權頻段進行數據傳輸,例如應急救護車與移動演播室車等。為了防止授權車輛之間產生干擾,每一條信道僅被一輛授權車輛占用。如果信道被授權車輛占用,認知車輛應該被限制接入信道,如果當授權車輛沒有占有信道時,認知車輛可以接入信道用于通信。在實際的認知車聯網中,在認知車輛接入信道之前,認知車輛需要對信道進行感知。

圖1 認知車聯網通信模型
在基站的通信覆蓋范圍內,所有的車輛以隨機分布的形式存在。因此,本文將所有的車輛映射在一個位于第一象限的二維空間中,其中X軸的范圍為[0,M],Y軸的范圍[0,N]。,(xBS,yBS),分別代表第i對認知車輛的發射機T的位置,第i對認知車輛的接收機R的位置,第j對授權車輛的發射機T的位置和第j對授權車輛的接收機R的位置以及基站的位置。其中i={1,…,V},j={1,…,C}。
由于本文所設計的反饋函數是與信干噪比(Signal-to-Interference-Plus-Noise Ratio,SINR)有所關聯,所以我們需要計算V2V 鏈路與V2I 鏈路的SINR。在V2V 鏈路中的信干噪比SINRV2V公式為:
在V2I 鏈路中的信干噪比SINRV2I公式為:
在認知車聯網環境中,本文采用強化學習方法解決動態頻譜接入問題。本小節針對所研究的認知車輛網中頻譜接入的問題設計合理的狀態空間,動作空間與反饋函數。
由于所提出的認知車聯網中假設了一條信道中只被一輛授權車輛占用,即正交信道集合為{1,2,…,C}。授權車輛存在兩類活動模式,在任意時刻授權車輛都處于兩類活動模式中的一類。這兩類活動模式分別為:動態(Dynamic)與非動態(Undynamic)。當授權車輛處于動態的時候,意味著授權車輛正在使用信道進行通信,信道處于忙碌狀態,認知車輛則限制接入信道;當授權車輛處于非動態的時候,意味著信道處于空閑狀態,認知車輛則允許接入信道完成通信。如圖2 所示,將授權車輛的活動模式構建為二維的離散時間的馬爾科夫鏈,說明每一條信道都是獨立的,互不干擾。一條信道從空閑狀態轉移到忙碌/空閑狀態,或者從忙碌狀態轉移到忙碌/空閑狀態的轉移可能性不依賴于其他任何信道。轉移概率矩陣如下:
在認知車輛在進行頻譜接入之前,每一個認知車輛對每一條信道進行頻譜感知,去感知信道處于空閑狀態還是忙碌狀態,感知結果矩陣設計為狀態空間。其中,v={1,…,V},c={1,…,C},=0表示t時刻第v個認知車輛感知到第c條信道被占用,=1表示t時刻第v個認知車輛感知到第c條信道未被占用。
認知車輛的感知結果決定認知車輛是否接入信道,構成了動作空間:
其中av(t)=c(c>0),表示第v輛認知車輛選擇接入第c條信道進行數據傳輸,av(t)=0表示第v輛認知車輛不接入任何的信道。
在傳統的基于強化學習的認知車聯網頻譜接入中,反饋函數r(t+)1 的設計如下:
其中β為一個常數。
傳統的反饋函數設計過于簡單,并沒有考慮到真實的現實情況的復雜性。在V2V 與V2I 鏈路中,根據認知車輛不同接入情況下的信干噪比,本文重新設計反饋函數rv(t+1),公式如下:
其中B為信道帶寬,SINR∈{SINRV2I,SINRV2V}。
本文的目的是利用強化學習方法獲取最大的累積反饋Rv,進而提高接入認知車輛成功率,公式如下:
其中γ∈[0,1]為折扣因子,T為時間。
所提算法目的在滿足獲取最大的累積反饋Rv,其表示如下:
圖3 展示基于強化學習的頻譜接入的學習過程,通過不斷的學習進而學習到一個策略使累積反饋Rv達到最大。

圖3 強化學習交互環境
首先認知車輛在獲得某個信道的感知結果s時,通過主要網絡(Primary Q-network)可以得到各個動作的Q值,Q值用來評估認知車輛接入策略的好壞程度。然后認知車輛再利用貪婪策略進行動作選擇,將相應的動作a輸入到車聯網環境中,最后得到s′和r,這樣就得到一個經驗(s,a,r,s′)并將其存儲到經驗池當中。訓練時從經驗池中取出一定數量的數據進行神經網絡的優化。由圖3 可知首先根據兩個結構相同的主要網絡和目標網絡(Target Q-network)進行損失函數的構建,在整個過程中通過實現損失函數最小化進而尋找到最優策略,損失函數L(θ)如下:
其中,θ為網絡參數。為目標Q網絡,Q(s,a;θ)為當前Q網絡,s′表示下一時刻的認知車輛的頻譜感知結果,a′表示下一時刻的認知車輛的動作。目標Q網絡與當前Q網絡的網絡完全相同。在訓練過程中,Q值根據公式(10)不斷更新。在Q值不斷更新的過程中,動作a′根據公式(11)進行策略π的更新,具體公式如下:
其中,Q1(·) 表示目標Q網絡的Q函數,Q2(·)表示當前Q網絡的Q函數,表示更新后的Q值,表示原始的Q值,智能體會周期性在經驗池中隨機地選擇樣本進行訓練。其中ε的范圍為 ε∈[0,1),網絡參數不斷迭代更新,最終逐漸收斂到最優策略。
本文采用貪婪算法,強化學習算法作為對比算法,通過試驗仿真來驗證所提方法在收斂速度與性能遠遠優于其他對比方法。同時實驗還探討了認知車輛數目對所提方法的影響。
如圖4 所示,認知車聯網存在5 個認知車輛,10 條信道。為了公平對比,所提方法與其他對比的方法都設置了相同的模型參數。如圖4 中所示,總體而言,所提方法的性能與收斂速度明顯優于其他方法。對于貪婪算法而言,其平均信道成功接入率基本不變,這是由于貪婪算法無法利用未來的信息,導致無法得到最優的累積獎勵。然而傳統的強化學習算法的反饋函數設計得過于簡單,并不能有效地減少各類碰撞。訓練開始,所提方法的信道接入率比其他對比方法都高。總體而言,在認知車輛的接入信道的平均成功接入率,所提出方法的收斂性與性能明顯優于對比算法。

圖4 平均成功接入率
為了探究所提方法的穩定性,如圖5 通過構建相同信道數目,不同認知車輛的數目的認知車聯網環境,用來探究認知車輛數目對所提方法的影響。伴隨著訓練次數的不斷增加,三種不同認知車聯網環境下的認知車輛的平均信道成功接入率都開始趨向收斂。由于所提方法考慮到了多種反饋以及競爭網絡能夠處理大尺度的動作集合與狀態集合,最終,三種不同認知車聯網環境下的認知車輛的信道接入率都達到了90%左右。

圖5 平均成功接入率
如圖6 所示,在認知車輛的平均累積反饋方面,所提方法的平均反饋值明顯優于對比算法,這是由于所提方法考慮到了認知車輛在當下狀態中每一個動作的重要性。從圖6中可以看出,所提方法的收斂性和性能明顯優于傳統的強化學習算法和貪婪算法的收斂性和性能。

圖6 平均累積反饋
在本文中,所提方法考慮了一個包含V2V 與V2I 鏈路認知車聯網通信環境,建立以提高認知車輛接入信道成功率的動態頻譜接入問題的模型。為了提高接入信道成功率,本文將認知車輛的頻譜感知結果與認知車輛是否接入信道分別作為所提方法中的狀態空間與動作空間。根據認知車輛的信干噪比設計反饋函數,本文提出了改進的強化學習方法用來提高認知車輛的頻譜接入率。通過對比傳統的強化學習算法與貪婪算法,本文所提出的改進的強化學習方法性能優于其他對比算法。同時還探討了認知車輛數目對所提方法的影響,通過仿真實驗證明,所提方法并不受認知車輛數目的影響,所提的方法具有顯著的穩定性與收斂性。