張建旭,金宏意,胡 帥,王雪芹
(1.重慶交通大學 交通運輸學院, 重慶 400074;2.重慶交通大學 山地城市交通系統與安全重慶市重點實驗室, 重慶 400074)
路網交通參數預測對實際交通應用至關重要。現有大部分交通預測模型,如動態模式分解[1]、循環神經網絡(RNN)[2]及其變體模型[3-4]主要針對路網中某一觀測點進行時序預測。而卷積神經網絡(CNN)[5]能將空間關系轉換為歐式結構,但不適用于處理交通網絡的非歐式結構。近年興起的圖神經網絡將路網拓撲成圖進行研究,讓非歐式結構的路網級參數預測成為了可能。如果能夠提高圖神經網絡對路網級參數的預測精度,對交通管控來說有更加重要的意義。
作為圖神經網絡經典模型之一的圖卷積網絡(GCN)[6]分為空域圖卷積和頻域圖卷積兩大類。空域圖卷積[6]直接在空間上聚合相鄰節點信息,思想來自于CNN對圖像的計算,定義直觀、靈活性強。頻域圖卷積[7]則利用傅里葉變換,將空域信號轉換到譜域中,借助圖譜的方式進行圖卷積的推導,具有較為堅實的理論基礎,但不適用于有向的交通網絡圖。GAT[8]模型的出現很好地解決了交通網絡是有向圖的問題,它通過注意力機制來聚合空間特征,不論交通網絡圖是否有向都能夠進行預測。現有的研究中,GCN和GAT通常采用鄰接關系來獲取空間特征,Zhao等[9-10]都是通過交通路網拓撲得到鄰接關系來實現圖卷積。然而,城市交通與高速公路、軌道交通相比,條件復雜多變,道路之間的相互作用和其他關聯信息對預測結果也至關重要。因此,還需要從鄰接關系以外的角度進一步挖掘交通路網的空間特征信息。Geng 等[11]將城市網格化劃分,根據區域的鄰接關系、功能相似度和交通連通性確定節點之間的連邊值,構建3種不同圖結構的表示,實現乘車需求預測。AST-GCN[12]整合外部影響信息,如實驗中的天氣條件和周圍的興趣點來促進交通預測。以上方法對空間關聯性的挖掘大部分利用了路網周圍的土地性質和環境特征,并沒有進一步體現路網中道路的交通特征。
因此,考慮從道路的交通特征出發,從節點間地理拓撲結構、通行能力和交通數據相關性3個方面去探討和挖掘節點間空間關聯關系,再結合門控循環單元,提出一種多因子融合時空圖卷積網絡(multi-factor spatial-temporal graph neural network,MF-STGNN)。首先構建節點間的3個關聯因子矩陣:空間近鄰矩陣A、通行能力關聯矩陣C和交通數據關聯矩陣D。然后根據GCN適用于無向圖的特點,將對稱的通行能力關聯矩陣C和交通數據關聯矩陣D分別輸入到GCN中提取2種不同的空間特征??紤]道路具有方向性,保留了空間鄰近矩陣A的非對稱性,將其輸入到GAT中進行空間特征提取。再通過通道注意力模型將提取的3種空間特征進行加權,得到最終的空間聚合特征。最后通過門控循環單元(GRU)提取時間特征,輸出預測結果。通過對比實驗和消融實驗證明考慮了3個關聯因子的MF-STGNN模型能夠很好地提取空間特征,進行路網交通參數預測。
針對城市路網交通預測問題,利用有向圖G(V,E)來表征路網的拓撲結構,V是路段的集合,E是2個路段之間連通的邊集合。假設當前時刻為t,則t+1時刻的交通信息可以表示為:
Xt+1=f(G;(Xt-T,…,Xt-1,Xt))
(1)
式中:Xt∈RN×P為各個路段在t時刻的交通信息;N為路段數量;P為節點信息的數量;T為歷史時間序列的長度。節點信息可以是交通速度、交通流量等交通信息。
基于圖神經網絡的路網交通參數空間特征提取方法比較常用的有圖卷積網絡GCN和圖注意力網絡GAT,它們都是通過利用節點的連接關系來儲存圖的結構。這種連接關系一般定義為簡單的鄰接關系。GCN和GAT通過鄰接關系將鄰居節點的特征聚合到中心節點上來獲得新的特征表示。從另一種角度來看,是將鄰居節點的信息傳遞給了中心節點來形成新的特征。
2.1.1 GCN
基于頻域的GCN通過傅里葉變換實現卷積操作,思路和推導過程有較為堅實的理論基礎。GCN的優點在于結構信息能夠在各層之間共享,但不適用于有向的圖結構。雙層GCN模型的前向傳播公式可表示為:

(2)
2.1.2 GAT
GAT通過注意力機制,給每條邊加了一個可學習的注意力系數αij,模型能夠根據任務自適應調整邊的權重,獲得更好的結果。GAT對αij的計算是逐點運算,僅與節點特征相關,與圖的結構毫無關系,擺脫了拉普拉斯矩陣的束縛,使得有向圖問題迎刃而解。
GAT[8]在更新節點i的特征向量時,先計算i節點所有鄰居的注意力分數αij,再用注意力分數乘以對應鄰居的特征Whj∈RP′×1后相加,得到節點i的聚合特征yi∈RP′×1,最后得到全部節點的聚合特征fGAT(X,A)∈RN×P′。
fGAT(X,A)=(y1,y2,…,yi)T
(3)

(4)
式中:W∈RP′×P為權重矩陣,P′為節點特征新的輸出維度;Ni表示節點i的相鄰節點,在計算過程中使用鄰接矩陣A作為掩膜矩陣進行節點鄰域信息融合。
2.2.1 空間近鄰矩陣
路網中鄰近路段交通流參數的運行特性在某段時間內存在著相似性,可以看作交通流運行狀態在時間上具有傳遞性[13]。本文從路網的地理拓撲結構出發,通過道路的連接關系構建有向的空間近鄰矩陣,實現將相鄰道路的特征聚合到目標道路上來獲得新的特征表示。 空間近鄰矩陣用AR∈N×N={aij}表示,當2條道路連通時,aij=1,否則aij=0。由于考慮了道路的方向性,因此空間近鄰矩陣是非對稱矩陣。
2.2.2 通行能力關聯矩陣
城市路網是由不同等級的道路組成的,道路等級不同,對路網交通運行狀態產生的影響不同[14]。高等級的道路具有更多的車道數、更寬的車道和更高的行駛自由度,在路網中的地位更高。文獻[14]從路段通行能力、長度、車道數3個方面量化了不同等級路段對交通流運行的影響程度。如果能構建和鄰接矩陣類似的,并且能體現節點道路等級差異的連接矩陣,就可以將不同等級道路對交通狀態帶來的影響融入到GNN節點的信息傳遞中,使獲取到的特征更加有效。
因此,考慮用道路的通行能力大小來代表道路的等級高低,通過計算兩兩節點的通行能力因子cij,得到通行能力關聯矩陣C來代替鄰接矩陣,表征道路的空間聯系。

(5)
式中:ci和cj為節點i和節點j的通行能力;cij為節點i和節點j之間的通行能力因子;aij為空間近鄰矩陣元素,值為0或1。

(6)

2.2.3 交通數據關聯矩陣
現有的研究中常用交通流時序數據的相似性來對未來的交通流狀態進行預測[15]。文獻[16]利用歐式距離來表征交通流數據之間存在的某種標量距離的大小,發現了路網節點交通流序列數據中潛在的時空模式,以此來劃分不同的交通流模式。
基于以上研究,可以通過分析節點的交通參數數據關聯性來挖掘節點間潛在的關聯關系。將這種關系體現到GNN的信息傳遞機制上,則可以獲取到鄰接關系以外的一些潛在特征。如果一個節點與目標節點的交通參數數據高度相關,則GNN在提取目標節點特征時,高度相關的節點的信息占的比重會更大。
度量相似性主要采用皮爾遜相關系數和歐式距離等方法,但2個變量數據之間的關聯可能是是非線性的,常見的皮爾遜相關系數無法準確使用,而距離相關系數可以用來刻畫這種非線性的關聯性。距離相關系數的計算依賴于距離協方差和距離方差,將節點的交通速度看作隨機變量,兩兩節點間的速度的距離協方差除以它們的距離標準差的乘積,得到距離相關系數dij,即:

(7)
式中:Xi,Xj∈RK×1,是節點i和節點j的速度值,i、j=(1,2,…,N),N為節點數量,K為樣本量;Var(·)為距離標準差; Cov(·)為距離協方差。
最終的交通數據關聯矩陣為:

(8)

空間近鄰矩陣、通行能力關聯矩陣的構建都與鄰接關系有關,體現的是節點局部關聯關系,但后者在鄰接關系的基礎上還考慮了道路的通行能力,消除了一些偽鄰接關系的干擾,獲取到的特征更加有效。距離相關系數計算的是所有交通數據之間的相關性,可以提取到鄰接關系以外的潛在特征。
MF-STGNN主要由多因子空間特征聚合模塊(MF-GNN)和時間模塊(GRU)組成,MF-GNN先提取交通參數的空間特征,再由GRU提取時間特征,最終輸出預測結果,總體結構如圖1所示。

圖1 MF-STGNN模塊
空間聚合模塊包含了3個部分,一是因子關聯矩陣的構建,二是圖神經網絡的學習,三是通道注意力的特征融合,如圖2所示。

圖2 MF-GNN模塊
在因子關聯矩陣的構建上,通過考慮節點間地理拓撲結構、通行能力和交通數據相關性分別構建了3個因子關聯矩陣,分別是空間近鄰矩陣A、通行能力關聯矩陣C和交通數據關聯矩陣D。根據GCN適用于無向圖的特點,將矩陣D和矩陣C構建為對稱陣;考慮到道路的有向性,保留矩陣A的非對稱性。


(9)

(10)

(11)
最后將提取到的3種特征通過通道注意力模型自動加權求和,得到新的特征X′。通道注意力來源于SENet模型[17],應用于計算機視覺領域,用來融合多通道的圖像信息。通道注意力先將每個二維的特征通道壓縮成一個實數,這個實數在某種程度上具有全局的感受野,再經過類似于RNN中的門控機制,每個特征通道生成權重。權重是經過特征選擇后的每個特征通道的重要性,然后通過乘法逐通道加權到先前的特征上,完成在通道維度上對原始特征的重標定。
將3種不同的特征看成擁有3個通道的二維圖像,即3個N×P′(N為節點個數,P′為節點交通參數的輸出維度)矩陣,首先使用每個特征矩陣的全局平均池化來產生每個矩陣的特征綜合值z=(za,zd,zc)T∈R3。za,zd,zc分別代表3種不同的特征通道下的所有節點交通參數信息的壓縮,其特點是利用全局感受野融合了各自通道的交通信息,是在該通道上響應的全局分布,因此對當前通道特征來說是具有表現力的。

(12)
同理,可以求得zd和zc。然后將求得的每個通道的綜合值經過2個全連接層和激活函數得到每個通道的注意力系數s=(sa,sd,sc)T∈R3×1。
s=σ(W2δ(W1z))
(13)
式中:W1∈RH×3、W2∈R3×H分別對應第一個和第二個全連接層的權重矩陣;δ(·)和σ(·)分別是 ReLU和Sigmoid函數。最后,將s作為3個通道的權重與每個通道特征值進行加權,得到最終的空間聚合特征Xt′∈RN×P′:

(14)
得到交通網絡參數的空間特征后,還需要獲取交通參數的時間特征才能進行預測。LSTM和GRU是RNN的變體,具有門控機制,能很好地處理長期記憶問題,因此可有效地對隨時間推移而獲取的交通參數時序數據進行分析處理。然而,由于LSTM結構比GRU復雜,訓練時間較長,對大規模的路網結構適應性較差,因此選擇結構相對簡單、訓練較快的GRU來構建時間模塊。
也有研究針對GRU的局限性提出了一些改進模型。文獻[18]針對輸入時間序列過長導致預測有效信息失真的問題,提出了基于GRU和注意力機制的油溫預測模型。文獻[19]中為了提高GRU的預測性能,使用Salp Swarm算法自動優化GRU的超參數來實現交通狀況預測。這些改進模型的精度雖有一定改進,但增加了模型的復雜度。文獻[9-10,12]中構建的圖神經網絡模型中,直接采用GRU模型進行時間特征提取,取得了較好的效果。因此,在不增加模型復雜度又不失準確度的情況下,直接用GRU構建時間模塊進行特征提取。
通過空間聚合模塊,可以得到所有節點在歷史時間窗口T的特征值,將其作為時間模塊的輸入,可以預測t+1時刻的交通信息Xt+1。


圖3 GRU的單個cell結構
rt=σ([ht-1,xt]Wr+br)
(15)
zt=σ([ht-1,xt]Wz+bz)
(16)

(17)

(18)
式中:tanh(·)為激活函數;Wr、Wz和Wh分別為重置門、更新門和候選集更新的權重參數;br、bz、bh分別為重置門、更新門和候選集更新的偏置項。
采用的數據集為重慶市浮動車數據,選取了重慶市渝北區新溉大道附近路網進行研究。路網中有32條路段,每5 min聚合一次速度數據,一條路段每天包含288條記錄,共計7 d。將數據的80%劃分為訓練集,20%為測試集,并對數據進行[0,1]歸一化。
使用3個指標來評估MF-STGNN模型的預測性能,分別是平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)。RMSE與MAE用于評價預測誤差,兩者的數值越小,說明預測效果越好。MAPE用于評價模型的好壞,MAPE越小,說明模型越好。

(19)

(20)

(21)

4.3.1 模型對比
將提出的MF-STGNN模型與HA、GCN、GAT、TGCN、A3T-GCN模型進行對比,結果如表1所示。MF-STGNN模型在MAE 、RMSE、MAPE 3個評價指標中均獲得了最好的性能,3個指標分別提升了 2%~73%、2%~64%、6%~64%。GCN、GAT、TGCN和A3T-GCN模型單純考慮了節點的鄰接關系,預測效果不如MF-STGNN模型,這說明考慮3種關聯因子提取空間特征可以提高模型預測性能。

表1 不同模型交通速度預測的性能
選取路網中的一條道路,將其某一天速度的預測效果進行可視化對比分析,如圖4所示,可以看出,MF-STGCN和GAT模型的擬合程度較好。其中,MF-STGCN的擬合效果最好,預測值和真實值誤差最小。A3T-GCN擬合效果相對較好;GCN擬合效果最差,可能是因為GCN不適用于有向圖,采用的非對稱鄰接矩陣影響了預測結果。另外,GAT和A3T-GCN都添加了注意力機制,說明注意力機制有助于提高預測效果。

圖4 不同模型預測效果可視化曲線
另外,在構建通行能力關聯矩陣時,由于強調了路段近鄰空間的相似性,因此矩陣C是在鄰接關系的基礎上進行構建的,而交通數據關聯矩陣D是從所有節點間相關性角度進行考慮的,不受鄰接矩陣的束縛。因此,為了分析鄰接關系對構建矩陣D和矩陣C產生的影響,進行了4種情況的對比實驗,如表2所示。經過分析,矩陣D與鄰接空間呈弱相關性,而通行能力C呈強相關性。這說明道路之間通行能力的相關性作用在相鄰道路之間離得越近,關聯性發揮的作用越大,這也符合交通流狀態在相鄰路段傳遞的規律。而對于道路交通參數數據來說,它的時間傳遞性較弱,因為在構建矩陣時輸入的是整個交通數據,因而也不需要過多考慮相鄰的路段。

表2 矩陣D和矩陣C是否考慮鄰接關系的預測性能
4.3.2 消融實驗
通過消融實驗進一步證明3個關聯因子可以在交通預測任務中發揮作用。實驗設置分為只添加空間近鄰矩陣A,只添加通行能力關聯矩陣C,只添加交通數據關聯矩陣D,添加空間近鄰矩陣A和交通數據關聯矩陣D,添加空間近鄰矩陣A和通行能力關聯矩陣C,添加通行能力關聯矩陣C和交通數據關聯矩陣D,添加空間近鄰矩陣A、通行能力關聯矩陣C和交通數據關聯矩陣D以及不添加任何矩陣8種情況,不添加任何矩陣的情況為直接使用網絡的鄰接關系結合GCN和GRU進行預測的模型,結果如表3所示。從表中可以看出,“A+D+C”組合,即MF-STGNN模型的預測結果優于其他排列組合。只使用1種因子矩陣的模型比使用2種因子矩陣的模型預測效果普遍差一些。
選取路網中一條道路的一段時間的消融實驗速度預測結果進行可視化對比分析,如圖5—圖7所示。

圖5 單因子關聯矩陣可視化曲線
圖5展現了只添加單因子矩陣、不添加任何矩陣的速度預測結果與真實速度,從圖中可以看出,只添加空間近鄰矩陣A的預測效果最好。圖6展現了添加2個因子矩陣、不添加任何矩陣的速度預測結果與真實速度的可視化結果,從圖中可以看出,A+C和A+D組合的預測效果不錯,A+C組合稍優于A+D組合。將只添加空間近鄰矩陣A和A+C組合這2種預測結果較好的情況與A+D+C組合進行對比分析,如圖7所示,可以看出,MF-STGNN模型的擬合效果最佳。

圖6 雙因子關聯矩陣可視化曲線

圖7 因子關聯矩陣可視化曲線
除此之外,為了探索構建的通行能力關聯矩陣C和交通數據關聯矩陣D是否真的能夠提取到除鄰接關系以外的空間特征,將3個矩陣分別代入到GCN模型中進行實驗,結果如表4所示。從結果可以看出,交通數據關聯矩陣的預測結果最好,表征鄰接關系的空間近鄰矩陣A效果最差。交通數據關聯矩陣D的預測結果明顯優于其他2個矩陣,而矩陣D體現的是對每個節點全局特征的把握,這表示在預測過程中考慮網絡的全局信息至關重要。

表4 采用不同關聯矩陣的GCN模型實驗結果
綜上所述可以得出:① 僅僅依靠鄰接關系來提取空間特征具有局限性,構建的通行能力關聯矩陣C和交通數據關聯矩陣D能夠捕捉到更多的空間特征。② 使用多個關聯因子比使用單個關聯因子更能提取到有效的空間特征。③ 在預測過程中可以進一步考慮網絡的全局信息。
提出的MF-STGNN模型,從更多的交通空間特征角度去探索圖神經網絡與時間序列的交通預測問題。通過節點間地理拓撲結構、通行能力和交通參數相關系數3個因子構建因子關聯矩陣,再結合圖神經網絡和GRU進行時空特征提取,取得了一定的的預測效果。MF-STGNN模型不只考慮了道路的地理鄰接關系,還分析了節點的通行能力和節點間交通數據的相關性,與其他僅考慮鄰接關系的模型相比,可以有效地挖掘交通數據的空間信息。從實驗結果來看,僅僅依靠鄰接關系來提取空間特征具有局限性,在以后的研究中,應進一步考慮網絡的全局信息來提升預測精度。另外,模型提取空間特征時,由于考慮因子較多,增加了模型的復雜度,因此,在保證模型準確度的情況下,提升訓練效率、降低模型復雜度是以后需要研究的問題。