曹 陽,朱镕琦,沈琴琴,施 佺
(1.南通大學 信息科學技術學院,江蘇 南通 226019; 2.南通大學 交通與土木工程學院,江蘇 南通 226019)
隨著智能交通系統(intelligent transportation system,ITS)[1]的快速普及,越來越多的交通問題得到改善,然而交通路網的快速發展仍為ITS帶來了巨大的挑戰。交通流預測問題是ITS的重要實施基礎之一,旨在對指定高速公路或城市路網中的車流量、車輛速度、車輛密度等進行分析,建立相應的模型,以預測未來某時刻或某時段內的交通狀況。交通流量的精準預測,可以使交管部門從被動接受式轉化為主動響應式,及時做出精確管制措施,提高道路通行速度,緩解交通擁堵。
現有的交通流預測方法主要分為兩大類,即模型驅動方法和數據驅動方法[2]。模型驅動方法通常利用統計學方法對交通流數據序列或交通狀態進行建模,主要有ARIMA模型[3]、灰色預測模型[4]、小波分析模型[5]等。該類方法一般適用于交通模式基本固定的短期預測問題中,難以挖掘交通流數據中較強的非線性特征。同時,由于交通系統的不確定性,模型驅動方法無法捕獲突發事件對交通狀態的影響。數據驅動方法主要包括機器學習模型與深度學習模型。經典的機器學習模型包括支持向量機回歸模型[6]、隨機森林模型[7]、K近鄰模型[8]等。深度學習模型主要為人工神經網絡及其各類變種,擁有非常強的非線性特征挖掘能力,對數據的包容度比模型驅動方法高,適用于分析擁有復雜系統與突變事件的交通流狀態。
近年來,基于人工神經網絡的深度學習模型在短時交通流預測中的研究層出不窮,為了提高神經網絡對于交通流的適應能力,通常針對不同的特征堆疊出不同的網絡結構[9],在發展的過程中衍化出了各類變種模型。交通流預測模型存在時間維度信息和空間維度信息,分別需要不同的網絡提取不同維度的特征。在提取時間序列信息方面,循環神經網絡(recurrent neural network,RNN)[10]表現出良好的效果,但容易產生梯度消失或者梯度爆炸的問題。RNN的變種模型長短時神經網絡(long short-term me-mory,LSTM)和門控循環單元(gated recurrent unit,GRU)[11,12]針對傳統神經網絡信息無法長期存在等問題進行改進,提高了時間序列數據的擬合處理效果。Bai等[13]為了緩解LSTM與GRU的梯度傳播和記憶長度出現的問題,提出了時域卷積網絡(temporal convolutional network,TCN),該模型能夠進一步有效挖掘時間相關性。
目前主要通過改進網絡內部結構的方式對時間序列網絡進行優化[14]。雖然這類改進方法取得了一定的預測成果,但是交通流存在時空相互影響的作用效果,預測模型中需要同時考慮交通流在空間維度上的相互影響。路網節點的空間拓撲結構對交通流系統的影響極大,上游交通流量會導致下游的交通流量產生增減。因此在交通流的預測問題中,路網的空間拓撲結構也是建模過程的重要一環,融合時間信息和空間信息的網絡結構會擁有更高的預測精度。
路網中道路節點通常具有非歐幾里得結構,全局網絡結構下節點間表現為有向連接或無連接的狀態,因此無法簡單運用卷積神經網絡的卷積層進行空間計算。圖卷積網絡(graph convolutional network,GCN)能夠從圖數據中提取特征,通過鄰接矩陣定義局部接受域,顯著提高了模型空間挖掘能力。但由于GCN模型基于頻譜域,利用拉普拉斯矩陣轉換,其存在一定的缺陷,對此,已有相關學者對GCN模型進行了改進,如Zhao等[15]將二維數據拓展到三維空間,利用GCN和GRU分別來提取交通數據的空間特征和時間特征,提出(temporal-graph convolutional network,T-GCN)模型,實驗驗證預測性能更優;Guo等[16]為解決交通流的動態時空關系,對時空圖卷積引入注意力機制,深度挖掘空間維度的相關性,提出了ASTGCN模型,有效深層次挖掘時空信息;馮等[17]考慮了全局路網下的空間影響程度,利用相關性分析方法加深對空間相關性的挖掘,有效提高了模型的預測精度;戴等[18]對交通流量進行分析,構建切比雪夫卷積和GRU組件,結合編碼器-解碼器提出多時空圖卷積網絡(multi spatial temporal-graph convolutional network,MST-GCN)對時空特征進行提取,有效提高了預測的準確性和穩定性。現有對時空特征進行融合的預測模型通常采用提取交通流數據的時間信息和空間信息后進行特征融合的方式,但是對于時空維度的提取依然存在梯度爆炸、空間特征挖掘缺失等問題。
為了進一步挖掘交通流的時空依賴性,提高模型預測精度,同時緩解時間序列模型存在的內存消耗和梯度問題,本文通過優化GCN網絡結構并分析交通流間的動態時空關系,提出了基于時域圖卷積神經網絡的交通流預測模型(time domain graph convolutional network,TDGCN),通過定義路網節點的權重關系區分相鄰節點對目標節點的影響程度,利用多階近鄰連接擴大GCN模型的感知野范圍加深對空間信息的挖掘程度,采用時域卷積網絡獲取時間依賴關系同時緩解梯度爆炸的問題,以期能夠提高交通流預測模型性能。
路網的空間結構類似圖的拓撲結構,將路網中傳感器節點拓撲結構抽象為拓撲圖G(V,E,A), 其中V表示路網傳感器節點集合且不區分傳感器連接方向,E表示圖G中節點間無向邊的集合,A∈RN×N表示拓撲圖的鄰接矩陣,N表示傳感器節點數量。
設當前時刻t的數據特征為

[Xt+1]=f(G|(Xt-T,Xt-T+1,…,Xt-1,Xt))
(1)
為了加深網絡對交通流數據時空信息的挖掘程度,本文提出了一種時域圖卷積神經網絡(TDGCN)模型,其網絡結構如圖1所示。本文模型由3個組件構成,包括:輸入組件、時空組件和全連接輸出組件,其中時空組件由空間特征挖掘和時間特征挖掘組成。首先模型將選取的交通特征與其空間鄰接關系作為模型的輸入;利用GCN挖掘空間依賴,通過各傳感器節點的歐氏距離構建帶有閾值限制的鄰接矩陣,引入多層近鄰連接方法,通過設置階值調整GCN模塊的空間感知野;其次將GCN輸出的節點信息,輸入TCN中,通過膨脹卷積提取交通流的時間信息;最后利用Dense網絡對TCN的輸出進行一次非線性變化并輸出模型預測結果。

圖1 模型結構
模型可以通過鄰接矩陣閾值限制的方式提高模型對傳感器節點關系的分析,同時利用多階近鄰的方式加深模型的空間提取能力,采用TCN提取模型可有效捕獲更長的有效歷史信息。
交通流預測問題中傳感器的空間節點呈現出非歐幾里得結構性。GCN模型是對非歐式數據進行處理的深度學習方法,能夠同時學習圖中節點結構信息與特征信息,其卷積操作的計算規則為
(2)

在復雜的交通流環境中,鄰接矩陣由路網中各傳感器的拓撲關系確定。然而傳統的鄰接矩陣A是由0或1組成的對稱稀疏矩陣,并不能反映出不同傳感器之間存在的空間依賴性差異,僅僅利用0或1表征連通情況無法體現出節點間的空間相關性,因此本文利用帶有閾值限制[19]的權重計算方法對鄰接矩陣進行重新構造,其計算公式如下
(3)
式中:Aij表示為節點vi與節點vj的權重值,distance(vi,vj)表示節點vi與節點vj的歐式距離,δ2用來控制鄰接矩陣權重的分布情況,通常取值為10。
同時,實驗研究發現多層的GCN網絡雖然能夠聚合多階節點間的空間相關性,但會容易出現過平滑現象,節點區分能力較差。因此,為了解決過平滑問題,本文模型采用多層近鄰連接[19]的方法,利用不同維度的感受野增強模型對節點的表征能力,即式(2)可改寫為
(4)
式中:k∈Z+。 當k=1時多階近鄰連接退化為傳統GCN模型。
為解決傳統RNN的梯度爆炸和梯度消失等問題,Hochreiter等提出了第一類變種模型LSTM,其對長序列模型擁有很好的預測效果,但是參數較多,導致訓練時間較長,內存消耗巨大。TCN模型由CNN發展而來,采用殘差塊的結構結合膨脹卷積增加感知野長度的同時跨層傳遞信息,被用于改善RNN中常見的梯度爆炸和梯度消失問題且能夠捕捉更長的時間依賴,其基本結構如圖2所示。

圖2 TCN殘差單元
時域卷積網絡在擬合非線性函數的過程中,為了避免訓練過程中產生過擬合現象,在每次的膨脹卷積操作之后會分別疊加一層Dropout層和非線性層,以此提高模型擬合能力。
2.3.1 膨脹因果卷積
TCN為了解決時間序列的長期依賴問題,引入因果卷積方法。針對輸出時刻t的結果,其依賴時刻t及t之前時刻的信息,每一層的輸出都由前一層未知個數的輸入計算得到,通過疊加隱藏層的深度可以挖掘越早時刻的信息。
設原始序列X=(x1,x2,…,xn), 預測未來時刻Y=(y1,y2,…,yn), 過濾器F=(f1,f2,…,fK), 在第k層過濾器定義為fk,則在xt時刻k層的因果卷積為
(5)
單純的因果卷積會導致多層堆疊的問題,為了抓取更長時間的依賴而簡單疊加層的深度并不可取,因此提出膨脹因果卷積來增大層的感知野以挖掘更長的時間依賴。膨脹卷積與普通卷積不同之處在于膨脹卷積會往卷積層中注入空洞,詳情對比如圖3所示。

圖3 膨脹卷積與普通卷積對比
設原始序列X=(x1,x2,…,xn), 預測未來時刻Y=(y1,y2,…,yn), 過濾器F=(f1,f2,…,fK), 第k層過濾器定義為fk,在xt時刻的膨脹率為d,則在xt時刻的膨脹卷積為
(6)
由此得膨脹卷積d的感知野大小為 (K-1)d+1, 此時調節感知野的大小可以通過增大K或者d來實現。
2.3.2 殘差鏈接
殘差模塊的引入可使信息進行跨層傳播。網絡越深則網絡提取到的特征越多,然而簡單的增加深度會導致梯度消失或梯度爆炸問題,從而在訓練集上會出現過擬合的情況。因此為了解決上述問題,改善網絡冗余的結構,TCN將網絡中需要學習的映射轉化為學習殘差網絡。該模型利用殘差塊的思想,將膨脹因果卷積結合非線性映射作為殘差塊的輸入,繼而產生下一個TCN塊的輸入,并且其一維卷積操作能夠保證模型在計算過程中的殘差連接是有效的,其詳細結構如圖4所示
o=Activation(x+F(x))
(7)
式中:o表示為殘差塊的輸出,Activation()表示為激活函數,x和F(x)為網絡的輸入。

圖4 殘差網絡結構
本文模型的詳細步驟如下:
步驟1 利用式(3)帶閾值限制的權重計算方式構造鄰接矩陣,將數據集和鄰接矩陣輸入模型。
步驟2 利用式(4)分析交通流的空間依賴性。同時,將GCN輸出結果輸入TCN分析交通流的時間依賴性。針對TCN中每個時刻的輸入首先利用式(6)進行一次膨脹因果卷積,并利用Relu函數進行一次非線性變化。為了防止預測結果過擬合,在每次膨脹卷積之后引入Dropout實現正則化。最后對每層之間構建殘差結構,將上一層TCN的輸出作為下一層輸入。
步驟3 將時空組件輸出值輸入Dense網絡中輸出預測結果。
步驟4 根據預測值與真實值之間的誤差對模型參數進行調整,直至達到設置的訓練次數。將訓練得到的模型利用測試集進行驗證。
為了驗證TDGCN模型的合理性與準確度,本文利用加州高速路網PeMS04和PeMS08數據集進行驗證。這兩個數據集包含高速道路上各傳感器的連接狀態與交通流量。其中PeMS04來自舊金山地區,共包含總計307個傳感器數據,時間跨度從2018年1月1日到3月1日,共計約60天。PeMS08來自圣貝納迪諾,共計170個傳感器的數據,時間跨度從2016年7月1日到9月1日,共計約60天。
本文實驗中將數據以每5分鐘間隔進行聚合,基于傳感器所在的距離位置生成網絡拓撲結構,以此預測未來時刻的交通量。同時,將本文模型與經典神經網絡模型GRU、TCN和最近提出的T-GCN、MST-GCN共4類模型進行對比分析。

(8)
為了評估模型的預測效果,本文采用3種評價指標,即平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)。MAE表示為真實值與預測值之間誤差的平均值。RMSE表示為誤差的平方與觀測次數n比值的平方根,用來衡量觀測值同真值之間的偏差。MAPE表示為真實值和預測值的在模型表現的誤差百分率平均值。
各自的計算公式如下所示
(9)
(10)
(11)

本實驗所選用的硬件設置與軟件版本分為(CPU:AMD Ryzen 5 3600 3.6 GH,GPU 2060 6G,Python3.8,Pytorch1.10)。通過實驗確定選用最優的參數,不同的參數取值見表1。

表1 模型超參數設置
3.4.1 連接階數k分析
TDGCN模型考慮了多層近鄰連接,不同的k值具有不同的空間依賴聚合效果,因此多層連接階數k是影響模型效果的重要指標。本節研究了TDGCN模型在不同數據集上的取不同階數時,模型的實驗結果,兩份數據集上k值與MAE的關系如圖5所示。

圖5 k值影響分析
分析圖5可以發現,不同的數據集上MAE隨k值的變化表現出不同的趨勢。PeMS04數據集上,MAE隨著k值的增大呈現出先減小后增大的趨勢,在k值為2時,模型誤差最小。PeMS08數據集上,MAE隨著k值的增大呈現出先增大后減小再增大的波動性趨勢且當k值為1時,模型誤差最小,即原始GCN就能使得PeMS08數據集上的預測效果達到最優。PeMS04數據集中傳感器節點多,數據量大,在分析空間依賴性時,有效的節點空間信息較多,因此在本文模型中表現在階數值較大,能夠利用2階范圍內有效的空間信息進一步提高模型預測能力。PeMS08數據集中節點量少,可用的空間信息較少,因此一階相鄰的傳感器間的空間信息即能夠使得模型預測能力達到最優。
3.4.2 參數影響分析
TDGCN模型中存在較多可調節的超參數,為了確定超參數對模型的影響結果分析,選取隱藏層節點單元個數以及預測的序列長度兩個影響模型精度較大的超參數,實驗分析結果如圖6和圖7所示。

圖6 單元個數影響分析

圖7 預測長度影響分析
從圖6的實驗結果可知隱層節點單元個數對模型的精度具有一定的影響程度,在本實驗中,當節點個數為64時模型的精度最佳。
根據實驗結果圖7可以發現,在數據集PeMS04和PeMS08中,隨著預測序列長度的不斷增加,模型的效果會逐漸變差,結果表明,該方法更適合于短期預測。
3.4.3 實驗結果分析
對比結果見表2。分析表2可以發現,在PeMS04數據集中,本文提出的模型在所有對比模型中表現最佳,相較于基準模型TCN,MAPE提高了接近10%,相比T-GCN提高了3.55%,與MST-GCN模型相比也提高了0.66%。在PeMS08數據集中,本文提出的模型擁有最小的MAE值與RMSE值,以MAPE值為指標而言,TDGCN模型除去比MST-GCN模型低1.03%,比TCN模型提高了4.07%,相較于T-GCN模型提高了5.92%。
各模型在PeMS04和PeMS08數據集上預測擬合曲線分別如圖8和圖9所示。分析時間序列預測方法可以發現,GRU模型和TCN模型僅考慮了時間相關性,并沒有考慮路網節點的空間相關性,因此并沒有優越的性能表現。T-GCN模型和MST-GCN雖然結合了GCN模型與GRU模型,從一定程度上彌補了由于缺少空間相關性從而產生的模型誤差,但仍然存在由于GCN感知野而導致模型空間依賴能力降低的情況。

表2 不同模型的性能比較
因此本文所提出的TDGCN模型,結合了TCN模型與GCN模型,并對GCN模型的計算規則進行改進,相比而言擁有更好的感知野,同時TCN模型比GRU模型擁有更高的信息控制度,可以對交通流數據進行更好的時空依賴捕獲。因此,從模型結構以及實驗結果來看,本文提出的TDGCN 模型擁有更高的精度,取得了較好的預測效果。

圖8 PeMS04模型預測效果

圖9 PeMS08模型預測效果
本文針對當前大多數短時交通流預測模型對數據的空間信息挖掘不充分、無法捕獲長序列單元間的信息等問題,提出一種基于時域圖卷積神經網絡的交通流預測模型(TDGCN)。該模型通過在改進GCN的權重分配以及感知野進一步提高對交通流的空間捕獲能力,使用TCN模型挖掘交通流的時間特征的同時解決長時間序列訓練過程中的梯度問題,通過PeMS04和PeMS08兩個公開數據集進行驗證,引入相關的對比實驗模型。結果表明,本文提出的TDGCN模型具有更高的預測精度。