侯 越,崔菡珂,鄧志遠
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730000)
隨著機動車保有量的持續增加,由擁堵引發的交通狀況不僅隨時間變化,更受制于空間復雜因素的影響,造成單維度下的短時交通預測準確率不高等問題。傳統預測方法以整個路段為研究對象,未充分考慮不同車道在相同時間間隔內的參數分布情況及相關影響,使得預測模型無法精確估計交通運行狀態。為提升預測模型的精度,通過橫向車道間的空間相關性及宏觀參數間的關系考量對交通流數據建模,使其能夠準確刻畫實際場景中的交通運行狀態,具有非常重要的意義。
短時交通流預測的傳統方法可分為兩大類:統計學方法和機器學習方法。早期提出的ARIMA[1]主要用于模擬交通流時間序列的周期性變化,邱敦國等[2]提出SARIMA-RBF模型,相較于原有模型擁有較好的預測精度,但其缺陷在于處理隨機事件時會發生易失效的問題。機器學習因其在非線性數據處理方面的優勢被廣泛采用,黃振盛等[3]建立支持向量機回歸子模型,組合得到的模型相較于其他模型更為穩定。而深度學習具有提取復雜特征的能力且易實現分層建模,在交通大數據分析處理中較為常見,其方法有:循環神經網絡(RNN)[4]、長短時記憶網絡(LSTM)[5]、門控循環單元(GRU)[6]等。其中,LSTM和GRU憑借對歷史數據保有記憶性,常用于解析交通流的時間特性。隨著交通檢測設備的多源化及數據驅動模型的長足進展,對交通大數據的治理提出了更高要求,李慧等[7]利用PCA主成分分析方法將交通流數據的主成分和隨機噪聲進行分離,降低噪聲干擾;陸百川等[8]運用GA-WNN對微波、地磁、浮動車數據進行多源融合處理,提升了預測模型的精度,但由于未考慮空間特性,模型性能還有很大的提升空間。交通大數據處理分析中,時空規律及內在特征的挖掘,對于預測模型的優化至關重要,董春嬌等[9]考慮了空間特性中車輛進出匝道時對交通流的影響;杜圣東等[10]通過LSTM與注意力機制的結合,考慮了區域空間相關性及時空依賴特征;Zhao等[11]提出ODC矩陣代表路網中路段間的相關性,將其作為LSTM的輸入,實現對時空關系的分析;Gu等[12]通過LSTM和門控循環單元建立預測模型,以考慮車道間的相關性,在對車道級速度預測的過程中驗證了模型的有效性。以上文獻在空間特性方面著重于路段間的關系描述,而對車道間的橫向相關性提及較少,Gu等[12]雖考慮了車道級的空間特性,但并未對宏觀參數間的相互影響加以分析。本研究從橫向車道級空間特性和宏觀參數相關性出發,綜合考慮交通流的時空變化特性,分析交叉口路段中多車道間的相互作用,并運用主成分分析法(Principal Components Analysis,PCA)提取多車道速度與流量特征,采用stacked-GRU對多車道特征參數進行驗證。試驗結果表明,考慮橫向車道級空間相關性及宏觀參數間影響的方案擁有更高的預測性能。
交通流的時間特性是指在某一斷面上的交通流狀態會隨時間產生規律性的變化。在較長時間段上具有周期性(例如每月,每天),而在較短的時間片內(如5 min)又具有時變性和隨機性的特征。
交通流的空間特性是指在某一時刻交通流在城市道路網絡上的分布情況。觀測路段的交通流可知,其與周圍可達路段間存在空間相關性,因此需考慮空間特性對該路段交通流的影響。在城市交通路網中,各個斷面間存在空間相關性,現有研究已有較多文獻對其進行分析[13],而同一截面的車道間也存在相關性,如圖1所示,不同車道間流量相互關聯,同一空間中每一時間片的交通流都在變化,下一時間片與上一時間片也存在明顯的關聯,因此,綜合考慮時空維度來分析交通流的變化,特別是橫向相關性的影響,對預測模型的性能提升尤為重要。

圖1 時空關系示意圖Fig.1 Schematic diagram of spatio-temporal relationship
車流密度、行車速度和交通流量是反映交通流特征的基本參數,隨著流量的增加,車道內的車流密度加大,車頭間距減小,行車速度開始受到車流密度的約束,而當車流密度增加時,速度降低且流量增加緩慢,密度進一步增加時速度繼續下降且流量也隨之下降,因此在交通流預測模型中,考慮參數間相關性對預測模型精度的提高至關重要。
與交通流時空相關性結合分析,橫向截面空間中,車道間流量速度相互影響,時間段中,1月內,每周間的流量和速度具有相似性;1周內,每日的流量和速度存在規律性變化,工作日(周一至周五)早高峰7:00—9:00和晚高峰18:00—20:00速度會出現下降,而流量會出現上升,沒有重大特殊事件的情況下,休息日(周六、周日)不會出現明顯的波峰波谷現象;1日內,不同時間段的交通流狀態變化較大,與前后時間片存在明顯相關性,會對后一時間片的交通流產生影響。
在交通流預測研究方面,由于場景較為復雜,對同一研究對象存在大量的不確定性影響因素。雖然豐富的信息所包含的信息量較大,但模型訓練和計算時長會相應增加。PCA是一種數學方法,利用線性變換將一組具有一定相關性的變量,重組成一組相互無關的變量,在保留原始信息的同時濾除相似信息。該方法在模式識別領域廣泛用于圖像融合處理[14],對復雜數據進行降維。在交通領域中,無論是參數相關性還是時空維度數據組織,均需要準確而低復雜度的數據描述,PCA通過對車道的速度和流量進行線性變換,篩選出參數間的主要特征,實現對提取特征的精確表達,由于其本身具有降維作用,可降低時空數據的復雜度。
假設有n條樣本數據,將其組成矩陣A:
(1)

將A的每一行進行零均值化:
(2)
式中,μ,σ為所有樣本數據在特征維度上的均值和方差;a*為零均值標準化后的樣本數據。
當數據投影到新向量上的位置越分散越能保留更多的信息,因此基向量正交時耦合程度最小,在不同基向量上的投影線性相關度的標準為協方差:
(3)
式中,m為車道數量;A為式(1)的矩陣,AT為轉置矩陣。
不同特征之間協方差越小越好,于是將協方差C進行對角化,求出其特征值與對應的特征向量,對特征值進行排序,通過選取所需第1個特征值,將其對應的特征向量組織成向量組P,最后求解:
(4)

本研究采用PCA融合手段,進行特征提取,提取特征最大程度的保留了原有數據特性,以同一截面車道級數據為研究對象,通過微波數據,對強相關性的車道宏觀參數進行特征級融合,在較大程度保留數據原有特性的同時,為交通決策分析提供可靠的依據。
循環神經網絡因其同時具備前向反饋和后向反饋鏈路,能夠應用于分析序列數據的上下文文本信息[15-16]和語音識別[17-18]等領域,而由于RNN(循環神經網絡)存在梯度衰減或爆炸的現象,在實際應用中較難取得時間間隔較長的依賴關系,在2015年由Tian等[19]首次將LSTM(長短期記憶網絡)模型運用到交通流預測領域,該模型在一定程度上解決了梯度爆炸問題,但模型訓練時間較長,效率不高,而門控循環神經網絡(Gated Recurrent Neural Network)的提出正好能解決這一問題。
GRU模型合并內部自循環Cell與隱藏層hidden,合并遺忘門、輸入門為更新門,新增重置門rt,刪除輸出門,從而修改了RNN隱藏狀態的計算方式,能有效縮短模型預測的時間。
門控循環單元中更新門和重置門的輸入,均為當前時間步輸入xt與上一時間步隱藏狀態ht-1,輸出由激活函數sigmoid通過全連接層計算得到。Wz和Wr分別是權重參數。
它的工作流程如下:
(1)更新門zt:決定前一時刻的狀態對當前狀態的影響。
zt=σ(Wz·[ht-1,xt])。
(5)
(2)重置門rt:決定對前一時刻狀態的忽略程度。
rt=σ(Wr·[ht-1,xt])。
(6)
(7)
(8)
當重置門中的元素值接近0則意味著丟棄上一時間步的隱藏狀態,接近1則保留。通過候選隱藏狀態函數可以看出,重置門控制了上一時間步的隱藏狀態從而更新當前時間步的候選隱藏狀態,因此可以用來丟棄與預測無關的歷史信息。而更新門可以控制隱藏狀態如何被當前的候選隱藏狀態更新,可捕捉時間序列中較長時間依賴關系。
本研究提出PCA-stacked-GRU模型,利用PCA建立橫向相關性時空維度數據表達,提取宏觀參數間的相關性特征,通過stacked-GRU實現基于橫向車道級空間相關性及宏觀參數相關性的短時交通流預測。
圖2選取全天相關性最強的兩條車道作為研究對象,其中該路段車道的數據組織,行按照時間片,列按照橫向車道級參數形成時空維度矩陣,通過PCA將其處理成特征級融合向量,將該向量與兩類不同的宏觀參數組合,形成兩個低維度的子矩陣1和子矩陣2,把這兩類子矩陣作為stacked-GRU的輸入(即為xt),以實現交通流的預測。

圖2 PCA-stacked-GRU預測模型框架Fig.2 PCA-stacked-GRU prediction model frame
本研究試驗分析的道路結構,出于多方面考量和實際因素,選用合肥市天智路交叉口數據為研究對象,該數據集來源于微波檢測器和視頻檢測器采集數據,因夜晚車流量較小,使數據離群值增大且影響模型性能,所以預處理階段,需剔除夜晚22:00至清晨5:00的數據。
微波數據集采用2016年7月11日—7月17日,視頻數據集采用6月22日—7月10日的交通流量數據和速度數據進行模型驗證,為降低數據誤差,將時間序列劃成5 min為一個時間單位,按照時間片重新組織流量和速度,得到一天的數據量為192組,對缺失值采用同一天的上下時間片均值進行填充,形成模型可用數據集。
由于交通流量和速度具有時空相關性,對如圖3所示天智路交叉口黃山路西進口的5個車道進行分析,通過相關性系數得到不同車道間交通流參數的相關性影響,試驗可知,相關系數大于0.8的強相關車道為2號車道與3號車道。故本研究以橫向空間為2號和3號的車道數據為研究對象。

圖3 天智路-黃山路交叉口拓撲圖Fig.3 Topology of Tianzhi Road and Huangshan Road intersection
將檢測器DETECT_ID(檢測設備編號)和ROAD_ID(車道編號)對應到相應的車道,并將速度整合為1個時間片內的平均速度,流量為1個時間片內的總流量,表1為預處理后2號,3號車道微波檢測器斷面數據集。
分別將表1,表2中的2號和3號車道的流量、速度采用PCA進行數據融合,通過線性變換提取速度-流量相關性特征,并將其表示為只有1列的融合向量組。

表1 微波檢測器部分數據Tab.1 Partial data of microwave detector

表2 視頻檢測器部分數據Tab.2 Partial data of video detector
本研究的預測目標為某一車道的流量和速度,歷史數據均以連續12個時間片為樣本,用以預測下一時段的流量和速度,預測目標可用式(9)~式(14)表示:
V1=
(9)
V2=
(10)
(11)
S1=
(12)
S2=
(13)
(14)

評價指標采用MAPE,MAE,MSE和RMSE來衡量預測精度。
(15)
(16)
(17)
(18)

基于對微波采集交通數據(2016-7-11—2016-7-20)進行的試驗分析和評估,訓練集為2016-7-11—2016-7-17,測試集為2016-7-18—2016-7-20,圖4與圖5為微波數據在不同模型中的單日預測結果圖。

圖4 2號車道微波流量預測圖Fig.4 Curves of predicted microwave volume in Lane 2

圖5 2號車道微波速度預測圖Fig.5 Curves of predicted microwave speed in Lane 2
在微波數據集中可以看出,早高峰和晚高峰流量的顯著上升,相應時間段速度的下降,滿足交通流的時間特性,從空間特性來看,使用考慮參數相關性和橫向車道級空間相關性的PCA-stacked-GRU模型對速度和流量進行預測,其預測值相較于其余模型的平均相對誤差最小,考慮參數相關性的PCA單車道模型的預測精度優于未考慮參數相關性的單車道模型,證明考慮參數相關性和橫向車道級相關性的預測方法能更加有效地估計未來交通運行狀態。
通過表3和表4可知,單車道流量、速度預測最優的平均絕對誤差分別為5.172 260和3.183 893,PCA單車道流量、速度預測誤差均明顯小于單車道,分別為5.116 309 1和3.133 064,而PCA雙車道流量、速度預測誤差優于PCA單車道,分別為4.946 960和3.109 925;通過其余指標對比同樣可以看出PCA雙車道預測精度高于PCA單車道預測高于單車道預測。

表3 微波數據集單雙車道不同模型預測流量誤差Tab.3 Predicted volume errors of single lane and double lanes in microwave data set by different models

表4 微波數據集單雙車道不同模型預測速度誤差Tab.4 Predicted speed errors of single lane and double lanes in microwave data set by different models
因此可以證明,考慮橫向車道級空間相關性和速度-流量參數相關性的預測結果優于僅考慮單一參數的短時交通預測結果。
基于對視頻采集交通數據(2016-6-22至2016-07- 10)進行的試驗分析和評估,訓練集為2016-06-22至2016-07-06,測試集為2016-07-07至2016-07-10,圖6與圖7為視頻數據在不同模型中的單日預測結果圖。

圖6 2號車道視頻流量預測圖Fig.6 Curves of predicted video volume in Lane 2

圖7 2號車道視頻速度預測圖Fig.7 Curves of predicted video speed in Lane 2
通過表5和表6可知,單車道流量、速度預測的最優平均絕對誤差分別為 4.503 461 和 3.863 718,而 PCA 單車道流量、速度預測誤差均小于單車道,分別為 4.588 115 和 3.784 969;PCA 雙車道流量、速度預測誤差最小,分別為 4.489 486 和 3.712 197。通過其他幾個指標對比也可以看出 PCA 雙車道預測精度高于 PCA 單車道預測精度高于單車道預測精度。因此在視頻數據集中同樣可以證明,考慮橫向車道級空間相關性和速度-流量相關性的預測結果優于僅考慮單一時間序列的短時交通預測序列。

表5 視頻數據集單雙車道不同模型預測流量誤差Tab.5 Predicted volume errors of single lane and double lanes in video data set by different models

表6 視頻數據集單雙車道不同模型預測速度誤差結果Tab.6 Predicted speed errors of single lane and double lanes in video data set by different models
由于充分考慮了空間相關性,綜合運用了不同車道的參數信息,提高了預測樣本的時空覆蓋率,從而使預測結果相對于單一車道較好。同時,PCA-stacked-GRU模型在微波數據集和視頻數據集中均表現優于其余模型,證明該模型具有魯棒性。
綜上所述,將本研究所提模型與其他常用基準線模型分析可知,本研究的PCA-stacked-GRU模型因其考慮了橫向車道級空間相關性和速度-流量參數相關性,在預測精度上均優于其他未考慮相關影響因素的基準線模型,且具有魯棒性。
為提高預測模型的精度及在現實場景中的預測表現,本研究針對預測模型中橫向相關性及宏觀參數相關性考慮不足的問題,提出PCA-stacked-GRU組合預測模型,利用相關性系數選出強相關車道,對強相關車道的速度和流量進行特征級融合,得到考慮橫向相關性及速度-流量相關性的數據表達;并通過stacked-GRU模型,在微波數據集和視頻數據集上進行驗證,與未考慮橫向相關性及宏觀參數相關性的常用基準線模型分析比較可知,本研究所提模型在MAPE,MAE,MSE和RMSE這4個誤差指標上均優于其他模型。試驗結果證明了考慮橫向車道級空間相關性和速度-流量參數相關性的模型,在預測現實場景中的速度和流量時更加精確。未來研究中,可結合多源數據融合提高數據精度,通過對多位置傳感器數據的運用,將空間因素對交通流預測的影響考慮的更為全面,從而進一步提高模型的預測性能。