王 爽,黃海超,石寶存,陳景雅
(河海大學土木與交通學院,江蘇 南京 210024)
隨著城市的發展,汽車保有量急劇增加,現有的城市道路交通難以滿足日益增長的交通需求,兩者之間的供需不平衡導致了交通擁堵、 環境污染、交通事故等一系列問題, 為了解決這些交通問題,智能交通系統(intelligent transportation system,ITS)應運而生[1]。 交通流預測作為ITS 的核心內容,通過計算機技術、大數據挖掘等提前對城市道路交通流及其狀態進行預測,從而有助于交通管理者進行車流的合理規劃,達到緩解交通擁堵和提高道路通行能力等目的。
目前的交通流時間序列預測模型主要分為基于數理統計的傳統預測模型和基于機器學習的預測模型,通過對歷史時間序列進行建模以及特征學習,預測未來時刻的交通流量。 自回歸積分滑動模型 (autoregressive integrated moving average model,ARIMA)[2]作為典型的基于數理統計的交通流預測模型,在線性數據處理上具有優勢,但在大規模非線性的交通數據處理上存在不足。Lu 等[3]將ARIMA模型與LSTM(long short-term memory,LSTM)相結合, 分別利用ARIMA 處理線性數據的優勢以及LSTM 處理非線性數據的優勢進行交通流預測,驗證了該組合模型的多功能性。 隨著人工智能和大數據的發展,機器學習模型在處理非線性交通數據上的能力,使其逐漸成為研究者們青睞的交通流預測模型。 機器學習模型中,常用的交通流預測模型有支持向量機(support vector machines,SVM)[4]、隨機森林(random forests,RF)[5]、人工神經網絡(artificial neural network,ANN)[6]。 SVM 模 型 在1995 年 被Cortes 和Vapnik 首次提出,童林等[7],閆賀等[8]對SVM 進行改進,提高了短時交通流預測的精度。 針對SVM 求解二次規劃問題時訓練時間過長等問題,Suyken 等提出了最小二乘支持向量機(least square SVM, LSSVM),有效地減短了運行時長。 谷遠利等[9]通過免疫算法優化了LSSVM 的超參數,優化模型訓練速度的同時,提高了預測精度。 戴麗珍等[10]通過灰狼算法對LSSVM 的參數進行優化,增強了模型的泛化能力。 Hamner[11],熊亭等[12]采用了RF進行交通流預測并取得了良好的效果。 LSTM 具有捕捉非線性數據中長期依賴的能力,常被廣泛運用在交通流時間序列預測中。 2015 年,Ma 等[13]使用LSTM 對速度進行了預測,并證明了相比較于RNN,SVM,ARIMA 模型,LSTM 在捕捉交通流數據非線性特征以及長時間依賴的優勢。
交通流預測的研究主要集中于模型優化,針對輸入步長的討論較少。 林培群等[14]在進行高速公路的行程時間預測時, 選擇12 步步長作為不同預測模型的輸入,研究預測步長增加后不同模型的預測性能。 王博文等[15]針對LSTM 預測步長增加誤差迅速累積的問題對模型進行改進,選取了8 步作為模型輸入對未來的1~12 步的時刻進行預測。 Huang等[16]為了驗證提出的時間序列分解方法和相應混合預測模型的有效性, 選用12 步作為輸入步長進行了多步的交通流預測。 高華睿等[17]在雙向長短時記憶網絡預測交通流時,采用了滑動窗口模型,以15 步步長作為滑動窗口長度對交通流數據進行重采樣, 學習交通流數據隨時間變化的趨勢變化特征。 金瑋[18]利用傅里葉級數提取交通流量的周期性分量特征,分離殘差項,選取1、3、6、9、12 作為輸入步長分別進行預測, 分析預測結果用來判斷模型基于周期性分量的預測效果。 熊亭等[19]將擴散卷積算子應用于GRU(gate recurrent unit)模型進行交通流預測,通過分析1~8 步輸入步長對MAPE值的影響, 選擇5步輸入步長進行特征學習和模型訓練。
綜上所述,在選擇輸入步長的方法方面研究較少, 大多直接選擇較小的固定步長作為模型的輸入, 也有研究通過一些遞減的規律來選擇輸入步長,但這種方法仍依賴于人為的選擇。 為了能夠自適應地選取輸入步長,研究基于交通流時間序列的自相關分析, 將輸入步長與本身的數據特征相結合, 采用機器學習模型中常用的LSSVM,RF,LSTM 3 種模型, 探究自相關系數與最佳輸入步長之間的關系,最終提出一種基于時間序列分析能夠自適應選取最佳輸入步長的方法。
在時間序列分析中, 自相關函數常用來分析時間序列與其自身k 階滯后序列之間的相關關系,以此度量歷史數據對t 時刻產生的影響。 在交通流數據的自相關分析中, 可以有效地識別時間序列中的周期性特征, 也可以通過相關程度粗略的判斷輸入數據與預測數據之間的關系[20]。 其中,以k=0,1,2,…,n 表示時間序列的滯后階數,給定目標預測路段的時間序列{yt}及滯后序列{yt+k},自相關函數定義[21]如下

式中:k 為滯后步長;cov(yt,yt+k)為yt與yt+k的協方差;σyt為yt的均方差。
最小二乘支持向量機作為支持向量機的改進模型,不僅可以有效的處理強非線性數據,而且通過簡化求解二次規劃問題減少了訓練時間,極大地增強了LSSVM 的適用性。 與SVM 相同,LSSVM 將交通流數據通過非線性變換映射到高維空間[22-23]

式中:ω 為超平面的權值;c 為常數;φ(·)為空間轉換函數。
最小二乘支持向量機的目標函數定義如下

式中:ei為誤差;γ 為懲罰因子。
構造拉格朗日函數如下

式中:ai為拉格朗日乘子。 根據KKT 條件可得

求解式(5),可得LSSVM 數學模型

式中:K(·)為模型核函數,通常采用RBF 核函數,即

式中:φ 為核函數參數。
隨機森林是一種有監督的Bagging(bootstrap aggregating)類集成學習方法,具有強大的數據挖掘和學習能力,在眾多領域均有廣泛的應用。 在交通流預測研究中, 主要采用隨機森林的回歸算法,由Bootstrap 法重采樣隨機形成決策樹,大量相互獨立的決策樹組成森林,將多個決策樹預測結果取平均值得到最終的結果,收斂速度快并且具有較高的精確性。 而且隨機森林能很好的處理交通流數據中的噪聲和異常值,數據隨機以及特征隨機的特點能夠避免訓練數據出現過擬合的現象,在大規模的交通流數據中依然可以有效地運行[24]。
長短記憶神經網絡是一種遞歸神經網絡結構,作為循環神經網絡(recurrent neural network,RNN)的一個重要變體[25],它解決了RNN 中存在的長期依賴和梯度彌散的問題, 通過記憶細胞長時間記憶某個值, 可以更好地捕捉長時間步中時間序列中的規律。典型的LSTM 在RNN 的基礎上引入了輸入門、遺忘門、輸出門來控制信息傳遞與丟棄。其中,輸入門獲取輸入數據并對其進行更新, 遺忘門給記憶細胞選擇權是否維持舊的值,輸出門計算并輸出結果。
本文將輸入時間序列表示為X=[x1,x2,…,xn],對輸入t 時刻數據進行更新

通過更新門和遺忘門對記憶細胞中存儲的值進行更新為

輸出門輸出結果為

式中:xt為t 時刻的輸入; c~t為t 時刻的候選記憶細胞;ct為t 時刻記憶細胞; at-1為t-1 時刻的隱藏狀態;Γu,Γf,Γo分別為t 時刻的更新門、遺忘門、輸出門的輸出;Wc,Wu,Wf,Wo分別為各門的權重參數;bc,bu,bf,bo為偏置參數;tan h,ε 為激活函數。
LSSVM,RF,LSTM 分別作為機器學習模型中二分類、集成學習、神經網絡中常用的預測模型,選用這3 種模型研究通過自相關分析選取最佳輸入步長的方法。 將車流量時間序列作為預測模型的輸入,以不同的輸入步長分別進行訓練,預測未來15 min 的車流量,取5 次預測誤差的均值作為最終的預測結果進行分析。
輸入步長的長度以n 來表示,交通流預測的整體流程圖如圖1 所示。

圖1 交通流預測流程圖Fig.1 Flow chart of traffic flow prediction
數據集來源于英國曼徹斯特郡的某個路段的車流量數據, 選取編號為A9094、B26053、B9117、A9116、A9070、A5103 的6 個觀測點作為研究對象,為了方便說明,將6 個觀測點的編號分別簡化為序號1~6。 每個觀測點數據集的時間跨度為2020 年1月6 日—2020 年2 月9 日,共35 d,每組數據的采樣時間間隔為15 min,樣本總量為20 160。
為了能夠獲得較好的擬合效果,提高模型的收斂速度,本文采用Min-Max 函數對數據進行歸一化處理。 按8∶2 的比例劃分訓練集和測試集, 其中2020 年1 月6 日—2020 年2 月2 日共28 d 作為訓練集,2020 年2 月3 日—2020 年2 月9 日共7 d 的數據為測試集。
參數尋優過程保存在網站https://github.com/Team-Cheng/ACF-parameter-optimization-.git 中,尋找各模型的局部最優參數,具體設置如下。 LSSVM模型選用RBF 核函數,模型的性能主要取決于γ 和σ 兩個參數, 每個觀測點的γ 和σ 分別設置為10、0.1。RF 模型中主要確定最佳葉子數以及樹數,在模型訓練中每個觀測點設置了200 棵決策樹,每棵決策樹的最佳葉子數為20。 LSTM 模型采用2 層LSTM結構,2 層隱藏層的節點數分別設為32 和16, 添加了Dropout 層來增加模型的泛化能力,設置丟棄概率為0.1。 選用ReLU 作為激活函數, 優化函數選用Adam 優化函數,初始學習率設置為0.005,進行100輪迭代訓練,梯度閾值設置為1 以防止梯度爆炸。
采用均方根誤差(root mean square error,RMSE)作為指標對預測結果的精確度進行評價,它通過計算預測值和真實值之間的標準差來反映預測結果的準確性,計算式為

式中:yi為目標預測路段的實際交通流量值;y^i為目標預測路段的預測交通流量值。
首先,確定3 個交通流預測模型輸入步長的閾值。 隨機選取一個觀測點,以輸入步長n=1,2,3,…,i 分別進行預測, 觀察RMSE 值的趨勢變化。 3個模型不同輸入步長的RMSE 值如圖2 所示。 從對RMSE 進行擬合的曲線圖中可以看出, 隨著輸入步長的增加,LSSVM 模型的預測誤差呈現出先減小后逐漸增大的趨勢;LSTM 預測結果波動較大,但總體而言,呈逐漸增加的趨勢,在48 步之后,有明顯增加的趨勢; 而RF 模型的RMSE 值隨著輸入步長的增加呈逐漸降低的趨勢。綜合LSSVM 以及LSTM 模型的預測結果分析,選擇48 步輸入步長作為上限。

圖2 各模型不同輸入步長的RMSEFig.2 RMSE of different time step of each model
2.3.1 LSSVM 預測結果
不同輸入步長下LSSVM 的預測誤差以及自相關系數值如圖3 所示。 從對RMSE 進行擬合的曲線圖中可以看出, 隨著輸入步長的增加,LSSVM 的預測誤差呈先減小后增大的趨勢,當輸入步長超過10步后,RMSE 值增加迅速, 輸入步長對LSSVM 模型的預測結果影響較大。 結合6 個觀測點交通流時間序列的自相關分析,當輸入步長的自相關系數值在0.80~0.91 時,LSSVM 會有最小的RMSE 值。

圖3 LSSVM 不同輸入步長RMSE 及ACFFig.3 RMSE and ACF of different time step of LSSVM
2.3.2 RF 預測結果
不同輸入步長下RF 模型的RMSE 值以及自相關系數值如圖4 所示。 從對RMSE 進行擬合的曲線圖可以看出, 隨著輸入步長的增加,RF 模型的RMSE 值逐漸減小,有可能存在最小的預測誤差,也有可能隨著輸入步長的增加誤差繼續減小。 原因可能是RF 模型在訓練過程中,輸入步長跨度內的交通流數據作為RF 中特征的一部分, 可能受到特征隨機性選擇或者特征數量對模型預測的影響。 而綜合6 個觀測點交通流數據的自相關分析, 難以找到相同的規律,通過時間序列的自相關分析尋找預測誤差較小的輸入步長的方法可能并不適用于RF 模型。

圖4 RF 不同輸入步長RMSE 及ACFFig.4 RMSE and ACF of different time step of RF
2.3.3 LSTM 預測結果
基于6 個觀測點的車流量數據,對各觀測點從1 步到48 步的不同輸入步長分別進行預測,取5 次RMSE 平均值進行結果分析。LSTM 模型各觀測點不同輸入步長RMSE 以及相應的自相關系數值如圖5所示。 從對RMSE 進行擬合的曲線圖可以看出,LSTM模型的預測結果相比較于LSSVM 以及RF 模型,波動程度較大。 但從RMSE 值曲線整體而言,LSTM 預測模型的誤差會先呈下降趨勢,之后隨著步長的增加,RMSE 值呈增加趨勢。綜合觀察6 個觀測點達到最小誤差的輸入步長及相應的自相關系數值,可以發現, 當輸入步長的自相關系數在0.47~0.51 之間時,LSTM 可以獲得較好的擬合效果和較好的精度。

圖5 LSTM 不同輸入步長RMSE 及ACFFig.5 RMSE and ACF of different time step of LSTM
2.3.4 結果分析
通過對交通流時間序列進行自相關分析,結合3 種模型不同輸入步長的預測結果,3 種模型最佳輸入步長的自相關系數值如表1 所示。 其中,LSSVM 以及LSTM 最佳輸入步長的自相關系數有一定的規律, 通過時間序列的自相關分析,LSSVM可以選取自相關系數在0.80~0.91 的輸入步長,LSTM 則可以選取自相關系數在0.47~0.51 的輸入步長, 而RF 預測模型中精度較好的輸入步長與其相應的自相關系數之間的規律難以找到,數據自相關分析的方法可能并不適用。

表1 各模型最佳輸入步長及自相關系數值Tab.1 Optimal time step and autocorrelation coefficient of each model
基于交通流時間序列的自相關分析,選用機器學習中常用的LSSVM、RF、LSTM 模型進行預測,提出一種自適應選取最佳輸入步長的方法。
1) 當采用LSSVM 模型時, 建議選用自相關系數值在0.80~0.91 的輸入步長,RMSE 值可能有最小值,預測精度較高。
2) 采用LSTM 模型進行交通流預測時,可以選取自相關系數值在0.47~0.51 的輸入步長, 預測誤差較低。
3) 選用RF 模型進行交通流預測時,預測誤差最小的輸入步長較大或者自相關程度較低,通過時間序列的自相關分析選擇輸入步長的方法可能并不適用, 針對RF 模型的最佳輸入步長選擇方法需要進一步的研究。