王博文,王景升,朱 茵,王統一,張澤有
(1.中國人民公安大學 交通管理學院,北京 100038; 2.山東科技大學 電氣信息學院, 山東 濟南 250000)
交通流量預測是智能交通系統(Intelligent Traffic System, ITS)的重要組成部分,準確的交通流量預測模型可以輔助交通信號配時、擁堵疏導等任務,是智能交通領域研究的熱點問題。
早期的交通流預測任務通常采用傳統統計模型,通過使用線性模型挖掘交通流序列中存在的線性關系[1-3]。如EMAMI等[4]研發了一種卡爾曼濾波器對交通流進行了有效的預測,為短期交通流量預測提供了一種低成本手段。KUMAR等[5]提出季節性自回歸移動平均(Autoregressive Integrated Moving Average, ARIMA)模型,利用歷史數據和實時數據對早晚高峰時段的交通流量進行短期預測,得到了良好的預測效果。但是,隨著居民出行需求的提高,交通流所具備的非線性特征愈發明顯,許多機器學習的算法,如支持向量機,及深度學習算法,如等及長短時記憶(Long Short-Term Memory, LSTM)、卷積神經網絡(Convolutional Neural Network, CNN)、圖神經網絡(Graph Neural Networks, GNN)及其改進算法,被應用于短時交通流預測[6-18],這類模型多為非線性模型,以期望充分挖掘交通流序列的非線性關系。鄒宗民等[19]使用粒子群算法對支持向量回歸(Support Vector Regression, SVR)進行參數尋優,并將優化后的模型用于交通流預測任務中。相較于傳統統計算法,提高了模型的預測準確性,相較于深度學習算法,SVR在小樣本交通流序列預測中表現較好。溫惠英等[20]引入雙長短期記憶網絡,將基準模型拆分為兩個方向,并通過試驗證明了模型對于非線性交通流數據具備良好的預測和泛化能力。李磊等[21]提出一種CNN和LSTM的結合方法,有效提取了交通流的時空特征,并通過大量試驗證明了非線性模型對于交通流序列的預測情況較為良好。GUO等[22]構建一種基于注意力機制的時空圖卷積網絡,對交通流序列進行了準確的預測。單一的傳統統計模型或淺層機器學習模型不能夠同時挖掘交通流序列中存在的線性及非線性關系。基于深度學習的模型,尤其是基于GNN及其改進算法的模型,對于試驗樣本為大樣本量的依賴性較高,數據計算成本高,并且時間復雜度相較于傳統統計模型及淺層機器學習算法高。短時交通流預測任務作為輔助ITS進行決策的關鍵工作,需要預測模型對道路情況進行快速、準確的判斷,對于預測實時性的要求極高。
因此,為解決小樣本、快速短時交通流預測問題,并充分挖掘交通流序列中存在線性與非線性關系,本研究將對于線性數據具備良好擬合效果,并且時間復雜度較低的自回歸滑動平均(Auto Regressive Moving Average,ARMA)模型與對于非線性、小樣本數據的處理具有計算準確率高、時間復雜度低等優勢的SVR模型進行組合,達到提高交通流預測模型預測準確率及降低模型時間復雜度的目的。
1.1.1 ARMA模型
ARMA模型是目前應用最廣的線性平穩時間序列預測模型,模型的形式為:
(1)
式中,yt為被預測變量;yt-1為與被預測變量相關的滯后階;c為常數;εt為白噪聲序列,服從均值為0的正態分布;αi為自相關系數(i=1,2,…,p);θi為移動平均系數(i=1,2,…,q);p,q分別為自回歸、移動平均過程中的滯后階數。
參數p,q的選擇決定了ARMA模型的擬合效果。當樣本量n固定時,使赤池信息準則(Akaike Information Criterion,AIC)達到最小值的(p,q)即為最佳參數組合,AIC的計算公式為:
A=2n-2lnL,
(2)
式中,n為樣本個數;L為似然函數。
1.1.2 SVR模型
SVR是將支持向量機(Support Vector Machine,SVM)應用于回歸問題,目的在于建立一個最優的超平面,使訓練樣本距離最優超平面的誤差最小,此時模型達到最佳擬合效果。
對于非線性數據集(i=1,2,…,m),xi,yi分別為輸入和輸出。把樣本從低維空間映射到高維空間,超平面公式表示為:
f(xi)=ωTΦ(xi)+b,
(3)
式中,ω為超平面的法向量;Ф(xi)為xi映射到高維空間后的特征向量;b為位移項。
模型的訓練過程即參數ω,b的尋優過程,最終得到一組參數ω,b使f(xi)最接近yi,將問題轉化為凸二次規劃問題,表示為:
(4)

使用拉格朗日乘子法計算得到:
(5)

使用核函數代替線性方程中的線性項可以使原來的線性算法非線性化,即能做非線性回歸,此時引進核函數達到了提升維度的目的,也可以有效地控制過擬合。不同的核函數會對SVR的性能產生影響。徑向基核函數(RBF)的抗干擾能力及適應能力較強,表示為:
K(X,X′)=exp(-γ‖X-X′‖2),
(6)
式中,K(X,X′)為滿足Mercer條件的核函數;γ為核參數,決定映射樣本在特征空間的分布;X為輸入樣本構成的特征向量;X′為RBF核函數的中心。
計算得到SVR回歸模型為:
(7)
RBF的參數C(懲罰項)和g(核函數方差)的選取對于模型的結果存在較大影響。
1.2.1 ARMA-SVR加權組合模型
CRITIC法是一種比熵權法和標準離差法更好的客觀權重賦權法,它基于評價指標的對比強度和指標之間的沖突性來綜合衡量指標的客觀權重。
假設有n個待評價樣本,p項評價指標,形成原始指標數據矩陣:
(8)
式中xij為第i個樣本的第j項評價指標的值。
指標的對比強度以標準差的形式來表現:
(9)
式中,xj為第j項指標的均值;Sj為第j項指標的標準差。
在CRITIC法中使用標準差來表示各指標的內取值的差異波動情況,標準差越大表示該指標的數值差異越大,越能反映出更多的信息,該指標本身的評價強度也就越強,應該給該指標分配更多的權重。
指標的沖突性用相關系數進行表示:
(10)
式中rij為評價指標i和j之間的相關系數。
使用相關系數來表示指標間的相關性,與其他指標的相關性越強,則該指標就與其他指標的沖突性越小,反映出相同的信息越多,所能體現的評價內容就越有重復之處,一定程度上也就削弱了該指標的評價強度,應該減少對該指標分配的權重。
第j個評價指標所包含的信息量Cj表示為:
(11)
所以第j個指標的客觀權重Wj為:
(12)
ARMA-SVR加權組合模型原理如圖1所示。

圖1 ARMA-SVR加權組合模型的建模流程Fig.1 Modeling process of ARMA-SVR weighted composite model
(1)使用ARMA模型對樣本進行建模,得到預測結果PARMA。
(2)使用SVR模型對樣本進行建模,得到預測結果PSVR。
(3)使用CRITIC賦權法對ARMA與SVR模型的預測結果進行客觀賦權,分別得到權重WARMA和WSVR。
(5)將ARMA模型預測結果PARMA與SVR模型預測結果PSVR進行加權相加,得到ARMA-SVR加權組合模型的預測結果表示為:
(13)
1.2.2 ARMA-SVR殘差優化組合模型
交通流存在線性和非線性的特性,而ARMA和SVR模型分別對線性模型和非線性模型的處理上具備優勢,理論上將兩個模型的優勢相結合,能夠達到提高模型效果的目的。假設時間序可視為線性自相關部分與非線性殘差相結合的結果,表示為:
Pt=Lt+Rt,
(14)
式中,Lt為線性自相關部分;Rt為非線性殘差。
ARMA-SVR殘差優化組合模型原理如圖2所示。

圖2 ARMA-SVR殘差優化組合模型的建模流程Fig.2 Modeling process of ARMA-SVR residual optimization composite model
由圖2得,ARMA-SVR殘差優化組合模型的基本原理為:
(1)使用ARMA模型對樣本的線性部分進行建模,得到預測結果ARMA,進而得出殘差序列R。
(2)以特定的輸入步長對殘差序列進行重構。
(3)將重構后的殘差序列R*作為SVR模型的輸入。
(4)使用SVR模型對殘差序列的非線性部分進行建模,得到殘差序列預測結果。
(5)將殘差序列預測結果與ARMA模型預測結果相加,得到ARMA-SVR殘差優化組合模型的預測結果。
回歸模型中,常用均方誤差(Mean Absolute Error,MAE)、平均絕對誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Squard Error,RMSE)作為模型的評價指標,本研究使用MAE和RMSE作為評價指標,模型的MAE和RMSE越小,預測效果越好。
本試驗采用內蒙古包頭市某路段2020年9月的地磁交通流量數據,每組數據的單次采樣時間間隔為5 min,包括單向所有車道的交通流量總和,樣本總量為8 640。
將數據分別處理為以5,10,15 min為時間間隔的數據。3個樣本集的樣本數量分別為8 640個,4 320個,2 880個。將3個樣本集分別按照8∶2的比例劃分訓練集與測試集。處理后的交通流量變化趨勢如圖3所示。

圖3 不同樣本時間間隔下的交通流量的變化趨勢Fig.3 Variation trends of traffic volume at different sample time intervals
2.3.1 ARMA模型
平穩性及白噪聲檢驗。對樣本進行平穩性檢驗及白噪聲檢驗詳見表1。

表1 交通流量序列的平穩性檢驗Tab.1 Stationarity test of traffic volume sequence
由表2得,平穩性檢驗的t統計量值小于1%,5%,10%這3個水平的值,且P值小于0。白噪聲檢驗的P值小于0,所以3個樣本集均為平穩非白噪聲序列。
ARMA模型參數確定。多次試驗得到,當樣本的時間間隔分別為5,10,15 min時p=4,q=3,AIC值達到最小,最佳參數組合為(4,3)。
對3個ARMA模型的參數進行顯著性檢驗,詳見表2。由表2可得,3個模型均滿足顯著性小于0.05,說明參數的取值具備合理性。上述建模流程得到ARMA模型預測結果。

表2 ARMA模型參數的顯著性檢驗Tab.2 Significance test of ARMA model parameters
2.3.2 SVR模型
數據歸一化。使用SVR模型之前,將數據做歸一化操作,以此提高模型的收斂速度和預測能力。本研究采用Rescaling,即Min-Max歸一化,將交通流量數據歸一化至[0,1]區間,表示為:
(9)
式中,x′為歸一化后的交通流量數據;x為原始交通流量數據;xmin為樣本的最小值;xmax為樣本的最大值。
(10)

本研究中SVR模型的建立均基于sklearn機器學習庫,模型的參數為默認值。使用訓練好的SVR模型對測試集進行預測,對SVR預測結果進行反歸一化后,上述建模流程得到SVR模型預測結果。
2.3.3 ARMA-SVR加權組合預測模型
在模型相互補償的過程中,需要確定各個模型輸出結果的權重,使用CRITIC權重法對ARMA和SVR預測的交通流量進行融合。模型的權重詳見表3。

表3 CRITIC權重法賦予模型的權重Tab.3 Weights given to model by the CRITIC weighting method
將ARMA模型預測結果與SVR模型預測結果進行加權組合,得到ARMA-SVR加權組合預測模型的預測結果。
2.3.4 ARMA-SVR殘差優化組合模型
ARMA模型得到的殘差如圖4所示。

圖4 不同樣本時間間隔下ARMA模型得到的殘差Fig.4 Residues obtained by ARMA model at different sample time intervals
首先對通過ARMA模型得到殘差進行歸一化處理,將殘差值規約在[0,1]。然后按照8∶2的比例劃分訓練集與測試集。最后使用SVR對重構后的殘差序列進行預測。
使用SVR模型以2個時間步長讀取訓練集的殘差序列進行訓練,然后使用訓練好的ARMA-SVR殘差優化組合模型對測試集進行預測。對殘差預測結果進行反歸一化后,將SVR模型殘差預測結果與ARMA模型預測結果相加,得到ARMA-SVR殘差優化組合模型的預測結果。
為驗證ARMA-SVR殘差優化組合模型的優越性,將ARMA模型、SVR模型、長短期記憶網絡(Long Short-Term Memory, LSTM)模型、人工神經網絡(Artificial Neural Networks, ANN)模型及ARMA-SVR加權組合模型作為對照組進行模型評價。
LSTM和ANN模型的建立均基于Keras深度學習網絡框架,激活函數均為線性整流函數Relu,損失函數為MSE,優化器為Adam,默認神經網絡隱層數設置為1,神經元數量為8,通過compile方法完成學習過程的配置,訓練的迭代次數為100,當監測到loss停止改進時,結束訓練。
使用Min-Max歸一化,將交通流量數據歸一化至[0,1]區間,分別使用訓練好的LSTM和ANN模型以t-1及t時刻的交通流量值預測t+1時刻的交通流量值。
不同模型在樣本的時間間隔分別為5,10,15 min 時對于測試集的擬合評價結果詳見表4。

表4 交通流量預測模型的評價結果Tab.4 Evaluation result of traffic volume forecasting model
由表4得,在預測準確率方面,對于小樣本數據,相較于傳統統計模型及機器學習模型,深度學習模型的預測準確率較低。當采樣間隔為5 min時,ARMA-SVR加權組合模型的RMSE,MAE值均低于ARMA,SVR,LSTM,ANN的單一模型,模型擬合效果較4個單一模型好。在不同的采樣時間間隔下,ARMA-SVR殘差優化組合預測模型的預測準確率和穩定性較其他模型均有所提升,RMSE降低約0.378~7.063,MAE降低約0.054~0.802,可以為不同采樣時間間隔下交通流量預測提供方法參考。除此之外,通過大量試驗得到,在時間復雜度方面,ARMA和SVR的兩種組合模型的時間復雜度及設備的配置遠遠低于深度學習模型ANN及LSTM。相關研究人員可將模型的預測結果用于ITS的短期決策任務中,如交叉口的信號配時。
不同模型在樣本的時間間隔分別為5,10,15 min 時,在測試集上的擬合情況如圖5所示。

圖5 不同時間間隔下交通流量預測模型在測試集上的擬合情況Fig.5 Fitting condition of traffic volume prediction model on test set at different time intervals
本研究將對于線性數據具備良好擬合效果的ARMA模型與對于非線性數據處理具有優勢的SVR模型進行組合,充分挖掘了交通流序列中的線性及非線性關系,提高了模型預測的準確率。并通過試驗證明,對比ARMA,SVR,LSTM,ANN及ARMA-SVR加權組合預測模型,ARMA-SVR殘差優化組合模型在小樣本的短時交通流預測任務中表現出預測精度高、計算速度快及數據計算成本低的優勢。并且在樣本的時間間隔分別為5,10,15 min時ARMA-SVR殘差優化組合模型均能較好地反映交通流量序列中的線性及非線性關系,可以滿足基于不同樣本時間間隔的交通流流量預測的需要,將該模型應用于支持ITS的決策需求,可以提升ITS決策速度及精確度,同時能夠降低ITS決策系統的建設成本。因為交通流序列往往受多因素的影響,本研究未考慮多因素對預測目標的影響,之后的研究可以通過擴展數據獲取的范圍,將速度、占有率、天氣狀況、能見度及事故信息等因素納入預測模型。