李家鑫 宋佳怡 李冠辰 宋琳 劉翰宸
摘 ?要:隨著城市化進程的高速發展,交通擁堵已成為困擾和阻礙城市發展的重要問題。道路大多數是部分擁堵、部分暢通,準確預測出道路擁堵狀態可以更好地實現汽車分流,緩解交通壓力。本文分別運用VARMA(向量自回歸移動平均)和LSTM(長短期記憶網絡)算法對首都機場附近的57條道路的擁堵數據進行建模分析,在此基礎上將LSTM處理多元時間序列的核心思想加入到多元回歸算法中,使多元回歸算法擁有處理多元時間序列的能力。之后對三個算法的預測準確度和建模復雜度進行對比,找出適合用于不同場景的算法。得出結論,VARMA模型適用于短期精準預測、RNN適用于長期大規模的波動預測、改造后的多元回歸模型適用于中長期快速預測。本文中的算法和結論可以更好地幫助公安和交警及時把控道路擁堵狀況,針對道路擁堵情況提前做出預案和防范措施。減輕出行壓力,提高居民幸福感。
關鍵詞:交通擁堵指數預測;VARMA算法;LSTM算法;多元線性時序回歸算法;智能交通
中圖分類號:TP311.13;U495 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)12-0104-02
Abstract:With the rapid development of urbanization,traffic congestion has become an important problem that puzzles and hinders urban development. Most of the roads are partially congested and partially unobstructed. Accurate prediction of road congestion can better realize vehicle diversion and relieve traffic pressure. In this paper,we use VARMA (Vector Autoregressive Moving Average) and LSTM (Long-term and Short-term Memory Network) algorithms to model and analyze the congestion data of 57 roads near the Capital Airport. On this basis,the core idea of LSTM processing multiple time series is added to the multiple regression algorithm,so that the multiple regression algorithm has the ability to deal with multiple time series. Then the prediction accuracy and modeling complexity of the three algorithms are compared to find out the suitable algorithm for different scenarios. It is concluded that VARMA model is suitable for short-term accurate prediction,RNN model is suitable for long-term large-scale fluctuation prediction,and the modified multiple regression model is suitable for medium-term and long-term fast prediction. The algorithm and conclusion in this paper can better help the public security and traffic police to control the road congestion situation in time,and make plans and preventive measures in advance for the road congestion situation. Reduce travel pressure and improve residentswell-being.
Keywords:traffic congestion index prediction;VARMA algorithm;LSTM algorithm;multiple linear time series regression algorithm;intelligent transportation
1 ?緒論
1.1 ?研究背景
中國是一個擁有14億人口的大國,城市化和汽車數量的增加都會加劇道路的擁堵。以北京為例,北京城區接近90%的道路已經達到飽和狀態,擁堵問題十分嚴重。
1.2 ?國內外研究現狀
國內外學者在這個問題上的研究已經做了很多努力并有了很多突破,主要的研究方向可以分為非參數回歸、參數回歸、神經網絡、時間序列分析等。我國交通智能化和公安信息化有了很大進步。然而在警務情報整合、時間序列數據的挖掘以及后續的分析結果利用上仍存在不足之處。
1.3 ?課題研究的內容和意義
1.3.1 ?研究內容
我們選擇了T3航站樓附近的57條道路作為研究的對象。數據包含從2016年到2017年的路況信息,以一小時為間隔。我們選用VARMA(向量自回歸移動平均)模型和LSTM(長短期記憶網絡模型)進行預測,并對模型做驗證和評價。之后對多元回歸模型做改進,使多元回歸模型擁有處理多元時間序列的能力。為此,我們將時間的因素以自變量的形式加入模型中,并對模型做一系列驗證。最后比較三個模型,通過指標選出最優。
1.3.2 ?研究意義
在現有的道路的基礎上,將大數據技術和計算機處理技術有效地運用到交通管理體系中,充分挖掘現有數據的價值。當道路出現擁堵跡象時能發出預警信號并及時采取措施,減少擁堵帶來的損失,對預測算法進行創新,找出收斂速度更快、預測準確度更高和使用更為簡便的方法。
2 ?數據預處理
2.1 ?數據預處理
VARMA算法具備基于時間序列的擁堵數據對數據做變形和拼接系統管理員的功能模塊。對于LSTM算法我們需要將數據按照不同的道路進行劃分,劃分到不同的Excel表中。對于多元線性回歸算法,我們需要將不同的道路和道路的前三期的擁堵指數都作為自變量。
2.2 ?描述性統計
針對57條道路,按照擁堵等級作為劃分依據繪制餅圖。可以看到其中60%的時間首都機場附近的道路是暢通級別,40%的時間都存在不同程度的擁堵。而擁堵指數超過1.6的情況占到了5.5%左右。
3 ?交通擁堵建模分析與預測
3.1 ?VARMA
3.1.1 ?變量選擇
在明確研究目標之后,我們對手中的道路數據做相關分析。如果使用57個變量建立模型,不僅會影響模型的準確率,而且模型的建立和使用都會比較煩瑣。因此我們做相關分析之后選出和研究對象相關性較高的變量作為模型輸入。
3.1.2 ?平穩性檢驗
使用時間序列算法的第一步需要對時間序列進行一系列的檢驗,用以驗證序列是否滿足建模的要求。選擇用ADF檢驗來驗證,四個變量的ADF檢驗的結果P值都小于0.05,證明四個變量都是平穩的。
3.1.3 ?模型定階
VARMA模型在建立之前需要確定階數,一個是自回歸AR模型的中的P與移動平均模型MA中的Q,我們選擇了AIC來確定模型的階數。AIC通過加入模型復雜度的懲罰項來防止模型出現過擬合的現象。
3.1.4 ?模型檢驗
自相關檢驗:為了驗證分析模型的殘差之間不存在自相關性。
白噪聲檢驗:對殘差做Ljung-Box檢驗。
正態性檢驗:為了檢查殘差列的正態性,繪制了殘差列的QQPlot。
3.1.5 ?模型預測
我們用模型對測試數據做預測,其中測試數據共包括4160條。
越靠后準確率會下降,尤其是對于前五十個數據的預測,預測和實際數據十分貼近。
3.2 ?LSTM
LSTM模型處理的對象同之前一樣,將不同的道路分別存儲到Excel表中,并創建一個道路名單表供LSTM模型調用。利用Python語言實現LSTM神經網絡模型的建立并預測交通擁堵狀況。
3.3 ?多元線性時序回歸
運用最小二乘法計算自變量系數,建立多元線性回歸模型。
(1)擬合優度檢驗:通過模型匯總,檢驗擬合情況。
(2)顯著性檢驗:在多元線性回歸方程中,部分是對回歸方程整體的F檢驗,另一部分是對回歸系數的T檢驗。
(3)多重共線性檢驗:本文用方差膨脹因子來檢驗多重共線性。
4 ?模型對比
對VARMA、LSTM、多元線性時序回歸算法采用相同的訓練數據,對比VARMA、LSTM、多元線性時序回歸算法的性能和特點。之后總結三個模型分別適用于什么場景的擁堵預測。定義步驟如下:
(1)首先給出三個模型在建立過程中的主要步驟,繪制流程圖,為后續的對比和介紹奠定基礎。
(2)定義試驗結果分析的物理量,使后續對比的意義更加明了。
(3)定義建立模型所使用的訓練集和測試集。
(4)模型能力測試,本實驗的目的是探究三種算法在處理多元時間序列時的預測能力和對數據的挖掘能力。盡可能在三個模型都達到最佳狀態時改變訓練數據和測試數據的比例來探究算法的預測能力。
5 ?結 ?論
VARMA算法更加適用于預測近期交通擁堵指數,并且對數值的準確性要求較高。但VARMA算法對數據質量的要求較高,而且建立時間較長,這就需要有關人員具備較高的模型處理能力。RNN算法更加適用于長期的交通擁堵預測,可以利用RNN模型對首都機場的警力資源做長期的部署,因為RNN模型對擁堵數據的抖動有很強的感知力,在擁堵高發期和波動期RNN的預測效果會更好。只是RNN算法對于不同的數據需要改變大量的參數,這一過程會耗費很多時間。根據改造后的多元回歸模型,我們可以看出,對于前、中、后三個階段數據的預測效果都在可以接受的范圍之內,而且多元回歸算法建立耗時短、預測精度高、數據要求低。所以多元回歸算法很適合公安部門使用。
我國現在正處于信息化建設的高速發展期,需要我們將挖掘數據的算法和工具進行升級和換代。我們相信人工智能和機器學習算法會更加多樣化,算法的效果會更好。這將會減輕人們的出行壓力,警力資源也會得到更合理的分配。
參考文獻:
[1] 崔承穎.基于累積Logistic模型的城市交通擁堵概率估計研究 [D].北京:北京交通大學,2015.
[2] 陳岳明,蕭德云.基于跳轉模型的路網交通流預測 [J].控制與決策,2009,24(8):1177-1180+1186.
[3] 陳韞.基于LSTM深度網絡的城市道路短時交通狀態預測模型研究 [D].福建工程學院,2018.
作者簡介:李家鑫(1997.04-),男,漢族,北京人,本科在讀,研究方向:大數據方向。