雷 毅, 張善關, 謝云馳, 胡 勇, 喻 蒙, 張躍進*
(1.江西省高速公路聯網管理中心,南昌 330036;2.華東交通大學信息工程學院,南昌 330013)
高速公路作為城市間互相聯通的重要紐帶,在長途出行及貨物的運輸中扮演了極其重要的角色,提供了長距離、快速出行的重要保障。高速公路的交通管理越來越受到重點關注[1]。利用實時車流量數據進行管理屬于“被動式反應”,而通過分析歷史交通流變化規律,預測下一時間間隔內的交通流量進行管理屬于“主動式動作”。被動式的管理只能在交通擁堵發生時進行車輛誘導、避免二次擁堵,而主動式管理能從根本上提高高速公路通行能力和服務水平,同時駕駛員也能根據預測的交通流情況進行路線規劃,避免交通擁堵[2]。因此,對高速公路交通流進行準確、實時的預測是智能交通系統從“被動式反應”轉變到“主動式動作”的關鍵,在高速公路聯網管理過程中至關重要[3]。
短時交通流預測是指預測通過道路指定斷面5~15 min跨度內的車輛數量[4]。通常,交通流預測可以視為學習問題。首先,通過從給定的歷史流量數據中學習基本流量模式,然后基于實時流量數據預測未來狀況,來構建預測模型。在過去的幾十年里,已有多種交通流預測方法被提出。然而,準確和實時的交通流預測仍然是一個具有挑戰性的問題,因為道路交通系統是一個時變且復雜的非線性系統,其發展很大程度上取決于交通流之間的相互作用。時空交通流數據的有效提取和數據挖掘技術的進步,為短期交通流預測提供了合理的預測準確性和更短的預處理時間[5]。
針對交通流時空特性,提出一種基于流形距離的K鄰近(K-nearest neighbor,KNN)-長短期記憶(long short-term memory,LSTM)預測模型。該模型采用流形距離度量任意兩點之間的空間相關性,篩選出k個最近鄰站點,將這k個站點和目標站點數據輸入LSTM模型進行訓練和測試。同時,通過降低學習速率來提高模型的收斂速度和收斂穩定性;在測試過程中,利用滾動預測的方法提高預測精度。
交通流量是指單位時間內通過道路某一地點或某一斷面的實際車輛數,又稱交通量。高速公路某一站點的交通流量主要來源于相鄰站點。預測某一路段交通流時,不僅需要考慮到歷史數據的變化特征,還要考慮來自相鄰站點的交通流影響,即交通流的時間相關性和空間相關性[6]。以美國華盛頓州 I-5 高速公路上實時交通流為原始數據,驗證交通流的相關特性。
高速公路交通流的時間序列具有非線性和波動性。圖1為2019年11月21日站點1581交通流時間序列,交通流有過兩次高峰,一次在6:00左右,另一次在17:00左右,而在其他時刻流量有所下降。盡管整體趨勢明顯,但數據點之間交替出現局部極大值和極小值,呈現出隨機波動特性[7]。此外,高速公路交通流的時間序列整體呈現出相似趨勢。圖2為2019年11月11—17日站點1581交通流時間序列。從圖2(a)中可以看出相同斷面的交通流量在工作日(周一 —周五)中呈現出日相似性。而周末(周六至周日)的交通流趨勢又和工作日不同,具體變化如圖2(b)所示。高速公路的交通流時間序列受各種因素影響呈現非線性變化,但當前時刻的交通流量必然與前幾個時刻的交通流量有關。因此,根據交通流的時間特性,所提出預測算法不僅需要有處理周期性分布變化的能力,而且還可以根據外部因素變化重新學習[8]。

圖1 站點1581交通流時間序列Fig.1 Traffic flow time series for station 1581

圖2 站點1581一周內交通流時間序列Fig.2 Traffic flow time series for station 1581 in a week
在高速路網中,道路交通是一個復雜的網絡,網絡中的交叉口相互聯系,相互影響。選擇空間相關性強的站點可以提高預測精度[9]。圖3為2019年11月21日探測器在 WA I-5公路不同站點采集的交通流速度數據。從圖3中可以看出,交通流的擁堵和分散過程,紅色表示路段擁擠,車速較小;綠色表示道路平坦,車速快。上游路段的交通流狀態可以擴散到下游路段,距離越近,擴散程度越大[10]。由此可見,高速公路交通流在空間上呈現出流形相似性。

圖3 WA I-5 部分站點速度分布Fig.3 WA I-5 some sections traffic speed distribution
KNN算法是通過測量不同特征值之間的距離進行分類或回歸。利用KNN算法思想,找出距離目標站點最近鄰的k個站點構造交通流數據集。常用的測量距離包括歐式距離、曼哈頓距離等[11]。然而,這些距離指標無法準確地描述兩站點之間的流形特性,因此,對于鄰近站點的選取,引入流形距離概念。利用流形距離來衡量目標站點與附近站點之間的相關程度,定義如式(1)所示[12]:
(1)
將交通流站點當作無向圖中的結點,D(xi,xj)則是兩結點(xi,xj)之間的流形距離,Pk和Pk+1分別代表第k和第k+1個結點路徑,Pij代表連接兩結點(xi,xj)的所有路徑,L(xi,xj)則是兩結點(xi,xj)之間的邊長,定義如式(2)所示:
L(xi,xy)=eδd(xi,xy)-1
(2)
式(2)中:δ為調節參數,經過多次測試,δ取0.2效果更好;d(xi,xj)為兩結點之間(xi,xj)的歐式距離:
(3)
式(3)中:(X,Y)為兩個交通流站點;n為交通流序列樣本個數。
Pij為兩結點(xi,xj)之間的所有路徑,k為Pij的路徑數之和,對于每一個結點k,如果L(xi,xk)+L(xk,xj) 通過式(1)~式(3)可以得出,目標站點與各站點之間的流形距離,選擇合適的鄰近站點構造交通流數據集。 長短時記憶(LSTM)網絡是一種改進的遞歸神經網絡(recurrent neural network,RNN),適用于處理和預測具有較長時間間隔和高相關性的時間序列問題[13]。LSTM與RNN的區別在于LSTM的每個單元都增加了一個細胞來判斷歷史信息的有效性。每個細胞放置了三個門,分別是遺忘門、輸入門和輸出門,LSTM單元的結構如圖4所示。xt、yt和ht分別為t時刻的輸入數據、輸出數據和隱藏層的輸出數據。對于輸入的時間序列,LSTM網絡可以使用細胞來確定之前的序列是否對預測有影響。影響越大,權重越高。為了防止梯度爆炸,低影響力的數據會被遺忘。最后,整個網絡得到遺忘門的輸出數據ft、輸入門的輸出數據it、存儲單元的狀態值ct和最終輸出門的預測結果ot[14]。 圖4 LSTM單元結構Fig.4 The cell structure of LSTM block LSTM模型各門的輸出公式如式(4)~式(9)所示[15]: ft=σ(Wf[xt,ht-1]+bf) (4) it=σ(Wi[xt,ht+1]+bi) (5) ct=ft?ct-1+it?g(Wc[xt,ht-1]+bc) (6) ot=σ(Wo[xt,ht-1]+bo) (7) ht=ot?g(ct) (8) yt=Wyht+by(9) 式中:σ()為sigmoid激活函數;g()為雙曲正切激活函數;ht-1為上一層細胞的輸出;xt為當前輸入;W為權重矩陣;b為偏置向量。 實驗數據來源于PORTAL(Portland Oregon regional transportation archive listing)提供的官方交通電子數據庫。使用WA I-5、SR-14和SR500三條州際公路上共21個站點的交通數據作為實驗對象。數據收集周期為43 d,從2019年10月16日—11月27日。圖5為路網的環路探測器分布圖。探測器的數據采集間隔為15 min,每個站點的交通流量為該道路上探測器流量之和。站點1581為目標站點,前36 d的數據作為預測模型的訓練集,最后7 d的數據作為測試集進行測試。 圖5 探測器分布Fig.5 Detectors distribution 對環路檢測器采集到的數據進行檢測。當數據異常或缺失時,使用周相似性或相鄰點均值來處理數據,如式(10)所示[16]: (10) 式(10)中:k為觀測數據的周期;xt-1、xt+1分別為t-1和t+1時刻目標站點的交通流量。 為提高算法精度及模型學習速度,使用Z-score標準化方法對數據x進行歸一化。歸一化值x*為 (11) 式(11)中:σ為數據的均值;μ為數據的標準差。 在實驗中,為了評價和比較預測模型的性能,使用了平均絕對百分誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)作為預測性能的評價指標。 (12) (13) 利用改進的KNN算法計算各站點與目標站點的流形距離,各站點的流形距離和歐式距離如圖6所示。經過多次實驗,選流形距離數值最小的8個站點的交通流量(即k=8)構造交通流數據集訓練LSTM模型。在訓練LSTM模型前,先對數據集進行預處理。LSTM模型層數設置為4層,包含一個輸入層、兩個隱藏層和一個輸出層。節點數分別為9、20、40和1。其他最優結構參數:優化器使用Adam,學習率設置為0.01,最大迭代數為500次,在250次時乘以迭代因子0.5降低學習率。預測時,利用滾動預測方法,即把實測數據作為已知數據繼續進行預測,預測結果如圖7所示。 圖6 目標站點與各站點間的相關性度量Fig.6 The corrdlation measurement between target site and other sites 圖7 MDKNN-LSTM預測值Fig.7 The prediction results of MDKNN-LSTM 為了評價MDKNN-LSTM模型的預測性能,將ARIMA(autoregressive integrated moving average model)、SVR(support vector regression)、LSTM和KNN-LSTM模型的預測結果作為對比。每個模型的實測數據與預測數據之間的EMAPE和ERMSE結果如表1所示。預測結果表明,MDKNN-LSTM的預測精度最高,EMAPE降至9.28%。與常規的KNN-LSTM相比,EMAPE和ERMSE分別下降了1.48%和6.48。更重要的是,多站點輸入的LSTM模型的預測效果要比單一輸入的LSTM模型的效果更好。這說明空間特性因素對短時交通流的預測至關重要,可以有效地提高預測精度。此外,基于深度神經網絡的預測結果要優于ARIMA和SVR等傳統模型。其中,SVR的ERMSE較ARIMA低5.96,但其EMAPE則較ARIMA高0.34%。這是因為當交通流量較低時,SVM的預測性能較差。 表1 短時交通流預測模型誤差評價指標比較Table 1 Comparison of error evaluation indexes of short-term traffic flow prediction models 準確的高速公路短時交通流預測可以為交通管理和道路規劃提供有效的幫助。提出了一種利用流形距離來預測交通流量的KNN-LSTM算法。經試驗驗證,得出以下結論。 (1)交通流的時空特性和流形特性可用于提高短時交通流預測的準確性。 (2)流形距離比傳統的歐式距離更能反映上下游站點對交通流的影響。 (3)KNN和LSTM的混合模型比單一模型的預測效果更好。 但該預測模型也存在著局限性,比如預測模型較為復雜、預測所需時間長及預測沒有考慮到交通事故、大型車輛比例等外部因素對交通流的影響。因此,下一步的工作將集中在尋找優化算法優化模型參數并將影響交通流的外部因素納入預測模型,從而進一步提高預測精度。2.2 LSTM網絡

3 實驗與結果分析
3.1 數據來源

3.2 數據預處理及誤差定義指標

3.3 預測結果及分析



4 結論