姚禎龍,高 芮,王 恒
(中國中鐵二院工程集團有限責任公司,四川 成都 610031)
根據我國城市軌道交通協會統計數據顯示[1],我國城市軌道交通運營里程從2012 年的2286km,增加到2020 年底的7969.7km;年平均增長約16%。截至2020年底,中國大陸地區已有45 個城市開通了244 條軌道交通線。從變化趨勢來看,隨著運營里程的增加以及城市化率的提高,乘客運量也在不斷上升[1]。2012 年,我國城市軌道交通累計運送約87 億人次,2019 年、2020 年分別達237、175.9 億人次,2019 年較2012 年增長約175%[1]。
準確預測城市軌道交通客流對合理的城市軌道交通規劃具有重要意義。國內學者對客流預測模型與方法做了較多的研究。研究目標包括具體車站客流預測[2]、城市軌道交通環線客流預測[3]、新開城市軌道交通預測方法[4,5]、月度客流數據預測方法[6]等,提出了受影響客流的界定算法,建立了突發事件下網絡受影響客流重分布預測算法。
本文基于重慶市軌道交通客流數據,考慮客流的周期性以及客流的時間依賴性,對不同時段(工作日/周末/節假日)的客流分別進行分析,并建立基于支持向量機、長短記憶循環神經網絡模型,提高了客流預測精度。基于實證分析證明了所用方法在客流預測中的有效性。

引入拉格朗日函數L 和拉格朗日乘子(α-α^),分別對ω,b,ξ,ξ^求偏導并令其為0 后,再次代入拉格朗日函數,可以得到其對偶問題,如式(1)所示。

其中,k(Xn,Xm)是支持向量機的核函數,它是利用內積運算實現將輸入映射到高維特征空間的一種簡化計算方式,一般有線性(Linear)核函數、多項式(Polynomial)核函數、徑向基(Radial Basis)核函數等。顯然,對偶問題有解的充要條件是滿足庫恩塔克條件(Kuhn-Tucker conditions,KKT 條件),如式(2)所示。

本網絡是一種門控循環神經網絡(recurrent neural network, RNN)[7]。在LSTM 神經網絡中,一共存在3 種門。分別介紹如下。

式中:i——細胞;t——當前時刻;X(t)——當前的輸入向量;ht——當前隱藏層向量,其同時含有所有LSTM“細胞”輸出,b、U、W 分別是LSTM“細胞”得偏置、輸入權重和循環權重。

針對城市軌道交通客流量預測,將每日的歷史數據客流量視為一個時間序列,設為P={p1,p2,…,pn}。由于城市軌道交通客流基本保持平穩狀態,對LSTM 預測精度影響有限。但同時,和其他神經網絡模型一樣,LSTM 的輸入數據范圍最好能保持在其激活函數(為雙曲正切,取值-1~1 之間)的范圍以內。因此,還是要對原始的客流數據輸入需要進行進一步加工,本文采用歸一化方法(MinMaxScaler class)進行處理,計算原理如式(7)所示。
本文數據來源于重慶軌道交通集團有限公司。本文數據采用的是重慶市軌道交通3 號線,2018 年1 月1 日—6 月29 日運營數據,其中工作日125d;節假日包括周末、元旦、春節(春節客流數據偏差較大,7 個數據點被剔除)清明節、勞動節,共計48d。分別將工作日和節假日數據的70%與30%作為訓練數據與測試數據,即對工作日,共計87 個訓練數據及38 個測試數據;對節假日,共計34 個訓練數據及14 個測試數據。本文所有建模、測試均基于Python 3.6。
為了精確度量各類預測方法的精度,本文選擇采用兩個常用指標,分別是平均絕對百分比誤差(mean absolute percentage error, MAPE),用以計算相對誤差;均方根誤差(root mean square error, RMSE),用以計算絕對誤差。

2.3.1 SVR 回歸
使用上述訓練數據及測試數據進行支持向量回歸分析,由于數據明顯呈現非線性,建模采用徑向基作為支持向量機核函數,圖1a 和圖1b 分別展示了SVR 針對工作日和節假日的不同回歸結果,圖中灰色豎線兩側分別為訓練集與測試集,藍線部分表示訓練及預測的絕對誤差。

圖1 SVR 模型預測值及誤差情況
2.3.2 LSTM 預測
LSTM 模型相關參數標定如下:①定值參數,時間步長為7,預測步長為1,迭代次數300 次,損失函數為Mean_Squared_Error;②網格搜索參數,批量大小為1/2/4/6/8/10/12/14/16(最終取值為1),隱藏層細胞元為5/10/20/50/75/100(最終取值為10)。圖2 可以看到,對工作日客流,迭代100 次后誤差趨于穩定;節假日客流迭代150 次后誤差趨于穩定。圖3 顯示了LSTM 預測模型的計算結果,結果可見,當客流呈現規律性波動時,預測效果較好;對于節假日等客流波動較大且數據量不足的情況時,LSTM 模型效果顯得較為不足。

圖2 LSTM 預測模型誤差隨迭代次數下降曲線

圖3 LSTM 預測模型預測結果
為了說明兩種機器學習方法在工作日、節假日客流預測上的有效性,使用平均絕對百分比誤差MAPE及均方根誤差RMSE 對它們進行誤差量化計算,結果如表1 所示。從中可以看到,在數據量較大(工作日)時,長短記憶神經網絡預測模型具有較好的預測效果,MAPE 僅為6.58%,但其在處理節假日數據時,表現欠佳;支持向量回歸預測模型,通過參數比選,最終對工作日、節假日的預測均表現出不錯的效果。

表1 不同預測模型預測誤差計算
本文根據重慶市軌道交通3 號線半年客流數據,分工作日、節假日兩種情況,分別利用支持向量回歸預測和長短記憶神經網絡預測兩種機器學習模型進行了預測分析。根據預測結果,基于均方根誤差(RMSE)和平均百分誤差(MAPE)對比分析結果表明:
(1)在數據量較大(工作日)時,長短記憶神經網絡預測模型具有較好的預測效果,MAPE 僅為6.58%,但其在處理節假日數據時,表現欠佳。
(2)支持向量回歸預測模型,通過參數比選,最終對工作日、節假日的預測均表現出不錯的效果。