潘念然
(上海體育學院經濟與管理學院,上海 200000)
地鐵作為滿足大眾基本出行需求的一個重要方式,具有故障率低、運力大、穩定安全等優點。同時,建立較為完善的地下軌道交通網絡,既可以改善地面公共交通能力不足的不利局面,又可以促進城市基礎設施建設,拉動經濟社會發展。在城市軌道交通發展建設和運營中,客流預測一直是相關研究和實踐的一個重要內容。特別在當前城市軌道交通運力快速增長和客流需求變化較快的情況下,客流預測研究的重要性和必要性更加凸顯。在城市軌道交通客流預測方法上,已經涌現出了多種模型,其中,單變量自回歸移動平均模型(ARMA)是最為常用的傳統預測方法。ARMA 考慮了差分影響,是自回歸(AR)和移動平均(MA)模型的結合,被廣泛應用于基于時間序列的預測研究中[3-4]。近年來,隨著人工智能的發展,基于深度學習算法的支持向量機(SVM)、隨機森林(RF)、遞歸神經網絡(RNN)、長短期記憶(LSTM)等正成為預測研究的重要方向。其中,LSTM能夠識別數據的結構和模式,能夠挖掘數據中蘊含的非線性和復雜性,被廣泛用于基于時間序列的預測研究[7-10]。目前,在城市軌道交通客流預測研究中,綜合應用傳統ARMA 模型和當前處于前沿的LSTM模型的研究仍較少。基于此,本文綜合應用ARMA 和LSTM兩種方法展開城市軌道交通客流預測研究,通過對比分析來確定哪個模型具有更好的準確性和精度,由此為相關理論研究和實踐應用提供參考和借鑒。
作為傳統預測模型的代表,ARIMA 模型能夠處理數據的非平穩性,而作為基于深度學習算法的代表,LSTM方法能夠對非線性時間序列數據進行建模。研究應用城市軌道交通客流的時間序列數據,分別構建ARIMA 和LSTM 模型來預測城市軌道交通客流量,并通過比較預測結果的均方根誤差來評估兩個模型的預測精度和性能。
自回歸滑動平均模型:
如果序列Xt不僅與過去的狀態有關,而且對之前進入系統的外部沖擊也有一定的依賴性。當這種動態特征用一個既包含滯后項又包含過去外部沖擊的模型來描述時,通常稱為自回歸移動平均模型,其一般結構為:

根據時間序列是否具有季節性變化,其結構可分為ARIMA(p,d,q)和ARIMA(p,d,q)×(P,D,Q)S,其中p 和q 是自回歸的階數和移動平均階數,d 和D 是非季節性和季節性差異時間,P 和Q 是季節性自回歸階數和移動平均階數,S 是時間序列周期或周期長度。
ARIMA(p,d,q)×(P,D,Q)S
對于周期為S 的乘積季節模型,該模型一般定義為:

其中,上式(2)是以S 為周期的時間序列的P 階自回歸運算符,上式(3)是以S 為周期的時間序列的Q 階移動平均運算符,上式(4)是以S 為周期的時間序列的D 階季節性差分算子。
LSTM 是一種改進的RNN 算法,主要用于時間序列預測。LSTM給RNN 增加了三層,分別是遺忘門、輸入門和輸出門。遺忘門以一定的概率決定是否忽略前一層的隱藏單元狀態;輸入門確定輸入以更新序列位置;輸出門決定了最后時刻的隱含規則和當前時刻的聯合狀態。
城市軌道交通的線路固定,受外界因素的干擾較小,居民使用軌道交通的時間周期性很強,所以整體的城市軌道交通客流量數據帶有時序性特點,即客流量會隨著時間點、季節、月份的變化而變化,但是最基本的是以周為單位的變化周期。本文采集的數據具體時間區間為2019 年4 月1 日至2019 年6 月13 日。在時間序列數據分析中,不同的時間區間會有不同的變化。因此,在此基礎上,本文將數據分成日客流量數據和分時客流量數據,然后將日客流量和分時客流量分別進行模型擬合,分析精度。
2.2.1 平穩性檢驗
日客流量數據具有季節性特點,為了減少誤差,對原始序列進行季節性差分,時間序列通過ADF 檢驗,P 值為0.000<0.05。分時客流數據是非平穩的,為了減少誤差,對原始序列進行一階差分,時間序列進行ADF 檢驗,P 值為0.000<0.05。在三個顯著水平上,季節差分序列和一階差分序列都是平穩的。
2.2.2 確認ARIMA 模型參數
本文首先建立了ARIMA 模型,并對參數進行了估計。為了使建模更加嚴格,我們使用AIC 和BIC 準則來確定模型的參數。對于日客流量,最小的AIC=1041.298,對應的模型是ARIMA(3,0,1)(0,1,1),對于分時客流量,最小的BIC=71779.19,對應的模型是ARIMA(7,1,7)。
2.2.3 ARIMA 模型預測
從圖1 可以看出,日客流預測結果的殘差序列是獨立的白噪聲序列,說明該模型擬合數據。圖2 顯示了分時客流的殘差序列QQ 圖。如圖1 和圖2 所示。

圖1 日客流量殘差序列QQ 圖

圖2 分時客流量殘差序列QQ 圖
根據上述可得擬合模型ARIMA(3,0,1) (0,1,1)和ARIMA(7,1,7)。通過編程得到的結果如下:日客流量ARIMA 模型預測結果RMSE=3167.53,分時客流ARIMA 模型預測結果RMSE=126.34。結果表明,當預測數據具有季節性特征時,誤差約為3,167.53,當預測數據具有非平穩性時,誤差約為126.34。預測結果如圖3 和圖4 所示。

圖3 日客流量ARIMA 模型預測

圖4 分時客流量ARIMA 模型預測
2.2.4 確認LSTM 模型參數
神經網絡中最關鍵的是確定輸入神經元的數量、隱藏層的數量和隱藏單元的數量。隱藏層和受保護組過多會導致網絡學習速度延長,太少將缺乏必要的學習能力。本文的日客流量和分時客流量設定的輸出和輸入均為一維特征,可以看出訓練效果較好,如圖5 和圖6 所示。

圖5 日客流量LSTM 模型損失

圖6 分時客流量LSTM 模型損失
2.2.5 LSTM 模型預測
使用訓練好的LSTM模型預測數據,結果如圖7 和8 所示。

圖7 日客流量LSTM 模型預測
日客流量LSTM模型的預測結果為RMSE=41200.85,這意味著對于具有季節性特征的數據,每個LSTM預測的均方根誤差約為41200.85。LSTM 模型的分時客流預測結果為RMSE=211.52,這意味著對于不平穩的數據,每個LSTM預測的均方根誤差約為211.52。

圖8 分時客流量LSTM 模型預測
平均絕對誤差用于衡量總誤差的平均值,均方根誤差用于衡量誤差的平均大小,兩者都可用來評價模型的擬合精度。為了更加直觀地分析兩種模型的預測結果,本文使用RMSE 來評估模型。
不同預測數據和方法的準確率結果如表1 所示。均方根誤差結果因數據量、預測方法和時間間隔而異,RMSE 越小,模型的精度就越高。在時間粒度上,對于日客流數據,ARIMA方法的均方根誤差小于LSTM方法,預測效果更好;對于分時客流,LSTM 方法的均方根誤差大于ARIMA 方法,從RMSE 結果來看,ARIMA 的預測優于LSTM。

表1 不同頻率數據的均方根誤差
本文在對城市軌道交通客流預測模型進行系統分析的基礎上,分別應用ARIMA 模型和LSTM模型對城市軌道客流進行擬合和預測,進而對兩個模型預測的結果進行對比分析,從而評估模型預測的精度和性能。研究結果表明,首先,對于日客流,ARIMA 優于LSTM,這是因為日客流量的數據不足,而LSTM的網絡需要大量的數據來訓練以此來達到更精確的結果;對于分時客流量,將兩種方法結合起來效果更好。其次,預測的質量與數據質量和模型選擇有關,但輸入數據的清洗和選擇也很關鍵。在滿足模型性能要求的前提下(例如,某些模型需要非常大的數據集),同一數據集可以使用不同的模型。為此,更重要的是對輸入數據進行分析,挖掘數據的深層次關系,即優化輸入數據集。對于本文中的數據,日客流量的預測最好用ARIMA 算法來預測;對于分時客流的預測,LSTM 神經網絡也可以作為ARIMA 的替代方法用于預測,預測值與數據整體趨勢大致相同,峰值存在誤差,但整體偏差不大,結果表明需要優化或組合方法來提高較短時間間隔預測的準確性。