魯文博 馬超群 李國棟 曹 蕊 徐金華
(長安大學交通運輸工程學院,710064,西安∥第一作者,碩士研究生)
城市軌道交通客流兼具長期的線性增長趨勢、周期性季節變化及隨機波動,呈現復雜的非線性特點。傳統的預測方法,如線性回歸模型、ARIMA模型等,通過調整預測數據以達到對非線性客流量的預測[1-2]。在季節指數應用方面,目前主要是對其值的估計[3-5]和預測模型的改進[6-8],缺少對月份分組和季度分組的比較以及更準確的季節分組的研究。
本文基于月客流殘差,以弗雷歇距離作為曲線相似性度量,達到對季節分組的精確性把握。該季節分組即體現了同一分組內月份的相同特征,又突出了不同分組之間的特殊區別,為確定最優的季節分組提供了新的思路。考慮到季節指數法能夠有效地消除季節性因素影響,而人工神經網絡對非線性時間序列具有良好的適應性,結合兩種模型的優勢,對地鐵月客流量進行預測,以驗證分類結果的準確性。
基于月客流殘差的季節分組流程如圖1所示。

圖1 季節分組流程
假設歷史數據的時間序列為{Yt},t=1,2,3,…,n。
步驟1:建立時間序列線性回歸趨勢方程:
Yt′=α1-α2t
(1)
式中:
Yt′——因變量;
a1,a2——回歸系數;
t——時間。
步驟2:根據趨勢方程計算每月客流量的趨勢值,從而計算客流量殘差δt,計算公式為:
δt=Yt-Yt′
(2)
式中:
Yt——實際客流量,萬人次。
步驟3:基于弗雷歇距離算法計算任意兩個月客流殘差曲線的弗雷歇距離及曲線相似度。
步驟4:根據相似度對月份進行區間分類。
距離空間的概念是法國數學家弗雷歇于1906年提出的,又稱為弗雷歇距離。它將現實空間的距離概念推廣到一般的集合上,為抽象空間之間的距離度量提供了理論基礎。其著重將路徑空間距離考慮進去,相比之下,其對有一定空間時序的曲線相似度評價效率更高。
設A和B是空間S上的兩條連續曲線,即A:[0,1]→S,B:[0,1]→S;又設α和β是單位區間的兩個重新參數化函數,即α:[0,1]→[0,1],β:[0,1]→[0,1];則曲線A與B的弗雷歇距離F(A,B)定義為:

式中:
d——S上的度量函數。
弗雷歇距離越小,說明兩條曲線之間的相似程度越高;弗雷歇距離越大,說明兩條曲線之間的相似程度越低。因此對曲線A和B來說,相似度IA,B的定義如下:
(3)
季節指數是基于統計學的一種簡化時間序列數據的方法,該方法對季節時間序列的季節性進行處理,同時使原始數據中的一些重要信息不會被丟失,一般采用直接平均季節指數法對原始客流數據進行預測前的調整。直接平均季節指數法用算數平均值直接計算各月或各季度的季節指數,將其擴展到季節區間的季節指數,其計算公式為:
(4)
式中:
Sj——第j分組的季節指數;
xijp——第i年第j分組中第p月的全線客流量,萬人次。
利用季節指數對客流原始數據進行修正,修正值為x′ijp,以降低季節對預測客流的影響,即:
x′ijp=xijp/Sj
(5)
對原始客流數據處理之后,通過預測得到未來時期某月份的客流量y′ijp,經逆向調整后的該月預測客流為:
yijp=y′ijpSj
(6)
式中:
yijp——第i年第j分組中第p月的客流量,萬人次。
BP(誤差反向傳播)算法的多層感知器是至今為止應用最廣泛的神經網絡。在多層感知器的應用中,以單隱層網絡的應用最為普遍。一般習慣將單隱層感知器稱為三層感知器,所謂三層包括了輸入層、隱含層和輸出層。
訓練的過程就是不斷調整權值的過程,當誤差小于設置值時停止訓練。整個網絡的信息都儲存在權值矩陣中。當輸入一個預測值時,網絡根據權值矩陣進行計算,以達到記憶的目的。
Elman神經網絡是在BP神經網絡基本結構的基礎上,在隱含層增加一個承接層,作為一步延時算子,達到記憶的目的,從而使系統具有適應時變特性的能力,增強了網絡的全局穩定性。
根據季節指數對原始客流數據進行調整,分別應用三種不同的季節指數調整后的數據進行預測,最后分別對預測后的數據進行逆向調整,以得到更精確的結果。
主要分為以下步驟:①對異常值進行修正;②根據時間序列數據建立趨勢方程,并計算月客流趨勢值、殘差;③計算任意兩月客流殘差曲線的弗雷歇距離和相似度;④根據月客流殘差曲線間的相似度進行季節區間分類;⑤根據式(4)計算不同分類方法中每個季節區間的季節指數,并對原始客流數據按式(5)進行調整,獲得調整后的客流量;⑥由于Elman神經網絡結構的特殊性,需要以原始客流數據對隱含層神經元數目進行尋優,采用優化后的網絡預測得到的客流量按式(6)進行逆向調整,從而獲得最終的預測客流量。
選取西安地鐵2號線全線2014年1月—2018年8月共56個月的客流量為基礎數據,以此數據為原始客流數據,預測2018年9月—2019年2月的客流量。
由于西安地鐵3號線在選取時間區間中開通,因此直接對2016年11月的客流造成影響。采用平均值法計算修正值,并在后續過程中采用修正值進行計算。
應用2014年1月—2017年12月共48個月的全線客流量建立趨勢方程并計算月客流殘差,結果如表1所示。

表1 不同年份的月客流殘差計算結果
根據表1中的數據繪制的不同年份的月客流殘差曲線如圖2所示。利用弗雷歇距離算法計算任意兩條月客流殘差曲線之間的相似度,結果如表2所示。

圖2 西安地鐵2號線2014年1月—2017年12月的月客流殘差曲線
對圖2的月客流殘差曲線進行定性分析,大致可以看到3~5月的客流殘差曲線比較相似,6~11月的客流殘差曲線比較相似,12月、1月、2月的客流殘差曲線各不相同。根據表2結果,繪制3~5月和6~11月的客流殘差相似度曲線,分別如圖3和圖4所示。

表2 利用弗雷歇距離算法計算的任意兩個月客流殘差曲線之間的相似度
由圖3可見,3~5月的月客流殘差曲線相似度比較高,故認為3~5月為同一季節區間。

圖3 西安地鐵2號線2014年1月—2017年12月中3~5月的客流殘差曲線相似度
由圖4中可見,6~11月客流殘差相似度曲線的特征比較相似,故認為6~11月為同一季節區間。

圖4 西安地鐵2號線2014年1月—2017年12月中6~11月的客流殘差曲線相似度
圖5為12月、1月和2月的客流殘差相似度曲線。由圖5可見,12月、1月和2月的客流殘差曲線相似度較小,且與其它月份的并不相同,因此認為12月、1月和2月各為一個季節區間。根據上述分析,將地鐵客流季節分為5個區間,即:3~5月為第一季度,6~11月為第二季度,12月、1月和2月各自為一個季度。

圖5 西安地鐵2號線2014年1月—2017年12月中12月、1月和2月的客流殘差曲線相似度
以2014年3月—2018年2月的客流量為基礎數據,分別采用SIR(季節分組區間)分類方法、TMC(傳統月份分組區間)分類方法、TQC(傳統季度分組區間)分類方法,按照直接平均法(式(4))進行計算,結果如表3~5所示。

表3 基于SIR分類法計算的季節指數
1) 以原始客流數據為基礎,優化Elman神經網絡的隱含層節點數。
(1) 選取2014年3月—2018年2月基于SIR、TQC、TMC分類方法并計算調整后的數據作為訓練集。
(2) 選取2018年3月—8月基于SIR、TQC、TMC分類方法調整后的調整數據作為測試集。

表4 基于TMC分類法計算的季節指數

表5 基于TQC分類法計算的季節指數
(3) 先設置較少的隱含節點訓練網絡,然后逐漸增加隱含節點數,用同一樣本集進行訓練,從中確定網絡誤差最小時對應的隱含層節點數。
經過檢驗,最佳隱含層節點數取值公式為:
(7)
式中:
n——輸入層節點數(本文為6);
l——輸出層節點數(本文為1);
ω——1~10之間的常數;
m——隱含層節點數,取尋優范圍為[1,16]。
(4) 確定適應度函數,以2018年3月—8月預測客流量絕對誤差作為適應度函數,即:
(8)
式中:
xj,yj′,yj″,yj?——為2018年第j月的實際客流量應用SIR、TQC、TMC分類法預測后的調整客流量。
由于尋優范圍較小,采用遍歷法對節點數進行尋優,尋優結果如圖6所示。由圖6可見,最優隱含層節點數為3,即建立6-3-1的三層神經網絡。

圖6 適應度函數曲線
2) 以2014年3月—2018年8月客流量為訓練集,應用優化后的神經網絡預測2018年9月—2019年2月的客流量,經過逆向調整(式(6)),最終得到預測值,如表6所示。

表6 西安地鐵2號線2018年9月—2019年2月的客流量預測結果 單位:萬人次
為了消除隨機性,分別訓練100次并對預測客流取平均值,預測結果如表6所示。根據實際值計算相對誤差(RE)、平均絕對百分比誤差(MAPE)、和均方根誤差(RMSE)來對預測結果進行分析,結果如表7所示。

表7 西安地鐵2號線2018年9月—2019年2月的客流量預測誤差對比分析
進一步地,可由表7得到如圖7所示的各分類方法預測誤差對比圖。

圖7 西安地鐵2號線2018年9月—2019年2月不同分類方法的客流量預測誤差對比圖
通過比較各分類方法的預測指標,SIR分類預測所得到的相對誤差、平均絕對百分比誤差、均方根誤差小于傳統的季節分類方法的,相對誤差控制在10%以內(由于對2016年11月客流量的修正誤差,其對應月份預測誤差較大),個別月份達到1%以內,預測精度相對較高。
自然季節性和制度節性是影響季節性波動最主要的因素。TMC和TQC分類方法的季節分組只體現了自然季節性,而本文所采用的方法根據兩者疊加的結果進行分組,更為準確。
綜上所述,基于月客流殘差的季節指數預測方法具有較高的預測精度和較好的穩定性。
本文通過對月客流殘差分析,提出了基于月客流殘差的季節分類方法,以季節指數調整客流達到提高預測精度的目的。通過對三種分類方法進行對比分析,本文提出的分類方法在月度客流預測中精度較高,基本滿足對客流量的預測需求。
通過該分類方法計算出的季節指數用于預測時,能更好地適應城市軌道交通客流的季節性變化趨勢,從而使運營公司及時調整相關運能運力,制定更加經濟合理的月度或年度運營計劃。
考慮到影響城市軌道交通客流季節性因素的多樣性,后續需要對網絡、不同線路和站點的季節區間進行對比分析。