蔡昌俊
(廣州地鐵集團有限公司,510335,廣州/正高級工程師)
在城市軌道交通網絡化運營時期,客流過飽和情況時有發生,這對車站運營組織工作提出了很高的要求。準確預測車站短時客流量,并據此制定科學的客運計劃和組織方案,將有助于實現車站客流的動態管理,提高車站的運營效率。
目前,針對短期交通量預測的模型主要包括:數理統計模型,如時間序列模型[1]、卡爾曼濾波模型[2]等;人工智能模型,如支持向量機(SVM)[3]、長短時記憶網絡(LSTM)、徑向基函數(RBF)神經網絡等;混合模型,如小波變換(WT)與自回歸滑動平均模型(ARMA)的組合模型[8]、完全總體經驗模態分解與LSTM的組合模型[9]、灰狼優化算法(GWO)與小波神經網絡(WNN)的組合模型[10]、卷積神經網絡(CNN)與LSTM的組合模型、WT與SVM的組合模型[14]等。以上研究成果對城市軌道交通客流預測具有重要的意義。但短時客流存在隨機性、突變性、動態性等難以被精確預測的特點,對于短時客流預測,現有模型存在預測精度不夠高或泛化能力不強等問題。數理統計模型對數據的隨機變化不夠敏感,針對隨機性較強的短時客流,其預測性能比較有限[11];人工智能模型能夠描述城市軌道交通短時客流量數據的非線性特征,但對于海量的小粒度短時客流數據,其預測精度還有待進一步提高。混合模型綜合了各種單一預測模型的優勢,在一定程度上能夠提高預測精度。但是,組合模型的組合方式及組合內容對預測精度的影響較大,因此需根據數據特點選擇合適的組合模型。
循環神經網絡(RNN)是一種強大的深度學習方法,可以將數據傳遞到先前的或同一層的神經元。LSTM是一種特殊的RNN,在各種各樣現實問題上的表現都非常好[16]。Adam算法結合了Momentum和RMSProp兩種算法的優點,可通過計算梯度的一階矩估計和二階矩估計,為不同參數設置自適應學習率,其學習率的取值接近Momentum算法,其收斂速率顯著高于固定學習率的算法[17]。小波變換是一種數據預處理方法,在時域和頻域都有著良好的局部分辨能力,在處理非線性和非穩定性數據方面具有很大的應用價值[18],可以彌補傳統LSTM模型沒有考慮數據波動性的缺陷。因此,本文提出了一種基于小波變換和LSTM(即WT-LSTM)的組合模型,并利用Adam算法作為LSTM的訓練算法,使用非飽和激活函數ReLU函數替代飽和函數激活函數Tanh函數。
城市軌道交通進出站客流量是隨時間變化的信息,原始數據幾乎都會受復雜因素的影響而攜帶一定的噪聲,因此,需要采取一些方法提取、消除噪聲。小波變換是目前應用最廣泛的去噪方法,可克服傅里葉變換無法有效分辨時域信息的缺陷。小波變換分為連續型變換和離散型變換。本文采用離散型變換,其表達式為:
(1)
式中:
Ψj,k——離散型小波變換;
t——時刻;
a0——尺度參數;
b0——平移參數;
y(t)為基本信號函數;
Ψ(t)——母小波;
Ψ*——復共軛函數;
m——縮放常數;
n——平移常數。
常用的小波基函數包括Symlets、Daubechies、Haar等。
LSTM可使用新的單元格解決通用RNN的長期依賴問題,從而確定信息的實用性。如圖1所示,一個邏輯單元包含忘記門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)。

圖1 LSTM結構圖[19]
非飽和激活函數ReLU函數相對飽和激活函數(如Sigmoid和Tanh函數),能解決“梯度消失”的問題,收斂速度更快。因此,本文利用ReLU函數來替代Tanh函數。 LSTM的工作過程如下:
步驟1:忘記門ft控制和選擇邏輯單元所需要的信息,其由輸入值xt和t-1時刻的隱藏層輸出ht-1決定。表達式如下:
ft=σ(Wf[ht-1,xt]+bf)
(2)
式中:
σ——Sigmoid激活函數;
Wf——權重矩陣;
bf——偏置項。

it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
(5)
式中:
Wi——權重矩陣;
bi,bc——偏置項;
Wc——權重矩陣。
步驟3:隱藏層單元輸出值ht由輸出門ot和單元狀態值ct計算獲得,表達式為:
ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=ot*ReLU(ct)
(7)
式中:
Wo——權重矩陣;
bo——偏置項。
步驟4:根據ht,進而可構造計算模型的均方誤差。通過Adam算法最小化目標函數、Adam算法優化LSTM模型的過程見文獻[20]。
WT-LSTM組合模型預測流程如圖2所示。

圖2 WT-LSTM組合模型預測流程圖
WT-LSTM組合模型實現步驟如下:
步驟1:從車站的AFC(自動售檢票)設備終端獲取歷史客流數據,預處理后作為WT-LSTM模型的輸入參數。本文數據預處理主要包括歸一化處理,使原始值歸一化為區間[0,1]中的值[21]:
(8)
xmid=(xmin+xmax)/2
(9)
式中:
xi——原始數據;
xmin,xmax——分別為原始數據的最小值和最大值。
步驟2:確定小波函數Ψ(t)和分解層數N。對原始信號采用Mallat算法作N層分解,得高頻子序列D1,D2,…,DN和低頻子序列AN;再利用Mallat算法重構公式,得重構高頻子序列d1,d2,…,dN和低頻子序列aN。重構后的序列與原始序列長度相同。小波分解和重構公式如式(10)和式(11)所示。
Di=GAi-1;Ai=HAi-1,i=1,…,N
(10)
式中:
H,G——分別為低通濾波器和高通濾波器;
i——分解層數;
A0——原始客流數據(當i=1時)。
ai-1=H*Ai+G*Di,i=N,N-1,…,1
(11)
式中:
H*,G*——分別為低通濾波器和高通濾波器的對偶算子。
步驟3:將高頻子序列d1,d2,…,dN和低頻子序列aN,分別代入到LSTM模型中進行分析及預測。通過變量控制方法確定LSTM模型的隱藏單元數量和迭代次數,并將Adam算法用于LSTM的短時客流預測中。
步驟4:匯總各子序列的預測結果,得最終預測結果。
步驟5:以廣州塔站進出客流為例,評估基于Adam優化的WT-LSTM模型的優越性。選取平均絕對誤差(EMAE)、均方根誤差(ERMSE)、平均絕對百分比誤差(EMAPE)以及決定系數(R2)4個常用指標作為本文模型的評估指標。
(12)
(13)
(14)
(15)
式中:
yi——實際值;
ypi——預測值;
yom——實際值的平均值。
廣州塔站為廣州地鐵3號線和廣州地鐵APM(旅客自動運輸系統)線的換乘站。本文選取廣州塔站3號線2021年2月26日至2021年5月8日的進出站客流作為WT-LSTM組合模型的數據來源(剔除了清明節、五一的節假日數據與4月19日的異常數據)。為保證數據的完整性,指定每日記錄時段為06:00—23:00。本文選取5min的時間間隔作為短時客流的統計時長,15 min的時間間隔作為短時客流的預測時長。此外,本文客流預測的分析長度為30 d,即采用時刻t的前30 d歷史客流數據來實現時刻t的客流預測。以低頻子序列aN為例,自第一個樣本數據塊[(a1.i,a2.i,…,a30.i),a31.i]起,依次下滑數據最后得[(aT-30.i,aT-29.i,…,aT-1.i),aT.i],這樣滑動共獲得T-30個數據塊。對于aN的全部數據,本文以5.0∶2.5∶2.5的比例分成訓練集、驗證集和測試集。
為直觀地分析廣州塔站的客流特征,隨機選取一周的進出站客流,如圖3所示。由圖3可見,廣州塔站工作日進出站客流曲線的整體分布相似,具有周期性特征。其中,工作日出站客流高峰集中在07:30—10:00之間,進站客流高峰則集中在17:00—21:00之間;周末的進出站高峰都集中在晚高峰,出站客流高峰在17:00—21:30之間,周六的進站客流高峰在19:00—22:30之間,周日的進站客流高峰在19:00—22:00之間。這說明廣州塔站是典型的商業區。工作日進站客流高峰的進站人數為619人/5 min,出站客流高峰的出戰人數為571人/5 min;周末進站客流高峰的進站人數為580人/5 min,出站客流高峰的出站人數為512人/5 min。由圖3可知,06:00—07:00及23:30—24:00的客流量較少,因此,本文預測數據不包括這兩個時間段的客流量。

圖3 廣州塔站樣本數據中其中一周的進出站客流量
2.2.1 小波函數的選擇
文獻[22]指出,Daubechies(dbN)和Symlets(symN)小波函數對城市軌道交通客流數據的去噪效果都很好。因此,本文分別利用dbN和symN小波函數對車站客流數據進行分解,并對出站客流的預測結果進行比對。小波分解深度為2層,LSTM的優化采用Adam算法,LSTM最大迭代次數為90,LSTM隱含層節點數為25,試驗結果如表1所示。

表1 不同小波函數性能對比
由表1可知:當WT-LSTM組合模型的小波函數為db4時,進出站客流數據的預測精度最高。進站客流數據的EMAE、ERMSE和EMAPE分別為32.68、51.67和7.35;出站客流數據的EMAE、ERMSE和EMAPE分別為63.01、94.28和13.02。
2.2.2 小波分解深度選擇
小波分解層數選取數值越大,細節分量的低頻信息體現得越明顯,但其自身的高頻信息也會被漸漸分離開;同時,高頻子序列也含有一定的低頻信息,這會增加客流量分析的復雜程度。因此,本文分別選擇兩層和三層分解深度對車站的客流數據進行分解。小波函數為db4,LSTM的優化采用Adam算法,LSTM最大迭代次數為90,LSTM隱含層節點數為25,試驗結果如表2所示。

表2 不同小波分解深度性能對比
由表2可知,WT-LSTM組合模型的小波分解深度為2時,進出站客流數據的預測精度更高。
2.2.3 LSTM優化算法選擇
分別利用RMSProp、SGD和Adam算法對LSTM進行尋優。小波函數為db4,小波分解層數為2層, LSTM的迭代次數90,隱含層節點數為25,試驗結果如表3所示。由表3可知,Adam算法優于RMSProp和SGD算法。

表3 不同算法性能對比
2.2.4 LSTM節點數和迭代次數選擇
LSTM隱含層節點數和迭代次數對模型預測精度的影響很大,因此,本文首先選取隱含層節點數為20、25、30,迭代次數90,對出站客流進行預測比對。選取迭代次數為80、85、90、95、100,隱含層節點數25,進行比對(出站客流數據的迭代次數為95時,同時選取30的節點數。),以獲取合適的迭代次數。小波分解層數為2層,小波函數位db4,LSTM的優化采用Adam算法。試驗結果如表4和表5所示。

表4 不同隱含層節點數性能對比
由表4可知:LSTM隱含層節點數取25時,進站客流數據預測精度更高;LSTM隱含層節點數取30時,出站客流數據預測精度更高。由表5可知:LSTM迭代次數為95時,進出站客流數據的預測精度更高;迭代次數為95時,隱含層節點數為25時,出站客流數據的預測精度更高。

表5 不同迭代次數性能對比
綜合表1~5參數調優可知:本文 WT-LSTM組合模型的小波函數為db4、小波分解層數為2層、LSTM優化算法為Adam、LSTM最大迭代次數為95、LSTM隱含層節點數為25時,模型的預測效果最佳。此時,進站客流數據的EMAE、ERMSE和EMAPE分別為30.39、47.30和7.25;出站客流數據的EMAE、ERMSE和EMAPE分別為43.20、59.05和10.77。
本文WT-LSTM組合模型選取小波函數為db4,小波分解層數為2層,LSTM的優化采用Adam算法,LSTM最大迭代次數為95,LSTM隱含層節點數為25,并與傳統LSTM模型進行比較。經模型計算,LSTM模型預測結果如圖4所示,WT-LSTM組合模型的預測結果如圖5所示。預測性能對比如表6所示。

圖4 LSTM模型的進出站客流預測結果

圖5 WT-LSTM模型的進出站客流預測結果

表6 LSTM和WT-LSTM模型的預測性能對比
由圖4和圖5對比可知,LSTM模型的預測結果能夠在一定程度上預測實際數據的變化,但預測誤差較大;WT-LSTM組合模型的預測結果與實際數據非常接近。由表6可知:WT-LSTM組合模型相比LSTM模型,在EMAE和EMAPE方面都有較大提升,ERMSE和R2也佐證了WT-LSTM模型的預測優勢。
針對城市軌道交通短時客流的特征,結合小波變換理論和LSTM模型設計了WT-LSTM組合預測模型,并利用Adam算法對LSTM進行優化,使用非飽和激活函數ReLU函數替代飽和函數激活函數Tanh函數。經參數調優后可得:WT-LSTM組合模型的小波函數為db4、小波分解層數為2層、LSTM優化算法為Adam、LSTM最大迭代次數為95、LSTM隱含層節點數為25時,組合模型的預測效果最佳。
為了驗證所建WT-LSTM組合模型的預測效果,將組合模型與傳統的LSTM模型進行比對。研究結果表明,WT-LSTM組合模型在EMAE、ERMSE、EMAPE和R2方面均優于LSTM模型。WT-LSTM組合模型的優勢是,僅考慮數據本身,不用考慮站外天氣、其他車站客流情況、站外大型活動等影響因素。此外,該模型對于具有時間序列特征的客流數據都具有較高的預測精度。