李兆豐,倪少權,2,3,孫克洋,呂苗苗,2,3
基于多特征融合的城市軌道交通短時客流預測
李兆豐1,倪少權1,2,3,孫克洋1,呂苗苗1,2,3
(1. 西南交通大學,交通運輸與物流學院,成都 611756;2. 綜合交通運輸智能化國家地方聯合工程實驗室,成都 611756;3. 綜合交通大數據應用技術國家工程實驗室,成都 611756)
客流需求是城市軌道交通運營組織的基礎,隨著信息采集技術、計算能力等的快速發展,短時客流推演的準確性在成網條件下尤為關鍵。考慮到客流的時間依賴性、空間關聯性與外部因子隨機性影響,以LSTM神經網絡為基礎預測框架,構建融合多特征的“端到端”短時客流預測框架,挖掘客流的時間依賴性特征,通過Embedding層嵌入外部因子稀疏矩陣,再利用全連接層融合時間特征、空間特征和其他因子得到預測結果。以成都地鐵火車南站為實例研究對象,經多次實驗,與ARIMA模型與LSTM神經網絡相比,融合多特征的組合預測模型預測性能最佳,訓練集和驗證集MAE誤差分別為11.49和10.85,并在測試集上對模型進行測試,結果表明,該模型具有較佳的預測精度和魯棒性。
城市軌道交通;短時客流預測;多特征融合;端到端預測框架;時空關聯性
近年來,隨著我國城市軌道交通建設的快速推進,眾多城市軌道交通系統已實現網絡化運營,客流需求作為組織城市軌道交通線網日常運營的前提與基礎,客流預測在成網運營條件下至關重要。客流預測結果過大,會引起人力、物力和財力的極大浪費,客流預測結果過小,則會造成車站、車廂擁擠,輕則引起乘客滿意度降低,重則造成人員傷亡等嚴重后果。因此,選擇合適的客流預測方法,提高客流需求預測的準確性尤為關鍵。
客流屬于交通流的一種,而且交通流問題的研究由來已久,并取得了相當豐富的研究成果。如呂田[1]提出了基于SDZ-GRU的多特征短時交通流預測方法SGMTFP,該方法在客流數據基礎上加入時間信息等其他因素,通過SDZ改進門控循環單元,構成新RNN單元,動態控制單元間傳輸,從而進行短時交通流量預測;崔洪濤[2]等提出了深度長短期記憶網絡DLSTM方法進行地鐵進站客流量預測,采用多源數據構造數據特征;Ding[3]利用客流分解方式將客流序列分解為常數項和誤差項兩部分,建立ARIMA模型預測常數項部分,利用廣義自回歸條件異方差模型檢測高峰期、大型活動等突發事件情況下客流的波動性;Yang Liu[4]基于深度學習與交通理論,構建基于長短期記憶網絡(LSTM)的端到端深度學習架構,實現了外部因素、時間依賴性、空間特征和線網特征的整合與建模;羅向龍[5]等針對交通流的時空性,提出了KNN-LSTM模型,通過-最近鄰篩選檢測站再將數據輸入長短時記憶模型進行預測;陸百川等[6]融合多源數據,并結合GA-WNN模型進行短時交通流預測,該模型克服單源數據的局限性進行全局搜索并且可以具有自適應學習的特點;劉帆洨[7]等考慮票價等其他特征變量為輸入屬性,構建短時客流預測模型;Zhang[8]基于譜分析技術,構建ARIMA模型與GARCH模型,分別對客流序列的確定性部分和波動性部分進行預測。
總的來說,針對短時交通流預測主要基于線性理論、非線性理論、人工智能、組合預測模型以及交通仿真的預測方法[9-11]。一方面,現有研究大都以歷史數據為基礎,通過挖掘客流規律的相似性、依賴性以完成預測[9]。然而,在實際情況中,乘客出行具有極大的不確定性,天氣狀況會對出行是否發生、交通工具選擇產生影響,在客流序列特征挖掘方面,大多數研究只考慮客流序列的時間特征,未考慮客流發生的空間位置關聯性,同時在預測因子選擇上具有主觀性。另一方面,在不同輸入特征融合方面,當前諸多研究中所建立的組合模型多為不同部分結果的融合,未充分考慮預測框架的整體性和特征融合的合理性[10, 12-14]。
基于此,本文以LSTM神經網絡為基礎框架,構建融合時間特征、空間特征和外部因子的“端到端”短時客流預測框架。其一,針對時空維度預測因子確定,利用Pearson相關系數法和Spearman相關系數法分別分析客流序列時間相關性和空間關聯性,并以此客觀確定時間維度和空間維度輸入屬性;其二,構建以LSTM神經網絡為核心,融合時間特征、空間特征和外部因子的“端到端”短時客流組合預測模型,綜合考慮不同影響因子對客流的影響,以提高短時客流預測的精度。
當前軌道交通短時客流預測研究大都集中于預測方法選擇和改進,忽略了輸入屬性對預測模型性能影響,預測因子選擇具有主觀性,在模型預測過程中引入了大量噪聲點,降低了模型預測效率。在客流預測中,輸入屬性的好壞直接影響預測精度,一方面,若考慮的輸入屬性過少或者輸入屬性選擇不合適,則直接導致結果精度較低;另一方面,輸入屬性過多,考慮的影響因素中包含影響因子較小的屬性,會使得預測模型更加龐大,造成模型的計算復雜度指數級增長,浪費計算資源和造成無法求解的問題。因此,針對輸入屬性選擇問題,本文提出利用相關系數法確定時間與空間維度的預測因子。
相關研究表明[15],在城市軌道交通線網中,不同站點的客流量之間存在潛在的關聯性,同時,客流序列是時間序列的一種,具有時間序列的依賴性等特征。歷史客流數據是在特定時間和空間條件下,綜合交通發生、吸引與線網服務水平等長期影響因素以及天氣狀況等隨機影響因素下實際進站客流量統計值,蘊含了客流波動規律、不同影響因素對客流的影響程度大小等客流波動特征。歷史某一時段客流量,代表了其在所有影響因素綜合作用條件下,某一站點或線路在該時段的實際客流量值。因此,本文選取Pearson相關系數法與Spearman等級相關系數法分別分析時間依賴性與空間關聯性大小,并以此為依據確定時間維度與空間維度的輸入屬性。
1.1.1 Pearson相關系數法基本原理
Pearson相關系數法是檢驗變量之間相似性程度的一種有效方法,計算公式如下:


1.1.2 Spearman等級相關系數法基本原理



針對客流序列的非線性和波動性特征,單一的預測方法都存在一定的缺陷,同時,對于多特征融合問題,當前組合預測模型是對不同部分結果的融合,缺乏客觀性和合理性。本文模型構建的目標是挖掘不同維度的特征并融合,實現該目標需要解決以下幾個關鍵問題:第一,如何挖掘客流序列的時間依賴性;第二,如何解決外部因子矩陣的稀疏性;第三,如何客觀地融合時間特征、空間特征和外部因子。
因此,對于上述關鍵問題,構建以LSTM神經網絡為核心,融合時間特征、空間特征和外部因子的“端到端”短時客流組合預測模型。基本思想是利用LSTM神經網絡挖掘和學習預測站點及與預測站點相關性較大的8個站點客流序列時間依賴性特征,通過Embedding層嵌入外部因子稀疏矩陣并利用“+”操作融合這兩步結果作為全連接層輸入,經全連接層非線性映射輸出預測客流時間序列。
1.2.1 基于LSTM神經網絡的時間依賴性挖掘
LSTM神經網絡(長短期記憶循環神經網絡)是一種改進的循環神經網絡,能夠有效地解決時間序列的長期依賴問題。它是在RNN神經網絡的基礎上引入時序的概念,對于LSTM單元,上一LSTM單元的隱節點輸出與本LSTM單元的輸入共同作為當前LSTM單元的輸入,通過門控決定細胞狀態的記憶與遺忘,同時有效解決時間序列的長期記憶問題和梯度消失與爆炸問題[16,17]。







圖1 LSTM單元內部結構
LSTM單元中門控結構控制信息的“遺忘”與記憶并調整隱藏狀態h,基于此,LSTM神經網絡具有強大的信息“記憶”功能,可以有效地挖掘客流序列的時間依賴性。
圖2所示是不同站點基于時間依賴性挖掘的初步預測框架,其中表示個站點,表示前步預測輸入,表示預測后步客流。
1.2.2 基于Embedding層的外部因素嵌入
Word Embedding是一種基于神經網絡的語言模型,以獲取詞的分布式表達方式,自動從文本語料中學習詞的低緯度、稠密和實數向量的表達形式,在經Word Embedding處理之后,稀疏矩陣的稀疏性可大幅降低,且分布具有一定的規律性,其目的是將輸入的高維度映射到低緯度的表示。
對于天氣等外部因子,本文利用類別標簽標定天氣類別,并利用One-hot編碼表示類別特征,具有較大的稀疏性,因此,本文采用Embedding方法將稀疏矩陣進行嵌入。
小兒腹瀉是兒科高發疾病,如果不及時的進行治療,就會導致患兒的病情遷延,引起營養不良癥狀,無法正常生長發育[4]。腹瀉對小兒的危害性非常大 [5]。小兒患者的消化系統功能不完善,腸道內受到各種病菌的侵害引起了患兒的發病,導致腸道內菌群失調引起腹瀉。該疾病影響了水和食物的消化吸收,腸液滲透壓上升,導致了滲透性腹瀉;產毒性細菌感染會對腸粘膜溶質運轉造成影響,導致分泌性腹瀉。不同原因引起的腹瀉,其生理變化特征存在差異性,小兒腹瀉疾病都有一個共通之處,腸道內環境被破壞,菌群失調。

圖2 多站點“多對多”LSTM神經網絡預測框架
1.2.3 基于全連接層的多特征融合


式中,為sigmoid激活函數;為第i個神經元輸入;O為輸出預測值;為輸入層第i神經元與隱藏層第j神經元的權重值;為隱藏層第j神經元與輸出層的權重值。
1.2.4 多特征融合的短時客流預測模型
圖4所示是預測模型整體框架,在預測模型訓練時,每一輪迭代計算真實值與預測值誤差,通過誤差反向傳播迭代更新模型內部參數,實現從樣本數據中自適應學習和調整模型參數,使得不同特征融合更合理、客觀。預測整體框架由LSTM模塊、Embedding模塊和全連接層融合模塊三部分構成。
(1)LSTM模塊:將空間相關性較高的站點前時段客流輸入到LSTM神經網絡,挖掘客流序列的時間依賴性特征并輸出初步預測結果。
(2)Embedding模塊:首先通過One-hot編碼對天氣和客流模式特征進行編碼形成稀疏矩陣,利用Embedding層將稀疏矩陣映射為與LSTM輸出具有一致維度的向量。
(3)全連接層融合模塊:利用“+”操作將外部因素和初步結果融合得到全連接層的輸入,利用全連接層挖掘和融合不同特征輸出預測客流時間序列。它為典型的三層全連接神經網絡結構,共有三層,分別為輸入層、隱藏層和輸出層。

圖4 預測模型整體框架

圖5 具體預測步驟流程圖
(1)客流數據預處理:對不同站點客流進行采樣,生成客流時間序列。
(2)LSTM神經網絡預測:對于具有較強空間關聯性的站點,利用LSTM神經網絡挖掘各站點的時間依賴性特征,并輸出各站點的初步預測結果。
(3)Emebedding層嵌入外部因子矩陣:針對天氣特征和日期特征的稀疏矩陣,利用Embedding層降維嵌入與初步預測結果相同維度的向量。
(4)外部因子與初步預測結果融合:對嵌入后的外部因子向量與初步預測結果向量進行“+”操作得到中間結果。
(5)全連接層特征融合:將(3)中中間結果作為全連接層輸入,輸出則為預測客流時間序列。
本實例選取成都地鐵2017年11月共30天數據,選取15min粒度下每日有效時段為6:00~ 23:30,共計68個時段。
在神經網絡訓練之初,首先需要構造樣本數據集并將數據集劃分為訓練集、驗證集和測試集。一般來說,數據集劃分比例為8∶1∶1或者6∶2∶2,考慮到本實例數據只有一個月共30天數據,樣本量少,因此,選取2017年11月23日(周四)和2017年11月26日(周日)為驗證集,選取2017年11月30日(周四)為測試集樣本,其余樣本為訓練集數據。
在科學研究過程中,通常采用誤差來評價預測方法的性能和預測結果的有效性。本文采用平均絕對誤差作為預測性能評價指標[13,18]。
平均絕對誤差(MAE)表示所有單個預測值與真實值的偏差絕對值的平均,能夠較好地反映誤差的實際情況,計算公式為:

均方誤差(MSE)能夠反映誤差分布的集中程度,其值越小表示誤差分布越集中,計算公式為:

本文計算當前時段客流與前時間段客流的Pearson相關系數大小,抽取前5時段的相關系數如表1所示,計算火車南站與全網所有站點客流Spearman等級相關系數值,并抽取關聯性較大的8個站點如表2所示。依據相關性分析結果,確定前四時段客流量為時間維度的輸入因子,確定與預測站點Spearman相關系數最大的8個站點作為空間維度的輸入預測因子。
根據天氣狀況和全日最高溫度將天氣劃分為7類(晴/多云/陰,≤25度;晴/多云/陰,>25度;晴/多云/陰和小雨,≤25度;晴/多云/陰和小雨,>25度;小雨/小雨,≤25度;小雨/小雨,>25度;陰/小雨和中雨)。
表1 不同時段客流量之間的Pearson相關系數表

Tab.1 Pearson coefficients of passenger flow at different time intervals
表2 火車南站Spearman相關系數表

Tab.2 Spearman coefficients for the South railway station
客流分析結果表明,站點客流在工作日與非工作日具有較大的差別。在工作日,居民出行目的大都為工作、上學等,根據站點所處空間位置差異,一般具有明顯的早晚高峰特征;而在非工作日,居民出行目的大都為購物、訪友等,早晚高峰特征并不明顯,且工作日之間客流波動情況高度相似,周六周日之間客流波動情況較為相似,因次,本文將周內客流劃分為工作日與休息日模式兩類。
一般來說,利用虛擬變量對定性指標進行類別特征劃分,但由于日期特征及天氣特征中的不同類別,故不存在嚴格的大小關系,采用0,1,2,…這種量化方式顯然不太合適。在機器學習中,對于類別標簽這種標稱特征,采用獨熱編碼技術創建一個新的虛擬特征,具體編碼結果見表3。
表3 定性指標量化結果

Tab.3 Quantitative results of qualitative indicators
在神經網絡訓練過程中,為提高模型預測性能及泛化性能,采用了學習率衰減、Xavier初始化、權值衰減策略、隨機超參數調試策略與SGD優化器。在神經網絡訓練之初,需指定超參數取值或者取值范圍,本文所選取超參數搜索空間如表4所示。
表4 超參數取值或取值空間

Tab.4 Value intervals of hyper-parameters
經多次實驗和調試之后,當初始學習率取0.01、預測步長為2、LSTM層數為2、Batch_size為128、全連接層隱節點數量為96,Dropout概率為0.2時,訓練集和驗證集誤差最小,MAE誤差和MSE誤差曲線如圖6和圖7所示。其中訓練集MAE和MSE誤差分別為11.49和0.00084,驗證集MAE和MSE誤差分別為0.00079和10.85。由圖6可看出,預測模型前期迭代過程中震蕩性較大,在迭代50次左右時,誤差曲線逐漸趨于平緩,而且震蕩性較小,在迭代350次左右時,趨于平緩。如圖7所示,MSE誤差在前50次震蕩程度較大,迭代50次之后其變化程度較小,這是由于MSE誤差是在標準化數據下計算的誤差,便于模型迭代求優,MAE誤差是在反歸一化之后計算的誤差。

圖6 訓練集MSE誤差

圖7 驗證集MAE誤差
為驗證本預測模型的有效性,本文選取傳統ARIMA模型和單一LSTM神經網絡為對比參照模型,經多次試驗與調試,得到三個模型在訓練集和驗證集的性能表現如表5所示。本文所提模型在訓練集和驗證集上的MAE誤差和MSE誤差分別為11.49和10.85,遠小于ARIMA和單一LSTM,其預測性能較ARIMA和LSTM更佳。
表5 模型的性能表現

Tab.5 Performances of different models
利用訓練好的模型,對測試集進行預測,其中2017.11.30預測值與真實值對比如圖8所示,實線Real是真實值,實線Pred是多特征融合的組合預測模型預測值,實線LSTM_pred指單一LSTM神經網絡預測值,實線ARIMA_pred指ARIMA模型預測值。由圖8可看出,多特征融合的組合預測模型能夠較好地擬合客流變化特征,對高峰期客流突變有較好的識別性和擬合性,總體來說,模型預測性能表現穩定且精度較佳;單一LSTM神經網絡可以大致擬合客流變化趨勢,但對于客流突變點、高峰點不能很好地識別和預測,因此不能適應波動性較大的客流序列預測;針對ARIMA模型,可以識別客流的早晚高峰,挖掘大體的客流變化趨勢特征,但是無法擬合客流波動性大的特征。

圖8 2017.11.30預測值與真實值對比圖
由表5與圖8可知,LSTM神經網絡在客流序列的時間依賴性發掘方面較ARIMA模型更佳,本文所提出的基于多特征融合的“端到端”短時客流預測模型性能最佳,這表明考慮時間維度、空間維度和外部因子作為預測輸入屬性,能夠有效提高模型預測性能和精度,同時,“端到端”的預測框架能夠自適應發掘特征融合的客觀規律。
本文考慮客流序列的時間依賴性、空間關聯性和外部因子建立多特征融合的“端到端”預測框架,利用全連接層融合不同特征,綜合考慮客流的不同影響因子。基于梯度下降法從真實數據中自適應學習不同特征的方式,引進學習率衰減、Xavier初始化、權值衰減策略和Dropout策略以提高模型預測性能。選取ARIMA模型和LSTM神經網絡進行對比實驗,結果表明,基于多特征融合的組合預測模型具有更佳的預測精度,其在訓練集、驗證集和測試集上的MAE誤差分別為11.49、10.85和11.98。綜上,融合多特征的“端到端”預測框架在客流預測上有更好的成效。但本文只預測單一站點的客流量,未實現全網客流同步預測,未來還需進一步研究全網客流整體預測。
[1] 呂田. 基于SDZ-GRU的多特征短時交通流預測方法[J]. 計算機與現代化, 2019 (10): 60-65.
[2] 崔洪濤, 陳曉旭, 楊超, 等. 基于深度長短期記憶網絡的地鐵進站客流預測[J]. 城市軌道交通研究, 2019, 22 (9): 41-45.
[3] DING C, DUAN J, ZHANG Y, et al. Using an ARIMA-GARCH modeling approach to improve subway short-term ridership forecasting accounting for dynamic volatility [J]. IEEE Transactions on Intelligent Transportation Systems, 2017, pp (99): 1-11.
[4] LIU Yang, LIU Zhiyuan, JIA Ruo. DeepPF: a deep learning based architecture for metro passenger flow prediction[J]. Transportation Research Part C, 2019 (101):18-34.
[5] 羅向龍, 李丹陽, 楊彧, 等. 基于KNN-LSTM的短時交通流預測[J]. 北京工業大學學報, 2018, 44 (12): 1521-1527.
[6] 陸百川, 舒芹, 馬廣露. 基于多源交通數據融合的短時交通流預測[J]. 重慶交通大學學報: 自然科學版, 2019, 38 (5): 13-19, 56.
[7] 劉帆洨, 彭其淵. 鐵路旅客購票需求預測模型研究[J]. 交通運輸工程與信息學報, 2018, 16 (2): 50-56.
[8] ZHANG Y, ZHANG Y, HAGHANI A. A hybrid short-term traffic flow forecasting method based on spectral analysis and statistical volatility model [J]. Transportation Research Part C-emerging Technologies, 2014, 43: 65-78.
[9] LEE S, FAINBRO D. Application of subsct autoregressive integrated moving average model for short-term freeway traffic volume forecasting [J]. Journal of the Transportation Research Board. 1999: 179-188
[10] CHENMuchen, YU Wei. Forecasting the short-term metro passenger flow with empirical mode decomposition and neural networks[J]. Transportation research, Part C. Emerging Technologies, 2012, 148-162
[11] 馬小磊, 丁川, 于海洋, 等. 公共交通大數據挖掘與分析[M]. 北京: 人民交通出版社, 2017.
[12] WEI Y, CHEN M. Forecasting the short-term metro passenger flow with empirical mode decomposition and neural networks [J]. Transportation Research Part C: Emerging Technologies, 2012, 21 (1): 148-62.
[13] 胡進寶. 基于雙層分解和核函數極限學習機的城市軌道交通短時客流預測[D]. 北京:北京交通大學, 2017.
[14] ZHANG Y, ZHANG Y, HAGHANI A. A hybrid short-term traffic flow forecasting method based on spectral analysis and statistical volatility model [J]. Transportation Research Part C: Emerging Technologies, 2014,(43) 65-78.
[15] 黃梓榮. 軌道交通線網客流預測方法研究[D]. 廣州:華南理工大學, 2015.
[16] 張琳. 基于深度神經網絡的地鐵客流預測系統研究[D]. 北京:北京交通大學, 2019.
[17] 張偉林. 基于深度學習的地鐵短時客流預測方法研究[D]. 深圳:中國科學院大學深圳先進技術研究院, 2019.
[18] 周志華. 機器學習[M]. 北京:清華大學出版社, 2016.
Short-term Passenger Flow Prediction of an Urban Rail Transit Based on Multi-feature Fusion
LI Zhao-feng1, NI Shao-quan1,2,3, SUN Ke-yang1, LV Miao-miao1,2,3
(1. School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 611756, China; 2. National United Engineering Laboratory of Integrated and Intelligent Transportation, Chengdu 611756, China;3. National Engineering Laboratory of Integrated Transportation Big Data Application Technology, Chengdu 611756, China)
Passenger flow demand is a major prerequisite for the operations of an urban rail transit. With the rapid development of information collection technology and computing capabilities, the accuracy of short-term passenger flow deduction is especially critical when networks are established. Considering time dependence, the spatial correlation of passenger flow, and the randomness of external factors, an “end-to-end” short-term passenger flow prediction framework that incorporates multiple features is constructed based on a long short-term memory (LSTM) neural network. The LSTM neural network is used to mine the time-dependent characteristics of passenger flow. In addition, an external factor sparse matrix is embedded in the embedding layer, and a fully connected layer is used to fuse temporal features, spatial features, and other factors to obtain prediction results. Chengdu Metro South Railway Station was used as a case study. Following several experiments and based on a comparison of the autoregressive integrated moving average (ARIMA) model and LSTM neural network, the combined prediction model incorporating multiple features showed the best prediction performance, where the mean average errors of the training and validation sets were 11.49 and 10.85, respectively. In addition, the combined prediction model was tested on a test set and results showed that the model had better prediction accuracy and robustness than the ARIMA model and LSTM neural network.
urban rail transit; short-term passenger flow prediction; multi-feature fusion; end-to-end prediction framework; spatio-temporal correlation
1672-4747(2020)04-0093-10
U293
A
10.3969/j.issn.1672-4747.2020.04.012
2020-03-12
國家重點研發計劃資助(2017YFB1200702);國家自然基金項目(61703351,71971182);中國鐵路總公司科技研究計劃項目(P2018T001,P2018X001,N2018X006-01); 四川省科技計劃項目(2020YFH0035,2020YJ0268,2020YJ025,2020JDRC0032)
李兆豐(1994—),男,湖南岳陽人,西南交通大學碩士研究生,研究方向:短時客流預測方法,E-mail:leezhaofeng94@foxmail.com
呂苗苗(1986—),女,山西文水人,西南交通大學講師,研究方向:鐵路運輸組織與優化,E-mail:314809108@ qq.com
李兆豐,倪少權,孫克洋,等. 基于多特征融合的城市軌道交通短時客流預測[J]. 交通運輸工程與信息學報,2020, 18(4):93-102
(責任編輯:劉娉婷)