石敏蓮 劉志鋼 胡華 汪景



摘要:城市軌道交通的進(jìn)出站客流量具有較大的不確定性和復(fù)雜性,尤其是短期客流預(yù)測,一直是地鐵客流預(yù)測中的一個研究熱點和難點。AFC設(shè)備能準(zhǔn)確讀取刷卡數(shù)據(jù),實現(xiàn)歷史和實時進(jìn)出站客流量的有效統(tǒng)計。為提高進(jìn)出站客流預(yù)測精度,本文以杭州地鐵西興站為例,利用主成分分析法(PCA)對通過AFC設(shè)備采集的歷史進(jìn)出站客流數(shù)據(jù)進(jìn)行特征提取,然后通過處理后的數(shù)據(jù)建立長短期記憶網(wǎng)絡(luò)(LSTM)短期客流預(yù)測模型。仿真結(jié)果表明該方法在城市軌道交通進(jìn)出站客流預(yù)測中有較好的表現(xiàn),滿足短期客流預(yù)測的要求,能夠為地鐵的運營管理提供一定的指導(dǎo)作用。
關(guān)鍵詞: 短期預(yù)測; 客流; PCA; LSTM
【Abstract】 The passenger flow ?of urban rail transit ?in and out of the station is ?of great uncertainty and complexity, so it's hard to forecast the volume of it in short-term. AFC equipment can accurately read card data, then realize the history and real-time statistics of passenger flow in and out of the station. In order to improve the prediction accuracy of forecast of number of people arriving or leaving the station, this paper takes Hangzhou Xixing Station as an example. Firstly, the principal component analysis (PCA) method is used to extract the characteristics of the historical passenger flow data collected by AFC equipment, and then establishes the short-term and long-term memory network (LSTM) short-term passenger flow prediction model through the processed data. The simulation results show that this method has a good performance in the passenger flow prediction in and out of the station of urban rail transit, meets the requirements of short-term passenger flow prediction, which can provide some guidance for the operation and management of the subway.
【Key words】 ?short-term forecast; passenger flow; PCA; LSTM
0 引 言
隨著社會經(jīng)濟的飛速發(fā)展,人們的生活節(jié)奏加快,出行頻率也大幅度增加,同時對出行效率和舒適度的要求也越來越高。對于城市軌道交通而言,客流量是運營的主要依據(jù),也是構(gòu)建智慧交通的重要基礎(chǔ)。日常列車排班計劃的制定、大客流的預(yù)防等均要求對未來客流量進(jìn)行預(yù)測。
對于短期客流預(yù)測,主要可分為線性和非線性兩類。其中,線性預(yù)測常用方法有卡爾曼濾波、時間序列預(yù)測等;非線性預(yù)測常用方法主要包括灰色理論、神經(jīng)網(wǎng)絡(luò)、支持向量機等。近年來,國內(nèi)外許多專家學(xué)者對這類客流預(yù)測進(jìn)行了大量的研究。王奕等人[1]根據(jù)周期時變特點在灰色預(yù)測模型的基礎(chǔ)上改進(jìn)了馬爾科夫算法。楊軍[2]將小波分析與支持向量機結(jié)合提出了短期客流預(yù)測方法。程浩等人[3]利用BP神經(jīng)網(wǎng)絡(luò)對短期客流進(jìn)行預(yù)測。侯晨煜等人[4]在神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上,結(jié)合卡爾曼濾波,提出了一種新型有效的地鐵客流短時預(yù)測算法。Han等人[5]提出了一種新的基于深度學(xué)習(xí)的方法STG-CNN (spatial - temporal graph convolutional neural networks for metro),對城市每個地鐵站的進(jìn)站流量和出站流量進(jìn)行了綜合預(yù)測。Sun 等人[6]提出了一種新的混合模型小波-支持向量機,結(jié)合了小波與支持向量機模型的互補優(yōu)勢,同時克服了其各自的不足。但是,較少有學(xué)者把預(yù)測站點與其他站點的客流相關(guān)性放入預(yù)測模型中進(jìn)行綜合考慮。
本文以杭州地鐵西興站為例,考慮到站點之間客流的空間和時序相關(guān)性,利用主成分分析法(PCA)對通過AFC設(shè)備采集的歷史進(jìn)出站客流數(shù)據(jù)進(jìn)行特征提取,然后通過處理后的數(shù)據(jù)建立長短期記憶網(wǎng)絡(luò)(LSTM)短期客流預(yù)測模型并進(jìn)行模型有效性驗證。
1 短期客流預(yù)測
對城市軌道交通短期客流預(yù)測的研究能為突發(fā)性大客流的預(yù)防和列車調(diào)度的優(yōu)化提供有力的參考。現(xiàn)有的短期客流預(yù)測一般以15~60 min為時間粒度,指根據(jù)歷史客流和實時客流等數(shù)據(jù),利用客流預(yù)測模型,計算得到預(yù)測對象在15 min后的客流情況,若該數(shù)值超過行業(yè)規(guī)范或運營公司所給出的安全范圍,則相關(guān)運營部門和工作人員應(yīng)按照相應(yīng)的安全預(yù)案立刻開展行動,如通過廣播播報、入口限流等措施來保障車站以及站臺人流密度在安全范圍內(nèi),預(yù)防踩踏等危及乘客人身安全事件的發(fā)生,確保乘客的安全和列車的正常運營。而以60 min為時間粒度進(jìn)行客流預(yù)測,能夠為列車調(diào)度的優(yōu)化提供依據(jù),通過調(diào)整列車運行計劃提高運輸效率或節(jié)約運營成本。列車運行計劃的調(diào)整,一般情況下,并不能在15 min內(nèi)即刻完成。例如,根據(jù)客流需求的意外增長,某線路產(chǎn)生了加開一班列車的需求,調(diào)度部門需先結(jié)合原有排班計劃調(diào)整列車運行圖,再通過部門審批、車輛段對上線列車進(jìn)行準(zhǔn)備工作,還需通知司機等相關(guān)執(zhí)行人員等,整個過程需要30 min~1 h。因此,以1 h為長度對車站進(jìn)出站客流進(jìn)行預(yù)測,對列車運行實時優(yōu)化具有十分重要的意義。
2 PCA-LSTM預(yù)測模型
2.1 PCA特征提取
在實驗和研究的過程中,經(jīng)常會遇到這樣的情況,即對同一研究對象存在大量影響因素。越全面的數(shù)據(jù)確實能為實驗?zāi)康奶峁┰截S富的信息,但是同時也會提高模型的計算和訓(xùn)練時間。而且,許多變量之間可能存在較大的相關(guān)性或相似性。因此,盲目地增加變量可能會極大地加長運算時間,但是對研究目的產(chǎn)生的幫助甚微,而盲目地減少變量可能會損失重要的信息,影響結(jié)論的準(zhǔn)確性。
PCA法就是一種對多維數(shù)據(jù)進(jìn)行降維的數(shù)據(jù)預(yù)處理方法[7]。通過計算分析各維度數(shù)據(jù)之間的相關(guān)性,PCA法能去除多維數(shù)據(jù)中一部分不重要的特征,保留相對重要的那部分,從而使得數(shù)據(jù)更易于使用,提升計算速度。PCA法主要思想是將n維數(shù)據(jù)映射到k維上,且這k維的特征向量相互正交。特征向量的選取標(biāo)準(zhǔn)是取特征值最大的k個特征所對應(yīng)的特征向量,目的是使得這k為數(shù)據(jù)盡量多的保留原數(shù)據(jù)的特征,減少信息損失。新構(gòu)造的維度對原維度數(shù)據(jù)信息的反映一般通過方程貢獻(xiàn)率來衡量。一般會選取累計貢獻(xiàn)率為80%~95%的k維數(shù)據(jù)作為降維后數(shù)據(jù)。
在城市軌道交通客流預(yù)測研究中,歷史客流數(shù)據(jù)是進(jìn)行客流預(yù)測的最主要、也是最直接的依據(jù)。在對某一站點進(jìn)行客流預(yù)測時,一般該站點的歷史進(jìn)出站客流數(shù)據(jù)作為主要因素,再結(jié)合其他因素,作為預(yù)測模型的輸入。其實,除了預(yù)測站點自身的歷史客流數(shù)據(jù)外,同一線網(wǎng)中的其他的車站的客流進(jìn)出量也能為該車站的客流預(yù)測提供很好的參考。例如A站點在某時間段內(nèi)進(jìn)站客流的增加,有一定的可能性使得B站點在下一時間段的出站客流增加。再如,首發(fā)站點A站在這一時間段內(nèi)進(jìn)站客流增加較大,則其后續(xù)站點在之后的短時間內(nèi)進(jìn)站客流增加的概率較大。
然而,對大多數(shù)城市來說,整個地鐵線網(wǎng)的數(shù)據(jù)量過于龐大,就上海地鐵來說,一共有16條線路,共有415座車站(含2座磁懸浮線車站)。即使就單一一天地鐵線路來講,其站點數(shù)量也不少,例如杭州地鐵1號線,一共有34個車站。若使用所有站點的歷史進(jìn)出站數(shù)據(jù),會極大地提高計算復(fù)雜性和計算時間,導(dǎo)致計算機無法在有限時間內(nèi)給出相應(yīng)的預(yù)測結(jié)果。因此,為提高模型訓(xùn)練速度并降低計算復(fù)雜性,本文采用主成分分析方法對線路上的進(jìn)出站客流數(shù)據(jù)進(jìn)行降維。
選取杭州軌道交通一號線在2018年12月20日~ 2019年5月9日期間沿線各站點運營時段每小時(5:00~7:00時段數(shù)據(jù)合并為一個數(shù)據(jù))進(jìn)出站客流量作為實驗數(shù)據(jù)。把全天運營時間按順序劃分為20個時段,見表1,每時段采集一次線路上各站點的進(jìn)出站客流數(shù)據(jù)。一號線一共有34個車站,每個車站采集各時段進(jìn)站客流和出站客流兩組數(shù)據(jù),全線共有68組數(shù)據(jù)。同時,數(shù)據(jù)采集時段與各車站客流之間的關(guān)系非常密切,故將運營時段進(jìn)行編號后放入影響因素集中,詳見表1。此時數(shù)據(jù)集為69維。
選定某站點進(jìn)站或出站客流作為預(yù)測對象,文中隨機選擇了西興站出站客流作為預(yù)測目標(biāo),因此先從69維數(shù)據(jù)集中抽取出西興站的出站客流數(shù)據(jù)以備后用,將剩余的68維數(shù)據(jù)通過PCA法進(jìn)行降維,得到新的變量。根據(jù)方差貢獻(xiàn)率和累計貢獻(xiàn)率,從高到低,選擇主成分,將原來的68個變量壓縮成4個主成分,保留了原始數(shù)據(jù)約90%的信息,得到的主成分方差貢獻(xiàn)率和累計貢獻(xiàn)率見表2。
將西興站出站數(shù)據(jù)與降維得到的4個主成分?jǐn)?shù)據(jù)合并,得到維度為5的變量數(shù)據(jù)作為預(yù)測模型的輸入。
2.2 LSTM網(wǎng)絡(luò)
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,是為了解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)所存在的梯度易消失和長期記憶被遺忘的缺點而提出的[8-10]。RNN網(wǎng)絡(luò)主要由重復(fù)的神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行鏈?zhǔn)浇M合而成,每個模塊有2個輸入數(shù)據(jù)和2個輸出數(shù)據(jù)。LSTM網(wǎng)絡(luò)在RNN網(wǎng)絡(luò)的基礎(chǔ)上增加了一個輸入和一個輸出,內(nèi)部結(jié)構(gòu)也更為復(fù)雜精細(xì)。增加的這一路輸入和輸出稱為細(xì)胞狀態(tài),是LSTM實現(xiàn)狀態(tài)記憶和遺忘的主要結(jié)構(gòu),上面的信息與當(dāng)前狀態(tài)的輸入信息僅有2次線性交互,使得細(xì)胞狀態(tài)較容易保持穩(wěn)定,達(dá)到長期記憶的目的。
2.3 運用LSTM網(wǎng)絡(luò)進(jìn)行預(yù)測
2.3.1 參數(shù)配置
建立該LSTM網(wǎng)絡(luò)預(yù)測模型需要確定一些超參數(shù),包括輸入層的維數(shù)、隱藏層的層數(shù)與維數(shù)、時間步長以及輸出層的維數(shù)。
本實驗以西興站出站客流量為預(yù)測對象,將其歷史數(shù)據(jù)與PCA降維得到的4維變量數(shù)據(jù)一起作為LSTM網(wǎng)絡(luò)的輸入,該LSTM網(wǎng)絡(luò)輸入層維數(shù)為5。預(yù)測目標(biāo)為下一小時出站客流量,確定時間步長為1,輸出層維數(shù)為1。經(jīng)過多次嘗試,確定隱藏層為2層,第一層中神經(jīng)元數(shù)量為50個,第二層中神經(jīng)元數(shù)量為30個。選定Adam優(yōu)化器作為該LSTM網(wǎng)絡(luò)的優(yōu)化算法。
3 結(jié)束語
本文從同一地鐵線路上車站客流之間存在相關(guān)性這一角度出發(fā),設(shè)計了基于PCA-LSTM的城市軌道交通短時客流預(yù)測模型,采用了杭州地鐵一號線139天的進(jìn)出站客流數(shù)據(jù)進(jìn)行預(yù)測實驗。結(jié)果表明,該模型在對站點下一小時進(jìn)站客流量和出站客流量的預(yù)測方面具有較好的表現(xiàn),能夠為地鐵運營部門在實際的列車運行優(yōu)化和調(diào)度方面提供可靠的參考。該方法同樣適用于以15 min、30 min等其他時間粒度的短期客流預(yù)測。未來的研究工作可以考慮把天氣以及是否為工作日等其他因素加入到影響因素集中,從而進(jìn)一步提高模型的預(yù)測精度。
參考文獻(xiàn)
[1] 王奕, 徐瑞華. 基于周期時變特點的城市軌道交通短期客流預(yù)測研究[J]. 城市軌道交通研究, 2010, 13(1): 46.
[2]楊軍. 地鐵客流短期預(yù)測及客流疏散模擬研究 [D]. 北京:北京交通大學(xué), 2014.
[3]程浩, 徐昕. 基于BP神經(jīng)網(wǎng)絡(luò)的軌道客流短期預(yù)測 [J]. 電子技術(shù)與軟件工程, 2016(22): 15.
[4]侯晨煜, 孫暉, 周藝芳, 等. 基于神經(jīng)網(wǎng)絡(luò)的地鐵短時客流預(yù)測服務(wù) [J]. 小型微型計算機系統(tǒng), 2019, 40(1): 226.
[5]HAN Yong, WANG Shukang, REN Yibin, et al. Predicting station-level short-term passenger flow in a citywide metro network using spatiotemporal graph Convolutional Neural Networks [J]. ISPRS International Journal of Geo-Information, 2019, 8(6):243.
[6]SUN Yuxing, LENG Biao, GUAN Wei. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system [J]. Neurocomputing, 2015, 166:109.
[7]白亞男. 基于大數(shù)據(jù)的實時交通流預(yù)測方法研究 [D]. 廣州:廣東工業(yè)大學(xué), 2018.
[8]晏臻, 于重重, 韓璐, 等. 基于CNN+LSTM的短時交通流量預(yù)測方法 [J]. 計算機工程與設(shè)計, 2019, 40(9): 2620.
[9]張銘坤, 王昕. 基于GRU-RNN模型的城市主干道交通時間預(yù)測 [J]. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版), 2019, 34(4): 30.
[10]崔洪濤, 陳曉旭, 楊超, 等. 基于深度長短期記憶網(wǎng)絡(luò)的地鐵進(jìn)站客流預(yù)測 [J]. 城市軌道交通研究, 2019(9): 41.