,, ,2
(1.浙江工業(yè)大學 智能交通聯(lián)合研究所, 杭州 310014 2.浙江科技學院 機械與汽車工程學院,杭州 310023)
基于LSTM的公共自行車服務點租還需求量預測
陸凱韜1,董紅召1,陳寧1,2
(1.浙江工業(yè)大學智能交通聯(lián)合研究所,杭州310014 2.浙江科技學院機械與汽車工程學院,杭州310023)
城市公共自行車系統(tǒng)(PBS)服務點自行車數(shù)量的再平衡是解決“租還車難”問題的關鍵,對服務點租還需求量的短時預測則是PBS再平衡的基礎;通過分析PBS租還需求的內外關聯(lián)影響因素,提出基于深度學習理論的LSTM(Long-Short Term Memory,長短時間記憶)單元的循環(huán)神經網絡(Recurrent Neural Network,RNN)服務點租還需求量預測模型,并通過區(qū)域PBS平均出行OD,對預測模型的輸入特征進行合理優(yōu)化,實現(xiàn)PBS服務點租還需求量的短時預測;以杭州市下沙PBS服務區(qū)為實驗對象,選取三組不同的輸入時間步長對預測模型進行實踐驗證,結果顯示:在選取的模型結構與輸入特征下,采用循環(huán)神經網絡對服務點租還需求量進行預測能夠比傳統(tǒng)前饋神經網絡在結果上更加接近實際值,并且精度較為滿意,表明了該預測方法可行有效。
公共自行車;租還需求量預測;平均出行距離;深度學習;長短時間記憶
公共自行車系統(tǒng)(public bike system,PBS)運行時依然存在借車時車已借完、還車時車位已滿[1]的現(xiàn)實問題,實現(xiàn)服務點租還需求量的準確預測,能夠為PBS建設和智能調度提供科學依據(jù),有助于打破“租還車難”這一桎梏。
國內外PBS租還需求量預測的研究,多集中在對用戶出行規(guī)律的分析和歷史租還數(shù)據(jù)的挖掘。董紅召[2]等人針對自然租賃需求,使用改進的Multi-Logit模型估算PBS分擔率從而預測服務點租還量;Regue[3]等人基于梯度推進機提出需求估算模型并構建了動態(tài)調度框架;楊飛[4]等人通過構建車輛轉移概率矩陣,建立站點重要度穩(wěn)態(tài)方程來預測借還需求量;林燕萍[5]等人采用ARIMR模型對高峰時段的需求量數(shù)據(jù)進行了擬合;Kaltenbrunner[6]等人從時間特性上分析了巴塞羅那PBS的動態(tài)特征并建立租借量估算模型。
PBS的租還需求量數(shù)據(jù)實際上是一個非線性的時間序列,以上研究通過概率回歸和非線性擬合等方式得到歷史數(shù)據(jù)的簡單映射,但沒有探究短時間內租還數(shù)據(jù)之間存在的時序聯(lián)系。深度學習[7]領域中的循環(huán)神經網絡(RNN)在學習具有內在依賴性的時序數(shù)據(jù)[8]時能夠產生對過去數(shù)據(jù)的記憶狀態(tài)。因此,研究了帶有LSTM單元的RNN對PBS服務點租還需求歷史數(shù)據(jù)進行學習的方法,從而實現(xiàn)服務點租還需求量的短時預測。
傳統(tǒng)的前饋神經網絡模型,在處理序列數(shù)據(jù)時不能利用過去信號的時間依賴關系分析數(shù)據(jù)特征,從而對未來信號產生不合理的預測。在RNN中,神經元的輸出可以在下一個時間戳直接作用到自身。設RNN在t時刻的輸入為xt,隱含層的輸出為ht,U和W分別為共享權值。通過前一步的隱含層狀態(tài)和當前時刻的輸入可以得出:
ht=sigmoid(Uxt+Wht-1)
(1)
其中:sigmoid為激活函數(shù)。即t時刻網絡的輸出結果是該時刻的輸入和所有歷史共同作用的結果,由此達到了對時間序列建模的目的。
基于循環(huán)反饋的特殊設計,RNN模型在理論上能夠利用任意長度的時間序列。然而,跟傳統(tǒng)神經網絡一樣,普通RNN在訓練中也存在梯度彌散(diffusion of gradients)現(xiàn)象。隨著時間的推移,先前時刻通過BPTT(Backpropagation Through Time)算法訓練產生的梯度在時間軸上的影響會逐漸消失。這樣一來,RNN就失去了利用長期歷史信息的能力。
為了解決這個問題,深度學習領域發(fā)展出了LSTM單元來代替普通RNN中的隱含層神經元。一個典型的LSTM單元如圖1所示,它包含一個(或多個)具有內部狀態(tài)的記憶細胞(Memory Cell)、一個輸入門(Input Gate)it、一個遺忘門(Forget Gate)ft和一個輸出門(Output Gate)ot。假設st為記憶細胞在t時刻的狀態(tài),則該LSTM單元在t時刻的計算過程可以如下表示:
(2)
其中:gt為輸入擠壓單元,Wxo和Who分別表示xt、ht-1與輸出門單元之間的權值矩陣,bo為輸出門單元的偏置,tanh為激活函數(shù)。至此,通過改變t時刻遺忘門單元ft的狀態(tài)(0或1),就可以達到控制網絡的隱含層輸出ht從而“記住”序列長期依賴信息的效果。

圖1 LSTM單元結構
用戶使用公共自行車出行的概率受天氣、季節(jié)、日期等多種外部因素的影響。表1為杭州市PBS典型服務點在不同外部影響因素下的日均租還總量。從表中可以看出,對于天氣和季節(jié)這兩類影響因素,雖然會對服務點的租還需求造成明顯影響,但是在對不同類型服務點的影響程度上表現(xiàn)一致;而日期類型影響因素對不同類型服務點產生的影響卻差別很大。在建立預測模型時,需要針對不同外部影響因素的作用特點進行分析消除。
服務點在下一時刻的租還需求量,不僅受到天氣、季節(jié)以及日期類型等外部因素的影響,同時也會受到來自系統(tǒng)內部其他服務點狀態(tài)的影響。一般情況下,從服務點i借出的自行
車,必定會在一段時間后歸還入另一個服務點j(或者依舊還入原來服務點i),從而影響該時段還入服務點的需求量;同樣的情況,當一個服務點的服務能力受限時(無車可借或者無空位可還),也會對同一時刻周圍服務點的租還需求量產生影響。對PBS內部租還需求關聯(lián)影響因素的分析,是建立預測模型的關鍵。
帶有LSTM單元的RNN(以下簡稱LSTM)不僅能夠對時序數(shù)據(jù)進行非線性映射,而且可以對一段時間內的輸入產生聯(lián)想,這對于挖掘PBS的租還需求特性有著重要作用。

(3)
然而,在PBS的實際運行過程中,并不是每兩個服務點都會產生直接租還關系,與服務點j產生直接租還關系的點大多數(shù)分布在以j為中心的某個區(qū)域范圍內,并且該范圍與城市居民的PBS出行習性有關,如圖2所示[9]。可以看出PBS的出行距離與出行人數(shù)服從正偏態(tài)分布(positive skewed distribution)。

(4)


表1 杭州PBS典型服務點日均租還總量

圖2 PBS出行距離統(tǒng)計曲線

ni=nr+2nR+1
(5)
RNN可以看成是在時間上展開的深度神經網絡(DNN),在處理時間序列問題時一般選擇經典的3層網絡模型,即只包含1個隱含層。采用經驗公式計算隱含層節(jié)點數(shù)為2ni+1。
為了增強模型的非線性擬合能力,LSTM的隱含層激活函數(shù)一般選用tanh。在損失函數(shù)和優(yōu)化方法的選擇上也需兼顧模型的收斂速度與預測準確性。時間序列回歸問題中一般選用均方誤差(Mean Squared Error,MSE)作為損失函數(shù);同時采用隨機梯度下降法[10](SGD)的改進方法RMSprop作為模型的優(yōu)化方法,以提高模型對內部參數(shù)的適應能力,加快運算速度。
以杭州市PBS下沙服務區(qū)為例,對預測模型進行實例驗證。基于地理信息系統(tǒng)(GIS)對歷史租還數(shù)據(jù)進行分析,計算出PBS平均出行OD為R=1.92 km;根據(jù)服務點用戶的使用習慣抽樣調查得到r=0.8 km。實驗使用Python語言、Keras深度學習庫實現(xiàn)了3層LSTM模型。
選取編號3618的服務點作為預測對象。如圖3所示即為該服務點租還需求受影響范圍,包含除自身外各類型服務點36個,其中范圍r內服務點14個,帶入式(5)計算得到ni=79,且nh=159。對這37個服務點6月份每天15:00~21:00長達6個小時的晚間出行時段租還數(shù)據(jù)進行處理,使用et∈{0,1,2}分別標定工作日、雙休日與法定節(jié)日。從這30天中隨機抽取10%作為驗證集,其余則作為訓練集,并在驗證集中選取一天進行預測結果的展示。將每個服務點的租還數(shù)據(jù)按10分鐘為一個最小時間步長進行分段,在模型訓練時分別以30、60和90分鐘作為輸入數(shù)據(jù)的時間步長,對未來30分鐘內服務點的租還需求量進行預測。

圖3 3618服務點租還需求受影響范圍
根據(jù)上文中選定的模型結構與學習策略,對處理好的數(shù)據(jù)進行1 000次迭代訓練。為了說明LSTM在PBS租還需求預測問題上的有效性,同時訓練了相同參數(shù)的FNN模型對租還量進行預測。
圖4~6分別為采用LSTM和FNN預測模型在30、60和90分鐘3種輸入時間步長下對下沙區(qū)3618服務點未來30分鐘內的租還需求量預測曲線,并以凈歸還量(歸還量與租借量的差值)為指標來評判模型的性能。其中X軸表示時間,從15:00~21:00,每隔30分鐘,依次取T=1,2,…,12,對應的Y值表示從15:00開始到當前時刻服務點的凈歸還量。

圖4 時間步長為30分鐘時的凈歸還量

圖5 時間步長為60分鐘時的凈歸還量

圖6 時間步長為90分鐘時的凈歸還量
從圖中可以看出,LSTM預測模型在三組不同輸入時間步長下的預測結果均與實際需求量更為接近,可為服務點車鎖比的預判提供參考。為了定量分析預測模型精度與優(yōu)越性,分別使用各時間步長下的訓練數(shù)據(jù)對兩個模型進行十折交叉驗證(10-fold cross-validation)計算相對誤差,結果如表2所示。LSTM在30分鐘輸入時間步長下的平均相對誤差為24%左右,并且隨著輸入時間步長的增加,平均相對誤差逐漸減小至接近20%,這正是LSTM對時序數(shù)據(jù)歷史依賴信息利用的體現(xiàn);而FNN只能停留在對輸入數(shù)據(jù)的非線性擬合,缺乏利用輸入時間步長的能力,在3種預測情況下的平均相對誤差始終維持在35%左右,無法根據(jù)短時間內區(qū)域服務點的租還關系對未來需求量進行預測。

表2 LSTM與FNN模型相對誤差比較
通過該預測模型還可以看出,地理位置相近的服務點,由于其受到的內外影響因素差別不大,故同一時刻的租還需求量也較為接近,在之后對3761服務點(與3618相距200 m)的租還需求量進行預測對比實驗時也得到了證明。
通過分析PBS租還需求影響因素,提出了采用帶有LSTM單元的RNN模型對服務點租還需求量進預測;同時基于城市PBS出行的平均OD對模型的輸入特征參數(shù)進優(yōu)化,最終建立起符合PBS運行特性的服務點租還需求預測模型。以杭州市PBS下沙服務區(qū)為例,使用提出的理論模型對服務點進行30分鐘租還需求量預測,并與實測數(shù)據(jù)進行對比。實驗結果表明,LSTM在處理PBS租還需求預測問題上的特征提取能力要明顯優(yōu)于相同參數(shù)下的FNN,且能夠得到相對精確的預測值,證明了該預測方法的科學性。在PBS的實際運營中應用此方法,可以為調運方案的生成與優(yōu)化提供實質性幫助,有效地減少“租還車難”問題的發(fā)生。
[1] 何 流, 李旭宏, 陳大偉,等. 公共自行車動態(tài)調度系統(tǒng)需求預測模型研究[J]. 武漢理工大學學報(交通科學與工程版),2013(2): 278-282.
[2] 董紅召, 吳滿金, 劉冬旭,等. 城市公共自行車系統(tǒng)自然租賃需求的估算方法[J].浙江大學學報(工學版), 2016,50(2): 265-270.
[3] Regue R, Recker W. Proactive vehicle routing with inferred demand to solve the bikesharing rebalancing problem [J]. Transportation Research Part E Logistics amp; Transportation Review, 2014, 72(C):192-209.
[4] 楊 飛, 黃奕慧, 譚玉龍. 基于馬爾科夫鏈的公共自行車站點供需預測方法[P]. 四川:CN104636828A,2015-05-20.
[5] 林燕平, 竇萬峰. 基于ARIMA模型的城市公共自行車需求量短期預測方法研究[J]. 南京師范大學學報(工程技術版),2016,03: 36-40.
[6] Kaltenbrunner A, Meza R, Grivolla J, et al. Urban cycles and mobility patterns: Exploring and predicting trends in a bicycle-based public transport system [J]. Pervasive amp; Mobile Computing, 2010, 6(4): 455-466.
[7] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7):1527-1554.
[8] Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[J]. 2013, 38(2003):6645-6649.
[9] 石曉風. 基于杭州經驗的集約型城市公共自行車系統(tǒng)規(guī)劃發(fā)展思路[D]. 杭州:浙江大學, 2010.
[10] 孫雙雙, 李 勝, 郭 毓,等. 基于梯度下降和二分法的移動機器人軌跡規(guī)劃方法[J]. 計算機測量與控制, 2016, 24(11): 201-203.
DemandPredictionforServicePointofPublicBicycleSystemBasedonLSTM
Lu Kaitao1, Dong Hongzhao1,Chen Ning1,2
(1.ITS Joint Research Institute, Zhejiang University of Technology, Hangzhou 310014, China; 2.School of Mechanical and Automotive Engineering, Zhejiang University of Science and Technology, Hangzhou 310023,China)
The problem of rebalancing bicycles between service points in urban public bicycle system (PBS) is a key issue in determining the service quality of PBS. Predicting the short-term ride demand of PBS service points plays an important role in the rebalancing problem. By analyzing the external and internal ride demand factors of PBS, the ride demand predicting model of service points based on recurrent neural network with long-short term memory unit, which comes from deep learning domain, is proposed. The features of this model are extracted and optimized by calculating the mean OD of from the PBS historical data.And finally achieved the short-term ride demand prediction of PBS service points.The experiment in Hangzhou PBS show that using the recurrent neural network to predict the ride demand for service points can be closer to the actual value than the traditional feed forward neural network in the result. And the accuracy of recurrent neural network is more satisfactory, which indicates the predicting method is feasible and effective.
public bicycle system;demand prediction;mean OD;deep learning;LSTM
2017-03-12;
2017-03-31。
國家自然科學基金(61273240);浙江省自然科學基金項目(LY17F030017)
陸凱韜(1991-),男,浙江湖州人,碩士研究生,主要從事公共自行車數(shù)據(jù)分析與智能調度方向的研究。
董紅召(1969-),男,教授,博士生導師,主要從事人工智能、智能交通車輛集成系統(tǒng)方向的研究。
1671-4598(2017)09-0178-04
10.16526/j.cnki.11-4762/tp.2017.09.046
TP181;U121
A