霍 豪,鄭長江,沈金星
基于近鄰和SVM的公交停靠時間預測
霍 豪,鄭長江,沈金星
(河海大學,土木與交通學院,南京 210098)
為提高公交行程時間預測的準確性,提升公交系統的整體服務水平,提出了一種公交車站點停靠時間預測模型。在考慮上下車人數、在車人數和天氣狀況等因素對公交停靠時間的影響下,采用訓練集樣本預篩選操作,分析樣本篩選過程中不同抽樣率對預測效果的影響,比較基于不同核函數的支持向量機在預測精度上的差異。選取佛山市301路公交線中有代表性的10個站點,用以檢驗基于近鄰的支持向量機模型的預測效果,并分析不同站點的特性。試驗結果表明,所提出的模型可以達到較高的預測精度,決定系數為0.4255,均方根誤差為9.4737,且計算時間與不進行預篩選時相比,降低約40%。訓練集數據的預篩選過程可以縮短模型的計算時間并且降低預測誤差,而基于線性核函數的支持向量機比基于其他核函數的預測效果更好。
交通工程;預測模型;支持向量機;停靠時間;城市公交
在城市公共交通中,公交停靠時間對于評價公交系統的服務水平和服務質量[1, 2],以及分析交通網絡的穩定性[3, 4],均具有重要作用。從定量的角度,在客流量和發車頻率都較高的公交線路上,公交停靠時間占總行程時間的比例甚至達到26%[5]。可見,準確預測公交停靠時間對于合理有效地制定公交運行時刻表,提高公交出行的服務質量和吸引力具有重要意義。
公交停靠時間是指公交車為服務乘客而在公交站點處于靜止狀態的時間段長度,包括乘客上下車以及車輛開關門時間,是公交車輛行程時間的重要組成部分[6]。目前,已有多種方法被應用于公交停靠時間的預測中,Bertini等[7]基于上下車人數,提出了一種計算站點停靠時間的線性模型,作為預測行程時間的一部分。Jaiswal等[8]考慮了BRT車站站臺擁擠度和乘客在站臺的行走時間對車輛停靠時間的影響。Meng等[9]考慮了公交車在港灣式公交站停靠過程中,車輛、候車乘客和路肩車道上的交通狀況三者之間相互作用所產生的隨機性對停靠時間的影響,并使用標準再生隨機過程對這種隨機性的概率分布進行模擬,取得了較好的預測效果。楊敏等[10]利用支持向量機(Support Vector Machine,SVM)在解決非線性回歸問題上的優勢,以及差分自回歸移動平均法(Autoregressive Integrated Moving Average,ARIMA)能體現停站時間的縱向時間相關性的特點,將兩種方法相結合對公交停靠時間進行預測,發現相較于單一的ARIMA模型或SVM模型,組合模型預測的平均相對百分誤差和均方誤差都有明顯降低。Bie等[6]研究了車內擁擠度對公交停靠時間的影響,發現相比于僅考慮上下車人數的停靠時間預測模型,加入擁擠度之后,預測的平均絕對誤差降低了137.51%。
交通系統復雜的內在聯系會造成公交停站時間的不確定性,這種不確定性很難用單純的線性模型進行擬合。現有文獻中對于公交運行時段的劃分往往根據經驗(如將早高峰時段定義為7:00~ 9:00),而沒有依據實際運行數據進行統計分析,這可能會造成數據狀態的劃分不準確;在考慮影響公交停靠時間的因素時,大多考慮的是交通內部因素,而對于天氣等影響乘客上下車過程的外部因素考慮較少。本文根據公交運行實際數據分析了客流的時間分布規律,并考慮天氣因素對停靠時間的影響。SVM模型中核函數的選取對于模型的訓練和最終的預測效果有重要影響,而以往的研究中[10, 11],作者往往依據經驗選擇某一核函數,沒有根據實際數據進行試驗和比較,這可能造成所選擇的核函數并非為特定數據條件下的最佳核函數,所以本文在運用SVM算法對歷史數據進行訓練時,比較了不同核函數的預測效果。此外,SVM具有適合小樣本預測的特性,為了解決其在樣本量過大的情況下訓練時間過長的問題,引入了訓練集樣本預篩選的過程。基于以上改進,本文提出一種新的公交停靠時間預測模型,并使用佛山市301路公交車輛的實際運營數據對模型進行驗證。







s.t.

支持向量機基于結構風險最小化原則,以最小化由訓練誤差和置信水平組成的泛化誤差的上界為目標,這是與經驗風險最小化原則的區別,后者只是將訓練誤差最小化。基于這一原理,SVM在解決許多機器學習問題時,通常比采用經驗風險最小化原則的方法具有更強的泛化能力。它的另一個關鍵特征在于,訓練SVM等價于求解一個線性約束的二次規劃問題,因此它的解總是唯一且全局最優的,而不是像神經網絡那樣需要非線性優化,且具有陷入局部極小的危險。在SVM中,問題的解決只依賴于訓練數據點的子集,這些數據點被稱為支持向量(Support Vector)。僅使用支持向量,可以得到與使用所有訓練數據點相同的解。但SVM的一個缺點在于,相對于訓練樣本的數量,它的訓練時間介于二次到三次之間。因此,當使用SVM解決大數據量的問題時,計算時間將會非常長[12]。
大規模的數據能夠為機器學習的過程提供更多有用的信息,更全面地揭示特征之間的內在關聯,但同時,隨著數據量的增大,與預測目標關聯性不強的數據也會增加,這會對預測模型的精度造成負面影響。
為了解決SVM在處理大數據量問題時訓練時間過長的問題,同時提高訓練數據與預測目標的關聯性,本文提出了基于近鄰的支持向量機(Support Vector Machine Based on Near Neighbors, SVMNN)預測模型。其包含兩個主要的過程:第一階段,用近鄰法對原始的訓練集數據進行預篩選;第二階段,運用SVM算法對篩選后的數據進行訓練和回歸預測。
首先,訓練集預篩選的目的是減少數據量,同時提高數據質量。數據質量可由訓練集和預測數據之間的相似度來衡量,而相似度通常由被比較對象在數據特征方面的距離來進行數值度量,訓練集數據與預測數據的距離越小,則相似度越高,其數據質量就越高。對于連續型變量,一種常用的距離度量方法是歐氏距離,本文即采用這一方法,公式為:

對于訓練集中的每一個樣本,計算其與測試集樣本的距離值(當測試集有多個樣本時,取平均值),再用下式計算得到每一個訓練集樣本被選擇的概率[14]:

將訓練集樣本與預測樣本的相似度作為適應度,用輪盤賭方法對預測模型的輸入樣本進行篩選。如圖1所示,其中1是與非常相似的樣本(歐式距離值非常小,被選擇的概率很大),因此1比2和3被選擇作為訓練集樣本的概率更高。

圖1 用輪盤賭方法對不同相似度的訓練樣本進行篩選
第二階段,用SVM算法對第一階段篩選出的訓練集樣本進行訓練,得到公交停靠時間預測模型,對測試樣本進行預測。
為了驗證SVMNN模型的預測效果,本文使用兩個指標對模型進行評價:決定系數(2)和均方根誤差()。2反映了回歸貢獻的相對程度,即在因變量的總變異中,回歸關系所能解釋的百分比,用來度量未來的樣本是否可能通過模型被很好地預測。2為1表示最好,其值越大(接近于1),表明所擬合的回歸方程越優。RMSE反映真實值與預測值的偏離程度,其值越小,說明預測誤差越小,預測越準確。這兩個指標的計算方法如下:


本文采用佛山市301路公交在2019年12月1~31日的站點停靠數據,數據字段包括:日期、線路名稱、線路方向、站點序號、到站時間、滯站時間、離站時間、上車人數、下車人數、在車人數。此外,通過網絡爬蟲技術,可以獲取佛山市2019年12月1~31日的天氣信息。以上字段中,“滯站時間”字段對應的數據即為模型的輸出。
城市道路交通運行狀態受時段的影響較大,工作日和非工作日、高峰期和平峰期的客流狀況有著明顯不同[15],這會導致公交車的停靠時間出現差異,所以預測公交停靠時間,應將工作日和非工作日分別考慮,并根據客流數據的統計分析,對公交車的運行時段進行劃分。佛山市301路公交下行方向(順德工業園總站—新滘)客流的統計結果如圖2所示(其中,橫坐標“6”對應的點代表6:00~7:00之間301路公交下行方向在2019年12月工作日或非工作日上車總人數的平均值,后面依此類推)。

圖2 公交客流時間分布圖
根據圖2的統計結果,可以將該公交線路的運行時段劃分為3類,如表1所示。

表1 公交車運行時段劃分
公交車停靠時間的影響因素主要有上下車人數、車內擁擠度、天氣狀況等。其中,大量研究表明,上下車人數是影響停靠時間的最重要因素[16, 17]。Bie等[6]則專門研究并證明了車內擁擠度對公交停靠時間的重要影響。而天氣狀況因素,包括是否下雨、風速值等,會影響乘客上下車的流率。例如,在下雨天,乘客上下車的過程伴隨著收傘和撐傘的過程,上下車流率會大大降低,而在現有的公交停靠時間預測研究中,似乎未見有考慮天氣因素的影響。
本文選取了上下車人數特征、在車人數特征和天氣特征數據,以此作為模型的輸入,加入到模型的訓練過程中。部分天氣數據如表2所示,其中,H_temp代表當日最高溫,L_temp代表當日最低溫,weather代表當日天氣狀況,wind代表風向和風速。觀察數據可發現,在該月,佛山市未出現雨天,故本文以“是否為晴天”對天氣狀況數據做二分處理(晴天為1,非晴天為0),由于該特征對應的值為類別型變量,故進而對其進行獨熱編碼,以便做回歸預測;當月最高氣溫和最低氣溫十分穩定,故H_temp和L_temp不作為輸入特征;風速值對乘客的行動過程會造成影響,故作為特征信息加入特征序列。

表2 佛山市天氣信息

選取不同的訓練集樣本篩選率和SVM核函數對模型進行標定,得到數據試驗結果如圖3所示。試驗中選用的是301路公交在2019年12月所有工作日早高峰的下行方向站點停靠數據,共9 857條數據,將其中的80%(共7 885條)作為訓練集,20%(共1972條)作為測試集。
從圖3(a)可以看出,linear核函數在不同篩選率下都取得了3種核函數中最大的2值,且在篩選率為0.75時取得最大值,為0.425 5;圖3(b)中,linear核函數在不同篩選率下都取得了3種核函數中最小的值,且在篩選率為0.75時取得最小值,為9.473 7。
綜上所述,進行訓練集數據的預篩選能夠提高模型的預測精度,不僅如此,數據量的減少有助于縮短模型訓練時間,從而提高預測效率。在訓練數據預篩選階段使用0.75的抽樣率,在模型訓練階段使用linear核函數的SVM模型,可以取得最好的預測效果,本文即以這兩個取值對預測模型進行標定。

圖3 不同核函數和篩選率下的預測結果
現將SVMNN模型與原始SVM模型的預測結果和計算時間進行對比,結果如表3所示。

表3 不同模型的性能表現
針對表3中的結果進行分析,可發現,SVMNN模型在2和兩項評價指標上均優于SVM模型,其中,2提升了0.0018,降低了0.0147,這說明對訓練數據的預篩選能夠提高SVM模型的準確率,降低其預測誤差,也驗證了SVM模型在處理小樣本問題時更具優勢。模型的計算環境為6核2.6GHz處理器、16GB RAM,通過對比模型的計算時間可發現,SVMNN的計算時間遠短于SVM,降低了約40%,因為SVMNN經過數據的預篩選,其訓練集的樣本量只有SVM模型的75%,更少的訓練數據能帶來更短的模型計算時間。同時,被篩選出來的數據是與待預測樣本高度相似的數據,所以在縮短計算時間的同時,SVMNN模型還具備更好的預測效果。
選擇佛山市301路公交線中,在用地性質、周圍環境等方面具有代表性的10個站點,用已標定好的模型對這些站點分別進行公交停靠時間預測,比較不同性質的站點在不同時間段的預測結果。其中,WP(workday & peak period)代表工作日早高峰,WO(workday & off-peak)代表工作日平峰,NP(non-work day & peak period)代表非工作日早高峰,NO(non-work day & off-peak period)代表非工作日平峰。試驗結果如圖4所示。

圖4 不同站點和不同時間段的預測結果
從圖4(a)可以看出,第6站(歐洲工業園路口)和第10站(順德職院)的2值較高,這是因為第6站位于工業區,第10站位于學校區域,這兩個區域的公交客流規律性比較強,所以預測準確率比較高。而第30站(清暉園)和第37站(區疾控中心)2值較低,其中第30站位于風景區,客流量不規律,尤其在非工作日,人流量比較大,預測難度更高,正如圖中所示,NP和NO對應的2非常低;第37站位于醫院附近,人流量非常大,尤其在非工作日。從圖中可見,在4類時間段內,2均為負值,預測效果很不理想,尤其在NP和NO兩個非工作日狀態下,2甚至低于-1。
從圖4(b)中可以看出,第6站和第8站(豐田合誠配件廠)的最低,因為這兩個站點均位于工業區,通勤客流量比較大,上下車乘客的時間規律性比較強,預測難度較小。而第26站(美食城)和第30站在非工作日平峰期的值非常高,其中第26站位于商業區、第30站位于風景區,在非工作日平峰期出門購物和游玩的人流量相對較高,增加了預測的難度。
本文設計了一種基于近鄰和SVM的公交停靠時間預測模型,其中近鄰的作用在于提前篩選出與待預測樣本相似度較高的歷史樣本,SVM的作用在于對篩選后的樣本進行訓練,得到最終的預測模型。試驗結果表明,預篩選的過程可以縮短模型計算時間,同時提高最終的預測準確度,并且抽樣率為0.75時取得最好的預測效果。在SVM模型訓練階段,測試了不同核函數的預測效果,結果表明linear核函數的預測效果最好。
在實際應用中,該模型可以運用于公交到站時間預測系統。下一步研究工作中,將針對預測的實時性,融合不同算法進行互補。并對輸入特征進行相關性分析,篩選出有效特征,以降低預測模型的復雜度,提高公交停靠時間預測的精度和穩定性。
[1] MA X, LIU C, WEN H, et al. Understanding commuting patterns using transit smart card data[J]. Journal of Transit Geography, 2017, 58: 135-145.
[2] BIE Y, XIONG X, YAN Y, et al. Dynamic headway control for high-frequency bus line based on speed guidance and intersection signal adjustment[J]. Computer- Aided Civil and Infrastructure Engineering, 2020, 35 (1): 4-25.
[3] SZETO W Y, SOLAYAPPAN M, JIANG Y. Reliability- based transit assignment for congested stochastic transit networks[J]. Computer-Aided Civil and Infrastructure Engineering, 2011, 26 (4): 311-326.
[4] YAN Y, LIU Z, MENG Q, et al. Robust optimization model of bus transit network design with stochastic travel time[J]. Journal of Transportation Engineering, 2013, 139 (6): 625-634.
[5] RAJBHANDARI R, CHIEN S I, DANIEL J R. Estimation of bus dwell time with automatic passenger counter information[C]. Transportation Research Record: Journal of the Transportation Research Board, 2003, 1841 (1): 120-127.
[6] BIE Y M, WANG Y H, ZHANG L. Impact of carriage crowding level on bus dwell time: modelling and analysis[J]. Journal of Advanced Transportation, 2020, 2020: 1-11.
[7] BERTINI R L, EL-GENEIDY A M. Modelling transit trip time using archived bus dispatch system data[J]. Journal of Transportation Engineering-ASCE, 2004, 130 (1): 56-67.
[8] JAISWAL S, BUNKER J, FERREIRA L. Influence of platform walking on BRT station bus dwell time estimation:Australian analysis[J]. Journal of Transportation Engineering, 2010, 135 (12): 1173-1179.
[9] MENG Q, QU X B. Bus dwell time estimation at bus bays: a probabilistic approach[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 61-71.
[10] 楊敏, 丁劍, 王煒. 基于ARIMA-SVM模型的快速公交停站時間組合預測方法[J]. 東南大學學報: 自然科學版, 2016, 46 (3): 651-656.
[11] YU B, YANG Z Z, CHEN K, et al. Hybrid model for prediction of bus arrival times at next station[J]. Journal of Advanced Transportation, 2010, 44: 193-204.
[12] CAO L J, TAY F E H. Support vector machine with adaptive parameters in financial time series forecasting[J]. IEEE Transactions on Neural Networks, 2003, 14 (6): 1506-1518.
[13] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer, 2000.
[14] YU B, WANG H, SHAN W X, et al. Prediction of bus travel Time using random forests based on near neighbors[J]. Computer-Aided Civil and Infrastructure Engineering, 2017, 33 (4): 333-350.
[15] 童小龍, 盧冬生, 張騰, 等. 基于時間序列法的公交車站間行程時間預測模型研究[J]. 交通運輸工程與信息學報, 2017, 15 (4): 114-119, 126.
[16] MILKOVITS M. Modeling the factors affecting bus stop dwell time: use of automatic passenger counting, automatic fare counting, and automatic vehicle location data[C]. Transportation Research Record: Journal of the Transportation Research Board, 2008, 2072: 125-130.
[17] TIRACHINI A. Bus dwell time: the effect of different fare collection systems, bus floor level and age of passengers[J]. Transport Metrica A, 2013, 9 (1): 28-49.
Prediction of Bus Dwell Time Using Support Vector Machine Based on Near Neighbors
HUO Hao, ZHENG Chang-jiang, SHEN Jin-xing
(College of Civil and Transportation Engineering, Hohai University, Nanjing 210098, China)
To improve the accuracy of predicting bus travel times and the overall service level of a transit system, a bus dwell time prediction model is proposed in this study. Three contributing factors are considered: the number of boarding and alighting passengers, the number of passengers in a bus, and current weather conditions. A training set is selected in advance, and the effects of different selection rates and kernel functions on the prediction performance are analyzed. Ten typical stations on the No. 301 bus line in Foshan, China are chosen to test the prediction performance of the support vector machine based on near neighbors method, and the properties of each stop are analyzed. The results indicate that the proposed model achieves high accuracy, namely, an-square (2) value of 0.4255 and a root mean square error () of 9.4737. The computation time is reduced by approximately 40% as compared with the model without data preselection. The preselection process for the training data set can shorten the calculation time and reduce the prediction error. In addition, the support vector machine based on a linear kernel function performs better than those methods based on other kernel functions.
traffic engineering; prediction model; support vector machine; dwell time; urban bus
1672-4747(2021)03-0059-08
U491.1+4
A
10.19961/j.cnki.1672-4747.2020.11.001
2020-11-02
2020-12-24
2021-05-06
國家自然科學基金(51808187);江蘇自然科學基金(BK20170879);中央高校基本科研業務費專項資金(2019B13514);江蘇省博士后科研資助計劃項目(1701086B)
霍豪(1994—),男,碩士研究生,研究方向為基于大數據的公交行程時間預測,E-mail:huohaoreader@163.com
沈金星(1985—),男,博士,副教授,研究方向為基于數據驅動的多模式公交系統優化,E-mail:shenjx03@163.com
霍豪,鄭長江,沈金星. 基于近鄰和SVM的公交停靠時間預測[J]. 交通運輸工程與信息學報,2021, 19(3): 59-66.
HUO Hao, ZHENG Chang-jiang, SHEN Jin-xing. Prediction of Bus Dwell Time Using Support Vector Machine Based on Near Neighbors [J]. Journal of Transportation Engineering and Information, 2021, 19(3): 59-66.
(責任編輯:劉娉婷)