基于客流大數據分析和支持向量回歸的地鐵乘客出行時間預測研究

2020-10-13 09:44:53陳東洋陳德旺陳開河

現代城市軌道交通 2020年9期

關鍵詞：模型

陳東洋陳德旺陳開河

摘要：隨著地鐵線網規模的擴大，地鐵客流大數據不斷產生并積累，其中包含大量信息。地鐵乘客出行時間是反映地鐵系統運行狀況和乘客滿意度的重要指標。傳統的地鐵乘客出行時間預測沒有充分利用客流大數據，因此有進一步提升空間。文章基于地鐵客流大數據，整理了大量乘客出行屬性和實際出行時間的數據集，并采用多種回歸模型建立地鐵乘客出行時間預測模型。結果表明：使用徑向基核函數的支持向量回歸模型預測效果最好，可較好應用于乘客出行時間預測，為乘客出行規劃及運營公司調度提供參考。

關鍵詞：地鐵;客流;大數據;支持向量回歸;乘客出行時間

中圖分類號：U231+.92

1 研究背景

地鐵在城市公共交通中發揮著越來越不可替代的作用，不僅方便了人們的生活，也緩解了城市日益嚴重的交通擁堵現象，是一種高效環保的可持續城市公共交通方式[1]。地鐵乘客出行時間的預測具有重要意義[2]，不僅能幫助乘客更好地規劃行程，而且能夠反映地鐵的運營狀況，為地鐵運行調度提供數據支撐，提高地鐵的運營效率。目前對于乘客出行時間的預測研究大都集中在公交、汽車或多種交通工具相結合的方向。

王群[3]結合卡爾曼濾波方法以及粒子群算法優化的支持向量機模型，建立了道路的旅行時間預測模型。You等[4]結合地理信息系統（GIS）技術建立一種混合行程時間預測模型，用于預測擁擠道路網絡中的路段行程時間。林永杰等[5]提出一種基于稀疏出租車全球定位系統（GPS）數據的大范圍城市路網出行時間估計方法，利用車輛的時空位置數據估算路段速度，進而得到路段旅行時間。沙云飛等[6]提出利用GPS數據對路段旅行時間和路段平均速度進行估計的算法，以描述路網的運行狀態。Zhou等[7]建立地鐵步行時間預測模型，推導乘客的等待時間和出行時間，為地鐵時刻表管理提供量化依據。Duan等[8]認為出行時間是旅客最為關心的問題之一，并使用長短期記憶人工神經網絡（LSTM）模型對出行時間進行預測。張威威等[9]選擇不同類型的LSTM神經網絡架構對道路旅行時間進行預測。Hinsbergen等[10]將貝葉斯推理理論與神經網絡算法相結合，對出行時間進行預測。王芳杰等[11]通過分析車輛、道路以及天氣等特征，建立基于LightGBM算法的公交車站點間行程時間預測模型。陳旭梅等[12]基于GPS數據，結合卡爾曼濾波與支持向量機模型，對快速公交系統（BRT）行程時間進行預測。

本文借助大數據分析技術，基于歷史客流大數據，并采用多種機器學習模型，挖掘地鐵乘客出行特征與出行時間之間的關系，實現對乘客出行時間的預測，為乘客出行規劃提供參考，為地鐵運營調度優化提供支撐。

2 數據簡介

2.1 數據來源

本文采用福州地鐵1號線的實際運營數據。福州地鐵1號線于2017年1月6日開通運營，線路總長24.89km，共設21個站點，全天運營時間為6 ： 30—23 ： 00，全程用時約45 min。選取2017年的刷卡數據作為實驗的數據集，為避免節假日的影響，從工作日以及周末數據集中隨機抽取了54萬條刷卡數據。

2.2 數據處理

原始數據中每條記錄包含乘客ID、卡類別、線路ID、進出站口ID、進出站設備ID、進出站時間、日期、票價等屬性。根據研究需求，先將數據進行預處理，刪除多余屬性，保留所需屬性。此外，乘客的部分出行屬性需要對原始屬性進行處理后才能得到。通過分析，最終選取日期、進站點、出站點、進站時間、理論運行時間、乘坐距離、發車間隔、實際出行時間用于乘客出行時間預測。

在預處理過程中，對日期以及車站等屬性采取編號的量化方式，將日期替換為1，2，…，7以表示該條記錄屬于星期幾（如“1”表示該條記錄屬于“星期一”）;將1 號線的21個站點分別按1，2，3，…，19，20，21編號表示，如表1所示。

同時為便于計算，將乘客的實際出行時間以及發車間隔等時間單位統一為秒，處理之后的部分數據如表2所示。

2.3 大數據平臺

地鐵客流大數據具有大量、高維、低價值密度等特點，采用常規的方法手段難以高效準確地進行客流數據的處理挖掘和提取數據中潛在的應用價值。因此本文借助于大數據平臺進行客流大數據的分析挖掘。

Spark是一個基于內存計算的大數據處理框架，可以將計算的中間結果保存在內存之中，這種方式避免了頻繁的文件讀取，加快了系統運行，因此適用于需要遞歸、迭代計算的數據挖掘算法中。

本文以spark大數據平臺為基礎，進行客流大數據的清洗、處理等，并以此為基礎進行地鐵乘客出行時間預測模型研究，提高模型的性能、效率。

3 回歸模型

回歸分析是數據挖掘的一種重要技術，其研究的是數據中自變量（輸入）與因變量（輸出）之間的關系，是一種預測性的建模技術。回歸分析技術通常用于數據的預測分析等方面。本文以客流大數據為基礎，選取多元線性回歸、支持向量回歸等幾種經典的回歸分析算法，建立地鐵乘客出行時間預測模型。

3.1 多元線性回歸模型

3.2 BP神經網絡模型

反向傳播（Back Propagation，BP）神經網絡是目前使用最廣泛的神經網絡模型之一，由Rumelhart等[14-15]于1986年正式提出。模型網絡分為輸入層、隱藏層、輸出層3部分，通過輸入的正向傳播以及誤差的反向傳播來綜合調整模型各個層的連接權重與閾值，并最終建立合適的模型。

圖1為BP神經網絡結構示意圖，該網絡的輸入層神經元、隱藏層神經元、輸出層神經元個數分別為d、q、l。其中輸入神經元 i 與隱藏神經元h 之間的連接權表示為 vih，隱藏神經元 h 與輸出神經元 j 之間的連接權表示為whj。隱藏神經元 h 的輸入為，輸出神經元j

的輸入為（其中 bh為隱藏神經元 h 的輸出）。

BP神經網絡模型在學習中需要學習的參數主要是各層之間的連接權值，以及隱藏層與輸出層的神經元閾值，算法的參數是在不斷的迭代學習中進行迭代更新的。

3.3 支持向量機回歸模型

支持向量機（Support Vector Machine，SVM）是一種經典的監督學習模型[16]。通過建立訓練集與類別標簽兩者之間存在的關系模型，從而預測新數據對應的類別。而處理回歸模型問題時可以采用支持向量回歸（Support Vector Regression，SVR）模型[17]。

SVR算法能夠較好的解決局部最優解問題，而且在樣本容量小時不會產生過擬合現象，相比其他方法有優勢。在實際應用中，核函數的選取也是影響SVR算法性能的重要因素，線性核、多項式核以及徑向基核是SVR算法常用的3種核函數，其中徑向基核函數在各種類型的數據中均可以適用，因此應用最為廣泛。

3.4 決策樹回歸模型

決策樹是常用的一種分類以及回歸模型，可根據需要構建相應的分類樹或回歸樹來解決問題。回歸樹就是將特征空間劃分成為多個單元，每個單元對應一個特定的輸出。算法根據某一標準來確定每一步的劃分點以及選取劃分點最優的閾值，并以此決定樣本在每個步驟所選取的路徑。首先在訓練集的輸入中，采用遞歸的方法將所有區域分為2個相互獨立的子區域，再確定每個子區域相應的輸出。回歸樹的構建步驟[18]如下。

3.5 算法性能指標

為描述算法結果的準確性，本文使用4個評價指標來綜合評價實驗結果，分別為：均方根誤差（Root Mean Square Error，RMSE）、平均相對誤差（Mean Absolute Percentage Error，MAPE）、平均絕對誤差（Mean Absolute Error，MAE）以及決定系數R2。對于包含n個樣本的數據集D ={（，y1），（，y2），…，（，yn）}，其中為輸入值對應的預測值，yi為輸入值對應的真實值，則RMSE、MAPE、MAE以及R2的計算公式如下：

RMSE能夠很好地衡量預測值和真實值之間的偏差，而MAPE則能夠很好地反映實驗中預測結果的準確度，MAE反映了預測結果的絕對誤差大小，對于這3個指標，值越小代表預測效果越好。R2則反映了輸入屬性對輸出屬性的可解釋程度以及該模型的擬合程度的優良，R2的取值區間為[0，1]，R2的值越大說明模型對輸入輸出屬性之間關系的擬合越好。

4 實驗結果

為使實驗結果更具有普遍性，本文將數據集劃分為4個部分，分別為數據集A、B、C、D，各數據集的數據量分別為4萬、10萬、15萬、25萬條。此外，對每個數據集隨機選取75%數據作為模型的訓練數據集，剩余的25%數據作為模型的測試數據集。

4.1 模型參數確定

由于部分模型需要根據實際情況確定模型關鍵參數，本文選取數據量適中的數據集C（15萬條）來進行前期的模型參數選取工作。

BP神經網絡輸入層的神經元個數為數據集的輸入屬性的維數，輸出層的神經元個數為數據集的輸出屬性的維數。因此在本文中，最終確定網絡的輸入神經元個數為7個，輸出神經元個數為1個。同時本文根據經驗公式（15）來進行隱藏神經元個數的確定。

式（15）中，n，l分別為輸入神經元個數、輸出神經元個數;α為隨機選取的1到10之間的某個常數;m為隱藏神經元個數。本文最終確定隱藏神經元個數為10個。

模型中損失值隨訓練次數變化情況如圖2所示，訓練6次及之后的損失值變化如圖3所示。

損失值在模型訓練40次之后趨于穩定，因此BP模型的訓練次數確定為40次。

決策樹模型中的關鍵參數為樹深，本文使用MAPE與R2作為評價標準確定樹深。模型訓練30次，每個樹深的MAPE與R2取值取30次訓練的平均值。圖4為MAPE平均值與R2平均值隨樹深增加的變化圖。

模型的MAPE以及R2都在樹深等于8時取最優值，此時MAPE = 13.01%，R2 = 0.8943，因此決策樹模型的樹深選取8。

4.2 實驗結果對比

為使實驗結果更具有一般性，本文將 4 種模型分別在A、B、C、D 4個數據集上進行30次實驗，每個模型的指標取相應數據集上30次結果的平均值。其中SVR模型選取線性核、多項式核、徑向基核3種核函數進行實驗。實驗結果對比如表3～表6所示。表中RMSE_AVG、MAPE_AVG、MAE_AVG、R2_AVG分別表示各模型在相應數據集上訓練30次的指標平均值，RMSE_MIN、MAPE_MIN、MAE_MIN、R2_MAX分別表示各模型在相應數據集上訓練30次中的最優值。

從表3～表6可見，在4個數據集的預測中，4個指標的平均值以及最優值表現效果最好的都為基于徑向基核函數的SVR模型，該模型的穩定性以及預測精度波動均優于其他模型。其在4個數據集上的MAPE平均值分別為12.92%、12.90%、12.82%、12.88%，相比其他模型的MAPE平均值降低了0.05%～0.36%，而MAPE的最優值分別為12.64%、12.74%、12.70%、12.70%，相比其他模型的MAPE最優值降低了0.09%～0.36%。

5 結論

本文主要基于客流大數據進行地鐵乘客出行時間預測模型研究，首先在大數據平臺上進行原始客流數據的處理，提取所需屬性，構建實驗所需數據集。并在此基礎上選取多元線性回歸、支持向量回歸、BP神經網絡以及決策樹共4種模型進行實驗。

對比實驗結果中各個指標，發現基于徑向基核函數的SVR模型預測精度最高，模型的穩定性最好，波動最小。其MAPE平均值相比其他模型降低了0.05%～0.36%，MAE平均值為133～135s，這對于乘客來說是完全可以承受的。說明使用徑向基核函數的SVR模型能夠較好的預測地鐵乘客的出行時間。

當然，本文考慮的一些因素有很多不足，在數據處理時對異常情況可能考慮不全面，對最終結果產生影響。在屬性選取時也沒有考慮天氣、客流等影響因素。在回歸模型的選取上也只選取了幾種模型進行比較，而且模型的參數也沒有進一步優化，還有很多有待改進的地方，誤差還有進一步縮小的空間。

參考文獻

[1]Yu Xue， Xue Mei， Youran Zhi， et al. Sub-health state identification method of subway door based on time series data mining[J]. Journal of Computer Applications， 2018（3）：905-910.

[2]Meilan Jiang， Takayuki Morikawa. Theoretical analysis on the variation of value of travel times avings[J]. Transportation Research， Part A （Policy and Practice），2004，38（8）：566-571.

[3]王群. 基于藍牙技術的城市道路短時旅行時間預測方法研究[D]. 上海：上海交通大學，2015.

[4]Jinsoo You， Tschangho John Kim. Development and evaluation of a hybrid travel time forecasting model[J]. Transportation Research Part C （Emerging Technologies）， 2000（8）：231-256.

[5]林永杰，鄒難，朱琳，等. 基于稀疏出租車GPS數據的大范圍城市路網旅行時間估計方法，中國，201510203390.7[P]. 2020-07-15. http：//d.wanfangdata.com.cn/patent/CN201510203390.7.

[6]沙云飛，曹瑾鑫，史其信. 基于GPS的路段旅行時間和速度估計算法研究[C]//中國智能交通年會，2005.

[7]Yuyang Zhou， Lin Yao， Yi Gong， et al. Time prediction model of subway transfer[J]. Springerplus，2016，5（1）：44.

[8]Yanjie Duan， Yisheng Lv， Fei-Yue Wang. Travel time prediction with LSTM neural network[C]//2016 IEEE 19th International Conference on Intelligent Transportation Systems（ITSC），2016.

[9]張威威，李瑞敏，謝中教. 基于深度學習的城市道路旅行時間預測[J]. 系統仿真學報，2017（10）：2309-2315，2322.

[10] Hinsbergen C P I V， Lint J W C V， Zuylen H J V. Bayesian committee of neural networks to predict travel times with confidence intervals[J]. Transportation Research Part C Emerging Technologies，2009，17（5）：498-509.

[11] 王芳杰，王福建，王雨晨，等. 基于LightGBM算法的公交行程時間預測[J]. 交通運輸系統工程與信息，2019，19（2）：120-125.

[12] 陳旭梅，龔輝波，王景楠，等. 基于SVM和Kalman濾波的BRT行程時間預測模型研究[J]. 交通運輸系統工程與信息，2012，12（4）：29-34.

[13] 王劭逸. 基于GCV方法的線性回歸模型嶺參數估計[D]. 安徽合肥：中國科學技術大學，2012.

[14] Rumelhart D E， Hinton G E， Williams R J. Learning internal representations by error propagation[M]. Netherlands，Amsterdam： Elsevier Inc，1988.

[15] Rumelhart D E， Hinton G E， Williams R J. Learning representations by back-propagating errors[J]. Nature， 1986，6088（323）：33-536.

[16] Chow D K T， Lee T L T. Image approximation and smoothing by support vector regression[C]// International Joint Conference， 2001.

[17] 田英杰. 支持向量回歸機及其應用研究[D]. 北京：中國農業大學，2005.

[18] 李航. 統計學習方法[M]. 北京：清華大學出版社， 2012.

收稿日期 2020-04-27

責任編輯胡姬