郭 淼
(中國鐵路武漢局集團有限公司 漢口車站,武漢 430000)
鐵路客運站客流量是鐵路行車組織中制定開行方案、編制列車運行圖和完成客流輸送的重要依據。準確預測大型客運站的客流量,有利于鐵路運輸部門根據車站客流變化趨勢和客流周期性特征,制定有效、經濟的開行方案,編制適應旅客出行需求的列車運行圖,實現鐵路大型客運站客流的高效、安全、及時輸送。
目前,國內關于鐵路客流預測方法已有不少研究,這些方法針對的預測對象各有不同。李麗輝[1]等人運用基于隨機森林回歸算法,建立高速鐵路短期客流預測模型,對京滬高速鐵路2015 年7、8 月份的下行客流進行預測,預測精度高達0.92;豆飛[2]等人建立鐵路客運專線的模糊K 近鄰(FKNN,fuzzy knearest neighbor)預測模型,并利用2011—2012 年中3 個月的短期客流數據,驗證預測模型的有效性;段然[3]等人針對節假日與非節假日2 種類型客流,分別采用波動系數模型及SARIMA 模型,對某鐵路車站的客流量進行預測。
本文采用支持向量回歸(SVR,Support Vector Regression)方法,以漢口樞紐站為例,研究將支持向量回歸方法應用于預測鐵路大型客運站客流量的效果。
支持向量機是一種二分類模型,其本質是在多維空間中找到一個超平面(例如二維空間中的直線和三維空間中的平面),來對需要研究的樣本進行分割,使得分割后的各子樣本間隔最大化,轉化為凸規劃問題進行求解。對于回歸問題,可引入支持向量機模型,對給定樣本D={(x1,y1),(x2,y2),···,(xn,yn)},求得一個回歸模型F(x)=ωT x+b,ω為決策面的法向量,b為決策面的位置,使得預測值F(x)與真實值yn之間盡可能接近。與傳統回歸模型不同,支持向量回歸引入“損失帶”的概念[4-5],設置一個可以接受的損失范圍,只要真實誤差不超過這一損失范圍,就不計入誤差。如圖1 所示,設真實值為F(x),設置一個不敏感損失(insensitive error,記為?),當樣本值落在區間[F(x)??,F(x)+?]之外時,其誤差才被計入。

圖1 支持向量回歸模型及其損失帶示意
按照統計理論,在分類或回歸預測時,可能存在經驗風險和結構風險,通過將其最小化的線性組合以確定其模型參數,可以得到SVR 的目標及規劃如式(1)[6]:

其中,αn及表示超過損失帶的上下方的損失,f表示真實值;ω及b表示超平面的法向量及截距;常數C為正則化系數;當p=2時,式(1)被稱為Tikhonov 正則化[7]。
在將該規劃問題從非線性函數轉化為線性可分問題的過程中,利用了內積運算實現將輸入映射到高維特征空間的一種簡化計算方式,支持向量機通過引入核方法,即定義映射函數內積為核函數,以避免內積的顯式計算問題,核函數一般包括有線性(Linear)核函數、多項式(Polynomial)核函數、徑向基(Radial Basis)核函數等[4]。
以漢口站為例,分析大型鐵路客運車站客流量隨時間變化的一般特點。漢口站是銜接我國橫縱2條主要干線—滬漢蓉大通道及京廣線的重要樞紐,現有接發列車銜接方向共計14 個,包括京廣漢口聯絡線上下行、合武上下行、漢口漢西聯絡線上下行、漢宜上下行、漢丹客車線上下行、武孝城際上下行、武孝京廣外繞線、武孝京廣聯絡線。漢口站集高速、普客、城際于一體,是武漢局集團公司直屬的一等客運站,車站分高架層、地面層、地下層3 層,站房面積7.6 萬m2,10 個高站臺,20 條股道,日均發送旅客9.1 萬人,最多可容納8 000 人同時候車,客服區域平面圖如圖2 所示。
采用漢口車站2017 年1 月1 日—12 月31 日日發送客流數據作為樣本數據集,進行時間變量與客流量的相關分析,研究漢口站的客流變化情況,如圖3 所示。
由圖3 可知,漢口車站的客流變化具有如下特點:
(1)年度客流呈現明顯的周期性波動,客流總體以7 日為一個周期,這主要是由工作日和非工作日客流種類的差異所造成的,工作日多為通勤、商務、公務客流,非工作日則多為旅游、探親客流;

圖2 漢口車站客服區域平面示意

圖3 漢口車站2017 年全年客流量變化情況
(2)長周期內因節假日出現大幅客流激增,呈現多個明顯的高峰,包括年初春運去返程客流2 次出行高峰、清明節出行高峰、勞動節出行高峰、端午節出行高峰、暑運出行高峰(表現出長期性,但峰值不高)、國慶出行高峰(年度出行最高峰)及年尾的元旦出行高峰;這些突發大客流與平時客流特點存在明顯差異。
采用2017 年1 月1 日—12 月31 日漢口站的日實際發送旅客人數數據共計365 條,以前70%作為訓練數據,后30%作為測試數據,應用支持向量回歸模型進行分析。
采用Python 3.6 軟件建模,IDE 為Pycharm 社區版,運行環境為:Microsoft Windows 8.1 (64 bit)Professional,Intel(R) Core(TM) i5-3230M CPU @ 2.60 GHz,8GM RAM。
考慮到原始數據呈現的非線性,如圖3 所示,采用徑向基作為支持向量機核函數。圖4 為漢口站使用SVR 模型的預測結果,訓練集與測試集由圖中的灰線區分,綠色曲線表示漢口車站真實發送客流量,紅色曲線為SVR 預測結果,藍色曲線表示預測值與真實值的絕對誤差。
由圖4 可知,因受節假日期間突發性大客流影響,由SVR 模型計算得到的漢口車站全年客流量預測值的誤差偏大。本文研究主要關注車站客流長期性、周期性變化進行預測,故將這些突發大客流作為噪點剔除。本文選擇將節日假期及節日假期開始前的一天,作為剔除點,包括春節(1 月13 日—30 日)、清明節(4 月1 日—4 日)、勞動節(4 月28 日—5 月1 日)、端午節(5 月27 日—5 月30 日)、國慶節(9 月29 日—10 月8 日)、元旦節(12 月29 日—12 月31 日),共計43 天。消除節假日期間突發大客流的影響后,得到預測結果如圖5 所示。

圖5 漢口車站全年客流量預測值及誤差(不含節假日)
使用平均絕對誤差(MAE,Mean Absolute Error)、均方根誤差(RMSE,Root Mean Square Error)、擬合度(R2,R-squared)3 個指標對SVR 模型的預測誤差進行量化分析析[8]:

其中,TSS為原始數據的固有方差,RSS為回歸預測值與實際值的殘差平方和。
表1 為基于SVR 模型、剔除節假日前后的漢口站發送客流量預測誤差對比,可知:排除節假日突發大客流的影響后,由SVR 模型計算得到車站發送客流量預測值的精度可明顯提高。
準確預測鐵路繁忙大型客運站的發送客流量有利于鐵路運輸部門充分考慮客流狀態及其變化情況,評估和優化車站人員及設備布置效果,完善客運規劃管理,為旅客出行提供更優質的服務。

表1 排除節假日前后的漢口站發送客流量預測誤差對比
以漢口車站2017 年全年發送客流量數據作為樣本數據集,應用支持向量回歸模型,對漢口車站全年客流量進行預測和誤差分析,在剔除節假日突發大客流的影響后,對車站日常客流量預測的精度明顯提高。