呂歡歡,張玉召
基于機器學習的地鐵列車牽引能耗預測研究
呂歡歡,張玉召
(蘭州交通大學 交通運輸學院,甘肅 蘭州 730070)
針對城市軌道交通運營管理過程中,準確預測列車牽引能耗有利于合理編制運營組織模式和評價用能效率。針對影響列車牽引能耗的因素繁多,傳統的數學回歸方法難以保證預測效果的問題,提出基于機器學習的牽引能耗預測方法,運用支持向量回歸(SVR)和隨機森林回歸(RFR)2種機器學習方法建立列車牽引能耗預測模型。選取影響能耗的6種可變因素,分別從單個可變因素和多個可變因素對地鐵能耗的影響進行分析;遍歷尋求最優參數組合;利用RFR模型對地鐵牽引能耗的影響因素進行重要度的排序,使影響因素的重要度得以量化描述;以北京地鐵昌平線真實運行能耗數據為例進行驗證,研究結果表明:SVR與RFR都表現穩定并能達到較高的預測精度。
城市軌道交通;牽引能耗預測;支持向量回歸;隨機森林回歸;能耗影響因素

地鐵作為城市的重要公共交通之一,由于其速度快、運量大、占地少等優點在各大城市得到快速發展。現階段城市地鐵網絡加速擴展,其能耗也隨之攀升。地鐵能耗的主要構成有車站設施設備運營能耗和列車運行能耗,其中列車運行過程中的牽引能耗占地鐵總能耗的一半以上。據統計,北京市地鐵用電量從2010年至2017年一直呈上升趨勢,其中列車牽引能耗電量占總能耗電量一半以上[1],如圖1所示。因此,地鐵牽引能耗預測這一研究備受關注。精準、快速的預測地鐵牽引能耗有利于合理設置線路條件、編制運輸組織模式,提高設備利用率,降低運營成本[2]。

圖1 北京地鐵2010~2017年牽引耗電量趨勢
地鐵牽引能耗量大,涉及影響因素眾多,國內外眾多學者從不同角度、利用不同方法對能耗預測或節能運行方面做了廣泛深入的研究,以提出更好的節能策略。Scheepmaker等[3?7]結合時刻表研究列車節能控制方法或建立節能優化模型,提出優化能源使用的決策或地鐵運營管理的節能方案。陳垚等[8]從列車屬性角度出發,通過分析不同列車屬性對牽引能耗的影響程度,得出不同列車在不同線路節能的適用性。宋文婷等[9?11]通過分析列車牽引特性、線路運行條件建立節能模型,綜合考慮了再生制動儲能及線路運行等條件,提出優化速度曲線、機車操縱或新的調度方法,并得到了預期的節能效果。楊臻明等[12?13]通過分析歷史數據構建多元線性回歸模型進行能耗預測從而提出優化運營調度、評價用能的依據。上述文獻對地鐵能耗預測研究和地鐵節能方面的研究,主要通過建立能耗解析模型、運用仿真驗證或分析歷史數據建立回歸模型等一些方法展開研究。然而,地鐵牽引能耗過程復雜、實際運行線路情況多變,影響牽引能耗的因素繁多且能耗與各因素之間呈非線性關系,采用以上方法可能會出現預測結果不夠精確或預測角度過于局限等問題。為充分考慮列車牽引能耗的影響因素,更精準地預測地鐵牽引能耗量,本文采用支持向量回歸(SVR)和隨機森林回歸(RFR)2種機器學習方法對地鐵能耗展開預測。這2種方法可以有效解決高維度、非線性條件下的數據問題,對數據集的適用范圍廣泛,數據集表現良好,不易出現過擬合現象,具有良好的準確率。并且,利用RFR可以對所選地鐵牽引能耗的影響因素進行重要度的排序,使影響因素的重要度得以量化,為運營組織工作的安排提供有力依據。
支持向量回歸(SVR)是以統計學為理論框架下的機器學習方法[14]。SVR的本質是求解凸二次規劃問題,其核心思想可以總結為以下幾點:
1) SVR是專門針對有限樣本情況的,其目標是得到現有數據下的最優解而不僅僅是樣本數趨于無窮大時的最優解;
2) SVR解決的是凸二次規劃問題,本質上來講得到的是全局最優解;
3) SVR將實際非線性問題轉化成高維度的特征空間,維數問題得以解決,具有較廣的適用范圍。
支持向量回歸機的算法步驟歸納為:
1) 給定訓練集
2) 選取適當的核函數(,′)以及適當的精度>0和懲罰參數>0;
3) 構造并求解凸二次規劃問題


得解:



5) 構造決策函數

隨機森林回歸(RFR)也是一種統計學理論機器學習方法。其最大優勢在于它既可用于回歸又可用于分類,易得每個特征對預測的相對重要性[15]。隨機森林的本質是通過創建隨機的決策樹,并使用這些決策樹構建較小的樹,隨后組成多決策樹模型,本方法可以防止多數情況下的過擬合。RFR算法步驟歸納如下。
1) 設隨機參數向量為,采用bootstrap方法重采樣,產生個隨機訓練集1,2,…,θ;從而生成對應的個決策樹{(,1),(,2)},…,{(, θ)};
2) 從維特征中選取個特征做當前節點的分裂特征集,并以最好的分列方式對節點分裂;
3) 使每個決策樹最大限度生長,不進行剪枝;
4) 假使一個新數據=,令權重向量為:ω(,);
5) 由給定的自變量=,得出單棵決策樹的預測值;
6) 由決策樹權重ω(,)取平均,得到每個觀測值的權重ω(),對所有單棵決策樹的觀測值得到隨機森林預測。
地鐵牽引能耗即地鐵列車在運行過程中所消耗的電能。地鐵牽引能耗影響因素的分類及其可變因素如表1所示[16]。

表1 地鐵牽引能耗影響因素的分類及其可變因素
本文研究將提取影響牽引能耗的6種主要可變因素展開預測,提取的影響因素分別是:運行時間,最大速度(與列車速度控制點有關),平均接觸網壓,運行里程,變化坡度值(與坡度轉換點有關),列車重量(影響勢能變化)。
所用到的數據來源于實際的北京地鐵昌平線真實實驗測試數據,具體為包括精確到0.2 s的地鐵的實時速度,實時運行距離,實時接觸網電壓,區間的限速,區間的坡度變化,采用的車輛類型,車輛的重量等,最后是具體到每個區間運行消耗的實際牽引能耗。
北京地鐵昌平線共包含12個站點,11個區間,測試數據包含3個月內接近1 000次區間的記錄數據,如圖2所示為其中西二旗至生命科學園區間列車運行情況。每個區間的記錄數在500~1 500左右,區間測試數據包含的部分信息如表2所示,每個區間的能耗匯總統計以下行方向為例,如表3所示。
提取列車在每個區間的運行時間、運行距離、最大速度和坡度變化值,對列車重量、區間供電網壓提取平均值,并對應每個區間的能耗如表4所示。其中,坡度變化值的計算方法:

則整個區間的坡度變化值為:

式(7)中:SC代表區間的坡度改變值;i代表區間的運行時間。

圖2 區間測試數據包含的部分信息

表2 原始數據中某一區間的數據信息(部分)

表3 昌平線某日測試的運行時間與能耗數據

表4 提取變量的數據信息(部分)
為了挖掘各種影響因素與牽引能耗的關系,本文從單個因素,多個因素與牽引能耗關系的角度出發,分別進行分析。
首先,對單個影響因素與牽引能耗關系趨勢進行分析,各分析結果如圖3~5所示。
1) 列車運行時間與牽引能耗的變化趨勢散點圖如圖3所示。

圖3 運行時間-能耗關系變化圖
牽引能耗隨著列車運行時間呈周期性變化,在周期范圍內隨著時間的增加能耗隨之下降。
2) 運行距離與牽引能耗的變化趨勢圖如圖4所示。
牽引能耗隨著運行距離呈周期性變化,在周期范圍內隨著運行距離的增加能耗隨之增加。
3) 坡度變化值與能耗的折線圖如圖5所示。

圖4 運行距離-能耗關系變化圖

圖5 坡度變化值-能耗關系變化圖
牽引能耗隨著坡度值變化呈周期性變化,在周期范圍內隨著坡度變換值的增加,能耗隨之增加。另外,列車運行最大速度、列車質量、平均網壓與能耗的關系變化趨勢在周期范圍內隨著自身量的增加能耗也隨之增加。
其次,對多個影響因素與牽引能耗關系趨勢進行分析,各分析圖示如圖6和7所示。得出地鐵牽引能耗與任意2個影響因素之間的關系復雜程度,由此可知能耗與眾多因素之間關系的復雜性,因此,本文充分考慮影響地鐵牽引能耗的主要可變因素,將其作為SVR和RFR的輸入,對列車牽引能耗進行預測。

圖6 運行時間-最大速度-能耗關系圖

圖7 最大速度-運行距離-能耗關系圖
將現有數據隨機采樣,數據總量的80%作為訓練,20%作為測試,并將訓練數據和測試數據進行標準化處理,以便消除不同因素之間的數量級的影響,接著利用交叉檢驗測試標定模型參數。
利用支持向量回歸預測時需要標定2個參數,即核函數,以及懲罰參數。核函數選擇綜合表現穩定的徑向基(RBF)核函數用于測試集進行測試,利用決策系數2進行評價模型的泛化精度,訓練過程如圖8所示。由圖中可以看出,當懲罰參數增大到20左右時,決策系數2增大到最大值,并保持穩定,所以懲罰參數取20,核函數參數取徑向基函數(=1)。最后,用于測試的樣本實際值與預測值的比較如圖9所示,部分預測值與實際值對比數據如表5所示,由圖9和表5所示預測結果表明,在最優參數條件下,能耗預測的平均誤差在2.1 kW?h左右收斂,SVR的預測精度達到96%(平均能耗46 kW?h,1-2.1/46*100%=96%)。

圖8 決策系數R2與懲罰參數C的變化過程

圖9 SVR的預測值與實際值比較圖
首先將提取的數據總量的80%作為訓練集,數據總量的20%作為測試集,并進行交叉檢驗測試標定參數,提高生成模型的泛化精度。其中參數標定過程:在隨機森林回歸算法中,需要標定3個重要的參數:決策樹數目(ntree),分裂屬性個數(mtry),葉節點最小樣本數(min sample leaf)。

表5 RFR實際值與預測值的對比(部分)
為驗證隨機森林回歸算法的收斂性,將決策樹數目設置為0~1 000,其收斂過程如圖10所示,可知所測試的平均誤差是逐漸收斂的。同樣,從0~10遍歷分裂屬性個數,如圖11所示,所測試的平均誤差也是收斂的。由于0~1 000棵數的遍歷時間較長,并且當決策樹數目為100左右時誤差已經收斂,進如圖12所示測試100 組樣本,發現平均誤差收斂在2.3 kW?h附近。

圖10 決策樹數目的收斂過程
為使預測精度達到最優,需要標定最優的參數組合,采取的方法是枚舉遍歷的方法。通過枚舉,mtry:1-10的收斂情況,發現不同分裂屬性個數mtry參數,誤差都能收斂。為使圖示看得清晰,選取收斂情況較好的參數,如圖13所示為選取當mtry=1,2和7時的收斂過程,可得最優的mtry=2。同樣,遍歷不同的葉節點最小樣本數,不同的葉節點參數,誤差同樣能收斂如圖14所示為選取當葉節點最小樣本數min leaf node=1,2,5和10時的收斂過程,可得最優的min leaf node=2。

圖11 不同分裂屬性個數組別下的收斂過程

圖12 多組測試下平均的收斂過程

圖13 不同mtry下的收斂過程

圖14 不同葉節點下的收斂過程
用于測試的100個樣本的實際與預測值的比較如圖15所示,其中部分預測與實際對比數據如表6所示。

圖15 RFR的預測值與實際值比較圖

表6 RFR實際值與預測值的對比(部分)
由圖15和表6所示預測結果表明,遍歷得到的在最優參數條件下,能耗預測的平均誤差在2.3 kW?h左右收斂,RFR預測精度達到95%(1-2.3/46* 100%=95%)。
利用選取最優參數下的RFR訓練算法對提取的6種因素進行重要度排序,如圖16所示,得出影響區間牽引能耗的因素重要度依次為站間距離、站間最大速度、站間運行時間、站間坡度變化值、平均供電網壓和車輛質量。

圖16 各影響因素的重要度排序
最后,通過實際值與預測值的對比可以發現,大部分預測結果與實際值相差較小,加之實驗數據本身存在一些異常值,以及讀取的能耗的精度只在整數范圍,所以,預測結果已具備較高的預測精度。
1) 準確預測城市軌道交通列車牽引能耗,對列車運營能耗評估與節能等有重要意義。影響地鐵牽引能耗的因素眾多,采用SVR和RFR的2種機器學習方法對地鐵能耗進行預測,可以有效處理多因素條件下的非線性關系問題,避免過擬合現象。
2) 利用SVR和RFR 兩者都可以有效解決高維度和非線性難題,并較好的預測列車牽引能耗量。通過北京地鐵真實運行能耗數據的實例驗證,2種預測方法都表現良好,平均誤差收斂在2.3 kW?h左右。當然,2種方法在預測精度和預測高效性具有各自的優勢。從預測精度分析,SVR較RFR的預測精度略高,但是,利用RFR可以得出影響牽引能耗因素的重要度排序,這是RFR的一個突出優勢。因為量化不同因素的重要程度,有助于運營組織工作過程中,對牽引能耗的節能策略有較好的側重。
[1] 劉小玲, 薛亮. 城市軌道交通節能問題研究[J]. 資源節約與環保, 2017, 23(1): 45?46. LIU Xiaoling, XUE Liang. Research on energy saving of urban rail transit[J]. Resource Conservation and Environmental Protection, 2017, 23(1): 45?46.
[2] González-Gil A, Palacin R, Batty P. Optimal energy management of urban rail systems: Key performance indicators[J]. Energy Conversion and Management, 2015, 90(1): 282?291.
[3] Scheepmaker Gerben M, Goverde Rob M P, Kroon Leo G. Review of energy-efficient train control and timetabling [J]. European Journal of Operational Research, 2017, 257(2): 355?376.
[4] YANG Songpo, WU Jianjun, YANG Xin, et al. Energy-efficient timetable and speed profile optimization with multi-phase speed limits: Theoretical analysis and application[J]. Applied Mathematical Modelling, 2018, 56(4): 32?50.
[5] 李佳杰, 柏赟, 邱宇, 等. 現代有軌電車時刻表與操縱節能協同優化[J]. 鐵道科學與工程學報, 2017, 14(7): 1552?1558. LI Jiajie, BAI Yun, QIU Yu, et al. Coordinated optimization of modern tram control and timetable for energy saving[J]. Journal of Railway Science and Engineering, 2017, 14(7): 1552?1558.
[6] YANG Xin, LI Xiang, NING Bin, et al. A survey on energy-efficient train operation for urban rail transit[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(1): 2?13.
[7] YANG Xin, LI Xiang, GAO Ziyou, et al. A cooperative scheduling model for timetable optimization in subway systems[J]. IEEE Transactions on Intelligent Transporta- tion Systems, 2013, 14(1): 438?447.
[8] 陳垚, 毛保華, 柏赟, 等. 列車屬性對城市軌道交通牽引能耗的影響及列車用能效率評價[J]. 中國鐵道科學, 2016, 37(2): 99?105. CHEN Yao, MAO Baohua, BAI Yun, et al. Impact of train characteristics on traction energy consumption of urban rail transit and evaluation on train energy efficiency[J]. China Railway Science, 2016, 37(2): 99? 105.
[9] 宋文婷, 譚覓, 蔡文川, 等. 高速列車的節能操縱策略研究[J]. 鐵道科學與工程學報, 2016, 13(3): 423?429. SONG Wenting, TAN Mi, CAI Wenchuan, et al. Research on energy-saving operation strategy for high-speed train[J]. Journal of Railway Science and Engineering, 2016, 13(3): 423?429.
[10] 曹佳峰, 劉斌. 基于2階段優化的高速列車節能運行仿真研究[J]. 鐵道科學與工程學報, 2018, 15(4): 821?828. CAO Jiafeng, LIU Bin. Research on simulation for energy-saving operation of high-speed trains based on two-stage optimization[J]. Journal of Railway Science and Engineering, 2018, 15(4): 821?828.
[11] YANG Xin, CHEN Anthony, LI Xing, et al. An energy-efficient scheduling approach to improve the utilization of regenerative energy for metro systems[J]. Transportation Research Part C, 2015, 57(8): 13?29.
[12] 楊臻明, 岳繼光, 王曉保, 等. 基于回歸模型的城市軌道交通能耗預測[J]. 城市軌道交通研究, 2010, 13(12): 22?25. YANG Zhenming, YUE Jiguang, WANG Xiaobao, et al. Prediction of urban rail transit power consumption based on regression model[J]. Urban Mass Transit, 2010, 13(12): 22?25.
[13] 劉鵬, 田瓊. 城市軌道交通列車牽引能耗分析[J]. 山東科學, 2012, 25(3): 7?11. LIU Peng, TIAN Qiong. Analysis of traction energy consumption of urban rail transit[J]. Shandong Science, 2012, 25(3): 7?11.
[14] 陳垚, 毛保華, 柏赟, 等. 基于支持向量回歸的地鐵牽引能耗預測[J]. 系統工程理論與實踐, 2016, 36(8): 2101?2107. CHEN Yao, MAO Baohua, BAI Yun, et al. Forecasting traction energy consumption of metro based on support vector regression[J]. Systems Engineering-Theory & Practice, 2016, 36(8): 2101?2107.
[15] 方匡南, 吳見彬, 朱建平, 等. 隨機森林方法研究綜述[J]. 統計與信息論壇, 2011, 26(3): 32?38. FANG Kuangnan, WU Jianbin, ZHU Jianping, et al. Review of research on random forest methods[J]. Statistics and Information Forum, 2011, 26(3): 32?37.
[16] González-Gil A, Palacin R, Batty P. A systems approach to reduce urban rail energy consumption[J]. Energy Conversion and Management, 2014, 80(4): 509?524.
Research on the prediction of traction energy-consumption of subway train based on machine learning
Lü Huanhuan, ZHANG Yuzhao
(School of Traffic and Transportation, Lanzhou Jiaotong University, Lanzhou 730070, China)
In the process of urban rail transit operation and management, a precise prediction of train traction energy-consumption is beneficial to the rational establishment of operation organization mode and evaluation of energy efficiency. However, the factors affecting the traction energy-consumption of trains are complex, and the traditional mathematical regression method is difficult to ensure the prediction effect. In this paper, a method for predicting traction energy-consumption based on machine learning was proposed. Two machine learning methods, Support Vector Regression (SVR) and Random Forest Regression (RFR), were utilized to establish the forecasting model of train traction energy-consumption. Firstly, six typical factors were selected. And, influences from both single and multiple factors were analyzed. Then, the optimal parameter combinations were searched with an enumerative method. In addition, the RFR model was utilized to rank the importance of factors influencing traction energy-consumption, so that the importance of the influencing factors can be quantified. Finally, the proposed method was verified by taking the real operation energy-consumption data of Beijing Metro Changping Line as an example. The results show that both SVR and RFR are stable and can achieve high prediction precision.
urban rail transit; traction energy-consumption prediction; support vector regression (SVR); random forest regression (RFR); energy-consumption influencing factor
U29-3
A
1672 ? 7029(2019)07? 1833 ? 09
10.19713/j.cnki.43?1423/u.2019.07.030
2018?10?10
國家自然科學基金資助項目(71761025);甘肅省高等學校科研資助項目(2018A-023)
張玉召(1981?),男,安徽碭山人,副教授,博士,從事軌道交通運輸組織與優化、客貨運技術與管理研究;E?mail:yuzhaozhang@126.com
(編輯 蔣學東)