基于梯度提升決策樹級聯分類方法的城市軌道交通列車突發事件延誤時間預測*

2022-12-13 03:48:08歐冬秀張馨尹高博文吳宇森

城市軌道交通研究 2022年10期

歐冬秀張馨尹趙源張雷高博文吳宇森

(1.同濟大學交通運輸工程學院， 201804，上海； 2.上海市軌道交通結構耐久與系統安全重點實驗室， 201804，上海；3.上海軌道交通運營管理中心， 200070，上海； 4.上海自主智能無人系統科學中心， 201210，上海∥第一作者，教授)

城市居民日常出行對城市軌道交通的依賴毋庸置疑，而突發事件時有發生，經常致使列車延誤。據統計，某城市在2017年至2019年地鐵全線突發事故導致列車延誤5 min以上高達360次，某條單線延誤達67次，其中最長延誤時間達275 min，嚴重影響公眾出行體驗。為了減緩延誤影響，地鐵運營管理部門在信息平臺實時播報地鐵各條線路的運營情況和突發事件信息[1]，但現階段播報的預報延誤時間與實際延誤時間相比具有較大偏差。如某日某條線路預報延誤時間為10 min以上，而實際延誤時間長達128 min。精準的列車延誤時間估計不僅能為乘客提供直觀可信的地鐵實時信息便于其調整出行路線，而且還能為運營管理部門調整運維方案、部署清客和救援工作提供基礎數據支撐。因此，突發事故下地鐵列車延誤時間的預估研究對于提升地鐵信息化服務水平具有重要意義。

一方面，學者們正研究運用數據驅動的人工智能方式進行故障診斷，實現智能運維和狀態維修，從而降低故障發生率[2]；另一方面，學者們也在積極探索故障發生后降低列車延誤影響的方法和技術。列車延誤與設備維護、人員操作、外部環境、發生時段、客觀綜合等因素有關[3]。文獻[4]從單因素、時空維度等方面研究了事故類型、運營時間、區段等事件特征之間的關聯性，但未對事件特征與延誤時間的關聯性做深入分析。文獻[5]結合灰色模型和馬爾科夫模型預測了列車晚點時間。文獻[6-8]基于晚點列車運行數據進行了聚類分析，運用隨機森林模型、支持向量機預測各類晚點列車的晚點時間。文獻[9]構建了航班延誤特征，基于GBDT(梯度提升決策樹)對航班延誤進行分類預測。大量研究表明，分類預測方法能夠對列車晚點時間進行可靠預測。

地鐵事故數據具有低延誤數量多、高延誤數量少的特點，這種類別不平衡特性會影響機器學習算法的性能。對于類別不平衡數據集，文獻[10]基于欠采樣法提出基于自適應加權Bagging-GBDT分類算法，解決了數據集正負樣本數目不均衡導致的分類算法預測準確率低的問題。目前，對地鐵列車延誤的預測方法較少地考慮了事故數據集的類別不平衡性，因此，基于不平衡事故數據對列車延誤時間進行精細化預測的研究仍有待開展。

本文對地鐵事故互聯網發布數據和現場故障記錄數據進行融合，并挖掘日期、時段、線路類別、致因等事故特征，及其對列車延誤影響的關聯關系。基于事故數據的不均衡特征，采用隨機欠采樣方法建立了基于GBDT的級聯分類模型，并對突發事件引起的列車延誤時間進行分級預測。

1 城市軌道交通列車運營延誤影響及事故特征分析

為緩解突發事件影響，地鐵運營管理部門在站內、互聯網等多個平臺發布事故信息，內容大致如下：“上海軌道交通2號線因信號設備故障，世紀大道站至南京東路站區間列車限速運行，預計晚點10 min以上，請乘客們及時調整出行……”實際運營中，地鐵突發事件的播報延誤時間遠長于10 min，且通常無法準時恢復運營。據上海軌道交通2號線2017—2019年的統計數據，地鐵預報延誤時間均為20 min以上；平均實際延誤時間為29 min，最大實際延誤時間高達275 min。由此可見，突發事件的預報延誤時間和實際延誤時間存在較大偏差，且兩者偏差越大，對應急處置方案的制定和乘客引導的影響也越大。

如表1可見，軌道交通突發事件數據包含互聯網發布數據和現場故障記錄數據。互聯網發布的非結構化文本信息含有豐富的信息：“2018-01-15T 16:29:00，上海軌道交通1號線因信號設備故障,×站—×站區間列車限速運行，發車班次間隔延長,預計晚點15 min以上,請乘客們及時調整出行路徑，以免耽誤行程”“2018-01-15T16:49:00，1號線信號設備故障已排除，全線運營正在逐步恢復中，給您出行帶來不便，敬請諒解！”經文本抽取、挖掘等方法處理后獲取如下特征元素：日期d、時間h、線路編號l、預報延誤時間Dp、實際延誤時間Dr等。現場故障記錄數據包含如下特征元素：d、h、l、致因c、延誤時間D1、影響列車數q等。融合互聯網數據與現場數據兩個數據集，得到事故特征數據集：{d,h,l,c,Dp,Dr}。

表1 上海軌道交通1號線事故特征元素取值示例

2 GBDT級聯分類預測模型的建立

2.1 GBDT級聯分類預測模型

本文設計了一個面向不平衡數據的GBDT級聯分類預測模型。模型構建過程中，組合多個學習器f(x)構成層級分類器g(x)，串聯多個g(x)的正例輸出結果構成級聯分類器G(x)。

級聯分類器是在每層分類器設置不同閾值劃分樣本并進行分類訓練。若通過前一層分類器的測試樣本滿足下一層級閾值標準，則可進入下一層分類器測試，依次類推。

2.1.1 梯度劃分

按照事件Dr劃分“階梯”級別，設置層級時間標準ti，i∈[1,m]，m為層級數。判斷輸入的Dr與ti的關系，將事故數據按層級時間標準進行劃分。

2.1.2 層級分類器g(x)

2.1.2.1 面向不平衡數據的隨機欠采樣

將事故數據按層級時間標準劃分為負樣本和正樣本。事故數據表現出標簽不平衡的問題。采用隨機欠采樣方法實現正、負樣本平衡，具體方法為：對于每一層級i(i∈[1,m])，對數據進行隨機欠采樣，進而得到k個相互獨立的正負樣本平衡的數據集，每個數據集記為si,j(j為數據集編號)，訓練得到k個GBDT學習器fi,j(x)(i∈[1,m],j∈[1,k])，組合k個GBDT學習器的結果得到最終分類結果。

2.1.2.2 學習器f(x)

采用GBDT作為學習器f(x)，GBDT是一種基于CART(分類與回歸決策樹)的集成學習模型。該模型串行訓練1組弱學習器(CART決策樹)，將預測延誤時間逐步擬合逼近真實值。對于二分類模型，對樣本進行正、負分類，采用sigmoid函數計算得到類別[11]。

輸入樣本集為si,j=(x,yi),i∈[1,m],j∈[1,k]。其中，x為輸入特征,x={d,h,l,c}；yi為對應樣本x的實際延誤標簽。對第i層級含有n個樣本的數據集訓練學習器。GBDT模型f(x)的構建步驟如下：

步驟1 初始化學習器f(x)，并采用對數損失函數，調整決策樹參數使得損失函數L(yi,f(x))達到最小。

(1)

式中：

θ1——決策樹參數。

步驟2 利用損失函數的負梯度ri擬合殘差，調整決策樹的參數目標使損失函數達到最小，并更新模型f(x)。

(2)

式中：

θ2——決策樹參數。

步驟3 重復步驟2完成L-1次迭代，并通過sigmoid函數完成概率計算，實現類別判別。

(3)

式中：

θi——決策樹參數。

2.1.2.3 集成學習分類模型

以均等投票機制組合同類別且彼此之間無強關聯的學習器，如圖1所示。采用學習器進行二分類預測，則投票機制定義為：超過半數學習器及層級分類器輸出正例，即判定延誤時間大于該層級時間標準ti。則層級分類器gi(x)可表示為：

(4)

2.1.3 級聯分類器G(x)

級聯通過正例輸出串聯所有層級分類器，以實現多分類的效果。GBDT多分類即對含有多個分類標簽的樣本進行分類。相較于GBDT多分類，GBDT級聯分類預測模型在各層級分別進行類別數據的平衡處理，各層級之間彼此獨立，可以同時訓練。如圖2所示，當預測延誤時間大于該層級時間標準時，層級分類器預測輸出正例，進入下一層級分類器進行預測；若層級分類器預測輸出負例，則終止計算。通過正例串聯各層級分類器預測結果，得到預測延誤時間區間。

2.2 模型訓練與評測

2.2.1 模型訓練

確定合理的訓練集和測試集樣本量，在訓練集中通過有標簽的樣本來尋找1組使得損失函數取值最小的模型參數。模型參數主要包括GBDT框架參數φ(宏觀參數，包括基學習器的個數和權重縮減系數等)和CART決策樹參數θ(微觀參數，包括決策樹的深度、節點數及使用特征數量等參數)。采用網格搜索尋優方法對參數空間進行求解，并以對數似然損失函數作為評判標準，求得最佳模型參數。

2.2.2 預測結果評測

乘客對延誤時間具有一定容許度。定義nt為預測延誤時間zt與Dr之差同容許偏差ξ的大小關系。zt與Dr之差在ξ內為預測準確。則準確率Racc的計算公式為：

(5)

式中：

t——樣本編號，t∈[1,N]，N為樣本總數;

Dr,t——第t個樣本的實際延誤時間。

3 實例驗證

3.1 數據分析與處理

經數據清洗與融合，獲得某城市2017年1月1日至2019年12月31日地鐵事故互聯網數據與現場數據265條。為有效利用事故特征，本文將事故特征(事故日期、事故時段、事故線路、事故致因)進行細致劃分：事故日期劃分為工作日故障和非工作日故障；事故時間劃分為高峰期故障和非高峰期故障；事故致因主要劃分為車輛故障、通號故障、供電故障和客觀故障(包含運營組織、安全管理)。

事故線路采用K-means算法進行聚類。將事故線路分為事故高發線路、事故中發線路、事故低發線路等3類，見圖3。

如圖4所示，通過分析各事故特征下不同延誤時間的事故頻數，得到延誤時間與事故特征之間的相關性：取5 min作為延誤時間粒度，工作日事故延誤時間多為>5～20 min，非工作日事故延誤時間多為>5～15 min；高峰期事故延誤時間多為>5～20 min，非高峰期事故延誤時間多為>5～15 min；故障高發線路事故延誤時間多為>5～15 min，故障中發線路事故延誤時間多為>5～20 min，故障低發線路事故延誤時間多為>5～10 min；車輛故障延誤時間多為>5～20 min，通號故障延誤時間多為>5～15 min，供電故障和客觀故障延誤時間多為>5～20 min。

3.2 結果分析與模型評價

為平衡模型的復雜程度和有效性，本文選取層級數量m為3，層級基分類器個數k為3，地鐵運營部門播報延誤時間分別為10 min、15 min、20 min及以上(延誤時間為5 min以內未公示)，故設置每個層級時間標準分別為t1=10 min、t2=15 min、ta=20 min。將事故日期、事故時段、事故線路和事故致因等作為自變量，將實際延誤時間作為模型的因變量，即根據實際延誤時間是否大于t1、t2、t3，對其進行二分類轉換為y1、y2、y3。將數據集按8∶2劃分為訓練集和測試集，對模型進行訓練和測試。

模型訓練完成后，得到層級分類器的特征重要度，如圖5所示。由圖5可見，對事故延誤是否大于10 min的預測與事故日期和事故時段有較大關聯，對事故延誤是否大于15 min的預測與事故致因和事故時段的關聯程度較高。

為確定模型性能，將本文提出的GBDT級聯分類方法預測延誤時間與互聯網預報延誤時間、GBDT多分類方法預測延誤時間的準確率進行對比。GBDT多分類預測方法是將CART決策樹作為弱分類器，采取一對多策略，對每個類別訓練一定數量分類器，從而進行多分類預測。

乘客對延誤時間預測的容許偏差ξ={0,5,10,15}。對比不同ξ時互聯網預報、GBDT多分類方法、GBDT級聯分類方法下延誤時間的準確率，如圖6所示。由圖6可見，延誤時間在0～5 min容許偏差范圍內，GBDT級聯分類方法預測延誤時間的準確度較互聯網預報高20%～25%，較GBDT多分類方法的準確度高5%。延誤時間在10 min和15 min等較大容許偏差范圍內，GBDT級聯分類方法預測延誤時間的準確率達95%，且較互聯網預報準確率高5%～20%，較GBDT多分類方法準確度高5%～10%。但對于乘客在城市軌道交通實際運營中較高的服務品質需求，若延誤時間存在較大偏差，則很難被乘客接受。GBDT級聯分類模型進行了梯度劃分，并分層級對不平衡數據進行了隨機欠采樣，保證了數據類別的平衡性，有效改善了不平衡數據在分類預測問題中準確率低的問題。因此，相比GBDT多分類方法，GBDT級聯分類方法預測延誤時間的準確率得以提升。

4 結語

本文關聯融合了地鐵事故的互聯網數據和現場數據，并對數據特征進行了分析。基于事故數據聚類得出高發、中發、低發事故線路類型，以及事故延誤時間與事故日期、事故致因和事故時段的關聯程度較高。

本文所提出的GBDT級聯分類模型通過梯度劃分層級結合分層隨機欠采樣保證了事故數據類別的平衡性，改善了數據不平衡造成的分類預測不準確問題，并通過梯度級聯層級分類器精細化地預測了突發事件下的軌道交通延誤時間。該方法所預測的延誤時間在0～5 min容許偏差范圍內比互聯網預報的準確率提升了20%～25%，比GBDT多分類預測方法的準確率提升了5%，由此可見延誤時間預測準確率得到了顯著提升。

采用GBDT級聯分類方法預測延誤時間不僅能為乘客提供更為可信的地鐵實時信息，還能為地鐵運營管理部門調整運維方案、部署清客和救援等工作提供基礎數據支撐。后續可進一步引入成熟的實時數據處理軟件，實現地鐵線路延誤時間的在線預測。