張俊 張欣愉 葉玉玲



摘? 要:在高速鐵路日常行車組織工作中,及時準確地把握高速鐵路非正常事件下的延誤特征和事件分級是后續(xù)運行調整決策的基礎。文章面對高速鐵路非正常事件擾動,基于多源歷史數據提取并分析初始延誤場景參數特征,篩選初始延誤時長和線路列車服務頻率作為兩個聚類指標,并應用輪廓系數論證FCM模糊聚類對當前場景的適用性。根據最終聚類結果,區(qū)間和車站非正常事件分別被聚為4類和3類。提出的聚類指標易于量化,非正常場景聚類分級結果能為實際延誤管理工作提供有效支撐。
關鍵詞:高速鐵路;非正常事件;延誤管理;場景分析;FCM聚類
中圖分類號:U292.4? ? 文獻標識碼:A
Abstract: During the daily train organization of high-speed railway(HSR), grasping the delay characteristics and event classification timely and accurately is the basis of subsequent rescheduling decisions. Faced with the disturbance of HSR abnormal events, this paper first extracts and analyzes the parameter characteristics under primary delay scenarios based on multi-source historical data, then selects the primary delay and line service frequency as two clustering indicators, and validates the applicability of Fuzzy C-Means(FCM)clustering to current context via silhouette coefficient. According to the final clustering results, the abnormal events of section and station have been classified into 4 levels and 3 levels respectively. The proposed clustering indicators are easy to quantify, and the clustering results of abnormal events can provide effective support for the actual work of delay management.
Key words: high-speed railway; abnormal event; delay management; scenarios analysis; FCM clustering
0? 引? 言
在高速鐵路網絡化運營發(fā)展背景下,列車、站點和線路之間的相互關聯(lián)性不斷加強,受運輸組織方案復雜性、實時列車調度動態(tài)性和場景因素的不確定性影響[1],日常運輸過程中的非正常事件不可避免。做好非正常事件的分級工作有助于完善延誤管理體系、輔助運行調整決策。現(xiàn)行鐵路相關規(guī)范標準主要依據傷亡人數、經濟損失、中斷行車時間等指標對突發(fā)事件進行了分級,但是這些標準多針對惡性強擾動的突發(fā)事件,而對于日常運輸組織過程中相對高頻弱擾動的非正常事件則不具備適用性。因此,開展高鐵非正常事件延誤場景聚類研究對提升日常運輸組織管理水平具有較為重要的現(xiàn)實意義。
高速鐵路非正常事件引起的列車運行延誤包括初始延誤和連帶延誤兩種[2],初始延誤為受非正常事件直接影響產生的時刻表偏差,連帶延誤則是在延誤傳播過程中為疏解行車沖突而產生的時間代價[3]。相關文獻表明連帶延誤與初始延誤場景特征之間存在一定的相關性[4-5],因此本文以高速鐵路非正常事件下的初始延誤場景為對象,研究初始延誤場景屬性參數的分布特征,綜合比選K-means、FCM模糊聚類和DPC密度聚類等聚類方法,分別對車站、區(qū)間非正常事件延誤場景進行聚類研究,實現(xiàn)延誤分級管理。
1? 數據采集
1.1? 數據來源
本文研究所需數據內容主要包括延誤信息數據和運行圖數據兩種。其中,非正常事件信息來源于高速鐵路安監(jiān)系統(tǒng)平臺相關數據,選取2018至2019年時段內部分高鐵線路的延誤記錄信息進行分析,延誤信息數據以文本形式記錄了產生非正常事件的線路、車次、位置、處置策略及實際影響等信息;運行圖數據則根據調圖文件獲取對應高鐵線路區(qū)段上的時刻表信息,主要用于提取初始延誤產生時刻對應的線路運輸服務狀況。
1.2? 數據預處理
(1)延誤信息數據處理
為便于后續(xù)聚類研究,需要有針對性地提取其中與初始延誤相關的參數,并對其中部分參數進行一定的修正。通過文本提取共篩選出以下6類屬性:
①所處線路:初始延誤所處的高鐵線路名稱;
②發(fā)生時刻:產生初始延誤的時刻,采用24h制;
③事件致因:造成非正常事件的原因,主要包括車載設備故障、車站設備設施故障、區(qū)間設備設施故障、異物入侵、環(huán)境影響、旅客異常和超員報警7類;
④事件位置:發(fā)生在車站或區(qū)間,0-1變量,0表示區(qū)間,1表示車站;
⑤應急措施:非正常事件發(fā)生后采取的應急措施,主要包括車站超停、車站臨停、區(qū)間臨停、始發(fā)晚點、局部限速、區(qū)間封鎖、投用熱備車組以及相關組合措施等;
⑥初始延誤時長:首列受非正常事件影響的車次產生初始延誤,不同于事件持續(xù)時長,單位:min。
(2)時刻表數據處理
時刻表數據主要用于提取初始延誤場景下的列車服務頻率(單位:列/h),結合前述延誤信息中的所處線路、發(fā)生時刻和事件位置,從既有時刻表信息中計算對應時空位置的列車服務頻率,形成對非正常事件延誤場景特征參數的補充。
2? 場景特征分析
2.1? 初始延誤分布
通過數據采集和處理,共獲取有效初始延誤場景樣本501條。在高速鐵路非正常事件初始延誤時長分布上,根據處理后的樣本數據可知該時長從1~175min不等。據統(tǒng)計,33.1%的初始延誤在10min以下,35.5%的初始延誤位于(10,20]min區(qū)間內,13.5%的初始延誤位于(20,30]min區(qū)間內,8.2%的初始延誤位于(30,40]min區(qū)間內,40min以上的初始延誤占比約9.6%。
2.2? 發(fā)生時刻及事件致因分布
綜合考慮非正常事件的發(fā)生時刻和事件致因進行分析。在發(fā)生時刻分布上,高速鐵路非正常事件多集中于8:00~20:00時段內,8:00之前以及20:00之后非正常事件的數量占比較少,同時在12:00~16:00時段內的平均初始延誤相對其他時段較高;在事件致因分布上,車載設備故障的發(fā)生概率最高,異物入侵、車站和區(qū)間設備設施故障的發(fā)生概率次之,其他事件致因的發(fā)生概率較小。
2.3? 發(fā)生位置及處置措施分布
在501起高速鐵路非正常事件樣本中,有303起分布在區(qū)間,占比約60.5%;有198起分布于車站,占比約39.5%。其中,區(qū)間非正常事件以采用區(qū)間臨停措施和區(qū)間臨停+局部限速組合措施這兩種為主,累計占比為81.4%;車站非正常事件以采用車站超停、始發(fā)晚點和區(qū)間臨停措施為主,累計占比約72.6%。
2.4? 事件致因與初始延誤相關性
對不同事件致因下的初始延誤影響進行分析,如表1所示。在7類非正常事件致因中,旅客異常和超員報警的發(fā)生概率最小,分別為1.2%和1%,對應的平均初始延誤也最低;環(huán)境影響導致的行車異常概率也極小,約為1.6%,但是其對應產生的平均初始延誤較高;車站設備設施故障和區(qū)間設備設施故障發(fā)生的概率較高,但前者產生的平均初始延誤高于后者;車載設備故障發(fā)生的概率最高,約為54.5%,對應的平均初始延誤較低。
3? 聚類方法比選
3.1? 聚類指標
從初始延誤場景特征參數集合中選取量化且獨立的數值型屬性作為聚類指標。已量化的參數有初始延誤、發(fā)生時刻、發(fā)生位置、服務頻率這4種,其中由于服務頻率是基于所處線路、發(fā)生時刻和事件位置綜合得出,因此剔除發(fā)生時刻指標,而發(fā)生位置為0-1邏輯變量,因此本文將分別針對區(qū)間和車站延誤場景,根據初始延誤時長和服務頻率指標進行二維聚類。
3.2? 聚類方法
為尋找適用于當前應用場景指標樣本集合的聚類方法,在對常用的K均值聚類(K-means)、模糊均值聚類(FCM)和密度峰值聚類(DPC)算法的適用性和優(yōu)缺點進行分析,如表2所示。其中FCM是對傳統(tǒng)K-means硬聚類算法的改進,兩者均屬于優(yōu)化迭代型算法;DPC則是屬于基于密度的空間聚類算法[6]。
3.3? 聚類方法適應性
(1)聚類輪廓系數
輪廓系數(Silhouette Coefficient)可用于對聚類方法及聚類數量合理性進行綜合驗證[7]。輪廓系數綜合考慮了各個分類簇的內部聚合程度以及不同簇之間的分離程度,可對不同聚類數目或聚類算法的結果優(yōu)劣進行評價。輪廓系數計算步驟如下:
①對于分類結果,根據所采用的距離公式計算樣本i到同簇C中其他樣本的平均距離a,即樣本i的簇內不相似度;
②計算樣本i與其他簇C中所有包含樣本的平均距離b,即樣本i的與簇C的不相似度,進而可得樣本i的簇間不相似度b,計算公式如下:
b=minb|j=1,2,…,K? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
③根據前兩步計算得出的樣本i的簇內不相似度a和簇間不相似度b,則樣本i的輪廓系數S為:
=?圯s=? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
(2)聚類方法適應性
根據輪廓系數對樣本i的聚類結果合理性進行分析。若s越接近于1,表明樣本i的分類越合理;若s越接近-1,表明樣本i越應當歸類至其他簇C中。以區(qū)間非正常事件樣本進行測試分析可得,對于K-means和FCM而言,聚類數為4時的樣本輪廓系數中的負值數量及數值大小均低于聚類數為5時的樣本輪廓系數分布,對應的聚類效果也較優(yōu);同時根據兩種算法的輪廓系數分布可知,當聚類數量為4時,F(xiàn)CM的聚類效果優(yōu)于K-means聚類。對于DPC而言,由于部分孤點的存在導致不同類別的數量差異過大,且輪廓系數中的負值達到-0.65,從其輪廓系數分布表現(xiàn)來看不如K-means和FCM聚類,代表性FCM和DPC輪廓系數分布如圖1所示。綜上,選擇FCM作為高鐵延誤場景聚類算法。
4? 聚類結果分析
4.1? 初始延誤場景聚類
通過應用FCM聚類并結合輪廓系數分布驗證,樣本數據集中303起高速鐵路區(qū)間非正常事件被聚為4類,198起車站非正常事件被聚為3類。圖2展示了區(qū)間延誤場景的4類樣本數據的分布和迭代優(yōu)化過程,圖3展示了車站延誤場景下3類歸一化后樣本數據點的模糊隸屬度分布。
4.2? 非正常事件延誤場景聚類結果分析
如表3所示,對區(qū)間非正常事件而言,第4類、第1類和第2類的占比較高,對應的比例依次為37.3%、28.7%和25.7%;對車站非正常事件而言,第3類和第1類的占比均較高,對應的比例分別為41.9%和38.4%。在服務頻率和初始延誤的參數特征的取值分布上,各類型的非正常事件有著明顯不同于其他類型事件的主要分布區(qū)間,且不同類型非正常事件之間既互補又存在一定的交叉融合。高速鐵路非正常事件聚類結果如表3所示。
5? 結? 論
本文基于歷史非正常事件記錄,提取延誤場景相關的參數并分析相關特征分布,基于此篩選聚類指標并通過算法比選最終采用FCM進行聚類研究,分別分析了車站和區(qū)間各級非正常事件場景特征和行車影響,能為相關延誤預測和動態(tài)行車調度提供參考。
后續(xù)研究將進一步結合事故致因和應急措施細化延誤分級和特征識別工作,并對比基本運行圖和實際運行圖數據分析不同場景下的連帶延誤的傳播特性[8],以期充分解析高速鐵路列車延誤的傳播機理,并為動態(tài)列車調度提供輔助決策。
參考文獻:
[1] Goverde R M P. Railway timetable stability analysis using max-plus system theory[J]. Transportation Research Part B: Methodological, 2007,41(2):179-201.
[2] 袁志明. 復雜線路列車晚點控制優(yōu)化策略及方法[D]. 北京:中國鐵道科學研究院(博士學位論文),2016.
[3] 文超,彭其淵,陳芋宏. 高速鐵路列車運行沖突機理[J]. 交通運輸工程學報,2012,12(2):119-126.
[4] Carey M, Kwieciński A. Stochastic approximation to the effects of headways on knock-on delays of trains[J]. Transportation Research Part B: Methodological, 1994,28(4):251-267.
[5] 張琦,陳峰,張濤,等. 高速鐵路列車連帶晚點的智能預測及特征識別[J]. 自動化學報,2019,45(12):2251-2259.
[6] 王洋,張桂珠. 自動確定聚類中心的密度峰值算法[J]. 計算機工程與應用,2018,54(8):137-142.
[7] 朱連江,馬炳先,趙學泉. 基于輪廓系數的聚類有效性分析[J]. 計算機應用,2010,30(S2):139-141.
[8] 孟令云,Goverde R M P. 基于實際數據分析的列車晚點傳播過程構建方法與實例[J]. 北京交通大學學報,2012,36(6):15-20.