佘振國,寧 靜,周 豆,關則彬
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
隨著鐵路安全監督管理信息化的逐步深入,鐵路信息系統建設覆蓋了事故調查處理、安全風險管理、應急救援、干部安全履職等各項安全管理業務,為鐵路安全監督管理業務的開展提供強有力的支撐[1]。但由于各應用系統分散建設,信息孤島眾多,信息共享困難,資源綜合利用水平不高。特別是經過多年系統運用,積累了海量的歷史數據,由于缺乏有效的技術手段及方法,大量有價值的信息難以挖掘和應用。
在大數據時代來臨之際,鐵路運輸安全運行和管理決策越來越依賴于數據分析,而數據來源的維度和深度直接影響了數據分析的結果[2],本文通過對大數據技術研究和安全管理應用實踐,提出鐵路運輸安全監督管理大數據應用(簡稱:安監大數據應用)的建設方案,以實現鐵路安全監督管理工作手段的創新,提高安全管理人員的監管效能。
(1)基于鐵路安全監督管理的業務需要,采用大數據和可視化技術,通過開展鐵路安全監督管理相關數據的規范匯集,提出安監大數據應用的總體技術方案,并開發原型應用系統;
(2)構建“大數據、大支撐、大安全”的安監大數據應用示范,逐步實現分級掌握整體安全狀態、便捷分析事故發展趨勢、安全風險預警、科學安全狀態評價和充分挖掘利用文本數據價值;
(3)創新鐵路安全監督管理工作手段,輔助安全管理決策,提升安全監管效能[3]。
基于大數據技術,利用鐵路內部服務網,依托中國國家鐵路集團有限公司(簡稱:國鐵集團)主數據中心的鐵路數據服務平臺,部署安監大數據應用。集成鐵路安全監督管理信息系統、鐵路局安全管理信息系統、鐵路局安全風險管理信息系統等相關系統的數據,支撐國鐵集團、鐵路局集團公司,實現安全規律分析、安全狀態評價和安全風險預警等應用。安監大數據應用總體架構如圖1 所示[4-5]。
安監大數據應用采用“一級部署,兩級應用”的策略,支撐國鐵集團和鐵路局集團公司兩級用戶終端的業務訪問及應用需要。建立完整的企業級安監大數據處理與應用環境,實現安監大數據應用的數據集成、數據存儲與分析、數據共享。

圖1 安監大數據應用總體架構
安監大數據應用需要集成的數據主要包括鐵路安全監督管理信息系統、鐵路局安全管理信息系統、鐵路局安全風險管理信息系統、專業檢測監測系統、專業設備檢修管理系統、鐵路主數據服務平臺、運輸集成平臺及其他相關信息系統的信息,數據接口如圖2 所示,接口數據總體構成如表1 所示。
安監大數據應用的功能架構如圖3 所示。
(1)事故輔助分析

圖2 安監大數據應用接口示意

表1 安監大數據應用接口列表

圖3 安監大數據應用功能架構
運用大數據文本分析技術,通過對非結構化的事故概況信息進行智能匹配,精準挖掘歷史同類事故案例,為事故調查處理提供輔助參考。同時,對歷史事故的調查報告進行格式化處理,對同類事故的原因進行挖掘分析,進一步精準地指導事故原因分析。
(2)事故故障專題分析
對高鐵或重點線路等重點關注對象的鐵路交通事故信息進行分布、趨勢、同比、環比等多維度、多層級的專題分析,包括各鐵路局集團公司事故分布、高鐵行車類事故分布、高鐵行車類事故發展趨勢、全路事故同期對比、全路事故各集團公司對比、事故按性質排序等功能模塊。
(3)事故趨勢分析
利用時間序列事故預測模型,從多角度對事故進行預測分析,結合歷史統計結果展示事故發生、發展趨勢。
(4)事故關聯分析
基于關聯分析模型,挖掘典型事故特征與事故之間的關聯關系;通過可視化手段,展現一定范圍內事故主要屬性特征之間的關聯規則,提示用戶哪些是多發事故的關鍵屬性,在事故發生時哪些屬性同時出現的概率較大,需要重點關注;提供按自然月、季度、年度、事故類型、專業、線路類型的關聯分析。
(5)外部環境隱患分析
對導致事故的鐵路范圍外安全隱患進行統計分析,實現突出性、規律性因素預警和趨勢分析。
(1)運輸企業安全狀態評價
參照國鐵集團、鐵路局集團公司安全考核管理辦法,建立針對鐵路局集團公司、站段的安全評價標準,基于綜合評判的安全狀態評價模型,綜合事故、故障、隱患等安全信息,同時考慮各運輸企業運量、管轄范圍等差異,定期給出各鐵路局集團公司和各站段安全狀態畫像[6]。
(2)專業安全狀態評價
建立針對專業的安全評價標準,基于綜合評判的安全狀態評價模型,綜合事故、故障、隱患等安全信息,定期給出各專業的安全狀態評價。
(1)設備風險評價
基于設備設施故障類風險評價模型,通過數據接入和人工錄入的方式采集評價模型相關數據,得到設備設施風險項點的風險值,展示評價結果[7]。
(2)作業風險評價
根據不同作業過程制定生產作業類風險評價模型,將某項作業作為評價對象,對其風險實施定性和定量評價。
(3)風險預警
按照風險庫層次,實現風險庫一級(人員、設備、環境)、二級、三級突出風險點預警;按照風險預警標準,對超限、頻發、持續發生的、呈上升趨勢的風險項點進行預警提示;由局部安全風險分析得到設備設施和生產作業的整體風險值,從而進行預警提示[8]。
(4)風險規律分析
依據鐵路運輸安全隱患排查登記信息和風險檢查寫實對安全風險的檢查情況,統計風險檢查在各單位、線路區段等區域的覆蓋率。提供重點區域、重點時間、專項檢查等主題的風險規律和趨勢分析[9]。
(1)鐵路事故故障全文檢索技術。面向事故調查報告文本,進行全文內容的搜索,利用倒排索引的方式存儲文本信息,并通過自然語言處理技術對原始文本和檢索文本進行分詞、詞頻統計、語義計算、相似度計算等,按照相關度排序將檢索結果呈現出來。
(2)基于深度學習的鐵路事故故障命名實體識別技術。通過命名實體識別技術提取事故故障文本中有關事故故障名稱、地點、原因、維修措施等鐵路事故故障特征[10]。
(3)不平衡事故故障文本分類技術。鐵路設備類型眾多且各設備故障機理不同,存在故障類別數據不平衡的問題,即絕大多數的文本屬于同一類故障,而其他故障只有少量的文本。本文從數據和算法兩方面來解決數據不平衡問題。數據層面主要通過更改數據集的樣本分布來實現數據的平衡,算法層面主要通過訓練多個分類器,利用分類器的差異性,通過Voting 方式實現不同分類器的集成學習。
(4)事故故障關聯分析與智能推薦技術。主要是分析鐵路事故故障之間、事故故障與原因之間的關聯關系,并實現事故故障和原因的智能推薦。
從事故調查處理樣本數據中選取安全管理中比較關注、錄入較規范的34 個屬性字段,對樣本數據進行完整性、合法性、規范性等方面的校驗和處理。結合事故數據的特點,對Apriori 關聯規則挖掘算法進行適應性修改,分析得到一段時期內發生的事故關鍵屬性的關聯性,為事故故障調查分析和有效防控提供技術支持。
基于保護層分析理論,提出鐵路行車設備故障風險量化評價模型,使用初始事件頻率、后果嚴重程度和獨立保護層失效頻率的數量級大小來計算表征場景的風險,為風險預警分析和精細化分級管控提供支持。某類設備故障造成危害的風險值計算公式如下:

受諸多因素影響,從歷史統計數據得到,由影響因素修正為:。
其中,參數E1為系統或操作不連續時的實際運行時間,針對設備故障類則指已使用年限;參數E2為是否正常按規定維修養護,如維修養護計劃兌現率等;參數E3為設備使用程度,如重載、客貨混跑、客運等需給予相應的權重;參數E4為設備使用環境惡劣程度,如在冰凍、雨雪、風沙等環境中運用的應給予相應的權重。
大數據技術的應用顯著提升了數據資源的統一管理、綜合分析和共享共用,針對鐵路安全管理系統建設和數據應用現狀,以及鐵路安全監督管理數據綜合分析的應用需求,本文研究設計了鐵路運輸安全監督管理大數據應用技術方案,集成事故、故障、隱患、風險等安全管理數據,運用自然語言處理與文本分析技術對歷史事故調查報告進行格式化處理,提取同類事故原因特征信息,輔助新發事故調查,采用事故特征關聯分析模型,發現事故關鍵屬性的關聯規律,基于保護層分析提出風險量化評價模型對設備故障類風險進行度量,推動了安全監督管理工作的科學化、精細化、智能化創新發展。今后,要結合安全監督管理業務應用場景需要,進一步挖掘數據的潛在價值,擴展風險量化模型的適用性,提升鐵路安全監督管理大數據綜合應用能力。