朱元星
(中鐵十二局集團電氣化工程有限公司,天津 300308)
鐵路信號通信系統由多種設備和系統組成,這些設備系統分布在鐵路線路、車站、車輛及指揮中心等不同位置,形成龐大復雜的網絡。鐵路信號通信系統的故障處理涉及多個部門、人員,需進行故障發現、故障上報、故障定位、故障排除以及故障恢復等多個環節,涉及大量數據和信息的交換、協調。目前,鐵路信號通信系統的故障處理主要存在以下幾個問題。
(1)故障發現不及時。鐵路信號通信系統龐大復雜,人工巡檢、監測覆蓋率有限,很難做到對所有設備系統的全面實時監測,導致一些故障不能及時發現或漏報。
(2)故障診斷不準確。由于鐵路信號通信系統的多樣性和動態性,人工診斷需要依賴專業知識和經驗,很難做到對所有故障類型的精確識別和定位[1,2]。
(3)故障處理不高效。由于鐵路信號通信系統的分散性,人工處理需要依賴于多方的溝通和協作,很難做到對所有故障情況的快速響應和解決。
該系統總體架構分為數據采集層、數據處理層、數據挖掘層以及數據應用層,能夠實現對鐵路信號通信系統的實時監測、故障預警、故障診斷以及故障工單管理等。
數據采集層是通信故障預警的基礎,負責從鐵路信號通信系統中采集各種類型、格式的數據,反映鐵路信號系統的運行狀態、故障情況。
數據處理層是鐵路信號通信故障監測系統的核心,負責對數據采集層采集的原始數據進行清洗、轉換、整合及存儲等操作,確保數據符合分析應用要求。數據處理層采用多種技術處理數據,包括數據質量檢驗、數據格式轉換、數據融合、數據壓縮以及數據加密等,實現鐵路信號通信系統的高效管理。
數據挖掘層負責對數據處理層處理后的數據進行分析,挖掘出有價值的信息,為故障預警、診斷提供支持。數據挖掘層采用多種方法進行數據挖掘,包括統計分析、關聯分析、聚類分析、分類分析以及回歸分析等,實現對鐵路信號通信系統相關數據的深入挖掘。
數據應用層是鐵路信號通信故障監測系統的核心,負責將數據挖掘層挖掘出的信息應用到實際業務場景,為故障處理提供幫助,主要包括以下幾個功能模塊。
(1)通信故障預警模塊。利用數據挖掘層提供的信息,預測和預警鐵路信號通信系統中可能發生的故障,提前通知相關人員和部門,減少故障的影響與損失[3]。
(2)通信故障診斷模塊。根據數據挖掘層提供的數據,識別和定位鐵路信號通信系統中已經發生的故障,并給出故障的原因和解決方案,提高故障的處理效率和準確率。
(3)故障工單管理模塊?;跀祿诰驅犹峁┑男畔ⅲ涗浐透欒F路信號通信系統中的故障,生成和分配故障工單,協調和監督故障的處理過程,提升故障的處理質量和水平。
故障診斷通過篩選和分析通信專業子系統的預警數據,找出故障的原因和影響,實現業務預警監控分析、輔助故障診斷和故障處理。故障診斷流程如圖1 所示。

圖1 故障診斷流程
3.2.1 數據采集
數據采集涉及傳輸網、接入網、長期演進(Long Term Evolution,LTE)、動環以及調度等環節。傳輸網為負責傳輸各種信息的網絡,如光纖、微波、衛星等,能夠捕獲信息交互,生成運行參數數據;數據網為負責處理和存儲各種信息的網絡,如交換機、路由器、服務器等,能夠存儲故障報警數據和維修記錄數據;接入網為負責連接人員和設備的網絡,如電話、廣播、視頻等,能夠獲取信息交互,生成設備狀態數據、運行參數數據、故障報警數據等[4];LTE 為負責提供無線通信服務的網絡,如基站、核心網、終端等,能夠監測無線信息交互,生成設備狀態數據、運行參數數據、故障報警數據等;動環為負責提供動力和環境保障的設備,如電源、空調、防雷等,能夠監測設備的溫度、電壓、電流及振動等參數,生成設備狀態數據;調度為負責指揮和控制列車運行的部門,如調度員、調度臺、調度軟件等,能夠獲取列車運行控制信息,生成運行參數數據。
3.2.2 數據預處理
數據預處理的目的是提高數據的質量和可用性,消除數據中的噪聲、錯誤和不一致性,過程如下。
(1)數據清洗。對初步的預警數據進行修正,消除其中的異常值、缺失值、重復值和不一致值等。
(2)數據集成。將來自不同來源或格式的預警數據進行合并與統一,以形成一個完整和一致的預警數據集。
(3)數據降維。對預警數據進行壓縮或簡化,以減少其維度或規模,提高其效率和可解釋性。
(4)數據變換。對預警數據進行轉換或規范化[5]。
3.2.3 數據收斂
結合數據過濾規則、工程預警標記的方法對預處理后的標準化的大量預警數據進行收斂。具體來說包括以下幾個步驟。
第一步,根據預警過濾規則將不需要參與分析的預警數據直接過濾到歷史預警庫。預警過濾規則根據專業、網管、區域、設備類型、設備型號、預警名稱、預警等級、預警類型、預警對象以及預警發生的起始時間和結束時間等條件進行制定,還可以根據用戶的需求靈活配置。例如,過濾掉所有非通信故障類型的告警,只保留通信故障類型的告警。
第二步,通過重復預警數據收斂將限定時間內重復發送的同一預警濾除,只保留最初一條預警,記錄重復上報的次數、時間,以減少預警數據冗余。
第三步,通過標記故障預警數據,減少無效預警的干擾,提高維護人員的處理效率。主要考慮的2種故障預警標記場景為實時標記和事后標記。實時標記指提前在鐵路信號系統運行過程中實時標記故障預警;事后標記指事后錄入故障預警信息,點擊按鈕即可實現預警標記。
通過以上3 步實現故障預警數據收斂,計算不同故障情況下的預警數據收斂率。使用該收斂方法計算密集波分復用(Dense Wavelength Division Multiplexing,DWDM)光纜中斷故障和同步數字體系(Synchronous Digital Hierarchy,SDH)線路中斷故障情況下的預警數據收斂率,結果如表1 所示。從表1可以看出,該收斂方法能夠有效實現故障預警數據收斂,提高數據分析的應用效率。

表1 故障預警數據收斂率
3.2.4 數據相關性分析
數據相關性分析指對預警數據收斂層產生的中間數據進行分析和挖掘,提取出有價值的信息和知識,為故障預警提供依據。數據相關性分析的目的是探索預警數據之間的關系。
首先,制定相關性分析規則。相關性分析規則是根據專家處理故障經驗以及預警處理經驗故障案例庫制定的一系列規則。系統采用的4 種相關性分析規則為業務相關性、時間相關性、資源相關性以及事件相關性。
其次,應用相關性分析規則關聯分類預警收斂后的數據,自動識別出相關性預警組和不具有相關性的獨立預警。具體內容如下:一是業務相關性,根據業務承載鏈路經過的設備、端口、時隙信息,對同一個電路所涉及的時隙/端口的活躍預警進行歸組;二是時間相關性,根據預警發生的時間信息,對多個網元同時或者5 s 內發生的活躍預警進行歸組;三是資源相關性,根據預警對象存在的資源關系,如相同資源、上下級資源、資源承載以及復用段端口關系等,對當前活躍的預警進行歸組;四是事件相關性,根據預警名稱存在的相關性,如復用段遠端接收的失效指示MS_RDI 預警和對端站線路板發生的R_LOS、R_LOF、MS_AIS 預警等,并歸組當前活躍的預警。
最后,輸出相關性分析結果。根據應用的相關性分析規則,輸出關聯分類后的預警數據,包括相關性預警組和不具有相關性的獨立預警,同時輸出的結果可以為故障預警提供依據。
在通信故障預警數據采集、預處理過程中,通過數據相關性分析等方法獲取有價值的預警數據。之后,進行通信故障診斷,其目的是確定故障的類型、大小和位置以及故障檢測的時間。假設某一段鐵路發生軌道電路短路故障,導致軌道電路無法監測列車占用情況,影響綜合自動閉塞和自動列車控制子系統,該故障診斷過程如下。
(1)生成殘差信號?;谲壍离娐凡杉瘮祿?,通過模型或信號處理方法,得到反映各子系統偏離正常狀態的殘差信號。
(2)檢測故障。根據殘差信號,通過閾值判斷各子系統是否發生故障。例如,殘差信號超過閾值,則認為發生故障。
(3)識別故障。結合殘差信號或其他信息確定各子系統的故障類型。例如,使用決策樹、支持向量機等機器學習方法分類故障。
(4)定位故障。根據殘差信號或其他信息,通過關聯或圖挖掘方法,確定各子系統的故障位置和影響范圍。例如,可使用關聯規則挖掘、子圖匹配等圖挖掘方法分析軌道電路、綜合自動閉塞和自動列車控制子系統之間的拓撲結構及屬性變化,確定軌道電路短路故障是根源故障,而綜合自動閉塞和自動列車控制子系統的故障是衍生故障。
鐵路信號通信故障監測系統通過采集和分析信號通信故障預警數據,提前發現可能發生的故障,從而采取措施及時處理,保障信號通信系統的正常運行。通信故障監測的過程包括數據采集、數據預處理、相關性分析、故障診斷以及故障工單管理等。鐵路信號通信故障監測系統能夠提高鐵路信號通信的可靠性、穩定性,降低故障對業務的影響,提升運維效率。