王 緯
(中國鐵路鄭州局集團有限公司鄭州電務段,鄭州 450000)
信號系統網絡傳輸故障是信息設備維護人員日常設備維護與應急故障處理的重要方面,而網絡傳輸故障中網絡傳輸通道丟包類故障,具有時斷時續,時好時壞的故障現象。若長時間沒有找到故障原因,會造成通道信息擁堵與延時,進一步發展為網絡通道中斷故障,對鐵路行車運輸造成嚴重的影響。
網絡通道丟包故障具有很強的迷惑性與不確定性,對電務維護人員是一個不小的挑戰,如何能夠迅速找到故障原因并采取措施處理,將故障影響與延時降到最小顯得尤為重要。針對信號系統網絡通道丟包故障,筆者根據網絡通道故障處理的經驗,總結歸納出應急故障處理與日常維護檢查的3個重點方面,并且提出相應的維護建議。
2.1.1 TDCS/CTC系統路由器2T模塊接口線
鐵路局網絡管理中心系統顯示:管內隴海線商丘運轉場與商丘直通場CTC系統網絡通道A出現嚴重丟包、堵塞延遲,導致兩站間的網絡通道一會中斷延遲、一會恢復正常的故障現象。現場維護人員查看兩站的CTC設備指示燈狀態,未發現異常;中心維護人員從遠程分別登錄兩站的路由器A,查看端口工作狀態,發現對應端口物理狀態正常(up),而通信協議工作異常(down)。采取打環的方法進一步縮小故障范圍,對兩站分別打近端環,觀察端口信息均能看到環(looped)。但看到環并不意味著兩站站內信息設備網絡通道沒有丟包故障,這就是通道丟包與通道中斷故障處理的區別。進一步在兩站近端環進行Ping測試,對路由器相應S端口Ping,并按照通道接受最大的包容量進行通信測試,查看其丟包率。發現商丘直通場的丟包率較高,達到30%,遠遠超出正常范圍,初步判斷為商丘直通場站內CTC系統網絡傳輸丟包引起,將故障范圍縮小至商丘直通場站內CTC系統設備。
維護人員查看其CTC網絡傳輸設備,發現協議轉換器收發指示燈時而正常閃亮,時而有發無收,判斷可能為該站對商丘運轉場網絡通道A的協議轉換板卡性能不良導致,隨即更換該協議轉換器板卡,但網絡通道故障依舊。維護人員再次對CTC系統網絡傳輸設備進行仔細觀察、分析,通過對比,發現該站CTC系統路由器A的2T模塊上V.35線接頭與其他接頭相比,彎度略大且往外突出、有彎折。觸碰該V.35線接頭,并查看路由器A對應端口狀態,該端口通道進行Ping測試有時斷時續現象,通道傳輸質量(reliability)指數在255~170之間變化,說明該線頭存在接觸不良,導致該端口通道傳輸質量時好時壞直至通道中斷現象,隨即更換該端口V.35線,故障恢復正常,試驗良好,且再未發生故障。
2.1.2 TCC系統信號安全數據網ODF架光纖通道
管內鄭焦城際南陽寨站列控中心(TCC)維修機報警顯示:TCC與信號安全數據網A中斷10 s,且當天連續發生2次。由于TCC與信號安全數據網2次中斷10 s后均自動恢復正常,對行車未造成影響。
垂直天窗內,維護人員趕赴現場查看TCC網絡傳輸設備,其交換機、路由器、防火墻均工作正常,未發現異常。隨后查看該TCC系統與信號安全數據網之間的ODF光纖架,在觸碰該ODF架時, TCC維修機再次報警顯示其與信號安全數據網中斷,且10 s后自動恢復正常。隨后將故障范圍縮小至ODF光纖架。仔細觀察后發現,在ODF架底座的外邊側面處有一根光纖有略彎折痕跡,試驗拉開該ODF架底座均出現報警,確定為該光纖彎折后造成的性能不良,隨后配合相關通信人員更換該光纖后恢復正常,試驗良好。
綜上所述,針對線路接觸不良引起的網絡通道故障的維護建議:電務維護人員日常維護巡視中,應注意信號系統網絡傳輸設備的連接線處,如交換機上的網線、路由器2T模塊的接口線、協議轉換器的TX/RX同軸纜、ODF架光纖等。重點查看這些線路接口處與連線有無接觸不良,彎折損傷等,必要時可在垂直天窗內觸碰查看其網絡通道狀態,從而判斷該設備與線路性能,若發現異常,則應立即采取相應措施,避免對行車運輸造成嚴重影響。
2.2.1 路由器配置參數未擦除干凈
管內京廣線廣武站TDCS系統與相鄰車站東雙橋、焦作東TDCS的網絡通信,經常出現丟包、通道堵塞及延遲現象。由于都是與廣武站相鄰的車站TDCS系統發生此類丟包現象,首先查看廣武站TDCS系統設備狀態,均未發現異常情況。維護人員遠程登錄該站路由器,發現其路由器的各端口(S口與F口)配置與工作狀態均正常,未發現異常情況。進行Ping測試,丟包率一直很低;進行tracert測試,對其發送到相鄰車站目的地址的數據包進行追蹤,發現該數據包的傳輸路徑并未直接通過相連通道傳給鄰站,而是繞到相距較遠的幾個站后再到相鄰車站。
繼續深入分析,其沒有直接傳輸到鄰站而是繞一大圈后到達,有兩種可能:一是由于交換機設置有生成樹協議(STP),為防止網絡廣播風暴而對某條鏈路出現人為設置邏輯斷路情況;二是由于路由器內部的路由選擇協議中靜態路由部分設置有問題造成。
根據上述兩個基本判斷,先從簡單的路由器內部路由選擇協議查看,其路由器為思科(CISCO)2800系列,使用EIGRP路由選擇協議,其EIGRP內部具有靜態路由配置功能,通過設置靜態路由協議,可以使其在路由選擇和尋找最優路徑時節省大量時間與網絡資源,在TDCS/CTC網絡中具有優勢,因此廣泛采用。輸入“SH RUNNING”命令,查看路由器配置,對比中心備份的路由配置表發現,其EIGRP中,多出兩條靜態路由network配置語句。經過與車站IP地址表對比,發現多出兩條靜態路由network配置語句中的目的IP地址為鄭州南、小李莊站的IP地址,那么就會出現在與有些鄰站傳遞信息中,其路由路徑要走到鄭州南、小李莊站等后再回到廣武站,從而產生信息傳遞路徑過長,傳輸效率低、網絡通道偶爾出現丟包、甚至通道堵塞、延遲等現象。
進一步調查問題原因,判斷為對路由器內部配置時未擦除干凈所致,其原有的EIGRP協議中的靜態路由保存在新的路由協議中。針對此類問題,發現對某些CISCO路由器先進行輸入“Erase startup-config”擦除命令,然后輸入“reload”重啟命令,有時需要多次才能擦除干凈,只有維護人員確認該路由擦除干凈后,方可寫入新的配置文件。否則,就會出現上述故障現象。
2.2.2 路由器端口屬性設置不匹配
管內隴海線商丘站CTC系統發生通道數據包丟包率較高、甚至出現網絡通道堵塞、延時等情況,維護人員遠程登錄路由器,查看其端口“INPUT ERROR錯誤包”與“CRC校驗碼”兩項數值,數值較大且還在繼續增長,通道傳輸質量指數未達到255,表明通道連接不穩定,丟包率較高。查看對應端口的屬性與狀態,發現路由器F0/1端口配置的工作方式為半雙工模式(half-duplex),并非全雙工模式(full-duplex)。
隨后,維護人員通過將端口工作方式由半雙工模式改為全雙工模式后,其網絡通道通信良好,丟包率大大降低。
此外,TDCS/CTC系統中的交換機與路由器之間,其對應端口的工作方式不同(一方為半雙工、一方為全雙工)、端口速率不同(一方為100 M、一方為10 M),也會導致其出現網絡丟包現象。
綜上所述,針對路由器等傳輸設備配置錯誤引起的網絡通道故障的維護建議:交換機、路由器作為信號系統網絡傳輸與信息交換的核心,電務維護人員應該對其網絡配置的方法、標準化操作步驟及命令語言熟練掌握,制定相關交換機與路由器的標準化操作步驟,采取雙人配置作業方式進行,一人作業、一人盯控,確保網絡傳輸設備配置正確,工作正常。遇到突發故障,能通過查看路由器、交換機配置與端口屬性,迅速找到故障原因,采取應急措施恢復正常。
2.3.1 防火墻設置
管內京九線梁堤頭站至商丘北I場間下行線6655G軌道電路、商丘北II場至梁堤頭站間上行線6658G軌道電路瞬間出現紅光帶,并且相應的區間信號機出現紅閃狀態,說明梁堤頭站自律機接收不到801線路所區間信號機及區間軌道狀態,隨后又立即恢復正常。
維護人員通過查看CTC系統自律機日志確定故障原因為梁堤頭站自律機與801線路所自律機之間連接中斷,從而使商丘北I場、II場信息無法傳送到梁堤頭站,進一步調查研究,發現梁堤頭站自律機與801線路所自律機之間存在連接不穩定,即兩站自律機A環網絡存在丟包嚴重的情況。
維護人員登錄梁堤頭站路由器A,從路由器A上ping交換機A的A環地址,發現丟包嚴重,懷疑路由器A到交換機A之間線路存在問題。隨即將防火墻A甩開,再從路由器A上ping交換機A的A環地址,網絡正常,沒有丟包情況。綜上情況,確定為CTC系統防火墻A導致網絡丟包引起的故障。為了查清安全隱患,將段管內京九線8個站CTC系統的其余15臺防火墻一并發回廠家進行調查,初步懷疑為京九線8個站網絡安全策略與中心安全邊界系統兼容性與協調性存在問題。
2.3.2 網絡與信息安全
隨著 “棱鏡門”事件、勒索病毒(WannaCry)的全球性爆發及持續性的發酵,網絡與信息安全逐漸成為信號系統維護管理的重要方面。而網絡威脅、欺騙與分布式拒絕服務(Distributed Denial of Service,DDoS)攻擊均會造成信號系統網絡傳輸的中斷與信息完整性、保密性及可用性的破壞,嚴重的網絡攻擊甚至會造成整個信號系統網絡的癱瘓。
近幾年,全路已經出現多起因網絡與信息安全造成的案例,下面簡單介紹幾個典型案例:某鐵路局對殺毒軟件升級,該版本病毒庫將卡斯柯車站車務終端業務程序的daemon.exe程序作為木馬誤殺威脅予以清除,程序關閉后無法再啟動,導致大面積車務終端業務程序陸續出現異常;某鐵路局中心網絡爆發W32.Downadup病毒,大量終端網絡共享功能受到影響而不能使用,調度臺之間的數據共享調取失敗,只能通過手動調取,TDCS/CTC程序不能正常運行,網絡運行速度緩慢,大量終端服務器死機,影響行車2 h。
目前,在高速、普速線的CTC調度中心及各高鐵車站開通并啟用了網絡安全系統2.0,普速線CTC車站采取防火墻來對數據流量包進行訪問控制、包過濾等安全防范措施,而管內的TDCS 2.0以下系統幾乎沒有網絡安全防范設備。
在該段內信息設備車間生產維修中心搭建TDCS系統網絡安全模擬測試平臺,以段管內東雙橋與廣武站為測試案例,在現階段未安裝防火墻、入侵檢測系統等網絡安全防護設備前提下,在TDCS系統模擬測試平臺,使用NMAP、NETWOX、NETTAG與Wireshark軟 件, 先利用NMAP掃描設備端口狀態與信息,利用NETWOX、NETTAG等軟件,封裝發送偽造信息,進行IP地址欺騙、ARP欺騙、ICMP路由重定向攻擊及TCP SYN FLOOD拒絕服務攻擊,并利用Wireshark軟件查看網絡傳輸的數據流,最終各項欺騙與攻擊均成功實現,說明該系統存在嚴重的網絡安全隱患。
關于網絡安全設備維護建議:第一,信號系統盡可能安裝相應的網絡安全設備,通過網絡安全硬件設備(防火墻、入侵檢測等)與防火墻、殺毒軟件等,保護信號系統網絡與信息安全,既有的網絡安全設備盡快升級到網絡安全系統2.0;第二,建立完善、全面、分層次化的信息安全制度管理與規范,建立相應的信息安全管理組織或機構,構建科學、嚴謹的信息安全管理制度,加強信息安全認知與人員任用控制的人員管理模式來達到提升安全的目的;第三,在有條件的情況下建立信號系統網絡信息安全模擬平臺,對防火墻、入侵檢測等網絡安全設備深入了解,在運用前先進行模擬測試,看是否能夠防范IP地址欺騙、ARP欺騙、ICMP路由重定向攻擊、TCP SYN FLOOD拒絕服務攻擊等網絡攻擊,建立完整、詳細的日志審查體系,確保網絡安全設備配置良好后,再進入現場進行安裝或升級。
信號系統網絡傳輸丟包故障,不僅有線路接口接觸不良、路由器配置或端口屬性不匹配等傳統問題,還要面臨防火墻的策略配置與兼容性、網絡欺騙、威脅與攻擊等新型問題,這對新時期的電務維護人員是挑戰也是機遇。在日益更新的信號系統技術面前,只有不斷學習總結,探索研究才能為鐵路運輸保駕護航。