沈 豐
(上海地鐵維護保障有限公司通號分公司,200235,上海 ∥ 助理工程師)
上海軌道交通2號線(以下簡為“2號線”)DTS(信號數據傳輸系統),在整個信號系統中負責集中站與集中站間的數據轉發、校驗和控制,猶如人體中的大動脈一般,起著至關重要的作用。2016年,2號線東延伸段(張江高科站—浦東國際機場站)的東環網DTS發生了數次故障。這些故障影響范圍大、面積廣,處理時間長,嚴重影響了運營秩序,并造成了不良的社會影響。
通過不斷改造、升級及優化,目前的環網系統速度快、容量大、性能相對穩定,信號傳輸的可靠性也有改善,但仍會發生故障。本文基于對DTS故障的分析,制定出合理、有效的預防維護措施及方法,以確保DTS的穩定與安全。
2號線信號系統通信線路由2個獨立工作的環網組成:徐涇東站至龍陽路站為西環網范圍,龍陽路站至浦東國際機場站為東環網范圍。
環網各節點(交換機)通過光纖直接串連在1條首尾相連的閉合環型通信線路中,只要任何1個節點發生故障,就有可能造成該環網的中斷或癱瘓。而在主備熱冗余環網(見圖1)中,即使其中1個環網發生了故障,信號系統也能迅速切換至正常環網繼續工作。為保證通信的穩定,2號線DTS采用主備熱冗余環網結構。其中,主環網為LAN A(局域網A),備環網為LAN B(局域網B),各站MOXA Switch交換機為中繼節點。

圖1 主備熱冗余環網結構示意圖
各站點中的NVLE(非安全邏輯仿真控制器)、SCW(人機對話工作站)、Rugged TerminalServer(終端服務器)及AP(無線訪問接入點)等設備,均通過交換機進行數據傳輸與轉換協議的處理(見圖2)。

圖2 2號線站點聯鎖設備通信連接示意圖
2號線DTS故障類型主要有:交換機閾值過高,造成交換機宕機;終端服務器串口數據異常,影響聯鎖通信等。
2.1.1 故障現象
在浦東機場站、創新中路站及川沙站等多個集中站,ATS(列車自動監控)面板顯示比實際滯后,控制中心調度員及車站值班員無法通過人工操作來干預。
2.1.2 故障分析
利用Wireshark抓包軟件對交換機通信數據進行長時間檢測發現,當交換機CPU(中央處理器)閾值≥90%時,通道內存在大量的RSTP(快速生成樹協議)廣播數據包。
使用FLUKE網絡分析儀長時間監測全網通信狀態,并匯總數據進行分析發現,大量的RSTP廣播數據包是造成交換機閾值過高的主要原因。這些數據包主要流經LAN A或LAN B交換機的1-8端口(連接屏蔽門終端服務器的端口)、4-1及4-2端口(連接環網主干道的端口)。
進一步分析發現:如MOXA PT7828交換機CPU閾值≥50%,則說明交換機處理的網絡數據量極大;當長時間閾值≥90%時,容易發生交換機宕機,從而使所有連接交換機的終端都無法通信;屏蔽門終端服務器發生異常,是交換機閾值過高的原因之一。
2.1.3 故障處理
當交換機閾值異常時,可開啟MOXA交換機的廣播風暴抑制功能。這一處理措施可抑制環網中廣播幀數量的急劇增加,從而有效緩解交換機閾值過高的現象。
環網中的屏蔽門終端服務器數量較多,其故障數也居高不下。由于屏蔽門終端服務器跨接LAN A與LAN B,并分布在全網的每個節點上,因此,屏蔽門終端服務器一旦發生故障,就會有較高的概率導致雙網同時發生故障,進而使信號系統癱瘓,形成極大安全隱患。對此提出割接屏蔽門終端服務器及AP至單網的解決方案:將廣蘭路站、創新中路站、川沙站、徐涇東站和虹橋2號航站樓站的屏蔽門終端服務器及AP割接至LAN A,將張江高科站、凌空路站、遠東大道站、海天三路站和浦東國際機場站的屏蔽門終端服務器及AP割接至LAN B。
長時間的運營效果顯示:通過開啟MOXA交換機網絡風暴抑制功能,優化網絡結構并將屏蔽門終端服務器與AP割接至單網后,再未發生過類似故障。
2.2.1 故障現象
2016年6月,2號線的多個集中站上行進路無法正常排列,聯鎖失去通信;創新中路集中站控制線切斷,相關聯鎖區域大范圍列車無速度碼,且人工無法干預操作等。經檢查,確診為創新中路60終端服務器串口數據異常故障。重置相關端口后,設備恢復正常運行。該故障造成列車晚點15 min。
2.2.2 故障分析
利用telnet遠程虛擬終端服務和要登入的終端服務器IP(互聯網協議)地址,觀察串口通信數據,發現聯鎖通信數據中斷。檢查聯鎖 CPU板的相應通信通道發現,聯鎖系統正常將數據轉發至聯鎖終端服務器,而終端服務器并未正常轉發,導致鄰站間聯鎖數據中斷,無法正常排列進路,區間內列車均收不到正常速度碼。
使用FLUKE網絡分析儀長時間監測聯鎖通信終端服務器。分析監測數據發現,聯鎖終端服務器發生了數據環繞現象。鄰站聯鎖系統通信數據通過RS 910終端服務器后,先進行協議轉換(RS 232串口通訊協議轉RJ 45網線TCP/IP協議),再基于安全型TCP/IP協議傳輸。可見,信號數據在傳輸前需經過TCP/IP三次握手。簡單來說,TCP/IP三次握手過程為:設備A先產生1個隨機序列號(Seq Number),并發送給設備B;設備B在序列號數值上加1形成確認號(ACK Number),并發給設備A,表示設備B已經收到設備A的發送請求,且允許通信;設備A收到正確的ACK Number后,再加1,并發送給設備B,完成TCP/IP三次握手。其中Seq Number是隨機產生的二進制數。Seq Number在達到上限后,如再加1,就歸位成0,進而形成數據環繞,無法完成TCP/IP三次握手,使通信中斷。
由上述分析可知,聯鎖通信終端服務器RS 910本身存在固件缺陷。這是導致鄰站聯鎖通信中斷的主要原因。
2.2.3 故障處理
將該故障現象及相應的大量數據報告遞送至供應商后,由供應商對固件升級補丁。該故障得以修復。
2.3.1 故障現象
2016年1月26日,2號線東環網DTS通信中斷故障,凌空路站61網段交換機宕機。此次故障造成凌空路站、遠東大道站和浦東國際機場站61網段的交換機、NVLE和終端服務器通信中斷。重啟凌空路61網段交換機后,設備恢復正常運行。
2.3.2 故障分析
2號線東環網60網段交換機邏輯連接示意圖如圖3所示。圖3中,張江高科站為master交換機,4-1端口為邏輯斷點(防止環網形成環路)。

圖3 2號線東環網60網段邏輯連接示意圖
2號線東環網61網段的交換機邏輯連接示意圖如圖4所示。圖4中,浦東機場站為 master交換機,4-1端口為邏輯斷點。

圖4 2號線東環網61網段邏輯連接示意圖
2號線DTS系統環網交換機所用的MOXA PT-7828系列交換機,采用自主研發的Turbo Ring專用協議,其主交換機會通過監測物理層信號來主動偵測環網中的各交換機是否發生斷電或線路斷開等故障。如有交換機發生故障,則啟用備用線路隔開故障點。在2號線東環網60網段中,張江高科站為邏輯主交換機,張江高科站的4-1端口與創新中路站的4-2端口之間為邏輯斷點。如果廣蘭路站的交換機發生斷電或線路斷開等故障,則Turbo Ring協議會啟用張江高科站的4-1端口與創新中路站的4-2端口之間的物理線路,使環網中只有廣蘭路站這1個站點受影響。然而,在日常運營中,交換機宕機時有發生,且宕機時交換機在物理層仍有連通,故Turbo Ring協議不會啟用備用線路。在此情況下,只要廣蘭路站發生宕機,就會造成控制中心與廣蘭路站至川沙站都沒有通信。
2.3.3 故障處理
鑒于故障起因分析,安排搶修人員到機房查看交換機、NVLE和終端服務器的通信狀態和燈位。
當搶修人員配有筆記本電腦時:搶修人員將故障范圍內及鄰站每個機房的RS 530 A/B切換器切換到正常網段;人工配置筆記本電腦的IP地址(IP地址不得與網內其它信號設備相同)后,將筆記本電腦插入交換機插口連接交換機;打開MOXA PT-7828專用軟件,點擊Boardcast Search按鈕,以查看界面中的信息;若環內1個或多個交換機并未在顯示菜單中,則初步判斷離本站最近的邏輯站點交換機可能存在故障;對故障網段交換機進行重啟。
當搶修人員未配有筆記本電腦時:可通過信號機房內的NVLE進行操作;按照DTS交換機邏輯連接結構使用ping命令來排查大致故障點;如離本站最近的邏輯站點交換機無法ping通,基本可以判斷該站交換機發生故障;重啟故障交換機,確認其重啟成功、無告警,且各連接端口通信正常,則故障排除。
本文基于2號線DTS典型故障的故障處理辦法和預防經驗,總結了常規的維護措施。
措施1:定期查看控制中心的H3C網絡管理系統。增加中央網絡管理系統的巡檢頻次及內容,通過控制中心H3C網絡管理系統的SNMP(簡單網絡管理協議)功能來監測全網中間設備是否正常。監測內容包括:網絡管理系統有無設備不可達、離線狀態等告警;查看各站點交換機閾值是否≤50%,利用ping命令測試各網絡節點間通道是否正常等。
措施2:定期查看終端服務器通信狀態。每日必須通過“Telnet +電腦 IP地址” 命令遠程登入各終端服務器以查看通信狀態。登入終端服務器后,在Serial Port串行端口菜單中查看數據統計,正常的字節傳輸速度應為15bit/s, 正常的packet數據包傳輸速度應為1packet/s;若數據包傳輸量之和為0,則串口通信已經中斷,需立即處理。
措施3:定期查看AP是否正常。每日必須通過“Telnet +電腦 IP地址” 命令來遠程登入AC無線管理交換機,獲取AP登入權限,以查看AP工作狀態。
措施4:下載分析交換機系統數據及日志。在每次中央H3C網管系統告警后,需要下載MOXA交換機系統數據及日志并進行分析。交換機系統數據及日志可通過Edscfgui專用軟件和虛擬終端(VTY)等多種方式下載。其中,使用Edscfgui專用軟件最為方便,使用RJ 45網線連接筆記本電腦與交換機空閑端口,并將該端口VLAN ID(虛擬局域網賬號)改成VLAN 1(管理ID)。打開專用軟件Edscfgui.exe后,輸入交換機IP地址與密碼登入交換機管理模式,選擇Configuration配置菜單中的Export Configuration輸出系統配置文件命令進行下載。
措施5:下載分析終端服務器系統日志。當終端服務器發生串口通信數據異常時,及時下載RS 910終端服務器系統日志數據,以便分析查找故障原因。
本文分析了2號線DTS設備發生故障的原因,總結了相關的維護經驗。主要的故障處理措施及維護措施為:開啟MOXA交換機網絡風暴抑制功能,并優化網絡配置結構;升級終端服務器固件;加強對中央H3C網絡管理系統的巡視,定期查看終端服務器通信狀態,查看AP是否正常。
這些經驗也總結在《2號線設備排故手冊》和《2號線信號DTS傳輸系統維規》中。實踐結果表明,這些故障預防措施做到了事前控制,能有效降低DTS設備故障發生率,保證了設備的穩定運行。