馮 飛,趙紅霞
(中國鐵路上海局集團有限公司徐州電務(wù)段,江蘇徐州 221000)
信號安全數(shù)據(jù)網(wǎng)應(yīng)用在CTCS-2級或CTCS-3級客運專線系統(tǒng)中,實現(xiàn)信號設(shè)備(TCC、CBI、TSRS、RBC)之間的安全信息交互。隨著高速鐵路的迅速發(fā)展,信號安全數(shù)據(jù)網(wǎng)出現(xiàn)的問題也日益嚴(yán)峻起來。如果一旦安全數(shù)據(jù)網(wǎng)出現(xiàn)故障,將有可能直接導(dǎo)致高鐵系統(tǒng)無法工作,影響列車正常運行。本文通過對安全數(shù)據(jù)網(wǎng)常見案例進行分析,總結(jié)故障處理思路,并針對性的改進對策,旨在幫助維護人員提高維護能力。
信號安全數(shù)據(jù)網(wǎng)由車站、線路所、中繼站,以及RBC機房中的工業(yè)級以太網(wǎng)交換機設(shè)備構(gòu)成雙套相互獨立的冗余網(wǎng)環(huán),環(huán)網(wǎng)設(shè)備間光纖鋪設(shè)方式采用不同物理路徑,即在每個環(huán)網(wǎng)中,采用不同路徑的光纖構(gòu)成環(huán),在兩個環(huán)網(wǎng)相同的網(wǎng)絡(luò)路徑處也采用不同路徑的光纖來實現(xiàn)。同時為避免車站設(shè)備停電后造成網(wǎng)絡(luò)中斷,兩個環(huán)中用于組成環(huán)網(wǎng)的中繼設(shè)備也不應(yīng)在同一個車站或中繼站設(shè)置,最大限度地保障信號系統(tǒng)安全數(shù)據(jù)網(wǎng)的通信可靠性,如圖1所示。各站交換機L串接采用左側(cè)干線通道光纜,迂回通道中繼器采用右側(cè)干線通道光纜。各站交換機R串接采用右側(cè)干線通道光纜,迂回通道中繼器采用左側(cè)干線通道光纜。另外,避免由于廣播風(fēng)暴數(shù)據(jù)引起整個網(wǎng)絡(luò)癱瘓,每一獨立子網(wǎng)中接入的網(wǎng)絡(luò)設(shè)備超過一定數(shù)量時,將網(wǎng)絡(luò)環(huán)路分割成不同子網(wǎng)。子環(huán)網(wǎng)劃分利用三層工業(yè)以太網(wǎng)交換機實現(xiàn),三層交換機間采用雙冗余光纜進行連接,雙通道冗余光纜應(yīng)采用不同路徑鋪設(shè),以提高通道的物理冗余性。左右網(wǎng)的子網(wǎng)劃分界面不能設(shè)在同一車站或中繼站,避免車站或中繼站設(shè)備停電后造成通信中斷。

圖1 信號安全數(shù)據(jù)網(wǎng)連接示意圖Fig.1 Schematic diagram of signal safety data network connection
全線所有車站的以太網(wǎng)交換機作為網(wǎng)絡(luò)數(shù)據(jù)通信接入點,采用8芯光纖構(gòu)成信號系統(tǒng)安全數(shù)據(jù)網(wǎng),其中4芯光纖由線路一側(cè)光纜提供,另4芯光纖由線路另一側(cè)光纜提供,每側(cè)光纜中應(yīng)另增加2芯光纖作為信號安全數(shù)據(jù)網(wǎng)的備用光纖。網(wǎng)絡(luò)中包括工業(yè)級以太網(wǎng)交換機、路由器或者協(xié)議轉(zhuǎn)換器、專用光纖、ODF架、專用的網(wǎng)管系統(tǒng)等設(shè)備,如圖2所示。其中,工業(yè)交換機是信號安全數(shù)據(jù)網(wǎng)的核心設(shè)備,其核心功能包括業(yè)務(wù)及管理數(shù)據(jù)包的轉(zhuǎn)發(fā)和光信號中繼放大。按照要求,信號安全數(shù)據(jù)網(wǎng)需設(shè)置綜合網(wǎng)管系統(tǒng),用于監(jiān)控并管理網(wǎng)絡(luò),現(xiàn)場一般設(shè)置在中心機房或者主站機房,主要是以網(wǎng)絡(luò)拓?fù)鋱D形式實現(xiàn)信號安全數(shù)據(jù)網(wǎng)中所有交換機設(shè)備和通道狀態(tài)、報警信息、電源狀態(tài)和回放等監(jiān)督維護功能。該綜合網(wǎng)管系統(tǒng)還具備遠(yuǎn)程終端協(xié)議和遠(yuǎn)程登錄工業(yè)交換機、FTP上傳/下載工業(yè)交換機配置等功能,以服務(wù)器和客戶端的形式提供遠(yuǎn)程信息復(fù)視等。

圖2 網(wǎng)絡(luò)管理系統(tǒng)示意圖Fig.2 Schematic diagram of network management system
由于信號安全數(shù)據(jù)網(wǎng)是環(huán)網(wǎng),一個冗余環(huán)網(wǎng)必須有且只有一個主站,主站在鐵科設(shè)備的安全數(shù)據(jù)網(wǎng)終端是標(biāo)注出來,其余均為從站,主站負(fù)責(zé)環(huán)網(wǎng)狀態(tài)監(jiān)測和環(huán)網(wǎng)倒換。同時為防止網(wǎng)絡(luò)風(fēng)暴的產(chǎn)生,目前安全數(shù)據(jù)網(wǎng)主要采用Dt-ring環(huán)網(wǎng)協(xié)議,可以通過對交換機端口狀態(tài)檢測并通過較少的協(xié)議報文,來決定環(huán)和端口的狀態(tài),從而保障冗余網(wǎng)絡(luò)不成環(huán)。主站交換機的一側(cè)端口中,一個為轉(zhuǎn)發(fā)狀態(tài)完成接發(fā)數(shù)據(jù),并以一定周期從轉(zhuǎn)發(fā)端口發(fā)送環(huán)協(xié)議報文,環(huán)網(wǎng)內(nèi)交換機依次處理該報文。另一個為阻塞狀態(tài),不接發(fā)業(yè)務(wù)數(shù)據(jù),僅接收環(huán)協(xié)議報文。主站交換機最后從阻塞端口接收到該報文,從而完成一次檢測。正常的環(huán)網(wǎng)協(xié)議檢測幀從轉(zhuǎn)發(fā)端口發(fā)出到阻塞端口接收;當(dāng)阻塞端口沒有接收到檢測包,認(rèn)為環(huán)斷開,主站迅速將阻塞端口轉(zhuǎn)換為轉(zhuǎn)發(fā)狀態(tài),完成一次環(huán)倒換。
在安全數(shù)據(jù)網(wǎng)終端的拓?fù)鋱D中,不管是左環(huán)網(wǎng)還是右環(huán)網(wǎng)都可看到一條虛線,這就是環(huán)網(wǎng)中的邏輯斷點。當(dāng)環(huán)網(wǎng)中任意單一節(jié)點或者鏈路出現(xiàn)故障時,Dt-ring協(xié)議可以快速檢測到故障信息并發(fā)生倒換,在一定時間內(nèi)完成,這時備用端口恢復(fù)連接并進行數(shù)據(jù)傳輸。
3.1.1 故障概況
2019年,12:47:11徐 鹽RBC1的1系 與 所有連接站聯(lián)鎖的1網(wǎng)雙系通信中斷,12:47:13徐鹽RBC1進行切系,由1系切換至2系主控。12:47:22徐鹽RBC1的1系與徐州東線路所、徐州東徐蘭場、后馬莊站計算機聯(lián)鎖的1網(wǎng)雙系通信恢復(fù)。
3.1.2 故障分析
通過查看安全數(shù)據(jù)網(wǎng)終端數(shù)據(jù),安全數(shù)據(jù)網(wǎng)LAN1網(wǎng)中徐鹽RBC1(172.74.203.175)與CBI2(徐州東徐蘭場172.74.203.17)之間出現(xiàn)大量Dup Ack數(shù)據(jù)包,其中RBC1-I系為主系(172.74.203.175),CBI2-I系為主系(172.74.203.17),172.74.204.x網(wǎng)段與CBI的通信未出現(xiàn)該現(xiàn)象,如圖3所示,表明網(wǎng)絡(luò)出現(xiàn)亂序或者丟包現(xiàn)象。

圖3 安全數(shù)據(jù)網(wǎng)數(shù)據(jù)Fig.3 Data of safety data network
12:47:16.341,CBI2-I系回復(fù)TCP ACK(#58804)中,Ack Numbe發(fā)生異常(10921→ 15301)。RBC1一直重新發(fā)送ACK(Seq=10921,Ack=34945),表示下一個想要的是Seq=10921包,而收到卻是CBI2一直重新發(fā)送Ack(Seq=34945,Ack=15301),且Ack值不隨著CBI的消息更新,進而造成RBC1與CBI2間互傳大量Dup Ack數(shù)據(jù)包,如圖4所示。

圖4 RBC1與CBI2間在互傳大量Dup Ack數(shù)據(jù)包Fig.4 A large number of Dup Ack packets are being transmitted between RBC1 and CBI2
12:47:18,RBC1-I系 向 所 有CBI設(shè) 備 的172.74.203.x網(wǎng)段的 TCP連接發(fā)送RST,關(guān)閉異常的連接后,RBC1-I系與CBI2-I系間的Dup Ack數(shù)據(jù)包發(fā)送停止。
隨后工區(qū)人員查詢維護終端,發(fā)現(xiàn)RBC向維護終端輸出系統(tǒng)報警信息0x00C1,表明網(wǎng)絡(luò)風(fēng)暴發(fā)生/恢復(fù)檢測。
3.1.3 故障原因
經(jīng)過上述分析發(fā)現(xiàn),此次故障是由于CBI發(fā)送的大量異常Ack包觸發(fā)RBC網(wǎng)絡(luò)風(fēng)暴防御機制,因此RBC向該通道的所有TCP連接設(shè)備發(fā)送RST斷開TCP通信,由于其他連接通道未出現(xiàn)該現(xiàn)象,因此不影響RBC與所有CBI的應(yīng)用層通信。
3.2.1 故障概況
2018年,工區(qū)接到調(diào)度電話通知鄭徐線安全數(shù)據(jù)網(wǎng)出現(xiàn)電源模塊報警,工區(qū)人員查看安全數(shù)據(jù)網(wǎng)終端,發(fā)現(xiàn)網(wǎng)絡(luò)拓?fù)鋱D中TSRS-L交換機顯示紅色。同時下方報警類型顯示電源狀態(tài)報警,告警原因是未啟動電源。
3.2.2 故障分析
通號的安全數(shù)據(jù)網(wǎng)終端用的軟件是HIVISION,該軟件用不同的顏色去顯示交換機狀態(tài)。正常情況下交換機無填充色,綠色表明發(fā)生故障已經(jīng)恢復(fù),黃色表明交換機通道類出現(xiàn)故障,紅色表明交換機本身出現(xiàn)故障。
維護人員首先查看拓?fù)鋱D,發(fā)現(xiàn)交換機填充色是紅色,繼續(xù)查看告警事件,告警類型是電源狀態(tài),告警原因是未啟動電源。接著工區(qū)人員查看交換機狀態(tài),工區(qū)使用的交換機是赫斯曼MACH102型號的交換機,發(fā)現(xiàn)Fault燈亮紅燈,同時電源指示燈P顯示黃色,表明是單電源情況。正常情況下P燈應(yīng)該是綠燈,F(xiàn)ault燈滅燈。
在信號系統(tǒng)中,信號安全數(shù)據(jù)網(wǎng)的電源都是冗余的,每一個交換機都是兩路220 V或者24 V電源輸入,而且是從電源屏直接輸入,所以出現(xiàn)一路電源掉電情況下交換機報警,但是不會影響通信通道。
接著維護人員查看電源屏模塊,顯示有兩路220 V電源輸出。然后查看交換機電源接頭,連接都牢固,最后發(fā)現(xiàn)空開處于懸空位置,導(dǎo)致交換機單點運行。維護人員合上空開設(shè)備,恢復(fù)正常運行。
3.2.3 故障原因
此次故障是由于交換機空開處于中間位置,沒有閉合導(dǎo)致的。
3.3.1 故障概況
聯(lián)調(diào)聯(lián)試期間需要對安全數(shù)據(jù)網(wǎng)通道進行測試,在測試期間發(fā)現(xiàn)A站和B站經(jīng)常報警光功率過低,查看鐵科安全數(shù)據(jù)網(wǎng)終端軟件Kyvision Pro,發(fā)現(xiàn)A站和B站通道多次出現(xiàn)光功率過低報警,然后會恢復(fù),但是報警經(jīng)常反復(fù)出現(xiàn)。
3.3.2 故障分析
由于聯(lián)調(diào)聯(lián)試期間的安全數(shù)據(jù)網(wǎng)設(shè)備,還牽涉到通信專業(yè),所以這次故障排查需要聯(lián)合通信專業(yè)。信號人員在安全數(shù)據(jù)網(wǎng)終端站查看安全數(shù)據(jù)網(wǎng)信息,通信專業(yè)到報警站去排查,主要查看安全數(shù)據(jù)網(wǎng)的尾纖到ODF架之間的通道,從ODF架到通信機房之間的光纜鋪設(shè)情況,同時對光線接頭進行擦拭。通過排查,發(fā)現(xiàn)ODF的蓋板壓住尾纖通道,造成光衰耗過低。
3.3.3 故障原因
光纖鋪設(shè)過程中,由于前期施工單位沒有注意,在施工過程對光纖通道擠壓,造成光功率過低。
通過以上的分析,結(jié)合質(zhì)量管理的思想,從人、機、法、環(huán)4個方面提出維護對策。
第一,由于安全數(shù)據(jù)網(wǎng)涉及到通信相關(guān)領(lǐng)域知識,但是目前信號專業(yè)在該領(lǐng)域知識點比較薄弱,需要有針對性的提高。可以由通信段出面,邀請設(shè)備廠家和通信段職培基地人員對維護人員進行培訓(xùn),重點是安全數(shù)據(jù)網(wǎng)報警數(shù)據(jù)分析和通信信號結(jié)合部的相關(guān)知識。
第二,加強維護人員對安全數(shù)據(jù)網(wǎng)組成結(jié)構(gòu)的學(xué)習(xí)。經(jīng)過分析可以看出安全數(shù)據(jù)網(wǎng)包含設(shè)備種類較多,比如設(shè)備間接口、物理通道種類和設(shè)備間接口信息,需要維護人員對此加強學(xué)習(xí),由此方便去判斷故障范圍,到底是硬件還是軟件問題。
第三,培養(yǎng)安全意識。每次拷貝數(shù)據(jù)一定要用專用的優(yōu)盤,并進行格式化處理,建立健全相關(guān)的設(shè)備資料臺賬。
第一,研究表明,三層交換機比兩層交換機防范網(wǎng)絡(luò)風(fēng)暴更加有效,可以更多的升級成三層交換機,但是需要相關(guān)的配置。
第二,定期檢查設(shè)備使用年限,對超出年限的設(shè)備及時進行更換。
第三、更換設(shè)備時,必須選擇經(jīng)過CRCC認(rèn)證的設(shè)備。
第一,剛開始組網(wǎng)時根據(jù)設(shè)備IP數(shù)量劃分子網(wǎng),子網(wǎng)間采用三層交換機,避免網(wǎng)絡(luò)風(fēng)暴發(fā)生時擴大故障范圍。
第二,維護人員熟練掌握安全數(shù)據(jù)網(wǎng)作業(yè)指導(dǎo)書和相關(guān)維護標(biāo)準(zhǔn),段、車間進行考試考評。
第三,定期通知通信專業(yè)人員來信號機械室對光通道進行各種相關(guān)測試,并保留好測試數(shù)據(jù)。
第一,由于安全數(shù)據(jù)網(wǎng)里面?zhèn)鬟f的信息直接影響行車安全,所以嚴(yán)禁安全數(shù)據(jù)網(wǎng)介入外網(wǎng),同時嚴(yán)禁安裝不相關(guān)的軟件,這不僅會影響程序運行,還會增加CPU利用率。
第二,對各種USB和其他外部接口進行封堵,光纖曲率半徑不能太小。
第三,安裝殺毒軟件并且定期更新病毒庫。
第四,注意機房的溫度、濕度。
通過對安全數(shù)據(jù)網(wǎng)的相關(guān)介紹,以及常見的案例分析,結(jié)合質(zhì)量管理的思想針對性的提出維護改進對策,為維護人員提供設(shè)備管理幫助以及故障排查思路。