摘 要:SDH光傳輸網是通信的基礎網絡,目前SDH傳輸網一般都具備網絡自愈功能,單點故障不會對通信業務造成很大影響,但如果多點同時發生故障,將導致業務大面積中斷,甚至導致通信癱瘓。文章介紹了一起由于設備設計缺陷,導致SDH網多點同時故障,業務大范圍中斷的故障,從原理上分析了故障原因,提出了改進措施。
關鍵詞:SDH傳輸網;故障;分析
引言
SDH光傳輸網作為通信的基礎網絡,具有路由自動選擇能力,上下電路方便,維護、控制、管理功能強,網絡自愈能力強等優點,無論在電信運營商或電力、鐵路等專網中均得到廣泛應用。SDH傳輸網具備網絡自愈能力,一般的設備單點故障不會對通信業務造成很大影響,但如果多個網絡節點同時失效,將導致業務大面積中斷,甚至導致通信癱瘓。
1 故障概況
故障中,A站點發生交叉時鐘盤硬件故障,導致環上B、C、D、E、F、G、H等站點都出現LOS、MS_RDI、MS_DEG等告警頻繁振蕩。環上多個站點業務中斷。現場運行維護人員拔出A站故障的交叉時鐘盤后,故障消除,業務恢復正常。
2 原因分析
故障SDH設備系統整體架構框圖如下圖:
故障設備時鐘交叉盤集成了時鐘單元和交叉單元兩部分電路,時鐘單元提供系統所需時鐘給交叉單元及和各個槽位接口盤,作為交叉芯片、光盤內FRAME成幀芯片的參考時鐘,各個光盤通過背板2.5Gb/s 的CML高速數據總線與交叉單元相連。
時鐘部分電路如果出現異常,輸出質量不穩定(即頻率發生偏移)的時鐘信號,交叉和光盤利用該參考時鐘對于2.5G數據總線采樣輸出,可能因為采樣錯位導致輸出的數據上出現長“0”或者長“1”等異常信號。這個異常信號可能出現在總線的開銷位置或者凈荷位置。
在設備的發送方向,光盤會將段開銷字節再生一次發送出去,對于凈荷內容按照交叉路由表進行凈荷交叉后發往相應的光口。如果上游站(A站點)輸出的2.5G線路數據信號中在凈荷位置出現長“0”或長“1”,將導致下游站點信號檢測異常,上報LOS、MS_RDI、MS_DEG等告警。第二個站點再次依照交叉路由表將凈荷(對用戶來講就是一條條的VC4/VC12)交叉后送給第三個站點,仍會導致第三站點信號檢測異常,上報LOS、MS_RDI、MS_DEG等告警,以此類推,后續整環都會出現“LOS透傳”現象。
圖3所示的A點即為此次故障A站點E3和E4光盤發出錯位信號的點位。
光接口盤功能示意圖如圖4所示:
A點可能出現長“0”或長“1”故障,一旦此處出現長“0”或長“1”信號,那么該信號經過光接口盤的B處右側模塊解擾后,在B處就不再是長“0”或長“1”,但是經過C處的右側加擾模塊后,由于系統上加擾和解擾的擾碼多項式都是一樣的,所以C處又還原出長“0”或長“1”信號來,導致光路送給下游站點的仍為長“0”或長“1”信號,下游站點無法正常進行信號檢測。
若在B處插入AIS處理功能,在A點出現長“0”或長“1”的信號經過B處進行解擾,檢測出信號異常,在B處插AIS,那么相當于在B處將解擾后的凈荷部分的數據變成了全“1”,這個全“1”凈荷再經過C處的擾碼算法后,發出的光信號就不在有長“0”或長“1”了,下游站點能正常工作。在光接口盤檢測到數據信號出現頻率偏移(即交叉單元送過來的信號有OOF等告警)時,對凈菏傳輸通道進行插入AIS處理,經插入凈荷為全“1”的AIS信號經過擾碼處理,確保信號中不會出現長“0”或長“1”現象,下游能夠正常檢測出信號,完成定幀、時鐘提取等功能。
3 結束語
這是一起由于傳輸設備設計缺陷導致的故障:1)A站交叉時鐘盤時鐘芯片硬件故障,采樣錯位導致輸出的數據上出現長“0”或長“1”等異常信號,光盤從接收端(交叉側)收到異常信號后,沒有向發方向(光路側)插入“AIS”,導致向下游站點發出異常碼流;2)接收端設備在收到異常碼流后,沒有考慮異常碼流處理機制,未能對異常碼流進行有效處理,導致異常碼流向下游傳遞,從而引起整個環的業務中斷。
SDH傳輸設備設計上必須考慮異常碼流處理機制,當設備由于軟硬件故障等原因出現異常碼流時,應該具備異常碼流處理能力,及時終結異常碼流的傳遞,確保異常碼流不會迎著業務方向往下游傳遞,引起環網業務中斷。