邢迎冬+張楠楠+白雪峰



摘要:在現網的政企專線業務中,EOS類業務由于用戶接口為以太接口,且可承載的帶寬顆粒大,擴容靈活等因素而應用廣泛,本文以通遼市工商局某網點為例,來分析如果該網點用戶業務中斷的故障排查思路。
關鍵詞:MSAP;EOS;SDH
中圖分類號:TN915.6 文獻標識碼:A 文章編號:1007-9416(2017)05-0036-02
1 組網拓撲
組網說明:分支網點交換機的百兆以太口通過網線上聯聯通的百兆光纖收發器,然后通過光纖上聯至聯通機房接入MSAP的EOSE-8FX單板,接入MSAP通過622MSDH接口上聯至聯通SDH本地傳輸網,本地傳輸網通過2.5G接口對接匯聚MSAP,然后通過8EOS-GC單本的一次匯聚和PTU-4GE單板的二次匯聚后,經PTU-4GE單板的GE口與用戶匯聚路由器的GE口完成對接,最終實現了用戶分支業務至總部機構的傳輸和匯聚。
2 故障處理流程
2.1 詳細了解現場情況,確定故障嚴重程度
處理故障之前,詳細了解故障的現場情況是前提。例如,需要詳細和客戶溝通確認:
(1)網絡的拓撲情況,包括使用的設備型號,還有相應的連接關系;
(2)業務全部中斷,還是部分中斷;
(3)如果是業務丟包,丟包的嚴重程度或丟包率,如果是視頻業務的話,圖像的狀態如何,視頻的業務占用帶寬是否超過傳輸帶寬;
詳細了解了上述情況后,做到了了解的故障的基本情況和故障嚴重程度,就可以采取相應的措施,現場處理或指導客戶處理故障。
2.2 檢測設備工作狀態和各接口連接情況
了解故障的基本情況后,首先,要檢查設備的工作狀態和各接口的連接情況。這一步是根據觀察分析法來判斷故障原因。可以從下面幾個方面進行判斷設備的狀態:
(1)網管上的當前告警列表或歷史告警列表,可以查看到設備的當前或歷史告警情況。根據告警分析法來判斷相應的告警,進行判斷故障點。
(2)觀察MSAP的板卡前面板的指示燈。如上圖1所示板卡為用戶端接入MSAP中用于下聯收發器的單板EOSE-8FX,指示燈的正常狀態應為PWR燈(電源指示燈)長亮,SYS燈(系統運行指示燈)閃爍,LINK/ACT燈(接口連接狀態指示燈)閃爍。如果PWR燈或SYS燈滅,說明單板處于異常狀態,需要更換板卡或聯系廠家工程師進行進一步排查;如果LINK/ACT燈滅說明板卡收不到光,故障原因可能為:1)光纜中斷;2)板卡光模塊故障;3)用戶端收發器掉電或故障;需要客響維護人員進行相應的確認。
(3)觀察用戶端設備指示燈狀態。如上圖1所示收發器的指示燈正常狀態為:除ACT燈和LINK/ACT閃爍,其他燈長亮,如果指示燈狀態不對,需要對照用戶手冊中指示燈的含義來具體處理。
2.3 判定故障是數據層面還是傳輸層面
檢查完設備工作和各接口連接上沒有異常后,然后要進行數據層面還是傳輸層面的判定。關于數據層面和傳輸層面的解釋如下圖2所示。
EOS業務是將以太網業務承載到傳輸網上進行傳送,自然分為兩個大層面:一個是數據層面,另外一個是傳輸層面。在出現業務異常的時候,建議先排查傳輸層面的問題,后排除數據層面的問題,是因為傳輸層面有問題,通常在網管上會有明顯的告警,通過告警分析法就可以逐個解決故障。
判斷傳輸層面的故障重點還可以通過查看以下命令信息:在群路盤端口模式下show sdh-alarm(可以查看傳輸層面的告警信息)和show interface(可以查看傳輸上的開銷設置和實際狀態信息)。
(1)傳輸層面常見的故障主要包含以下幾個方面:
1)交叉連接配置錯誤,包括MSAP交叉連接錯誤;
2)傳輸線路損傷,例如光纖斷或連接錯誤、光接口沒接觸好、光衰耗過大等;
3)EOS業務對接問題,例如V5/K4字節不匹配,封裝協議配置不一致,GFP的FCS設置不一致,LCAS設置不匹配等;
4)業務板卡單盤故障或設計缺陷;
(2)數據層面常見的故障主要包含以下幾個方面:
1)數據配置錯誤,例如VLAN配置、鏈路聚合配置、USE-CORE-TAG配置等;
2)網絡中產生環回,導致影響整個數據網絡;
3)以太接口自協商問題或網線制作和接觸問題;
4)業務板卡單盤故障。
2.4 檢測網絡中設備的配置
2.4.1 檢測MSAP的設備的配置
(1)檢查交叉連接和時隙指派情況:在網管上打開“SDH業務管理”中的“交叉配置”,檢查:時隙配置是否完整,狀態是否為“激活”;對接傳輸接口時隙是否正確。
(2)檢查數據層面配置情況:在網管上打開“VLAN交換端口配置”,查看8EOS-GE和PTU-4GE單板對于VLAN的設置是否正確。
2.4.2 檢測MSAP外圍設備的配置
了解到MSAP外圍設備的配置,以便從網絡整體角度分析問題。
2.5 通過各種方法,縮小故障范圍,定位故障原因
通過上一步的初步判斷,可以通過一些簡單的方法,可能的逐步縮小范圍,一步一步找到故障點,進而進行相應的措施,排除故障。
2.5.1 EOS業務典型網絡排障經常用到的信息
如圖3所示。
(1)板卡當前的狀態和告警。MSAP的板卡前面板的指示燈,包含板卡系統燈、電源指示燈、總告警指示燈,還有接口的狀態指示燈,這些指示燈狀態需要特別的關注和確認。還有,系統的當前告警和狀態也需要檢查。如果有了上述信息,可以通過告警分析法,按照先高級、后低級,先高階、再低階的原則進行處理。endprint
(2)EOS接口、交換\以太端口統計和SDH的性能統計。端口的數據統計,包含收發的數據統計,還包括一些錯誤幀的統計。通過對這些端口統計的查看,對業務流的狀態就有了清晰的了解,然后結合一些故障排除方法,例如環回測試法,就可以逐段縮小故障反饋,從而進一步找到故障點,進而排除故障。
(3)MAC地址表。MAC地址表可以在一定程度判斷業務是否正常。例如,在匯聚交換板卡上查看MAC地址表,可以清楚的看到相應端口和VLAN下面的MAC地址,如果某個業務接入通道有問題或業務接入終端設備有問題,就不能學到相應業務接入終端的MAC地址,可以粗略的判斷業務是否正常。
(4)環回檢測狀態。MSAP的EOS匯聚板卡支持環回檢測功能,可以檢測出傳輸通道是否有環回,然后把相應環回的交換接口關閉掉,直到環回解除,這樣可以保護其他的業務分支業務的安全性。
(5)板卡軟硬件版本信息。查看現網的設備的版本信息,以便確認是否存在功能缺陷,或者為廠家工程師進一步分析問題或驗證故障現象提供必要數據。
通過上述的信息,結合一定的故障排除方法,可以解決一些常見的故障,或者可以確認故障的范圍,為后續排查提供參考。
2.5.2 傳輸層面問題常用排查方法
通過分段環回查看Jx和V5\K4字節信息判斷傳輸問題,原理介紹:SDH的開銷Jx、V5、K4一般有三個值,發送值、期望接收值和實際接收值。如果通過逐段環回的方面,判斷這些開銷字節的發送值和實際接收值是否一致,就可以粗略判斷被環回的段是否正常。如圖4所示。
如果通過環回測試,確認了接入側和匯聚側的傳輸沒有問題,后續就需要再進行排除對接問題或數據層面的問題了。
2.5.3 數據層面故障常用排查方法
如圖5所示。
方法一:通過業務流各點數據統計判斷故障范圍。
原理介紹:MSAP的EOS板卡和交換匯聚板卡均可以進行端口的性能統計。
通過業務流向的各點的收發包統計,查看數據增量或者具體數據統計,來判讀故障點。
方法二:通過一些測試軟件,例如sniffer,再加上各點的環回,也可以逐段判斷故障點。
使用sniffer產生一定量的數據包,然后通過線路中各點的環回,然后使用sniffer進行收包統計,如果發出去的包與接收的包數量一致,則說明傳輸沒有問題;如果接收的包少于發送出去的包,則說明線路質量不好;如果干脆沒有接收到的包,則說明環回點這段業務不通,再進一步減少環回范圍逐段判斷故障點。
方法三:通過在交換盤匯聚盤上查看MAC地址表也可以初步查看業務通道是否正常。
MAC地址表可以在一定程度判斷業務是否正常。例如,在匯聚交換板卡上查看MAC地址表,可以清楚的看到相應端口和VLAN下面的MAC地址,如果某個業務接入通道有問題或業務接入終端設備有問題,就不能學到相應業務接入終端的MAC地址,可以粗略的判斷業務是否正常。
3 結語
總之,在處理故障過程中,只有透過故障的表象找到其本質,才能實現故障的準確定位并迅速排除。這就需要我們了解故障定位的基本原則,明確故障處理的思路,掌握常見的故障處理方法,從而從容應對各種異常現象,提高故障處理的效率。endprint