某大型集團召開全集團安全大會,全部子公司參加,在會議期間視頻會議系統出現異常中斷,大屏黑屏,所有分子公司全部掉線,造成會議中斷十余分鐘。影響非常嚴重,本次視頻故障升級為網絡事故級別。集團領導非常重視本次問題,要求信息中心在一天內找到故障根源。
網絡管理人員在問題發生后,第一時間聯系視頻廠家工程師、網絡工程師,組織進行排查工作。
● 詳細排查網絡狀態,沒有發現任何告警信息及異常情況。
● 進行長時間模擬測試,未能總結問題規律。
● 更換三臺正常使用的MCU設備,依舊不定時出現視頻中斷現象。
由于故障不定時出現,排查難度大,未能在一天內找到問題原因。
故障發生后第二天上午,聯系科來廠家進行技術支持,工程師在三臺MCU上聯的3560交換機上部署科來網絡回溯分析系統,采集3560交換機上聯6509交換機鏈路和下聯3條MCU的鏈路。
科來網絡回溯分析系統能夠長期保存原始通訊數據,可以對瞬時、不定時發生的疑難故障進行深入到數據包級的分析。我們定位到問題發生時段,進行如下分析:
在3560交換機上聯接口進行抓包分析,發現快速問題發生時段出現的流量異常,如圖1所示。

圖1 問題時段3560交換機上聯鏈路趨勢及參數
在3560交換機上聯鏈路追蹤問題的數據,發現問題時段只有視頻終端向MCU發送的數據包,沒有收到MCU任何的回應數據包。
同時,我們在3560交換機下聯接口進行對比分析,同樣發現了流量異常現象,如圖2所示。

圖2 問題時段3560交換機下聯鏈路趨勢及參數
通過上述分析不難看出,在故障發生時,MCU能夠向3560交換機發送數據包,但收不到3560交換機的回應數據包;6509交換機能向3560交換機正常發送數據包,但收不到3560交換機的回應數據包(如圖3)。

圖3 問題分析
可判斷出問題發生時3560交換機出現只接收數據包,不發送數據包的情況,造成短時間內不能正常轉發數據。懷疑3560交換機出現不轉發數據造成本次視頻閃斷問題。
通過科來回溯分析系統對故障進行分析,半小時內定位問題根源為3560交換機出現不轉發問題,網絡工程師于中午休息時段更換全部相關交換機接口光模塊,視頻系統再沒有出現故障。
科來網絡回溯分析系統能夠對視頻流量進行實時抓取、長期保存、精細分析,捕獲完整故障數據,幫助用戶快速處理網絡及應用的疑難故障,解決了網絡、視頻管理人員的燃眉之急,獲得了領導的認可。