近日,某小區用戶反映上網時常會中斷,中斷的時間大概在10分鐘左右。由于網絡中斷的時間比較短,故障現象不容易捕捉到,這給故障的排查帶來了困難。
按照故障現象,首先排查了該OLT連接BRAS的端口收發光功率和設備的配置均沒有問題。趕到現場,根據用戶ONU的MAC地址查找到了其所屬的OLT,然后使用ONU進行上網測試,一段時間后果然出現了上網故障,于是決定配置端口鏡像進行抓包分析。
抓包可以用來檢查網絡安全,也經常用來進行數據截取等,達到數據分析的目的。本例故障需要對數據進行截獲。配置端口鏡像,端口鏡像功能通過在交換機或路由器上,將一個或多個源端口的數據流量轉發到某一個指定端口來實現對網絡的監聽,在不嚴重影響源端口正常吞吐流量的情況下,通過鏡像端口對網絡的流量進行監控分析。在網絡中用鏡像功能,可以很好地對內部的網絡數據進行監控管理,在網絡出故障的時候,可以快速定位故障。按照鏡像端口的定義,需要定義源端口和目的端口,針對此次網絡的具體情況,定義上聯口8/1為源端口,8/5為目的端口。接下來開始對端口進行鏡像配置,具體的配置命令如下:

通過上面的配置,定義了監視端口是8/5,被監視端口即源端口是8/1,端口8/1上聯 BRAS,端口8/5連接抓包電腦。通過使用專業抓包工具發現許多黑底紅字的報文,該報文大多是TCP錯誤包或者校驗和錯誤的包,這說明數據在轉發過程中出現問題。出現這種報文的原因多半是網絡擁塞,導致順序包抵達時間不同,延時太長,或者包丟失,需要重新組合數據單元。這時候我們發現寬帶連接上網又斷開了,而且上不去網的頻率逐漸增大。
上面通過抓包分析到網絡中出現擁塞,會不會是設備的處理能力存在不足的情況?根據這一假設我們登錄上OLT設備,分別使用命令show memory和show cpu-utilization查看內存和CPU的內存利用率,均沒有發現明顯異常情況。為了盡快解決問題,我們準備在現場準備一個測試機,然后采取逐個PON口斷開的辦法鎖定故障點。就在插拔第一個PON口的時候,發現設備的PON模塊很熱,使用命令show card-temperature對設備溫度進行查看,設備溫度顯示70度,很顯然設備溫度過高。
立即著手檢查設備,發現風扇沒有正常工作,原因是連接風扇的電源線處于斷開狀態。首先調整好風扇電源線,然后對設備的濾網進行清理除塵。經過一段時間的觀察,網絡恢復正常,同時查看設備溫度,顯示35攝氏度,這一數值已經在正常的范圍內。
上面我們從得知故障現象后,認真收集了故障信息,然后采取了使用鏡像端口對數據抓包的方式進行問題分析,在得到故障原因是由于網絡擁塞引起,緊接著通過搭建測試環境,最終發現是設備溫度過熱,導致工作不正常,從而影響了正常上網數據的轉發。
這次故障的處理過程存在一定的僥幸心理,如果設備溫度一直保持或者持續升高,不但嚴重影響的寬帶用戶上網感受,而且會導致設備輕者宕機,重者整機物理損壞,帶來不可預料的后果。借鑒此次故障的處理我們舉一反三,對所有在網OLT的風扇、包括其他硬件進行了一次排查,從而杜絕了此類事件的發生。