在日常網絡維護過程中,設備丟包是個棘手的問題,丟包對網絡最直接的影響就是數據轉發不正常,進而造成網絡體驗差,還會給網絡帶來一定的沖擊。本文從得知故障現象-光傳輸設備管理異常開始入手,通過對光傳輸設備進行Ping命令測試,得知網絡中存在丟包現象。采用端口速率協商和網絡抓包等方法準確將故障定位,最終使用端口隔離的辦法將故障排除。

圖1 網絡拓撲結構
近日,有同事反映某設備的網管系統出現間歇性報警,我們立即著手排查。在對故障現象進行查看后,發現設備網管軟件主要功能是對設備是否在線進行監控,如果設備不在線,網管軟件會出現報警。對該網管系統進行短時間的觀察后,發現設備處于在線和離線交替狀態。在網管服務器上,對離線設備進行了長時間的Ping測試,出現了丟包的現象。
為了更好地排除故障,我們首先了解下網絡拓撲結構,如圖1所示。
通過圖1我們看到,整個網絡架構由4臺交換機組成,分別部署在4個基站,即中心、科苑、解放和神道站。網絡中主要承載BOSS、設備網管以及視頻監控等業務。其中4個基站都部署了光傳輸設備,使用服務器對這些設備進行統一管理。
在對網絡結構進行簡單梳理后,接下來就開始進行排查。首先需要排除光傳輸設備物理硬件本身是否出現問題。將連接光傳輸設備的網線接上測試電腦對服務器進行Ping測試,經過長時間的觀察后,并沒有出現丟包現象。這樣就可以假設設備網卡和交換機端口速率協商是否存在問題。
通過對設備的配置手冊進行查詢后,得知該設備的網卡默認是10M全雙工,將交換機和設備互聯的端口也強制成了10M全雙工,結果依然出現丟包現象。而且在整個網管系統上出現離線的設備沒有規律性,不具有某個設備離線的特殊性。
接下來準備使用抓包工具進行數據分析。通過配置鏡像端口對數據信息進行抓取和分析,發現10.232.13.0/24段的地址有異常廣播報文,于是查找到該IP地址位于科苑站。在該基站經過對交換機端口查看,發現交換機除了連接光傳輸設備外,還連接了部分攝像頭。
為了盡快排除故障,我們索性將該交換機上除光傳輸設備外其他網線拔掉,進行逐個插拔。在插拔網線的同時,對光傳輸設備進行Ping測試,最終發現交換機端口15插到交換機上后,光傳輸設備就出現丟包現象,經過排查交換機端口15是通過收發器連接硬盤錄像機。
既然找到了故障原因,就需要采取措施。因為二層交換機的同一VLAN間是互相通信的,那么如何實現連接光傳輸設備和硬盤錄像機端口隔離呢?這里就需要使用到端口隔離這個技術。采用端口隔離特性,可以實現同一VLAN內端口之間的隔離。我們只需要將端口加入到隔離組中,就可以實現隔離組內端口之間二層數據的隔離。
接下來我們就開始配置設備,具體的配置命令即:

通過上面的配置,我們將連接光傳輸設備的端口1、3、5口和連接硬盤錄像機的端口15加入了隔離組,這樣就有效地實現了以上端口的有效隔離。完成端口隔離的配置后,將連接硬盤錄像機的網線插回交換機上,進行了長時間的觀察,光傳輸設備沒有出現丟包現象,故障排除。
上面我們從得知故障現象開始入手,運用Ping命令得知故障現象是由于丟包引起的,接下來通過抓包工具以及排除法將故障準確定位,視頻監控大流量數據是影響到光傳輸平臺網管軟件正常使用的根本原因。最終使用端口隔離的辦法解決了問題。
后期我們咨詢了光傳輸設備廠家,得知設備的網卡有別于筆記本電腦網卡的機制,所以出現了文章開頭連接光傳輸設備的網線連接到筆記本電腦上沒有出現丟包現象。針對這次故障的出現,我們制定了網絡優化升級的方案,分兩步走,第一,建議光傳輸設備廠家后期升級設備網卡固件,第二,將視頻監控和光傳輸網管劃分到不通的VLAN中,使用VLAN進行有效隔離,從而實現網絡的穩定和諧。