引言:某專線單位出現網絡故障,遠端服務器不能正常訪問。通過梳理網絡拓撲結構,按照網絡層次逐級排查的辦法,將故障定位在設備端口損壞,從而導致VLAN之間互相影響。在更換設備端口后故障排除。
近日,某集團客戶向我們反映不能正常訪問指揮分中心的服務器,得知這一故障后,我們迅速展開排查。為了理清思路我們先了解下網絡拓撲結構(如圖1)。
通過圖1我們可以看到,這次集團客戶專線項目主要依托目前的城域網進行數據傳輸,城域網是由中心站、科苑站、解放站和神道站四個基站組成,每個基站都將EPON和EOC作為接入層設備連接至基站的傳輸設備上,然后采用就近的原則將攝像頭數據送達至指揮分中心,從而實現指揮分中心轄區的攝像頭數據在本地匯聚存儲。最后,通過城域網中心基站C5566設備將數據送達至指揮中心,實現了指揮中心對各分中心視頻資料的實時查看和調取。

圖1 某集團客戶專線網絡拓撲圖
在指揮中心和16個指揮分中心均采用了三層交換機,在交換機上創建不同VLAN,并設置默認路由,實現分中心與指揮中心之間的數據通訊。具體做法是,各分中心的交換機通過默認路由實現與指揮中心交換機的通訊,指揮中心的交換機通過靜態路由的方式與各分中心的交換機進行數據通訊。這樣,每個分中心的業務VLAN不相同,然后使用VLAN2作為分中心和指揮中心的互聯VLAN,實現分中心和指揮中心的數據通信。
既然指揮中心訪問分中心是通過路由,首先在指揮中心的交換機上對故障分中心交換機地址10.0.0.10執行Ping測試,結果是失敗的。互聯地址都Ping不通,當然Ping故障分中心的業務VLAN地址37.56.73.1也是不通的,因為故障分中心的服務器網關為37.56.73.1,所以才出現故障開頭的那一幕,指揮中心無法訪問某分中心的服務器。
根據網絡拓撲結構,我們決定按照自下而上順藤摸瓜的方式排除故障。首先測量故障分中心交換機的接收光功率-14db,屬于正常范圍。然后查看了的交換機的連接情況,該交換機上的網口上連接了服務器、硬盤錄像機和磁盤陣列。
為了排除該交換機本身連接設備的嫌疑,我們只保留了該交換機的上聯口,將交換機上連接服務器等設備的端口關閉后,在指揮中心的交換機上Ping該分中心交換機依然不通。在這臺交換機上使用命令dis logbuffer查看告警信息,也沒有發現異常信息。在該交換機上還發現了一個特殊的現象,同在一臺交換機下的服務器、硬盤錄像機和磁盤陣列互相Ping會出現丟包嚴重的現象。
為了排除故障,我們配置了該分中心的備用交換機,問題依然存在,但是只要斷開該交換機的上聯口,這些設備之間互相Ping是沒有問題的。
通過上面一系列的排查可以確定,引起故障的環節不在分中心。
接下來繼續排查上游設備——城區傳輸設備C5566。使用命令show interface查看了連接分中心的端口流量已經達到了100%,可是據該分中心攝像頭總數不足20路,怎么會有這么大的流量呢?
該傳輸設備上共連接了3個分中心,目前其他兩個分中心業務正常,只是視頻監控畫面出現了卡頓的現象。使用命令show interfacer gig1/18查看了傳輸設備連接OLT端口的利用率,已經達到87%。為了保證OLT至傳輸設備間的鏈路暢通,我們決定使用鏈路聚合來實現兩臺設備間的鏈路擴容,配置命令如下:



上面我們分別在C5566和OLT上配置了鏈路聚合,做完這些操作后,可以看到流量已經逐漸在兩個端口上進行分擔,這說明已經實現了鏈路的擴容。完成這一小插曲后,繼續處理指揮中心至分中心的網絡故障。為了進一步排查故障,嘗試將該傳輸設備上的其他在用的端口都關閉,發現問題依然存在。
在文章的開頭我們介紹了分中心和指揮中心的通訊依靠的是路由,即VLAN2,然后通過VLAN2達到調看分中心圖像的目的,這樣就會在C5566和OLT之間使用TRUNK端口,即允許互聯VLAN2和業務VLAN120通過,我們上面所做的Ping測試都是在10.0.0.1上Ping的 10.0.0.10,這是互聯VLAN2的地址。在這里我們做一個假設,如果將該端口的VLAN120刪除那么VLAN2會正常嗎?按照這一思路我們將該端口的VLAN120刪除后,果然可以在指揮中心Ping通分中心VLAN2的地址10.0.0.10。故障分析到這里變得撲朔迷離起來,那么為什么端口一加入VLAN120,就會影響VLAN2通訊呢?
按照網絡層次的劃分,仔細檢查了端口的配置,均沒有發現問題。既然數據鏈路層沒有發現問題,那么就需要對物理層展開排查。物理層兩臺設備互聯無非的物理端口、光纖和光模塊,光纖和光模塊我們進行了更換,均沒有奏效。因為C5566上已經沒有了空余端口,索性將該分中心連接到了OLT上,就在配置完OLT的端口并且連接完光纖后,網絡恢復了正常,在指揮中心可以正常Ping通分中心的互聯地址,同時調看分中心的視頻圖像也是沒有問題的,這樣故障就排除了。
經過這次故障的排除,我們可以斷定,是C5566上的端口出現了故障。為了驗證這一說法,我們將C5566連接的其他正常分中心業務的端口,連接到出現故障的分中心上,網絡也是正常的,也就是說C5566上連接故障分中心的端口出現了問題,才導致指揮中心訪問分中心出現故障。
在以往處理網絡故障的時候,我們時常遇到交換機端口損壞的情況。但是在這次故障的排查過程中,遇到光口損壞還是第一次,而且該端口損壞后,出現的現象還很特殊,即端口利用率達到100%和VLAN之間互相影響。
其實在這次網絡故障的處理過程中,從得知故障現象后,我們按照自上而下的方式進行排查,先后在分中心、數據基站采用了排除法和假設的辦法,最終將故障的原因鎖定在了C5566的光口上,最后通過更換端口的方式達到了處理故障的目的。在此過程中我們還完成了設備間鏈路聚合的小插曲。