中國衛星海上測控部 焦重波 靳建彬
網絡風暴故障排查解決的一般方法研究
中國衛星海上測控部焦重波靳建彬
網絡中一旦出現網絡風暴,波及面廣,影響大,故障定位難度高,想要短時間內排除故障,首先要了解網絡的拓撲結構,其次要有清晰的排查思路,正確的排查方法。本文通過一個具體的網絡風暴故障案例,研究排查解決網絡風暴故障的一般方法。
網絡風暴;故障排查;方法
一個數據幀或包被傳輸到本地網段 (由廣播域定義)上的每個節點就是廣播;由于網絡拓撲的設計和連接問題,或其他原因導致廣播在網段內大量復制,傳播數據幀,導致網絡性能下降,甚至網絡癱瘓,這就是廣播風暴。本文通過一個具體的網絡風暴故障案例,從故障現象、排查思路、具體操作三個方面,研究了排查解決網絡風暴故障的一般方法。
某船局域網突然出現偶爾斷網現象,每次斷網時間持續一分鐘左右。利用“圖形化PING程序”軟件,通過局域網核心交換機對網內的所有節點交換機進行ping測試,發現每隔二十分鐘到三十分鐘出現一次部分交換機ping連通性異常現象,并且每次出現的異常交換機都不相同,無規律可循,如圖1所示。在核心交換機上進行抓包檢查,未發現明顯異常流量。此次故障出現頻率快,覆蓋面廣,短時間內無法定位。
某船局域網的網絡結構為典型的樹形網絡結構,五個大節點交換機通過光纖收發器進行連接,節點內其余交換機通過網線連接至節點交換機,如圖2所示。五個節點交換機連接的順序是A→B→C→D→E,辦公網服務器區通過核心交換機接入C節點。根據之前的故障現象,經專業組討論,擬定的排查思路:根據故障現象及抓包結果分析,該故障極有可能是網絡中產生了短暫的網絡風暴導致。首先進行交換機、服務器的重啟,確定是否為辦公網本身設備問題;若故障復現,則再繼續確認是否為辦公網的某個用戶導致。通過跨接方式將五個大節點交換機的局域網單個隔離,并進行ping測試,縮小故障范圍。確定故障范圍后,再通過拔插該局域網中的用戶線纜,最終找出故障用戶。

圖2 網拓撲圖
(1)對辦公網交換機進行重啟,重啟約1個小時后,故障復現;
(2)對辦公網服務器進行重啟、并對一些不重要的服務器進行斷網,故障仍然存在;
(3)由于C節點為辦公網的中心節點,因此首先使用跨接的方法將C節點局域網進行隔離,如圖3所示。通過運行“圖形化PING程序”軟件對這兩個局域網的交換機進行ping測試,軟件分別部署在核心交換機和C交換機。測試結果為:核心交換機節點局域網(剝離C節點后)ping測試正常,沒有出現之前的故障現象;C節點局域網的交換機每隔5~10分鐘出現部分交換機ping異常,持續時間1分鐘。這樣,故障范圍縮小至C節點局域網。

圖3 將C節點局域網進行單獨跨接隔離
(4)對C節點局域網進行單獨測試。采用同樣的方法,對該局域網的其他五個交換機進行分別剝離測試,故障依舊。至此,可以判斷故障應該在C交換機上。對C交換機上面的用戶網線進行逐個拔插,同時配合ping測試,發現當將第18口網線拔掉時,故障消失,插上時,故障復現。恢復辦公網絡,在全網環境下進行測試,結果一致,最終故障定位為C交換機第18口用戶。
一般情況下,產生網絡廣播風暴的原因,主要有以下幾種:
(1)網絡設備原因:我們經常會有這樣一個誤區,交換機是點對點轉發,不會產生廣播風暴。但是如果交換機本身發生故障,也可能會產生廣播風暴。
(2)網卡損壞:如果網絡機器的網卡損壞,也同樣會產生廣播風暴。損壞的網卡,不停向交換機發送大量的數據包,產生了大量無用的數據包,產生了廣播風暴。由于網卡物理損壞引起的廣播風暴,故障比較難排除,損壞的網卡一般還能上網,我們可以借用Sniffer等局域網管理軟件,查看網絡數據流量,來判斷故障點的位置。
(3)網絡環路:網絡環路的產生,一般是由于一條物理網絡線路的兩端,同時接在了一臺網絡設備中。曾經在一次的網絡故障排除中,發現一條雙絞線兩端插在同一個交換機的不同端口上,導致了網絡性能驟下降,打開網頁都非常困難。這種故障,就是典型的網絡環路。現在的交換機(不是HUB)一般都帶有環路檢測功能。
(4)網絡病毒:目前一些比較流行的網絡病毒,Funlove、震蕩波、RPC等,一旦有機器中毒后,會立即通過網絡進行傳播。網絡病毒的傳播,就會損耗大量的網絡帶寬,引起網絡堵塞,引起廣播風暴。
網絡風暴破壞力大,故障定位難度高。本文結合一個具體的網絡風暴故障案例,從故障現象、排查思路、具體操作三個方面進行分析,總結出來網絡風暴產生的常見原因,研究了解決網絡風暴故障的一般方法。