王 威
摘要:本文論述了網絡故障的一般分類;一般網絡故障的解決步驟。
關鍵詞:網絡故障;實例;故障排查
當今的網絡互聯環境是復雜的,必須要建立一個系統化的故障處理思想并合理應用于實際中,以將一個復雜的問題隔離、分解,從而及時修復網絡故障。下面簡要介紹一下網絡故障的一般處理方法。
一、網絡故障的一般分類
1. 連通性問題
硬件、媒介、電源故障。
2. 配置錯誤
3. 性能問題
4. 網絡擁塞
5. 到目的地不是最佳路由
6. 供電不足
7. 路由環路
8. 網絡錯誤
二、一般網絡故障的解決步驟
故障處理系統化的基本思想是系統地將由故障可能的原因所構成的一個大集合縮減(或隔離)成幾個小的子集,從而使問題的復雜度迅速下降。
網絡故障解決的一般處理流程:
故障處理的實例:
用戶網段廣播包過多造成該網段的服務器FTP業務傳輸速度慢。
該案例組網如上:某校園網的三個局域網,其中10.11.56.0為一個用戶網段,10.11.56.118為一個日志服務器;10.15.0.0是一個集中了很多應用服務器的網段。
1. 故障現象描述
用戶反映“日志服務器與備份服務器間備份發生的問題”。
這個問題是連續出現,還是間斷出現的?是完全不能備份,還是備份的速度慢(即性能下降)?
哪個或哪些局域網服務器受到影響,地址是什么?
正確的故障現象描述是:
在網絡的高峰期,日志服務器10.11.56.11到集中備份服務器10.15.254.253之間進行備份時,FTP傳輸速度很慢,大約是0.6 Mbps。
2. 相關信息搜集
搜集有助于查找故障原因的詳細信息;
向受影響的用戶、網絡人員或其他關鍵人員提出問題;
根據故障描述性質,使用各種工具搜集情況,如網絡管理系統、協議分析儀、相關display和debug命令等。
3. 經驗判斷和理論分析
我們現在能夠確定是一個網絡性能下降問題。那么,是網段10.11.56.0的性能問題,是中間網絡的性能問題,還是10.15.0.0網段的性能問題呢?
4. 各種可能原因列表
該步驟列出根據經驗判斷和理論分析后總結的各種可能原因。
如上述案例,可能原因如下:
網段10.11.56.0的性能問題,其原因可能為:
日志服務器A的性能問題;
10.11.56.0網絡的網關性能問題;
10.11.56.0網絡本身的性能問題。
5. 對每一原因實施排錯方案
根據所列出的可能原因制訂故障排查計劃,分析最有可能的原因,確定一次只對一個變量進行操作,這種方法使你能夠重現某一故障的解決辦法。如果有多個變量同時被改變,而問題得以解決,那么如何判斷哪個變量導致了故障發生呢?
6. 觀察故障排查結果
當我們對某一原因執行了排錯方案后,需要對結果進行分析,判斷問題是否解決,是否引入了新的問題。如果問題解決,那么就可以直接進入文檔化過程;如果沒有解決問題,那么就需要再次循環進行到故障排查過程。
7. 循環進行故障排查過程
在進行下一循環之前必須做的事情就是將網絡恢復到實施上一方案前的狀態。如果保留上一方案對網絡的改動,很可能導致新的問題。
8. 循環進行故障排查過程
可能原因1:網絡10.11.56.0到網絡10.15.0.0的路由不是最佳路由。
制訂方案:在10.11.56.0網段的網關上使用“tracert 10.15.245.253”命令,發現探測報文返回時長僅為10 ms。
可能原因2:日志服務器A的性能問題。
制訂方案:測試同一網段的主機C和日志服務器間的FTP傳輸速度,是6 Mbps,正常。
可能原因3:10.11.56.0網絡的網關性能問題。
制訂方案:測試主機C和備份服務器B間FTP傳輸速度是7 Mbps,正常。
可能原因4:10.11.56.0網絡本身的性能問題。
制訂方案:在網段10.11.56.0的以太網交換機上使用命令“show mac”,輸出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
----------------- -------
6/3210317812 0 8665
Port Xmit-Unicast Xmit-MulticastXmit-Broadcast
------------------------
6/32 66679872866522474038
(輸出的廣播∶輸出的單播比例為1∶3,太大了。)
PortRcv-Octet Xmit-Octet
------ ---------- --------------
6/32 140948293581516443041
在網段10.15.0.0上的以太網交換機上使用命令“show mac”輸出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
-------- ---------- ---------
6/36 557802870285
Port Xmit-UnicastXmit-Multicast Xmit-Broadcast
-------- -------------- - -------
6/36 27879749190257119430
(廣播∶單播比例=1∶270,屬于正常。)
Port Rcv-Octet Xmit-Octet
-------- ------------ ------------
6/3667172587081 4998816809
由此得知,網段10.11.56.0上廣播包和單播包比例為1∶3,確實太大了。
這是一個網絡布局不恰當的問題,需要重新安排服務器的位置,將服務器移動10.15.0.0網段后,故障解決。
9. 故障處理過程文檔化
當最終排除了網絡故障后,流程的最后一步就是對所做的工作進行文字記錄。
文檔記錄主要包括以下幾個方面:
故障現象描述及收集的相關信息;
網絡拓撲圖繪制;
網絡中使用的設備清單和介質清單;
網絡中使用的協議清單和應用清單;
故障發生的可能原因;
對每一可能原因制訂的方案和實施結果;
本次排錯的心得體會。
參考文獻:
[1]周明天.TCP/IP網絡原理與技術[M].北京:清華大學出版社,1996.
[2]王旭,張軍譯.程序員參考手冊[M].北京:清華大學出版社,2004.
(遼陽市遼化職業中專)