摘要:對于負責維護重要使命的網絡管理人員來說,在網絡環境出現故障時,及時定位故障并解決故障,迅速恢復網絡運行非常重要。本文探通過OSl分層結構體系探討網絡故障檢測中常用的方法和步驟。
關鍵詞:網絡故障 OSl分層 解決 恢復
隨著社會越來越依賴于信息資源,作為傳遞信息的網絡,其可靠性、穩定性和安全性也顯得越來越重要。當一個網絡出現故障的時候,就意味著網絡要有一段時間不能使用。某些情況下,也意味著災難的到來和巨大的經濟損失。對于負責維護一個負有重要使命的網絡管理人員來說,在網絡環境出現故障時,及時定位故障并解決故障。迅速恢復網絡運行非常重要。診斷網絡故障的過程應該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然后檢查數據鏈路層,以此類推,設法確定通信失敗的故障點,直到系統通信正常為止。網絡診斷可以使用包括局域網或廣域網分析儀在內的多種工具、路由器診斷命令、網絡管理工具和其他故障診斷工具。我們通常使用一個或多個命令收集相應的信息,在給定情況下,確定使用什么命令獲取所需要的信息。
1、網絡故障分層診斷技術
(1)物理層及其診斷:物理層是OSl分層結構體系中最基礎的一層,它建立在通信媒體的基礎上,實現系統和通信媒體的物理接口,為數據鏈路實體之間進行透明傳輸,為建立、保持和拆除計算機和網絡之間的物理連接提供服務。物理層的故障主要表現在設備的物理連接方式是否恰當;連接電纜是否正確;Modem、CSU/DSU等設備的配置及操作是否正確。確定路由器端口物理連接是否完好的最佳方法是使用show interface命令,檢查每個端口的狀態,解釋屏幕輸出信息,查看端口狀態、協議建立狀態和EIA狀態。
(2)數據鏈路層及其診斷:數據鏈路層的主要任務是使網絡層無須了解物理層的特征而獲得可靠的傳輸。數據鏈路層為通過鏈路層的數據進行打包和解包、差錯檢測和一定的校正能力,并協調共享介質。在數據鏈路層交換數據之前,協議關注的是形成幀和同步設備。查找和排除數據鏈路層的故障,需要查看路由器的配置,檢查連接端口共享同一數據鏈路層的封裝情況。每對接口要和與其通信的其他設備有相同的封裝。通過查看路由器的配置檢查其封裝,或者使用show命令查看相應接口的封裝情況。
(3)網絡層及其診斷:網絡層提供建立、保持和釋放網絡層連接的手段,包括路由選擇、流量控制、傳輸確認、中斷、差錯及故障恢復等。排除網絡層故障的基本方法是:沿著從源到目標的路徑,查看路由器路由表,同時檢查路由器接口的IP地址。如果路由沒有在路由表中出現,應該通過檢查來確定是否已經輸入適當的靜態路由、默認路由或者動態路由。然后手工配置一些丟失的路由,或者排除一些動態路由選擇過程的故障,包括RIP或者IGRP路由協議出現的故障。例如,對于IGRP路由選擇信息只在同一自治系統號(AS)的系統之間交換數據,查看路由器配置的自治系統號的匹配情況。
2、網絡故障檢測中常用的方法和步驟
第1步:全面收集信息,并分析故障現象。請操作人員描述正常運行時的情況,并演示故障。如果可能的話,親自去驗證一下所出現的問題。看是否有正常的功能不見了,還是有異常的反應?檢查一下在故障發生之前是否對該節點或是網絡進行了改動。操作人員往往不會理解,改變一些看起來與網絡無關的事可能會導致故障的產生,比如重新安裝軟件及安裝新的適配卡。
第2步:定位故障范圍。一旦確認出現故障,收集所有可能的信息并分析。將故障范圍縮小到一個網段或節點。基于所作的分析,判斷故障是否與一個網段有關,還是局限于一個節點。縮小故障范圍是解決的開始。確認故障是局限于一個節點還是某個網絡設備。如果故障影響不只是一個節點,試著減少總線拓樸結構中的網段,或是重新建一個最小環型或星型拓樸結構中的網絡用于故障診斷。
第3步:故障隔離。如果故障影響整個網段,那么就通過減少可能的故障源來隔離故障。除兩個節點外斷開其他所有的節點。如果這兩個節點能正常通訊,再增加其他節點。如這兩個節點不能通訊,就要對物理層的有關部分,如電纜的接頭、電纜本身或與它們相連的Hub和網卡等進行檢查。其次,如果故障能被隔離至一個節點,可以更換網卡,使用好的網卡驅動程序但絕不能使用該節點現有的網絡軟件或配置文件,或是用一條新的電纜與網絡相連。如果網絡的連接沒有問題,那么檢查一下是否只是某一個應用有問題。使用相同的驅動器或是文件系統運行其他的應用程序。與其他節點比較配置情況,試用應用程序(同樣不要使用現有的軟件或配置文件)。而如果只是一名用戶出現使用問題,檢查涉及該節點的網絡安全系統。檢查是否對網絡的安全系統進行了改變以致影響該用戶。
第4步:排除故障。一旦確定了故障源,那么識別故障類型是比較容易的。對于網絡硬件設備來說,最方便的措施就是簡單地更換,對損壞部分的維修可以以后再進行。對于軟件故障。重新安裝有問題的軟件,刪除可能有問題的文件并且確保你擁有全部所需的文件。
第5步:檢驗故障是否被排除。請操作人員測試一下故障是否依然存在,這可以確保是否整個故障都已被排除。只是簡要地請用戶按正常方法操作有關網絡設備即可,同時請用戶快速地執行其他幾種正常操作。有時解決一個地方的問題會引出別處的問題;有時問題是解決了,但可能會掩蓋其他故障。
在檢修網絡故障的工作中,下面的一些提示很有用:①不要忽略顯而易見的東西。網絡電纜松動是很常見的問題,應檢查插頭、連接器、電纜、集線器和開關等,小事情可能引起大問題。②大多數問題是由人為因素(錯誤)造成的,通過提供網絡配置和作用信息或提供這方面的培訓,可以杜絕其中的大部分錯誤。③要注意解決問題的方式方法,應利用每次測試時收集到的信息去指導測試,如果不能確保所選擇的原始測試環境,就千萬不要根據主觀臆斷轉移到另一個測試環境中。④應廣開思路、靈活變通,不要認為問題的原因太多,不要認為在應用程序級發現的問題就不是下一級引起的。有些人總認為網絡有故障,而另一些人總認為遠程端有問題,某些人如此肯定他們知道問題的原因,以致不管測試的結果。千萬不要重蹈這些覆轍,應測試每一種可能的情況,根據測試結果決定行動。
總之網絡故障診斷以網絡原理、網絡配置和網絡運行的知識為基礎。從故障現象出發,以網絡診斷工具為手段獲取診斷信息,確定網絡故障點,查找問題的根源,排除故障,恢復網絡正常運行。
參考文獻:
[1]蔡立軍.計算機網絡安全技術.中國水利水電出版社,2005.
[2]周凱.廣域網技術應用.重慶大學出版社,2005.