曲瑞超
(赤峰學院 計算機科學與技術系,內蒙古 赤峰 024000)
淺談網絡故障的診斷與排除
曲瑞超
(赤峰學院 計算機科學與技術系,內蒙古 赤峰 024000)
本文從網絡管理人員的角度出發,根據目前網絡設計及運行中出現的各種問題,按OSI網絡參考模型的層次,系統介紹了網絡故障的診斷、排查、定位及解除的方法.
網絡故障;故障診斷;故障定位;故障排除
網絡故障診斷是一門綜合性技術,涉及網絡技術的各個方面.它以網絡原理、網絡配置和網絡運行的知識為基礎,從故障現象出發,以網絡診斷工具為手段獲取診斷信息,確定網絡故障點,查找問題的根源,排除故障,恢復網絡正常運行.
網絡故障診斷應該實現三方面的目的:確定網絡的故障點,恢復網絡的正常運行;發現網絡規劃和配置中欠佳之處,改善和優化網絡的性能;觀察網絡的運行狀況,及時預測網絡通信質量.
網絡故障原因有以下幾種可能:物理層中物理設備相互連接失敗或者硬件及線路本身的問題;數據鏈路層的網絡設備的接口配置問題;網絡層網絡協議配置或操作錯誤;傳輸層的設備性能或通信擁塞問題;網絡服務或網絡應用程序錯誤.
診斷網絡故障的過程應該沿著OSI七層模型從物理層開始向上進行.首先檢查物理層,然后檢查數據鏈路層,以此類推,設法確定通信失敗的故障點,直到系統通信正常為止.
一般來說,網絡故障以某種癥狀表現出來,對每一個癥狀使用特定的故障診斷工具和方法都能查找出一個或多個故障原因.可以對此進行逐步排除,以縮小搜索范圍并達到隔離錯誤的目的.具體方法和步驟如下:第一步,當分析網絡故障時,首先要清楚故障現象.要確定故障的具體現象,然后確定造成這種故障現象的原因的類型.第二步,收集需要的用于幫助隔離可能故障原因的信息.向用戶、網絡管理員、管理者和其他關鍵人物提一些和故障有關的問題.廣泛的從網絡管理系統、協議分析跟蹤、路由器診斷命令的輸出報告或軟件說明書中收集有用的信息.第三步,根據收集到的情況考慮可能的故障原因并根據有關情況排除某些故障原因,以縮小搜索范圍.第四步,根據最后的可能的故障原因,建立一個診斷計劃.開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態.如果一次同時考慮一個以上的故障原因,試圖返回故障原始狀態就困難了.第五步,執行診斷計劃,認真做好每一步測試和觀察,進行錯誤隔離和剔除,直到故障癥狀消失.每改變一個參數都要確認其結果并對結果進行分析以確定問題是否解決,如果沒有解決,繼續下去,直到解決.第六步,處理完問題,作為網絡管理人員,還有必要清楚故障的原因,并對此作出分析并擬定相應對策以避免類似故障的再次發生.
有了以上的理論基礎,下面就按OSI模型的層次具體的說明一般網絡故障的診斷和排除過程.
物理層的故障主要表現在設備的物理連接方式是否恰當;連接電纜是否正確;網卡、跳線、信息插座,HUB、MODEM等物理層設備的配置及操作是否正確.
3.1.1 故障表現
故障計算機無法連接至網絡,不能實現與其他計算機的通信;
計算機雖然可以接入網絡,但是,數據傳輸速度非常慢,或者計算機性能大幅下降;
故障只涉及一臺計算機,其它計算機的網絡不受影響;
系統提示“網絡電纜沒有插好”,計算機無法訪問網絡;
該鏈路所連接的交換機上相應端口的LED指示燈熄滅.
3.1.2 故障分析
線路斷路或短路;
電氣性能或信號衰減過大,主要是由于連接線路質量差造成的;
鏈路中的布線產品不匹配,在同一物理鏈路中,使用不同廠家不同標準不同型號的布線產品,可能會導致產品兼容性問題;
電磁干擾嚴重或傳輸距離超限;
網線、跳線或信息插座故障;
3.1.3 物理層診斷排錯
第一步:查看網卡的指示燈是否正常.正常情況下,在不傳送數據時候,網卡的指示燈閃爍較慢;傳送數據時候,閃爍較快.無論是不亮,還是長亮不滅,都表明有故障存在.如果網卡的指示燈不正常,需關掉計算機更換網卡.如果指示燈閃爍正常,繼續下述步驟.
第二步:在“系統屬性”的硬件選項卡中打開“設備管理器”,查看網卡驅動是否已經安裝或是否出錯.如果列表中沒有網絡適配器,或網絡適配器前方有個黃色“!”,說明網卡沒有安裝好,請刪除網卡,刷新后重新安裝網卡.如果網卡不能安裝,說明已經壞了,更換網卡.如果網卡已經正確安裝,繼續下述步驟.
第三步:用測線器對該連接涉及到的所有網線和跳線進行測試,確認網線的鏈路.最后檢查交換機端口的指示燈是否正常,必要時再換一個端口試試.
數據鏈路層為通過鏈路層的數據進行打包和解包、差錯檢測和一定的校正能力,并協調共享介質.統計表明鏈路故障在網絡故障中占有80%的比重,因此鏈路故障是網絡中經常發生的故障.
3.2.1 鏈路故障的表現
計算機無法登陸至服務器;
計算機在網上鄰居中只能看到自己,而看不到其他計算機,從而無法使用其他計算機上的共享資源和共享打印機;
計算機無法通過局域網接入Internet;
計算機無法在局域網絡瀏覽Web服務器或收發E-mail.
3.2.2 鏈路故障的分析
網絡協議未安裝,或設置不正確;
UPS或交換機電源故障;
交換機硬件故障,或交換機端口硬件故障;
VLAN設置問題;
3.2.3 鏈路故障的排錯步驟
第一步:排除網卡及物理層故障(方法同上述).
第二步:確認鏈路故障:當出現一種網絡應用故障時候,如無法接入Internet,首先嘗試其他網絡應用,如查找網絡中的其他計算機,如果其他網絡應用可正常使用,可排除鏈路故障原因.如果其他網絡應用均無法實現,繼續下述步驟.
第三步:使用ping命令,ping本地的IP地址或127.0.0.1.如果能ping通,說明該計算機的網卡和網絡協議設置都沒有問題,問題出在計算機與網絡的連接上,應當檢查網線鏈路和交換機及交換機端口的狀態.如果無法ping通,只能說明TCP/IP協議有問題,而并不能提供更多的情況,需要繼續下述步驟.
第四步:排除網絡協議故障.查看本地計算機是否安裝有TCP/IP協議,并檢查IP地址、子網掩碼、默認網關和DNS設置是否完全正確,如正確則是網絡連接的問題.
第五步:故障定位.到連接至同一臺交換機上的其他計算機上進行網絡應用測試.如果仍然不正常,在確認網卡和網絡協議都正確安裝的前提下,可初步認定是交換機發生了故障.如果其他計算機測試結果完全正常,則將故障定位在發生故障的計算機與網絡的鏈路上.
第六步:故障排除.如果確定交換機故障,應首先查看交換機上各個指示燈閃爍是否正常.如果所有指示燈都在頻繁的閃爍或一直亮著,可能是由于網卡損壞而發生了廣播風暴,關閉再重新打開交換機電源后試一試看能否恢復正常.如果恢復正常,再找到紅燈閃爍的端口,將網線拔下來,找到該計算機,更換網卡.如果面板一片漆黑,一個燈也不亮,檢查交換機電源是否已經打開,或電源插頭是否接觸不良.如果電源沒有問題,那就的更換一臺交換機了.如果確定故障就發生在某一條連接上,則可按以上物理層故障的方法排除.
沒有協議就沒有網絡.協議之于網絡正如同語言之于人類的交流,因此,協議在網絡中扮演著非常重要的角色.
3.3.1 協議故障表現
計算機無法登錄至服務器;
在網上鄰居中看不到自己,也看不到其他計算機;
在網上鄰居中能看到自己和其他計算機,但無法在局域網絡中瀏覽Web、收發E-mail;
無法通過局域網接入Internet;
重復的計算機名稱或IP.
3.3.2 協議故障分析
協議未安裝:實現局域網絡通信,需安裝Net-BEUI協議;實現Internet通信,需安裝TCP/IP協議;
協議配置不正確:TCP/IP協議涉及到的基本配置參數有4個,即IP地址、子網掩碼、DNS和默認網關,任何一個設置錯誤,都有可能導致故障發生;
網絡中有兩個或兩個以上的計算機使用同一計算機名.
3.3.3 協議故障排錯方法
第一步:檢查計算機是否安裝有TCP/IP協議和NetBEUI協議,如果沒有,建議安裝這兩協議;
第二步:檢查計算機的TCP/IP配置參數是否正確.如設置有問題,修改后重啟再測試;
第三步:使用Ping命令,測試與其他計算機和服務器的連接狀況;
第四步:對于不能實現文件或打印機共享的,可在本地連接屬性中查看是否添加了“Microsoft網絡的文件及打印共享”協議,并進一步確定相應的設備和文件已經啟用了共享.
第五步:對計算機重名的,重新為該計算機命名,使其在網絡中具有唯一性.
配置錯誤也是導致網絡故障發生的重要原因之一.網絡管理員對服務器、路由器及交換機的的配置不當,或用戶對計算機設置的修改都會產生網絡上的訪問錯誤.
3.4.1 配置故障表現
網絡鏈路測試正常,卻無法連接到網絡,不能與其它計算機通信;
只能與某些計算機,而不是全部計算機進行通信;
計算機能訪問內部網絡中的服務器,但無法接入Internet;
計算機無法登錄至域控制器.
3.4.2 配置故障分析
服務器配置錯誤:如域控制器未設置或已到期的用戶,將無法登錄;服務器配置錯誤導致WEB、FTP等服務停止;代理服務器訪問列表設置不當,限制有權用戶接入Internet;
網絡設備配置錯誤:如路由器訪問列表設置不當導致網絡中所有計算機都無法訪問Internet;三層交換機的路由設置不當,使用戶無法訪問不同Vlan中的計算機等;
用戶配置錯誤:如IP地址設置不當,子網掩碼及網關設置設置錯誤等.
3.4.3 配置故障排錯步驟
第一步:檢查發生故障計算機的相關配置.如發現錯誤,修改后再測試相應的網絡服務,如沒發現錯誤,執行下步.
第二步:測試同一網絡內的其他計算機是否有類似的故障,如有則說明問題出在服務器或網絡設備上.
第三步:如沒有類似故障,也不能服務器和網絡設備存在設置問題,應進一步針對該用戶提供的服務作進一步的檢查.
3.5.1 服務器故障
導致網絡服務故障的可能性包括三個方面,即服務器硬件故障、操作系統故障和網絡服務故障.通常導致網絡故障最主要的原因是操作系統故障,因此當網絡服務故障發生時,首先應當確認服務器是否感染病毒或被攻擊,然后再通過系統日志的記載來查看服務故障的發生情況,必要時進行重啟服務或計算機甚至重新安裝服務等來排除故障,最后如果故障還沒有排除再檢查服務器的硬件.
3.5.2 網絡拓撲故障
一般在網絡的設計初,拓撲結構就已經在功能和故障的避免上有了一定程度的規劃,且經過一段時間的正常使用,出現在這方面的故障不是很多.網絡拓撲引起的故障,多數是由于網絡設備的重新配置或優化而改變了網絡的拓撲結構,或在網絡的主要結構中加入了新的網絡設備從而改變了網絡拓撲結構而發生了故障.此類故障故障的檢測可以通過網絡設計中的拓撲圖很輕松的找到,只要對相應設備的配置作出調整就可以解除.
網絡發生故障是不可避免的.搞好網絡的運行管理和故障診斷工作,提高故障診斷水平是一個日積月累的過程.除了平時的積累,還要注意以下幾方面的問題:認真學習有關網絡技術理論;清楚網絡的結構設計,注意保存網絡拓樸、設備連接、系統參數設置及軟件使用的文檔;了解網絡正常運行狀況、注意收集網絡正常運行時的各種狀態和報告輸出參數;熟悉常用的診斷工具,準確的描述故障現象.
〔1〕李福亮.網絡故障現場處理實踐.電子工業出版社.
〔2〕陳向陽.網絡工程規劃與設計.清華大學出版社.
〔3〕斯桃枝.路由與交換技術.北京大學出版社.
TP393
A
1673-260X(2011)02-0071-03