高榮民
(扎煤公司培訓中心,內蒙古滿洲里 021412)
淺談計算機網絡故障的診斷與排除
高榮民
(扎煤公司培訓中心,內蒙古滿洲里 021412)
當今世界計算機是人類工作、生活不可缺少的一部分,無論是教學、醫療、軍事等等,都是在計算機的精確計算下得到了突飛猛進的發展,但是網絡故障又是一件令人頭疼又不能不面對的一個話題。對于局域網絡而言,網絡故障大致可分為四類:即鏈路故障、配置故障、協議故障和服務器故障。鏈路故障通常是由于接插件松動或設備件損壞所致,而其他故障往往是人為的設置所致。由此可見在檢查和定位網絡故障時,必須認真地考慮可能出現故障的原因,以及應當從哪里開始著手,一步一步進行追蹤和排除,直至恢復網絡的暢通。
網絡設備;故障診斷;排除
雖然故障千奇百怪,出現故障的原因多種多樣,但總體來說就是硬件問題和軟件問題,即網絡連接性問題、配置文件和選項問題、網絡協議問題及網絡拓撲問題等。
1.1 網絡鏈路
網絡鏈路是故障發生后首先應當考慮的主要原因。鏈路的問題通常是由網卡、跳線、信息插座、網線、交換機等設備和通信介質引起的。例如,當某一臺計算機不能瀏覽wed時,首先想到的就是網絡鏈路的問題,這就要通過測試來驗證。FTP是否可以登錄,是否看得到網上鄰居,是否可以收發電子郵件,Ping是否能得到網絡內同一網段的其他計算機,只要其中一項回答為YES,那就不是鏈路的問題。當然,即使回答為NO,也不表明鏈路肯定有問題,而是可能會有問題,因為如果計算機網絡協議的配置出了毛病也會導致上述現象的發生。另外,觀看網卡和交換機的指示燈是否閃爍及閃爍正常。
1.2 配置文件和選項
所有的交換機和路由器都有配置文件,所有的服務器、計算機都有配置選項,而其中任何一臺設備的配置文件和配置選項設置不當,同樣會導致網絡故障。例如,路由器的訪問列表配置不當,會導致Internet連接故障;交換機的VLAN設置不當,會導致VLAN間的通信故障,彼此之間都無法訪問,更不用說訪問Internet了;服務器權限的設置不當,會導致資源無法共享或無法獲得足夠權限的故障;計算機網卡配置不當,會導致無法連接的故障等。因此,當排除硬件故障之后,就需要重點檢查配置文件和選項的故障了。當某一臺計算機無法接入網絡,或者無法同連接至同一交換機的其他計算機通信時,應當檢查接入交換機的配置;當同一VLAN或幾個VLAN內的交換機無法訪問時,應當檢查接入、匯聚或核心交換機的配置;當所有交換機都無法訪問Internet時,就應當檢查路由器或代理服務器的配置;當個別服務無法實現時,應當檢查提供相應服務的服務器配置。
1.3 網絡協議
網絡協議,其實就是在網絡設備和計算機網絡中彼此“交談”時所有的語言。因此,如果說沒有網絡協議就沒有網絡,這句話一點都不過分。沒有網絡協議,網絡內的網絡設備和計算機之間就無法進行通信,所有的硬件設備也不過都是一堆擺設而已。這就如同沒有操作系統和應用軟件,計算機就是一具沒有靈魂的軀殼。因此,網絡協議的配置在網絡中居于舉足輕重的地位,決定著網絡能否正常運行。網絡協議的含義非常廣泛,既包括交換機和路由器執行的網絡協議,也包括計算機和路由器執行的網絡協議。其中任何一個協議配置不當,沒有正常工作,都有可能導致網絡癱瘓,或者導致某些服務被終止,從而出現網絡故障。
1.4 網絡服務故障
網絡服務故障主要包括3個方面,即服務器硬件故障、網絡操作系統故障和網絡服務故障。所有的網絡服務都必須進行嚴格的配置或授權,否則就會導致網絡服務故障。例如,服務器權限的設置不當,會導致資源無法訪問的故障;主目錄或默認文件指定錯誤,會導致Web網站發布錯誤;端口映射錯誤會導致無法提供某種服務等。因此,當排除硬件故障之后,就需要重點檢查配置文件和選項的故障了。當企業網絡內所有的服務都無法實現時,應當檢查網絡設備的配置,尤其是連接網絡服務器的交換機的配置;如果只有個別服務無法實現時,則應當檢查提供相應網絡服務的相關配置。
在開始動手排除故障之前,最好先準備一支筆和一個筆記本,將故障現象認真仔細地記錄下來。也就是說,應當養成一種良好習慣,在開始著手進行排除故障時就開始做筆記,而不是在事情做完之后才來做。認真而詳實地記錄,不僅有助于一步一步地記錄問題、跟蹤問題并最終解決問題,而且,也為自己或同事以后解決類似問題時提供完整的技術文檔和幫助文件。注意在觀察和記錄時一定要注意細節。
2.1 識別故障現象
網絡管理員在進行故障排除之前,必須確切地知道網絡上到底出了什么毛病,是不能共享資源,還是不能瀏覽Web,或是不能登錄QQ等。知道出了什么問題并能夠及時識別,是成功排除故障最重要的步驟。對一名優秀網絡管理員的最基本要求,首先就是對問題進行快速定位。也就是說,能夠及時找到處理問題的出發點。
為了與故障現象進行對比,必須非常清楚網絡的正常運行狀態。因此,了解網絡設備、網絡服務、網絡軟件、網絡資源在正常狀態下的表現方式,了解網絡拓撲結構、理解網絡協議、掌握操作系統和應用程序,都是故障排除必不可少的理論和知識準備。再次強調,在識別故障現象之前,必須明了網絡系統的正常運行特性。
識別故障現象之時,應該詢問以下幾個問題:(1)當被記錄的故障現象發生時,正在運行什么進程?(2)這個進程以前運行過嗎?(3)以前這個進程的運行是否成功?(4)這個進程最后一次成功運行是在什么時候?(5)故障現象是什么?
2.2 對故障現象進行詳細描述
當處理由用戶報告的問題時,對故障現象的詳細描述顯得尤為重要。當用戶說無法瀏覽Web網站時,僅憑這些信息,恐怕任何人都無法做出準確的判斷。這就要親自動去現場操作,運行一下那個程序,并注意出錯信息。例如,在使用Web瀏覽器進行瀏覽時,無論輸入哪個網址都返回“該頁無法顯示”之類的信息;使用Ping程序時,無論Ping哪個IP地址,都顯示超時連接信息等,諸如此類的出錯信息會為縮小問題范圍提供許多有價值的信息。注意一個錯誤信息,并在用戶手冊中找到它們,從而得到關于該問題更詳細的解釋,是解決問題的關鍵。另外,親自到故障現場進行操作,也有機會檢查用戶操作系統或應用程序是否運行正常,各種選項和參數是否設定正確。如果在操作時沒有任何問題,那就可能是操作者的問題了。不妨讓用戶再試一次,并認真監督他的每一步操作,以確保所有的操作和選項都被正確地執行并設置。
當然,在親自操作時,應當對故障現象作出詳細的描述,認真記錄所有的出錯信息,并快速記錄所有有關的故障跡象,制作詳盡的故障筆記。實際上它們究竟表明了什么,這些故障現象是否相互聯系呢?在尋找問題答案的過程中,很有可能又導致更多的故障現象產生。所以在開始排除故障之前,應按以下步驟執行:
(1)收集有關故障現象的信息。(2)對問題和故障現象進行詳細的描述。(3)注意細節。(4)把所有的問題都記下來。
2.3 列舉可能導致錯誤的原因
接下來要做的就是列舉所有可能導致故障現象的原因了。網絡管理員應當考慮導致無法瀏覽Web的原因可能有哪些,網卡硬件故障、網絡連接故障、網絡設備故障、TCP/IP協議設置不當等。在這個階段不要試圖去找出哪一個原因就是問題的所在。只要盡量多地記錄下自己所能想到的,而且是可能導致問題發生的原因就可以了。或許認為可以根據出錯的可能性把這些原因按優先級別進行排序。注意千萬不要忽略其中的任何一個細節。
2.4 縮小搜索范圍
網絡管理員必須采用有效的軟、硬件工具,從各種可能導致錯誤的原因中一一剔除非故障因素。對所有列出的可能導致錯誤的原因逐一進行測試,而且不要根據一次測試,就斷定某一區域的網絡是運行正常或是不正常。另外,也不要在自己認為已經確定了的一個錯誤上停下來,而不再繼續測試。因為此時既可能是搞錯了,也有可能存在的錯誤不止一個。所以,應該使用所有可能的方法來測試所有的可能性。
除了測試之外,還要注意做以下幾件重要的事情:
千萬不要忘記查看網卡、交換機和路由器面板上的LED指示燈。通常情況下,綠燈表示連接正常;紅燈表示連接故障;不亮表示無連接或線路不通;長亮表示廣播風暴;指示燈有規律地閃爍才是網絡正常運行的標志。
千萬不要忘記查看服務器、交換機或路由器的系統日志,因為在這些系統日志中,往往記載著產生的錯誤及錯誤發生的全部過程。
如果有幸擁有并安裝了諸如CiscoWorks、HP OpenView之類的網絡管理軟件,千萬不要忘記用它們來檢查一下哪些設備出現了問題。一些網絡管理軟件往往具有圖形化的用戶界面,因此,交換機各端口的工作狀態可以一目了然地顯示在屏幕上。除此之外,許多網絡管理軟件還具有故障預警和報警功能,從而在縮小搜索范圍時省下不少的力氣。
當然,在這一步驟中最不能忘記的還是要記錄下所有的觀察及測試的手段和結果。
2.5 隔離錯誤
網絡管理員經過反復的測試,此時也明白了到底是哪一部分故障導致了問題的發生,并最終確定很有可能是計算機出錯了。于是便開始檢查該計算機網卡是否安裝好、TCP/IP協議是否安裝并設置正確、Web瀏覽器的連接設置是否得當等一切與已知故障現象相關的內容。然后剩下的事情就是排除這個故障了。此時,由于對所發生的故障已經有了充分的了解,那么,故障排除也就手到擒來了。但是,不要就此匆忙地結束工作,因為還有更重要的事情等著去做。
2.6 故障分析
作為網絡管理員,必須搞清楚故障是如何發生的,是什么原因導致了故障的發生,以后如何避免類似故障的發生,擬定相應的對策,采取必要的措施,制定嚴格的規章制度。
對于一些非常簡單明顯的故障,上述過程看起來可能會顯得有些煩瑣。但對于一些復雜的問題,這卻是必須遵循的操作規程。
最后,記錄所有的問題,并保存所有的記錄。經常回顧曾經處理過的故障也是一種非常好的習慣,這不僅是一種經驗的積累,便于以后處理類似故障,而且還會啟發思考許許多多與此相關聯的問題,從而進一步提高理論和技術水平。
網絡的故障多種多樣,不同的故障有不同的表現形式。在分析故障時要通過各種現象靈活運用排除方法,例如,排除法、對比法、替換法等。在實際應用中,要根據不同的故障現象使用不同的方法,或者幾種方法綜合使用。
3.1 排除法
排除法主要是指根據所觀察到的故障現象,盡可能全面地列舉出所有可能導致故障發生的原因,然后逐一分析、診斷、排除。
使用排除法,雖然可應付各種各樣的網絡設備故障,但要求網絡管理員擁有深厚的理論功底、豐富的實踐經驗、較強的邏輯思維能力,并且全面了解、掌握并靈活運用各種網絡測試工具和管理工具,善于分析問題和解決問題。同時,由于導致故障現象發生的因素比較復雜,往往是一因多果或一果多因,因此,在解決和排除故障時,會耗費較多的時間。因此可見,應當仔細觀察故障現象,并根據經驗依次排列可能的故障原因,先從最可能導致故障的原因開始調查,從而縮短故障定位和解決問題所用的時間。
歸根到底,其他所有故障排除方法都是從排除法演變而來,包括對比法和替換法,只是對比法和替換法在某些場合中比排除法更具有針對性。
3.2 對比法
顧名思義,就是對比故障設備和非故障設備之間的“軟”、“硬”差異,從而找出可能導致故障的原因。可用于對比的內容包括:
網絡設備。當網絡設備所連接的所有計算機都發生通信故障時,可對比型號和配置完全相同的網絡設備。比如,某建筑物內擁有4臺型號和配置完全相同的交換機,當其中一臺交換機所連接的計算機發生通信故障時,就可以與另外3臺交換機進行對比,查看各種LED指示燈、配置文件、運行狀態(如CPU、內存、帶寬占用率)有什么差異。
端口(包括GBIC/SFP插槽)。當連接至某個端口的計算機或網絡設備發生通信故障時,可對比類型和配置完全相同的端口或插槽。比如,當某個端口或插槽發生連接故障時,可以用與之類型和用途(例如,都用于連接至劃分有多VLAN的網絡設備)完全相同的端口或插槽進行對比,比較LED指示燈、端口狀態(up還是down)、端口設置(如端口屬性設置、VALN或Trunk設置、認證安全設置等)是否相同。
線卡。當連接至某個線卡的計算機或網絡設備發生通信故障時,對比型號完全相同、配置基本相同的線卡,查看各端口工作狀態、配置文件的差異。
系統配置。當配置修改后發生故障時,可對比配置修改前和修改后的網絡設備工作情況,以及其他有相同或類似用途、配置基本相同的網絡設備的運行狀態。
系統映像。對比安裝相同版本、更高版本系統映象的其他同型號網絡設備的工作是否正常。
使用與所懷疑發生故障的網絡設備完全相同的設備進行替換,或使用相同的端口、插槽或模塊進行替換,并對兩臺設備或端口的不同連接進行對比,在對比結果中找出故障點并進行排除。這種方法雖然簡單有效,但有時可能出現故障的設備不止一臺,那么排除起來就會非常麻煩了。
3.3 替換法
替換法從某種意義上來說與對比法是相同的,都是使用已知正常的網絡設備或網絡設備部件進行替換,并打出故障的部件進行排障。替換法主要用于網絡設備硬件故障的診斷,但需要注意的是,替換的部件必須是相同品牌、相同型號的同類網絡設備才行。同時,替換法還是平時維修計算機的一種方法,可以說該方法在硬件維護方面的應用是非常廣泛的。可用于替換的內容包括:
網絡設備。當網絡設備(特別是固定端口網格設備和傻瓜網絡設備)所連接的所有計算機都發生通信故障,懷疑網絡設備主板發生故障時,可以用型號和配置完全相同的網絡設備進行替換。
端口(包括GBIC/SFP插槽)。當連接至某個端口的計算機或網絡設備發生通信故障時,可以將跳線連接至其他類型和配置相同的端口進行測試。
交換引擎。當整個網絡癱瘓時,可以使用相同型號的管理引擎進行替換,并導入預先備份的配置文件,然后測試網絡是否恢復正常。
線卡。當連接至某個線卡的計算機或網絡設備發生通信故障,懷疑線卡發生故障時,使用型號完全相同的線卡替換,插入原有GBIC/SFP模塊并連接原有設備,重新激活各端口,然后測試各端口工作狀態和網絡連通性。
GBIC/SFP模塊。當連接至某個插槽的計算機或網絡設備發生通信故障,懷疑GBIC/SFP模塊損壞時,可以用型號完全相同的GBIC/SFP模塊替換并測試。
鏈路。當網絡設備之間、網絡設備與其他網絡設備之間、網絡設備與網絡終端設備之間的通信發生故障,懷疑光纖或雙絞線跳線、網絡物理鏈路有問題時,可以使用測試或使用正常的跳線和鏈路替換,而后再進行連通性測試。
系統配置文件。當配置修改后發生故障,懷疑配置文件錯誤時,可用預先備份的配置文件替換現有配置文件;或者將其他類似網絡設備的配置文件導出,并作適當修改后,替換現有配置文件,測試網絡通信是否恢復正常。
系統映像。當系統運行不穩定、頻繁癱瘓、屢遭攻擊時,替換為最新版本,然后觀察系統運行狀態。
在排除網絡故障時,絕不能沒有目的地亂碰運氣,而應當遵循應有的規則和策略,只有如此,才能有條不紊地、以最快的速度定位和排除故障。
4.1 先易后難
排除網絡設備故障應當和平時工作一樣,先從最簡單位、最有可能的導致故障的原因開始,逐一進行排除。網絡管理員應將導致某種故障的所有原因一一列出,然后再從中挑選出發生概率最大、可能性最高、最易于診斷和排除的原因,并由此入手,這樣才能提高故障排查的速度。例如,當某個端口所連接的計算機發生通信故障時,應當先使用網絡管理軟件,或者遠程登錄至該網絡設備,查看故障端口的工作狀態。或許故障原因就是端口由于某種原因down掉了。這樣,只需在Cisco CAN中enable該端口,即可恢復該端口的連接。
當使用enable無法解決問題時,再查看網絡設備的配置,是否有訪問列表或其他設置影響到計算機的訪問。
確認配置沒有錯誤后,到發生故障的網絡設備處,將發生故障的跳線連接到其他相同類型和配置的端口,查看故障是否恢復。
如果故障仍未恢復,再查看用戶計算機網卡工作狀態是否正常,驅動是否正確安裝,IP地址信息設置是否正確。
如果客戶端確認無誤,再測試故障計算機整體鏈路(包括水平布線、信息插座至計算機的跳線、配線架至網絡設備的跳線)的連通性。
4.2 先軟后硬
與解決計算機故障類似,在排除網絡設備故障時,也采用先“軟”后“硬”的原則。所謂“軟”就是指應當先借助網絡管理工具軟件,遠程查看網絡設備的各種配置(包括三層路由配置,訪問列表配置,端口屬性配置,VLAN和VLAN Trunk配置等)、客戶端的IP地址信息、端口的工作狀態、網絡設備的性能(CPU和內存占用情況等)和運行狀態,確認是否由系統軟件配置等“軟”因素導致了網絡設備故障。然后,再試圖用修改系統配置文件、升級系統軟件、重新激活端口或VLAN的方式,修復網絡設備的“軟”故障。
所謂“硬”,是指在“軟”的手段不能奏效,進而懷疑端口、模塊、板卡甚至網絡設備本身,以及網絡鏈路發生故障時,以替換相應硬件或鏈路的方式,修復網絡設備的“硬”故障,恢復正常通信。
例如,當某臺計算機無法連接到網絡時,應當先查看可能導致該故障的“軟”的問題,包括:
網絡設備端口是否處于UP狀態,激活該端口。
網絡設備端口是否指定到正確的VLAN,重新將該端口指定至相應的VLAN。
網絡設備端口的傳輸速率、雙工模式設置是否正確。如果是雙絞線端口,可以設置為自適應速率;如果是光纖端口,則應當與網卡的傳速率和工作模式相同。
網絡設備端口是否配置有基于端口的安全認證和策略。如果設置有安全策略,可以先刪除這些策略,然后再進行測試。
網卡是否正常工作。如果處于被禁用狀態,應當啟用并激活該網絡連接。
網卡驅動程序是否正確。如果不正確,試著下載最新版的驅動程序。
網卡的IP地址信息設置是否正確。如果不正確,應當重新設置IP地址信息。然后,再檢查并排除可能導致該故障的“硬”的問題,包括:
將跳線連接至另一個能夠正常工作的、同一VLAN的端口,查看網絡通信能否恢復正常。
測試整個物理鏈路是否暢通,然后再逐段測試可能的鏈路故障,并更換有問題的跳線,重新打制發生故障的模塊(或更換模塊)和配線架端口。
更換計算機的網卡,重新安裝網卡驅動程序和TCP/IP協議,并設置正確的IP地址信息。
4.3 先邊緣后核心
所謂先邊緣后核心,是指在診斷和隔離網絡故障時,應當先從最邊緣的客戶端開始,依次向接入層、匯聚層和核心層進行,進而定位發生故障的位置,判斷發生故障的設備,分析發生故障的原因。
例如,當某個客戶端無法建立與網絡的連接時,所執行的診斷過程如下:
(1)測試同一接入層交換機上、處于同一VLAN的其他客戶端。如果同一接入交換機上、處于同一VLAN的其他客戶端能夠正常通信,則將故障定位在故障計算機,以及其所連接的端口(如物理損壞或配置錯誤)和所使用的物理鏈路上(如水平布線故障、跳線故障等)。否則,可能是接入層交換機與匯聚層交換機的連接發生故障,或是匯聚層交換機配置錯誤。
(2)測試同一接入層交換機上、處于其他VLAN的其他客戶端。如果同一接入交換機上處于其他VLAN的客戶端能夠正常通信,則將故障定位在故障用戶所連接的接入層交換機上。否則,可能是接入層交換機與匯聚層交換機的連接(如端口故障、配置錯誤、跳線故障等)發生故障,或者是匯聚層同配置錯誤。
(3)測試連接至同一匯聚交換機的其他接入層交換機上的計算機。如果連接至同一匯聚交換機上的其他交換機可以實現與網絡的通信,那么,可以將故障定位在匯聚交換機與接入交換機的連接上(如端口故障、配置錯誤、垂直主干布線故障、跳線故障等)。否則,可能是匯聚交換機與核心交換機之間的連接發生故障,甚至是核心交換機發生故障。
(4)測試連接至核心交換機中同一線卡上的其他匯聚層交換機。如果連接于同一線卡上的其他匯聚交換機連接正常,那么故障可能是線卡端口與匯聚交換機上行端口連接故障(如端口故障、配置錯誤、建筑群主干布線故障、跳線故障等)。否則可能是線卡故障或配置故障。
(5)測試核心交換機上其他線卡所連接的匯聚層交換機。如果連接至不同線卡的交換機都無法正常連接,則可能是核交換機配置錯誤,或者是交換引擎故障,甚至是系統映像故障。
通常情況下,網絡發生故障的可能性比較小。與之相對應,網絡鏈路由于接插件比較多,而任何一個接插件的松動或故障,都可能導致物理鏈路的中斷。因此,在發生網絡故障時,如果確認是物理硬件故障,那么,應當先檢查鏈路的完整性,而后再查看端口或設備是否發生故障。
例如,當某臺計算機無法連接至網絡時,在排除軟件故障后,接下來要做的第一件事就是使用測線儀測試整個物理鏈路的連通性。確認鏈路連通完好后,再試著更換計算機所連接的交換機端口、插槽、模塊,或者更換網卡。
TP393
A
1003-5168(2014)04-0007-04