高榮民
(扎煤公司培訓中心,內(nèi)蒙古滿洲里 021412)
淺談計算機網(wǎng)絡(luò)故障的診斷與排除
高榮民
(扎煤公司培訓中心,內(nèi)蒙古滿洲里 021412)
當今世界計算機是人類工作、生活不可缺少的一部分,無論是教學、醫(yī)療、軍事等等,都是在計算機的精確計算下得到了突飛猛進的發(fā)展,但是網(wǎng)絡(luò)故障又是一件令人頭疼又不能不面對的一個話題。對于局域網(wǎng)絡(luò)而言,網(wǎng)絡(luò)故障大致可分為四類:即鏈路故障、配置故障、協(xié)議故障和服務(wù)器故障。鏈路故障通常是由于接插件松動或設(shè)備件損壞所致,而其他故障往往是人為的設(shè)置所致。由此可見在檢查和定位網(wǎng)絡(luò)故障時,必須認真地考慮可能出現(xiàn)故障的原因,以及應(yīng)當從哪里開始著手,一步一步進行追蹤和排除,直至恢復網(wǎng)絡(luò)的暢通。
網(wǎng)絡(luò)設(shè)備;故障診斷;排除
雖然故障千奇百怪,出現(xiàn)故障的原因多種多樣,但總體來說就是硬件問題和軟件問題,即網(wǎng)絡(luò)連接性問題、配置文件和選項問題、網(wǎng)絡(luò)協(xié)議問題及網(wǎng)絡(luò)拓撲問題等。
1.1 網(wǎng)絡(luò)鏈路
網(wǎng)絡(luò)鏈路是故障發(fā)生后首先應(yīng)當考慮的主要原因。鏈路的問題通常是由網(wǎng)卡、跳線、信息插座、網(wǎng)線、交換機等設(shè)備和通信介質(zhì)引起的。例如,當某一臺計算機不能瀏覽wed時,首先想到的就是網(wǎng)絡(luò)鏈路的問題,這就要通過測試來驗證。FTP是否可以登錄,是否看得到網(wǎng)上鄰居,是否可以收發(fā)電子郵件,Ping是否能得到網(wǎng)絡(luò)內(nèi)同一網(wǎng)段的其他計算機,只要其中一項回答為YES,那就不是鏈路的問題。當然,即使回答為NO,也不表明鏈路肯定有問題,而是可能會有問題,因為如果計算機網(wǎng)絡(luò)協(xié)議的配置出了毛病也會導致上述現(xiàn)象的發(fā)生。另外,觀看網(wǎng)卡和交換機的指示燈是否閃爍及閃爍正常。
1.2 配置文件和選項
所有的交換機和路由器都有配置文件,所有的服務(wù)器、計算機都有配置選項,而其中任何一臺設(shè)備的配置文件和配置選項設(shè)置不當,同樣會導致網(wǎng)絡(luò)故障。例如,路由器的訪問列表配置不當,會導致Internet連接故障;交換機的VLAN設(shè)置不當,會導致VLAN間的通信故障,彼此之間都無法訪問,更不用說訪問Internet了;服務(wù)器權(quán)限的設(shè)置不當,會導致資源無法共享或無法獲得足夠權(quán)限的故障;計算機網(wǎng)卡配置不當,會導致無法連接的故障等。因此,當排除硬件故障之后,就需要重點檢查配置文件和選項的故障了。當某一臺計算機無法接入網(wǎng)絡(luò),或者無法同連接至同一交換機的其他計算機通信時,應(yīng)當檢查接入交換機的配置;當同一VLAN或幾個VLAN內(nèi)的交換機無法訪問時,應(yīng)當檢查接入、匯聚或核心交換機的配置;當所有交換機都無法訪問Internet時,就應(yīng)當檢查路由器或代理服務(wù)器的配置;當個別服務(wù)無法實現(xiàn)時,應(yīng)當檢查提供相應(yīng)服務(wù)的服務(wù)器配置。
1.3 網(wǎng)絡(luò)協(xié)議
網(wǎng)絡(luò)協(xié)議,其實就是在網(wǎng)絡(luò)設(shè)備和計算機網(wǎng)絡(luò)中彼此“交談”時所有的語言。因此,如果說沒有網(wǎng)絡(luò)協(xié)議就沒有網(wǎng)絡(luò),這句話一點都不過分。沒有網(wǎng)絡(luò)協(xié)議,網(wǎng)絡(luò)內(nèi)的網(wǎng)絡(luò)設(shè)備和計算機之間就無法進行通信,所有的硬件設(shè)備也不過都是一堆擺設(shè)而已。這就如同沒有操作系統(tǒng)和應(yīng)用軟件,計算機就是一具沒有靈魂的軀殼。因此,網(wǎng)絡(luò)協(xié)議的配置在網(wǎng)絡(luò)中居于舉足輕重的地位,決定著網(wǎng)絡(luò)能否正常運行。網(wǎng)絡(luò)協(xié)議的含義非常廣泛,既包括交換機和路由器執(zhí)行的網(wǎng)絡(luò)協(xié)議,也包括計算機和路由器執(zhí)行的網(wǎng)絡(luò)協(xié)議。其中任何一個協(xié)議配置不當,沒有正常工作,都有可能導致網(wǎng)絡(luò)癱瘓,或者導致某些服務(wù)被終止,從而出現(xiàn)網(wǎng)絡(luò)故障。
1.4 網(wǎng)絡(luò)服務(wù)故障
網(wǎng)絡(luò)服務(wù)故障主要包括3個方面,即服務(wù)器硬件故障、網(wǎng)絡(luò)操作系統(tǒng)故障和網(wǎng)絡(luò)服務(wù)故障。所有的網(wǎng)絡(luò)服務(wù)都必須進行嚴格的配置或授權(quán),否則就會導致網(wǎng)絡(luò)服務(wù)故障。例如,服務(wù)器權(quán)限的設(shè)置不當,會導致資源無法訪問的故障;主目錄或默認文件指定錯誤,會導致Web網(wǎng)站發(fā)布錯誤;端口映射錯誤會導致無法提供某種服務(wù)等。因此,當排除硬件故障之后,就需要重點檢查配置文件和選項的故障了。當企業(yè)網(wǎng)絡(luò)內(nèi)所有的服務(wù)都無法實現(xiàn)時,應(yīng)當檢查網(wǎng)絡(luò)設(shè)備的配置,尤其是連接網(wǎng)絡(luò)服務(wù)器的交換機的配置;如果只有個別服務(wù)無法實現(xiàn)時,則應(yīng)當檢查提供相應(yīng)網(wǎng)絡(luò)服務(wù)的相關(guān)配置。
在開始動手排除故障之前,最好先準備一支筆和一個筆記本,將故障現(xiàn)象認真仔細地記錄下來。也就是說,應(yīng)當養(yǎng)成一種良好習慣,在開始著手進行排除故障時就開始做筆記,而不是在事情做完之后才來做。認真而詳實地記錄,不僅有助于一步一步地記錄問題、跟蹤問題并最終解決問題,而且,也為自己或同事以后解決類似問題時提供完整的技術(shù)文檔和幫助文件。注意在觀察和記錄時一定要注意細節(jié)。
2.1 識別故障現(xiàn)象
網(wǎng)絡(luò)管理員在進行故障排除之前,必須確切地知道網(wǎng)絡(luò)上到底出了什么毛病,是不能共享資源,還是不能瀏覽Web,或是不能登錄QQ等。知道出了什么問題并能夠及時識別,是成功排除故障最重要的步驟。對一名優(yōu)秀網(wǎng)絡(luò)管理員的最基本要求,首先就是對問題進行快速定位。也就是說,能夠及時找到處理問題的出發(fā)點。
為了與故障現(xiàn)象進行對比,必須非常清楚網(wǎng)絡(luò)的正常運行狀態(tài)。因此,了解網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)軟件、網(wǎng)絡(luò)資源在正常狀態(tài)下的表現(xiàn)方式,了解網(wǎng)絡(luò)拓撲結(jié)構(gòu)、理解網(wǎng)絡(luò)協(xié)議、掌握操作系統(tǒng)和應(yīng)用程序,都是故障排除必不可少的理論和知識準備。再次強調(diào),在識別故障現(xiàn)象之前,必須明了網(wǎng)絡(luò)系統(tǒng)的正常運行特性。
識別故障現(xiàn)象之時,應(yīng)該詢問以下幾個問題:(1)當被記錄的故障現(xiàn)象發(fā)生時,正在運行什么進程?(2)這個進程以前運行過嗎?(3)以前這個進程的運行是否成功?(4)這個進程最后一次成功運行是在什么時候?(5)故障現(xiàn)象是什么?
2.2 對故障現(xiàn)象進行詳細描述
當處理由用戶報告的問題時,對故障現(xiàn)象的詳細描述顯得尤為重要。當用戶說無法瀏覽Web網(wǎng)站時,僅憑這些信息,恐怕任何人都無法做出準確的判斷。這就要親自動去現(xiàn)場操作,運行一下那個程序,并注意出錯信息。例如,在使用Web瀏覽器進行瀏覽時,無論輸入哪個網(wǎng)址都返回“該頁無法顯示”之類的信息;使用Ping程序時,無論Ping哪個IP地址,都顯示超時連接信息等,諸如此類的出錯信息會為縮小問題范圍提供許多有價值的信息。注意一個錯誤信息,并在用戶手冊中找到它們,從而得到關(guān)于該問題更詳細的解釋,是解決問題的關(guān)鍵。另外,親自到故障現(xiàn)場進行操作,也有機會檢查用戶操作系統(tǒng)或應(yīng)用程序是否運行正常,各種選項和參數(shù)是否設(shè)定正確。如果在操作時沒有任何問題,那就可能是操作者的問題了。不妨讓用戶再試一次,并認真監(jiān)督他的每一步操作,以確保所有的操作和選項都被正確地執(zhí)行并設(shè)置。
當然,在親自操作時,應(yīng)當對故障現(xiàn)象作出詳細的描述,認真記錄所有的出錯信息,并快速記錄所有有關(guān)的故障跡象,制作詳盡的故障筆記。實際上它們究竟表明了什么,這些故障現(xiàn)象是否相互聯(lián)系呢?在尋找問題答案的過程中,很有可能又導致更多的故障現(xiàn)象產(chǎn)生。所以在開始排除故障之前,應(yīng)按以下步驟執(zhí)行:
(1)收集有關(guān)故障現(xiàn)象的信息。(2)對問題和故障現(xiàn)象進行詳細的描述。(3)注意細節(jié)。(4)把所有的問題都記下來。
2.3 列舉可能導致錯誤的原因
接下來要做的就是列舉所有可能導致故障現(xiàn)象的原因了。網(wǎng)絡(luò)管理員應(yīng)當考慮導致無法瀏覽Web的原因可能有哪些,網(wǎng)卡硬件故障、網(wǎng)絡(luò)連接故障、網(wǎng)絡(luò)設(shè)備故障、TCP/IP協(xié)議設(shè)置不當?shù)取T谶@個階段不要試圖去找出哪一個原因就是問題的所在。只要盡量多地記錄下自己所能想到的,而且是可能導致問題發(fā)生的原因就可以了。或許認為可以根據(jù)出錯的可能性把這些原因按優(yōu)先級別進行排序。注意千萬不要忽略其中的任何一個細節(jié)。
2.4 縮小搜索范圍
網(wǎng)絡(luò)管理員必須采用有效的軟、硬件工具,從各種可能導致錯誤的原因中一一剔除非故障因素。對所有列出的可能導致錯誤的原因逐一進行測試,而且不要根據(jù)一次測試,就斷定某一區(qū)域的網(wǎng)絡(luò)是運行正?;蚴遣徽?。另外,也不要在自己認為已經(jīng)確定了的一個錯誤上停下來,而不再繼續(xù)測試。因為此時既可能是搞錯了,也有可能存在的錯誤不止一個。所以,應(yīng)該使用所有可能的方法來測試所有的可能性。
除了測試之外,還要注意做以下幾件重要的事情:
千萬不要忘記查看網(wǎng)卡、交換機和路由器面板上的LED指示燈。通常情況下,綠燈表示連接正常;紅燈表示連接故障;不亮表示無連接或線路不通;長亮表示廣播風暴;指示燈有規(guī)律地閃爍才是網(wǎng)絡(luò)正常運行的標志。
千萬不要忘記查看服務(wù)器、交換機或路由器的系統(tǒng)日志,因為在這些系統(tǒng)日志中,往往記載著產(chǎn)生的錯誤及錯誤發(fā)生的全部過程。
如果有幸擁有并安裝了諸如CiscoWorks、HP OpenView之類的網(wǎng)絡(luò)管理軟件,千萬不要忘記用它們來檢查一下哪些設(shè)備出現(xiàn)了問題。一些網(wǎng)絡(luò)管理軟件往往具有圖形化的用戶界面,因此,交換機各端口的工作狀態(tài)可以一目了然地顯示在屏幕上。除此之外,許多網(wǎng)絡(luò)管理軟件還具有故障預(yù)警和報警功能,從而在縮小搜索范圍時省下不少的力氣。
當然,在這一步驟中最不能忘記的還是要記錄下所有的觀察及測試的手段和結(jié)果。
2.5 隔離錯誤
網(wǎng)絡(luò)管理員經(jīng)過反復的測試,此時也明白了到底是哪一部分故障導致了問題的發(fā)生,并最終確定很有可能是計算機出錯了。于是便開始檢查該計算機網(wǎng)卡是否安裝好、TCP/IP協(xié)議是否安裝并設(shè)置正確、Web瀏覽器的連接設(shè)置是否得當?shù)纫磺信c已知故障現(xiàn)象相關(guān)的內(nèi)容。然后剩下的事情就是排除這個故障了。此時,由于對所發(fā)生的故障已經(jīng)有了充分的了解,那么,故障排除也就手到擒來了。但是,不要就此匆忙地結(jié)束工作,因為還有更重要的事情等著去做。
2.6 故障分析
作為網(wǎng)絡(luò)管理員,必須搞清楚故障是如何發(fā)生的,是什么原因?qū)е铝斯收系陌l(fā)生,以后如何避免類似故障的發(fā)生,擬定相應(yīng)的對策,采取必要的措施,制定嚴格的規(guī)章制度。
對于一些非常簡單明顯的故障,上述過程看起來可能會顯得有些煩瑣。但對于一些復雜的問題,這卻是必須遵循的操作規(guī)程。
最后,記錄所有的問題,并保存所有的記錄。經(jīng)常回顧曾經(jīng)處理過的故障也是一種非常好的習慣,這不僅是一種經(jīng)驗的積累,便于以后處理類似故障,而且還會啟發(fā)思考許許多多與此相關(guān)聯(lián)的問題,從而進一步提高理論和技術(shù)水平。
網(wǎng)絡(luò)的故障多種多樣,不同的故障有不同的表現(xiàn)形式。在分析故障時要通過各種現(xiàn)象靈活運用排除方法,例如,排除法、對比法、替換法等。在實際應(yīng)用中,要根據(jù)不同的故障現(xiàn)象使用不同的方法,或者幾種方法綜合使用。
3.1 排除法
排除法主要是指根據(jù)所觀察到的故障現(xiàn)象,盡可能全面地列舉出所有可能導致故障發(fā)生的原因,然后逐一分析、診斷、排除。
使用排除法,雖然可應(yīng)付各種各樣的網(wǎng)絡(luò)設(shè)備故障,但要求網(wǎng)絡(luò)管理員擁有深厚的理論功底、豐富的實踐經(jīng)驗、較強的邏輯思維能力,并且全面了解、掌握并靈活運用各種網(wǎng)絡(luò)測試工具和管理工具,善于分析問題和解決問題。同時,由于導致故障現(xiàn)象發(fā)生的因素比較復雜,往往是一因多果或一果多因,因此,在解決和排除故障時,會耗費較多的時間。因此可見,應(yīng)當仔細觀察故障現(xiàn)象,并根據(jù)經(jīng)驗依次排列可能的故障原因,先從最可能導致故障的原因開始調(diào)查,從而縮短故障定位和解決問題所用的時間。
歸根到底,其他所有故障排除方法都是從排除法演變而來,包括對比法和替換法,只是對比法和替換法在某些場合中比排除法更具有針對性。
3.2 對比法
顧名思義,就是對比故障設(shè)備和非故障設(shè)備之間的“軟”、“硬”差異,從而找出可能導致故障的原因??捎糜趯Ρ鹊膬?nèi)容包括:
網(wǎng)絡(luò)設(shè)備。當網(wǎng)絡(luò)設(shè)備所連接的所有計算機都發(fā)生通信故障時,可對比型號和配置完全相同的網(wǎng)絡(luò)設(shè)備。比如,某建筑物內(nèi)擁有4臺型號和配置完全相同的交換機,當其中一臺交換機所連接的計算機發(fā)生通信故障時,就可以與另外3臺交換機進行對比,查看各種LED指示燈、配置文件、運行狀態(tài)(如CPU、內(nèi)存、帶寬占用率)有什么差異。
端口(包括GBIC/SFP插槽)。當連接至某個端口的計算機或網(wǎng)絡(luò)設(shè)備發(fā)生通信故障時,可對比類型和配置完全相同的端口或插槽。比如,當某個端口或插槽發(fā)生連接故障時,可以用與之類型和用途(例如,都用于連接至劃分有多VLAN的網(wǎng)絡(luò)設(shè)備)完全相同的端口或插槽進行對比,比較LED指示燈、端口狀態(tài)(up還是down)、端口設(shè)置(如端口屬性設(shè)置、VALN或Trunk設(shè)置、認證安全設(shè)置等)是否相同。
線卡。當連接至某個線卡的計算機或網(wǎng)絡(luò)設(shè)備發(fā)生通信故障時,對比型號完全相同、配置基本相同的線卡,查看各端口工作狀態(tài)、配置文件的差異。
系統(tǒng)配置。當配置修改后發(fā)生故障時,可對比配置修改前和修改后的網(wǎng)絡(luò)設(shè)備工作情況,以及其他有相同或類似用途、配置基本相同的網(wǎng)絡(luò)設(shè)備的運行狀態(tài)。
系統(tǒng)映像。對比安裝相同版本、更高版本系統(tǒng)映象的其他同型號網(wǎng)絡(luò)設(shè)備的工作是否正常。
使用與所懷疑發(fā)生故障的網(wǎng)絡(luò)設(shè)備完全相同的設(shè)備進行替換,或使用相同的端口、插槽或模塊進行替換,并對兩臺設(shè)備或端口的不同連接進行對比,在對比結(jié)果中找出故障點并進行排除。這種方法雖然簡單有效,但有時可能出現(xiàn)故障的設(shè)備不止一臺,那么排除起來就會非常麻煩了。
3.3 替換法
替換法從某種意義上來說與對比法是相同的,都是使用已知正常的網(wǎng)絡(luò)設(shè)備或網(wǎng)絡(luò)設(shè)備部件進行替換,并打出故障的部件進行排障。替換法主要用于網(wǎng)絡(luò)設(shè)備硬件故障的診斷,但需要注意的是,替換的部件必須是相同品牌、相同型號的同類網(wǎng)絡(luò)設(shè)備才行。同時,替換法還是平時維修計算機的一種方法,可以說該方法在硬件維護方面的應(yīng)用是非常廣泛的??捎糜谔鎿Q的內(nèi)容包括:
網(wǎng)絡(luò)設(shè)備。當網(wǎng)絡(luò)設(shè)備(特別是固定端口網(wǎng)格設(shè)備和傻瓜網(wǎng)絡(luò)設(shè)備)所連接的所有計算機都發(fā)生通信故障,懷疑網(wǎng)絡(luò)設(shè)備主板發(fā)生故障時,可以用型號和配置完全相同的網(wǎng)絡(luò)設(shè)備進行替換。
端口(包括GBIC/SFP插槽)。當連接至某個端口的計算機或網(wǎng)絡(luò)設(shè)備發(fā)生通信故障時,可以將跳線連接至其他類型和配置相同的端口進行測試。
交換引擎。當整個網(wǎng)絡(luò)癱瘓時,可以使用相同型號的管理引擎進行替換,并導入預(yù)先備份的配置文件,然后測試網(wǎng)絡(luò)是否恢復正常。
線卡。當連接至某個線卡的計算機或網(wǎng)絡(luò)設(shè)備發(fā)生通信故障,懷疑線卡發(fā)生故障時,使用型號完全相同的線卡替換,插入原有GBIC/SFP模塊并連接原有設(shè)備,重新激活各端口,然后測試各端口工作狀態(tài)和網(wǎng)絡(luò)連通性。
GBIC/SFP模塊。當連接至某個插槽的計算機或網(wǎng)絡(luò)設(shè)備發(fā)生通信故障,懷疑GBIC/SFP模塊損壞時,可以用型號完全相同的GBIC/SFP模塊替換并測試。
鏈路。當網(wǎng)絡(luò)設(shè)備之間、網(wǎng)絡(luò)設(shè)備與其他網(wǎng)絡(luò)設(shè)備之間、網(wǎng)絡(luò)設(shè)備與網(wǎng)絡(luò)終端設(shè)備之間的通信發(fā)生故障,懷疑光纖或雙絞線跳線、網(wǎng)絡(luò)物理鏈路有問題時,可以使用測試或使用正常的跳線和鏈路替換,而后再進行連通性測試。
系統(tǒng)配置文件。當配置修改后發(fā)生故障,懷疑配置文件錯誤時,可用預(yù)先備份的配置文件替換現(xiàn)有配置文件;或者將其他類似網(wǎng)絡(luò)設(shè)備的配置文件導出,并作適當修改后,替換現(xiàn)有配置文件,測試網(wǎng)絡(luò)通信是否恢復正常。
系統(tǒng)映像。當系統(tǒng)運行不穩(wěn)定、頻繁癱瘓、屢遭攻擊時,替換為最新版本,然后觀察系統(tǒng)運行狀態(tài)。
在排除網(wǎng)絡(luò)故障時,絕不能沒有目的地亂碰運氣,而應(yīng)當遵循應(yīng)有的規(guī)則和策略,只有如此,才能有條不紊地、以最快的速度定位和排除故障。
4.1 先易后難
排除網(wǎng)絡(luò)設(shè)備故障應(yīng)當和平時工作一樣,先從最簡單位、最有可能的導致故障的原因開始,逐一進行排除。網(wǎng)絡(luò)管理員應(yīng)將導致某種故障的所有原因一一列出,然后再從中挑選出發(fā)生概率最大、可能性最高、最易于診斷和排除的原因,并由此入手,這樣才能提高故障排查的速度。例如,當某個端口所連接的計算機發(fā)生通信故障時,應(yīng)當先使用網(wǎng)絡(luò)管理軟件,或者遠程登錄至該網(wǎng)絡(luò)設(shè)備,查看故障端口的工作狀態(tài)?;蛟S故障原因就是端口由于某種原因down掉了。這樣,只需在Cisco CAN中enable該端口,即可恢復該端口的連接。
當使用enable無法解決問題時,再查看網(wǎng)絡(luò)設(shè)備的配置,是否有訪問列表或其他設(shè)置影響到計算機的訪問。
確認配置沒有錯誤后,到發(fā)生故障的網(wǎng)絡(luò)設(shè)備處,將發(fā)生故障的跳線連接到其他相同類型和配置的端口,查看故障是否恢復。
如果故障仍未恢復,再查看用戶計算機網(wǎng)卡工作狀態(tài)是否正常,驅(qū)動是否正確安裝,IP地址信息設(shè)置是否正確。
如果客戶端確認無誤,再測試故障計算機整體鏈路(包括水平布線、信息插座至計算機的跳線、配線架至網(wǎng)絡(luò)設(shè)備的跳線)的連通性。
4.2 先軟后硬
與解決計算機故障類似,在排除網(wǎng)絡(luò)設(shè)備故障時,也采用先“軟”后“硬”的原則。所謂“軟”就是指應(yīng)當先借助網(wǎng)絡(luò)管理工具軟件,遠程查看網(wǎng)絡(luò)設(shè)備的各種配置(包括三層路由配置,訪問列表配置,端口屬性配置,VLAN和VLAN Trunk配置等)、客戶端的IP地址信息、端口的工作狀態(tài)、網(wǎng)絡(luò)設(shè)備的性能(CPU和內(nèi)存占用情況等)和運行狀態(tài),確認是否由系統(tǒng)軟件配置等“軟”因素導致了網(wǎng)絡(luò)設(shè)備故障。然后,再試圖用修改系統(tǒng)配置文件、升級系統(tǒng)軟件、重新激活端口或VLAN的方式,修復網(wǎng)絡(luò)設(shè)備的“軟”故障。
所謂“硬”,是指在“軟”的手段不能奏效,進而懷疑端口、模塊、板卡甚至網(wǎng)絡(luò)設(shè)備本身,以及網(wǎng)絡(luò)鏈路發(fā)生故障時,以替換相應(yīng)硬件或鏈路的方式,修復網(wǎng)絡(luò)設(shè)備的“硬”故障,恢復正常通信。
例如,當某臺計算機無法連接到網(wǎng)絡(luò)時,應(yīng)當先查看可能導致該故障的“軟”的問題,包括:
網(wǎng)絡(luò)設(shè)備端口是否處于UP狀態(tài),激活該端口。
網(wǎng)絡(luò)設(shè)備端口是否指定到正確的VLAN,重新將該端口指定至相應(yīng)的VLAN。
網(wǎng)絡(luò)設(shè)備端口的傳輸速率、雙工模式設(shè)置是否正確。如果是雙絞線端口,可以設(shè)置為自適應(yīng)速率;如果是光纖端口,則應(yīng)當與網(wǎng)卡的傳速率和工作模式相同。
網(wǎng)絡(luò)設(shè)備端口是否配置有基于端口的安全認證和策略。如果設(shè)置有安全策略,可以先刪除這些策略,然后再進行測試。
網(wǎng)卡是否正常工作。如果處于被禁用狀態(tài),應(yīng)當啟用并激活該網(wǎng)絡(luò)連接。
網(wǎng)卡驅(qū)動程序是否正確。如果不正確,試著下載最新版的驅(qū)動程序。
網(wǎng)卡的IP地址信息設(shè)置是否正確。如果不正確,應(yīng)當重新設(shè)置IP地址信息。然后,再檢查并排除可能導致該故障的“硬”的問題,包括:
將跳線連接至另一個能夠正常工作的、同一VLAN的端口,查看網(wǎng)絡(luò)通信能否恢復正常。
測試整個物理鏈路是否暢通,然后再逐段測試可能的鏈路故障,并更換有問題的跳線,重新打制發(fā)生故障的模塊(或更換模塊)和配線架端口。
更換計算機的網(wǎng)卡,重新安裝網(wǎng)卡驅(qū)動程序和TCP/IP協(xié)議,并設(shè)置正確的IP地址信息。
4.3 先邊緣后核心
所謂先邊緣后核心,是指在診斷和隔離網(wǎng)絡(luò)故障時,應(yīng)當先從最邊緣的客戶端開始,依次向接入層、匯聚層和核心層進行,進而定位發(fā)生故障的位置,判斷發(fā)生故障的設(shè)備,分析發(fā)生故障的原因。
例如,當某個客戶端無法建立與網(wǎng)絡(luò)的連接時,所執(zhí)行的診斷過程如下:
(1)測試同一接入層交換機上、處于同一VLAN的其他客戶端。如果同一接入交換機上、處于同一VLAN的其他客戶端能夠正常通信,則將故障定位在故障計算機,以及其所連接的端口(如物理損壞或配置錯誤)和所使用的物理鏈路上(如水平布線故障、跳線故障等)。否則,可能是接入層交換機與匯聚層交換機的連接發(fā)生故障,或是匯聚層交換機配置錯誤。
(2)測試同一接入層交換機上、處于其他VLAN的其他客戶端。如果同一接入交換機上處于其他VLAN的客戶端能夠正常通信,則將故障定位在故障用戶所連接的接入層交換機上。否則,可能是接入層交換機與匯聚層交換機的連接(如端口故障、配置錯誤、跳線故障等)發(fā)生故障,或者是匯聚層同配置錯誤。
(3)測試連接至同一匯聚交換機的其他接入層交換機上的計算機。如果連接至同一匯聚交換機上的其他交換機可以實現(xiàn)與網(wǎng)絡(luò)的通信,那么,可以將故障定位在匯聚交換機與接入交換機的連接上(如端口故障、配置錯誤、垂直主干布線故障、跳線故障等)。否則,可能是匯聚交換機與核心交換機之間的連接發(fā)生故障,甚至是核心交換機發(fā)生故障。
(4)測試連接至核心交換機中同一線卡上的其他匯聚層交換機。如果連接于同一線卡上的其他匯聚交換機連接正常,那么故障可能是線卡端口與匯聚交換機上行端口連接故障(如端口故障、配置錯誤、建筑群主干布線故障、跳線故障等)。否則可能是線卡故障或配置故障。
(5)測試核心交換機上其他線卡所連接的匯聚層交換機。如果連接至不同線卡的交換機都無法正常連接,則可能是核交換機配置錯誤,或者是交換引擎故障,甚至是系統(tǒng)映像故障。
通常情況下,網(wǎng)絡(luò)發(fā)生故障的可能性比較小。與之相對應(yīng),網(wǎng)絡(luò)鏈路由于接插件比較多,而任何一個接插件的松動或故障,都可能導致物理鏈路的中斷。因此,在發(fā)生網(wǎng)絡(luò)故障時,如果確認是物理硬件故障,那么,應(yīng)當先檢查鏈路的完整性,而后再查看端口或設(shè)備是否發(fā)生故障。
例如,當某臺計算機無法連接至網(wǎng)絡(luò)時,在排除軟件故障后,接下來要做的第一件事就是使用測線儀測試整個物理鏈路的連通性。確認鏈路連通完好后,再試著更換計算機所連接的交換機端口、插槽、模塊,或者更換網(wǎng)卡。
TP393
A
1003-5168(2014)04-0007-04