馬陣(陜西省水文水資源勘測局 陜西西安 710068)
淺析計算機網絡故障管理在陜西水文信息網絡系統中的應用
馬陣(陜西省水文水資源勘測局 陜西西安 710068)
計算機網絡故障非常普遍,在日常工作中計算機網絡故障排查是計算機網絡最基本、最重要的工作。本文對陜西水文信息網絡架構進行故障定位、分析、處理,并提出了網絡故障的檢查方法和一般解決方案,為同屬性網絡架構的故障排查奠定了基礎。
網絡管理,網絡故障,故障分析,故障排查
一般來說,網絡管理就是通過某種方式對網絡進行管理,使網絡能正常高效地運行。網絡管理是使網絡中的資源得到更加有效的利用,它應維護其正常運行,當其出現故障時能及時報告和處理,并協調、保持網絡系統的高效運行。網絡管理系統分五大功能域:配置管理、故障管理、性能管理、計費管理和安全管理。
計算機網絡中,當發生失效故障時,往往不能輕易、具體地確定故障所在的準確位置,而需要相關技術上的支持。因此,需要有一個故障管理系統,科學地管理網絡發生的所有故障,并記錄每個故障的產生及相關信息,最后確定并改正那些故障,保證網絡能提供連續可靠的服務。網絡故障管理包括故障檢測、隔離和糾正三方面,主要包括故障監測、故障報警、故障信息管理、排錯支持工具、檢索/分析故障信息等。
陜西水文信息網絡架構采用三層架構,并利用VPN將整套網絡進行了邏輯隔離,形成業務網絡和互聯網絡。業務網包括:各地市水情分中心、省水情中心服務器(不包含WEB服務器)、水情業務終端、視頻會商系統、衛星接收站;互聯網包括:WEB服務器(部署在DMZ區域),省局機關所有用戶,互聯網用戶可通過VPN安全認證訪問業務網。
業務網絡內服務器與水情業務終端實行分級接入管理,分別接入核心層和匯集層交換機;互聯網內所有用戶均通過樓層交換機接入核心層,MAC地址綁定和VLAN劃分在接入層交互機完成,減少核心層的策略部署,提高核心交換機的數據交換、處理能力。
在業務網與互聯網分別部署了網絡管理平臺與流控與上網行為管理設備,加強了整個網絡的監控、管控能力,減輕了基層水情分中心管理壓力。陜西水文信息網絡拓撲圖(見圖1)
圖1 陜西水文信息網絡拓撲圖
常見的網絡故障歸類為:物理類故障和邏輯類故障兩大類。我局的網絡故障管理也主要以這兩種故障類型為主,以下就這兩類故障的分析和排查進行簡要概述。
1.物理類故障
物理故障,一般是指線路或設備出現物理類問題或說成硬件類問題。
(1)線路故障
在我局日常網絡維護中,線路故障的發生率是相當高的,約占發生故障的70%左右。線路故障通常包括線路損壞及線路受到嚴重電磁干擾。
排查方法:如果是短距離的范圍內,判斷網線好壞簡單的方法是將該網絡線一端插入一臺確定能夠正常連入局域網的主機的RJ45插座內,另一端插入確定正常的HUB端口,然后從主機的一端Ping線路另一端的主機或路由器,根據通斷來判斷即可。如果線路稍長,或者網線不方便調動,就用網線測試器測量網線的好壞。如果線路很長,比如由線路運營商提供的,就需通知線路提供商檢查線路,看是否線路中間被切斷。
(2)端口故障
端口故障通常包括插頭松動和端口本身的物理故障。
排查方法:此類故障通常會影響到與其直接相連的其他設備的信號燈。因為信號燈比較直觀,所以可以通過信號燈的狀態大致判斷出故障的發生范圍和可能原因。也可以嘗試使用其它端口看能否連接正常。
(3)交換機或路由器故障
交換機或路由器故障在此是指物理損壞,無法工作,導致網絡不通。
排查方法:通常最簡易的方法是替換排除法,用通信正常的網線和主機來連接交換機(或路由器),如能正常通信,交換機或路由器正常;否則再轉換交換機端口排查是端口故障還是交換機(或路由器)的故障;很多時候,交換機(或路由器)的指示燈也能提示其是否有故障,正常情況下對應端口的燈應為綠燈。如若始終不能正常通信,則可認定是交換機或路由器故障。
2.邏輯類故障
邏輯故障中的最常見情況是配置錯誤,也就是指因為網絡設備的配置錯誤而導致的網絡異常或故障。
(1)路由器邏輯故障
路由器邏輯故障通常包括路由器端口參數設定有誤,路由器路由配置錯誤、路由器CPU利用率過高和路由器內存余量太小等。
排查方法:路由器端口參數設定有誤,會導致找不到遠端地址。用Ping命令或用Tracert命令(路由跟蹤程序),查看在遠端地址哪個節點出現問題,對該節點參數進行檢查和修復。
路由器路由于配置錯誤,會使路由循環或找不到遠端地址。該故障可以用Tracert工具,可以發現在Tracert的結果中某一段之后,兩個IP地址循環出現。這時,一般就是線路遠端把端口路由又指向了線路的近端,導致IP包在該線路上來回反復傳遞。解決路由循環的方法就是重新配置路由器端口的靜態路由或動態路由,把路由設置為正確配置,就能恢復線路了。
路由器CPU利用率過高和路由器內存余量太小,導致網絡服務的質量變差。比如路由器內存余量越小丟包率就會越高等。檢測這種故障,利用MIB變量瀏覽器較直觀,它收集路由器的路由表、端口流量數據、計費數據、路由器CPU的溫度、負載以及路由器的內存余量等數據。解決這種故障,只有對路由器進行升級、擴大內存等,或者重新規劃網絡拓撲結構。
(2)一些重要進程或端口關閉
一些有關網絡連接數據參數得重要進程或端口受系統或病毒影響而導致意外關閉。比如,路由器的SNMP進程意外關閉,這時網絡管理系統將不能從路由器中采集到任何數據,因此網絡管理系統失去了對該路由器的控制。或者線路中斷,沒有流量。
排查方法:用Ping線路近端的端口看是否能Ping通,Ping不通時檢查該端口是否處于down的狀態,若是說明該端口已經給關閉了,因而導致故障。這時只需重新啟動該端口,就可以恢復線路的連通。
(3)主機邏輯故障
主機邏輯故障所造成網絡故障率是較高的,通常包括網卡的驅動程序安裝不當、網卡設備有沖突、主機的網絡地址參數設置不當、主機網絡協議或服務安裝不當和主機安全性故障等。主機邏輯故障主要發生在客戶端或服務器上,排除方法相當較為簡單,在這里就不贅述其排除方法。
由于網絡故障的種類多,原因復雜,解決方法也很多,本文從以下幾個方面提出建議。
1、排查網絡故障,確定故障原因:解決網絡故障的第一步就是要合理地、逐步排除網絡故障,最終確定故障原因,發現癥結所在,方能對癥下藥。首先應搜集當前故障的現象與癥狀,從而初步分析潛在原因,縮小排查范圍。其次在確定的排查范圍內繼續排查,具體思路應是由服務器到工作站,由外部到內部,由軟件到硬件。由服務器到工作站,如出現工作站不能入網的情況下,先確定服務器是否有問題,如死機、無法啟動,登錄和口令等問題,然后再從工作站進一步分析問題。外部到內部就是當有工作站網絡功能失靈時,先檢查其外部直接可看到的設備情況,如電纜有否纏繞,路由器有沒有故障、網線接頭?接觸是否良好。如果沒有查清外圍設備情況,就打開機器檢查內部,不僅事倍功半,而且可能導致新的故障發生。軟件到硬件就是網絡出故障后,先從操作系統,驅動程序,配置上排查原因,然后再檢查硬件是否損壞。
2、根據故障原因,制定測試方案:在進行網絡故障排查后,應根據最可能的故障原因,建立相應的診斷測試方案。在具體落實診斷測試方案時,應嚴格按照方案的相關措施進行故障排查,直到故障癥狀消失。在故障得到解決后,還應測試網絡的相關效果,確保在排除網絡故障的同時不至于引發另一故障隱患。
由于網絡故障的原因很多,為了避免在排除網絡故障時引起其他故障,應在故障排查的過程中應做好故障排查記錄,這樣可以很容易恢復到故障的原始狀態,如果不行,便可再進行其他復雜的可能性測試。此外,還應建立健全事件管理體系,將每次故障登記在冊,并包含與問題和隔離解決步驟相關的完整記錄,以便為今后的網絡管理工作提供經驗和資料。
計算機網絡發展迅速,網絡故障也十分復雜,本文介紹了常見的幾類故障及其維護方法。
為了在網絡出現故障時及時對網絡進行維護,快速恢復網絡,在網絡故障排除中還需要注意以下幾個方面:
1、建立完整的組網文檔,以供維護時查詢。如網絡設計總體思路和方案、網路拓撲結構的規劃、網絡設備和網線的選擇、網絡的布線、網絡的IP分配,網絡設備分布等等。
2、做好網絡故障維護日志,對每臺機器都要作完備的維護文檔,以有利于以后故障的排查。這也是一種經驗的積累。
3、提高網絡安全防范意識,提高口令的可靠性,并為主機加裝最新的操作系統的補丁程序和防火墻、防黑客程序等來防止可能出現的漏洞。
[1]趙志囡等.計算機網絡中的服務
[2]楊家海等.網絡管理原理與實現技術.
[3]博影.淺析網絡故障管理