摘要: 計算機網絡作為分層管理的系統,當網絡發生故障時,各層中的網絡實體會檢測到故障在該層中的癥狀表現,發出相應的告警。因此研究面向服務的分層網絡的故障管理模型就有著重要的現實意義。
關鍵詞: 網絡實體;面向服務;分層網絡
1 現有的主要故障傳播模型
1.1依賴圖故障傳播模型
依賴圖是一個有向圖G(O,D),其中O是一個有限的非空對象集,D是對象間的邊,表示對象之間的依賴關系。在故障傳播的依賴圖模型中,可以為每條邊設置一個對應的概率值,表示對象之間依賴關系的強度。B. Gruschke在文獻中提出一種依賴圖關系模型,該模型中,服務層是直接面向用戶并直接提供各種服務的最高層次,終端系統是指提供各種服務的物理設備,底層是各種網元(按照網絡功能劃分的網絡管理系統所管理的基本單元)。為了有效地確定網絡系統故障的原因,需要進行各個網絡層次上的事件關聯。其中,底層網元之間的關聯最為重要。依賴圖是表示底層網元關聯的有效方法,依賴圖通過觀察網絡運行中各種服務、設備、網元等各層次內和各層次間錯綜復雜的相互關系來產生。依賴圖具有以下優點:
依賴圖更容易從被管理的模型中產生,特別是那些面向對象的系統模型,其中對象之間有現成的相互關系;
圖上允許的操作可以通過可靠、健壯的方式來實現,例如,添加或刪除對象和依賴關系不會導致事件關聯無法執行;
網元之間的依賴關系是網絡管理系統的一個重要特征,除了依賴關系外,沒有屬性、方法及其它。依賴圖中的每個節點表示了系統中的MO,每條邊反映了它們之間的依賴性;
根據依賴關系所建立的依賴圖可以被自然地、分布式地管理起來,MO和它們之間的依賴關系可以由不同的管理員獨立地添加與刪除。
1.2 因果圖故障傳播模型
因果圖是一個有向無環圖。其中E是所有節點的集合,C是所有節點之間邊的集合,邊C表示事件間的因果關系,在網絡故障診斷系統中,系統中網絡事件用因果圖的節點E表示,而網絡事件間的因果關系用邊C表示。我們可以在因果圖中為每條邊設置一個對應的概率值,表示事件之間因果關系的強度,為每個無父母節點設置一個對應的概率值,表示該事件發生的先驗概率。在現有的網絡故障診斷方法中,由于因果圖模型提供給系統的是一個面向事件的視圖,因此和依賴圖模型相比,它更適合故障定位,但是其構建比依賴圖模型更為復雜一些。
2 建立分層網絡故障管理模型的現實作用
故障定位同時對不同層的告警信息進行處理一般來說不是一個好的方案,一方面會使需建立的故障傳播模型非常復雜和龐大;另一方面處理太多的告警信息會使故障定位效率很低,因為故障診斷非常耗時。在發生網絡故障時,如果每次都在系統的所有部分運行故障診斷過程將造成效率非常低下。分層模型可以有效地解決該問題。通過分層,故障管理可以根據不同角色的需求、角度和粒度進行剪裁,每一層只關注特定癥狀和故障。在故障診斷時,系統首先根據高層告警信息從高層的宏觀視圖出發找到潛在的故障發生點,然后再對該點的微觀視圖進行詳細分析,以自頂向下的方式進行網絡故障診斷。當故障診斷在高層進行時,低層故障被匯聚和隱藏,從而簡化故障診斷任務。
3 系統的業務層故障管理模型分析
在面向服務的分層網絡故障管理中,網絡故障可以在不同層次進行管理。其中最上層是系統的業務層,該層由應用服務、通信網絡和訪問用戶組成。業務層主要關注服務是否可用,該層的故障診斷結果是確定導致服務不可用的故障發生在應用服務節點,通信網絡節點還是在訪問用戶節點中,而不考慮具體發生的低層故障。業務層可借助一些測試手段來確定應用服務是否發生故障,如模擬用戶調用、使用心跳輪詢機制和ICMP報文調用。該層的依賴關系可以根據應用拓撲得到,應用服務節點之間存在的依賴關系可以在服務創建時進行設置。
業務層中不同類型的節點分別存在對應的微觀視圖。在應用服務節點中,一類主要故障是執行平臺故障,即提供服務的計算機或服務器故障,執行平臺故障的根源可劃分為兩個類別:軟件故障和硬件異常。軟件故障包括操作系統故障,如宕機、掛起和死鎖,系統過載也可歸類為軟件故障。硬件異常主要指配件故障,如電源供應中斷、CPU燒壞、硬盤故障等。駐留在主機上的代理軟件能幫助檢測執行平臺故障,如監測平臺的資源使用率(CPU和內存消耗量),并在資源使用率超過特定閩值時發出告警。但在操作系統宕機或硬件異常時,主機上的代理軟件將無法工作,對于這些故障,可使用心跳和輪詢機制來檢測。另外一類主要故障是服務的子服務故障或者服務依賴的其它服務發生故障。
通信網絡管理關注于網絡中網元的管理,主要關注服務傳輸問題的協議異常和網絡設備故障。協議故障包括IP地址配置錯誤導致的間隙性故障、核心網絡服務配置錯誤造成的連接問題等。現在的網絡協議已具備一定的故障容錯能力:TCP協議可通過重傳丟失的數據包來提供可靠傳輸;當發生鏈路中斷時,網絡層的路由恢復機制可使通信繞過故障鏈路。但這些機制并不能檢測出故障根源。網絡設備的故障模式更為復雜,常見的網絡故障包括本地網絡接口、電纜、集線器、交換機、路由器的物理故障等等。SNMP是常用網絡管理協議,可用來發現網絡設備故障。但SNMP是面向設備的,無法知曉網絡服務連接的信息,而且其故障關聯視圖是固定和靜態的。故障也可分為兩大部分:軟件故障和硬件故障。其中軟件故障主要有客戶端軟件出錯,軟件設置錯誤,用戶權限不夠,網絡配置錯誤等。如圖1中無法訪問遠程的WWW服務,其客戶端的故障就有原因可能是DNS服務器設置錯誤,IE瀏覽器出錯等。通常來說,用戶節點故障不是網絡管理系統的重點,網絡管理系統偏重于應用服務可用性故障和網絡通信系統故障這兩部分。對于服務提供商來說,他們關注的是應用服務的可用性管理,而網絡提供商則主要關注通信網絡故障。
4網絡業務層、應用服務端及網絡通信網絡的二分圖故障傳播模型建立
4.1應用服務端的二分圖故障傳播模型建立
在現代網絡中,服務由分布在不同部分的多個子服務合成而得是常見的。軟件復用、服務組合和企業應用集成技術表明了軟件技術發展的主流方向,這些技術使得遺留系統和簡單系統可以被封裝為服務,從而快速構建復雜的新應用。服務之間的依賴關系有助于構建應用服務端的FPM,這些信息通常可在服務創建階段得到。
在服務運行過程中,當接收到告警信息表明服務不可用或性能降級,而業務層診斷結果表明故障發生在應用服務器端時,需啟動應用服務端的故障診斷。
4.2 網絡業務層的二分圖故障傳播模型建立
網絡業務層的故障傳播模型通常可采用動態創建方式,該模型中的事件節點為\"用戶節點A不能訪問應用服務節點B\"之類,故障節點為系統中可能導致故障事件發生的節點。如圖2中,用戶節點CN1不能訪問應用服務節點SN1,用戶節點CN2不能訪問服務節點SNl 故障診斷過程在高層進行故障診斷時,所有低層故障將被看作單一起因。從業務層視圖看,故障診斷只需在業務層進行,如果診斷結果認為故障發生在應用服務端,則需根據應用服務端對應的微視圖進一步查找故障源。
4.3通信網絡的二分圖故障傳播模型建立
當故障診斷結果表明服務不可用和性能降級的故障根源位于通信網絡中時,需要啟動通信網絡故障診斷過程。在網絡層,用戶對服務進行訪問的通信通道可能跨越多個自治域。而各個自治域都配置了管理系統,各自進行故障診斷和處理,彼此之間交互較少。自治域ASl(處于服務A和B之間通信通道上)構建FPM的過程。首先使用路由算法得到路由器對之間的路由,然后根據網絡拓撲和路由信息構建二分圖故障傳播模型。
參考文獻
[1] 張建雷,業務保障模型設計與實現,北京郵電大學學報,2006.
[2] 黃曉慧. Internet服務故障管理,北京市:北京郵電大學,2006.
[3] 陳琳,網絡故障診斷關鍵技術的研究,湖南省長沙市:國防科技大學,2005.