摘 要
近幾年,隨著科技的迅速發展,人們不管在生活還是生產上都離不開網絡。網絡涉及到工業生產、國防、教育、生活等方面。所以網絡的管理尤為重要。為保證網絡的正常運行,需要為其設置故障防御及管理系統。本文以網絡故障預測與健康管理的系統設計為例,詳細闡述在設置時的關鍵技術。
【關鍵詞】網絡故障 預測 健康管理 關鍵技術
互聯網已成為社會生活和工作的必需品,網絡在運行中的各部分組成設備,如路由器、主機等日益增加,其功能在提升的同時,也加大了網絡的管理難度。而網絡設備的健康運行對整個網絡系統有著至關重要的影響。因此,在網絡的日常運行中,需要能夠維護網絡正常運行,且在出現故障后能夠迅速反應,準確定位故障發生環節,并排除故障的系統。這是目前網絡維護和管理工作者的核心任務。
1 網絡故障預測與健康管理綜述
網絡的故障預測和健康管理(PHM)技術是作為實現網絡設備基于狀態的維修、自主式保障、感知與響應后勤等新思想、新方案的關鍵技術,也是一門新興綜合性交叉學科。故障預測和健康管理有兩層含義:意識故障預測,即預先診斷設備或系統完成各自功能時的狀態,確定設備正常工作的時間長度;另一方面是健康管理,即根據診斷或預測到的設備信息、可用資源和使用需求對維修活動作出適當決策能力。而網絡故障預測與健康管理技術在設計上將傳統的基于傳感器的診斷轉向基于智能系統預測,為準確而主動的維護網絡正常運行提供了技術基礎。
在網絡的故障預測和健康管理技術中,使用當前最新科技技術為基點,結合現下網絡健康程度、特征等歷史數據,收集與系統屬性有關的各類設備運行參數,將這些參數和系統健康做關聯,對系統進行檢測、分析。對網絡系統未來時刻的運行狀態進行預測,便于在故障發生之前,能夠采取有效措施保障網絡的正常運行。為更直觀地闡述網絡故障預測與健康管理的關鍵技術。本文涉及網絡設備的PHM系統,同時采用模塊化設計,通過四個功能層次,實現網絡設備故障預測與健康管理。
2 故障預測與健康管理系統的設計
2.1 網絡故障預測系統的設計要求
在設計故障預測與健康管理系統時,系統需要實現以下要求:
(1)在故障預測與健康管理系統中的診斷環節,需要以網絡管理系統所提供的警報信息為基礎,通過SNMP模塊接收設備警告,將來自網絡系統中不同的運行設備放入警報信息轉換為標準的、可識別的格式,存儲到警報信息數據庫中,對于故障警報信息將觸發故障預測和診斷,對于數據庫中的歷史數據進行重新梳理分析。一旦發現故障模式,就會不斷完善故障診斷信息庫,為診斷故障累積“經驗”,便于后期檢測出同樣故障時及時調出處理。
(2)在系統中的診斷實施流程就是收集網絡運行設備的性能的關鍵參數,對于參數預處理后進行合理的健康評估,再通過故障診斷方法對網絡設備故障進行診斷和預測。系統中,此技術將診斷經驗學習、累積和診斷的實施相互結合,互為補充,從而提高網絡系統故障預測的可靠性和準確性,降低預測的誤差。
2.2 關鍵技術
網絡故障預測與健康管理的關鍵技術從信息的收集、系統數據的處理、故障診斷與預測的技術、健康評估與管理等四個方面入手。詳解如下:
2.2.1 網絡設備運行信息的收集
在故障預測與健康管理系統中,利用系統的預測模型對收集到的網絡設備運行狀態信息進行分析和預測。故障預測和健康管理系統主要是將網絡運行中的所有設備數據進行采集,在此過程中,為了減少通信的數量,需要選擇對網絡設備運行轉臺影響較大的參數量。比如網絡設備的運行時間、系統運行時的溫度變化、計算機CPU的最大利用率、內存的存儲量、通信端口等對設備的運行狀態影響較大的數據。以上幾組變量可以反映設備的健康狀態,因此在設計時,選用其作為預測模型的參數量。
在設計之時,經過團隊研究,提出五點研究假設:
(1)網絡設備的運行時間越趨近于或者超過發生故障的周期,系統認為發生故障的可能性就越大。
(2)網絡系統的運行溫度越高,被認為發生故障的可能性就越高。
(3)計算機CPU子運行時的利用率越高,被認為發生故障的機率就越大。
(4)在計算機運算時的內存存儲量越大,認為發生故障的可能性越大。
(5)通信端口的丟包率、誤碼率越高,認為發生故障的可能性越大。
提出五點假設后,系統的主要研究過程就圍繞以上五點操作。同時在系統運行過程中,設備信息的收集時間間隔也比較重要。當收集的周期較短時,可以迅速發現設備的異常,更有利于維護網絡的正常運行。但同時也存在缺陷,即在頻繁的信息收集所占用設備和系統的有效資源,加重了系統運行的負擔。當收集數據的周期較長時,數據量會比較少,對系統的負擔小,但是不能及時發現并解決故障問題,對于網絡系統中的突發狀況不能及時作出響應。所以在實驗系統的設計中,將系統數據收集的間隔時間設置為5-6分鐘。
2.2.2 系統數據的處理
系統在進行運行數據的收集時有可能會出現差錯,這時就需要對差錯數據進行過濾處理。首先需要去除超出系統取值范圍的數據變化量,然后結合數據關聯分析的結果,再去除不合理的運行數據,如流入設備的網絡計算流量和流出的網絡計算流量要保持基本的平衡,如果某一方流量特別大,可能就是數據出現誤差。同時,系統還要對所收集到的數據進行同化處理,比如在網絡系統中的通信端口,一般會將此環節流量轉化為實際帶寬占用比、端口誤碼率、丟包率等參數,而內存的存儲會轉化為占用率等,這樣處理可以便于系統自動分析。最后再通過將所有收集的數據進行融合,對不同途徑收集的數據進行融合分析,如通過對SNMP收集的數據與監控數據、系統日志等融合,保證系統數據庫內數據的質量,去除錯誤的,彌補系統不足之處。
2.2.3 故障診斷與預測
系統中的故障診斷與預測是通過對網絡設備在日常運行的狀態、近期的健康運轉程度、當前所收集到的參數量等,通過對以上數據進行診斷和預測的計算出結果,以此判斷出網絡系統在運行時是否存在故障現象或可能出現的問題。在診斷預測技術中采用了網絡神經波動、灰色模型、向量機等機器的計算方法。其中網絡神經波動的計算方式是風險最小的,其需要足夠大的樣本數據,在模型的推廣能力上較差。而向量化是保證模型最大計算能力,較好地解決了小樣本、網絡非線性和維數等實際操作問題,但存在一定的限制,比如在故障診斷時,不能確定信息從而影響處理的效果。所以為保障故障預測技術的正常工作,本次設計的系統采用的是累積和控制算法(CUSUM),此計算方式是通過對檢測到的統計平均值的變化,從而判斷出結果。累積和控制算法常被運用到工業聲場的監控中,因為此算法具有計算量小、檢測迅速、操作簡單等優點,不需要故障的樣本就可以進行診斷。
在基于累積和控制算法的診斷技術中,當序列值超過定閾值時,網絡系統發生異常,檢測系統便會發出警報。而決定累積和控制算法的參數是信念值和門限值。門限值的取值和序列特征的取值上限有關,系統應該在序列值達到上限之前就會發出警報,或者在允許的上限運行時間內報警,其也可以通過上限計算得到,并保證正常的運行。在運行過程中,上限值需要根據設備的狀態及時進行調整,當發生錯誤的報警時,可以適當調節其值的變化,以消除錯誤警報,還能通過調整值變改變系統的敏感度。
在使用累積和控制算法的過程中,還需要考慮到其特殊性,因為在進行系統異常檢測的過程中容易產生累積和效應問題,系統從異常恢復到正常水平時,常會因為累積數據值的高度出現誤報。解決這種問題的有效方法是將不再增加超過門限值的累積數據,等待恢復后降低其累積值,以消除誤報。
2.2.4 健康評估和管理
設計的系統中健康管理板塊是根據檢測算法的結果進行判斷網絡的運行狀態,對于運行不佳的設備將安排專業技術人員進行檢查。在故障期間,系統將采取調整網絡的基本配置、利用備份的設備,重新構建新的網絡運轉系統,以此保障網絡的聯通性,避免癱瘓。同時,系統通過對監控信息和系統日志記錄的信息進行分析和判斷,健康評估檢測版塊,對新故障及歷史誤報、漏報的樣本進行重新梳理、判斷,以此修正和建立完善的診斷計算環節。
在設計完善后,對所設計的網絡故障預測與健康管理系統進行檢驗,發現當網絡系統中出現CPU使用率較高或者溫度上升等情況時,CPU的使用率并沒有達到警報的標準,但是溫度值卻發生異常。所以實驗結果是溫度值的變化會造成系統異常,溫度變化可以作為檢測網絡異常的重要依據。
3 結束語
在網絡系統的故障預測和健康管理設計中,首先要明確所診斷和預測的標準,以及系統所實現的目標,再據此制定合理的監管系統。
參考文獻
[1]彭宇,劉大同,彭喜元.故障預測與健康管理技術綜述[J].電子測量與儀器學報,2010(01):1-9.
[2]李瑞瑩,康銳.基于神經網絡的故障率預測方法[J].航空學報,2008(02):357-363.
[3]許麗佳,王厚軍,龍兵.基于貝葉斯網絡的復雜系統故障預測[J].系統工程與電子技術,2008(04):780-784.
[4]張持晨.基于網絡的社區居民健康管理模式研究[J].科技創新與生產力,2011(07):54-55+58.
作者簡介
祝旭(1982-),男,湖南省益陽市人。碩士學位。現為湖南工業職業技術學院講師。研究方向為網絡管理、軟件工程、大數據。
作者單位
湖南工業職業技術學院 湖南省長沙市 410208