◆郭 岳 彭祥禮 袁 慧 莊 嚴
電力應用業務的網絡性能及故障分析
◆郭 岳 彭祥禮 袁 慧 莊 嚴
(國網湖北省電力有限公司信息通信公司 湖北 430070)
本文基于網絡探針收集鏈路流量的方法實現對電力應用業務的一個軟件系統和電力應用的業務路徑進行分析和梳理,對服務路徑圖和應用的性能指標進行監控分析,并提供精細化、可視化的網絡性能分析視圖,從而實現快速判斷網絡故障,優化網絡流量,提高網絡效率。
網絡性能;鏈路流量;網絡探針
隨著國網應用業務的發展計劃,信通公司也完成了省一級的數據大集中。完成了營銷系統的省級歸口,也對PMIS,GIS等業務系統進行了2.0版本的升級。新系統采用了行業主流的SOA架構,以服務為導向,各組件協同工作,松耦合結構,為日后的系統擴容和升級提供了良好的基礎,提升了系統的業務水平、業務能力和處理效率,但SOA的架構也給運維帶來了挑戰。
同時,國網對省公司的一類和二類業務系統有著嚴格的考核指標。通過國網統一部署的IMS3000對省公司的34個業務系統進行實時的監控(5分鐘一次的業務可用性監控),一旦出現30分鐘的業務連續停止,自動計入考核。
為了更好的實現業務監控,將運維從被動變得主動。本文在原有傳輸設備、網絡設備、主機等設備監控系統的基礎上,實現面向業務的網絡信息安全監測與預警分析,通過應用傳輸通道的最小單元監控,進一步分析網絡、系統及應用的運行情況。在出現故障時,及時發現并告警,并定位故障節點與組件。
此方案利用采集和分析網絡數據包來實現對重要鏈路、關鍵設備和核心服務的監控。如果要建立橫跨兩個數據中心的全面的監控視圖,數據采集需要覆蓋到這兩個數據中心的重要鏈路、關鍵設備和核心服務。數據采集可通過交換機把數據鏡像(SPAN)分別送給位于兩個數據中心的流量管理設備,如圖1所示。

圖1 流量監測數據接入平臺
從省公司網絡管理的實際需求出發,在省公司數據中心統一部署網絡流量分析探針和統一分析服務器,實現省公司的一類和二類業務系統網絡性能的實時監控。
為了更精準獲取分析數據,在業務系統服務器的接入層交換機上實現對應相應端口的流量鏡像。鏡像過來的流量可以引入到流量分析探針。
以PMIS為例,如圖2。

圖2 捕獲示意圖
以業務真實路徑為視圖基礎,提供端到端的網絡安全測量與預警:
它們在動!猛然意識到了這一點,他的汗毛都炸了起來,本能地向下一縮身子,四只節足彎曲蓄勢,另外兩只則高高揚起,橫斜在身前,做好了隨時攻防的準備。
①實現網狀化的服務路徑圖;
②實現實時分析比特率(Mbps)、連接數、響應時間(ms)等網絡指標;
③實現即時告警,點擊告警條目可由告警關聯到視圖進行深入分析。
2.4.1監控自動化
①業務路徑自動發現
依托于真實網絡流量,實現應用服務路徑的可視化,為IT部門提供準確有效的應用組件,交付設備之間的訪問依賴關系信息,并且可以被持續管理,為應用項目的建設、監控、排障、遷移提供可靠的信息實現。
②業務應用自動發現
實現自動發現知名應用,自動發現私有應用及自定義應用。應用發現有兩種模式,分別是發現模式和列表模式。發現模式中,被管理流量中存在的知名應用、私有應用以柱狀圖的方式呈現,并且可視化了流量的覆蓋率。
2.4.2故障診斷自動化
故障診斷模塊可以直接分析采集的數據資源,通過數據分析,提供故障診斷和定位信息。
①自動故障診斷與定位概覽
②自動故障診斷報告
診斷報告主要匯集各項診斷指標結果,以及給出故障主要原因,如圖3。

圖3 自動故障診斷報告
2.4.3指標統計分析及追蹤
實時統計網絡服務的指標數據,通過服務路徑圖導航,總體指標分為:可用性、性能、負載量三大影響網絡服務質量的關鍵因素,提供歷史數據的保存和查詢,把握網絡服務狀態。
(1)負載量統計
對于網絡服務負載量,主要統計指標包括:總體流量、客戶端數量、并發連接數。其中,總體流量表征了當前選擇的捕獲點或者主機為該網絡服務所產生的流量。
(2)可用性統計
網絡服務的可用性,主要體現在建立連接是否成功,連接通道是否正常運行這兩方面。可用性統計指標包括:TCP SYN、TCP FIN、TCP RESET三個基礎指標,以及建連失敗率統計。
(3)性能統計
性能指標主要分析TCP連接通道的傳輸性能,直接關系到網絡服務快慢的評估,性能指標包括:TCP零窗口事件、TCP重傳數量。
其中,TCP零窗口事件記錄了服務器、客戶端的TCP協議棧出現0窗口事件的次數,若連續出現大量0窗口事件則表明系統資源不足導致性能下降。
2.4.4所見即所得報表
①實現生成周期報表和即時報表,以及進行自動故障診斷的結果報告。
②周期報表按照一定周期自動產生,例如每天、每周和每月。內置數種報告模板,包括容量規劃、服務性能等。
③即時報表可在操作鏈路視圖、設備視圖時,隨時點擊“即時報表”直接生成PDF。
通過上述研究及實驗,達到下述目標:
(1)提高系統運維能力及故障定位響應能力,降低網絡問題導致的業務中斷時長;
(2)降低網絡故障分析的人力成本,有效降低由于故障分析所耗費的大量人力資源、時間;
(3)建立了圍繞應用的網絡性能監控的視角,評估網絡對業務性能的影響,在發生故障時,能在業務的視角分析問題;
(4)提供系統優化的網絡性能指標數據,幫助優化業務系統性能,提高業務運維人員使用體驗及滿意度。
[1]上海天旦公司.NPM產品技術白皮書[M],2014.
[2]上海天旦公司.NPM測試報告[M],2014.
[3]Mani Subramanian.網絡管理—原理與實踐[M].高等教育出版社,2002.
[4]Larry L.Peterson.計算機網絡(第二版)[M].機械工業出版社,2015.