王江東中國鐵通有限公司河北分公司網絡支撐中心,河北石家莊 050000
提高交換網管告警分析性能
王江東
中國鐵通有限公司河北分公司網絡支撐中心,河北石家莊050000
摘要本文以解決交換集中網現存問題出發,運用PDCA循環(質量環),通過分析問題根源、確定方案、制定對策、確認效果并最終找到卓有成效的解決方法。從而以點帶面,為類似問題的解決帶來了新的方向。
關鍵詞交換綜合網管;告警分析;告警性能;PDCA循環
交換綜合網管作為現代交換網管的核心之一,主要負責匯聚分散布局的傳統交換網各個交換局點的告警監控及統計報表。其收集匯聚各分散局點相關信息及相關處理的及時性和準確性,是保證系統運行效能發揮的關鍵因素。
某公司交換綜合網管系統已使用7年,系統軟硬件性能逐漸降低;隨著公司業務發展,系統壓力日漸增高,已經對系統運行效能造成較大影響,亟待解決。
同時該系統研發時,因歷史局限性未能充分分解告警報中的告警類型,無法及時呈現網管工作人員重點關注的告警類別、影響等相關信息,已影響到告警監控效能的發揮。
為了提高交換網管告警分析的性能,增強告警分析的能力,因此我們選定依托自身力量,以PDCA循環(質量環)為方法逐步剖析,以實現《提高交換網管告警分析性能》。
影響小型機性能的因素主要有4個方面CPU、磁盤I/O、內存、網絡。通過分析小型機各個參數以及節省投資的目的,確定在內存和磁盤兩方面提高小型機性能。
針對交換網管系統告警報告分解后告警分類不清晰的問題,采用數據庫技術將交換網管分類后的數據進行再分類。為了便于告警分析和告警巡視將告警通過WEB頁面顯示。
3.1 制定對策
主要針對提高小型機性能,由于交換網管監控網元較多,告警報告分解需要長時間占用內存空間。磁盤I/O繁忙和內存頁面調用頻繁造成系統瓶頸,影響小型機性能。針對小型機內存頁面調用問題,制定相應策略。
3.2 策略實施
使用 iostat命令查看IO狀態,結果如圖1所示。
通過分析發現 :hdisk1 活動百分比高,而同屬于rootvg的hdisk0 卻基本不活動,因此首先考慮的是使用reorgvg命令重新組織卷組,結果是hd6被自動轉移到了hdisk0,重組過程中觀察iostat,發現兩塊硬盤速率均可達到20Mbps,排除硬盤故障。
接下來使用 migratelp hd6/x hdisk1/x 命令,將編號是偶數的一半卷組從hdisk0轉移到hdisk1,發現兩塊硬盤活動百分比都達到80左右,但是IOwait仍然很高。
最后考慮從更改內存參數入手解決。利用vmo -a命令查詢內存參數,發現lru_file_repage值為默認的‘1’,改為‘0’。
3.3 確認效果
使用 vmstat命令觀察小型機內存性能,結果如圖2。
內存參數修改后剛開始時pi達到1000左右,po消失,十分鐘后pi也基本消失,顛簸現象基本消除。相應的,cpu占用率從平均80峰值99降到30左右,性能優化初見成效。
制定對策:主要針交換網管收集報告過多問題。交換網管系統監控100多個網元,時刻在接收告警報告和話務報告,但是多為不重要報告。此次制定的策略主要是通過優化交換網管的報告任務來提高網管性能。
策略實施:通過對交換網現網組成的分析,以及日常工作的需要,將監控的網元根據重要性進行分類,匯接局、關口局需要詳細話務報告和告警報告,端局話務報告根據情況可以刪除。盡量減少交換網管收集報告的數量。
確認效果:經過對全省100多個網元所有上報報告
制定對策:針對交換網管分解告警后,告警分類不夠詳細的問題。為了將交換網管分解后的告警進行再次分類,在此使用數據庫技術。提取分解后的告警數據,將其存入數據庫中,利用數據庫技術進行再次分類。同時再結合PHP技術將告警內容在WEB頁面上顯示,方便了告警巡視和告警分析。
策略實施:交換網管告警分解后ETL(數據提取、轉換和加載)工具SPOON,使用此工具,通過建立數據提取任務,自動將告警數據從交換網管數據庫中提取出來,并轉存至自建的告警數據庫中。再結合PHP技術將告警在WEB頁面上實時顯示。
確認效果:告警監控頁面,可以實時展現未恢復的中斷告警,過濾掉一般告警、事件告警等非重要告警。歷史告警頁面,可以查看那些已經恢復的告警內容,同時可以監控發生次數,了解網絡運行質量。我們通過WEB頁面彈出同時伴有彩鈴提示的方式,可以讓我們更加及時的發現和處理告警。
經過3此PDCA循環,我們通過提高交換網管小型機的性能、減少交換網管不必要報告、交換網管告警WEB頁面顯示3個對策,實現了提高交換網管性能的目標。
此項目中我們利用科學的PDCA循環方法,逐步剖析問題,完全依賴自主力量,通過運用小型機技術、數據庫技術、PHP網頁技術等多方面知識成功解決了困擾多時的交換集中網管分析性能差的問題。
通過本項目的實施,證明科學的方法,能夠幫助我們分解復雜問題,充分挖掘自身潛力,客服重重困難抵達勝利的彼岸。
參考文獻
[1]李寶山,王蘇東.告警管理系統中的告警同步模塊的設計[J].通信技術,2013(4).
[2]高明飛.移動綜合網管數據缺失原因的分析及處理[J].電信技術,2009(1).
中圖分類號TP3
文獻標識碼A
文章編號1674-6708(2015)139-0154-01