唐傳廣 陳傳亮
?
通信運營商基于業務支撐系統的數據監控
唐傳廣 陳傳亮
中國聯通軟件研究院,北京 100176
業務支撐系統是通信運營商的核心系統,基于此,論述了輔助業務支撐系統的數據監控系統,為業務支撐系統的穩健運行保駕護航。
通信運營商;業務支撐系統;數據監控;監控系統
隨著運營商業務支撐系統用戶數的增加,系統的負載壓力劇增。隨著社會的發展,用戶對服務愈來敏感,要求在辦理業務時能輕松、快捷地完成,這給業務支撐系統提出了更高的要求。為了保障業務支撐系統的健康運行,數據監控系統應運而生。
經過分析,監控系統應能滿足下面幾點要求:(1)事前預警。提前發現業務支撐系統交易數據異動(比如業務量劇減、積壓量劇增等),提前預測業務支撐系統的風險,在用戶有所感知前解決系統問題。(2)事中定位。如果業務支撐系統發生故障,通過觀察業務支撐系統不同環節的業務量,快速排查事故原因(比如工單積壓等)。(3)事后分析。保存業務支撐系統故障發生時的歷史數據,為分析故障原因提供第一手資料,便于問題的跟蹤,防止相同故障再次發生。(4)易于使用,便于監控。使用便捷,人員經過簡單培訓后,即可使用監控系統。[1]
2.1 實時監控,提前預警
數據監控系統上線前,業務支撐系統發生故障后,一線人員層層上報故障,工作人員接到故障指令后進行處置,故障響應的周期長,影響用戶感知。數據監控系統上線后,可以實時監控系統運行情況,由被動接收一線人員上報故障信息,調整為主動發現系統異常,快速處理系統故障。如圖1,如果工單積壓量突然連續上升,表明系統處理工單的效率在降低,這時候就需要檢查業務支撐系統服務器的資源是否正常,提前介入分析、處理。

圖1 工單監控圖
2.2 分類監控,快速定位
數據監控系統上線前,如果業務支撐系統發生故障,需要工作人員對各個服務、系統日志進行排查。數據監控系統上線后,可以監控業務支撐系統多項指標,通過觀察發生故障的指標,快速定位問題(比如BO不掃單,IOM積壓量)。
2.3 故障總結,為業務支撐系統優化提供數據支撐
數據監控系統上線前,系統故障發生后需要運維人員和研發人員查看系統日志來分析故障原因。日志文件通常體量巨大,分析難度大。數據監控系統上線后,查看歷史記錄,通過數據量的變化軌跡和變化異常,能夠簡捷直觀還原故障場景。
2.4 可視界面,簡捷直觀
數據監控系統上線前,運維人員需要檢查服務器、數據庫進行通常的運維操作。一方面,直接查詢數據庫會增加數據庫負載,增加系統風險;另一方面,難以發現異常數據,而且操作復雜。數據監控系統上線后,運維人員將主要系統監控指標配置到監控系統后,通過圖形界面即可監控業務支撐系統,并能形象直觀發現系統異常。
2.5 日常業務量數據為經營分析提供參考
數據監控系統上線后,管理人員可以實時準確掌握當前系統的經營狀況。實時業務量也可以作為經營分析數據的一部分,為領導決策提供依據,如圖1所示。

圖2 開戶類型監控圖

圖3 開機工單監控圖
3.1 數據卸載技術
數據監控系統基于OGG-KAFKA,而不是傳統意義的關系型數據庫。通過OGG將數據庫的變化量同步到KAFKA,數據監控系統通過分析KAFKA的消息隊列統計監控指標,而不是在數據庫通過SQL或存儲過程統計結果。數據監控系統實現數據卸載,避免直聯數據庫,給數據庫造成額外的負載壓力。
3.2 算法統計
由于數據監控系統不是基于傳統關系型數據庫,無法通過SQL或存儲過程統計,生成統計指標需要將傳統SQL演繹為計算機算法,通過編程算法得到統計結果。
3.3 內存數據存儲
數據監控系統將統計結果存儲于內存數據庫redis,數據讀寫效率大幅提升,實現業務支撐系統實時監控,避免因為數據延遲造成數據失真并誤導監控人員。
后續計劃歸納多個監控指標形成監控指數,并劃定監控指數的合理區間,以及不同服務類別發生故障時的監控指數區間,業務支撐系統超出設定的閥值時可以通過短信、手機客戶端等多種方式進行告警,為業務支撐系統的穩健運行保駕護航。
[1]朱奕健,張正卿.基于通信運營商數據的大數據實時流處理系統[J].中國新通信,2016(3)78.
F626.115
A
1009-6434(2016)04-0003-01