李偉霄,趙 潔,鄧 潔,李光鍇,姜 寧
(中國移動通信集團設計院有限公司山東分公司 濟南250001)
某電信運營商公司目前有信息化系統37 套,主要包括硬件、軟件、應用、數據庫、業務等多類。經過幾年的運維工作積累,公司的硬件(包括小型機、PC Server 和交換機等)自動監控、業務流程梳理等都有相關系統進行服務支撐。2013年底,政府主管部門明確要求全面深入地掌握公司信息化系統情況,提升快速發現問題和解決問題的能力。在此要求下,項目組決定在軟件自動化監控方面進行突破。據統計分析,信息化系統擁有307 套軟件,包括Web 服務軟件、中間件、數據庫、安全軟件、備份軟件、第三方軟件和其他類型的軟件,其中,數據庫為103個,數據庫的數量最大,所以本文重點研究實現數據庫軟件的自動監控與告警。移動信息化軟件分布如圖1 所示。
經過對常規1 臺數據庫巡檢流程進行分析,可以看出,數據庫手工檢查內容繁瑣,耗費時間。數據庫日常巡檢流程如圖2 所示。
結合目前IT 系統運維管理現狀以及多年運維管理和技術經驗,通過“頭腦風暴法”和“德爾菲法”提出了4個數據庫智能監控解決方案,如圖3 所示。

圖1 移動信息化軟件分布

圖2 數據庫日常巡檢流程

圖3 實現解決方案
針對圖3 所示的4 種備選方案,從成本、實施難易程度、實施周期、需求變動難度、運維管理職責等角度分別進行了分析,方案評估見表1。
為了將4 種方案的優劣進行量化對比,對成本、實施難度、實施周期、實施效果、后期需求變動難度共5個維度制定了評分標準,具體內容見表2。
根據上面制定的評分標準對3 種備選方案進行打分(最高分5 分),方案評分見表3,可選方案最終得分如圖4 所示。
評估結果表明:成熟開源監控平臺的方案實現最為合理,實施難易度適中,成本較低,后期維護難度最小,綜合得分最高。
先后研究和評估了國際上主流的開源軟件,根據平臺的用戶規模、漢化程度以及監控功能,選擇了Nagios、Zabbix、Cacti 作為監控平臺的研究方向。隨后根據軟件選型方案,結合實際工作情況,整理出了軟件選型的評估項,見表4。
分3 組對Nagios、Zabbix、Cacti 進行環境測試,根據實際監控需求,部署和配置了3 套軟件平臺,最終評分(最高分10 分)見表5。
開源監控平臺的最終得分如圖5 所示,通過對比選優,最終選擇Zabbix 開源監控平臺。
數據庫監控平臺接入實施流程為:監控數據庫→監控項→觸發器→告警動作→告警方式→告警用戶組,具體實施內容可參考相應的接入實施手冊,本文不再贅述。數據庫智能化監控流程如圖6所示,數據庫接入后展示效果如圖7 所示。
監控內容、參數、Agent 程序等經反復測試、數據收集,已經正式將信息化相關業務系統的數據庫內容接入。通過Zabbix 集中監控平臺實現了對數據庫(Oracle、DB2、MySQL)可用性、連接情況、表空間情況、鎖信息、日志信息等的監控,監控參數多達20 余個。現網數據庫接入集中監控體系,將運維中常見的網絡問題、應用服務問題、數據庫問題進行有效區分,有助于迅速定位故障原因。另外,作為一種常規監控手段,當數據庫性能觸發設定閾值進行及時預警,可大幅提升因性能瓶頸出現的一系列應用故障處理效率。

表1 方案評估

表2 方案評分標準

表3 方案評分

圖4 可選方案最終得分

表4 開源監控平臺的選型評估模型

表5 開源監控平臺的評分

圖5 開源監控平臺最終得分

圖6 數據庫智能化監控流程

圖7 監控平臺效果