黎其宇 陳俊士
民航中南空管局通信網絡中心 廣東 廣州 510000
系統集中監控平臺底層采用Zabbix技術,WEB端為自定義UI,運維人員可自由集成VMWare虛擬化、硬件服務器、存儲、操作系統、軟件應用、數據庫、數據流以及網絡設備端口的狀態,并形成統一監控標準,可全方位覆蓋系統的實時監控,減少監控“盲區”,提升故障定位和處理效率。
集中監控平臺UI集成了各項監控功能,提供統一的監控界面、告警列表、Top指標及拓撲大圖,亦提供不同風格監控首頁和自定義模塊。大幅提高了技術保障人員對系統監控維護的便利性。
網絡監控模塊主要是對終端、服務器、虛擬化平臺、網絡設備、防火墻等所有網絡進行監控。對網絡狀態監控具有秒級響應速度,只需為設備配置ip即可監控系統內服務器、終端的網絡狀況。針對交換機、防火墻類網絡設備,本模塊還提供了端口級別的監控,可即時監控到每一個端口上業務的實時性,實時顯示當前設備健康、流量TOP5指標,并根據閥值進行告警提示。

具體監控指標包括端口流量,端口狀態,連通性等:
a、提供網絡設備監控功能,針對運行狀態、CPU使用率、內存使用率、端口發送和接收總流量、端口發送和接收速率、端口發送和接收丟包率。
b、提供端口發送和接收速率、端口發送和接收丟包率、流量TOP5指標。
c、支持網絡設備包括交換機、防火墻、負載均衡等,支持思科、華為等品牌,
通過腳本方式支持對端口的手動啟用和關閉功能。
e、可以對接Cisco IPSLA或者H3C的NQA等同類型協議,獲取監控線路的延時、抖動等數據,也可以使用RPING(Remote Ping)的方式,實現關鍵線路和運營商線路的監控。
主機監控模塊可根據標準制定的監控模板和告警閾值,對物理服務器、存儲、虛擬機、終端或通用硬件設備的健康狀況、內存、CPU、硬盤、網卡等主要硬件設備進行實時監控,同時提供系統關鍵進程、存儲空間、網絡流量、關鍵日志等指標監控及告警功能。避免設備硬件或系統問題影響業務運行。

具體監控指標如下:
a、提供主機監控功能,針對運行狀態、CPU使用率、內存使用率、磁盤使用率、磁盤總量和使用量、網卡發送和接收速率進行監控。
b、提供主機所運行的服務自動發現和狀態監控功能。
c、支 持 windows、Red-hat Linux、Cent OS、FreeBSD 等 主 機 操 作系統。
d、主機監控支持 SNMP、WMI、IPMI、AGENT、SMI-S的方式進行監控。
e、監控對象主要有網絡安全設備、服務器 、存儲設備、虛擬化、云平臺等。
虛擬化監控管理實現對虛擬化環境中各IT資源的運行狀況檢測、性能分析、報表管理、告警管理等功能內容,提供詳細的資源對象配置數據、狀態數據、性能數據集中顯示;支持對VMware、vSphere、Hyper-V、華為FusionCloud、Nutanix、深信服等虛擬化環境的拓撲呈現以及自動拓撲更新,從而為云資源的管控人員提供日常運行維護的技術支撐。目前集中監控平臺對VMware提供的監控主要有Vcenter管理平臺、VMware ESXI、Vmware虛擬機、VMware Datastore幾個方面。

虛擬化監控管理的主要功能內容包括以下幾個方面:
a、虛擬化資源管理:實現虛擬化資源的配置屬性等以各類對象作為基本的IT資源的管理;
b、運行狀態與故障管理:發現性能瓶頸,準確定位故障,提供性能優化保證業務服務水平的相關分析結果。提供告警與性能的關聯展示,提供告警處理參考建議的新建、查詢等關聯分析;
c、性能監控及數據報告:提供準實時的性能監控展示、相關排名分析及歷史數據報告等;
d、資源關系可視化監控展現:梳理建立虛擬化資源對象間關系模型,從業務視角整體監控展現虛擬資源的使用情況及狀態。
數據庫監控主要用于監控服務器數據庫運行情況。包括數據庫引擎監控、數據庫文件監控,監控目前環境中的Oracle、MySQL、SQL Server等常見數據庫,狀態、使用量、數據庫實例、數據庫對象、BUFFER狀況、死鎖信息、數據庫文件等狀態信息,根據設定的閾值來判斷各指標是否處于正常運行狀態,并提供時間段變化趨勢圖表供用戶查看。

數據庫主要的監控指標有:
a、提供數據庫監控功能,針對數據庫服務狀態、數據庫死鎖數、數據BUFFER命中率、數據庫作業數、數據庫用戶連接數、數據庫文件大小、數據庫文件啟動事務數、查詢狀態和發送狀態等信息監控。
b、支持監控 PostgreSQL、SQL Server、Oracle、Oracle Rac、Sybase、MySQL、DB2、HANA等數據庫。
c、支持數據庫自定義監控指標,如:高可用狀態、特定字段指標、日志等。
應用監控主要監控系統的后臺軟件程序、服務、接口、終端程序等運行情況。系統實時接收程序運行中發送的狀態信息,根據程序狀態數據來判斷程序是否處于正常運行狀態。本模塊還可針對服務運行狀態、重要虛擬機分布情況、log、文件版本等進行監控。
主要監控指標如下:
a、通過定期探尋應用的服務、Log、流量等判斷應用服務的運行狀態。服務出現運行故障時,維護人員可以及時知道,并快速采取措施;
b、定期檢測丟包率、最大時延、最小時延、平均時延等對應指標,預防應用服務發生的故障,實現主動式的監控管;
c、模擬用戶行為訪問應用服務,根據用戶設置的閾值產生告警,可以及時排除故障,保障應用服務的穩定運行
通過使用集中監控平臺作為監控工具,可以為機房運維人員提供一個機房的整體監控,同時也可以為我們技術支持提供不同信息系統運行狀況的總覽,有利于我們日常工作的展開。隨著集中監控平臺的不斷完善,未來可以在更多業務上使用。