呂常勝,薄雙錄
(民航東北空管局氣象中心,遼寧沈陽 110043)
民航氣象信息系統包括民航氣象數據庫系統、民航氣象信息服務系統以及相關的輔助支持系統等。主要負責民航氣象信息的發布、接收、存儲、交換,并對外提供氣象信息的查詢服務等[1]。民航氣象信息資料包括有報文格式的實況報(METAR)和預報(TAF)[2],圖片格式的衛星云圖、雷達圖、重要天氣預告圖以及專有氣象信息格式的自動觀測資料等。民航氣象信息的及時、準確發布與獲取,不僅關乎民航空管系統的服務質量,也影響到民航運輸的安全與高效,所以,保證民航氣象信息系統的正常運行至關重要。
民航氣象信息系統自開始運行以來,其間經歷了多次的更新改造,并且增加了其他一些相關輔助系統。雖然系統功能的逐步完善,服務質量也有了顯著提高,但隨著系統軟、硬件的增加,系統的復雜程度也越來越高,相應的系統監控運維也越來越難,按原有方式的系統運維難以保障系統的穩定運行。
目前,民航氣象信息系統的運維與監控主要通過崗位日常監控與巡視及用戶主動報告問題來完成。雖然民航氣象信息系統的部分子系統有些自帶了監控功能,但監控信息不夠全面、深度不夠、定位不準,而且相關系統的監控關聯度不高,也給系統的運維造成一定的困難。另外,日常監控主要是維護人員在崗監控,如果是夜間或人員不在崗,則系統的運行狀態及監控信息不能及時獲得,則會延誤解決問題的時間,影響系統的正常運行。
如何更好地整合各系統監控信息,及時準確定位故障原因,除了自行開發一套針對本系統的監控外,市面上也有許多成熟的相關監控產品可以采用,比如“監控易”。
監控易是美信時代自研的分布式、一體化數據采集與洞察管理平臺。專注對局域網、廣域網和互聯網中的IT 資源和網絡的故障監測和性能管理,是集中式、跨平臺的一體化IT監控運維管理軟件。監控易打破了采用多種監控工具對數據中心進行離散式管理的模式,采用多TS架構,集中統一實現IT、動環、智能物聯網等智能設備和軟硬件系統的自動采集、監測、巡檢、告警及展現,實現不同系統間的數據關聯與共享,從全局視角把控系統運行態勢,實現故障快速定位和根源診斷[3]。
監控易系統為B/S 架構,采用底層分布式架構設計,各地數據中心可部署監控終端,設備監控指標的采集在監控終端完成,監控終端的狀態數據和告警數據上傳到集中管理控制臺,所有監控內容通過集中管理控制臺進行統一展示。
監控易的邏輯結構如圖1所示。

圖1 監控易的邏輯結構
在IT基礎設施監控方面,監控易支持對上百家廠商的服務器、操作系統、數據庫、中間件、應用、網絡設備和存儲設備的深入監控。除了支持自行研發的Agent 私有協議外,還支持SNMP、HTTP/HTTPS、ICMP、ODBC、SSH、TELNET 等公有協議[4]。并且有多種告警方式可供選擇,如聲音、短信、微信、郵件和腳本等,保證運維人員第一時間獲得告警信息,及時排除系統故障,同時,也減輕了運維人員的工作強度。
監控易支持多種形式的部署方式,常用的有本地部署、分布式部署、混合云部署、多層級部署等,本次安裝選擇本地部署。監控易軟件安裝完成后,即可對監控對象進行配置操作,通常包括以下幾個步驟。
在設備管理界面選擇添加設備,這里包括服務器、應用和業務、網絡設備、存儲設備、虛擬機監測等項目,每個項目下有各個系統及應用廠家的產品及連接方式可供選擇,選擇好連接方式后,即可按照該連接方式的要求提供連接參數,如選擇Linux 服務器的SSH Linux 連接方式,需要填寫服務器IP 地址、端口號、登錄名和登錄密碼等,之后選擇下一步,進行與監控設備的連接。
與監控設備連接成功后,系統出現基本監測點和高級監測點兩個選項,每個選項下面列出了若干可供選擇的監控項目,用戶可以選擇所需的監測項目并對其進行基本配置,以滿足不同的監控需求。如選擇監控CPU、物理內存、網卡、磁盤、進程等。
通過以上設備連接和基本監測點的添加后,在設備管理界面上便有了該設備項目。在該設備項目下列有多個監測點,對每個監測點可以進行編輯、測試、禁止和刪除等操作。通過選擇編輯監測點,可以對該監測點的監測參數重新設置,以滿足實際監控需求。如執行間隔時間、計劃任務、危險閾值、故障閾值等,還可對該故障處理方法進行描述,以提示用戶如何處理。
下面通過幾個具體示例,簡單描述監控易在民航氣象信息系統監控方面的應用。
網絡設備有各種品牌的交換機、路由器、防火墻、負載均衡、VPN 等設備可供選擇監控,如選擇銳捷交換機產品,通過配置SNMP端口進行設備連接,監控項目有交換機的CPU、內存及各接口的連接狀態等。
可監控的服務器包括Windows 服務器、Linux 服務器、IBM AIX服務器,HP和SUN的服務器等,如通過選擇IBM服務器類別、連接方式選擇SSH IBM AIX,配置好IP 地址、端口號22,登錄名和密碼后連接成功,可選監控點CPU、交換分區、物理內存、網卡、磁盤和進程等。
如對民航氣象數據庫通信系統進程rmqtxt 的監控,該進程負責獲取通信系統MQ 本地隊列LOCAL.TXT 的報文數據,交由后續的進程處理,如果該進程down,則導致隊列數據積壓,影響報文數據的接收及處理。該監控點的監控參數可以選擇5分鐘監控時間間隔、故障閾值為小于1。如果該進程down,則系統監測到該進程運行個數小于1,滿足故障閾值條件,監控系統提示警告。
可監控的數據庫類型包括Oracle 數據庫、IBM DB2 數據庫、Sybase 數據庫、MySQL 數據庫、SQL Server 數據庫等。民航氣象數據庫系統采用的是Oracle數據庫,首先選擇Oracle數據庫連接,設置數據庫用戶名、密碼、數據庫SID、端口號、數據庫IP 地址后,連接成功[5]。監控點包括連接會話數、Oracle 當前狀態、邏輯讀語句Top10、執行語句Top10、Oracle表空間等。
另外,可以配置SQL 自定義監測,通過查詢數據庫表信息內容,對數據庫業務進行監控。如民航氣象數據庫系統會每分鐘接收到本場的自動觀測數據并處理入庫,通過自定義SQL語句可監控自動觀察數據是否按時收到。自定義SQL語句如下:
其中:
DBINFO.INFO_AWOS_RPT為自觀數據表名
CCCC=′ZYXX′選擇查詢本場數據
OTIME為自觀數據時間
該SQL 查詢語句通過計算最新本場自觀數據時間與系統時間的差值,再通過設置危險閾值和故障閾值的行數信息,得出自觀數據是否收到的結果。如調試后設置故障閾值為行數60,當自定義SQL語句執行結果大于60 時,說明已有10 分鐘未收到本場的自觀數據,監控系統隨即警告。
IBM MQ 是消息傳遞中間件,用于簡化和加速多個平臺中各種應用和業務數據的集成。民航氣象數據庫系統使用了MQ(消息隊列)進行數據的傳輸。可以通過添加監控點完成對MQ的監控。
首先對MQ服務端進行配置,具體步驟如下:
1)切換到系統root 用戶,在MQ 服務器上創建SYSTEM用戶,并添加到mqm組
2)切換到MQ 管理員mqm 用戶,查看MQ 服務器上的隊列管理器
3)創建服務器連接通道,并指定為SYSTEM用戶
中國的物流是個很極端化的行業,當然也許并不特殊。有明哲保身,謀求生存的物流企業,也有敢于叫板國際物流巨頭,甚至收購國際物流巨頭的物流企業。
4)創建監聽器,注意端口號(默認1414)
其中,ZYXX是MQ本地隊列管理器名稱。之后,在監控易上選擇添加中間件設備的IBM MQ 選項,輸入MQ服務器IP地址、端口號、隊列管理器名稱、服務器連接通道后,完成IBM MQ 中間件的連接,并對隊列、通道、系統隊列、系統通道及偵聽器狀態等指標進行監控。
通過安裝監控易私有Agent 插件,可以完成對文件信息的有效監控。
1)文件大小的監控
民航氣象信息服務系統在Linux 服務器安裝了Web服務,可以通過添加監控點完成對文件大小的監控。首先下載安裝監控易Agent Linux 插件,完成對Linux 系統的Agent 方式連接,Agent 端口號默認是2198。配置監測點選擇高級監測點的Linux File 選項,監控參數有要監控的文件名、危險閾值和故障閾值為文件的大小。如要監控tomcat 日志文件/home/tomcat/tomcat1/logs/catalina.out 大小,可設置危險閾值和故障閾值分別為2GB和4GB,當日志文件字節數大于4GB時,監控系統告警。
通過一些輔助的腳本編寫,也可以完成對新增文件的監控。例如,氣象雷達基數據每2~6分鐘自動更新,而且數據會以不同的文件名存儲在Windows服務器中。首先通過同步軟件將最新獲取的文件拷貝到其他目錄,并更改為一固定文件名如radar.new。再通過編寫定時刪除腳本將其刪除,如設置10分鐘定時刪除radar.new文件。這樣通過監控易監控是否存在radar.new文件,即可完成對新增文件的監控目的。
首先下載安裝監控易Agent Windows 插件,完成對Windows系統的Agent方式連接,Agent端口號默認是2198。配置監測點選擇高級監測點的Windows 文件信息選項,監控參數有要監控的文件名、危險閾值和故障閾值為文件的大小。如要監控新增文件D:DATARADAR adar.new 大小,可設置危險閾值和故障閾值為none,當未監控到該文件存在時,也就是監控周期內沒有新增文件到達,監控系統告警。
民航氣象信息系統在空管服務及航空運輸方面起著至關重要的作用,維護該系統的正常運行是提供保障的基礎。監控易在民航氣象信息系統監控運維上的應用,不僅提高了系統運維效率,也降低維護人員的工作強度。隨著監控易系統在民航氣象信息系統監控運維方面的不斷開發與應用,必將在保障民航飛行安全,提高服務質量方面發揮更大的作用。