丁瑞元
摘 要:隨著煤炭企業信息化、自動化、智能化建設的不斷發展,煤炭企業所使用的各類信息系統及配套設備大量增加,現有信息系統運維人員的工作任務隨之增加。該文通過建設一個具有集中網管、告警監視、統一運維、可視化展現的集中調度網管平臺,將煤炭企業各類信息系統設備統一監管,實現“集中監控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
關鍵詞:信息化 網管 運維 監測
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2019)02(b)-0049-02
隨著煤炭企業信息化、自動化、智能化建設的不斷發展,煤炭企業所使用的各類信息系統、硬件設備也不斷增加,運維工作量逐年加大。各系統都有自己的網管系統或告警平臺,如H3C網管系統、T2000傳輸告警平臺、視頻質量診斷平臺等,因設備廠家不同、告警編碼協議不同,導致各系統不能互聯互通、資源共享,存在一個個“信息孤島”,為運維人員的統一集中管理、運維帶來了難題。為了解決以上問題,該公司搭建一個“集中網管、告警監視、統一運維、可視化展現”的集中調度網管平臺,實現信息系統日常的管理和調度功能,隨時準確地監測各信息系統的運行情況,確保各系統穩定運行。
1 平臺特點
1.1 高度模塊化
平臺采用了分層、模塊化的設計技術,模塊與模塊、層與層之間松散耦合。它具有3方面優勢:一是模塊之間的松散耦合使其具備反應靈活快捷、適應能力強的特點;二是模塊內部實現了優化整合,能夠高效率地完成該模塊各項功能;三是可以按需定制業務模塊,實現適合自身情況的特需功能。
1.2 開放性
平臺通過開放的接口可以采集第三方系統、設備的資源信息、告警信息等,通過分析處理模塊進行統一處理,可視化模塊進行逐一展現。
1.3 支持二次開發
利用平臺提供的API接口,擴展開發所需的功能。一般情況下利用系統提供的圖形化工具編寫腳本或規則即可,如事件關聯分析、工單流轉規則等。對于復雜的業務,可以利用系統提供的SDK包進行二次開發。
1.4 支持大規模網絡
針對大規模企業的區域性特征,系統提供了貼合實際應用的多級管理方案,在管理上可以做到分級管理和集中管理的有機統一。
2 平臺結構
集中調度網管平臺主要功能模塊包括專項工具、調度門戶、監管中心、資源臺賬管理系統、度量中心和流程中心。
專項工具主要實現對網絡設備、操作系統、數據庫、存儲設備和視頻設備的監控。利用這些專項工具,能夠實現對IT系統的全面管理,并對各類調度操作提供基礎支持。
監管中心主要實現對IT基礎設施的集中監控管理,提供一個標準的數據集成接口,對各類監控工具產生的告警消息和外部工具集成的告警消息進行集中統一處理,對采集的數據進行統一存儲、處理,對系統內部的信息進行可視化展示。
資源臺賬管理系統實現資產管理功能,通過業務建模、自動采集、調和、變更控制等手段,保證IT資源的完整性和精準性,為其他系統提供數據支撐。
度量中心提供了面向調度系統的性能、事件告警、資源臺賬、運維工單等統計分析報表,并提供可以實現報表定制化的設計工具。
流程中心是通過規范服務流程和技術服務工作,建立一套標準的運維服務流程,圍繞服務建立事件管理、問題管理、變更管理、服務請求管理、服務目錄等,進行IT運維服務的流程化、規范化管理。通過完善知識庫建設,實現知識庫共享,從而提高信息服務效率,提高用戶的滿意度。系統還提供了常規的巡檢管理和值班管理功能。
調度門戶包括了統一門戶、報表展現和權限管理等主要模塊,是信息的集中呈現窗口和日常工作的平臺。
3 接口設計
整個集中調度網管平臺具有很好的開放性,在監控功能、數據處理等不同架構層面都提供了擴展接口。
在監控功能方面,系統提供一體化監控平臺的同時通過插件機制,允許定制個性化監控能力。監控框架提供強大的基于腳本擴展的通用監控器和豐富的二次開發監控協議庫,可通過腳本配置或二次開發,滿足特定環境的監控管理需求。系統提供了基于SNMP協議和腳本的監測擴展能力,對于支持SNMP協議管理的設備和系統,用戶可以直接通過界面配置實現監控;對于一些提供標準遠程訪問協議或管理命令行的設備和系統,可以通過基于腳本的監測器擴展實現監控;另外監控框架本身以插件體系構建,同時提供豐富的協議API接口,可以基于監控插件框架擴展開發滿足特定的業務監控需求。
在數據處理方面,通過數據匯聚接口能夠和其他業務應用系統等進行對接,接收第三方系統的資源數據、性能數據和告警事件信息進行綜合處理和統一調度展現。數據匯聚和管理層對外提供了數據匯聚和管理接口,第三方系統可以通過配置集成接口提交和查詢資源數據,通過性能集成接口提交和查詢運行狀態、性能指標數據,通過事件集成接口提交故障事件和查詢告警信息、觸發運維服務流程。
在系統提供平臺擴展接口的同時,還提供了豐富的Java二次開發包和二次開發說明文檔,便于系統擴展開發。
4 平臺功能
集中調度網管平臺主要是實現信息系統日常的管理和調度功能;隨時準確地監測各信息系統的運行情況,具體功能如下所述。
(1)通過信息化、數字化和扁平化的改造,實現一張圖管理模式,能夠為管理層和運維人員提供多角度、多層次的展示界面。
(2)通過對交換機、存儲、服務器等IT基礎設施數據的采集和性能狀態的監測,幫助運維人員進行故障分析和預診斷。
(3)資產統一管理和維護功能,提供各類資產報表。
(4)事件告警管理,利用現有設備和管理系統提供的集成接口,采集現有網管系統的告警信息,進行告警、故障查詢和處理。
(5)運維管理,對日常運維工作中的事件、問題和故障處理記錄進行記錄和管理,實現運維工作可記錄、可度量、可追溯。
5 監測數據采集方式
5.1 基礎硬件設備監測實現方式
集中調度網管平臺對網絡、存儲、數據庫等基礎設備數據、性能狀態監測和告警進行采集。
(1)網絡設備監測,采用SNMP協議,實現設備的真實面板管理。
(2)服務器監測,通過CLI、WMI、代理Agent方式監控服務器,Linux/Unix系統的CLI監控方式同時支持SSH及Telnet兩種方式,監測包括CPU利用率,系統、用戶、空閑時間的百分比,磁盤空間使用率,磁盤IO讀寫性能,磁盤的目錄,文件大小和進程運行情況等。
(3)存儲設備監測,通過SMI-S協議或SNMP方式進行監控,通過這兩種方式,可以為存儲設備和集中調度網管平臺之間提供標準化的通信協議,使得存儲管理系統能夠實現鑒別、分類、監控和控制物理及邏輯資源的能力。
(4)網絡拓撲的管理,系統通過SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多種手段自動發現、識別各種設備,并能夠自動生成準確的物理拓撲、網絡拓撲和子網拓撲,同時提供可視化管理工具,可以根據實際環境和需要自定義拓撲圖。
(5)數據庫的管理,采用通用JDBC數據庫監測器,通過JDBC執行用戶SQL詞句,監測執行結果,支持各種平臺上的Oracle、MS SQL Server、MySQL、Sybase、DB2等數據庫系統,連續地監控數據庫引擎的關鍵參數,包括數據庫緩沖區的使用率和命中率、進程的狀態、表空間的分配空間、已用空間的情況,以及Oracle等數據庫死鎖情況。
(6)視頻圖像監測,視頻質量診斷服務系統與集中網管調度平臺之間通過服務接口(如WebService)交互,視頻質量診斷服務系統分析出視頻質量出問題后,將視頻的告警信息,通過接口推送到集中網管調度平臺。
5.2 現有網管系統告警監測功能實現方式
(1)T2000網管系統。
華為T2000網管系統將處理好的告警信息以Corba接口方式向集中網管調度管理平臺推送,接收到來自T2000網管系統的告警后,對告警信息進行解析和標準化處理。
(2)LTE 4G網管系統。
通過4G網管服務系統的背向接口,接收SNMP Trap,即管理站及時獲取設備的告警信息,并在集中調度網管平臺中進行處理和展現。
(3)動力環境監控系統。
機房環境監控系統將自身采集到的各類UPS電源、水浸、發電機、機房溫濕度、配電柜電量儀、門禁等告警信息,以SNMP Trap等方式發送給集中網管調度管理系統,集中網管調度管理系統對告警信息進行解析和標準化處理,建立配置項間的關聯關系,進行告警通知和工單派發,同時在可視化界面上進行告警提醒。機房動力環境系統相對網絡、安全等管理系統有較大區別,因此在集成接口上提供了基于TCP/IP層面的數據接口,這樣集中調度網管平臺就可以通過應用程序層快速的進入機房監控系統的功能和業務界面。
6 結語
煤炭企業從信息化系統管理和運維的實際應用情況入手,建立集中調度網管平臺,將系統的告警信息、狀態信息、資產信息等集成到網管平臺,給運維人員提供一個功能完善、界面統一的系統,實現統一管理、統一調度和統一服務,完成報表數據的定制展示,實現監、管、控一體化的運維管理調度格局。實現“集中監控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
參考文獻
[1] 吳結根,楊俊.集中網管系統在現代通信網中的應用與展望[J].江西通信科技,2008(2):11-13.
[2] 徐川.基于信息技術基礎架構庫的IT運維服務體系構建[J].醫學信息學雜志,2018,39(1):37-40.
[3] 栗麗英,張成亮,韓旭東.基于綜合網管平臺的大客戶網絡四位一體集中管理體系建設[J].電信技術,2017(5):56-59.