汪超洋
中南財經政法大學 湖北 武漢 430073
近年在機房的管理方面,我校已經構建多套機房運維監測系統,針對各類型機房、設備間及配電間等環境,在主動監控方面,起到了一定的積極作用。然而在機房大規模使用監測解決方案后,出現運維工作量大、對網絡條件依賴大、運維人力投入大等情況。主要表現在以下3個方面[1]:
動環監測在機房的應用,使得各類設備的故障情況快速反應到管理端,運維工作人員需要快速反應,尤其是網絡故障,通過網絡無法在線處理,需要到現場處理,對工作量的增加帶來巨大的壓力。
由于動環監測所有傳感器數據傳輸、網絡設備調試均需要在網絡暢通的情況下進行在線運維,視頻畫面還需要高帶寬的保障,一旦機房斷網,在線運維立即失效,所有運維工作只能線下進行。
機房監測涵蓋了對機房攝像頭、機房環境狀態、機房設備狀態、機房用電狀態等多內容的監測,在傳統方案中每種類型的監測都建立一套獨立的平臺,無法在一個統一的平臺上對機房的各類數據進行管理與監控,從而降低運維效率。
本文提出的高校機房綜合治理平臺基于“安全、可靠、完整、準確”的基本原則,在zabbix和grafana開源平臺的基礎上,通過5G CPE將校園網與5G融合,構建健壯的網絡通路,實現大數據量的測點數據實時監控,同時具備較強的維護升級能力及可擴展能力。
企業級分布式監控系統Zabbix,是一個開箱即用的成熟解決方案,具備完備的功能,屬于一個大而全、功能豐富且定制非常靈活的產品,支持多種采集數據方式和采集客戶端,支持多個數據庫,對硬件、行業、基礎設施均沒有依賴。Zabbix目前已升級到6.0版本,自帶HA功能,其主要構成包括zabbixserver,zabbix-proxy,zabbix-agent三部分,zabbix-agent負責采集數據,zabbix-proxy負責轉發數據,zabbix-server負責接收并處理數據。
Grafana是一套將時序數據庫中的數據可視化的開源應用,可完美匹配zabbix,將zabbix中收集的數據較好的展現出來。
本平臺實現的主要功能如下表:

表1 平臺主要功能
本平臺具體有如下特點[2]:
①先進性:結合項目實際需求,應用業界成熟的產品和技術+5G的方式,突出5G對成熟產品和技術的能力提升;②可靠性:通過5G網絡加強機房的網絡保障,網絡不再成為在線運維的瓶頸;③準確性:利用5G的高速傳輸能力,讓監控信息快速響應能力,實現及時告警及準確定位;④安全性:具備多等級、多維度的權限及日志管理,保障系統運行安全性;⑤智能性:具備數據及告警分析處理功能,實現數據中心的智能化管理;⑥系統性:采用頂層設計思想,對接高度集成的一體化監控管理系統平臺;⑦維護性:融合5G網絡,采用多鏈路運維網絡,模塊化設計架構,具備組態工具,方便系統的組建、維護及擴充;⑧開放性:采用開源工具ZABBIX搭建靈活平臺,內置業內各種標準化協議及接口,便于系統間的互聯互通及數據傳遞,同時隨業務增長在線彈性擴展系統性能。
整個系統主要由以下三部分組成:區域監控層、集中監控層、中心瀏覽層。各部分的主要作用如下:
區域監控層:在校區各樓棟機房部署傳感器采集設備,采集智能電量儀、煙感、浸水、交換機、路由器的數據信息。現場采集設備采用工業級硬件設計,具備多層防護功能;高度集成化,內置絕大多數通用采集協議如SNMP、MQTT、MODBUS,可隨時根據需求進行協議擴展。例如通過modbus協議在zabbix中接入配電房ups數據,只需在zabbix平臺監控項中填寫不同的鍵值內容,來采集modbus從機對應寄存器的數據。
現場采集設備采用分布式部署方案,任一設備故障不會影響其他設備的正常工作。現場采集層將數據信息上傳至zabbix集中監控系統平臺,同時接受集中監控系統平臺的管控。單個機柜內部署5G CPE,上行與環控主機(串口服務器)連接,并接受集中監控系統平臺管控,通過5G CPE可訪問機柜內的每一臺設備,執行運維、調試操作[3]。
集中監控層:部署集中監控系統平臺,負責將下層設備上傳的各種信息進行處理、分析、存儲、展示及上傳,處理所有的告警信息,記錄告警事件,并發送告警通知。同時負責將控制命令發送至下層設備,實現對現場設備的遠程控制。平臺具有強大的數據處理能力,實現各種數據分析、數據管理、告警管理、報表管理、權限管理、日志管理和組態配置等功能。
中心瀏覽層:系統支持多種告警通知方式(包括但不限于:5G網、現場語音、短信、電話、郵件、App、微信等),在告警產生和恢復時,可及時有效的通知運維人員。并且具備Web瀏覽器及移動終端訪問方式,便于運維人員隨時隨地了解機房的工作狀況。同時,匹配相應的權限可以進行設備控制及系統配置修改等操作。

圖1 產生告警推送

圖2 告警恢復推送
基于5G的機房綜合治理平臺是融合5G網絡對現有機房管理的綜合治理水平提升,在當前機房數量眾多、運營壓力重負的情況下,協助管理單位快速接入運維現場,高效完成技術力量的介入以解決現場問題。其工作方法有以下幾種方式:
在網絡故障期:校園網故障時,在校內無法通過校園網快速進入葉機房,通過5G高速專網能夠進入指定機房,了解現場環境,快速定位故障點,并執行有效策略。
在校外技術介入支持期:機房需要外部技術支撐時,可通過5G網開通校園網入網許可,通過外部運營商5G網絡接入葉機房,開展技術支持。
機房設備調試期:機房嚴格管理規范要求下,非運維人員無法進入葉機房時,可由運維人員進行設備安裝,接入葉機房網絡后,非運維人員的調試配置可由多種方式進行接入開展。
本平臺主要針對智慧校園、智慧園區的葉機房治理設計,特別在智慧校園建設場景中,由于地域差異、管理模式差異、資金投入差異等不統一的情況,5G融合網絡機房綜合治理平臺基于靈活的軟件架構和5G網絡的整體設計,有效應對差異需求和建設。在硬件設備選擇上更靈活,推進眾多設備制造商在產品設計上加快標準化,符合國家通用標準,以能夠加入高校葉機房治理改造工程中的設備選型中,同時對高質量、高精度的設備,能夠推動其市場價值提升。同時,在大規模推廣應用中,促進5G網絡及設備在低延時、高帶寬的場景的技術演進,豐富更多融合5G的產品模態。
在新基建的推動下,在新興技術的加持下,具有前端采集能力和平臺運維能力的一體化機房治理平臺正在逐漸成為市場主流。且隨著各行各業的交叉融合,平臺模式將不斷優化創新和拓展,衍生出更多的使用場景,如交通、樓宇等,為各行各業動力設備的安全運行提供保護,當設備故障時及時通知工作人員,大大提高了對故障的快速反應能力,減低了日常運維的成本,提高了運維效率。