宋國柱,景超,王堃,武海文
(山西農業大學軟件學院,太谷 030801)
數據中心是智慧校園的核心,是學校信息化建設提供可靠服務的基礎保障。數據中心機房設備的運維,高校管理員一般采用運維管理系統,如著名的Zabbix開源運維管理系統,它能實現設備告警、軟件告警、資產管理等功能,可解決數據中心機房在運維過程中的一些問題,但系統沒有自主學習功能,不能對設備進行預警,也不能對環境中的噪聲、粉塵等因素進行監測,更不能完成無人值守和無人操作等功能。
隨著學校業務應用的不斷擴展,數據中心的資產設備越來越多,專業化程度要求越來越高,數據的安全性越來越重要,如何保證數據中心安全穩定、持續高效地運行是智慧校園運維中面臨的突出問題,主要表現在以下幾個方面:
(1)運維人員缺乏,專業化程度高。高等農業院校信息化建設與管理部門數據中心專業運維人員普遍缺乏,一般均是身兼多職,沒有專門的機房設備巡檢人員,造成機房巡檢只是在特殊時間簡單查看。
(2)巡檢不及時,運維效率低。機房設備發生故障時,往往不是第一時間知道(有可能已故障好幾天,尤其是在假期),當運維人員出差在外時,故障得不到及時處理,影響業務的正常運行。
(3)存在巡視盲區,安全隱患多。7×24小時運轉,機房用電負荷大,網絡設備多,電池漏液,線路老化,空調故障,發電機運轉等,人工巡視無法全面覆蓋,都是消防安全隱患的突發點。
(4)機房值班,輻射強危害大。機房噪音大,輻射強,對人體危害大,專業要求程度高,發生故障時要及時排除,但并不是任何值班人員都有權進入機房并進行操作,即使值班也不會定時巡檢機房的所有設備,因此達不到值班應有的要求和效果。
(5)各監控系統相互孤立,故障溯源困難。動環監控系統、消防監控系統、門禁系統、視頻監控系統、設備運行監測系統、軟件運行監測系統等往往是相互孤立的,無法進行數據共享,數據中心的監控(包括軟件、硬件及數據)是被分散在幾個系統中,每個系統由不同的管理員負責,無法集中在一個平臺上進行查看、匯總并分析,當發生故障時無法綜合各方面的告警信息進行故障的分析處理,無法有效提升故障排除效率。
基于數據中心機房運維的現狀及面臨的突出問題,采用機器人技術與人工智能技術,提出了基于智巡機器人的智能數據中心機房管理設想,智巡機器人不僅可以對網絡設備進行全天候巡檢和排障,及時發現并解決諸多問題以提高檢查效率,還可以針對涉密區域、高風險區域等人工巡檢難以開展的區域進行監控和診斷,實現數據中心機房智能化運營,真正實現數據中心的無人值守,打造人工智能時代的新型數據中心。
智巡機器人以機器人技術為硬件主體,以AI圖像識別技術為算法核心,通過路徑規劃完成自動行走,通過視覺系統完成機房的檢測巡視、故障燈識別、儀表盤識別等,通過紅外傳感器實現機房設備溫度監控,通過聲光、氣體傳感器實現火災等隱患的排查等,系統架構設計如圖1所示。

圖1 智巡機器人系統架構
智巡機器人由移動APP、管理平臺、識別感應裝置、行走裝置和機械平臺五部分組成,各部分的功能如下。
(1)移動APP。實現移動端隨時遠程查看機房現場、遠程控制機器人、查看告警信息等。登錄APP并進行身份識別,識別成功后根據用戶的權限可查看告警信息、遠程實時圖像、語音交互(根據不同的權限,執行的動作會有所不同)、遠程控制機器人(需最高權限)和在線升級等。
(2)管理平臺。實現智巡機器人識別感應裝置、行走裝置及移動APP接口。
(3)識別感應裝置。包括自主導航(如路徑規劃、掃描建圖、SLAM算法、點/路徑/區域設置和OTA等)、導航傳感器(如3D攝像頭、激光雷達和機械防撞傳感器等)、工業傳感器(如監測有害氣體、溫濕度、PM2.5、噪聲、煙感等)和運算平臺(如深度學習、圖像識別、YOLOV5算法、設備管理及驅動管理等)。實現一:根據規劃的路徑,利用3D攝像頭、激光雷達及機械防撞(使機器人具有避障功能),控制智巡機器人按設定的路徑行走,同時使用3D攝像頭不僅可以遠程查看機房,還可以識別行走過程中的儀表盤、故障燈等;實現二:在線監測(包括行走和靜止狀態)機房中有害氣體、溫濕度、PM2.5、噪聲、煙、電力、UPS、漏水等,如當機房中有害氣體量達到設定的閾值時,機器人可自動開啟排風裝置,并且此時若有工作人員刷門禁進入時,提示工作人員,當降到設定的閾值時,關閉排風裝置。
(4)行走裝置。根據識別感應裝置中的條件控制機器人行走及操作,行走裝置包括有線/無線網絡設置、電源管理(監測電量并進行智能充電)、在線升級硬件固件程序等。
(5)機械平臺。主要包括機器人行走所需硬件,如滾輪、步進電機、電池等。
智巡機器人可以對本地服務器、存儲、空調、配電柜、消防設備等的指示燈、數字儀表、指針儀表、開關等元件工作狀態進行7×24小時實時監測,結合研發的圖像識別算法,對設備狀態進行識別告警,實現7×24小時無人值守;通過加載各類采集單元,如有害氣體、PM2.5、噪聲等,可獲取運維管理人員無法發現的異常情況;通過與現有平臺對接,如動環監測、門禁系統、運維管理平臺等,在進行數據共享的同時,實現大數據的分析統計。
管理員可根據日常巡檢需求,通過智巡機器人管理平臺中的常規巡檢策略功能,靈活設定每日不同任務的巡檢次數、每次巡檢時間及巡檢中遇到特殊情況被打斷等情況的應對方式,也可將單日的巡檢計劃延伸為更長時間周期內的自動執行計劃,讓機器人根據計劃自動執行機房日常巡檢任務,提高機房巡檢頻次和維度。
智巡機器人可自動采集、監測數據中心機房各項環境數據指標,如:
(1)溫濕度監測。主要監測機房內溫濕度,保障網絡設備在符合標準的環境下運行,溫濕度測量范圍:±0.8% RH,10~30℃;測量極限:0~100%RH,-50~100℃。
(2)噪聲監測。主要監測來自機房內服務器和高速運轉設備的噪聲,即時監測硬件設備的運行情況,測量范圍30~120 db,最大誤差0.5 db。
(3)空氣質量監測。主要監測機房內空氣中的粉塵濃度,防止粉塵濃度過高降低電路與元器件絕緣性能,腐蝕電路板縮短設備壽命,防止堵塞防塵網,影響IT設備散熱效率;監測并量化每立方米空氣中PM1.0、PM2.5、PM10的數量。
(4)有害氣體監測。主要監測電纜電線燃燒前揮發的毒性氣體,提前預防對硬件設備造成的腐蝕,特別是機房內服務器、UPS配電柜等,如可監測硫化物等有害氣體的濃度。
(5)煙霧濃度監測。與數據中心煙霧報警系統對接,可同步監測煙霧濃度發出預警及告警信息。
隨工錄像即機器人根據管理員下發的任務確定設備位置信息,引導運維管理人員(包括設備維修廠商技術人員、技術外包人員等)至指定位置并進行錄像。在一定程度上解決單位人員隨工陪同耗時問題,釋放無謂的人力投入,讓本單位人員投入更多的精力去關注機房建設規劃等更有意義的事情,提升數據中心整體運行效率。
當機房設備出現故障并發出告警信息而運維管理人員不在現場時,運維管理人員可遠程控制機器人到故障位置點,通過控制機器人的速度、轉向及攝像頭旋轉與變焦操作查看故障具體信息,分析原因。若是軟件系統問題,運維管理人員可通過堡壘機登錄系統解決;若是硬件問題,可與現場人員通過視頻或語音進行實時交互加以解決。
通過設置導覽劇本,控制機器人根據預設的既定路線,引導參觀考察人員進入指定地點進行自動語音講解并執行相應的動作,也可與參觀考察人員進行簡單的語音交互。
智巡機器人具有7×24小時設備巡檢、移動環境監測(如溫濕度、噪聲、空氣質量、有害氣體及煙霧等)、隨工錄像、遠程協助及參觀迎檢等功能。
智巡機器人根據巡檢內容進行定時、不定時的巡檢,巡檢內容如表1所示。

表1 機器人巡檢內容
對數據中心機房主要設備指示燈、數字儀表、指針儀表、電源開關等進行圖像識別算法研究,數字儀表、指針儀表、電源開關狀態的識別準確率為99.9%,設備指示燈的識別準確率在90.0%~98.3%之間,主要是由于在黑暗環境下網絡設備業務燈頻繁閃爍、亮度強、設備種類多導致,需進一步優化識別算法,以提升設備指示燈識別準確率。
智巡機器人可實現數據中心機房無人化、智能化巡檢運維,解決機房人工巡檢耗時費力、存在巡檢盲區、無法實時監測等問題,可大幅提升機房巡檢運維效率及智能化水平,為學校信息化建設提供可靠、安全、及時的服務保障,滿足廣大師生教學、科研、管理等服務質量要求。