胡貴龍
中國移動通信集團江蘇有限公司
機房是信息處理、服務管理和通信聯網綜合的重要數據中心,伴隨當前大數據處理、物聯網技術和通信科技的高速發展,機房建設項目也日益增多。而機房的人工巡查、人工抄表等大量單純重復性的工作方法,并不是人機協同的良好工作方法。人工日常巡查等管理方法雖然解決了機房事故發生時間的錯報、漏報等諸多問題,但也引入了一些問題,比如巡查人手不足、數據處理準確度有限、工作環境惡劣、設備運行隱患難以靠肉眼發現、技術人員水平不足,以及人員責任心參差不齊等不利因素。網絡軟件診斷也面臨著測試范圍小、反應速度慢和易影響正常工作等諸多問題。伴隨機房建筑越來越偏遠化和社會老齡化的發展趨勢,機房智能化管理與運維形成了共識。通過多傳感器融合技術、深度學習的日常巡檢管理運維機器人技術及其相應科技的示范運用,助力傳統IDC運維服務向智慧無人化自主運維服務的發展,促進了智慧移動機器人技術與視覺認知科技的發展。如圖1所示。

圖1 數據中心智能云巡檢機器人
數據中心智能化運維管理系統的整體架構設計,構建了云-邊-端協同融合的能力體系,如圖2所示。邊端機器人巡檢提供高效穩定的實體巡檢能力和識別能力,云端數據平臺提供高性能算力,并借助高性能算力提供開放式功能部署與可擴展能力構建,實現機器人巡檢與上層云端能力結合,構建高效尖端的數據中心智能化運維管理體系。

圖2 巡檢機器人系統架構圖
數據中心智能化運維管理系統的整體架構設計遵循云端能力和本地化執行力相融合、巡檢和運維管理有機連接、軟件和硬件能力同步構建的總體原則。
巡檢機器人系統在機器人側的運動和傳感能力,圍繞執行單元、底層機械和運動平臺,并通過車規級執行單元設計,保證對底層機械和運動結構的高可靠性控制,實現上層應用的運動指令,通過IROS操作系統的數據匯集,經過軟/硬兩個高安全級別的獨有協議加密和驗證,最終輸出到機器人運動控制器和傳感器,實現線控級別的高精度運動。
在巡檢能力構建方面,圍繞自動導航、傳感器數據采集、智能計算三個維度進行模塊化功能設計。通過SLAM高精度融合定位地圖、路徑規劃等智能算法,構建上層導航能力;通過融合激光雷達、毫米波雷達、機器視覺,構建機器人自動運動的實時自動駕駛功能;通過多攝像頭傳感器融合,對接操作系統上層開放式接口,將傳感器數據轉化為操作系統級別的參數數據。
計算平臺的整體架構,以IROS操作系統為智算底層,上層圍繞圖像識別、深度學習、多傳感器數據聯通融合等多方面能力,進行模塊化封裝,實現統一高性能的計算平臺。當數據中心化運維管理系統上層云端巡檢任務下達后,即會通過IROS操作系統及系統平臺中的任務執行單元,分解成運動、導航、識別等多個動作分解,并傳達給巡檢能力中自動導航、傳感器數據采集、智能計算三個維度的模塊化功能模塊實現整體巡檢任務的執行與反饋。
在系統架構的上層,支持DCIM平臺接口數據聯動和大屏數據展示,支持與已有DCIM系統的聯調打通,現場提供的DCIM系統能通過開放式數據接口,讀取到智能化運維管理平臺的關鍵數據信息,實現數據聯動。開放大屏數據展示接口,支持在數據中心現有大屏中顯示機器人的實時巡檢狀態和對應巡檢結果。
智能巡檢機器人是一款面向數據機房、配電室、供電線路以及通信線路等場景的云巡檢機器人,擁有指示燈精準識別、熱傳感檢測、自動讀數、氣體檢測、24小時巡檢、遠程管理等功能,能夠降低運維成本、提升能效,助力打造高效數據運維和管理體系。
智能巡檢機器人融合智能傳感器、大數據、機器學習、人工智能等多種先進技術,實現對機房環境、設備、聲音、氣體、溫度等多維度數據實時感知監控。通過大數據技術進行數據信息深度挖掘,并做出預測性計算分析和智能化告警,為精準決策提供科學依據,將機房運維人員從繁瑣的工作中解放出來,提高整體運維效率,降低運維成本,為業務系統安全性可靠性保駕護航。
基于機器人的智能巡檢系統,包含機器人本體及配套運維平臺系統,以機房環境信息、物理設備信息、系統基礎配置項為基礎,采用SLAM自主導航的方式,實現對機房設備的指示燈及其他設備狀態的故障巡檢,配置資產管理,為調度指揮提供更直觀的監控應用。
智能識別:豐富多樣的巡檢對象,能夠快速進行指示燈、表計、開關、溫濕度、氣體、噪聲等巡檢對象的檢測。
環境檢測警:對于危險氣體、環境異常等進行識別,安全隱患一經識別,實時自動進行異常預警;配套全向麥克風陣列和視頻,實現遠程全方位對講和交互。
大數據分析:整合多元異構數據,實時提取進行預判和分析,并進行橫向縱向多維度分析。
全面巡檢:實現AI識別、紅外測溫、資產管理等巡檢功能,可實現7×24小時不間斷巡檢。通過地圖全覆蓋與攝像頭高清巡檢,保障巡檢效果與準確率。
智能管理:自主規劃巡檢路線,并可實現自由導航和固定路徑切換,在機房管理方面可實現資產管理、隨工管理、門禁管理、人員管理與防尾隨跟蹤等,強化管理效果。
數據協同:配套巡檢管理平臺,實現多機器人實時監控、多機調度、任務管理和報表生成。連通巡檢機器人系統與其他監控系統,形成一體化運維管理體系,實現數據的全面協同。
智能巡檢機器人可以實現機房智能的數據匯集,智能分析告警等自動化運維功能,以協助機房巡檢工作正常進行,提高系統隱患的發現率,降低系統故障率。如圖3所示。

圖3 機器人AI智能監測能力
采用人工智能、微服務、容器、自動導航等關鍵技術,基于5G/Wi-Fi網絡,構建云-邊-端高度協同的AI自動化運維能力,對外提供及時、高效、全面的AI自動化運維服務,實現機房運維的減員、提質、增效。
對于機房運維,建議通過如下方面實現智能化運維工作的優化。
(1)AI智能導航
基于機器人等智能體的自動巡檢系統具備在機房環境中導航定位能力,并實現全天候的自主移動巡檢,從而支持無人化、全天候的設備巡檢和故障報警,降低巡檢工作和運維工作的成本投入,同時設備管理維護更加便捷,提高工作效率。具備自主移動,自主定位導航,自主充電等基本移動化檢測能力。
(2)指示燈識別
通過高清攝像頭及自身機器識別算法,對機房日常巡檢指示燈進行識別,可進行設備電源指示燈識別模型訓練、設備柜面板告警燈識別模型訓練、空調故障指示燈識別模型訓練、服務器故障指示燈識別模型訓練,并在識別到指示燈報警信息時進行后臺預警,并能對指示燈報警信息進行推送。
(3)溫濕度監測
在巡檢過程當中,溫濕度監測功能不間斷地收集帶有房間信息、坐標點位信息、溫度、濕度的數據,并將采集到的溫濕度數據實時上傳到后臺服務器進行云端存儲記錄,同時在客戶端平臺展現相關數據。
(4)空氣潔凈度監測
空氣潔凈度監測功能通過傳感器對機房潔凈度進行監測,實時將采集到的空氣潔凈度數據上傳到后臺服務器進行云端存儲記錄,并在客戶端平臺展現相關數據。
(5)噪聲監測
噪聲監測功能可對特定位置或特定場景的環境聲音進行采集并自主判斷音量分貝,當音量超過閾值能及時預警后臺,并能對噪聲報警信息進行推送。
(6)紅外測溫
通過紅外測溫裝置對各類設備進行拍照,判斷對應溫度,當設備溫度超過閾值能及時預警后臺,并能對高溫報警信息進行推送,方便工作人員實時查看設備溫度狀態。
(7)顯示屏識別
通過高清攝像頭及自身識別算法,對空調、列頭柜等設備的顯示屏信息進行識別,讀取空調的溫濕度信息、列頭柜的電壓、電流信息等,可在識別到顯示屏報警信息時進行后臺預警,并對顯示屏報警信息進行推送。
(8)表針識別
通過高清攝像頭及自身識別算法,對表計信息進行識別,可進行表計讀數識別模型訓練,在識別到表計讀數信息時進行后臺預警,并對表計識別報警信息進行推送。
(9)機柜門開關狀態識別功能
通過自身搭載的高清攝像頭對機柜開關門狀態進行識別,可進行機柜開關門狀態、機柜門鎖頭落位狀態識別模型訓練,當開關門狀態出現異常結果及時預警后臺,并對開關門狀態異常信息進行推送。
(10)語音報警
機器人可實現語音提示軟硬件聯調,播報自檢及自診斷的異常項播報、巡檢過程中的告警信息播報、機器人遇到緊急狀況的播報(如急停、碰撞、跌落等)。
基于自動化運維管理后臺系統,如圖4所示,能實現對機房巡檢機器人及巡檢數據的管理分析,實現實時的自動化巡檢任務計劃管理、任務管理、任務告警管理、隨工管理、遠程遙控等管理功能,實現機房動態數據的智慧納管。

圖4 系統后臺界面
(1)巡檢任務管理
機器人后臺系統能對機器人進行任務管理,主要支持新建巡檢任務、任務調度管理。同時,用戶通過管理后臺可實時監控、遠程控制機器人、查看巡檢任務數據,對巡檢任務進行分級管理。每巡檢完成一次,系統可以自動生成巡檢報告。
(2)隨工管理
隨工首先對各類運維人員進行鑒權,然后在其運維過程中進行全程跟隨及視頻錄制。通過后臺可實現隨工運維過程的全面查看。
(3)資產管理
機器人能以二維碼、RFID標簽技術定位IT設備的物理位置,通過視覺檢測技術和RFID技術獲取設備資產信息并實時上報后臺管理系統。后臺管理系統可對接資產管理平臺,實現實時監測并更新資產狀態。
(4)人員管理
自動化巡檢機器人可以通過導入人員信息、錄入人員信息以及對接訪客系統,實現人臉基礎數據的錄入。后臺接口將人員授權的信息直接下發到機器人的本體人臉權限數據庫。對于進入機房的人員權限的設定,機器人系統實現自動人臉識別功能。
(5)門控管理
能與配套的門禁系統聯動,使巡檢機器人能夠控制配套系統以順利進入各個待巡檢區域。
(6)后臺管理
視頻采集:系統能實現采集、存儲機器人傳輸的實時可見光視頻。
自動報告:每巡檢完成一次,機器人可以自動生成巡檢報告。支持定制報告模板,并支持模板定制。
多臺機器人協調管理:平臺可實現管理調度多臺機器人,實現機器人智能調度、路徑規劃和協同工作運行。
報表管理:支持報表管理、報表訂閱、報表查詢、報表自定義、事件日志報表、極值報表等。
報警事件管理:報警事件的統一設定與管理,內容包括:事故類型、事故發生時間、事件等級分類、報警閥值、報警方式設定、報警事件分組、事件目錄定義、報警級別提升及事件日志管理等。
巡檢視頻管理:支持視頻的播放、停止、抓圖、錄像、全屏顯示等功能。
數據存儲:巡檢機器人的應用數據主要有三類:應用程序、巡檢數據、視頻數。系統應可對敏感數據進行加密或CRC校驗;可實現備份管理,具備自動備份機制;具備雙機容錯功能,保證系統數據和服務的在線性。
(7)系統接口
后臺管理系統支持與數據中心的運維系統、綜合監控系統進行互聯互通,形成一體化運維管理體系。通過北向接口對接,完成巡檢機器人狀態查看、任務下發、巡檢數據自動回寫、巡檢異常自動轉工單、巡檢結果異常自動判定等功能。
目前,巡檢運維機器人技術已經在眾多的應用領域中都有了廣泛運用,尤其國家電網公司一直是日常巡查管理自動化機器人中最大和最早期的使用者。而除了變電所、高壓線路等國家電網使用場景,使用面更廣泛的智能機房運維機器人技術也有著巨大的行業市場和使用前景。
數據中心的智慧巡檢機器人設備采用當前高速發展的新一代信息技術,融入完善的圖像識別技術、多感應器和無線通信技術等,對數據中心設備工作狀況實現采集和預處理,并采集機房的氣溫、濕度、清潔度、空氣流速等環境數據,實現對機房健康狀況的綜合分析,為數據平臺的運營維護管理提供了準確高效的大數據分析,實現無人值守的智能機房。如圖5所示。

圖5 智能機器人巡檢現場畫面
機房與智慧運維服務機器人之間確實是一個相互垂直的細分產業行業市場,不過其體量并不是人們想像的那樣小。以北京一家機房為例,如果要實現二十四小時都有人的工作狀態,最少要五個人,或者五班三倒。根據2020年的數據表明,中國國家電網公司一共有七百多個建筑面積在100~500平方米的機房,最少需要的工作人員數量為三千人,人力資源成本非常高。相比之下,用智能機器人取代人力實施巡查,一個100~500平方米機房僅需一臺高配兩臺低配智能機器人,400~1000平方米的機房則需兩臺高配和兩臺低配智能機器人,即可做到二十四小時實時巡查。而隨著電力網絡的發展和能源數據的進一步增多,機房運維機器人的市場發展容量也會隨之擴大。
智能巡檢自動化機器人的使用大大提高了機房安全巡檢維修作業的效能與準確度,本文通過對機房安全智能巡檢自動化機器人技術和技術體系的研發,有效解決了目前對機房安全無人化、智能巡檢運維管理工作的需要,有效克服了機房人工巡檢業務工作效率低、成本費用高的實際問題,在數據中心實現了自動化運維、人機協同運維、云邊端結合大數據融合,為建設數據中心自動化運維管理能力提供有力支撐,促進新基建大背景下數據中心運維快速轉型,大幅度提高了機房安全巡檢運維工作的工作效率與自動化、智能管理水平。利用移動機器人、多模式認知、機器學習和深度學習等技術手段,將極大地推動機房管理巡檢運維智能化的產業提升。
通過構建智能化運維管理系統的整體架構,確保以數據中心為代表的信息系統運行的核心節點的安全穩定,落實持續健康的運行環境。數據中心作為資產密集場所,通過智能巡檢自動化機器人的使用,使得運維人員自動高效地掌握機房內部環境、基礎設施、網絡、計算和存儲單元等運行狀態,從而保證對外提供數據服務的數據中心管理基本目標。
智能巡檢自動化機器人技術有廣泛的應用場景,經過設計的機器人融合了數據中心管理流程,巡檢機器人能夠通過傳感器獲取巡檢對象的狀態信息以及環境信息,檢測出人工難以發現的線路發熱、機器異響等故障,實現大范圍、無死角的智能巡檢,為下一代數據中心高效運營維護工作的穩定性和實時性提供保證。