曹蕾 姜寧 王焰
中國移動通信集團江蘇有限公司南京分公司
數據中心機房樓具有設備資產密集、安全要求高等特點,為保證數據中心機房的安全與穩定,數據中心人員進出管理是數據中心的日常運維的基礎工作。同時,組織相關工作人員對機房內的各類動環設備狀態進行周期性巡查,是保障設備正常運行、防范風險的重要手段。隨著互聯網時代數據的爆炸性增長,數據中心機房的動環設備數量急劇上升,巡檢工作量大大增加,如何進一步提高該項工作的效率與精度逐漸引起了業內人員越來越多的關注。
目前,數據中心動環巡檢往往通過人工巡檢、紙質文本記錄的方式進行,巡檢周期長導致存在長時間的間斷期,不能很好地滿足及時發現設備隱形故障的要求,巡檢質量與人員專業性和責任心相關程度很大。在人員進出管理方面,大量采用傳統的紙質登記的方式,代維人員進出缺少照片、人證比對等環節,人員無法有效核對,不便于事后查詢。此外,在機房動環設備巡檢管理方面:作業形式落后,設備巡檢以紙質化為主,而大量紙質記錄不便統計及追溯;且作業進度缺少管控,無法很好保證代維人員按時、按量、按質完成相應的維護作業計劃等。
針對機樓在人員管理方面存在的效率低、可靠性差等問題,在人臉識別技術的基礎上,結合目前較為成熟的圖像識別技術、數據集成與處理技術等,對數據中心機房的人員出入進行智能化管理。在管理進出機樓的人員時,以身份證并配合人臉訪客機作為身份核查的重要依據,通過人證對比,可獲取出入人員信息,解決人證不符的問題,同時實現對運維人員進入機房的可追溯性,從而提升機樓的安全性及進出人員的安全保障。
針對傳統設備在管理方式上存在的問題,通過對管理設備增加唯一識別碼,實現每臺設備的精確管理。在巡檢過程中,代維員工通過預約系統預約進入機樓,并掃描待檢設備的唯一識別碼,獲取該設備的工作情況及既往檢查數據,如周巡檢記錄、月巡檢記錄等,在此基礎上,代維員工可上傳此次巡檢任務的現場檢查情況至處理終端,為相關設備的檢修提供依據。
基于上述人員進出管理技術及設備管理技術,可以有效地建立起巡檢人員的工作情況數據集合,在此基礎上,可以實現巡檢人員的檢查頻次與設備故障情況的相關性分析,對于更好地配置巡檢人員的巡檢密度,更加有效地發揮巡檢效率,具有重要的作用,從而實現人員、設備管理系統的集成化、一體化。可以實現設備維護的及時性、準確性,對于防止設備維護不及時、降低維護成本具有顯著的意義。此外,可以實現管理系統的全壽命周期成本分析,有效降低管理系統的運營成本。
本文研究的一套機房動環設備作業自動化系統,通過整合進出人員管理及設備管理技術,可以實時查詢、統計進出機房的人員情況及設備作業信息,實現了對機房現場及機房設備的高效管理和安全監督。管理系統的工作流程如圖1所示。

圖1 管理系統工作流程圖
該管理系統包括四個平臺,分別是:數據平臺、CMS系統、內部管理系統及手機終端APP。其中,數據平臺作為整個管理系統的基礎性組成部分,包含人像識別、業務接口、消息接口等各種對外接口、對內接口以及平臺的前臺展現;CMS系統根據特定的算法評估機房大數據分析,主要應用于內部管理系統,與前臺網站亦有交互;內部管理系統,包含公司業務的相關管理、公司機房設備相關管理、員工業務系統管理以及對平臺數據進行分析等,是整個管理系統的中樞;手機終端APP主要用于工作人員的業務操作及數據傳輸。該管理系統的具體架構如圖2所示。

圖2 管理系統的組成架構
作為管理系統的重要組成部分之一,系統APP部分包括:HTML5 UI層、HTML5中間件及原生應用組件。其中,HTML5 UI層是基于CSS3的UI庫,提供高用戶體驗的Widget實現;HTML5中間件主要提供基于JavaScript的包管理和MVC框架,以及Canvas圖形庫和DOM操作庫;而原生應用組件可以將無法用HTML5開發的部分服務通過原生語言開發,并通過PhonegGap進行打包,并提供可供HTML應用調用的JavaScript接口。
而根據框架結構,系統APP框架又包含機房管理數據平臺、CMS系統、系統底層架構。作為底層的硬件架構及軟件系統架構,系統底層架構主要保證平臺的正常運行,保證系統平臺的安全性;在此基礎上,CMS系統提供平臺登陸、基礎管理等一整套的解決方案;而機房管理數據平臺,基于底層架構,具有更加完善的功能和更強大的擴展性,APP框架圖如圖3所示。

圖3 系統APP框架圖
通過數據中心動環預約系統及訪客機智能化進出方式,有效地解決了傳統方式管理機樓進出人員的缺陷,對于提高出入人員的管理水平具有重要的作用。此外,該人員管理系統作為人員信息的重要獲取途徑,可用以相關人員的工作情況的檢查。

圖4 人臉訪客機進出系統
設備管理方面:一方面實現了設備的有序、高效管理,對于及時、準確的定位須維護的設備具有重要意義,防止出現因設備維修不及時導致的損失;另一方面該技術能夠有效地約束巡檢人員的工作情況,避免出現因巡檢人員的主觀惰性導致設備巡檢不主動、不到位、不及時等情況,改變坐班管理的同時節約了現場管理人員的人工成本,管理的規模越大節約費用越多。
全壽命周期成本分析:由于上線時間較短,目前的數據還不能較好地體現出大數據的分析功能,接下來CMS系統可根據特定的算法,評估各機房數據分析,改變設備優化缺乏可靠依據、設備廠商競爭力弱的現狀。

圖5 人臉訪客系統截屏
本文研究的自動化管理系統,分別利用人臉識別、設備識別碼技術,實現機樓進出人員和設備的有效管理,能夠提高對代維員工進出流程的管理水平,并改善代維員工設備巡檢過程中不主動、不到位等問題,從而保證設備維護的及時性。此外,通過整合進出人員管理及設備管理技術,可以實現巡檢人員的檢查頻次與設備故障情況的相關性分析,對于更好地配置巡檢人員的巡檢密度,更加有效地發揮巡檢效率、降低運維成本,具有重要的作用。
另外,通過本次課題實踐得出需求的分析過程,是系統提升質量的關鍵過程。分析需求過程需要提供如下信息:
(1)問題分析:可度量的目標、范圍和系統考量度等;
(2)解決問題的優先級:風險分析和規模預估,先解決什么、后解決問題等;
(3)系統功能性:需求描述、非功能性需求描述、領域關系描述、測試標準和功能變化預測等信息。
上述信息的詳盡準確,對系統的高質量完成至關重要,同時也是軟件開發人員縮短磨合期與軟件試用期的關鍵。下一階段數據中心機房動環巡檢研究的應用方向為人工智能,在實際工作中,需求的捕獲、需求分析與建模,都需要維護人員與軟件開發人員一起研究與開發,為快速解決實際運用問題提供思路與方法。