張曉艷 高星辰
中國移動通信集團江蘇有限公司南京分公司
伴隨著移動互聯網發展的熱潮,超大型數據中心日益增多,如何趁勢而上,領航新基建,做最智慧的數據中心值得我們不斷探索。筆者以規模大于等于10000 個標準機架的數據中心(標準機架為換算單位,以功率2.5千瓦為一個標準機架),也就是《國務院關于加快培育和發展戰略性新興產業的決定》中超大型數據中心的智能化系統為例。總結智能化系統在維護優化過程中的經驗,探討智能化系統圍繞“自動、可靠、節能、智慧”的運維目標,在規劃、建設及運維等環節需要關注的要點。
超大型數據中心的智能化系統一般是由基礎設施管理系統(DCIM 系統)及多個監控子系統組成,各監控子系統獨立運行。監控子系統通常可分為動環監控系統、空調群控系統、智能配電系統、安防系統、視頻系統、消防系統等。
DCIM 系統因數據中心大型化、規模化、智能化發展需求及客戶管理需求,逐漸成為超大型數據中心的標準配置。DCIM 系統數據來源與各監控子系統。各類客戶自有監控平臺提出的基礎設施對接需求,也會通過DCIM 系統統一對接,減少各監控子系統接口對接工作量。如圖1 所示。

圖1 超大型數據中心智能化系統框架
各監控子系統與管理系統間接口多樣,具體如圖2 所示。

圖2 超大型數據中心系統間接口
一種方案是按照數據庫對接的方式,采用C/S 體系結構,在監控服務器上提供一個套接字接口,運營商常用此種方案。第二種方案是采用SNMP 協議,統一的報文結構和字段發送數據,互聯網公司常用此種方案。
數據庫對接是將數據匯集后統一傳送;而SNMP 則是分散傳送、分散接收,且支持主動報送,所以snmp 更適合數據量大且實時性要求高的場景,在實測中數據庫對接告警延時在10-20 秒左右,SNMP 對接告警延時3 秒以內。
超大型數據中心內的網絡,按照架構分層清晰、故障處理方便、單點故障不影響整體運行的原則進行統一規劃及建設。樓層弱電間放置的上百臺盒式交換機應盡可能減少路由配置,端口隔離可通過二層VLAN 隔離。
在保證安全的前提下,考慮數據中心智能化系統的遠程訪問及維護,需要將安全控制系統同步規劃及建設。若需實現CMNET 網絡訪問及操作內網設備功能,需規劃建設4A 平臺或堡壘機,做到操作留痕。若僅訪問頁面數據,可規劃建設WAF 應用防火墻及入侵檢測系統。如圖3 所示。
日本精工株式會社(NSK)成立于1916年,是日本國內第一家設計生產軸承的廠商。目前NSK在全球26個國家和地區建立了銷售網絡,并擁有近70家工廠,行業排名位居世界前列。恩斯克投資有限公司是NSK的中國總部,全權負責中國大陸及中國香港的生產、技術研發與銷售營運。目前NSK在中國設立的生產、研發、銷售公司及子公司已達20多家,遍及中國各地。

圖3 園區網絡結構
超大型數據中心因占地面積大,室外蓄冷罐、油庫等設備數量多,蓄冷罐登高安全及油庫防火安全成為園區重點安防對象,在具備傳統的門禁和視頻功能外,還需考慮在室外及公共區域增加入侵報警、電子巡更、停車管理等,從而建立多功能、全方位、立體化、有保障的安防管理體系。
超大型數據中心在分批建設的時候,門禁卡要保持識別方式的統一,避免多張門禁導致的維護不便。相較非接觸射頻ID 卡及IC 卡,統一使用具備加密功能的IC 卡更優。隨著卡片復制技術的發展,出于安全考慮,建議合并使用生物識別技術。所以超大型數據中心建議采用“卡片+生物識別”的模式可提升管理安全性。為了實現園區內集中授權及管理,建議門禁設備支持TCP/IP 通信協議。如表1 所示。

表1 識別方式對比
視頻監控系統一般公共區域會歸于安防,機房內會歸于動環監控。針對不同場景及安保等級,視頻監控存儲目前主要有以下三種模式

圖4 本地NVR 存儲模式

圖5 管理服務器+存儲設備模式

圖6 視頻云存儲模式
超大型數據中心攝像頭數量多、存儲需求大。對于輪巡及回放要求不高的數據機房及電力室,可考慮NVR 本地存儲;而對于公共區域及機房出入口等重點安保場所,需724時值班監控的區域,可考慮管理服務器。

圖7 區域監控中心(LSC)雙機冗余架構
傳統的配電監控系統一般用于監控高低壓配電設備、變壓器及電容器等運行狀態,允許通過遠程的方式遙控開關、變壓器檔位,對保護故障進行復歸。因對安全、響應及保密要求更高,配電監控系統使用專用協議,配置單獨的管理型工業以太網交換機,網絡也需要物理隔離。
超大型數據中心的配電監控可在負荷搬運、一鍵處理等自動化方面進行拓展。具備負載投退通過調整開關動作次序減少負載對電源側的沖擊;外市電停電時根據業務負載功率啟動與之匹配的柴油發電機組數量,縮短故障應急時間;針對不同事件場景,通過預先設計的程序,實現一鍵處理等功能。
空調群控系統(BA 系統)以BACnet、modbus 等協議采樣設備信息。系統不僅能實現告警監控,還能實現設備的自動化最優配置,達到精確供冷及節能的目標。具備根據濕球溫度自動選擇自然冷源或機械制冷;根據溫差自動控制冷凍泵、冷卻塔風扇頻率;根據出水溫度選擇與負載匹配的風扇、水泵及冷機開啟數量等功能。
由于冷源集中化,任何一套制冷單元異常,都會影響園區內多個機房甚至多個樓宇供冷。需確保PLC 設備的質量、自保持功能、就地操作控制箱等措施提升安全性。
另外建議控制器電源輸入配置STS(靜態轉換開關),避免單電源引起的故障;采用環網網絡架構,避免單點故障。
超大型數據中心每棟樓宇消防系統(消防告警、消防滅火、災后通風)等隨土建一次性完成,而機房工程分批建設。所以在后續建設過程中,經常會忽略機房門禁、微模塊天窗及列間空調與消防系統之間的聯動,存在安全隱患。
建議消防系統按照防火分區預留強切輸出口,接線端子布放到對應消防分區內,后續機房工程被切設備再從接線端子接線。
數據中心基礎設施管理系統(DCIM 系統)通過采集動環監控、智能配電、空調群控、安防、視頻、消防等監控子系統的數據進行大數據分析處理,實現對數據中心的智能運維管理。主要功能模塊有容量管理、能耗管理、上下架管理、告警分級及收斂、智能巡檢、設備健康度管理等。
對于電力和制冷容量管理來說,在設計階段就要考慮未來管理的顆粒度,智能設備越多,監控點位越多,系統就越復雜。為了準確測量機柜的功耗,需要通過智能PDU 或者具備分路電流采集的列頭柜采集該機柜的輸入電流和輸入電壓;為了準確計算PUE,則需要采集市電輸入總電能和IT 用電功耗;為了合理控制容量風險指導設備上下架,需具備需量計算功能,呈現實時值、平均值及峰值,還需要機柜級、列頭柜(或者微模塊)級各層級的容量數據協同管理。為了準確計算冷水機組的COP,則需要測量冷凍水流量、供回水溫度和機組功耗。所以,容量管理是一個沒有“標準答案”的模塊,需要建設和維護團隊根據數據中心的定位,做好規劃,良好的硬件及數據采集的支持才能實現各類功能。
超大型數據中心告警收斂功能尤為重要。告警收斂是在停電或開關跳閘的大量告警中,根據上下級設備邏輯管理,參考各類事件測試告警清單,通過算法篩選過濾無關數據,提示維護人員處理源頭問題的功能。
筆者對超大型數據中心智能化系統及組網進行了優化改造,通過優化安防系統、動環監控系統、智能配電系統、空調群控系統以及各系統之間的組網,提升了維護的便利性及安全性。部分系統優化改造前后對比情況如表2 所示。

表2 改造實例
通過對超大型數據中心智能化系統及組網的運維優化,提升了智能化系統使用的便利性及安全性,挖潛智能化系統的潛能。通過運維優化探討,從運維前置的角度,幫助數據中心建設隊伍更好地把握智能化系統建設要點。功能豐富、高可靠性的智能化系統,必將成為超大型數據中心運維人員重要的助手,發揮重要的作用。