胡貴龍
中國移動通信集團江蘇有限公司
DCIM數據中心基礎設施管理是一座溝通關鍵基礎設施和IT設備之間的橋梁,通過一整套包含硬件設施、傳感器和特定軟件的管理平臺與工具,實現覆蓋數據中IT關鍵設備(服務器、存儲、網絡、虛擬機)和場地基礎設施(配電、制冷、布線、機柜)等所有關聯系統的對象(安全、管理、環節)進行容量規劃、集中監控、準確處置、智能管理、預測模型、成本控制等功能,成為數據中心管理的主流趨勢,推動更高效、更效益、更環保的數據中心建設。
在中國當前高速信息化技術蓬勃發展的背景下,數據平臺建設將是中國整體經濟社會信息化發展的重要基礎。數據網絡平臺基礎設施影響著數據平臺建設的安全、快捷、環保與穩定,怎樣合理保護好大型數據中心的機房安全,及時發覺危險隱患和消除故障問題,從而減少企業管理成本費用,提升運維效能,實現節能減排,已逐漸成為公司運營關注的重點。數據網絡平臺基礎建設運維與智能管理人員通過簡單的人機界面設計,使各種運行監督管理軟件功能集中在同一軟件系統平臺,極大地簡化了用戶的運營工作。該數據中心基礎設施管理體系不但能保證數據中心經濟、高效、協調地高速運行,還可以提升數據中心用戶的生產效率,從而減少設備運營費用,達到最優化的管理目標,并給用戶帶來全方位、高效、安全、舒心、便捷的綜合服務。
對日益發展壯大的數據中心運營而言,目前主要面臨如下問題:
(1)管理效率低。數據中心的穩定性和效率取決于日常運營和維護管理的效率。目前,大多數數據中心監測和管理系統都很復雜,每個系統的獨立性導致信息孤島,自動化和智能程度不夠,勞動力高度依賴。
(2)資產管理難。數據中心管理著許多服務器、交換機以及其他信息設施,包括打開和關閉IT資產、維護和庫存。如果缺乏智能資產管理,則需要大批員工。
(3)容量使用率低、能耗較高。數據中心機架上架率低或者設備功率密度小,導致機架容量及電力容量使用率低。而大型數據中心的制冷系統缺乏有效的監控與制冷參數動態調節,引發制冷耗電量大,導致PUE和運營成本較高。
因此,通過研究一套數據中心基礎設施系統(DCIM),集成容量管理、機房資產管理、能效管理,將大大提高數據中心系統的效能和優化運作能力。如圖1所示。

圖1 DCIM系統架構圖
1.3.1 容量管理
提供2D可視化的實時容量監控能力,將數據中心的電源、制冷、空間、機柜、接線和網絡等項目的容量狀況通過各種圖形儀表展示出來,并根據資產管理系統內的變更情況自動更新,支持容量情況快速查看;提供3D建模仿真能力,以可用容量、容量策略、設備布局、電力保障、空調制冷、網絡連接等信息為基礎,通過用戶自定義部署原則、智能搜索、放置和預留功能,智能化模擬新增設備的布局及容量影響,支撐最適合部署方案輸出。
1.3.2 機房資產管理
資產裝置(包括機柜、服務器設備、交換機和其他設備)的虛擬現實系統仿真模式,創建三維展示模式,逐層定位到機房、機柜與IT設施,直觀呈現信息的對象和位置屬性;建設基本企業固定資產配置管理模塊,結合RFID技術建立基本企業固定資產信息管理,動態閱讀并自動更新設備所有信息內容,通過資產定位與追蹤的流程化管控功能,實現設備位置及移動信息變更的規范化與自動化,改善機房的設備管理。
1.3.3 能效管理
從體系的全過程出發,遵循系統管理原理,通過實施一套完整的標準、規范,在組織內建立起一個完整有效、形成文件的能源管理體系,注重建立和實施過程的控制,使組織的活動、過程及其要素不斷優化,通過例行節能監測、能源審計、能效對標、內部審核、組織能耗計量與測試、組織能量平衡統計、管理評審、自我評價、節能技改、節能考核等措施,不斷提高能源管理體系持續改進的有效性,實現能效管理方針和承諾,達到預期的能源消耗或使用目標。
數據中心管理是一個專業綜合體系,但目前數據中心管理人員往往依據各人習慣采用一系列離散的,不專業的工具對數據中心進行維護。這種管理方式的優點是獲取方式簡單,成本相對低廉,但是卻帶來了更多的問題。首先對數據中心管理者而言,沒有一個統一的視圖獲取所需信息;其次維護多個離散、不專業工具增加了數據維護代價,甚至在新老數據保持同步時彼此發生沖突;最后不同系統間的數據難以關聯和共享,在數據分析和業務預測時尤其困難。
很多企業使用ITSM管理工具進行數據中心管理,這種工具有自己的管理功能,這些功能相對獨立,并且必須滿足某些標準,但其實際管理內容和數據中心的現場設備關系不大,因此導致了管理不全面的問題。同時很多企業將IT設施與設備的管理分成了不同的部門,盡管這一職責分配提高了人員管理和權責劃分,保證了相當程度的專業化,但是增加了部門間的溝通成本,降低了數據中心運維的效率,甚至提高了數據中心發生事件的風險。
為適應企業可持續經營發展的需要,減少企業總體經營成本,增加業務靈活性,新一代的數據中心系統在IT架構設計上更加彈性化,采用了更多如虛擬化和模塊化等高新技術,使得UPS和空調等基礎設施更難與服務器、存儲、網絡等IT基礎架構協調。傳統機柜中使用的服務器設備總量一般不會過多,功率密度不會過高,當前的負載波動也不會過大。而在云時代,虛擬化使得負載可以在服務器之間動態遷移,爆發性訪問的特點也使得IT設備的功耗波動大且頻繁,隨之而來的是對供電和制冷容量的動態需求。刀片服務器的大量應用使得單機柜的功率密度輕松突破10KW,不恰當的設計維護會導致局部熱點甚至宕機。
數據中心的電費支出在運維費用中占據著非常大的比重,因此提升電力效率已經成為了數據中心的核心競爭力。通過DCIM系統,不僅可以監測環境數據中的PUE等關鍵能耗指標,還可以隨時監測IT設備和基礎設施設備中的能耗變化,還能夠使場所服務設施和IT設備進行相互匹配,使制冷與供熱系統隨著IT設備的需要變化而調整工作狀況,從而真正實現了按需而動,以達到最佳的能耗利用率。DCIM通過對這些數據進行分類、管理與分析,為管理運維提供更加精準合理的操作方法和運營參考意見,甚至對部分故障做出預先診斷,從而使運維變得更主動、更高效,極大地提高數據中心的安全性和運作效率。
人力和流程也是數據中心運作與保護過程中必須考量的關鍵因素之一。對正常工作時間研究表明,70%的數據中心安全事件都是人為因素導致的。DCIM工具可用作數據中心更新和業務流程管理的平臺。在實施數據中心更新時,DCIM工具可用來管理和審批數據中心變更涉及的人員和業務流程中的各種操作。舉例來說,如果將服務器置于機架上,則DCIM工具可利用所收集的歷史數據來匹配電源、制冷、存儲和網絡。在實施前,攜帶和其他資源審查和批準每個步驟,并在系統上執行模擬練習。它還可與API、母公司管理平臺以及ITSM工具中的過程管理系統相結合,以增加變更的可靠性和減少執行時出錯的可能性。
保證數據中心的可用性,一方面依靠完善的系統架構和有效的運行保護,減少問題;另一方面采取合理的緊急演習和全面的災難恢復程序模擬,降低事件出現頻率,減少事故持續時間。一個完善的DCIM工具,不但能夠支持數據中心日常運作與維護管理工作,還能夠支持管理者管理特定事項,例如管理水平的提高。
數據中心在設計時考慮余量提高可靠性,服務器運行達不到設計的銘牌功耗,因此機架容量不能夠被充分利用。DCIM以每1U位都是寶貴資源,盡可能提高設備利用率,延長數據中心壽命,提高投資回報率為目標,提供追蹤電量、制冷、空間、承重等容量、管理供電和網絡等連接關系、數據中心可視化建模等精細化能力,使得用戶擺脫過去手摸、眼看等粗放的判斷方式,實時了解每個機架和整個數據中心的資源消耗情況,提高資產利用率,延長數據中心的壽命,節約投資。
國內數據平臺的構建工作正全面啟動,各類數據資源公司不斷向數據平臺服務市場施壓。后期工程建設階段的運營服務日益受到各界重視,而數據中心管理軟件也日益受到了電信運營商的關注,DCIM代表著各種綜合基礎設施管理方式與方法,可以協助數據平臺的管理者、經營與維護管理人員進一步提升數據平臺設施的管理與運作效能。