李 明,劉 軍,馬 永,管建超
(國網安徽省電力公司 信息通信分公司,安徽 合肥 230061)
基于IPMI的數據中心帶外管理設計與實現
李 明,劉 軍,馬 永,管建超
(國網安徽省電力公司 信息通信分公司,安徽 合肥 230061)
隨著IT技術的快速發展,數據中心規模逐漸擴大,體系結構越來越復雜,在給人們帶來便利的同時,也給運維管理增加了難度。為了保證系統穩定運行以及故障及時修復,高效維護數據中心,設計并實現了基于IPMI的數據中心帶外管理系統。該系統實行統一平臺管理,模擬實際機房狀態并實現遠程管理數據中心,能夠實時監控各硬件運行狀態,實現系統資源管理、功耗管理以及遠程控制等功能。該系統具有良好的可靠性、可用性、可擴展性、易用性和可管理性,從而達到高效運維管理的目的。
帶外管理;IPMI;數據中心
本文從數據中心設備的現狀出發,進行帶外管理系統的設計與實現。當前,企業信息化中各種服務器的統一管理是一個需要迫切解決的問題。由于業務系統和設備數量不斷整合與增加,各應用系統的運行維護、系統安全保障、硬件設備性能及指標監測等工作量和復雜度不斷加大,完全依靠手工方式無法實時監測,且容易出錯[1]。此外,遠程登錄管理方式在網絡故障或者沒有開機情況下無法實現[2]。目前,越來越重視數據中心的高密度、低功耗、易管理等特性,且數據中心設備分布在多個區域,因此需要建設一套集中監控管理平臺,實現IT基礎架構的整體監控與管理自動化、IT設備功耗定制,實現節約化管理,以便最大限度保證信息系統不間斷為業務開展提供信息化服務。
1.1 IPMI簡介
IPMI[3](Intelligent Platform Management Interface)是一種開放標準的硬件管理接口規格,該標準是由Intel、HP、NEC、DELL和SuperMicro等公司發起制定,定義了通過嵌入式管理子系統進行通信的特定方法。IPMI信息通過基板管理控制器(Baseboard Management Controller,BMC)進行交流,在不依賴操作系統的情況下,實現對服務器硬件運行狀態的監控,如風扇轉速、機箱內部溫度、各CPU溫度、電壓和CMOS電池容量、電源開關狀態、底盤狀態等。這種方式具有兩個主要優點:首先,此配置允許進行帶外服務器管理;其次,操作系統不必負擔傳輸系統狀態數據的任務。目前大部分廠家的服務器,如IBM、HP以及國內華為、浪潮等眾多的品牌服務器都支持IPMI協議。
1.2 帶外管理
帶外管理[4]是指通過獨立于業務數據之外的專用管理通道對機房網絡設備、服務器設備以及電源系統等進行集中化管理。帶外管理的核心理念在于只傳輸管理數據、統計信息、控制信息等,將網管數據與業務數據分離,兩者完全獨立互不影響,可以提高網管的效率與可靠性,也有利于提高網管數據的安全性。企業網絡上會傳輸各種業務數據,如果業務網絡出現問題,通過該網絡排除故障。而且這種方式可以通過遠程KVM對遠端服務器進行BIOS級控制。這種管理方式能夠減少運營成本、提高運營效率、減少宕機時間、提高服務質量。
2.1 總體設計
借助3D展示技術,為運維人員提供集中監控和展示平臺,實現數據實時推送,提供基于web的可視化設計,將IT環境下的網絡、系統、業務、機房等進行多維度展現,并能夠提供宏觀態勢層面的多維分析、決策輔助,極大提升用戶體驗,對數據中心基礎設施實現集中式管理。
本文設計的帶外管理系統采用B/S架構,通過遠程訪問被管理服務器的BMC芯片,對服務器的各項物理指標進行數據采集,再傳送給管理平臺,并執行來自管理平臺的各種控制指令。整體架構設計如圖1所示。

圖1 整體架構設計
2.2 主要功能設計
帶外管理監測的主要功能模塊包括電源管理、遠程控制、功耗管理以及日志管理等,如圖2所示。

圖2 BMC功能控制模塊結構
從圖2中可以看出,服務器監控均通過BMC這個中間橋梁來實現。基本原理是以IPMI協議為基礎,遠端通過LAN口發送控制命令給BMC,由BMC獲取信息后再反饋給請求者。
(1)電源管理模塊。電源管理[5]能獲取當前電源狀態,可以進行開機、關機和重啟操作。如直接切斷服務器電源立刻關機會導致系統異常斷電。安全關機模式是在BMC受到命令后,再發送一個ACPI信號給服務器的操作系統,操作系統收到信息后,再執行自動關機操作。
(2)遠程控制模塊。BMC通過底層硬件接口對服務器VGA接口進行采集,并使用相應的視頻壓縮方法對圖像進行壓縮以便在網絡上進行傳輸,壓縮后的數據傳輸至負責網絡發送的模塊;網絡發送模塊通過網絡傳輸協議,將壓縮后的數據傳輸到遠程客戶端應用層進行處理,同時還需要處理、接收客戶端應用程序傳輸過來的鼠標、鍵盤響應數據。此外,還有諸如用戶認證、數據加密等模塊[6]。
除可以操作服務器本身外,還需對其外圍設備進行控制,包括對服務器的溫度、電壓、風扇轉速等安全閾值區間的設定,具有定位功能LED燈的開關操作等。
(3)功耗管理模塊。功耗管理模塊[7]首先通過LAN發送釆集數據請求服務,請求命令通過LAN傳輸到BMC,BMC根據具體響應將傳感器各類具體信息更新至SDR中,同時將SDR中最新信息通過BMC傳輸到Serial串口,通過串口重定向技術將數據信息傳輸到LAN接口,最終通過UDP報文方式發送至功耗管理模塊,對其進行數據解析和轉換并將信息存儲到數據庫中。將服務器主板上各類傳感器采集到的動態能耗數據存儲到BMC的SDR中,這些數據是時刻動態變化的,需要周期性進行采集才能達到實時監測服務器的目的。
(4)日志管理模塊。服務器的SEL存儲著系統事件和系統配置信息,SEL中每條記錄都有唯一的ID,ID號從0000h到FFFFh,通過ID號就可以對日志進行檢索,提取對應的信息。日志管理模塊[8]首先向BMC發送請求,BMC根據要求獲取SEL上的記錄,BMC將記錄以UDP報文的形式發送到日志管理模塊,最后將日志記錄解析后存放到數據庫中。
除了服務器本身的日志外,同時還提供認證、授權、訪問控制日志,實現管理員權限的精細化管控。對管理員的操作進行審計,方便管理和事后追查。
2.3 帶外管理軟件實現
為保證系統的可移植性,本系統采用java語言開發,采用模塊化設計,IPMI與BMC之間的交互和各個功能模塊都提供統一的API接口,以便后期功能擴展。為了保證較少的系統資源占用,同時也為了簡化系統結構,集中監控系統采用輕量化數據庫Mysql作為數據庫。最終實現的管理系統如圖3所示,系統全方位展示數據中心的狀態,比如3D展示機房,可以清楚了解新機器的上下架問題,以及機房空間位置等,同時系統還列出維護數據中心需要的日志、功耗、溫度等信息。該系統與其它監控軟件相比,具有如下幾個特點:

圖3 監控管理軟件界面
(1)提高IT服務運作的效率,降低IT服務運作的成本,實現網絡及系統管理工具與管理制度的有效銜接。
(2)通過實時監控減輕維護人員的工作量,將原來分立的系統管理模式變為集中管理模式。
(3)能進行事件/日志的集中統一收集、分析、處理和告警,對信息系統進行全方位監視和管理,快速定位故障,有效預測、預防、隔離、診斷和解決故障。
(4)自主開發有利于實現信息系統的“自主可控、安全可信、高效可用”。
該系統在設備定制化項目中得到應用,目前系統正常運行,在數據中心日常維護中起到很好的效果。雖然系統在功能和性能上滿足了維護的需求,但還需要優化管理策略,比如功耗管理策略是預先設定的,不夠智能化,需要研究功耗自動管理算法,而且還需擴展系統的功能,比如容量告警、報表統計等。使得系統更加智能化、更好地實現統一管理數據中心的目的。
隨著云計算、大數據的普及和國家“互聯網+”戰略的提出,電力系統的信息化進程也在不斷推進,數據中心的基礎設施和應用資源得到迅速增長。需要及時高效監控和管理資源的可用性,保證服務的可靠性。
本文研究設計了基于IPMI的帶外管理系統,使得數據中心服務器集中統一管理,為數據中心維護提供了有效幫助。系統能在不間斷運行的情況下及時發現并排除系統潛在的安全隱患,具有良好的通用性和可擴展性,能方便地擴充新功能,當設備硬件變化時能對數據中心靈活的進行集中監控和管理,降低了中心的維護成本。帶外管理使得運維人員不必進入機房進行現場管理,這樣大大提高了運維的效率和數據中心的安全性。
[1] 張毅,陳良,龐劍.多集群計算環境故障監控管理系統[J].計算機工程與科學,2013,35(11):54-61.
[2] 陳婉.云計算環境下虛擬化數據中心融合技術[J].軟件導刊,2016,15 (4):166-168.
[3] 張冰潔.基于IPMI的智能平臺管理系統設計[D].廣州:中山大學,2014.
[4] 鄭明玲,蔣句平,袁遠,等.一種面向大規模計算機的監控管理系統[J].湖南大學學報:自然科學版,2015,42(4):107-113.
[5] 劉龍.智能服務器電源管理平臺技術研究與實現[D].北京:北京郵電大學,2011.
[6] 車路,張煥遠,夏亞東.基于開源軟件的云監控平臺設計與實現[J].計算技術與自動化,2015,34(1):136-140.
[7] 李寧.數據中心能耗數據采集方法研究與實現[D].北京:北京郵電大學,2013.
[8] 張國強,董紹彤,于濤.一種高安全云管理平臺的設計與實現[J].電腦知識與技術,2014,10(24):5628-5631.
(責任編輯:陳福時)
李明 (1971-),男,安徽巢湖人,國網安徽省電力公司信息通信分公司高級工程師,研究方向為信息化規劃建設運維管理;劉軍(1978-)男,湖北孝感人,國網安徽省電力公司信息通信分公司高級工程師,研究方向為信息系統運維管理;馬永(1989-),男,安徽宿州人,國網安徽省電力公司信息通信分公司助理工程師,研究方向為電力信息化建設運維;管建超(1978-),男,安徽合肥人,國網安徽省電力公司信息通信分公司高級工程師,研究方向為電力信息化。
10.11907/rjdk.162410
TP319
A
1672-7800(2017)003-0074-03