蔡國華 袁世州


摘要:數據中心是支撐中國搜索技術平臺的基礎組成部分,是建筑的地基。數據中心的運維工作直接關系到線上業務平臺的穩定性、可靠性、安全性。筆者結合對數據中心多年的運維經驗,結合實際業務需求,研發了中國搜索數據中心自動化運維平臺。本文將對平臺進行闡述,并對數據中心整體設備生命周期的管理提出建議。歡迎媒體行業數據中心管理人員相互交流。
關鍵詞:數據中心;自動化運維;機房設備
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)20-0006-03
開放科學(資源服務)標識碼(OSID):
1前言
中國搜索數據中心的運維管理包括監控(動力、環境、設備、線路)、故障處理、工程實施、設備資產管理、設備上架下架管理等工作,只有數據中心的穩定運行才能確保線上業務的穩定。筆者結合多年的數據中心運維工作經驗,逐漸摸索出通過自動化運維替代部分人工運維的方法,通過自主研發,整合行業開源系統,建設自動化運維平臺。該平臺以CMDB系統為核心,將日常數據中心大量運維工作由人工轉為機器來處理,從而大大提升運維效率,擴大覆蓋范圍,降低運維成本。
2中國搜索數據中心簡介
截至目前,中國搜索數據中心運行的IT設備有3500余臺(含10%網絡設備),其中70%設備為過保設備且已運行近8年之久,整體網絡架構為常見大型互聯網數據中心的網絡架構,即:出口核心路由器-核心交換機-接入交換機-終端設備。
中國搜索數據中心物理架構上為單一數據中心多模塊化,機架數量300多架。由于是分期逐步建設,數據中心模塊涉及多個樓宇,中間涉及模塊間互聯、樓層間互聯、樓宇間互聯等工程。復雜多樣的物理結構和日益老舊的設備維護,使得機房運維越來越低效,自動化運維平臺的研發工作勢在必行。
3數據中心自動化運維研究
日益老化的設備是中國搜索數據中心的頭等問題,針對大量老化且品牌不一的設備,如何第一時間發現故障并及時處理,保障數據中心的安全穩定運行,是自動化運維平臺需要解決的問題。
數據中心自動化運維平臺以CMDB資產數據庫為基礎,通過整合開源平臺(Glpi,Cobbler,Zabbix,IPMI等),建立統一運維入口,實現了一個平臺解決數據中心自動化運維大部分問題。該平臺主要包含的功能有自動化資產管理、自動化裝機、自動化監控報警等功能。下文對自動化平臺的各項功能進行介紹:
l 整體架構圖
該功能主要通過OCS開源插件定時采集整個數據中心各個節點的資產數據:包含設備序列號、CPU、內存、硬盤、軟件清單等,OCS將采集到的數據與GLPI資源管理平臺整合,根據日常使用字段并通過對GLPI平臺二次開發形成外部可訪問的API接口,自動化運維平臺通過調用該API接口實現資產信息同步到自動化運維平臺,并在前端界面實現展示、查詢和管理。
后續所有對主機的控制操作均依賴于該資產管理模塊(CMDB)。
l 自動化裝機
自動化裝機的任務在中國搜索數據中心屬于頻繁性工作,少則一兩臺服務器,多則近千臺服務器。早期我們采用Kickstart+PXE的方式進行批量裝機,該裝機方式可大大提高人工裝機的效率,保持一致性。不過該方式存在的問題是需要人工將每臺服務器的MAC地址、主機名、IP地址等整合成獨立的可供kickstart讀取的文件,數據量一旦過多會造成效率低、錯誤率高等問題。針對該問題我們使用Cobbler自動化裝機開源系統,通過數據中心自動化運維平臺調用CobblerAPI實現系統灌裝,通過制定ks配置文件實現不同文件系統劃分、軟件配置等服務器的多樣配置需求。RAID自動配置的功能通過PXE引導內存型操作系統,整合RAID卡CLI工具,調用預先設置好的配置文件進行RAID自動配置。
l 自動化監控告警
自動化監控告警包括服務器硬件故障監控告警、網絡設備監控告警、端口異常監控告警、機房環境監控告警等數據中心相關的監控告警。服務器硬件層監控主要通過自動化運維平臺采用IPMI協議通過BMC端口抓取底層硬件日志,從而獲取告警數據,如圖4。系統層的監控主要通過調用zabbix API獲取zabbix告警從界面展示出來。網絡設備和網絡端口的監控主要通過調用Cacti的監控數據實現監控統一。機房環境監控主要通過獲取服務器BMC進風口傳感器數據,通過IPMI協議的“Inlet_Temp”字段獲取數據,由于該自動化運維平臺所屬數據中心有多品牌、多型號服務器,每個型號的服務器對應IPMI的該字段不同。
l 集中遠程KVM虛擬桌面
我們對大部分服務器都配置了BMC帶外管理系統,接有獨立的網絡環境,我們可以通過BMC帶外管理系統進行遠程開機、關機、重啟以及打開KVM虛擬桌面。不過在DBLOS系統開發以前無法集中管理,我們通過結合IPMI和jviewer實現了上述功能的集中管理,可以在一個平臺實現一個或多個機房的管理。
對于遠程集中開機、關機和重啟的功能采用IPMI遠程指令的方式,更多細節功能可參考IPMI官方文檔。
本段重點介紹集中遠程KVM桌面的實現方法,我們通過對BMC登錄的時候進行頁面Session抓取,獲得登錄方式,打包到Cookie中,攜帶該Cookie請求KVM的jviewer.jnlp文件,下載完該jnlp文件后使用java打開即可。
l 其他功能
為便于數據中心值班人員查看值班表以及填寫每班次的值班報告等信息,在自動化運維平臺上增加了值班日報填寫和值班表查看等功能。值班表采用了前端的fullcalendar插件,值班日報采用jQuery的Table插件。
系統設置功能涵蓋了對各個模塊的參數控制,如溫度采集的間隔、機柜最高溫告警設置、告警對象設置等。
4 數據中心生命周期管理研究
隨著中國搜索業務的高速發展,存在著新增業務、變更業務、擴展(或縮減)業務等復雜的循環周期,數據中心需要根據業務的生命周期進行快速支撐,IT設備也需要根據業務的變動而隨時調配使用。
針對以上的問題我們對數據中心整個生命周期運轉設計了閉環流程:
如何盡可能地使上述環節實現自動化管理,是我們日后的工作方向。我們理想的狀態是重新需求開始只需在電子工單系統上進行相關確認審核即可完成整個流程的閉環。具體流程為:
1) 新需求:業務團隊在電子工單系統提交設備使用需求;
2) 新設備上架:此處的新設備是指從庫存取出或新購設備,在線上統稱為新設備;
3) 新業務上線:應用運維團隊將業務同步至新設備并進行相關統一配置;
4) 系統信息維護:主要是運行過程中的運維工作,可自動化監控、告警、報修、反饋等;
5) 業務下線:業務團隊通過電子工單系統提交下線需求,相關負責人審批完成后即可進行自動化業務下線操作;
6) 資產回收或報廢:根據下線需求的電子工單進行自動化設備關機觀察、資產回收、通知相關人員。如服務器服役超時將自動化標記報廢并通知相關負責人進行報廢處理;
7) 系統重裝:回收或新購的服務器通過API方式與電子工單系統結合,進行自動化系統重裝;
8) 待分配狀態:主要是完成系統重裝后將該資產放置庫存待分配的狀態,以進行后續環節的操作。
5結語
中國搜索數據中心自動化運維平臺是結合自身業務情況和數據中心現狀進行設計的,目前已完成研發,處于試運行階段。歡迎媒體行業數據中心管理人員相互交流。
參考文獻:
[1] Cobblermanuals. Cobbler官方網站.
[2] Intelligent Platform Management Interface Specification Second Generation v2.0. Intel官方網站.
【通聯編輯:光文玲】