陳曉宇,項(xiàng)顥,賈琨,張振國,張祖剛,賈書峰
(中國電子工程設(shè)計(jì)院有限公司 工程技術(shù)研究院,北京 100142)
數(shù)字經(jīng)濟(jì)時(shí)代下,隨著大數(shù)據(jù)、云服務(wù)、智慧城市、5G技術(shù)等計(jì)算機(jī)技術(shù)的快速發(fā)展及應(yīng)用,數(shù)據(jù)中心建設(shè)正處于高速發(fā)展的階段。在數(shù)據(jù)中心運(yùn)營的過程中,可用性、安全性、管理和維護(hù)成為了用戶關(guān)注的焦點(diǎn)。數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的工作質(zhì)量將直接影響著用戶的滿意程度。由于數(shù)據(jù)中心規(guī)模的不斷擴(kuò)張,涉及基礎(chǔ)設(shè)施產(chǎn)品種類繁多,以及對(duì)綠色、節(jié)能環(huán)保的要求,大大增加了數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的工作量及工作難度,使其由機(jī)房的管理者轉(zhuǎn)變成為IT服務(wù)的提供者。將數(shù)據(jù)中心運(yùn)維活動(dòng)產(chǎn)生的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,建立數(shù)據(jù)中心智能運(yùn)維平臺(tái),提供自動(dòng)化管理、實(shí)時(shí)監(jiān)控、評(píng)估診斷等服務(wù),提高運(yùn)維團(tuán)隊(duì)工作效率,完善運(yùn)維管理確保設(shè)備高度安全。
數(shù)據(jù)中心作為數(shù)字化建設(shè)中數(shù)據(jù)存儲(chǔ)、計(jì)算、傳輸?shù)幕A(chǔ),從功能的角度進(jìn)行劃分,數(shù)據(jù)中心經(jīng)歷了數(shù)據(jù)存儲(chǔ)中心、數(shù)據(jù)處理中心、數(shù)據(jù)中心應(yīng)用和數(shù)據(jù)運(yùn)營服務(wù)中心四個(gè)階段[1]。如今我們正處于信息化時(shí)代,數(shù)據(jù)中心對(duì)企業(yè)的影響變得越來越大。近些年全球均加大了在數(shù)據(jù)中心建設(shè)上的投入。截至2017年全球的數(shù)據(jù)中心超過44萬個(gè),其市場(chǎng)規(guī)模超過465億美元,同比增長(zhǎng)了10.7%[2]。截至2019年我國的數(shù)據(jù)中心市場(chǎng)規(guī)模已經(jīng)超過了1000億元。近三年我國數(shù)據(jù)中心的市場(chǎng)規(guī)模正以30%以上的速度增長(zhǎng)[3]。數(shù)據(jù)中心規(guī)模增大,設(shè)備數(shù)量也隨之增多,面對(duì)海量的數(shù)據(jù)及更高要求的運(yùn)維標(biāo)準(zhǔn),傳統(tǒng)運(yùn)維的方式已經(jīng)不能滿足當(dāng)前的運(yùn)維需求,急需借助自動(dòng)化的手段對(duì)數(shù)據(jù)中心內(nèi)的設(shè)備及基礎(chǔ)設(shè)施進(jìn)行運(yùn)維及管理
我國數(shù)據(jù)中心分布的地域不均,大部分集中在北上廣地區(qū),且其上架率也高于其他地區(qū),存在產(chǎn)業(yè)發(fā)展與能源平衡之間的盾。2020年3月數(shù)據(jù)中心被明確納入了新型基礎(chǔ)設(shè)施建設(shè)的范疇,這將會(huì)進(jìn)一步的促進(jìn)數(shù)據(jù)中心的快速發(fā)展[4]。與此同時(shí)對(duì)節(jié)能環(huán)保、安全可靠、服務(wù)能力及應(yīng)用水平提出了更高的要求。為加快實(shí)現(xiàn)數(shù)據(jù)中心綠色、環(huán)保、低能耗的目標(biāo),需將節(jié)能環(huán)保、降低能耗的觀念納入數(shù)據(jù)中心的運(yùn)維工作中。
數(shù)據(jù)中心建設(shè)規(guī)模的增大,涉及設(shè)備、設(shè)施數(shù)量及種類的增多,以及在節(jié)能環(huán)保等方面的高標(biāo)準(zhǔn)、高要求,大大增加了數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的工作難度。需將信息技術(shù)手段應(yīng)用到數(shù)據(jù)中心日常運(yùn)維的活動(dòng)中,加強(qiáng)運(yùn)維自動(dòng)化的能力,保證數(shù)據(jù)中心運(yùn)維工作順利開展的同時(shí)節(jié)約成本、降低能耗、提高資源的利用率。本文分別從監(jiān)督管理、盤點(diǎn)、檢索、定位、監(jiān)測(cè)診斷、節(jié)能環(huán)保五大方面展開數(shù)據(jù)中心運(yùn)維管理的需求分析。
(1)監(jiān)督管理:需要規(guī)范設(shè)備、工具、人員的管理,設(shè)備進(jìn)出、遷入遷出,工具進(jìn)出、領(lǐng)用,人員進(jìn)出需依照相應(yīng)的審批流程,并實(shí)現(xiàn)記錄存檔。杜絕設(shè)備、工具任意堆放、遺失,人員的隨意出入。
(2)盤點(diǎn):由于涉及設(shè)備數(shù)據(jù)量較為龐大、人工盤點(diǎn)耗時(shí)耗力且很難保證統(tǒng)計(jì)結(jié)果的準(zhǔn)確性。需要采用自動(dòng)化的方法實(shí)現(xiàn)資產(chǎn)數(shù)據(jù)按品牌、型號(hào)、所屬部門/人員、服務(wù)到期日、購買日期等要素的快速盤點(diǎn)。
(3)檢索:傳統(tǒng)的檢索方法存在檢索速度緩慢,設(shè)備所處位置模糊不清、設(shè)備狀態(tài)不明,檢索結(jié)果與實(shí)際不符的問題。對(duì)檢索方法需要進(jìn)行優(yōu)化,通過備索引能夠查看所有資產(chǎn)的詳細(xì)信息,并可知道其所屬的樓層及房間等位置信息。
(4)定位:由于設(shè)備的數(shù)量多,精準(zhǔn)的設(shè)備定位需要較長(zhǎng)的時(shí)間。需要提高設(shè)備定位的速度及準(zhǔn)確性,進(jìn)而可縮短設(shè)備故障維修響應(yīng)時(shí)間。
(5)監(jiān)測(cè)診斷:人工監(jiān)測(cè)耗時(shí)耗力,故障診斷過度依賴于運(yùn)維人員個(gè)人的技術(shù)水平。需要無時(shí)延的實(shí)時(shí)檢測(cè),并可根據(jù)實(shí)時(shí)數(shù)據(jù)情況進(jìn)行故障的診斷、預(yù)警,并提供改進(jìn)的建議措施,彌補(bǔ)運(yùn)維團(tuán)隊(duì)人員技術(shù)水平的參差不齊。
(6)節(jié)能環(huán)保:目前數(shù)據(jù)中心的日常巡檢、工單派發(fā)等運(yùn)維活動(dòng)依賴于大量的紙質(zhì)文檔,鑒于紙質(zhì)文檔不夠環(huán)保,且不利于檢索、保存等因素,需將紙質(zhì)文檔數(shù)字化。由于數(shù)據(jù)中心對(duì)降低能耗的高度關(guān)注,PUE(Power Usage Effectiveness)指標(biāo)已被納入運(yùn)維團(tuán)隊(duì)的績(jī)效考核。為有效的降低能耗,故障的及時(shí)發(fā)現(xiàn)、處理變得尤為重要,希望以數(shù)據(jù)中心實(shí)時(shí)數(shù)據(jù)為依據(jù)提供智能診斷服務(wù),輔助運(yùn)維團(tuán)隊(duì)完成故障的發(fā)現(xiàn)、止損、修復(fù)、規(guī)避。
數(shù)據(jù)融合技術(shù)是一種能夠?qū)@取到的時(shí)序數(shù)據(jù),在一定的規(guī)則下進(jìn)行分析、評(píng)估、決策的信息處理技術(shù),按照數(shù)據(jù)抽象的層次將該技術(shù)劃分為數(shù)據(jù)層融合、特征層融合及決策層融合三類[5]。數(shù)據(jù)融合技術(shù)最初是被應(yīng)用于軍事領(lǐng)域的指揮控制智能通訊系統(tǒng),隨著研究的深入逐漸被應(yīng)用到醫(yī)療、交通、工業(yè)、刑偵等領(lǐng)域[6]。目前我們正處于數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng),此時(shí)數(shù)據(jù)融合技術(shù)便顯得尤為重要,它能充分發(fā)揮數(shù)據(jù)的價(jià)值,避免數(shù)據(jù)豐富但信息貧瘠的情況發(fā)生。數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)需要對(duì)動(dòng)力環(huán)境等數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè)。由于動(dòng)力環(huán)境數(shù)據(jù)大多從傳感器進(jìn)行采集,且具有采集間隔小、來自多個(gè)傳感器、數(shù)據(jù)量大等特點(diǎn),人工很難從龐大的數(shù)據(jù)中快速獲取有價(jià)值的信息。將數(shù)據(jù)融合技術(shù)應(yīng)用到數(shù)據(jù)中心運(yùn)維的工作中,將采集到的數(shù)據(jù)進(jìn)行決策層融合,實(shí)現(xiàn)故障的實(shí)時(shí)監(jiān)測(cè),智能診斷,措施建議,輔助運(yùn)維提高運(yùn)維團(tuán)隊(duì)的工作質(zhì)量、工作效率,實(shí)現(xiàn)數(shù)據(jù)中心綠色、節(jié)能、環(huán)保的目標(biāo)。
針對(duì)數(shù)據(jù)中心運(yùn)維在資產(chǎn)、資源、運(yùn)維管理等方面存在的問題,以及在降低能耗、節(jié)能環(huán)保方面更高的要求。基于數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的實(shí)際需求,采用數(shù)據(jù)融合、物聯(lián)網(wǎng)[7]、3D建模[8]等計(jì)算機(jī)技術(shù),搭建基于數(shù)據(jù)融合的智能運(yùn)維平臺(tái)。該平臺(tái)可規(guī)范數(shù)據(jù)中心運(yùn)維的流程管理,實(shí)現(xiàn)數(shù)據(jù)分類、分項(xiàng)多維度的快速檢索、統(tǒng)計(jì),通過3D模型可直觀的獲取設(shè)備所處的位置信息,能夠?qū)?shù)據(jù)中心運(yùn)行狀態(tài)的數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控、診斷,打破信息孤島,維持?jǐn)?shù)據(jù)中心綠色、健康的運(yùn)行。
基于數(shù)據(jù)融合的數(shù)據(jù)中心智能運(yùn)維平臺(tái)的功能模塊設(shè)計(jì)如圖1所示,其中共包含資產(chǎn)管理、資源管理、運(yùn)維管理、智能診斷及可視化五大功能模塊。

圖1 數(shù)據(jù)中心智能運(yùn)維平臺(tái)功能模塊圖
資產(chǎn)管理功能模塊包含設(shè)備管理和工具管理;以狀態(tài),型號(hào),服役期等要素對(duì)設(shè)備、工具的使用情況進(jìn)行快速的分類統(tǒng)計(jì)。通過索引目錄能夠查看數(shù)據(jù)中心中的設(shè)備、工具及其所處的位置。根據(jù)型號(hào)、位置、服務(wù)到期日等變量對(duì)數(shù)據(jù)進(jìn)行篩選并生成報(bào)表。規(guī)劃進(jìn)出審批流程,實(shí)現(xiàn)設(shè)備、工具的進(jìn)出管理。資源管理功能模塊包括能源管理和空間管理功能;對(duì)能耗,電耗,能耗費(fèi)用實(shí)現(xiàn)分類、分項(xiàng)的統(tǒng)計(jì),實(shí)現(xiàn)PUE、CLF、PLF等能效指標(biāo)的統(tǒng)計(jì)分析,且具備超標(biāo)自動(dòng)提示的功能。對(duì)機(jī)房、機(jī)柜及管線空間的余量數(shù)據(jù)進(jìn)行線上查詢,掌握各類空間的實(shí)時(shí)使用情況。
運(yùn)維管理功能模塊具有人員管理、值班管理、任務(wù)管理、工作日志、培訓(xùn)演練的功能;對(duì)人員的進(jìn)出、值班、交接班進(jìn)行管理及分類統(tǒng)計(jì),實(shí)現(xiàn)任務(wù)工單的線上處理、審批、流轉(zhuǎn)及分類統(tǒng)計(jì)。實(shí)現(xiàn)巡檢記錄、工作日志的線上填報(bào),培訓(xùn)演練計(jì)劃的線上發(fā)布、申請(qǐng)。智能診斷功能模塊具備實(shí)時(shí)診斷和提供建議措施的功能;能夠?qū)Ξ?dāng)前設(shè)備、設(shè)施運(yùn)行的相關(guān)數(shù)據(jù)進(jìn)行實(shí)時(shí)的監(jiān)測(cè),進(jìn)而可采用遠(yuǎn)程巡檢的方式來輔助日常巡檢,達(dá)到縮小日常巡檢的范圍、延長(zhǎng)巡檢周期的目的。針對(duì)設(shè)備、設(shè)施的實(shí)時(shí)數(shù)據(jù),結(jié)合專家規(guī)則實(shí)現(xiàn)故障的實(shí)時(shí)診斷,并依據(jù)診斷結(jié)果提供改進(jìn)的建議措施。可視化功能模塊是以數(shù)據(jù)中心的建筑結(jié)構(gòu)為參照構(gòu)造了3D模型,將設(shè)備設(shè)施運(yùn)行的實(shí)時(shí)數(shù)據(jù),實(shí)時(shí)診斷,建議措施,設(shè)備定位等數(shù)據(jù)體現(xiàn)到3D模型中。
基于數(shù)據(jù)融合的數(shù)據(jù)中心智能運(yùn)維平臺(tái)的架構(gòu)如圖2所示,該平臺(tái)的數(shù)據(jù)采集方式可分為人工錄入和傳感器采集上傳兩種。對(duì)于設(shè)備、工具、人員等數(shù)據(jù)量相對(duì)較小的數(shù)據(jù)采用人工錄入的方式錄入到平臺(tái)中,而對(duì)于數(shù)據(jù)量大、采集頻率較高的時(shí)序數(shù)據(jù)則通過傳感器完成實(shí)時(shí)數(shù)據(jù)的采集和上傳。利用知識(shí)庫、推理機(jī)等數(shù)據(jù)融合技術(shù)對(duì)傳感器上傳的時(shí)序數(shù)據(jù),進(jìn)行數(shù)據(jù)決策層融合,為運(yùn)維團(tuán)隊(duì)提供智能診斷的服務(wù)。在統(tǒng)一身份認(rèn)證,工作流,中間件,數(shù)據(jù)交換與共享等技術(shù)的支撐下實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)維平臺(tái)的資產(chǎn)管理、資源管理、運(yùn)維管理等功能,為加強(qiáng)各功能模塊的可用性,利用3D建模技術(shù)實(shí)現(xiàn)資產(chǎn)管理、資源管理、智能診斷功能的可視化展示,輔助運(yùn)維。考慮到數(shù)據(jù)中心運(yùn)維工作中各個(gè)活動(dòng)場(chǎng)景間的差異,將該平臺(tái)的功能模塊依據(jù)使用場(chǎng)景的不同分別部署到電腦端和手機(jī)端,極大程度方便了該平臺(tái)的實(shí)際應(yīng)用。

圖2 數(shù)據(jù)中心智能運(yùn)維平臺(tái)架構(gòu)圖
基于數(shù)據(jù)融合的數(shù)據(jù)中心智能運(yùn)維平臺(tái),將運(yùn)維數(shù)據(jù)電子化,拋棄了以往的紙質(zhì)文檔,實(shí)現(xiàn)了數(shù)據(jù)的實(shí)時(shí)更新、高效管理,保障數(shù)據(jù)安全性的同時(shí)做到無紙化“綠色”辦公。以數(shù)據(jù)為驅(qū)動(dòng)結(jié)合知識(shí)庫、推理機(jī)等數(shù)據(jù)融合技術(shù)實(shí)現(xiàn)運(yùn)維的實(shí)時(shí)診斷。實(shí)現(xiàn)運(yùn)維團(tuán)隊(duì)知識(shí)積累、傳遞的同時(shí)輔助運(yùn)維團(tuán)隊(duì)降低數(shù)據(jù)中心運(yùn)行能耗。目前該平臺(tái)已經(jīng)完成了開發(fā)工作,經(jīng)過多輪的測(cè)試、修改后,該平臺(tái)已經(jīng)順利通過內(nèi)測(cè)。下一階段該平臺(tái)將進(jìn)行公測(cè),將該平臺(tái)部署到實(shí)際項(xiàng)目中,進(jìn)一步對(duì)平臺(tái)進(jìn)行完善。