
摘要:在國家“東數(shù)西算”工程及“數(shù)據(jù)中心發(fā)展三年行動計(jì)劃”的要求下,近些年國內(nèi)數(shù)據(jù)中心也在如火如荼地進(jìn)行。本文對DCIM系統(tǒng)的構(gòu)建與功能要求進(jìn)行了探討。
關(guān)鍵詞:數(shù)據(jù)中心;基礎(chǔ)設(shè)施;系統(tǒng)
工業(yè)和信息化部《新型數(shù)據(jù)中心發(fā)展三年行動計(jì)劃(2021-2023年)》的通知中提到:新型數(shù)據(jù)中心是以支撐經(jīng)濟(jì)社會數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新為導(dǎo)向,以5G、工業(yè)互聯(lián)網(wǎng)、云計(jì)算、人工智能等應(yīng)用需求為牽引,匯聚多元數(shù)據(jù)資源、運(yùn)用綠色低碳技術(shù)、具備安全可靠能力、提供高效算力服務(wù)、賦能千行百業(yè)應(yīng)用的新型基礎(chǔ)設(shè)施,具有高技術(shù)、高算力、高能效、高安全特征。
隨著新一代信息技術(shù)快速發(fā)展,數(shù)據(jù)資源存儲、計(jì)算和應(yīng)用需求大幅提升,傳統(tǒng)數(shù)據(jù)中心正加速與網(wǎng)絡(luò)、云計(jì)算融合發(fā)展,加快向新型數(shù)據(jù)中心演進(jìn)。同時(shí)提到至2023年底,全國數(shù)據(jù)中心機(jī)架規(guī)模年均增速保持在20%左右,平均利用率力爭提升到60%以上,總算力超過200 EFLOPS,高性能算力占比達(dá)到10%。數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)作為數(shù)據(jù)中心運(yùn)維的基礎(chǔ)保障系統(tǒng),其完善的功能和可用性是保障數(shù)據(jù)中心建設(shè)、維護(hù)的基本。
一、系統(tǒng)構(gòu)成
本次考慮在數(shù)據(jù)中心智能建筑機(jī)房設(shè)置后臺服務(wù)器,主要包括數(shù)據(jù)庫/應(yīng)用服務(wù)器、管理服務(wù)器、接口服務(wù)器等,如圖1所示。
各系統(tǒng)服務(wù)器設(shè)備統(tǒng)一接入智能建筑系統(tǒng)網(wǎng)絡(luò)核心交換機(jī),構(gòu)成系統(tǒng)的同時(shí)實(shí)現(xiàn)與智能建筑其他子系統(tǒng)的互聯(lián)。在后臺服務(wù)器中安裝數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺軟件、告警處理軟件、PUE計(jì)算軟件等,并開發(fā)與建筑設(shè)備監(jiān)控系統(tǒng)、安全防范系統(tǒng)、機(jī)房電源及環(huán)境監(jiān)控系統(tǒng)、火災(zāi)自動報(bào)警系統(tǒng)、電力監(jiān)控及能源管理系統(tǒng)等相關(guān)系統(tǒng)的接口,實(shí)現(xiàn)各子系統(tǒng)數(shù)據(jù)統(tǒng)一采集。
二、設(shè)備配置
平臺包括2臺數(shù)據(jù)庫/應(yīng)用服務(wù)器、2臺接口服務(wù)器、1臺管理服務(wù)器。在監(jiān)控大廳設(shè)置監(jiān)控大屏和2臺DCIM系統(tǒng)監(jiān)控終端,滿足運(yùn)維管理人員對數(shù)據(jù)中心基礎(chǔ)設(shè)施管理的需求。
三、軟件平臺架構(gòu)及功能
數(shù)據(jù)中心管理系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì),為數(shù)據(jù)中心基礎(chǔ)設(shè)施管理提供整體解決方案,涵蓋監(jiān)控管理、能效管理、運(yùn)營管理、運(yùn)維管理。
(一)系統(tǒng)架構(gòu)
DCIM系統(tǒng)體系架構(gòu)分為:展示層、綜合管理層、采集層等。
DCIM平臺采用行業(yè)通用的基礎(chǔ)框架,支持分布式的數(shù)據(jù)管理與通信總線;在基礎(chǔ)框架之上提供應(yīng)用框架與WEB集成框架,提供各類的業(yè)務(wù)特性。同時(shí),DCIM平臺支持后臺的維護(hù)工程框架,便于用戶與服務(wù)人員進(jìn)行后臺維護(hù)、問題定位;并且開發(fā)平臺接口,通過標(biāo)準(zhǔn)的接口與第三方系統(tǒng)進(jìn)行對接。
(二)系統(tǒng)功能
1.總體要求
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)需保障軟件的可控性,減少軟件復(fù)雜程度,保障升級維護(hù)的工作效率和質(zhì)量。系統(tǒng)架構(gòu)采用模塊化設(shè)計(jì),利用松散耦合原則,減少軟件模塊間、功能分系統(tǒng)間的邏輯依賴,易于靈活、平穩(wěn)地?cái)U(kuò)展,滿足業(yè)務(wù)發(fā)展。
(1)擴(kuò)展性
功能模塊化:管理軟件采用模塊化設(shè)計(jì)思路,基于基礎(chǔ)平臺開發(fā)服務(wù),支持每個(gè)系統(tǒng)功能的獨(dú)立開發(fā)、測試、發(fā)布和升級。系統(tǒng)可以單獨(dú)添加功能以滿足業(yè)務(wù)發(fā)展需求。
水平擴(kuò)展:系統(tǒng)可在線擴(kuò)容,后續(xù)只需接入新增系統(tǒng)及設(shè)備,無需停止運(yùn)行的系統(tǒng)。
靈活部署:系統(tǒng)采用面向服務(wù)的體系結(jié)構(gòu)開發(fā)。所有主要服務(wù)都是獨(dú)立的,例如管理服務(wù)和數(shù)據(jù)服務(wù)等。從部署的角度來看,所有主要服務(wù)都可以部署在一臺服務(wù)器上,也可以部署在多個(gè)單獨(dú)的服務(wù)器上。
(2)集成性
系統(tǒng)提供南向和北向接口,北向可支持WebService(RESTful)、SNMP、FTP協(xié)議與上層管理系統(tǒng)進(jìn)行對接,南向可支持WebService(RESTful)、SNMP,Modbus,BACnet等協(xié)議與第三方子設(shè)備和子系統(tǒng)進(jìn)行對接,可以滿足不同場景的需求。
(3)安全性
數(shù)據(jù)中心管理系統(tǒng)采用高安全設(shè)計(jì),著重對操作系統(tǒng)、數(shù)據(jù)庫、管理軟件進(jìn)行加固,可有效防御竊聽、偽造、篡改、越權(quán)訪問、病毒、網(wǎng)絡(luò)入侵等危害動作,避免管理系統(tǒng)服務(wù)器成為用戶網(wǎng)絡(luò)中的安全短板。
2.功能要求
包括集中監(jiān)控、告警管理、數(shù)字化基礎(chǔ)設(shè)施運(yùn)維管理、固定資產(chǎn)管理、容量管理、能耗管理、系統(tǒng)運(yùn)行狀態(tài)自檢測、數(shù)字化可視等功能。
(1)集中監(jiān)控
數(shù)據(jù)中心基礎(chǔ)設(shè)施中常見設(shè)備包括動力設(shè)備、環(huán)境傳感器和安防設(shè)備等,數(shù)據(jù)中心管理系統(tǒng)支持各種標(biāo)準(zhǔn)協(xié)議,可適配各類智能設(shè)備,靈活適應(yīng)不同管理場景。
DCIM提供數(shù)據(jù)中心集中監(jiān)控功能,結(jié)合設(shè)備告警對業(yè)務(wù)的影響程度、緊迫程度進(jìn)行分級,將告警信息分級,并通過不同的顏色進(jìn)行區(qū)分統(tǒng)計(jì)。系統(tǒng)支持告警的閾值、級別設(shè)定,支持告警查詢、短信及微信發(fā)送、確認(rèn)、反確認(rèn)功能、告警屏蔽和告警關(guān)聯(lián)等功能。
本系統(tǒng)能夠收集與展示各個(gè)子系統(tǒng)的告警信息,通過多維度分析對不同的告警信息進(jìn)行反饋。根據(jù)告警嚴(yán)重程度,對告警級別進(jìn)行劃分,與各子系統(tǒng)對告警級別的定義保持一致。系統(tǒng)可支持查看當(dāng)前告警、歷史告警、被屏蔽告警等,通過設(shè)定好的過濾條件或用戶自定義的過濾條件對告警進(jìn)行查詢顯示。通過點(diǎn)擊告警列表的告警名稱能夠顯示該條告警的告警詳情。
支持短信告警、郵件告警、電話語音告警、現(xiàn)場聲音提示;系統(tǒng)可提供短信推送、郵件推送、微信告警、電話語音推送和現(xiàn)場聲音提示等告警通知方式,且支持用戶自定義推送規(guī)則。
系統(tǒng)可設(shè)置屏蔽規(guī)則、告警通知規(guī)則和告警閾值等,屏蔽待產(chǎn)生或不關(guān)注的告警。另外,為了方便運(yùn)維人員維護(hù)自己關(guān)注的業(yè)務(wù)范圍,也可通過自定義告警名稱、告警規(guī)則,便于快速查看和處理其所關(guān)注的設(shè)備關(guān)鍵告警信息,從而提高優(yōu)質(zhì)的業(yè)務(wù)保障。
一般數(shù)據(jù)中心會因某一設(shè)備故障而導(dǎo)致鏈路下游設(shè)備產(chǎn)生衍生告警,由此而產(chǎn)生海量的告警,不僅會耗費(fèi)維護(hù)人員大量的排查時(shí)間,還可能會影響處理緊急告警的及時(shí)性和準(zhǔn)確性。因此,DCIM提供了告警原因分析功能。
通過分析數(shù)據(jù)中心的供電、暖通架構(gòu),根據(jù)鏈路設(shè)備上告警的出現(xiàn)時(shí)間、鏈路邏輯等因素,快速定位告警源,自動屏蔽掉設(shè)備衍生告警,提升告警處理效率。
(2)數(shù)字化基礎(chǔ)設(shè)施運(yùn)維管理
針對數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)備,管理系統(tǒng)支持設(shè)備維護(hù)保養(yǎng)管理,可以主動管控?cái)?shù)據(jù)中心維保提供商的例行維保動作,提升設(shè)備維保的過程質(zhì)量,保障數(shù)據(jù)中心的可靠運(yùn)行。
系統(tǒng)支持人員參與排班管理,提供人員交接班日志,保障運(yùn)維人員的值班、交班的規(guī)范性,人員職責(zé)清晰,各項(xiàng)運(yùn)維活動的責(zé)任到人。
數(shù)據(jù)中心運(yùn)維人員定期對機(jī)房進(jìn)行巡檢,檢查機(jī)房安防、消防、空調(diào)、配電等是否正常,機(jī)房有無異味等內(nèi)容,目前使用紙質(zhì)表格對巡檢項(xiàng)打鉤或叉,以及相關(guān)備注。紙質(zhì)巡檢不方便查閱,很難做出分析統(tǒng)計(jì)。
系統(tǒng)提供巡檢模板庫,支持用戶自定義巡檢項(xiàng)、巡檢模板。巡檢模板由數(shù)個(gè)巡檢項(xiàng)組成,可以支持用戶增加、減少和修改巡檢項(xiàng)。提供常用巡檢項(xiàng)條目。系統(tǒng)提供巡檢任務(wù)管理,管理員可根據(jù)巡檢模板來設(shè)計(jì)巡檢任務(wù)名稱、巡檢內(nèi)容、巡檢路線、巡檢頻次等,創(chuàng)建巡檢計(jì)劃,并通過巡檢任務(wù)單的方式下發(fā)給巡檢工程師。
系統(tǒng)支持運(yùn)維人員在移動APP的輔助之下進(jìn)行機(jī)房日常巡檢,提升巡檢效率與質(zhì)量,在終端上查看數(shù)據(jù)中心資產(chǎn)信息,可通過數(shù)據(jù)中心、機(jī)房名稱、設(shè)備類型、廠商和型號等條件進(jìn)行查詢,并支持對接U位資產(chǎn)監(jiān)測設(shè)備,可實(shí)現(xiàn)資產(chǎn)設(shè)備的標(biāo)簽綁定和核對。可在終端App上查看相關(guān)信息。通過手機(jī)移動端可以支持查看數(shù)據(jù)中心整體情況統(tǒng)計(jì)分析數(shù)據(jù),包括告警分析、能耗分析、資產(chǎn)分析等。如告警等級分布、當(dāng)日耗電量統(tǒng)計(jì)、PUE、能耗分布、月度耗電量變化、PUE變化趨勢和資產(chǎn)數(shù)量統(tǒng)計(jì)等。巡檢人員在巡檢過程中,發(fā)現(xiàn)的巡檢結(jié)果不在設(shè)置的范圍內(nèi)時(shí),系統(tǒng)會通過紅色高亮圖標(biāo)和文字顯示異常風(fēng)險(xiǎn),并提示創(chuàng)建風(fēng)險(xiǎn)工單。對于巡檢過程中發(fā)現(xiàn)的暫時(shí)無法處理的問題,需進(jìn)行工單錄入,點(diǎn)擊創(chuàng)建風(fēng)險(xiǎn)工單會自動轉(zhuǎn)至風(fēng)險(xiǎn)工單創(chuàng)建頁面,系統(tǒng)將自動填充風(fēng)險(xiǎn)工單的主體對象。經(jīng)運(yùn)維工程師審核后,關(guān)聯(lián)至風(fēng)險(xiǎn)管理模塊,自動生成風(fēng)險(xiǎn)單。
系統(tǒng)支持運(yùn)維流程管理,參考ITIL管理機(jī)制與自有數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn)總結(jié),提供了問題、事件、變更管理,靈活匹配數(shù)據(jù)中心運(yùn)維場景,幫助運(yùn)維人員實(shí)現(xiàn)運(yùn)維活動的過程標(biāo)準(zhǔn)化、規(guī)范化。
系統(tǒng)提供完善的運(yùn)維知識庫,供運(yùn)維人員在日常運(yùn)維過程中完成運(yùn)維知識的積累和有效傳遞,其使用過程中不僅可有效指導(dǎo)運(yùn)維動作,更可激勵運(yùn)維人員共享自己的運(yùn)維經(jīng)驗(yàn)。借助運(yùn)維知識庫,運(yùn)維團(tuán)隊(duì)可以有效積累運(yùn)維經(jīng)驗(yàn),實(shí)現(xiàn)運(yùn)維團(tuán)隊(duì)的“傳、幫、帶”,實(shí)現(xiàn)運(yùn)維經(jīng)驗(yàn)的傳承。知識庫支持對設(shè)備隱患分析、故障經(jīng)驗(yàn)、技術(shù)規(guī)范、廠家資料、技術(shù)專家等內(nèi)容進(jìn)行收集、分類、保存和共享,有利于知識分享和經(jīng)驗(yàn)交流。同時(shí)支持自定義知識庫創(chuàng)建、知識庫審批等功能。
(3)固定資產(chǎn)管理
數(shù)據(jù)中心基礎(chǔ)設(shè)施及IT設(shè)備資產(chǎn)信息的全生命周期管理,可快速查詢和定位設(shè)備資產(chǎn)屬性、在線狀態(tài)、安裝位置。同時(shí),將資產(chǎn)信息與維護(hù)信息相關(guān)聯(lián),可統(tǒng)計(jì)設(shè)備資產(chǎn)的維保周期和生命周期,以便客戶及時(shí)做出相應(yīng)的變更或采購計(jì)劃。實(shí)現(xiàn)設(shè)備資產(chǎn)的全生命周期管理,實(shí)現(xiàn)對資產(chǎn)的狀態(tài)全程跟蹤。通過建立資產(chǎn)臺賬,實(shí)現(xiàn)數(shù)據(jù)中心IT機(jī)架內(nèi)或庫房中的資產(chǎn)集中管理。支持創(chuàng)建、跟蹤、關(guān)閉資產(chǎn)盤點(diǎn)任務(wù),輸出資產(chǎn)盤點(diǎn)報(bào)告。管理系統(tǒng)支持庫房資產(chǎn)管理,對庫房中的設(shè)備、備品備件、耗材和工具等進(jìn)行管理,可以實(shí)現(xiàn)資產(chǎn)的入庫流程、出庫流程和領(lǐng)用流程管理。
(4)能耗管理
系統(tǒng)通過對能耗數(shù)據(jù)分析處理,提供PUE數(shù)據(jù),為數(shù)據(jù)中心運(yùn)維管理者提供數(shù)據(jù)參考。系統(tǒng)提供多維度(時(shí)間維度:年、季、月、日;空間維度:數(shù)據(jù)中心、機(jī)樓、機(jī)房;子系統(tǒng)及設(shè)備維度)的數(shù)據(jù)統(tǒng)計(jì),清晰展示數(shù)據(jù)中心能耗分布,實(shí)時(shí)展示各設(shè)備及子系統(tǒng)能耗使用情況。支持從空間、子系統(tǒng)、設(shè)備等角度,展示數(shù)據(jù)中心能耗使用情況。能效管理頁面指標(biāo)包括:日累計(jì)能耗、月累計(jì)能耗、年累計(jì)能耗,包括分布餅圖、總能耗、IT能耗、制冷能耗、包括COP值、制冷量、冷機(jī)負(fù)載均值、室外濕球溫度,包括UPS設(shè)備總數(shù),不同負(fù)載率下UPS設(shè)備數(shù)量、月度實(shí)際用能、月度計(jì)劃用能指標(biāo)等。系統(tǒng)提供PUE指標(biāo)預(yù)警閾值管理功能,可以設(shè)置PUE的告警預(yù)警值范圍和告警恢復(fù)范圍。系統(tǒng)支持能耗報(bào)表的查詢,支持對不同的管理域?qū)蛹夁M(jìn)行能耗查詢,可以通過自定義報(bào)表方式查詢能效相關(guān)監(jiān)控指標(biāo),支持報(bào)表算法規(guī)則的配置和報(bào)表的展示方式選擇。
(5)系統(tǒng)運(yùn)行狀態(tài)自檢測
系統(tǒng)實(shí)時(shí)對自身運(yùn)行情況進(jìn)行監(jiān)測,對系統(tǒng)運(yùn)行問題進(jìn)行自動修復(fù)。系統(tǒng)提供了基于數(shù)據(jù)庫的日志功能,以實(shí)現(xiàn)對機(jī)房人員操作、事件告警的跟蹤管理。日志不可被任何人修改,系統(tǒng)支持根據(jù)條件查詢?nèi)罩荆⒉樵兊娜罩玖斜韺?dǎo)出打印。日志包括安全日志、系統(tǒng)日志和操作日志。
(6)數(shù)字化可視
數(shù)據(jù)中心管理系統(tǒng)通過數(shù)字化的方式,使環(huán)境的管理更加直觀、立體,增強(qiáng)了軟件互動性,幫助客戶一目了然地看到數(shù)據(jù)中心機(jī)房的周邊環(huán)境情況。
作者單位:王振宇 中鐵第五勘察設(shè)計(jì)院集團(tuán)有限公司
參" 考" 文" 獻(xiàn)
[1]工業(yè)和信息化部《新型數(shù)據(jù)中心發(fā)展三年行動計(jì)劃(2021-2023年)》的通知.
王振宇(1991.03-),男,漢族,山西保德,工程師,研究方向:鐵路通信、信息。