蔡幸波, 祝可穎
(浙江德塔森特?cái)?shù)據(jù)技術(shù)有限公司,寧波 315000)
隨著數(shù)字新基建的啟動(dòng),以及5G和邊緣云技術(shù)的普及,智能微型數(shù)據(jù)機(jī)房建設(shè)數(shù)量日益增長(zhǎng),大量數(shù)據(jù)機(jī)房處于二十四小時(shí)不間斷運(yùn)行狀態(tài)。通過(guò)對(duì)智能微型數(shù)據(jù)機(jī)房需求的調(diào)查,筆者發(fā)現(xiàn),數(shù)據(jù)機(jī)房建設(shè)地理位置較為分散,有些分散建設(shè)在城市各棟大樓中,還有些建設(shè)在海島、高山等偏遠(yuǎn)地帶,存在數(shù)量大、規(guī)模小、地遠(yuǎn)分散、人員管理不便等情況,造成機(jī)房運(yùn)維人力成本高、管理困難、安全性低等問(wèn)題。智能微型數(shù)據(jù)機(jī)房邊緣云綜合監(jiān)控系統(tǒng)能夠提高機(jī)房的管理效率,減少運(yùn)維費(fèi)用,使機(jī)房運(yùn)行更安全高效。因此,構(gòu)建一套完整的智能微型數(shù)據(jù)機(jī)房邊緣云綜合監(jiān)控系統(tǒng)(以下簡(jiǎn)稱“綜合監(jiān)控系統(tǒng)”)是十分有意義的。
綜合監(jiān)控系統(tǒng)設(shè)計(jì)是計(jì)算機(jī)技術(shù)、通信技術(shù)、自動(dòng)化技術(shù)、人工智能技術(shù)的融合。管理人員可遠(yuǎn)程對(duì)機(jī)房設(shè)備進(jìn)行監(jiān)測(cè)、控制和管理,實(shí)現(xiàn)對(duì)機(jī)房高效便捷的運(yùn)維。綜合監(jiān)控系統(tǒng)自身具備高可靠性和智能處置能力,遇到機(jī)房故障自主采取及時(shí)有效地處理,方便機(jī)房管理人員留有充足時(shí)間趕到現(xiàn)場(chǎng)更換設(shè)備進(jìn)行維護(hù)。2020年國(guó)家標(biāo)準(zhǔn)GB/T 51409-2020 《數(shù)據(jù)中心綜合監(jiān)控系統(tǒng)工程技術(shù)標(biāo)準(zhǔn)》發(fā)布,因此綜合監(jiān)控系統(tǒng)的設(shè)計(jì)在遵循國(guó)家相關(guān)標(biāo)準(zhǔn)的基礎(chǔ)上,更注重突出智能微型數(shù)據(jù)機(jī)房分布式、無(wú)人值守、邊緣云運(yùn)維的需求特性。
綜合監(jiān)控系統(tǒng)采用模塊化設(shè)計(jì),實(shí)現(xiàn)了模塊的獨(dú)立性,達(dá)到了快速部署、降低運(yùn)維成本的目的。系統(tǒng)各模塊設(shè)計(jì)雙活互備同時(shí)具備健康監(jiān)控功能,實(shí)現(xiàn)了系統(tǒng)的高可靠性,能夠在降低成本的同時(shí),實(shí)時(shí)保障監(jiān)控系統(tǒng)穩(wěn)定高效地運(yùn)行。通過(guò)遙測(cè)、遙信、遙控、遙調(diào)和實(shí)時(shí)報(bào)警管理,實(shí)現(xiàn)對(duì)機(jī)房供配電模塊、冷量模塊、安防模塊等基礎(chǔ)設(shè)施運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控并記錄歷史數(shù)據(jù),通過(guò)IT設(shè)備的SNMP協(xié)議和IPMI接口,實(shí)現(xiàn)機(jī)房IT設(shè)備的參數(shù)查看、工作性能跟蹤和日志分析等功能。通過(guò)遠(yuǎn)程集中監(jiān)控技術(shù),結(jié)合智能聯(lián)動(dòng)參數(shù)配置,使設(shè)備智能化,遇到設(shè)備故障,系統(tǒng)能夠在第一時(shí)間做出基本判斷并處理,減少故障損失。
綜合監(jiān)控系統(tǒng)由機(jī)房監(jiān)控系統(tǒng)和邊緣云平臺(tái)兩大系統(tǒng)構(gòu)成,前者由數(shù)據(jù)采集模塊和智能管控模塊兩部分組成,后者由數(shù)據(jù)傳輸模塊、動(dòng)環(huán)監(jiān)控模塊、IT設(shè)備監(jiān)控模塊、3D可視化監(jiān)控模塊和數(shù)字化運(yùn)維模塊五部分組成。綜合監(jiān)控系統(tǒng)由多個(gè)單點(diǎn)機(jī)房監(jiān)控系統(tǒng)構(gòu)成并分布式部署,圖1所示為系統(tǒng)組成示意圖。

圖1 邊緣云平臺(tái)綜合監(jiān)控系統(tǒng)示意圖
整體系統(tǒng)具備如下特點(diǎn)。
(1)部署方便,運(yùn)維成本低:系統(tǒng)整體采用模塊化設(shè)計(jì),降低了系統(tǒng)的復(fù)雜程度,每個(gè)設(shè)備可作為單獨(dú)的模塊,系統(tǒng)整體可上機(jī)架安裝,僅需占用機(jī)柜1U高的空間,可簡(jiǎn)化系統(tǒng)調(diào)試,方便設(shè)備實(shí)施安裝及維護(hù)拆卸,從而減少人工費(fèi)用,降低了運(yùn)維成本。
(2)安全可靠性高:系統(tǒng)軟硬件采用模塊雙活互備實(shí)現(xiàn)了高可靠性,當(dāng)任一模塊的服務(wù)停止時(shí),由另一模塊接管,以保證機(jī)房監(jiān)控服務(wù)的正常運(yùn)行。系統(tǒng)對(duì)機(jī)房設(shè)備運(yùn)行異常實(shí)時(shí)檢測(cè),遇到故障迅速告警且對(duì)基礎(chǔ)故障進(jìn)行智能判斷處置,確保機(jī)房健康穩(wěn)定高效運(yùn)行。
(3)管理高效率:系統(tǒng)通過(guò)遠(yuǎn)程集中監(jiān)控、3D可視化管理和數(shù)字化運(yùn)維,實(shí)現(xiàn)邊緣云平臺(tái)智能集中管控,實(shí)時(shí)監(jiān)測(cè)整個(gè)數(shù)據(jù)中心機(jī)房的運(yùn)行狀況、智能事件記錄和聲光語(yǔ)音報(bào)警,簡(jiǎn)化機(jī)房管理人員的維護(hù)工作。
智能微型數(shù)據(jù)機(jī)房數(shù)量眾多且區(qū)域分散,設(shè)計(jì)要求機(jī)房監(jiān)控系統(tǒng)安裝維護(hù)方便,系統(tǒng)可靠性高,具有機(jī)房異常智能聯(lián)動(dòng)處置能力,滿足機(jī)房無(wú)人值守需求。
機(jī)房監(jiān)控系統(tǒng)硬件采用一體化控制板設(shè)計(jì),數(shù)據(jù)采集模塊和智能管控模塊的硬件設(shè)備設(shè)計(jì)在一塊PCB板上,以簡(jiǎn)化配件安裝,減少連接線,提高硬件設(shè)備的可靠性。硬件系統(tǒng)的CPU選用工業(yè)級(jí)ARM處理器,操作系統(tǒng)選用成熟的開(kāi)源操作系統(tǒng)或符合國(guó)家安全認(rèn)可的操作系統(tǒng),如烏班圖系統(tǒng)或麒麟系統(tǒng)。系統(tǒng)具有雙電源輸入,控制板設(shè)計(jì)雙網(wǎng)口,內(nèi)置短信電話報(bào)警裝置。具體模塊設(shè)計(jì)如下。
(1)數(shù)據(jù)采集模塊設(shè)計(jì)
數(shù)據(jù)采集模塊的軟硬件設(shè)計(jì)都需考慮冗余特效,以保證系統(tǒng)的可靠性。在硬件端口設(shè)計(jì)時(shí),可采用多個(gè)RS232、RS485以及DI信號(hào)采集端口,2個(gè)標(biāo)準(zhǔn)以太網(wǎng)口,考慮工程接線通用性,端口全部采用標(biāo)準(zhǔn)RJ45接口。在軟件功能設(shè)計(jì)時(shí),數(shù)據(jù)采集模塊設(shè)計(jì)支持Modbus、SNMP、Web Service、BAC net、IPMI、OPC等多種標(biāo)準(zhǔn)化協(xié)議和接口。
通過(guò)Modbus和SNMP協(xié)議采集機(jī)房基礎(chǔ)設(shè)施的空調(diào)、配電、UPS、智能PDU、溫濕度、煙感、水浸等設(shè)備,同時(shí)可對(duì)空調(diào)、配電、UPS、智能PDU等設(shè)備進(jìn)行參數(shù)配置。通過(guò)SNMP協(xié)議和IPMI接口采集并管理服務(wù)器、交換機(jī)、存儲(chǔ)等IT設(shè)備。
采用Modbus RTU協(xié)議的多個(gè)采集設(shè)備可以設(shè)計(jì)成Bus總線方式與數(shù)據(jù)采集模塊連接在一起,以提高系統(tǒng)可靠性,也支持設(shè)計(jì)成環(huán)網(wǎng)方式與數(shù)據(jù)采集模塊連接。
(2)智能管控模塊設(shè)計(jì)
智能微型數(shù)據(jù)機(jī)房的智能化不僅僅體現(xiàn)在可通過(guò)Web端與手機(jī)App來(lái)控制設(shè)備,即軟件與設(shè)備之間的聯(lián)動(dòng),還可以在邊緣云集中監(jiān)控平臺(tái)設(shè)置告警聯(lián)動(dòng),實(shí)現(xiàn)設(shè)備與設(shè)備之間的智能聯(lián)動(dòng)。具體實(shí)現(xiàn)方式如下。
1)“軟件-設(shè)備”聯(lián)動(dòng):在保證軟件和設(shè)備已經(jīng)成功建立通訊的情況下,通過(guò)Web端或手機(jī)App上相應(yīng)的提示操作發(fā)送控制指令,系統(tǒng)軟件做出安全分析判斷后將獲取到的命令信息傳給設(shè)備做出相應(yīng)動(dòng)作。如當(dāng)冬夏季環(huán)境溫度變化,管理人員可以遠(yuǎn)程根據(jù)需要設(shè)置和關(guān)閉空調(diào)制冷。此外,在智能化安防方面,當(dāng)有人在門(mén)口呼叫時(shí),可以通過(guò)系統(tǒng)遠(yuǎn)程控制球機(jī)的轉(zhuǎn)動(dòng),以調(diào)整監(jiān)控視角,確認(rèn)人員后可在系統(tǒng)上遠(yuǎn)程控制門(mén)禁設(shè)備開(kāi)門(mén)。
2)“設(shè)備-設(shè)備”聯(lián)動(dòng):系統(tǒng)實(shí)時(shí)采集機(jī)房設(shè)備和環(huán)境的數(shù)據(jù),當(dāng)一項(xiàng)或多項(xiàng)監(jiān)控?cái)?shù)據(jù)達(dá)到預(yù)設(shè)的聯(lián)動(dòng)閥值時(shí),系統(tǒng)可以觸發(fā)反向控制命令,通過(guò)SNMP或Modbus協(xié)議經(jīng)數(shù)據(jù)采集連接線或?qū)S迷O(shè)備控制接口,向機(jī)房設(shè)備傳遞一個(gè)命令。如當(dāng)遇到雷電等異常天氣,可觸發(fā)系統(tǒng)上防雷設(shè)置的告警閾值,系統(tǒng)通過(guò)聯(lián)動(dòng)設(shè)置關(guān)閉受雷電影響的設(shè)備;當(dāng)空調(diào)異常時(shí),可觸發(fā)聯(lián)動(dòng)設(shè)置中的告警閾值,打開(kāi)應(yīng)急風(fēng)扇并關(guān)閉相關(guān)基礎(chǔ)設(shè)施和IT設(shè)備。
智能管控模塊設(shè)計(jì)的“軟件-設(shè)備”及“設(shè)備-設(shè)備”的智能聯(lián)動(dòng),實(shí)現(xiàn)了智能微型數(shù)據(jù)機(jī)房在無(wú)人值守的情況下,能夠第一時(shí)間處理機(jī)房的異常情況,減少機(jī)房的意外損失,極大地提高了機(jī)房的可靠性。
為進(jìn)一步提高監(jiān)控系統(tǒng)自身的可靠性,機(jī)房監(jiān)控系統(tǒng)采用雙活設(shè)計(jì),支持熱備方式部署,其設(shè)備連接網(wǎng)絡(luò)拓?fù)鋱D如圖2所示。

圖2 智能微型數(shù)據(jù)機(jī)房監(jiān)控拓?fù)鋱D
考慮Modbus等采集協(xié)議在同一時(shí)間點(diǎn)只支持一臺(tái)上位機(jī)采集數(shù)據(jù),設(shè)計(jì)兩臺(tái)互備的機(jī)房監(jiān)控系統(tǒng)做心跳檢測(cè)和工作時(shí)序控制,確保數(shù)據(jù)采集不會(huì)單點(diǎn)重入,當(dāng)單點(diǎn)出現(xiàn)故障時(shí),也不會(huì)遺漏任何時(shí)序的采集點(diǎn)數(shù)據(jù)。
納入邊緣云平臺(tái)集中監(jiān)控的機(jī)房節(jié)點(diǎn)數(shù)量較多,要求邊緣云平臺(tái)具備高可靠性、高可用性、高安全性。邊緣云平臺(tái)各功能模塊采用分布式多點(diǎn)冗余熱備設(shè)計(jì)(圖3),在達(dá)到數(shù)據(jù)中心監(jiān)控系統(tǒng)雙活設(shè)計(jì)目標(biāo)的同時(shí)具備負(fù)載均衡功能,以滿足邊緣云平臺(tái)幾十萬(wàn)機(jī)房監(jiān)控節(jié)點(diǎn)的高并發(fā)接入需求。

圖3 邊緣云平臺(tái)模塊分布式冗余結(jié)構(gòu)
邊緣云平臺(tái)需具備開(kāi)放性、易維護(hù)和可擴(kuò)展性,平臺(tái)設(shè)計(jì)采用微服務(wù)架構(gòu),各模塊間信息傳輸采用消息中間件。具體模塊設(shè)計(jì)如下。
(1)數(shù)據(jù)傳輸模塊和存儲(chǔ)設(shè)計(jì)
智能微型數(shù)據(jù)機(jī)房分布區(qū)域廣,網(wǎng)絡(luò)連接條件受限,存在部分機(jī)房節(jié)點(diǎn)短時(shí)間斷網(wǎng)的可能性,設(shè)計(jì)數(shù)據(jù)傳輸模塊有數(shù)據(jù)傳輸斷點(diǎn)補(bǔ)全功能。考慮智能微型數(shù)據(jù)機(jī)房在實(shí)際建設(shè)中往往在不同時(shí)間段分批次投入應(yīng)用,設(shè)計(jì)數(shù)據(jù)傳輸模塊能快捷規(guī)范對(duì)接機(jī)房節(jié)點(diǎn),后續(xù)機(jī)房節(jié)點(diǎn)加入平臺(tái)對(duì)系統(tǒng)整體集中監(jiān)控不產(chǎn)生影響。
設(shè)備監(jiān)控?cái)?shù)據(jù)實(shí)時(shí)采集處理后不再需要修改,設(shè)計(jì)采用時(shí)序數(shù)據(jù)庫(kù)存儲(chǔ)監(jiān)控?cái)?shù)據(jù)。系統(tǒng)平臺(tái)信息需要增/刪/改維護(hù)及高安全性,設(shè)計(jì)采用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)平臺(tái)信息數(shù)據(jù)。
(2)動(dòng)力環(huán)境監(jiān)控平臺(tái)設(shè)計(jì)
動(dòng)力環(huán)境監(jiān)控平臺(tái)會(huì)將UPS、供配電、精密空調(diào)、智能PDU、電磁閥、漏水、溫濕度、消防、門(mén)禁、視頻、防盜報(bào)警、蓄電池、新風(fēng)等子系統(tǒng)集成在一個(gè)動(dòng)力環(huán)境監(jiān)控平臺(tái)上進(jìn)行節(jié)能優(yōu)化、集中控制管理。不僅包括對(duì)智能微型數(shù)據(jù)機(jī)房的能耗數(shù)據(jù)監(jiān)測(cè)、統(tǒng)計(jì)和能效優(yōu)化建議,還提供優(yōu)化調(diào)節(jié)控制系統(tǒng),進(jìn)行有效的智能節(jié)能優(yōu)化控制。展示界面能清晰地展示當(dāng)前數(shù)據(jù)機(jī)房整體能耗狀況、PUE等關(guān)鍵能效指標(biāo),可實(shí)時(shí)顯示關(guān)鍵子系統(tǒng)的能效分布狀況,查詢?nèi)我鈺r(shí)段的能效歷史曲線。
監(jiān)控平臺(tái)設(shè)計(jì)3D仿真監(jiān)控功能,具備機(jī)房3D建模、設(shè)備和數(shù)據(jù)3D展示、在3D界面故障定位和自動(dòng)巡檢,支持在同一個(gè)瀏覽器窗口中查看機(jī)房、微模塊、機(jī)柜的3D視圖,可以真實(shí)展示UPS、空調(diào)等基礎(chǔ)設(shè)施設(shè)備安裝位置。
(3)IT設(shè)備監(jiān)控平臺(tái)設(shè)計(jì)
IT設(shè)備監(jiān)控平臺(tái)設(shè)計(jì)包括服務(wù)器設(shè)備系統(tǒng)、存儲(chǔ)設(shè)備系統(tǒng)、網(wǎng)絡(luò)拓?fù)湎到y(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、中間件系統(tǒng)等進(jìn)行實(shí)時(shí)監(jiān)控管理。以上各子系統(tǒng)集成在一個(gè)IT設(shè)備監(jiān)控平臺(tái)上進(jìn)行集中控制管理,滿足“集中監(jiān)控、集中維護(hù)、集中管理”,為用戶直接提供與應(yīng)用相關(guān)的集中監(jiān)測(cè)的能力、手段和工具。
IT設(shè)備監(jiān)控平臺(tái)實(shí)現(xiàn)對(duì)在各個(gè)機(jī)房運(yùn)行的服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)系統(tǒng)、設(shè)備以及安全系統(tǒng)等的監(jiān)測(cè)和管理:可以對(duì)IT運(yùn)維系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行遠(yuǎn)程配置,并能實(shí)時(shí)監(jiān)控各節(jié)點(diǎn)的性能狀態(tài),一旦出現(xiàn)故障便能自動(dòng)及時(shí)報(bào)警;能夠進(jìn)行高度的自動(dòng)化管理,盡量減少人為干預(yù),避免由于人員操作不當(dāng)引起的系統(tǒng)故障;幫助IT運(yùn)維系統(tǒng)管理人員采集、統(tǒng)計(jì)和分析來(lái)自網(wǎng)絡(luò)各方面的報(bào)警信息和故障信息,準(zhǔn)確預(yù)警、定位網(wǎng)絡(luò)中的故障,出現(xiàn)網(wǎng)絡(luò)故障時(shí)可以快速響應(yīng),同時(shí)為系統(tǒng)的長(zhǎng)期規(guī)劃提供統(tǒng)計(jì)依據(jù)。
(4)數(shù)字化運(yùn)維模塊設(shè)計(jì)
邊緣云平臺(tái)提供數(shù)字化運(yùn)維功能,對(duì)智能數(shù)據(jù)機(jī)房日常運(yùn)維活動(dòng)進(jìn)行智能化管理,設(shè)計(jì)功能包含:資產(chǎn)管理、電子巡檢、運(yùn)維知識(shí)庫(kù)等。
資產(chǎn)管理設(shè)計(jì)支持各類基礎(chǔ)設(shè)施及IT設(shè)備,包括機(jī)架、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備、UPS、PDU、空調(diào)等設(shè)備,并呈現(xiàn)一個(gè)資產(chǎn)統(tǒng)一視圖。系統(tǒng)支持全局的設(shè)備查找定位,可根據(jù)模糊條件進(jìn)行設(shè)備檢索。查詢條件支持基于設(shè)備名稱、設(shè)備型號(hào)、位置、序列號(hào)、條形碼、安裝日期等設(shè)備屬性。
電子巡檢設(shè)計(jì)支持移動(dòng)App巡檢功能,可在手機(jī)等移動(dòng)終端上處理機(jī)房巡檢等事項(xiàng);支持機(jī)房巡檢計(jì)劃制定與路線規(guī)劃;支持用戶設(shè)置巡檢任務(wù);支持生成機(jī)房巡檢類報(bào)表,并發(fā)送給相關(guān)人員。
運(yùn)維知識(shí)庫(kù)包括基礎(chǔ)設(shè)施和IT設(shè)備運(yùn)維知識(shí)庫(kù),大多數(shù)常見(jiàn)問(wèn)題及其解決方案都可以從知識(shí)庫(kù)中簡(jiǎn)單、方便獲取,提升工作效率,降低設(shè)施設(shè)備維護(hù)成本。系統(tǒng)關(guān)聯(lián)資產(chǎn)管理模塊中的設(shè)備分類,支持自定義設(shè)置各類設(shè)備標(biāo)準(zhǔn)操作內(nèi)容、操作步驟和安全注意事項(xiàng)。
