徐友恒
(新疆油田公司數(shù)據公司,新疆 克拉瑪依 834000)
我國信息技術經過快速發(fā)展,在各行各業(yè)中有著重要應用。例如,大數(shù)據、云計算、區(qū)域鏈、人工智能和物聯(lián)網等新技術在人們生產生活中的應用越來越廣泛。這些新技術的應用極大地推動了社會發(fā)展,而在此過程中,數(shù)據中心是不可或缺的。因此,數(shù)據中心的數(shù)量越來越多,規(guī)模也越來越大。這就對數(shù)據中心的運營和機房基礎設施的運維管理提出了更高的要求。因此,提高數(shù)據中心運營水平非常重要?;诖耍疚膶?shù)據中心一體化智能運維管理平臺的建設進行了研究。
隨著數(shù)據中心不斷發(fā)展,其運維管理技術也在不斷發(fā)展。通過研究,其發(fā)展可以分為三個階段,分別是被動運維階段、主動運維階段和智慧運維階段,具體分析如下:①被動運維階段。在這一階段,運維管理的流程還沒有完全建立,相關技術手段還不成熟,主要通過人工現(xiàn)場巡檢的方式對數(shù)據中心機房進行檢查,通過手工對機房和設備的信息進行記錄。②主動運維階段。在這一階段,相關工作人員針對供配電、制冷、不間斷電源和空調等配備了遙測、遙控模塊,建立了集中式遠程監(jiān)控平臺以及事件、應急和變更等標準管理流程,使運維體系不斷完善,運維管理水平不斷提高,平臺化、可視化和流程化的管理也得以實現(xiàn)。當前我國數(shù)據中心的運維管理基本上處于這一階段。③智慧運維階段。在這一階段,物聯(lián)網、大數(shù)據和智能技術等的應用實現(xiàn)了人、技術、流程和數(shù)據四要素的有機融合,此階段的數(shù)據中心運維管理特點是自動化和智能化。
在實際應用中,數(shù)據中心機房的作用是非常重要的,其需要承擔很多功能,包括數(shù)據存儲、業(yè)務系統(tǒng)計算以及網絡通信等。因此,保證機房基礎設備安全、穩(wěn)定運行是非常重要的,直接影響了業(yè)務系統(tǒng)能否穩(wěn)定、持續(xù)運行。隨著大數(shù)據、物聯(lián)網和云計算等技術的快速發(fā)展和應用,數(shù)據中心的計算量、存儲量和帶寬需求都得到了明顯提升[1]。在這樣的背景下,數(shù)據中心的體量不斷增大,機房設備數(shù)量不斷增加,這加大了數(shù)據中心運維管理的難度,并對監(jiān)控巡視、故障發(fā)現(xiàn)和處置等都提出了更高的要求。此外,由于城市不斷發(fā)展、城市內的運營成本不斷提高,同時城市規(guī)劃對數(shù)據中心運行等造成限制,當前大數(shù)據中心朝著中西部地區(qū)遷移,而這些地區(qū)缺乏機房基礎設施運行維護方面的高級人才,這給數(shù)據中心的運維管理工作增加了難度。在這樣的背景下,相關工作人員通過應用智能化技術來提高運維管理的智能化、自動化水平就顯得尤為重要。此方法不僅可以提高數(shù)據源中心的運維管理效率,更好地保證其正常運行,還可以降低數(shù)據中心的運營成本。
隨著信息化技術不斷發(fā)展以及企業(yè)的信息化建設不斷開展,數(shù)據中心基礎設施運維管理方面的疏漏也在不斷擴大,影響了信息化系統(tǒng)的正常運行,主要體現(xiàn)在以下兩個方面。①系統(tǒng)日趨復雜化,管理效率較低。由于機房對冷量和功率的需求是不斷變化的,而采用人工測量和感知的方式是無法準確了解這一變化的,這就導致不能及時根據出現(xiàn)的變化對系統(tǒng)進行調整,進而導致管理效率較低。②高密度地向電源和制冷系統(tǒng)施壓,影響其可用性。當前,數(shù)據中心普遍采用高密度能耗架,這個設施需要對電源和制冷資源進行良好配置。為了滿足其要求,運維管理人員需充分了解布局,提高容量的利用效率。面對如此復雜的形勢,單純依靠人工手段就很難做好運行維護工作。當出現(xiàn)過載的情況時,設施很難實現(xiàn)提前預警,不能很好地保證數(shù)據中心安全運行。
數(shù)據中心智能化運維管理應滿足以下幾方面需求。①可用性要求。在機房內應有備用電力、空調設施。當電力或者空調設施出現(xiàn)故障后,備用電力、空調設施會自動運行,保證機房能夠保持正常運轉。②安全性要求。在出現(xiàn)火災等突發(fā)的安全事件后,系統(tǒng)可以對這些問題進行準確判斷,并且能夠自動報警,采取可以實行的應急措施,將安全問題造成的影響降到最低,保證機房運行安全。③經濟性要求。企業(yè)經營的最終目的是營利。因此,保證機房運行的經濟性能是非常重要的,這就需要降低能源的損耗,要求數(shù)據中心的智能運維管理系統(tǒng)能夠根據環(huán)境溫度對制冷機組的運行方式進行智能調節(jié),根據熱點區(qū)域對出風大小進行智能調節(jié)以及對照明系統(tǒng)進行智能調節(jié),降低能耗。④無人化要求。對智能化管理而言,需要盡可能降低人員的使用量。企業(yè)可通過機器實現(xiàn)對機房的管理,通過智能化的管理防止人為失誤造成的影響,同時降低運維管理人員的勞動強度[2]。
一體化智能運維管理平臺集成了多種系統(tǒng),包括監(jiān)控、巡檢、自動作業(yè)和服務管理等,其通過人工智能技術來對這些系統(tǒng)進行控制,從而實現(xiàn)對機房運行情況的分析、對故障的預警,還具有自動操縱、排除故障隱患的功能。在運行過程中,該平臺能夠將監(jiān)控系統(tǒng)、巡檢系統(tǒng)、運維服務系統(tǒng)以及自動化作業(yè)系統(tǒng)等信息收集起來,對這些信息進行集中存儲和分析,然后可通過大數(shù)據技術來分析、處理數(shù)據,對系統(tǒng)運行情況進行預判,并基于分析的結果對各系統(tǒng)的運行進行調整或者發(fā)出警報。各系統(tǒng)和運行平臺之間的關系如圖1所示。

圖1 智能運維管理平臺與機房各系統(tǒng)的關系
運維管理平臺的主要結構有管理層、通信層和設備層。其中,系統(tǒng)設備層的主要功能是實現(xiàn)設備信號的產生以及操控,而設備主要是各種傳感器、控制器以及儀器儀表等,其在工作過程中的功能是采集相關信號以及按照系統(tǒng)的指令進行系統(tǒng)操控;系統(tǒng)的中間層是通信層,主要用于統(tǒng)一不同機房設備的接口信號、通信協(xié)議和數(shù)據格式,起到信息傳遞的作用。系統(tǒng)的上層部分是管理層,這是平臺最為核心的部分,設備層收集到的機房基礎設施運行的各種信息都會被集中到管理層,并進行存儲、處理和展現(xiàn)[3]。在這一層中,相關工作人員可通過大數(shù)據技術和智能技術等對收集到的數(shù)據進行分析,并根據分析結果來判斷數(shù)據中心運行情況,采取針對性的措施進行處理。除了上述功能,平臺還具有人機交互功能,實現(xiàn)人機交互數(shù)據的分析、處理和應用,同時還支持編程建模,這樣智能平臺可以隨著智能化技術不斷發(fā)展而升級,不斷提高系統(tǒng)智能化程度。
以“局部熱點”事件為例,機器人通過學習建模,將引發(fā)機房內局部溫度上升的火災、空調系統(tǒng)和IT 系統(tǒng)等相關要素特征化?;谶@些信息,機器人可以判斷各參數(shù)和溫度上升之間的關系,并根據這些關系建立數(shù)學模型[4]。在實際的運行過程中,若出現(xiàn)了上述熱點事件,機器人將獲取的各要素數(shù)據與歷史數(shù)據進行比對,驗證系統(tǒng)出現(xiàn)的問題,并對事件的起因進行分析,啟動控制程序對事件進行控制。在整個控制過程中,機器人會對該熱點事件進行持續(xù)性偵察,根據實時結果來決定下一步措施,直至熱點事件消失。
數(shù)據中心的大部分運維工作都是重復性的,包括設備的定時開關機、系統(tǒng)日志的審查和審計以及數(shù)據的備份和恢復測試等。對于這些工作中的大部分工作內容,智能機器人都可以通過遠程操作完成,這樣不僅效率更高,還可以有效降低錯誤率,提高運維工作的質量。在大型數(shù)據中心機房的運維管理工作中,巡檢的工作量比較大,比較容易出現(xiàn)漏檢問題,而通過智能機器人巡檢的方式代替人工巡檢,可以有效解決這方面的問題。智能巡檢機器人應用了很多先進技術,包括機器視覺、自動跟隨、激光雷達導航、遠紅外熱成像以及多傳感融合等?;谶@些先進技術,可以實現(xiàn)對數(shù)據機房內的設備和環(huán)境的不間斷巡檢,包括報警指示燈、溫度、噪聲、異味以及儀表讀數(shù)等[5]。一旦出現(xiàn)問題,工作人員可以迅速報警,從而實現(xiàn)故障的快速排除。
數(shù)據中心具有非常重要的作用,做好其運維工作十分重要。智能技術的發(fā)展為提高數(shù)據中心運維工作提供了新的技術支持。通過應用智能化技術,相關工作人員可以構建出一體化智能運維平臺,從而有效提高數(shù)據中心的運維水平。通過應用這一平臺,能夠更加高效地對數(shù)據中心進行管理,保證數(shù)據中心安全、穩(wěn)定運行,同時有效降低運維成本。因此,未來一體化智能運維平臺在數(shù)據中心運維中會有越來越廣泛的應用。