黃偉雄
(廣州地鐵集團有限公司,廣東廣州 510330)
目前,國家電網公司在其總部、各省市分公司的改組優化中都已構筑起了由數據中心、企業門戶、應用集成、數據交換等一體化的企業級信息集成平臺。從電力信息化處理系統本身出發來看,電力數據中心是一個非常重要的組成部分,其運行效率的高低和運行結果的好壞對整個電力系統的運行效率產生直接影響。促進電力數據中心的建立和不斷完善,不僅能有效促進已有電力系統在生產調度、資源分配、系統運行和維護方面的改變,更能實現管理的升級。
21 世紀以來,我國數據大集中的信息化建設規模在不斷擴大,其普及程度也越來越高,對于所有的社會行業來說,建設和完善數據中心是目前社會最主要的研究點和關注點,不僅數據的集中和統一,不僅能實現對電力企業的管理,并在最大程度上促進電力市場環境之下從發電、輸電到供電再到檢修等多層次多方面的基本管理與安全生產。與此同時,不僅數據中心的建立和完善,也能有效促進各項基礎數據的綜合利用水平與數據共享率的提升,幫助管理層及決策層深入分析企業的各項數據并及時處理,為企業的應用提供最基本的保障和較為可靠的服務,幫助企業提高電力系統整體的管理能力和水平。
相比于傳統的數據中心,基于云計算平臺的電力數據中心是以云計算平臺為基礎搭建起來的新型數據中心,其中采用的都是全新的、蘊含較多科學技術的智能挖掘分析和虛擬化技術以及大數據的處理系統。但是,在開始設計新的運維體系之前,必須對基于云計算的電力數據中心需要面向怎樣的運維對象進行明確及其需要滿足的相關要求。
(1)基礎設施。網絡、存儲、電力、環境調節、服務器、安全等設備共同組成了數據中心的硬件資源,其能為系統的計算、儲存、通信提供硬件實施平臺。要想確保系統運行安全、穩定,就必須對這些設備進行合理的維護和使用。
(2)數據與系統。操作系統、數據庫、中間件、應用程序、虛擬機等都是其中包括的軟件資源,而業務數據、系統運行產生的數據、日志、配置文件等都屬于數據的范疇。因為這些都屬于系統組成中的重要部件,屬于電力數據中心重要的邏輯載體,能促進系統內各項功能性需求的很好實現,因此,運維方式的合理程度能很好地保障系統整體功能的實效性與靈活性。
(3)管理工具。報表平臺、工作流管理平臺以及基礎設施設備的監控軟件等都屬于管理工具,它們能很好地幫助管理主體對數據中心內部各運行主體和對象的有效管控,促進管理程度向可視化發展的同時,提高數據中心的實用性和可靠性。
(4)環境設施。即電力、網絡、環境等各項確保數據中心管理設備運轉正常的資源。環境設施出現故障或問題,很可能使系統停運甚至崩潰,而某些依托于此項設施也會隨即停止運轉。
(5)工作人員。包含管理、技術、運維、廠商等所有與數據中心運行有關的人員。他們是管理對象,也是管理主體,對人員進行合理的安排和管理,能為系統提供最大程度的穩定服務,促進系統的正常運行。
圖1 是云平臺基礎上電力數據中心運維體系的組成框架。
圖1 云平臺基礎上電力數據中心運維體系的框架
按照相關標準和要求,平臺基礎上的電力數據中心首先需要具備較高的可用性,實現對設備故障的提前預測和及時預警,并能在故障情況下實現數據的實時轉移和設備替換;其次需要具備一定的可擴展性及可移植性;最后需要管理多種基礎設施和設備,幫助網絡設備有效提升其自身的穩定性和安全性。對分布式存儲系統而言,也需要滿足同樣的需求。
在建設電力數據中心的過程中,甚至建設工程開始之前,就需要完成硬件設施設備的虛擬化。當然,建立健全硬件設施設備的運維對象與運維信息,并以深度學習算法為基礎,可以在最大程度上實現系統對硬件設備、數據中心自檢測、監控等各項數據功能的自動采集,同時對設備的狀態和各項數據信息進行自動分析,從而對設備的運行效率和運行狀態進行有效判斷。
加強對資源的調節和有效監控,不僅能減少軟件崩潰的概率,還能為系統提供更可靠的服務。一般而言,建立軟件運維對象并不斷促進軟件的升級和模塊化,將運維對象的接口接入到模塊之中,是數據中心最基礎的作用,且也能實現對軟件輸出結果的有效和實時監控,然后再以國家標準和設計要求為基礎分析得到的結果,也能有效判斷輸出結果的最終狀態和準確性。除此之外,還需要對軟件本身的運行狀態與性能進行一定程度的分析,并不斷監控。只有通過采集處理器和系統內存各自的占用率并進行系統分析,才能以此對軟件運行的可靠程度進行準確判斷。
電力數據中心具有紛繁復雜、種類多樣的信息數據,而每一種數據對象的存儲格式又存在一定的差異,所以,針對不同的數據資源,數據監測的標準、要求也有不同的地方。如果電力數據中心的運維需要按照相關的標準和要求執行時,企業的管理層就需要將各種數據資源當成管理對象來進行適當的管理和對待,并以不同的數據要求和實際情況為基礎,借助閾值、校驗等方式對數據的可靠性進行判斷。如果出現數據錯誤,需要對相應的設備進行控制并完成數據的重新上傳,而且企業需要對每一份數據進行備份,以應對遭遇突發狀況時系統內數據的快速恢復,如果出現某些數據丟失的情況,便可以及時從備份數據中尋找并補充。
從某種程度上來說,電力數據中心的運維體系不僅能實現所有配置信息的有效融合,還能將其集合成一個完整的配置資源池,其能對新加入進來的設備進行自動檢測與分析,并在判斷設備類型的基礎上對設備進行合理選擇,調動或調整某些配置程序,從而實現對設備的最大利用和重新自動配置。積極對各種配置相適應的模型進行建立和不斷完善,并進行統一管理和實時更新,借助設備種類將其索引至不同配置程序的存儲地址。當然,也可以通過上層的管理平臺實現配置信息的收發,有條件的情況下還可以幫助完成配置的儲存和更改。
綜上所述,通過研究分析電力數據中心的自動運維體系,借助深度學習的算法對各項數據資源、各類軟硬件設備進行實時的監控,并幫助數據中心內部的管控平臺處理、下發各項管理指令給數據,與此同時,將運維對象在橫縱方向上進行相互連接,能實現數據中心的數據共享和資源動態分配。這樣不僅能實現自動管理資源的目標,也能在很大程度上滿足電力數據中心高效運維的目的和需求。