王喜升 王帥 張向陽 馬新彥 陽康
(1.中煤信息技術(北京)有限公司 北京市 100029)
(2.中國礦業大學(北京)機電與信息工程學院 北京市 100083)
當前,礦山智能化是現代工業發展的趨勢,是實現煤炭行業高質量發展的核心技術支撐。隨著云計算、大數據、5G 等技術的迅猛發展,煤炭行業與智能化技術的深度融合是煤炭行業現代化的必由之路。煤炭企業構建高可用云平臺的管理系統(以下簡稱云平臺管理系統)的需求越來越強烈。我國煤炭企業正逐漸向信息化和智能化發展,云平臺管理系統的部署具有以下優勢:有利于企業統一規劃和管理,推動企業高質量發展;有利于實時感知和分析井下多源信息,全方位保障井下生產的安全;有利于自動化獲取和監測,提高煤礦井下安全生產技術水平;有利于建立統一的數據標準,減小管理難度,節約運維成本。
煤炭企業在生產中所涉及到的信息量巨大且復雜,服務器故障將會給企業帶來不可估量的損失,因此保證信息管理系統和硬件設備的安全性和可靠性是煤炭企業信息化的首要任務。基于高可用集群技術的云平臺管理系統可以將任務分布至資源池中,完成煤炭企業的數據存儲和計算需求。因此,本文提出的云平臺管理系統能夠極大增強數據和信息的安全系數,提高企業工作效率,降低數據獲取、處理和分析的成本。
隨著云計算技術的興起,基于OpenStack 高可用集群在商業模式中的應用層出不窮。OpenStack 是近年來由各個組件模塊搭建的云計算技術開源平臺,其框架與高可用技術相結合即為高可用集群的云平臺。具體實現原理為:首先,在OpenStack 基礎框架之上將各個組件搭載高可用集群;然后,將硬件資源通過VFIO 接口連接至OpenStack 虛擬化基礎設施框架上;最后,按需求將硬件資源分配給各個虛擬機資源,每臺虛擬機都做若干份冗余備份,其中備份數量根據用戶自身需求設定,做到每個服務都達到高可用性,如圖1 所示。煤炭行業基于OpenStack 的高可用集群技術主要技術包括以下三個方面:

圖1:OpenStack 高可用集群
針對煤炭企業管理層對安全性、可靠性的需求,OpenStack HA 提供了非常適用且靈活高效的解決方案,其主要特點包括:IP 以及運行的服務能夠自動轉移;多臺服務器可以進行信息交換;同/異域災備系統以及計算/存儲能力強;多服務器實時數據備份。
Pacemaker 是集群資源管理器。該集群資源管理器通過Corosync 心跳監測機制對故障節點進行檢測,并能夠對故障情況迅速作出響應,使運行的服務遷移到另一備用節點上繼續進行工作。因此,當集群中任意一個工作節點發生故障時,Pacemaker 會最小程度的減小損失,實現節點和資源的故障檢測和資源的恢復,從而最大程度上保證集群服務的高可用性。主要工作流程如圖2 所示。Pacemaker 對用戶環境沒有特定的需求,所以煤炭企業可以使用Active/Active 雙活高可用集群來保證企業內所有服務平穩運行。

圖2:故障節點遷移
由于基于HAProxy 的負載均衡架構可以支撐數以萬計的并發連接,因此適用于數據傳輸量巨大且復雜的煤炭企業。這個系統旨在減小單一服務器的負載壓力,通常將工作負載到多個服務器來提高應用的性能和可靠性。
Keystone 是所有用戶與服務之間認證授權的機制,在OpenStack 集群中主要負責用戶身份驗證、服務目錄和身份令牌的管理功能,還參與了架構內部各服務之間的通信。圖3 為礦井管理用戶創建實例過程中Keystone 的響應流程,用戶首先向Keystone 發送身份信息,Keystone 接收后向用戶返回Token,之后用戶向Nova 發出帶有Token 的實例創建請求,Nova 接收后向Keystone 驗證Token 的有效性,被證實有效后,Nova 向Glance 發出帶有Token 的鏡像傳輸請求,Glance 再向Keystone 驗證有效性,成功后Glance 向Nova 提供鏡像目錄查詢和傳遞服務,獲得完鏡像后Nova 繼續向Neutron 以同樣的方式獲取網絡服務,之后虛擬機啟動成功,向用戶返回實例創建成功的響應。Keystone 是整個OpenStack 服務框架的注冊表。

圖3:Keystone 實例創建認證過程
Nova 的主要功能是對虛擬機進行管理并提供虛擬機運行需要的主要資源。在OpenStack 中,Nova 與各個服務之間都會進行相互訪問和交互,Nova 內部子服務之間的交互也很多,如圖4 的Nova 框架圖可以看出,Nova 是OpenStack框架的基石,能夠串聯各個組件從而完成OpenStack 的服務。隊列消息Queue 和數據包Nova datebase 與Nova 各個子組件進行交互;Nova 的各個組件與Glance、Neutron 等OpenStack 大組件之間也通過消息機制進行服務交互,為企業提供實例運行所需要的計算資源。

圖4:Nova 邏輯框架圖
Glance 的主要功能是查詢和獲取鏡像本身和鏡像的整體信息;注冊和上傳虛擬機鏡像,鏡像的創建、上傳、下載和管理,維護鏡像信息;支持多種方式的存儲鏡像。Glance 的查詢和使用主要是由客戶端發起,后端更多的是存儲,如圖5 的Glance 架構圖所示。

圖5:Glance 原理架構圖
Neutron 主要功能包括:提供面向租戶的API 接口,創建網絡、路由、負載均衡等,關聯虛擬機實例到指定的網絡和路由;通過API 管理交換機;提供插件架構支持多種平臺等。如圖6 所示,Neutron 通過插件和插件代理的組合來實現API 轉發來的網絡請求。

圖6:Neutron 功能實現架構圖
目前煤炭企業總體架構一般都是五個層次,即決策支持層、經營管理層、生產執行層、控制層和設備層。利用OpenStack 高可用集群將各層級系統進行統一規劃,使企業各個層面和部門之間的管理和協同工作更加方便、快捷、高效。在企業云計算數據中心搭建OpenStack 高可用框架,與井下煤塵傳感器、瓦斯傳感器、溫濕度傳感器設備接口連接實現數據的自動化獲取、傳輸、處理、分析和顯示,并做到數據采集的實時性和準確性。采集的數據在數據中心的數據資源池中實現高可用存儲,保障數據的安全性。上述信息化云平臺煤炭企業總體架構如圖7 所示。

圖7:信息化云平臺煤炭企業總體應用架構
煤炭企業在井下的生產過程復雜,有多種生產環節如一通三防、皮帶運輸、安全監控系統、視頻監視、產量監測等,這些系統都是正常井下作業必不可少的。為了保障礦井安全生產,各個子系統都必須正常運行。這就要求各類系統能平穩的提供服務,不能讓個別系統出現故障使井下作業中止。為了保證系統都可以平穩運行,引入高可用集群技術。若干個節點服務器組成服務群設備,該群體對外表現為一個服務實體,當正在運行的單一節點(服務器)發生故障,服務會自動切換到備用的節點,盡量避免單個服務器發生故障引起作業的中止,解決了單節點發生故障引起的整個系統癱瘓的問題。為高效、靈活、安全的井下作業提供了輔助性的保障。
目前各層級系統的系統都是獨立的,系統的接口不統一,尤其是設備層的多種檢測系統。在現有的煤炭總體架構上加上OpenStack 高可用云數據中心如圖3 所示,統一各層級、各部門的網絡接口協議,全部連接到云數據中心,這樣部門之間橫向的信息傳輸更流暢,使生產管理決策的效率提升。
隨著云平臺、虛擬化技術的成熟,在云平臺管理系統的建設中要考慮容災體系的建設。按照《煤礦安全規程》的規定,所有煤炭生產企業的煤礦井下安全監測數據要實時上報國家應急管理部信息中心,同時還要上報省市兩級安全監管局。如圖8 所示為目前國家應急管理部信息中心規劃建設的具有容災的數據中心框架圖。因此,建設同城雙活或同城雙活及異地單活的容災災備系統,可以更好的實現服務的不間斷性和數據的安全性,避免了傳統服務中心用戶單系統抗故障能力差的缺陷。容災設計極大地提高了系統的可靠性,提高了總體業務的連續性。

圖8:容災系統整體架構圖
本文分析了當前煤炭企業數據中心管理平臺的現狀和難點,采用云計算高可用、負載均衡等相關技術對煤炭企業管理平臺進行設計、規劃,實現企業所有計算資源、存儲資源、信息資源等可以統一分配、管理、共享從而提高業務管理運轉效率,資源配置更加優化,達到低成本高效率的目的。