上海華東電腦股份有限公司 上海 200237
自動化運維的優勢是有效避免了人工操作失誤,顯著提升了運維效率。但以現階段的計算機技術、軟件水平并不能真正實現全自動化的運維工作,還需要借助運維管理方法來維持數據中心的正常運行。
數據中心指的是基于Internet網絡建立的集傳遞、展示、加速、計算、存儲功能于一體的信息化設施。維基百科對于數據中心的定義,重點強調了其復雜性,不僅包含計算機系統以及相關的配套設備,還包含了一系列冗余、復雜的數據通信連接、環境控制設備、監控設備等。《The Datacenter as a Computer》一書中對數據中心的定義是:多功能建筑物,可容納多個服務器與通信設備。這一定義并不僅僅是局限在服務器物理方面的集合,更多的是指維護這種服務器的便捷性。數據中心有兩個顯著特征:一個是總的網絡帶寬容量;另一個是在網絡中的作用。正因如此,數據中心在信息化建設中才具有不可替代的重要作用。
至今為止,計算機運維已經經歷了漫長的發展時間,從個別服務器整合成龐大的數據中心,步入了自動化狀態。運維的自動化明顯減少了遞延現象,還能減少人工工作量以及重復勞動的時間,顯著提高運維工作效率。自動化運維系統極大地滿足了自我監控的需求,能夠提前預估各種風險,并及時發布風險預警信息。自動化運維平臺功能主要由以下幾方面構成:
(1)自動監控:自動監控功能通過對比、分析數據,第一時間發現系統存在的偏差,并進行自動評估和上報,避免了人為操作的道德風險與失誤。
(2)自動提示:自動化運維平臺需要先分類任務內容與形式,按照既定流程執行。如果自動化平臺發生故障,平臺就會向運維人員發生預警信息,并顯示 錯誤代碼,運維人員可以及時采取措施排除故障。
(3)自動檢測:自動檢測功能可以讓運維人員更好的評估軟件的實際配置和計劃配置的符合程度,對于不符合匹配的部分做出調整。
(4)自動記錄:為了提高自動化運維平臺的溯源,應采集、分析每一層級、每個過程的數據,通過詳細的數據記錄,可以全面了解故障類型,明確故障原因,保證自動化運維平臺運行的穩定性[1]。
自動化運維平臺的設計方案主要可采用分層分塊的設計思路,以層次結構化為基礎,建立可視化層、業務核心層、云平臺層以及權限認定管理系統,詳見圖1。

圖1 自動化運維平臺技術架構圖
(1)管理可視化層:這是自動化運維平臺的管理界面與信息展示區域,包含了四個功能區,分別是云平臺管理、流程資源管理、自動化巡檢信息展示、應用軟件發布管理。
(2)業務核心層:包含了日常巡檢自動化、配置管理自動化、實時事件監控、資源管理自動化、預警響應自動化、發布部署自動化、檢修管理自動化等功能。
(3)云平臺層:在開源Open Stack的基礎上開發,實現了集計算、網絡、存儲資源的集中管理和分配。
(4)統一權限認證管理系統:能夠統一管理各操作系統平臺的用戶,最大程度地簡化了系統規模,降低了權限管理難度。支持LDAP服務、終端設備、LDAP協議等,不僅可以統一權限管理,同時還能夠根據不同的業務類型分類控制,更便于劃分業務[2]。
根據數據中心系統的運維特點,自動化運維平臺能夠對一下數據進行統一監管與展現,而且還能準確的捕獲數據,并發出告警。
(1)日常巡檢管理:本部分需要由數據中心管理工作者對工作系統進行定期檢查和記錄要求將工作內容及數據以表單的形式記錄下來,加以匯總分析。如果發現故障,只需要單擊登錄相應的IT服務管理系統,就能繼續跟蹤后續事件。
(2)運維監控管理:通過圖形化的形式對核心業務系統、數據庫的可用性進行實時監控。異地/本地災備環境數據庫還可以通過圖形化的方式進行實時的同步展示,而且能夠細化至具體的進程狀態,更便于運維人員發現故障。
(3)設備資產管理:規范的集中化平臺與變更流程可以對硬件物理設備、存儲設備、虛擬化設備、網絡設備、安全設備進行細化和歸檔,通過歸類、劃分業務系統,運維人員可以隨時查詢需要的相關信息。
(4)知識庫管理:實現了對所有技術類文檔的集中管理,為運維人員的查閱提供了方便。
(5)第三方平臺接入:根據現有的ITSM、堡壘機服務、監控系統、流程管理系統等IT運維管理工具,可利用簡單的賬號信息來為自動化運營平臺和第三方系統的登錄提供服務。
(6)信息中心管理:主要用來動態、實時發布運維管理規范、運維體系條例等[3]。
運維工作中,本地Pracle Dataguard與異地Shareplex監控十分重要,因為企業內部核心業務的數據安全正是依賴于本地/異地數據復制的實時性與準確性。啟動自動化運維平臺前,企業首先要安排專業的數據庫管理員對源端、目標端的系統、數據庫狀態、數據的積壓量、延遲時間進行全面檢查。系統將會直接利用shell代碼直接獲取全部指標本地數據,隨后將數據信息直接傳遞至平臺數據庫。在平臺內部會統一展示數據,并且在數據申報展示過程中可實現及時告警,如若發生故障或延遲準確為管理工作者提供相關警告數據,提高管理工作者處理風險的時效性。
企業信息化部門的運維工作中,應用服務是否可用性健康是一項重要任務,只有業務系統與企業的公用系統都處于穩定運作的狀態,才能保障企業辦公以及各類業務的正常開展。在自動化運維平臺推廣利用之前其主要問題是研發團隊或者用戶所發現的問題,在發生后運維部門才會了解,這樣就導致運維部門無法第一時間段發現并解決故障。而通過應用服務與數據庫服務,可以把信息批量的傳送到平臺前端,數據中心值班人員可以實時監控,有效解決了人工發現故障效率低、時效性差的弊端。
應用附件備份、文件備份、數據庫備份是否可靠與企業信息安全、故障發生的可還原的節點密切相關,可見檢查和驗證備份有效性的重要程度。一般情況下,企業的信息化運維部門會委派專人檢查并復核數據備份,但人工操作容易遺漏或者因失誤造成數據丟失。利用Shell腳本則可以自動化檢查、推送不同業務的備份數據,充分保障了系統備份的安全有效[4]。
綜上所述,簡單的運維工具拼湊而成的自動化運維平臺絕不是合格、優秀的,自動化運維平臺的高效運行,需要嚴謹的理論作為支撐。隨著大數據時代的全面來臨,以數據為代表的技術為各行各業的發展、運營提供了很多便利,加快自動化運維平臺建設,減少人工運維的失誤,降低運維管理成本,提高運維管理效率,才能真正實現自動化管理。