郭威 陳秀千



摘要
在當今科學和信息技術飛速發展的情況下,作為信息的交換傳輸與統計分析以及存儲備份的中心數據中心,其是相關企業的信息系統平臺實現集中化處理的必要基礎,其在企業的信息化建設中發揮著重要的作用。科技信息的不斷進步促使了企業數據中心相關設備的應用數量逐漸遞增,不斷強化對數據中心的管理并逐步實現數據中心運維管理的自動化,從而達到節省人力、節約成本的目的。基于此,本文首先闡述了自動化運維的相關理論知識,并進一步分析研究了自動化運維平臺的建設方法。
【關鍵詞】數據中心 運維管理 自動化
運維自動化其實就是將傳統的計算機運維工作實現自動化,從而改變了以往傳統的手動模式,減少了運維工作人員的數量,全面的提升了計算機運維的工作效率。由于傳統的單靠人工計算機運維已經不能滿足當前企業服務器及數據量的各項要求,這就要求相關技術人員通過不斷學習來應對目前高速發展的信息化時代。同時,對于企業的自動化運維管理系統在設計時要遵循自動化程度高、綜合性強、易擴展的原則,從而在實際的工作時實現數據中心的自動化管理。
1 運維自動化的內容和工具
1.1 運維自動化的內容
計算機運維經歷了漫長的發展歷程,目前它已由原來的幾臺服務器發展到現在一個海量的數據中心,并逐步實現了運維自動化的一個全新狀態,而在當下復雜的大數據背景下實現計算機運維自動化管理成為運維人員亟待解決的問題。對于每天的常規檢查、配置變更以及軟件安裝這些平時運維工作中需要重復進行的工作,實現自動化管理代替傳統的人工操作即為運維自動化管理。通過運維自動化可以使運維工作中的延遲現象得以減少甚至消除,從而達到計算機運維的“零延遲”目標。另外,運維自動化系統可以幫助運維人員避免日常簡單重復的工作,節省時間的同時使工作效率也得以提高。此外,自動化運維可以對故障進行提前預測并報警,從而幫助運維工作人員在事
故未發生時就能提前預防并消除隱患,大大降低企業在生產過程中不必要的消耗。圖1所示為運維自動化程度與運維復雜度模型分析,根據這個模型得出,當機器的數量增加時運維的復雜度也會相應增加,如果采用自動化運維則會減少大量人工操作,節省成本。
1.2 自動化運維管理工具
企業運營過程中,自動化T具的應用可以徹底實現運維自動化,主要有運維監控和診斷優化工具、運維流程自動化工具。
1.2.1 白動監控
目前多數企業的運維系統已經逐步完善,但是運維人員及被管理對象的數量比例嚴重失調,因此不能及時發現運行過程中發生的風險及故障。而監控自動化對工作中重要的計算機組件(路由器、交換機、防火墻等)、業務的運行情況以及處理效率等實時狀態進行主動式監控,從而達到及時并準確的發現運行中發生的各種故障,然后將故障通知相關用戶,達到提前預警防患于未然的效果。
1.2.2 自動檢測配置變更
由于運維對象多,變更量大且頻率高,運維工作者的工作量很大,從而導致有些流程和制度執行不到位的情況。而一旦計算機設備的配置參數發生改變時,就會觸發到變更流程同時將信息傳遞給運維人員進行確認,通過自動化測試幫助運維人員對配置進行查找和維護。配置變更檢測自動化如圖2所示。
1.2.3 自動提示待維護事件
傳統的計算機運維工作時,運維對象產生大量的事件,由于事件的分級不合理使得工作人員不能及時發現并處理一些緊急事項。運維人員要想做到維護事件提醒自動化則可以通過適時監控相關的系統服務管理平臺,提高管理的可控性和透明度,一旦出現突發的事故時,系統可以第一時間發現并啟動報警,然后將有效的信息傳遞給運維技術人員進行解決。
1.2.4 自動生成維護記錄
相關技術人員要對計算機設備的運維系統以及一些硬件配置進行定期自動的檢查與維護,還要對計算機系統的運行狀況定期自動的做好日志的記錄、收集與分析,通過對系統階段性的監管與研究歸總,以此為依據定時的提供計算機運維系統相關的應用狀況以及分析報告。
2 數據中心自動化運維平臺的建設方法
2.1 構建自動化運維
2.1.1 構建運維自動化管理平臺
通過運維自動化管理系統的建立可以實現計算機運維的自動化管理,通過自動化運維管理系統來實現對系統運行過程中出現的故障以及問題集中管理和處理的能力。運維管理平臺可以實時的對計算機設備進行管理與監控,例如:服務端、數據庫、存檔、網路、安全、計算機房、相關應用與服務端等相關項目的管控,通過對海量的網絡和服務器等節點的實時監控實現故障的準確預警、報警以及準確定位。
2.1.2 構建系統故障的自動觸發流程
運維自動化平臺在工作過程中一旦遇到問題和設備故障都會自動報警,在對故障進行匯報時,不論是系統報警還是人工匯報,都要嚴格切記利用紅色標識展示在運維系統的屏幕上。收到故障信息后,運維人員根據相關知識庫的數據,然后依據相關流程按步驟操作即可。因此,企業必須要事先建立流程化的故障和事件處理機制,一旦有異常情況或設備出現故障時就會立即觸發相關事件,然后將相關工作流程處理程序觸發并傳遞給操作運維人員,以此確保運維人員按規定及時完成流程規定的工作,這樣可以大大提高工作以及運維處理故障事件的效率。
2.1.3 建立規范的事件跟蹤流程
要想實現計算機運維的自動化管理,首要工作就是建立流程化的事故處理與時間處理機制,利用表格工具對出現的異常情況和故障處理情況進行相應的運維日志的記錄,并且要定期的對記錄的信息進行總結,通過分析總結尋找發生故障的線索和根源。多年工作實踐發現,通過建立事件的流程化故障和事件處理機制,可以有效降低運維人員的不規范操作,減少操作的隨意性,加大計算機操作和運維工作的執行力度,盡力將系統發生故障和問題的幾率降到最低。
2.1.4 建立運維的關鍵流程
信息技術運維的管理人員為運維部門定制合理的工作流程以及職責,同時其不僅要明確指出工作流程的含義,還要說明每個關鍵流程對企業的必要性,并建立事件處理機制,引入優先處理的原則。此外,在對運維關鍵流程的自動化進行設置時,首要條件是要保證緊急事件的優先處理原則,普通事件按常規處理,對于特別的事件運維工作人員一定要按照優先級次序,提高事件的處理效率和質量。
2.2 數據中心自動化運維平臺的建設方法
在進行運維管理系統平臺的建設時要結合業務工作的實際要求,充分將服務與安全兩個方面的因素考慮在內,以服務為視角、安全為依托,整合現有不合理的管理模式并采用模塊化和分層次的架構,開發出一套全新的檢測、監控和管理軟件。
2.2.1 設計目標
運維自動化即是運用最少的運維人員,結合運用腳本(日常運維中較為常見的有shell腳本、CMD腳本、SQL腳本等)以及第三方程序,確保運維系統在一周的時間里每天24小時,高效率平穩地運行。由于企業運維部門設備多、運維技術性強以及人工運維易遺漏等特點,自動化運維平臺設計的目標可概括為以下3個方面:
(1)指導性:對目前的存在風險與漏洞的信息基礎設施的工作性能進行優化與完善;提高運維系統的安全性能,以降低企業的安全風險;對信息基礎設施的需求做出合理的規劃與詳細的計劃;考核技術水準提高服務質量。
(2)實時數據:隨時對基礎設施和運維系統的工作情況;對設備的故障和異常及時掌握并第一時間找出問題的原因;對運行狀況進行分析并進行完善以提高運維效率
(3)數據可靠:流程管理的變更可以確保系統設備生命周期管理的數據可靠;對日常
的巡檢單進行管理可以確保企業數據中心相關監控設備的準確;通過提取實時數據以及校驗底層監控對象以實現監控事件相關數據的準確程度。
2.2.2 系統平臺的設計
(1)頂層架構設計。分析企業目前信息運維系統的使用狀況,技術人員要保證新架設的自動化運維綜合管理系統不影響企業目前的架構體系,自動化平臺要以清楚明了的圖形化界面為依托,靈活高效的實現對企業核心業務系統以及平常信息運維的管理,架構設計如圖30
(2)底層數據抓取設計。作為監控模塊重要組成部分的系統基礎信息采集模塊,其不僅有助于運維技術人員對當前系統的健康狀況有一個詳細的了解,還可以作為衡量一個企業服務質量的標準。例如,在系統資源吃緊時會出現系統卡頓等現象,造成客戶的體驗效果變差從而影響了服務質量。另外,通過提取相關設備流量的使用情況,可以為運維技術人員評估帶寬的性能以及設備指標數據提供依據,其中包括Linux系統信息、系統的數據信息、塊設備和網絡地址庫等信息。技術人員獲得這些信息之后,就可以對系統服務的狀態進行全方位的解讀,然后利用報警機制的快速響應特性,使其在第一時間響應并對故障進行處理。
現在多數的企業計算機機房服務器系統主要是以LinuxX86和Unix小型機為主,在進行運維平臺設計時,利用UnixShell&Python;實現對小型機Unix和Linux系統的健康狀況和服務進程狀態的抓取。最后將采集的原始數據經過上層子系統的分析處理,對整個系統進行全面深度的檢測管理。
(3)自動化運維功能設計。自動化運維管理平臺設計時要根據企業日常運維的特點,結合業務工作的實際要求,充分考慮服務與安全兩方而的內容,實現企業數據的統一監管和管理,并且做到對數據準確的獲取與響應。在對運維資源進行功能化、系統化區分后,根據平臺建設目標,站在信息運維人員的角度,具
體劃分為如下:
1.日常檢查與管理。企業數據中心的所有值班人員和運維人員對設備系統健康狀況的檢查工作,通過應用工作表單的方法進行記錄,在遇到故障的情況時,通過登錄相關的事件管理系統完成后續工作。
2.運維監控管理。對企業運維服務時所生成的一系列關鍵指標進行分析,來衡量企業運維系統的現狀。一目了然的圖形化方式實現對企業核心業務系統及數據庫的實時監控;以簡單的專業化命令行代碼實現異地/本地災備環境的數據庫同步,方便非本專業的值班人員了解并發現出現的問題。
3.設備信息管理。通過集中化的平臺和標準化的變更流程,對所有硬件的相關設備信息進行細化并歸檔,以方便運維管理層準確快速的進行信息的查找。
4.知識庫文檔管理。對于一切涉及運維的技術類文檔統一的進行管理和歸檔,以方便以后的參考與查閱。
5.接入第三方平臺。結合企業目前的信息技術運維管理工具,為其配備簡單的賬戶信息,以實現從運維平臺單點接人到第三方系統。
6.系統安全管理。通過對安全事件的監控以及系統漏洞與病毒感染種類進行統計,以此來了解運維系統的安全與否。
2.3 自動化運維平臺功能的實現
2.3.1 本地數據庫與異地數據庫同時監控
在企業的運維管理中,本地數據庫OracleDataguard及異地數據庫Sliareplex的監控工作是非常值得重視的,其能否及時與精準的將相應數據進行復制對于企業系統數據的安全與否具有不可替代的作用。如果不應用自動化運維平臺,這樣便只能由企業內部具有專業知識的數據庫管理員去進行源端與目標端系統服務和數據庫服務進行狀態、數據積壓與延遲量的檢查,這就大大增加了相關技術人員的工作量。而運維技術人員手工編寫一些Shell腳本在服務器上進行運維,利用shell腳本達到對本地數據的獲取,并利用信息傳輸機制把相應數據精準地傳送到運維平臺的相應數據庫中,且在平臺上展示給工作人員,達到及時報警并準確定位故障發生點。
2.3.2 應用服務與數據庫服務可用性監控
應用服務狀態與數據庫服務狀態不僅僅是運維部門工作的評估項目,其更關系著企業的正常運作。若未構建自動化運維平臺,很多時候都是在用戶或研發團隊出現問題時才通知運維部門,致使企業運維技術人員無法及時發現并處理異常情況,大大降低了企業運維部門的工作效率。而通過構建自動化運維管理平臺可以及時監管應用服務與數據庫服務狀態,且能把相應數據信息大批傳送至平臺前端,由數據中心相應從業者及當值者實行監管,一旦出現故障或異常情況,系統就會自動報警從而彌補了人工監控的不足之處。
2.3.3 備用存檔檢驗自動化
相關數據與文件等的備用存檔可靠與否,直接影響與決定著企業數據是否存在威脅與在
出現問題需要回檔時可回到的時間點,因此,備用存檔的可靠性檢驗至關重要。大多時候備用存檔均是由運維部門的相關從業者建立并檢驗、核對的,但以往的人工檢驗難免因特殊原因致使出現差錯,導致誤漏情況或操作出錯的情況出現,因此造成部分數據丟失給企業帶來不可估量的損失。而建立自動化運維平臺后,眾多各類備用存檔數據文件均能夠利用Shell腳本完成檢驗的自動化與檢驗結果直觀顯示,從而使得系統數據文件的備用存檔得以高質保證。
3 結束語
伴隨著眾多科研、從業人員夜以繼日的深入研究,多項相關難題得到解決,“云計算”與“虛擬化”兩項新興科技逐漸得到了極大發展。為信息化構建帶來了極大的便利,但也為數據中心的運維提出了全新的挑戰。為此,提升數據中心運維技術,逐步實現數據中心運維管理的自動化,讓相關運維技術人員有更多精力投入到對系統和技術的優化工作中,從而降低人工操作的失誤率,節省人力物力的同時也給企業減少了眾多的資金開支,使企業得以更加高效、便捷、低風險的穩固運行。
參考文獻
[1]李威,顧海林.面向業務的自動化運維管理探究[J].中國科技縱橫,2015(01).
[2]朱玉立,任義廷,高曱子等.淺談大數據時代下的數據中心運維管理[J].信息系統工程,2015(11).