國家計算機網絡應急技術處理協調中心湖南分中心 李 晶
中國移動通信集團湖南有限公司 劉莉莉
數據中心在數據存儲備份和信息交換、處理等過程中發揮著至關重要的作用,只有保障數據中心的高效運轉,才能為社會發展創造可靠的條件。隨著技術水平的逐步提升,對于數據中心系統功能也提出了更高的要求,應該逐步實現自動化運維管理,以減輕工作人員的負擔,提高數據中心的運行效率和質量,有利于降低運行成本,符合當前信息化時代的發展潮流和趨勢。本文將對數據中心自動化運維的工具進行介紹,明確數據中心自動化運維的建設方法,為實踐工作提供參考。
進入到數字化時代以來,我國社會發展速度逐漸加快,多種先進科學技術的誕生,為社會改革注入了強勁的動力。數據中心是以互聯網為依托的信息傳遞、計算和存儲平臺,除了依靠強大的計算機系統外,還要設置相應的配套設備,滿足數據中心的高效化運行需求。因此,數據中心的運維難度相對較大,具有明顯的技術性和專業性特點,對于運維管理人員的專業能力和素養提出了更高要求。逐步實現自動化運維管理,是時代發展的必然要求,可以降低運維工作中的人力、物力和財力投入,不斷提高數據中心的自動化、數字化和智能化水平。
數據中心自動化運維工具主要包括了自動監控工具、自動檢測配置變更工具、自動提示待維護事件工具和自動生成維護記錄工具等。針對交換機、路由器和防火墻等組件的運行情況實施監控,以便及時體現工作人員進行預防和控制。通過配置的查找和維護,滿足設備配置參數的設計要求。自動提示待維護事件工具的應用,能夠使運維管理更具透明性,運維技術人員可以獲得更加全面的故障報警信息。維護記錄也實現了自動化生成,以便為今后運維管理提供依據。
(1)管理平臺建設
系統運行中會出現不同類型的故障問題,這也是影響系統安全性和可靠性的主要因素,為此應該以自動化運維管理平臺為依托,達到集中處理的目的。在計算機設備的運行中,可以通過運維管理平臺對其實施監控,涉及服務端、計算機房、數據庫、存檔和相關應用等等。尤其是對于關鍵節點更要實施全面監控,從而在故障出現后能夠及時發出警報信息,從而幫助工作人員迅速找到故障位置并處理。
(2)系統故障自動觸發
自動化運維管理平臺運行中出現問題時,會自動發出警報,采用人工匯報或者系統報警的方式,都需要在屏幕中運用紅色標識進行處理,大大減輕了運維人員的工作量。在故障及事件處理機制構建中,應該以流程化為基本原則,為運維管理人員提供更多的便捷,出現故障問題時能夠對相關事件進行自動觸發,運維人員獲得相應的處理流程后就能夠直接按照要求進行處理,提高了故障響應速度,促進系統運行效率的提升。
(3)事件跟蹤
出現事故后應該做好運維日志記錄工作,通過信息的定期分析和評估,來對故障線索和根源進行獲取,有利于降低系統運行的事故率。為此,在自動化運維管理平臺建設中應該做好事件跟蹤流程的全面優化,防止在實踐中出現不規范操作行為,降低運維管理中的隨意性。
(4)關鍵流程優化
通過關鍵流程的全面優化,可以使運維管理人員明確各個流程的重要性,同時借助于事件處理機制來及時響應,避免給數據中心造成難以挽回的損失。以緊急事件優先處理為基本原則,而采用常規處理的方式解決普通事件,有利于明確運維管理工作的輕重緩急,從而降低對整個系統運行的影響,有利于事件處理效率的提高。
2.2.1 設計目標
在自動化運維管理中需要借助于SQL腳本、Shell腳本和CMD腳本等,確保系統的高效運行,以增強系統穩定性及安全性。在系統設計中應該制定明確的設計目標,以滿足數據中心的運行需求。首先,應該更具指導性。分析信息基礎設施的運行特點,確保在系統建設中更具規范性,及時發現其中的漏洞和風險并采取控制措施,防止給數據中心造成安全風險。其次,應該確保數據的實時性。當設備出現故障問題時,應該在第一時間找到故障的原因并實施準確定位,防止系統運行效率受到影響。此外,還應該確保數據的可靠性,注重對底層監控對象的全面校驗,以提高數據準確性。
2.2.2 系統平臺設計
(1)頂層結構
在設計系統頂層架構的過程中,應該明確當前運維系統的運行要求,防止當前架構體系受到自動化運維管理系統的干擾。在構建自動化平臺時,需要確保界面的清晰性,以圖形的方式呈現關鍵信息,為信息運維及管理提供保障。自動化運維管理平臺設計主要以信息中心、設備管理、日常巡檢和運維監控等為主。
(2)底層數據抓取
基礎信息采集模塊是決定監控模塊運行狀況的關鍵,除了要明確系統健康狀況外,還可以通過該模塊對整體服務質量進行評估。如果系統資源難以滿足運行需求,則會造成系統的卡頓,因此會降低整體服務質量。在對設備性能或者寬帶性能進行評估時,可以充分發揮設備流量的價值,依靠系統數據信息、網絡地址庫和Linux系統信息等輔助分析和決策工作。在了解系統服務狀態的基礎上,針對故障問題實現快速響應,防止對系統功能及安全造成威脅。在應用Unix小型機和Linux系統時,可以借助于Unix Shell&Python獲取服務進程,深度檢測系統狀況。
(3)自動化運維功能
應該明確數據中心的業務需求和特點,從而在在自動化運維功能設計中更具針對性,除了應該考慮到服務方面的要求外,還應該從安全性方面出發,為數據監管提供可靠的依據,在數據獲取時保障良好的精確性和實時性。為了獲取系統的健康狀況,應該對日常檢查與管理模塊進行針對性設計,在記錄時采用工作表單,以便借助于事件管理系統處理故障問題。對于數據中心運維系統運行狀況的監督,需要設置相應的監控管理模塊,業務系統和數據庫的運行狀況可以通過圖形化的方式呈現出來,通過專業化命令行代碼實現異地/本地災備環境的數據庫同步,以便工作人員對其進行及時處理。在數據中心運行中涉及較多類型的設備,自動化運維功能設計也應該以設備信息管理模塊為核心,通過數字化檔案的構建實現設備狀況的實時化評估和管控,降低設備的故障率。嚴格監控系統運行過程中的漏洞和病毒情況,從而對運維管理系統的安全性進行評估,以便制定相應的防護措施。
(1)同時監控
同時監控功能的實現,是異地數據庫和本地數據庫建設中的關鍵,只有確保各項數據復制的及時性和精確性,才能保障數據的安全性,體現數據的應用價值。在傳統工作體系下,對于數據庫管理人員的依賴程度較高,同時也會存在一定的局限性。而自動化運維管理平臺的構建,則可以為檢查數據庫服務狀況、數據積壓和延遲量等提供可靠保障,減輕管理人員的工作負擔。通過編寫Shell腳本在服務器上運維,能夠快速獲取本地數據并借助于信息傳輸機制實現實時化傳送,滿足數據庫的運行需求。工作人員能夠更加直觀地獲取相關數據,對于系統運行故障的定位更加精確和及時,通過發出警報體現運維人員進行處理,避免對數據安全造成威脅。
(2)可用性監控
可用性監控主要是針對數據庫服務和應用服務而言,會對數據中心的運行效率和工作評估產生影響。針對其可用性實施全面監控,能夠增進運維部門和研發人員的交流溝通,以便及時發現其中的異常問題并處理,使得運維部門工作效率得到全面提高。在平臺前端可以實現數據信息的大批傳送,滿足實時監管的要求,借助于自動報警系統快速響應異常狀況,從而解決了人工監控中的弊端。
(3)備用存檔檢查
最好各類數據和文件的備用存檔檢查,也是保障數據安全的關鍵,能夠在發生異常狀況時及時恢復,防止給使用者造成較大的損失。備用存檔檢查也應該實現自動化處理,同樣是借助于Shell腳本能夠滿足自動化檢驗的要求,在結果顯示中更加直觀,幫助運維人員及時了解備用存檔情況,以便做好數據安全性和保密性的管理。
結語:在數據中心的運維管理工作當中,應該順應時代發展逐步實現自動化處理,以提高資源整合及利用效率,保障數據中心的良好運行效果。在實踐個當中,應該以管理平臺建設、系統故障自動觸發、事件跟蹤和關鍵流程優化等為重點,滿足自動化運維的需求。同時,在明確設計目標的基礎上,加強對頂層結構設計、底層數據抓取設計和自動化運維功能設計等各個要點的嚴格把控,確保設計方案的可行性,促進運維管理平臺的高效運行。在系統功能實現中,應該做好同時監控、可用性監控和備用存檔檢查,真正體現自動化的優勢和價值。