◆白興科 劉 建 鐘 文 黃 飛 何攀宇
?
淺談信息化預防性運維的重要性
◆白興科 劉 建 鐘 文 黃 飛 何攀宇
(大慶金橋信息技術工程有限公司成都分公司 四川 610037)
當前社會信息化不斷深入發展,企業的信息化架構越來越龐大和復雜,企業的業務越來越緊密地依賴于信息化系統。傳統的信息化運維還處于被動式的非預防性模式,這種運維模式已經不能滿足飛速發展的信息化水平,將帶來被動、效率低下、服務質量差、知識不能傳承等問題。
非預防性運;維預防性運維;服務質量巡檢;漏洞掃描;預防性運維智能化
隨著社會信息化的快速發展,信息化在企業中的作用日益明顯。企業對信息化規劃和建設不斷深入發展,業務對信息化系統的依賴性越來越強,造成各類應用系統繁多,同時服務器、存儲、網絡、數據庫、云計算、個人計算機軟硬件設備不斷攀升。已成為各單位信息化運維面臨的困難與挑戰,尤其是信息服務部門普遍頭痛的事情。只有轉變傳統運維模式和思路,才能讓信息化運維成為企業效率的加速器。
信息化預防性維護的目的:是將信息化設備以及信息化系統故障率降至最低,整個信息化設備及信息化系統使用周期的可用性和可靠性增至最高,發揮信息化系統和設備最大價值,從而提高運維服務質量。
傳統信息化運維處在“救火式”的工作模式。信息化運維人員大多數時間都處在被動低效率手工“救火”的狀態,只有當事件已經發生并已造成業務受到影響時才能發現和著手處理。這種被動“救火”會導致:信息化運維人員終日忙碌,信息化運維人員大部分時間和精力都在處理重復的問題;信息安全事件頻頻發生;故障預警機制和應急響應機制不完善,往往是故障發生后或報警后才會慌亂的進行處理,不但事倍功半而且故障還常常會出現惡性連鎖反應;運維服務質量較差,信息化部門和業務部門對信息化運維的服務滿意度不高。
知識與經驗傳承存在脫節。作為企業來說,信息化故障處理不單單是解決眼下的故障問題,還要為以后遇到同類的故障時提供可靠的知識查閱和幫助,而這一切不能僅依靠運維管理員的個人經驗,否則這種“過分依賴某人”的技術經驗將會為企業運維管理帶來很大的風險,假如技術人員經驗豐富后產生惰性或提出無理的要求甚至提出離職,運維主管對這種現象表示無奈。
傳統的巡檢往往依賴人工方式,這種巡檢方式會導致:巡檢頻次較低,故障發生后不能及時發現。巡檢深度不夠,因系統和設備繁多造成巡檢效率非常低。人工巡檢畢竟要依靠人的行為、行動,時間久了巡檢人員就易出現麻痹思想,即使在管理制度上制定了設備的管理及日常巡查的制度,但由于疏于監督,人工巡檢也容易成為形式,所以人工巡檢存在著很多弊端。
由于傳統運維方式帶來諸多的問題,只有將被動響應式工作方式轉變成主動服務式,在日常運維工作中主動去發現和識別潛在風險,才能做到預防為先,防患于未然。
預防性運維是為了延長信息化設備的使用壽命,避免減少設備故障而進行的計劃內維護以及提前對未知信息化風險進行預防。在實際工作中,預防性運維采取一些必要的手段和措施,是防止信息化設備及信息化系統受到攻擊和設備損耗的一種運維體系,是基于時間和使用計劃的維護方法,以防止故障的發生。
預防性運維就是在信息化設備以及信息化系統未發生故障前,進行有針對性、有計劃性、有目標性制定的運維策略,最大程度降低風險。例如:對信息化設備以及信息化系統運行狀態進行深度檢查,及時發現信息化設備以及信息化系統在運行中產生的因磨損及系統漏洞而出現的某些可預見的安全隱患,防止設備設施在運行中可能發生的問題,杜絕或避免信息系統發生更嚴重的運行故障或信息安全風險,有效的延長設備使用壽命,使設備設施處于高可用狀態,避免由于設備故障造成的業務中斷,影響公司各項業務正常開展,甚至蒙受經濟損失。
通過建設規范化、標準化的預防性運維體系,保障信息化設備及系統安全、穩定、持續運行;優化運維資源的配置、最大化降低運維成本;促進運維工作標準化,提高整體運維質量和效率,推進運維由“救火隊”角色向“防火隊”角色轉變。
預防性運維體系由預防性運維管理、運維團隊、維護技術以及維護對象等組成,即“管理”、“人”、“技術”、“對象”四類因素。見圖1。

圖1 預防性運維體系結構
預防性運維體系是在預防性維護制度的指導和約束下,由預防性維護團隊,采用一系列預防性維護技術,對各類信息化設備和系統進行“未雨綢繆”的維護。
預防性維護管理包括制度、流程及ITIL服務體系。制度是規范預防性運維管理工作的基本保障,流程是在制度的基礎上建立的,是對操作行為進行的標準化管理。ITIL服務管理包括服務臺管理、問題管理、配置管理、變更管理、發布管理。
預防性維護團隊建設,根據預防性維護對象確定各項工作的崗位和職責分工,并按照相應崗位要求配備人員,組成高效協作的運維隊伍。預防性維護隊伍建設和預防性維護技術相輔相成,一方面預防性維護隊伍的專業水平需要不斷提高來達到預防性維護的目的;另一方面預防性維護技術中的培訓和知識庫等手段將進一步打造業務精通、經驗豐富的維護團隊,實現知識的更替、傳承。
預防性維護技術是以統一的系統監控管理平臺為基礎,以預防故障發生和性能優化為基本目標,對生產環境的網絡、服務器、數據庫、中間件、系統等重要對象實現自動、集中的監控,對系統運行中出現的異常情況具有預警和報警功能,便于運維人員全面、及時了解信息化設備和系統運行狀況,提高信息化設備和系統的故障應急處理能力的技術手段。
預防性維護對象,一般企業的信息化設施包括:網絡、服務器、數據庫、存儲、中間件、系統等。這些設施是一個企業信息化的基石,所有的信息化環境都牢牢依賴于這個基礎,預防性維護要防微杜漸、未雨綢繆,就需要從這幾個信息化基礎設施著手。預防性維護對象相當于人體的心臟,是核心,所謂“擒賊先擒王”,只要抓住了這個核心,那么預防性維護的工作將事半功倍。
預防性運維的開展主要依靠相關技術的落實,在信息化運維實踐過程中,運用了漏洞掃描、巡檢等相關技術,達到了預防性運維的目的。
4.1 漏洞掃描
信息化系統由多種類型的設備或系統組成包括存儲、數據庫、網絡、虛擬化等系統,在信息技術高速發展的今天,無法保證各個系統的絕對安全,所以利用漏洞掃描技術能夠及時的獲得各個系統最新的運行狀況,防止未經授權的用戶對各系統的破壞,最大程度的保證各個系統的安全可靠穩定的運行。
所謂漏洞掃描技術一般是指終端用戶通過掃描服務端口或依靠特定的協議獲取硬件設備信息的手段,對指定的遠程或本地信息系統進行安全檢測,進而發現是否存在安全隱患。在發現漏洞后運維人員可通過相應的補丁或修改相應的配置來消除安全隱患。
漏洞掃描技術從不同的角度可以分為以下幾類:
基于網絡和主機的掃描,基于網絡的掃描主要是從未經授權的非法用戶角度來講,利用網絡通信協議和服務的漏洞來掃描網絡或系統架構,從而獲得相關信息以達到非法目的。例如可以查找網絡中的設備是否開啟了SNMP服務,通過SNMP服務獲取設備的相關信息。基于主機的掃描技術是終端用戶通過檢查注冊表、配置項、系統日志等來檢測是否存在漏洞,例如共享訪問漏洞、弱口令等漏洞,可通過修改注冊表值或修改配置項來增強信息系統的安全性,進而避免信息安全事故的發生,起到預防性運維的效果。基于網絡的掃描和基于主機的掃描各有利弊,只有同時使用上述兩種掃描方式才能獲取更多有用的漏洞信息,為運維人員后續處理漏洞提供有力的支持。
主動掃描和被動掃描,主動掃描方式是通過給目標主機發送特定的包并接收回饋信息從而獲取相關信息。有時未收到回饋信息本身也是信息,因為有可能是信息在傳遞過程中被安全類的設備給過濾掉了,比如常見的防火墻就能夠通過配置相關選項將某些特定的字段過濾掉,其優點在于能夠快速的獲取相關信息且準確性能夠得到保證。被動掃描是通過實時監測網絡通信流量來獲取所需的信息,而自身不需要發送任何信息。這種掃描方式不會受到防火墻的影響,但是在監測過程中需分析接收的流量,所以速度較慢且準確性較差。
通過漏洞掃描技術可以有效發現信息化設備及系統的安全隱患,運維人員能夠準確地對各個關鍵漏洞進行補救。大大的降低了安全風險,達到預防性運維的作用。
4.2巡檢管理
巡檢是預防性運維工作中重要的一環,通過制定相應的巡檢制度,信息化設備或系統可以通過巡檢提前發現問題所在,達到預防性運維的效果。在實踐工作中我們通過計劃性巡檢、深度巡檢以及實時巡檢彌補了單一巡檢方式的不足。
計劃性巡檢是通過制定相應的巡檢流程,固化巡檢頻次及方式,在實際工作中通過電子巡檢的方式避免了人工巡檢的各種不足,同時也可以將巡檢作用最大化,電子巡檢包含了手持終端和現場的信息點。信息點提供唯一的地址編碼,為信息化設備制定相應的巡檢參數。手持終端用于信息點數據的采集。例如巡檢人員使用手持終端采集信息點的參數實時上傳巡檢結果,系統自動統計并生成所需的各類報表,運維人員根據生成的報表了解設備運行的狀態做出相應的判斷,達到預防性運維的目的。
深度巡檢是在計劃性巡檢的基礎上加強了巡檢的深度及廣度,制定深度巡檢的標準及制度。對信息化設備及系統,進行深度檢查對設備的運行狀態進行分析,提前發現安全隱患及性能瓶頸,消除隱患,改善和優化設備的性能,保證設備能夠安全、穩定、健康地運行。
實時巡檢是通過統一的監管平臺,建立巡檢模板和策略,將信息化設備及系統納入其中,實時獲取設備的運行狀態,預測分析設備的運行趨勢,快速判斷、追蹤定位并響應各種故障,結合多樣化的報警機制。如某臺信息化設備運行參數超過了制定的閾值,監管平臺自動通過短信、電子郵件等方式進行報警,最終從被動到主動及時地發現問題,并調度各種資源解決問題,從而形成預防性運維主動服務的新局面。
預防性運維工作通過計劃性巡檢、深度巡檢及實時巡檢有效的提高了運維的效率,保證信息化設備及系統安全、穩定、健康地運行。
4.3應急預案
應急預案在預防性運維體系中起著關鍵作用,它明確了在突發風險事故發生之前、發生過程中以及發生后,誰負責做什么、何時做,以及相應的策略和資源準備等。針對可能發生的重大事故及其影響和后果的嚴重程度,應急預案是為應急準備和應急響應的各個方面所預先做出的詳細安排,是開展及時、有序和有效事故應急救援工作的行動指南。
應急預案明確了應急救援的范圍和體系,使應急準備和應急管理不再是無據可依、無章可循,尤其是培訓和演習工作的開展;有利于做出及時的應急響應,降低事故的危害程度;當發生超過應急能力的重大事故時,便于與上級應急部門的協調;有利于提高風險防范意識。
應急預案的內容應包括:(1)風險描述:用于描述本預案相對應的具體風險及故障。(2)應急小組組織結構:明確應急組織人員結構與職責。(3)突發事件的預防與預警機制:具體說明對應風險的預防措施及故障發生時的預警機制。(4)應急保障措施:規范應急程序所需物資的準備情況。(5)處置程序:故障發生時及故障發生后的具體處置程序。(6)事后恢復與重建措施:明確故障恢復后的相關工作,如故障記錄、匯報等。
在實際的運維工作中應該首先制定各類突發事件的基礎性應急預案,然后在此基礎上針對特定風險編制專項應急預案,有針對性地制定應急措施、定期進行專項應急準備和演習。
4.4事件庫與知識庫
預防性運維中事件庫與知識庫建立對企業具有重要意義:(1)創造知識價值:營造有序和高效的知識管理體系,通過知識的創建、共享、積累、分析、以及知識的快速檢索與獲取,利用知識創造價值,從而提高組織能力和個人能力。(2)實現知識共享:典型案例是許多企業的信息化運維人員常常重復解決用戶的相同問題。如果多數問題及其解決方案都可以從事件庫中簡單、方便獲取,從而將信息化運維人員從重復性的工作中解放出來,著手解決其他新的問題,從而達到提升工作效率的目的。(3)實現知識轉化:知識庫的建立極大地促進了知識轉化,有利于提高信息化部門的整體水平。(4)避免知識流失:許多知識掌握在相關工作人員的手里,一些信息化系統的升級、部署或故障解決方法只有研發人員知道,知識庫的建立可以有效地避免由人員流失造成的信息孤島和知識流失。(5)提高運維響應速度和質量:當知識庫的質量、數量及知識結構都達到一定標準時,才能快速響應信息化服務需求,提升客戶滿意度。(6)挖掘、分析信息化系統數據:運維知識庫作為一種信息收集、整理的工具,同時提供了數據分析、統計的功能。便于信息化維護團隊發現潛在問題、進行趨勢分析。
在預防性運維技術中事件庫與知識庫應包括以下要素:(1)知識發布:通過知識庫可以發布知識條目和典型事件;(2)文檔管理:在知識庫中,已解決事件的記錄或相關知識條目作為重要的知識資源和參考資料,為自助服務用戶提供診斷事件的依據,從而使問題快速解決;(3)自助服務平臺:企業員工通過自助服務方式搜索FAQ答案,快速定位知識條目和典型事件,員工可以自主解決問題;(4)知識權限管理:知識庫需具備一套安全嚴密的訪問權限管理機制,訪問權限可以定義項目級、文件級、甚至知識條目級別的訪問權限,如只讀權限、讀寫權限等。
現階段預防性運維并不是企業信息化運維體系建設的終點。隨著社會信息化的不斷深入,信息化運維工作越來越復雜化、層次化,預防性運維將朝著更加智能化的方向發展,因此企業的信息化運維建設,應該逐步推動實現集中告警、自動處理的智能化運維體系。
預防性運維的智能化是用機器代替運維人員完成重復的故障處理,在最少人工干預下,結合運維工具,保證業務高效穩定地運行,這是預防性運維體系建設的更高級目標。智能化運維需要做到事前預警、事中恢復和事后存檔。首先,要對信息化設備實施主動式監控。當這些設備在運行過程中出現告警時會自動根據告警級別做出判斷,并將結果反饋給運維人員。其次,對于一些簡單的告警,智能化工具可以自行處理并修復,另外新業務部署時設備和應用程序的調整也要做到自動化。最后,對事件的處理程序及結果進行自動歸檔收入事件庫。
預防性運維智能化可將運維人員從繁瑣的工作中解放出來,讓他們在發展專業技能的道路上走得更加深入,進一步提升了運維工作的效率。