陳瀚
隨著信息化建設不斷地發展進步,無論是企事業單位還是學校、政府機關都開始運用信息系統進行日常管理。
眾所周知,信息系統是一個復雜龐大的工程,無論設計和建設時思慮周全,在實際的應用場景和運行過程中信息系統還是會存在這樣那樣的問題。無論信息系統運行過程中出現了硬件還是軟件的問題,都需要運維工程師及時發現問題所在并快速準確的將故障排除,保證整套系統正常平穩運行。
運維工程師該如何高效的處理各種問題,做好系統運維?筆者認為應該在平時做好優化,同時面對還沒出現的問題未雨綢繆地做好對策。下文將就信息系統運維模式及其優化對策進行簡單的闡述。
(一)系統故障由運維工程師解決(被動式運維模式)
在平時的運維過程中,有一種最普遍的運維模式,那就是被動式運維。這種被動式運維在故障處理中是最為常見的一種。
通常,這種運維模式是由使用者發現系統故障,使用者聯系運維工程師,運維工程師對故障進行處理,最終解決問題完成該次信息系統的運維動作。這樣的運維模式和解決方法最直觀,但是卻是一種效率低下的被動式運維模式。
因為這樣的運維模式“反射弧”太長,面對故障的響應時間存在延遲。從發現問題到解決問題的過程往往拖沓耗時,甚至可能因此直接影響到整個信息系統的正常運轉。在這種運維模式中,系統出現了問題和故障且具體影響到系統使用或正常生產活動。這時,相關使用者發現后,才將其上報給運維工程師,運維工程師再對問題和故障進行處理。
其實這個問題和故障可能早就顯現,也可能更快更高效的解決掉。因為,在系統發生某些嚴重的問題和故障前,可能早就已經已經存在某些小的問題,但由于并沒有影響到具體使用,于是作為非專業人員的使用者,對此類故障一般不會注意到或是得過且過的忽略掉這些問題。須知,千里之堤毀于蟻穴,正是這些被忽視的小問題,不斷累積放大,最終發展成為影響正常使用的故障。
(二)系統故障由使用者和運維工程師共同解決(干預式運維模式)
隨著各類信息化系統的應用日益廣泛和普及,使用者在使用的過程中或多或少地接觸過故障,甚至解決過簡單的系統問題和故障;亦或通過自身學習進而掌握了部分故障的處理方法。于是,在工作時發現系統中的小故障以后,使用者會先嘗試自行處理和解決,在解決問題和故障的同時進行上報知會運維工程師。如故障無法解決時,運維工程師已經有了前期的報備和了解,再進行處理會減少故障處理的延遲。
這樣的模式,筆者稱之為干預式運維模式:由接觸系統最多的相關使用者作為最早發現系統問題和故障的“前端運維工程師”。作為第一線的系統使用者,面對系統中存在的問題和故障會比運維工程師發現得更早更快,由他們在初期對問題和故障進行處理大大縮短了故障解決的響應時間。
這樣的模式要比傳統的動式運維模式高效,也容易將小的問題和故障扼殺在搖籃里,提高整個系統的健康度和運維效率。
(三)系統故障由監控報警運維工程師第一時間解決(預警式運維模式)
如果想要比人更快發現問題和故障,那么就需要在系統本身上做文章。一套成熟的監控系統在信息系統運維過程中至關重要!
為了解決故障發現到解決的時效性的問題,通常會開發相關監控系統配合主系統運行,這套監控系統會實時監控主系統中部分關鍵項目,一旦發現故障和問題的端倪立刻記錄并報警。這樣的報警監控系統會讓運維工程更快獲取到故障信息,縮短故障處理的時長。而這樣的運維方法可以稱之為預警式運維模式。
筆者根據自身在工作中的經驗和不斷的學習歸納出了一些想法和優化策略。主要從以下這些方面完善和優化。
(一)轉換思想,從保姆式管理(被動式)向主動干預式管理轉變
很多公司的管理層對運維的理解比較單一,他們認為運維就是:使用者在工作中使用系統時出現了問題,進行匯報,隨后由運維工程師進行處理。殊不知,這樣的思想和運維模式最容易在使用者中滋生出坐、等、靠的不良習慣。只要是系統出現的問題,不管問題多小多簡單,都必須由運維來處理。甚至有的員工因此產生惰性,滋生“系統出現問題剛好可以磨洋工,等待運維解決期間趁機休息偷懶”的不良現象。
雖然,運維解決單個簡單問題的時間不會太長,但隨著網點數量增加、故障上報數量也會隨之增加、造成的單據排隊等待解決的狀況將不可避免,直接導致等待時長的大幅增加。這樣的結果就是:正常業務運行受到影響、問題等待處理時長增加、運維工程師資源浪費;進而造成一線網點顧客(或相關人員)投訴事件增多(直接影響公司、單位的美譽度和口碑)、對員工上班熱情和積極性產生不良影響。
要改變這一現象,筆者認為,應當由上至下進行思想轉變。首先,我們可以將簡單的、不涉及到經營基礎數據的故障處理方法教給使用者,讓其自行排查解決。同時為了避免使用者的不專業造成“越幫越忙,越修越亂”的狀況,對系統使用者進行適當的培訓。
具體方案是組織力量,將簡單故障處理的方法以文檔、視頻等方式進行匯編、培訓,切實提升使用者處理問題的能力。 不再做使用者的保姆,事無巨細什么都出手;而是讓他們成為“第一線的前端運維工程師”,及時發現問題,一邊解決一邊報備,實在解決不了再由運維工程師出手解決。
(二)轉變管理,做好主動運維
俗話說得好,“進攻是最好的防守”,面對問題主動出擊,將小問題和故障扼殺在搖籃里,無疑是提高運維效率的捷徑;而對于信息系統中的問題和故障,比使用者更清楚的是“系統自己”。
在監控系統方面,首先,運維團隊可以從日常故障中總結、歸納出隱患型故障,針對這些隱患項,有的放矢的開發監控平臺或監控手段。同時完善工作職責,將監控與故障隱患報警處理合并,首問負責,這樣更有利于高效徹底地處理每一條報警信息涉及的故障隱患。
其次,建立健全數據備份機制,對于關鍵數據、軟件、甚至服務器配置等,要盡可能做到實時備份。只要我們做到了這兩步,就是對系統故障和問題最有力的防守,這種以攻代守的主動防御模式會在問題出現前就“解決問題”或是做好準備。而且,完善的備份機制是應對突發災難性故障的重要保障。
(三)利用機器學習技術,實現智能運維
隨著科技的不斷發展與進步,各個領域都有了革命性的變革。對于系統運維來說更是科技的前沿和尖端。這個時代,各個企業的服務器規模、虛擬化節點、計算存儲性能都在成百倍的增長。在這種情況下,但靠傳統的人工運維,越來越無法滿足運維需求。
這時候,利用機器學習技術,實現智能運維把AI帶入運維里是未來最高效的運維方式和途徑。就拿監控的報警信息來舉例,傳統的逐個遠程處理已遠遠不能滿足需求,未來,運維工程師們應針對報警處理方式進行探索,利用機器學習等技術、實現故障自動診斷自動處理以及風險操作遠程觸發處理等,只有這樣才能適應現代企業信息化高速發展的腳步。
讓機器學習的目的就是實現“智”。怎么樣讓機器獲得這個“智”呢?在系統運行中,故障和問題會以各種千奇百怪的方式出現,我們首先可以通過不斷地對歷史數據中的故障場景分類和詳細標注讓機器進行學習,當機器能自主進行較細致的劃分和標注后我們可以讓其不停地在這種模塊化的數據中進一步識別和學習運維工程師的處理方式。之后再讓機器在各種新發事件中尋得一次次耦合,完成其判斷體系最終讓機器可以自行做出精準的判斷和處理。
這就是未來最高效的運維模式。弱化對運維工程師的需求,增強機器的能力,讓機器做到面對故障和問題精準的做出自我判斷和解決處理方案。
信息系統作為輔助工具,已日益深入各行各業的生產經營活動中,運維工作也將成為一個炙手可熱的職業。在這樣良好的環境中,運維工程師需要立足自身、不斷學習、勇于創新、推進產業與技術的相互融合才能有力的推動信息系統業務應用更上一層樓。讓信息系統的運維工作越來越優質是每一個運維工程師的光榮使命!
作者單位:中國石油天然氣股份有限公司廣西銷售分公司