田國偉
隨著數字化改革的不斷創新與推進,以單個體傳統的業務系統為對象的小運維方式已經不能適應數字化改革的推進步伐,跨層級、跨地域、跨系統、跨部門、跨業務等多跨協同場景越來越復雜,從平臺衍生出來的應用越來越豐富,運維需要保障的范圍隨之擴大,“大運維”應運而生。所謂“大運維”,即整體運維,包含由多個系統組成的整體大平臺及平臺上衍生的各類應用的整體運維,是對整體成效負責的全生命周期的運維。以浙江 “互聯網+政務服務”平臺為例,該平臺由50+子系統協同組成,背后是20+服務開發廠家,而由平臺上衍生出的各類三方應用1000+,各系統之間存在復雜的多跨鏈路和接口調用關系,具有統一化、標準化、規范化的大運維體系保障尤為重要。
面對多廠家多業務系統組合而成的大平臺,不同的系統架構,不同的開發語言,參差不齊的人員技能的現狀,對外需整體輸出一套穩定的平臺服務于政府的整體數字化改革,如何保障日常運維工作的順利進行、監測線上各系統的運行狀況、保障整體系統的穩定運行及突發事件的處置以及為線上各系統的穩定運行提供可靠的數據支撐等是大運維面臨的挑戰。
大運維要站在全局視角統籌運維的整體工作,制定統一的運維規范、流程和制度;明確運維責任和邊界;建立完善的運維協同機制,將整體大平臺的運維工作連成網;統一運維管理工具,支撐各項運維工作,沉淀運維數據;通過綜合匯聚多樣化的運維運行數據,即時感知和預警各系統的運行狀況,從而保障整體平臺的穩定運行。
大運維的總體目標定義為“安全、穩定、高效”,整體系統無中高危安全風險,無數據信息泄露;整體系統服務達到規定的服務可用度(SLA);整體系統服務資源申請規范,使用合理有效。
為實現運維的整體總目標,需要制定一套完善的大運維體系做好保障支撐,并不斷在實踐中打磨和總結完善這套體系,才能有效地支撐整體平臺的運維服務。整體大運維體系包含了四大部分。
(一) 運維核心體系制定
整體定義四個核心體系。
1. 指標體系:整體大運維從穩定、安全、高效三個層面定義運維指標,穩定分為可用性、可運維性、可管理性三個方面,可用性從故障數量(按照P1-P4進行故障分類)及故障影響時長定義整體服務可用性SLA指標;可運維性從故障發生的監控覆蓋度、監控有效性及監控報警響應時長定義指標;可管理性從變更工單覆蓋度及巡檢覆蓋度定義指標;安全分為安全態勢、安全能力兩個方面,安全態勢從系統安全事件數、安全防護數定義指標,安全能力從安全檢查覆蓋度、安全監控覆蓋度、風險隱含改進率、時間處理達標率來定義指標;高效從基礎資源實際資源最大和平均百分比占用率來定義指標,CPU利用率不低于30%,內存利用率不低于40%,磁盤利用率不低于50%。
2. 工作體系:整體定義運維工作體系,定義運維管理組、運維工作組、運維安全組、運維執行組等并規范各組織職責和人員;運維管理組由省局分管領導、部門負責人,集成單位領導和集成單位技術負責人組成,負責制訂運維工作規劃;審核并發布運維相關制度,進行重大運維事項決策,對集成單位運維工作進行考核評估;運維工作組由省局項目負責人、集成單位運維負責人組成,負責制定運維工作計劃,統籌落實運維工作方案,協調整體運維管理工作;依據相關溝通機制,定期就運維相關工作進展向運維管理組匯報;不定期對信息系統運維人員、日常運維工作、系統架構穩定性、安全風險等開展監督檢查;運維安全組由省局安全負責人、集成單位安全運維負責人組成,負責信息系統安全運 維管理工作,提出安全運維工作規范和制度,并推進安全運維工作的執行。
3. 規范體系:整體從人員、資源、安全、故障、變更、巡檢、重保、監控、考核等多項定義運維管理規范,提升運維質量和效率,保障系統的穩定性和安全性,對所有業務系統進行指導和督查作用。
4. 考核體系:整體根據各系統場景,制定運維考核細則,考核從監控報警、系統故障、服務支持三個層面綜合評價運維服務質量,在監控報警方面,按照發生故障的監控覆蓋度,監控有效性及故障響應時長是否達標作為考核重點;在系統故障方面,按照事前梳理好的業務場景和核心系統定義,根據故障發生的時長和故障實際的影響范圍進行故障等級判斷,設定P1-P4四個等級,其中P1等級最高影響范圍最大,根據全年服務可用度進行故障時長拆分,對超出故障允許時長外的情況進行考核;在服務支持方面,分為運維類工單問題閉環率、駐場人員考勤、人員服務態度、歸屬自身系統的資源使用率是否達標、線上操作是否存在違規操作、核心接口請求率是否達標、數據庫慢查詢治理及安全風險問題是否及時修復為考核重點,定期考核通報、晾曬,同時根據考核成績進行約談、獎懲,對年度考核不達標低于最低分數線的服務開發單位啟動退出機制。
(二)運維保障團隊組建
根據業務屬性組建運維專項人員保障,對所有服務安排7X24值班監控人員,第一時間發現和通告報警信息,提升故障及時響應率和縮減故障影響時長;對所有終端用戶反饋的問題安排客戶服務人員,積極響應和歸類下發反饋的問題,建立問題閉環和回訪機制,提升客戶服務滿意度;對所有接入到總平臺的應用安排技術支持人員,提供技術對接服務,規范應用的接入標準;對所有應用系統安排運維人員,做好日常系統服務保障;對整體平臺安排運維開發人員,規劃設計和開發統一運維管理平臺,為整體大運維提供運維工具支撐;對所有系統安排安全運維人員,建立運維安全規范,提升系統、數據安全保障能力;對所有接入總平臺的系統廠家安排運維管理人員,管理日常廠家運維工作,審查系統風險,提升系統穩定性。
(三)運維管理平臺籌建
統籌規劃設計和開發統一應用運維管理平臺,平臺作為運維管理統一入口,實現各類運維數據的快速查詢,對所有線上的運維數據進行實時的匯總、統計和分析,為線上穩定性的運行提供可靠的數據支撐,通過平臺實現。
1. 運維平臺統一化:通過和統一應用運維管理平臺的對接,實現各項目系統運維過程中涉及的多套系統、平臺、工具等統一入口化,一個賬號可查詢到多套系統多個平臺的運維數據,實現運維管理統一、易用。
2. 運維服務標準化:通過平臺的對接,實現各類審批流程標準化、在線化,將復雜的各類運維流程規范進行標準化對接和輸出,實現運維整體流程標準、可用。
3. 運維數據可視化:通過和各類平臺、工具的對接,將線上的運維數據進行實時匯總展示分析,把不直觀的運維數據通過圖形等方式將運維數據實時呈現,實現運維整體數據透明、可視。
4. 運維監測自動化:通過和各業務系統的后臺對接或人工配置等方式,實現對線上各系統的站點、頁面、接口、在線事項等信息按照指定的規則進行服務自動化7X24監測,根據不同的后臺規則進行告警分類并自動下發到相關負責人,實現報警信息及時、有效。
5. 運維服務可管理化:通過線上運維數據的實時匯總分析,對線上數據進行可視化分析后,對整體運維的穩定性和可用性提供數據支撐,提前發現線上問題,為運維提供可靠的數據支撐、判斷。
(四)運維技術保障強化
定期對線上系統開展運維事前、事中、事后全流程服務審查保障。
1. 事前運維體檢:大運維管理單位通過定期的系統穩定性審查,對全業務系統的服務開展事前運維體檢,重點加強對系統資源使用、服務網絡調用、上下游依賴關系調用、系統性能評估、服務部署架構合理性、服務配置優化等評估審查;在監控方面,加強對基礎資源、網絡請求、接口請求、服務主動監測等報警信息的完善,提前發現和預警線上問題;在日常巡檢方面,建立完善的巡檢制度和巡檢范圍,對核心服務或核心功能進行定期巡查,提前預防問題的發生,針對重大活動,提前制定完善的服務重保方案及應急響應,組織協調人員進行7X24服務保障。運維服務開發單位進行運維資產信息歸屬認領,配置服務監控報警,執行線上變更方案申請,進行服務日常巡檢及故障線上應急演練。
2. 事中應急處置:大運維管理單位根據日常制定的應急預案啟動應急響應機制,拉通干系人,協助對故障進行快速問題排查定位和恢復,并在故障處置過程中定期做故障通告。運維服務單位進行監控報警排查分析,根據故障場景進行應急預案啟動,進行服務快速恢復。
3. 事后故障復盤:大運維管理單位對故障發生的故障詳細描述、故障排查過程、故障影響范圍進行討論復盤,制定故障的臨時和長期解決方案,根據故障等級定義,對故障進行定級定責,輸出完整性行運維報告。運維服務開發單位執行故障修復計劃。
在整體大運維的服務過程中,根據已發生的故障不斷定期進行經驗總結,提煉故障原因,并對故障的原因進行分類,定期對服務開發單位人員進行運維故障總結會,對全項目系統進行舉一反三排查檢測,避免類似故障的發生。
今年2月,浙江全面開啟數字化改革。數字浙江技術運營有限公司在浙江省大數據發展管理局的領導下,建設了“大運維”體系。通過“大運維”體系化的建設與實踐推進,圍繞浙江一體化智能化公共數據平臺,頒布關于信息系統的運維管理規范12項,有效指導了運維的全流程服務過程,實現了運維流程審批全在線化。納入大運維的體系管理后,全方位梳理審查系統風險問題,對系統運維部署方案、服務系統存在的單點問題、性能問題、架構設計問題、服務配置參數優化問題、系統內核參數問題、服務監控預警問題、日志分析等問題進行集中審查評估整改。經過體系化的治理后,穩定性提升明顯,提前主動發現和推進各業務系統安全風險1000+,全年各類運維在線流程審批2600+,整體服務可用度全年同季度對比,故障總數量下降66%,故障總時長下降78%,為浙江數字化改革提供了可靠的運維保障。
隨著新技術日新月異的發展,大運維體系也要在保障的前提下不斷地做創新和探索,從傳統的運維方式上做變革轉換,從被動救火式向主動精細化轉型,主動分析,主動優化,驅動開發,提前發現和解決風險問題;從問題驅動向價值驅動轉型,以用戶體驗、服務滿意度、促進業務更好發展;從人肉操作運維向自動化運維轉型,通過運維平臺工具,實現運維自動化,提升運維工作效率和質量;從依靠經驗向智能化驅動運維轉型,結合運維在線數據分析、知識庫、機器學習技術等促進運維智能化發展。
在整個數字化改革的過程中,大運維還有很長的路要走,通過技術的不斷演進,體系的不斷打磨,運維服務的不斷提升,我們將會提供更加夯實的運維保障服務,為數字化改革添磚加瓦。