張翼
關鍵詞:IT;運維;一體化
1引言
近年來,IT運維從被動運維逐步轉向主動運維,但在運維體系、運維管理、運維工具等方面還存在差距和不足。集團公司進一步明確了“集中共享的一體化IT運維體系的發展方向”,同時總部組織統籌規劃設計了一體化IT運維總體方案,開展了一體化運維平臺建設,旨在通過建立一套“可管、可控、可視、智能”的統一IT運維平臺,將一體化IT運維體系在全集團落地實施,并充分利用自動化運維工具、機器學習、大數據分析等技術,提高IT運行的標準化、流程化、集約化、自動化和智能化水平,進而提升風險預警和決策分析能力,實現集團信息化服務卓越運營。因此,圍繞一體化運維平臺建立一套集團公司統一的一體化IT運維體系已成為當下迫切需要解決的時代課題。
2背景
2.1數字經濟時代下業務變化和新技術廣泛應用,推動IT運維管理模式變革
運維服務在保證基礎設施穩定的情況下,更多關注業務需求、應用系統和服務;云計算等新技術的廣泛應用,驅動運維服務的對象、方式、工具和服務能力發生轉變:業務對IT依賴性增強,應用系統復雜度不斷提高,對運維服務效率、質量和自動化程度的要求越來越高。以上變革要求IT運維對象的集中化,運維模式的遠程和雙態化,運維工具的自動化、智能化,從而提高運維效率,實現智能預測分析和輔助運維決策。
2.2IT運營從系統設計開始進行全生命周期管控
ITIL,IS020000和工信部ITSS等標準中均強調IT服務的全生命周期管理。IT運營的服務能力,以及對業務的支撐度和用戶滿意度應從系統設計構建階段開始建設,需要建立體系化的IT運維管控機制,以進行全生命周期管理。
2.3IT運維向智能化、集約化方向發展
在信息系統規模、復雜程度變化等方面,IT運營管控的發展經歷手工運維,流程化、標準化運維,自動化、平臺運維,DevOps,AIOps五大階段,信息系統規模及復雜度的提升促使IT運維管理探尋集約化解決方案,以推動IT運維向智能化、集約化方向發展。
3基于一體化運維平臺的運維管理的主要做法
3.1建立健全一體化IT運維標準體系
3.1.1完善制度標準,滿足一體化IT運維實際需要
為滿足一體化IT運維體系建設需求,在已有標準規范的基礎上,借鑒ITIL,IS020000,ITSS等標準體系,建立四層三類的IT運維標準規范體系,主要包括《信息系統運行管理辦法》《信息基礎設施運維維護管理辦法》等3個管理辦法、14個細則/指南,用于指導和規范運維過程和運維行為。
3.1.2建立CMDB數據標準,規范數據配置和變更管理
調研集團公司和試點企業需求,全面梳理集團和試點企業的應用系統和IT基礎設施資源,參考借鑒了電信行業標準YD/T 1926.5-2010《IT運維服務管理技術要求第5部分:配置管理數據庫》,建立統一的配置管理數據庫( CMDB),以實現所有IT數據資產標準化、透明化、集約化管理。
(1)完成CMDB數據標準的設計。由于各企業管理維度與側重點不同,配置項屬性要素存在較大差異,依據信息系統運維中對各技術層次的具體管控要求,并參考行業標準和成熟經驗,通過對原始數據的梳理和優化,修訂配置項目錄分類,按照“以應用為中心”的原則,圍繞應用自上而下地進行詳細設計,形成了17個一級大類,78個二級分類和596個配置項標準要素,并完成配置項名稱、編碼、類型、數據等標準化設計,以形成統一標準模型。設計統一的CMDB屬性庫,既保持了全部屬性的唯一性,又避免了二義性和相同數據重復收集的問題,便于信息的統計與消費,進而提升數據的可用性和可管性。
(2)明確配置項的約束原則。為確保在推廣實施和運營過程中嚴格保持標準,對配置項進行了明確的規范與約束,制定了配置項命名標準、字段編碼標準、數據填寫規范、數據源采集規范等,以保障全集團CMDB數據的統一維護、治理、查詢、統計、應用,便于對配置項調整進行集中優化調整,進而維護全集團統一、權威的CMDB模型。
(3)建立CMDB配置流程。打通CMDB全生命周期管理,確定模型建立、修改、數據更新、數據審計等流程,形成CMDB數據消費與CMDB數據更新的雙向促進,進而實現配置項模型及數據標準化的落地。
(4)為保障數據的準確性、可用性、合規性、安全性,設計配置項數據審查規范和數據質量報告,以有效避免相關信息存在重復收集的現象,同時提高數據收集的完整性,進而對數據標準化進行優化反哺,為提升數據分析能力、實現數據深度挖掘能力、完善數據消費場景提供了有力支撐。
3.1.3刻畫集團公司統一運維流程,實現IT運維作業標準化、規范化
(1)設計了標準化的流程模型。根據試點企業服務流程缺乏統一標準規范的問題,以及企業流程流轉實現方式多樣化、個性化的現狀,并結合業內最佳實踐,設計制定了流程模型標準,包括命名編碼規則、標準字段集、表單標準、流程節點標準,全面覆蓋流程配置各個節點,有力地支撐后期運營工作的開展和運維服務行為的統一管理。
(2)完成了流程的標準化。隨著一體化運維平臺在試點企業推廣實施的不斷深入,無論從管理角度還是實施角度,流程的統一標準化日趨重要。為更好地開展企業實施工作,結合前期試點企業流程調研內容和標準模板設計,并通盤考慮企業的共性和個性化需求,確定了ITIL類、服務請求類、通用類、應用系統類4大類共29個標準流程,實現了具體流程的標準化落地和業務全覆蓋,加快了實施進度,切實提高了企業實施質量效率,為后續企業推廣實施和運營夯實了基礎。
(3)完成了集團和企業流程的統一融合。企業端服務流程可分為企業內部閉環流程和跨總部租戶流程兩類,跨租戶流程涉及企業、總部兩個租戶,同一個服務流程請求提報需在兩個租戶下進行,操作過程復雜煩瑣,服務過程質量管控困難。針對此問題,設計了跨租戶流程協同機制,企業用戶只需在本租戶內提交申請,系統將企業工單以遠程工單的形式自動轉發至總部租戶下,企業表單信息自動寫入,自動觸發總部租戶相關流程,處理完成后回傳數據,自動形成完整閉環。跨租戶流程協同機制打通了總部與企業、租戶與租戶之間的壁壘,簡化了企業用戶操作步驟,提高了管控質量、客戶體驗和運維效率。
3.1.4建立并落地監控告警標準,確保系統穩定運行
針對各企業監控對象的指標多樣化、非標化的問題,結合行業最佳實踐,開展調研、配置、驗證,實現了監控標準化。
(1)制定監控調研表及核心指標集。依據企業特色,結合廠商及行業實踐經驗,制定了監控調研表及核心指標集,內容涵蓋操作系統、數據庫、中間件、網絡設備、服務器、存儲、應用系統等7大類、16小類、330余個指標項及閾值。
(2)制定監控配置標準流程。根據反復實踐和總結提煉總部和試點企業監控配置實施方法,制定了監控配置標準流程,內容涵蓋環境準備、監控部署、監控策略配置、標簽、監控視圖等監控實施全過程,其規范了企業監控實施標準過程,提高了實施效率。
(3)制定告警規則。按照企業實際業務線條設置告警通知人,通過短信、郵件、站內信等方式實時將告警信息推送給相應運維人員,使企業能夠實時監控應用系統和IT基礎設施運行狀態,從而全面有效地掌握重點信息設備和關鍵應用的運行情況,并結合CMDB、告警策略進行統一告警、故障定位及關聯分析,及早發現問題,實現故障快速定位及恢復,以保障系統穩定運行以及業務的連續性。
3.1.5完善用戶權限標準,實現用戶權限的強管控
一體化運維平臺現有用戶及權限管理缺乏多個組織機構并行的標準化、一致性的權限架構設計,管理模式過于粗放,難以有效支撐企業內控要求的用戶與崗位的權限分配。
(1)梳理系統現有問題。結合企業ERP、費用報銷用戶及權限多年運維經驗,分析運維系統問題:該系統權限分配是用戶對應角色,缺少用戶崗位及業務范圍的層級結構,權限架構層次單一,系統運維人員權限管理的范圍與企業權限管理員的操作范圍很難細分,在權限分配時容易導致權限過大的情況發生:該系統擁有權限基礎結構——角色創建權限的人員范圍過大,其中包括系統運維人員和企業管理員,在角色維護時,任意增加角色數量,角色隨意關聯,且角色之間功能交叉,導致權限模塊基礎數據量只增不減,冗余數據大量產生。
(2)進行系統用戶權限標準化設計和配置。參照ERP大集中權限管理的設計理念,引入風險控制方法,以內控制度要求為指引,按照權限最小化原則,從功能和數據兩個維度來創建角色,在組織機構的范圍內創建用戶組,通過用戶組向用戶賦予系統權限。通過用戶權限的標準化,建立一體化運維平臺的標準化權限矩陣,以確保標準化貫穿于企業應用的全過程,從而提高系統運行效率,減少企業上線實施的工作量,實現權限運維與業務操作的職責分離,以及實現對用戶權限的強管控。
3.2打造集團公司IT運維統一呼叫中心,實現運維統一入口管理
(1)統一了集團IT運維的人口,打造統一人口。一是統一IT運維新平臺門戶提報人口,實現用戶資源申請、問題咨詢等自主提報,二是統一IT運維呼叫中心熱線電話人口,總部、企業用戶撥打400-XXX-XXXX熱線電話。
(2)建設提升服務工具,呼叫中心業務平臺與一體化運維平臺工單模塊、客戶信息模塊、報告報表模塊、知識庫模塊四個模塊的集成對接需求確認及開發提升,完成了呼叫中心業務系統集成短信平臺、質檢模塊、考試模塊、呼損問題等9個主要模塊的29個功能點的需求對接確認及開發提升。通過平臺集成,實現熱線來電產生工單并可派單流轉,形成完整運維事件的閉環,從而統一運維管理。
(3)形成完整的呼叫服務管理,通過統一人口提供統一服務,確定了以“接聽率”“滿意率”“解決率”等為核心指標,并接受集團公司及各用戶監督,做好內部服務管控管理。設立9號投訴與建議專線,暢通用戶反饋問題的渠道,做好投訴與建議、滿意度評價的100%跟蹤回訪,做好問題受理閉環。
4基于系統完成運營設計,實現IT運維統一協同和集中管控
按照系統實現集約化、規模化管理的目標,面向企業制定了運營工作服務目錄,其中包括用戶及權限、租戶管理、門戶運營、運營分析、CMDB運營、應用支持等工作內容。
(1)設立多租戶,租戶內部擁有完整獨立的運維系統,能夠完全按需實現數據隔離,能夠適配自治運維、托管運維等多種運維模式,運營租戶能夠更好地滿足管理者需要,無縫切換到各租戶,支持透視各租戶的關鍵數據,支持全局策略的統一配置和自動分發,拉通各租戶之間的運維協同,從而輕松掌控全域運行態勢。
(2)通過運營租戶全局維護功能,實現對標準角色和用戶組、CMDB模型、流程模型、監控指標模型的集中管控,不允許普通用戶進行標準化模型修改,從功能上實現標準化管理。通過全局數據查看功能,對全域數據進行收集、整合、分析,以可視化和報表報告方式進行展示,從而為管理者決策提供數據支持。
(4)對于IT業務規模較小的企業,創造性地提出公共租戶概念,支持多個企業共用同一租戶,主要是針對自身基礎設施、自建應用數量較少,且不具備獨立運維能力的企業,出于資源集約化、共享化考慮,不單獨設立租戶。使用公共租戶,實現資源監控、流程管理、CMDB管理的集中管理,統一服務人口。在技術上,通過設計用戶組和角色,以權限管控實現不同企業在同一租戶下的數據隔離,以滿足企業數據保密需求。
5建立IT運維統計分析和評價機制,增強運維服務質量管控
建立信息系統運維評價標準和指標,以客觀反映運維交付團隊的服務質量,全面掌握運維實際。通過管理模塊提高服務計量、服務商等精細化管理水平,以推動企業整體IT運維服務能力和管理能力的提升,從而為集團公司運維數字化轉型、高質量發展助力。
(1)收集、梳理企業在服務商管理、計量管理、知識管理、服務水平管理、報告與報表、可視化視圖等業務方面的需求,設計各功能需求和業務模型、關聯邏輯、表單模板、報表模型等標準化模板。
(2)結合ITSS梳理擴充指標庫大類24項,含指標200余個,完成105個指標取數邏輯,可落人系統自動取數。
(3)匯總業務場景,服務報表、報告形成了5個一級大類,20個二級分類服務報表、50個三級分類服務報表,4個服務報告模板。通過標準服務的報告,實現運維數據的統一管理、查詢、統計、消費。
(4)完成資源統計、告警統計、工單統計、SLA統計、應用系統狀態等21個管理可視化視圖,解決了決策層、管理層、執行層三個層面的管理需求。
(5)完成了知識庫管理的設計和落地,按照企業現狀科學劃分了知識分類,形成了68類知識模板,明確了知識來源、知識應用場景、知識審核、知識發布、知識巡檢、知識共享,有效解決了隱性知識不顯性化、知識沉淀度差、運維人員無法針對性獲取有用知識的問題,實現了知識的有效管理,從而整體提高IT運維人員能力和水平,以及提高運維服務質量和服務效率[1-2]。
6主要實踐效果
6.1實時監控告警閉環管理保障業務連續性
通過對基礎設施的主動采集和事件接人,結合告警策略和告警規則、告警展示和性能展示,分別為各類運維角色提供對應的告警查看視圖,支持告警處置業務,以確保告警的及時接手、實現告警的閉環管理。
6.2IT資源管理實現IT資產線上化全生命周期管控
通過對基礎設施和應用系統的資產配置信息管理,提升對IT資源資產的管控能力,結合流程管理、SLA管理功能,將組織、人員的運維工作電子化,以實現有效透明跟蹤、合理的質量管控。
6.3自動化、智能化提高IT運維效率和應急處置能力
通過對基礎設施的納管,構建自動化運維能力基礎,落地自動化場景,逐步解放人力,提高運維效率;結合智能化運維的能力,初步形成動態閾值、趨勢預測場景,逐步提升AI運維能力,從而提高IT運維效率和應急處置能力。
6.4服務質量管理和評價機制促進IT運維可管可控能力提升
通過對基礎設施和應用系統的資源、性能、運維過程等進行統一管理,結合統計分析、可視化功能,形成面向管理團隊的決策支持數據,以提供運維服務考核評價能力,從而提升IT運維的可管可控能力[3]。
6.5線上化、流程化運維管理提升IT運維服務水平
通過服務門戶、服務目錄功能,構建面向用戶的服務門戶提報人口,結合流程管理響應用戶請求;通過值班管理、知識管理、例會管理,為運維團隊提供日常運維工作的輔助,從而提高IT運維服務水平。