魏 豐,操張進,程 炎,吳傳杰
(中國移動通信集團安徽有限公司,安徽 合肥 230009)
政務云成為重要的新型信息基礎設施,承載著各類關鍵的民生、政務類應用及數據,其規劃、建設、運維、服務、安全管理標準遠高于傳統云平臺。三大電信運營商近年來全向發力政務云業務,目前市場占比37.6%。如何應對政務云運行中的行業安全風險,探索和統一安全運維標準,提升資源池的整體安全穩定性,以及如何統籌管理分散于各地區的云資源池,優化貫通業務與運維的流程和系統,提升運維響應與接維效率,成為運營商云改過程中迫切需要解決的內在訴求與難點。安徽移動探索與建立了省市一體化的政務云運維支撐體系,全面提升政務云的安全管理與服務水平,支持行業云的發展。
做好平臺性能與客戶需求的數據收集與匹配,針對電子政務系統業務架構類型多、需求多樣化的問題:
面向業務前端,建立業務上云需求信息對接機制,制定通用云上業務場景匹配與資源評估表,重點從資源、性能、功能及應用結構等方面協助業務支撐部門收集上云業務的特點及業務量數據,合理評估資源池承載能力,提前協調準備資源工程并開展業務平臺適配工作。
面向平臺自身,梳理平臺服務目錄、產品能力及兼容性信息。獨立部署生產測試環境,重點針對平臺性能,搭建模擬化的客戶業務場景,從公網、平臺內網兩大場景,針對不同網絡層次開展端到端性能壓力測試,收集驗證云平臺關鍵網元的不同場景下的業務適配性能指標數據。
面向客戶側,關注業務上云的條件與工具手段,針對早期的煙囪式架構客戶,提供云平臺兼容性數據,輔助客戶進行業務改造;對于無需改造的業務架構,例如客戶側無遷云團隊的情況,提供CloudBus 等集成商遷云工具輔助客戶遷云。
面向內部做好響應標準落地與跨部門的工程及業務流程對接,面向客戶做好業務資源發放、配置變更收集與業務上線測試工作。
制定云資源申請、變更及回收流程處理時限指標,提升流程響應支撐效率。拉通與數據中心管理系統、信息備案系統與監控平臺的流程,編制云產品配置信息收集表,在上云過程中實現網絡訪問及產品策略、域名及服務信息備案、業務告警監控閾值的統一收集與配置,提升關聯服務支撐效率。配合客戶執行業務上線測試,同步關注功能性與安全性,強制執行應用及系統漏洞掃描與基線檢查。
確保業務穩定運行,重點關注運行監控、可用性與應急保障。
業務運行監控層面,除運營商負責的云及安全設施、網絡鏈路、系統平臺層面的性能及容量的巡檢與監控以外,針對客戶業務層面的運行狀態,建立與引入全流量鏡像分析工具,觀察匹配業務端口,實時關注會話質量;針對頁面類的應用,協同客戶收集訪問目標鏈接及應用地址,統籌利用三網(移動、電信、聯通)撥測探針模擬客戶端執行主動撥測,確保端到端監控。
數據及業務可用性上,定期針對云上客戶執行可用性風險評估,依據客戶使用的云產品類型、業務架構、保障需求、容量性能監控數據,結合資源池的能力,面向業務前端研究制訂與推薦優化方案,協助業務的可用性提升與持續發展。面向客戶,梳理建立通知與發布的流程規則,確保信息通報與各類服務、故障、可用性、安全等報告的質量、時效與合規性。
應急與保障方面,根據上云業務特點,制定與匹配覆蓋硬件、網絡、系統、存儲及安全層面的應急保障流程,協同業務側開展可用性應急演練,定制與落實運維作業計劃,指定告警、客戶需求與投訴的響應時限,確保問題需求的實時處置和清零。
除滿足政務行業所需的網絡安全等級保護2.0標準外,以ISO27001體系為基礎,CSASTAR 為主體,融合ISO27018數據隱私保護及ISO20000服務管理標準構建云上安全管理框架,確保安全管理覆蓋基礎環境、云上設施、數據接口、人員操作及應用服務等各環節。
整體通過態勢感知系統,匯集資源池主機、網絡及安全等全網元日志信息,實現云上安全統一態勢分析、安全信息預警與安全聯動處置。
(1)人員管理方面:運維人員上崗前執行安全意識宣貫與培訓,通過安全考核并簽署安全生產及數據隱私保密條款;重要崗位配備AB 角,定期執行交叉培訓與職責輪換,降低人員安全風險。
(2)設備管理層面:云上設備全量接入4A 管控平臺,通過角色授權機制,確保權限最小化分配。針對特權賬戶及重要設備,定期執行操作與日志的安全審計。采取默認拒絕原則,嚴格限制訪問目標及路徑,實現數據訪問的精細化管控。
(3)操作與作業管理上:基于風險的評估,制定云上維護操作分級分類表。針對不同級別的操作,規定特定的執行時段、流程與標準:重要變更配置類操作要求提供標準化的計劃、執行與回滾方案,通過正式流程申請操作時間窗口,經過技術及管理側評審授權后方可進行,執行時要求一人操作一人審核,完成后進行業務驗證、信息發布與歸檔閉環;普通維護類操作通過簡化流程記錄、執行與歸檔,以兼顧安全合規與運維效率。落實平臺運行健康檢查,常態化執行云上業務及系統漏洞與配置掃描,開展滲透測試,向業務側推送安全報告及預警通知,確保云上安全防御水平。常態化開展安全及故障推演,挖掘與分析云上風險點及影響范圍,針對性地制定應急響應與處置措施。
(1)統一云資源:制定標準資源目錄與資源拓補框架,對接地市資源池,將多池的硬件設備、云基礎設施、云產品、業務以及賬號等資源信息進行整合、分析與呈現。同時北向與集團云網平臺互通,實現省內政務云資源的上報與網資源信息的獲取同步功能。
(2)統一云告警與性能庫:實現個體設備與資源池級別的告警及運行監控數據的匯聚、分析、處理與呈現,解決了各政務云資源池部分三方安全設備的告警及監控數據無法集中管理的問題。充分利用運營商優勢,北向對接省級監控中心,形成省市二級監控保障機制。
(3)統一云運營管控:北向連接云網中心、業務工單系統,提供資源容量上報及云業務流聯通,南向對接各云資源池進行云業務編排,實現云上業務全生命周期管理。提供業務視圖,實現業務容量、用量計量的統一管理。提供運營分析與服務報告,綜合提升用戶感知。
(4)統一運維管理:推進省市運維協同。融合ITIL管理框架,實現云平臺性能、容量、質量、安全、故障、服務、投訴事件及問題的快速響應與流程化處置;實現工程、操作、配置及作業的規范化審核、執行、歸檔與審計。
(5)統一客戶服務入口:建立客戶自服務門戶,作為傳統熱線與郵箱的補充手段,為云上客戶提供便捷、安全、多樣化的服務入口與信息交互渠道。開放云業務運營視圖、云產品自動化運維與配置變更、問題投訴的辦理窗口,提升業務上云后的服務效率。安徽移動自2020年政務云省市一體化運維支撐體系推行以來,已陸續應用于安徽省級政務云以及包含合肥、滁州等5個地市政務云資源池。面向客戶,為安康碼、網上政務等在內的100余重要民生及政務應用提供了安全穩定的運行環境、標準統一的運維支撐服務。面向內部,解決了云改過程中政務云服務支撐過度集中省公司的問題,極速提升地市級政務云高效平穩接維能力,有效提高面向客戶及業務的服務支撐能力,云上業務安全閉環處置效率大幅增強。
綜上所述,文中運維支撐體系面向運營商省市政務云資源池統一化納管、建設與維護場景,從客戶服務支撐、云上安全構建與平臺手段建設三個方面,提供高效的服務支撐與安全運維管理框架體系,助力運營商云改戰略落地,為運營商政務云建設運營提供實踐案例。后續將重點圍繞云網協同,探索云平臺智能化運維管理與服務支撐手段,持續提升云智能化運維、一體化支撐、端到端安全管控能力。