惠云龍


摘要:文章從理論和技術的角度,探討了金融行業“智能運維+安全監控”的建設。通過分析大數據、云計算等關鍵技術在金融行業中的應用,闡述了智慧運維安全體系對于提升效率、提前預知及實現運維工作自動化、數字化、智能化的重要性。同時,強調了智能安全監測監管的必要性,以確保多種安全運維場景的切實應用。文章展望了智慧運維安全體系在金融行業的發展前景。
關鍵詞:智能運維監控;數據類;安全體系;3D視角
一、項目背景
在金融科技迭代的推動下,科技賦能服務正在帶動金融機構數字化轉型,助力數字經濟高質量發展。黨的二十大擘畫了全面建成社會主義現代化強國、以中國式現代化全面推進中華民族偉大復興的宏偉藍圖,互聯網在便利群眾生活、孕育創新創造、推動產業升級和促進高質量發展的同時,也帶來新的挑戰。新時代新征程要深入學習貫徹習近平總書記關于網絡強國的重要思想,高度重視信息化、數字化發展,樹立系統觀念,做好管網治網的重要部署,不斷完善網絡綜合治理體系,推動網絡綜合治理效能持續提升。
對于城市商業銀行來說,早年間,高度集中式的應用運行在縱向擴展能力很強、穩定性非常高的IT基礎架構上,近年來,隨著新技術的不斷迭代,大數據、區塊鏈、云計算、人工智能等數字科技帶來的科技創新,發現發展數字金融有助于推動金融服務重塑升級和企業轉型發展,也能進一步賦能實體經濟高質量發展,但伴隨的是需要在保證現有底層具備更強的橫向擴展能力和動態伸縮能力的同時,還需要尋求更高級別的系統安全性和可靠性。綜合近年情況,城市商業銀行科技發展在信息安全運維面臨挑戰。
(一)運維難度增加
IT環境異構,業務系統繁多,無法快速適應復雜環境下業務系統的監控,同時由于IT資產規模大且分散,管理困難,缺少可視化管理產品與可靠的技術手段,導致故障定位效率不高,系統出現波動時,根因排查難度增大。
(二)跨部門協作困難
因新業務形態的產生和崗位職責的變動,在實際工作開展中,各部門職能難以清晰界定,部門間協作存在客觀難度。如何要求業務部門配合安全監管、如何提高工作效率及服務質量、如何確保事件處置及故障定位、明確每一件事情由誰負責及事件處置等難題需要根據行業先進經驗進行系統性規劃。
(三)自動化程度不高
運維工作缺乏系統化、規范化、自動化,線下運維工作如何切換線上,如何合理釋放人員內驅力公平公正績效考核,降本增效的同時又如何保障服務質量與滿意度,成為運維工作的難題。
(四)業務的復雜訴求與組織轉型困境
隨著業務系統的敏捷轉型,行業內正構建科技與業務融合的架構體系,技術團隊如何從煩瑣耗時的監控工作中剝離,擴展團隊技術域,以適應業務轉型需求,體現信息科技價值是工作的重點內容。
(五)安全管理需求
隨著信息安全需求的不斷增長,行業內IT系統的管理人員逐漸發現他們迫切需要掌握多種安全知識和技能,需要更廣的知識面和更深的安全技能,從而做到對全網安全形勢的有效把控才能應對未來的數字發展。城市商業銀行IT人員不足已是常態,安全技術對專業技能苛刻的要求,導致真正懂安全的人才更是少之又少;現今市場上的專業化安全產品名目繁多,不同產品在日常使用、配置維護、管理分析及防護方向上都有很大的差異,管理起來相當困難。于是依托于各類基礎安全措施,建設上層的安全管理的專題平臺需求愈發強烈。
綜合以上挑戰,本文作者經多輪研討,探索建立融入安全內容的智能運維監控系統,輔以專業化值守團隊是一條成熟捷徑,可在最小成本內提高自身IT整合實力,可持續提升金融服務水平,為銀行數字化轉型和高質量發展注入強勁的科技動能。
二、智能監控系統建設
隨著IT運維管理目標、管理范圍、管理對象、管理深度的轉變,IT運維安全平臺的建設呈現管理一體化、運維自動化、安全智能化、業務可視化及端到端敏捷化的關鍵趨勢轉變。滄州銀行擁抱新技術,結合開放的生態體系,建設面向業務服務和安全運營的智能運維監控系統,融合基礎架構資源的全面管理,以業務場景為導向提供靈活的自動化編排,實現靈活的IT服務管理及資源管理。
(一)融合基礎架構運行監控管理(IOM)
智能運維監控系統最底層是IT基礎設施層,即平臺的被管對象。它包含銀行運行管理的所有管理對象,包括網絡設備、服務器、計算存儲資源、系統應用軟件、中間件、虛擬化資源、訪問行為、安全日志等,能夠對網絡、系統、主機、存儲、應用、虛擬化等IT基礎設施資源進行統一監控管理(包括監控配置與定制化展示)、統一告警管理、統一報表管理。對于成千上萬條重要指標該系統通過自學習的方式生成動態基線閾值,允許手工指定某些時間段的基線值,以符合系統實際的運行情況,同時要針對警報事件進行智能過濾、壓縮、合并、去重,最終聚合成一種高級事件即故障通知銀行管理人員去處理,實現精準報警,減少警報噪聲,降低信息干擾。
1.運行監控管理模塊
運行監控模塊是智能運維監控系統的重要數據來源,實現對IT基礎架構統一監控,通過代理或免代理的方式實現數據采集和數據處理,實現對被管理運行對象的實時監控,掌握運行資源的配置狀況、監控對象的運行狀態和性能數據,同時支持自動發現網絡中的所有網絡設備與網絡拓撲的自動生成,針對不同的拓撲展示需求,支持拓撲圖自定義修改,包括設備的增刪、鏈路的修改等。
智能運維監控系統總體監控實現數據中心所有IT資源的全覆蓋,完成設備實時運行狀態、性能數據、主備線路流量的全部監控,可以實現設備問題的第一時間感知,為業務故障恢復爭取黃金時間,降低業務中斷時間,提升用戶滿意度。
2.日志分析系統模塊
日志收集與分析系統是對網絡流量、設備日志、審計日志等多種數據源進行高性能、多場景采集分析并生成告警事件,以主動監測、智能分析、集中管控、協同聯動、統一管理為表征,專注于對日志分析、異常行為、攻擊、違規的管理和風險的感知,實現信息安全環境的一體化分析與管理。
3.流量分析模塊
流量分析對于銀行業運維工作十分重要,可以提供網絡流量的實時監測和分析,幫助快速識別和解決故障,實現安全監測和威脅防御、優化容量和性能,并提供高質量的服務體驗,為業務發展創新提供數據支持。智能運維監控系統的流量分析模塊可方便、快捷地實現鏈路、主機、應用等多種類型流量的可視化與成分分析,可以查看流量組成及使用占比,便于快速發現流量突發主機、鏈路及查詢檢索特定的流量構成,實現行內基于流量的數據分析與風險管理,確保系統運行的高效性和穩定性,保障銀行系統和客戶資金的安全。
4.3D機房模塊
銀行的機房安全是至關重要的,3D機房管理系統可以通過實時監控和分析,幫助運維人員對機房的安全管理和風險評估,提高機房的安全性和防護能力。3D機房可以實時監控銀行的IT設備、機房容量、機柜環境、綜合布線、配電功耗等關鍵設施,實現各地市分行機房的統一,集中展示機房情況,運維人員可以直觀地了解整個機房的運行狀態。通過集成動環系統,實現對包括溫度、濕度、電力消耗等設備的連通性與性能數據采集,這樣可以及時發現故障和異常情況,提高運維團隊對機房的監控和管理能力。最后,3D機房管理是一個完整的、網絡化、可視化的三維虛擬環境設計及展示平臺,通過整合機房實時信息及資產信息,真正使IT管理者的管理步入虛擬現實領域,是提供給IT管理者最為直觀的一種網絡可視化管理工具。
(二)配置管理數據庫(CMDB)
CMDB模塊是智能運維監控系統的數據基礎,實現對IT資產的全生命周期管理與配置,既能從監控納管中實現設備信息的自動發現及同步,又能進行配置類資產信息的錄入與管理,同時,CMDB 可以識別和管理配置項之間的關聯關系,如層級關系、依賴關系、部署關系等,通過配置項之間的關聯性,可以更好地理解整個IT系統的結構和相互作用,從而更好地管理和調整配置。CMDB又能與監控模塊、ITSM(IT運維流程管理)、3D機房模塊集成,為上層應用不同的數據消費場景進行數據供給。
(三)自動化運維管理(AOM)
自動化運維模塊是智能運維監控系統的主要功能之一,實現了IT設施任務處理的自動化,提高效率和降低風險,促進行內運維組織的成熟和各種能力的升級。智能運維監控系統自動化模塊實現網絡資源管理平臺中所有IT設施的運維自動化,包括網絡配置、設備準入控制、自動化配置備份等功能,同時還提供自動巡檢、應用部署、補丁升級、合規檢查等多種自動化場景的識別與落地,可支持網絡資源管理平臺未來的功能拓展需求與把握發展方向。
(四)業務服務管理(BSM)
業務管理模塊是智能運維監控系統的重要組成部分,是IT基礎設施管理的完善和深入,能促進IT與業務的加速融合,使行內的運維部門、業務部門與資源之間很好地形成一種架構,以業務為中心,以部門為導向的方法,來處理業務對IT的需求。智能運維監控系統將所有IT資源整合到一個綜合平臺,進行管理,獲取監控管理模塊的數據采集及數據處理信息,在此基礎上搭建業務模型,展現業務的整體運行情況,拉通基礎設施、業務應用、最終用戶三個層次數據的能力和推手,通過業務可視化視窗(BVD)全面掌握業務系統整體,進行業務預警和快速發現IT系統的根源故障。同時還提供了容量管理分析與預測功能,進行容量的統計分析,支持運營支撐報表在線查詢、導出等功能,為業務系統的規劃和優化提供可視化的數據支持,以確保系統長久運行的高效性和穩定性。
(五)IT服務管理模塊(ITSM)
ITSM系統是智能運維監控系統的管理核心。作為IT管理咨詢落地的重要工具,能實現以滄州銀行重點運維業務為中心,以流程為導向的理念和目標,實現業務閉環。通過標準化、自動化和集成不同的IT服務管理流程,提供高效、可靠和穩定的IT服務能力,實現提升運營效率、降低風險,并提供更好的用戶體驗和滿意度。同時ITSM實現了行內運維知識的管理與存儲功能。確保行內技術人員能不斷跟進技術更新和趨勢,以確保人員技術的持續穩定性和可用性,用以快速響應業務變化,盡快實現業務上線和迭代。
(六)網絡安全管理模塊TOB
網絡安全管理模塊是通過豐富的事件分析策略對全網的安全事件進行全方位、多視角、大跨度、細粒度的實時監測、統計分析、查詢、調查、追溯、地圖定位、可視化分析展示等。每條事件分析策略就像是地圖的圖層,或者是Photoshop的濾鏡,只展現出用戶關心的信息,幫助用戶快速從海量事件中篩選出重要的事件。借助這種分析過程,用戶從傳統的“條件編輯”式的分析體驗轉變為“策略選取” 式的分析體驗,大幅提升分析效率。
網絡安全管理模塊可以是整體體系的一部分,也可以從智能運維安全體系中獨立出來自成一套體系,與運維監控相輔相成,從保密、完整、可用性的安全視角來審視和保障銀行內業務及數據運行的穩定性。
網絡安全管理模塊以業務信息系統安全為保障目標,加強各個方向的摸排梳理,統籌分析,從監控、審計、風險、運維四個維度對全網的整體安全進行集中化管理,建立一個可視、可查、可度量與可持續的安全管理新平臺,以應對不斷變化的安全威脅和風險。一是通過實時監控系統來獲取業務信息系統的運行狀態、網絡流量和用戶行為等信息,檢測和識別惡意攻擊和異常行為,以及及時采取必要的措施;二是對系統和網絡的日志進行分析和審計,可以追蹤用戶的操作行為和系統的運行情況,以發現和防止潛在的安全漏洞和風險。三是對業務信息系統的風險進行評估和分析,以識別出潛在的安全風險,并制定相應的應對策略。同時對已經發生的安全事件進行溯源和分析,以防止再次發生類似的事件。四是對業務信息系統的運維進行規范和管理,以確保系統的穩定性和安全性。
對于日常安全運維而言,核心的工作就是對IT設施、網絡及銀行業務系統進行持續監測,并識別針對網絡、主機、應用、業務、重要信息和人員資產性能故障、非法訪問控制、非法或不當操作、惡意代碼、攻擊入侵、違規與信息泄露行為,確保網絡、主機、應用、業務、重要信息和人員資產的安全。借助網絡安全管理模塊平臺可以獲得對全網安全的可視化,洞悉業務信息系統的運行狀況與安全狀況;可以對全網的安全事件進行綜合分析與審計,識別和定位外部攻擊、內部違規;可以進行業務系統的運行風險、訪問權限、安全態勢和日常管理建設水平度量;可以進行持續的安全巡檢、應急響應與知識積累,協助行內安全運維人員進行安全監視、審計追蹤、調查取證、應急處置、生成各類報表報告,成為客戶日常安全運維的有力工具。
(七)事件輔助定位
隨著應用服務粒度越來越小,各類服務數量越來越多,要了解這些應用之間的相互依賴關系以便能夠定位到出現故障的服務,并最終找出根本原因。這就要求每一項服務、每一個指標都具備上下文語義信息,該平臺應理解每一個數據所代表的意義及與其他指標之間的邏輯關系,通過對系統運行行為的分析,建立分析模型,對不同指標的歷史數據進行挖掘分析,自動學習單個指標正常的行為模式,自動識別和學習各個指標之間的關聯關系,持續跟蹤發現異常并及時預警,實現監控輔助定位故障定位能力;還要借助成熟的算法技術,構建事件因果關系圖模型和運行行為分析預測模型,通過不同維度歷史事件數據、領域知識和相關信息對模型進行訓練和學習,根據事件因果關系進行根因分析、故障定位和事件預測等。
(八)大屏管理
大屏展示系統從業務系統性能監控、系統監控告警信息、動環數據系統、流量分析系統及相關集成系統采集需要展示的數據。用于監控人員全面、實時掌握IT資源的運行狀態,包括關鍵業務的健康度與告警信息、資產管理信息、容量分析信息、關鍵鏈路的流量信息及動環系統的主要信息等,涵蓋了整個滄州銀行體系內總、分、支行的設備運行維護情況,正所謂窺一屏而知全身。
三、監控值守團隊
(一)監控平臺運維服務
與第三方合作組建24小時專職監控制度,利用智能運維監控系統實現7*24小時平臺設備監控;涉及網絡、應用、系統、IT基礎設施、動環監控等多個環節和內容,保障平臺穩定運行,保障行內問題第一時間發現,風險第一時間處理。
(二)多技術域監控專屬團隊
從0~1迅速組建銀行數據中心值守團隊,優化組織架構與職能。現有值守人員實現7*24小時的值守監控覆蓋,實現了專人專崗,釋放銀行人員的時間精力,有助于銀行科技人員把更多精力用于關鍵信息科技工作的處理和自身技術提升上。
(三)運維流程與制度建立
結合滄州銀行實際及ISO20000技術服務管理體系、定制化的運維流程,實現全流程跟蹤的閉環;完善事件、問題的處理流程及安全運維制度,并建立值班內容要求;發揮服務臺及時發現和快速響應作用,引入知識庫,建立技術文檔、手冊、應急方案等內容,共享知識,提升團隊整體水平,并將知識內容關聯實際事件故障,發現故障根因,切實縮短處置時間,提升故障解決效率。通過專業值守團隊的加入,完善了運維隊伍,嚴格執行責任到人和重要工作的雙人復刻制,有效避免了人為失誤。
四、結束語
智能運維監控安全體系基于工具平臺與專業值守團隊配合,在實現運維的“監-管-控”一體化的目標上不斷創新,實現組織、流程、自動化工具的有機融合,初步建設了以數據為基礎、以技術為驅動、以組織為核心、以安全為目標的管理體系。
未來,滄州銀行以自動化、數字化、智能化提升為目標,加強數字化基礎設施建設,深化數字化智能運維監控安全體系建設,加速構建運維中樞平臺,同步建設指標異常檢測和容量預測等多種智能化場景,打造“智能監控+安全運營”團隊,實現運維工作的組織效能與價值,以更好地服務業務創新發展,高質量助力數字化轉型。
參考文獻:
[1]施蓉化學分析實驗室標準物質的使用和管理 [J].化工設計通訊,2021,47(03):118-119.
[2] 張珊珊,隋童飛.化學分析實驗室標準物質的使用和管理[J].石化技術,2020,27(06):282-283.
[3] 杜洋化學分析實驗室標準物質的使用中應注意的幾個問題[J].江西化工,2020(03):267-268.
(作者單位:滄州銀行股份有限公司)