楊帥
近年來,隨著企業信息化建設水平的不斷提高,各業務條線對于網絡和業務系統的依賴越來越高,網絡運維難點凸顯。網絡和業務系統的安全穩定運行已經成為其對外提供服務的關鍵環節,建設一個統一的平臺,實現對網絡高層次協議性能進行監控、報警、分析、預測、以及展示,達到數據包級的顆粒度分析,將有效解決目前網絡管理上的一些突出問題。本文通過分析企業網絡運維所面臨的難點及需求,提出網絡態勢感知平臺的建設思路及案例分析。
一、網絡運維難點
(一)網絡和業務架構復雜化。以某金融服務機構為例,共有77個業務系統和200余家接入單位,業務和網絡應用組件的愈發復雜化,極大的提高了網絡運維管理復雜度,也使得評估性能、診斷故障、安全問題定位以及回溯分析歷史成為網絡和運維部門的日常重要工作,給科技部門造成了人力和時間資源的極大壓力。
(二)故障排查時間較長。業界原有的網絡故障排查的技術手段是通過基于SNMP網管軟件手段結合人工分析的網絡故障診斷方式。由網絡管理員通過手工抓包并結合網絡設備日志進行故障定位分析,無法做到快速取證故障數據和第一時間對故障做出精確分析判斷,更無法做到提前預警。故障排查效率不高也給業務連續性帶來了安全隱患。
(三)網絡和業務運維相對割裂。傳統的運維平臺主要分為網絡運維管理平臺和業務運維管理平臺兩類。由網絡運維管理平臺對網絡設備和線路進行監控,業務運維管理平臺對業務應用進行監控,它們均無法做到對整個業務應用和網絡運行狀態進行梳理整合分析,不能對業務系統網絡數據流精確監控,也無法監控各個業務應用網絡服務連接質量。
二、網絡運維需求分析
(一)業務和應用狀態實時監控能力。應從業務的角度來做運維保障,實現對不同業務及業務所關聯的各種應用狀態的全局態勢感知,并將業務保障優先級機制和監控系統進行耦合,進一步加強業務保障的流程能力。
(二)線路監控和異常告警能力。專線管理應實現可視化、狀態化監控,通過異常行為告警,實現對企業到所有分支機構專線情況的全局態勢感知能力,及時發現異常。
(三)快速的定位故障原因能力。通過對網絡數據流進行追蹤回溯,結合網絡拓撲中多點參數進行對比分析,自動判斷問題發生在哪個設備,哪個環節。
(四)全面優化的網絡性能評估能力。通過對網絡通訊數據的監控,在網絡流量、網絡帶寬、網絡連接、應用程序性能、網絡升級前后的性能對比等方面進行的全面評估,為運維人員在網絡改造、網絡新業務實施及網絡容量規劃等多方面提供可靠的數據依據。
三、 網絡態勢感知平臺建設思路
傳統的網絡、安全檢測體系基于特征庫匹配,存在盲點。一是難以感知未知的威脅;二是告警太多,運維人員千頭萬緒,最終導致無法分析;三是由于只有日志信息的存儲,安全問題難以追朔。所以,基于全流量的回朔分析,才能使安全監測無死角,是企業網絡安全態勢感知發展的趨勢。該模式的特點就是通過底層數據包級的全流量海量存儲,結合大數據分析技術,達到態勢感知及回朔取證的功能需求。平臺架構如圖1所示。
平臺通過依托真實的網絡流量,來構建網絡的全貌視圖,充分利用網絡數據包,快速發現、定義應用,梳理網絡路徑,建立覆蓋重要鏈路、關鍵設備、核心業務的全面監控視圖,運用數據統計分析技術,發現、告警、回溯和數據包分析等功能。
數據采集層:通過硬件抓包探針實現網絡拓撲中關鍵網絡設備的原始數據實時采集及存儲,初步完成數據統計及分類,上傳集中管理平臺。
數據分析層:接收來自數據采集層的各種數據,通過將分布式采集的企業重要業務及業務所調用的各個應用的各項指標數據進行智能關聯分析,完成KPI指標評估,業務多段智能分析,故障定位和實時預警。
集中展示層:將企業及其分支機構業務視圖、網絡視圖和全局安全視圖進行直觀展現。
四、 案例分析
(一) 平臺原理及結構
某省級金融服務機構通過對當前網絡運維難點進行梳理,充分對日常網絡運維需求進行分析,采用在數據中心和同城轉接中心分布式部署方式建設網絡態勢感知平臺。平臺在核心路由器、核心交換機、工作區匯聚交換機、生產區匯聚交換機、dmz區交換機、外聯路由器和外聯交換機等位置設置鏡像采集點,鏡像全網數據,構建數據中心、同城轉接中心網絡的全貌視圖,利用網絡數據包,快速發現、定義應用,梳理網絡路徑,建立覆蓋重要鏈路、關鍵設備、核心業務的全面監控視圖,運用領先的數據統計分析技術,發現、告警、回溯和數據包分析等功能,極大簡化了過去繁冗復雜的操作過程,精細掌握網絡運行狀態、更快更精準的定位業務故障根源、故障發生后進行數據還原回溯、詳細的流量數量,并提供數據的正確性、變更驗證的能力。部署結構如圖2所示。
(二) 平臺功能
1.廣域網線路監控
平臺對廣域網線路進行整理分類,通過直觀實時的網絡狀態(如丟包、重傳以及利用率過高)監控告警展示,能精確監控問題發生的位置。后期只需要在一張視圖上(如圖3所示)就能清晰的了解分支機構所有專線網絡態勢,有效提高企業對專線管理和保障的能力。
2.局域網網絡全局態勢監控
網絡是承載業務的基礎通道,平臺通過網絡的視角將業務相關的狀態指標疊加到局域網拓撲視圖上進行監控(如圖4所示),并且將多個節點的參數進行疊加對比,實現從網絡的視角全局感知業務的狀態。
3.業務和應用全局監控
平臺對網絡數據流的智能分析將該機構網絡分布情況、業務和應用情況清晰地梳理出來,并直觀地展示整個網絡中存在的應用和應用之間的訪問關系(如圖5所示),同時將網絡、主機、應用的性能參數疊加到每個業務的邏輯視圖上面。通過對各個重點關注的指標進行自定義監控,實現各個應用對網絡資源的占用態勢可視化,實時監控各個網絡區域應用的變化和對業務的實時狀態監控評估,已經能夠實現對全部重要業務系統和應用的態勢精細化感知的能力,實現以業務的視角來開展運維工作,提升了對業務的保障能力。
4.業務優先級保障
利用平臺業務優先級保障功能對業務按照重要性和具備功能共性的業務進行分組,對不同優先級業務執行不同的監控和響應標準,實現對重點業務重點保障。
5.異常行為態勢感知
平臺對行為模型進行定義,形成了完善的特征庫。通過對企業網絡情況的梳理,并結合行為模型特征匹配,實現對全網進行異常行為的全局態勢感知、展示。圖6展示了一個平臺感知攻擊的實例,圖中中心紅色節點對多個目標地址發起了攻擊。通過平臺及時通告并提交給相關負責人進行處理,消除相關隱患。通過將問題處理在萌芽期,保障企業網絡健康穩定運行。
6.故障快速定位及回朔
通過將網絡重要節點的流量都引入分析平臺,當故障發生時,通過該平臺將多點的參數(例如網絡延遲)進行對比分析,判斷問題發生在哪個設備,哪個環節。然后再通過網絡、主機、應用性能指標的分析,快速判斷問題發生的層面及原因,從而實現對故障的快速定位。同時,依托全流量的海量數據存儲,可在事后在數據包層面,通過回朔分析驗證故障。
五、結束語
本文分析了當今企業網絡運維的難點與需求,引出網絡態勢感知平臺的建設思路及架構、原理,并通過大型金融服務機構的建設實例,展示了平臺的建設成效,為各行業建設網絡態勢感知平臺提供了參考。