■ 北京云杉世紀網絡有限公司 來源
在混合云環境,企業的業務運行在邏輯網絡中,同樣面臨網絡性能分析、網絡問題定位及排障、網絡安全管理、合規審計、網絡擴展等問題。在解決以上問題時,有能力獲取完整的網絡流量,是一個前提。
網絡的保障涉及到配置、日志及現網流量或流數據等元素。在混合云環境中獲取并管理好現網監控流量并不是一件輕松的事情。在云環境下,選擇網絡流量采集方案需要考慮流量獲取的方式、環境中的流量模型、規模及可管理性、對現網環境的影響、平臺開放性。
1.流量獲取的方式
在云環境中,影響獲取虛擬交換機流量的因素首先是對現有生產環境的侵入性,其次是性能。目前獲取虛擬交換機流量的技術方案有以下幾種,企業可根據自身IT環境的實際情況進行選擇:
(1)在虛擬機或工作負載(Workload)中安裝采集探針,從操作系統層抓取流量信息。此方案探針部署規模大,且需要獲取虛擬機根(Root)權限。
(2)通過在虛擬交換機(OVS:Open vSwitch、VDS:vSphere Distributed Switch、VSS:Virtual Stand ard Switch)上配置鏡像或廣播策略,將所需流量引出。該方案需要對生產平面的虛擬交換機進行配置。
(3)在宿主機Hyperviso r(如Openstack Hyperviso r)上安裝采集探針,以用戶態進程形式獨立獲取虛擬交換機上的流量。該方案無需對生產平面的虛擬交換機進行配置。
2.環境中的流量模型
規劃網絡流量采集方案時,現網中的流量模型、主要業務的流量特征是方案選擇的重要依據,基礎特征包括IP分配、流量、包長、協議、端口、TCP、HTTP信息等,同時也需要考慮組合特征,尤其是可能出現的滲透、異常等因素。
3.規模及可管理性
混合云環境中,網絡規模宏大且資源池類型繁多,虛擬交換機采集點數量相比傳統監控規模有幾個數量級的增長。此外,虛擬化及容器資源池動態性很強,流量采集和分發策略也要隨著資源變化進行實時跟隨或釋放。
在構建整體采集方案時,企業應考慮IT資源的多樣性,采集平臺應分階段進行建設,尤其要注意確保方案具備擴展和統一管理能力。
4.對現網環境的影響
單一的生產環境在企業中并不多見。在進行流量采集部署時,需滿足平滑部署且保證業務不間斷,同時確保對計算資源和網絡帶寬的消耗限制。此外,流量采集系統的部署要兼容傳統監控方案或支持其無縫切換,并可對接企業的分析工具。
5.平臺開放性
采集平臺本身應具備開放性,避免采集端與消費端綁定,導致在現網中不斷部署垂直豎井式的流量采集系統,對于流量數據應具備一次采集,可按需多處進行分析消費的能力。此外,還考慮具備數據開放性,針對原始流量數據進行處理,得到流日志、統計、特征等數據,有能力提供高性能存儲寫入、檢索查詢、API輸出等數據服務。
目前多數大型企業都存在多數據中心、混合云架構的IT資源,從網絡的角度看如下圖所示。自有的數據中心劃分為不同業務區并通過專有網絡互聯,且可能存在多個分支機構。為保障資源彈性,企業不同程度地使用公有云資源和選擇多個云服務商。企業從運維排障、運營管理、業務監控等方面都需要對網絡有全面清晰的畫像,如圖1所示。
本方案的目標是為企業混合云IT建立統一高效的網絡流量采集和處理平臺。針對異構資源池實現統一的流量采集抽象層,可對流量實現過濾、去重、壓縮、截短等處理,支持IPv4、IPv6協議,能為網絡運營中心(NOC:Network Operation Center)、安全運營中心(SOC:Security Operation Center)、大數據分析平臺等不同的流量消費端提供數據供給服務。
在混合云環境中,方案的挑戰在于資源池內的網絡邊界——各類虛機交換機數量多、波動大、技術新。實現全網流量采集及處理,可以從業務或者網絡區域以及資源池來規劃,本文基于DeepFlow?設計,分別從數據中心側、公有云側及整體控制管理側詳細闡述。
1.數據中心側
按網絡功能將數據中心按區域(Region)來定義,區域內可包含多個可用區(AZ:Available Zone),區域內的網絡流量包含可用區內的物理網絡和資源池內的虛擬網絡數據流量。
(1)物理網絡流量采集
在物理網絡涉及的范圍,除可用區內部網絡外,還包括各類鏈路;流量采集可通過傳統監控方式如分光、鏡像等獲取。在物理網絡中,采集點主要有互聯網業務區中的ISP線路、外聯區域的專線線路、各區出口線路以及防火墻、負載均衡設備前后線路;通常由設備廠商的監控方案實現,DeepFlow?采集器通過對接設備廠商方案的標準數據輸出實現物理網絡流量的采集。

圖1 多數據中心的混合云架構拓撲結構
(2)資源池內網絡流量采集
各類型號的DeepFlow?采集器為全網流量采集方案提供數據包捕獲能力;按部署方式分為VMware ESXi采集器、KVM采集器、KVM-DPDK采集器、HyperV采集器、容器OnVM采集器、容器OnHost采集器。對于裸金屬設備資源池,可將網絡設備的端口鏡像至專屬采集服務器完成對數據包的處理;亦可將采集器安裝在每一臺需要采集的裸金屬設備系統上。
(3)DPDK環境下的支持
在采用了DPDK (Data Plane Development Kit)的運營商CT(Communications Technology)網和企業網環境中,可采用DeepFlow?KVM-DPDK采集器進行資源池內流量采集。
(4)多區域支持
多數考慮統一監控流量采集平臺的企業,IT資源都存在于多個數據中心,而且存在眾多分支機構。各地數據中心區域、各類資源池,網絡流量采集需求都由相應型號的采集器完成。
2.公有云側
公有云為租戶提供VPC網絡,Workload采集器以用戶態的軟件形式部署在虛擬機、容器、裸金屬設備等Workload上,支持Linux、Windows等主流操作系統,實現VPC內各類資源的網絡流量采集。由于部署安裝在Workload操作系統上,采集器數量多,可以通過鏡像進行預裝。
3.控制管理側
由于采集器數量大、策略多,波動強,需從控制面的設計入手,解決大規模及可管理性的問題。在多點的部署環境中,首先指定主區域(Region),主控制器存在于主區域中,當啟動主控制器高可用功能,主區域內應部署多臺控制器,通過心跳保證控制器間的狀態同步,及時啟動主、備控制器選舉。選舉產生主控制器后,為整體流量管理平臺提供控制入口。除主區域外的其他區域控制器為從控制器,不參與主控制器選舉。
在云環境、容器環境中,控制器通過對接虛擬化資源池、配置管理數據庫(CMDB:Configuration Management Data Base)、公有云開放API等,可實現多粒度下發采集、分發策略,更靈活、更貼近業務應用。
各類型的采集器可能處于自檢、運行、停止、異常、保護等幾種狀中,其中保護狀態,是確保采集器工作時,平臺能對其使用CPU、內存資源使用上限的限定。當采集器壓力過大時,采集器狀態將由“運行”切換至“保護”狀態,以確保不對生產環境產生影響,直至重新調整資源配置或處理壓力下降,切回至“運行”狀態。
單一DeepFlow?控制器可管理2000個采集器,通常能夠滿足一個可用區;控制器最大支持50臺的規模,方案整體可滿足10萬臺采集器統一管理,足以應對大型企業私有IT、公有云、容器等網絡流量采集需求。
不同于集中式后處理的方案,DeepFlow?采集器具備專利算法的前置計算能力可在采集點對流量進行直接處理。眾多采集器和控制器共同構建成一個與云網規模一致的分布式流量處理系統,大幅減少了分發數據對監控網絡和后端分析工具的壓力。
1.流量預處理
流量采集過程中的過濾策略支持更豐富的維度,除了五元組還包括業務、主機、服務、POD等條件。此外DeepFlow? 采集器還具備去重、截短、流日志、壓縮、標記等能力,以最小資源消耗實現流量全局的精準采集。
2.包分發
包分發功能通過三層隧道實現,控制器統一下發分發策略后由采集器端直接進行數據包封裝和發送,支持單一數據包多目的端發送。同時針對分發目的端是否具備解封裝能力可靈活定制隧道卸載方案。
在混合云數據包分發方案中,需要考慮分發的網絡平面,如果分發流量較大,建議預留獨立的網絡監控平面;如果僅針對少量核心業務,可復用已有的物理網絡。在混合云環境中,資源池數量多、種類不同,應以分布式部署避免單點瓶頸,并適配邏輯網絡跨多資源池場景。
3.數據服務
在每個區域、可用區都可配置高性能時序數據庫,通常在分支機構環境下,不需要部署時序數據庫,其數據通過壓縮后寫入納管區域內的數據庫。對于非原始數據包的數據消費需求,平臺提供開放的數據訂閱服務,用戶可通過API、消息隊列調用。數據訂閱可通過ZeroMQ等消息隊列提供,由數據需求平臺向數據庫發起消息隊列請求后,就可執行訂閱服務。
整體方案主要涉及采集器、控制器、高性能時序數據庫三部分,在完成規劃整體方案后,可分區域、分資源池按階段投入建設,最終為企業混合云環境構建統一的流量監控管理平臺。
1.第一步:解決虛擬網絡環境流量“黑盒”不可見的問題,滿足對虛擬網絡流量合規審計的要求;采集流量對接已存在的監控分析工具,閉合私有云、容器環境中的運維、業務分析工具鏈。
2.第二步:納入更多資源池,與新建擴容的資源池同步部署,接入物理網絡中交換機sFlow數據,接入專線等分光流量數據,實現對整體數據中心的監控流量采集能力;對接網絡中心、安全中心、智能運維等平臺,提供數據包、流數據服務,滿足各平臺對現網流量數據的展示、分析需求。
3.第三步:對存在公有云上所運行的Workload或實例流量進行采集,完成對混合云IT環境整體監控流量管理,具備整體網絡畫像、流量分發、支持對多平臺流量數據分發服務能力。
對于已經運行的混合云環境,可以在不影響生產環境運行的情況下部署實施,網絡規劃上將DeepFlow? 平臺所涉及的管理、監控分發平面復用在已有的網絡平面中,通常可以復用已經存在的網絡管理平面。對于整體規劃的方案,建議對整體混合云規劃獨立的網絡監控平面,對于混合云的監管流量統一、獨立地進行管理。
流量采集先進:全網采集方案主要圍繞DeepFlow?采集器技術實現,采集器以進程形態部署,最大程度上避免對現網的影響,同時在操作系統上繼承進程級保護優勢,整體更穩定。
分布式處理系統:采集到數據包后避免集中處理,采用分布式架構,采集點分布處理控制器集中管理。
場景全規模大:方案基于云原生設計,涵蓋裸金屬、虛擬機、容器、公有云資源池等多種異構系統場景,整體系統可滿足10萬臺節點的需求。
可管理性:平臺主控制器具備對所有采集器的監控和管理能力。通過對接云平臺使得操作貼近資源池特性,針對云資源移、回收、重新部署等場景做到了實時策略跟隨,保障采集能力在動態環境下的持續執行。
數據包、流數據服務:數據服務是將流量采集與后端平臺對接的重要環節,完整流量數據包多目的地分發,高性能網絡時序數據庫通過API、ZeroMQ、Kafka等消息隊列提供流數據服務。同時也將采集與后端各類分析工具解耦,避免流量采集器局限在僅為單一工具服務的豎井中。
DeepFlow?混合云全網流監控量采集與分發解決方案為企業提供完整的、可持續的平臺級監控流量管理,為企業規劃整體運維。本方案已應用于金融、運營商等客戶IT環境中。