王瑩 王順新 談龍兵

關鍵詞:云平臺、流量分析、自動化測試、業務保障、可視化
一、引言
近年我國工業互聯網平臺發展迅速,為加快企業數字化轉型提供了有力支撐。工信部將進一步加快企業數字化智能化轉型,鼓勵大企業建設跨行業跨領域和特定行業區域工業互聯網平臺,同時推動發布中小企業數字化轉型指南等引導性政策文件,支持中小企業上云用云[1]。
較以往業務本地化,企業業務上云后,在網絡及業務性能監控方面將面臨一系列新問題:
①故障排查處理流程長,處理時效差:故障排查處理,涉及云外運營商網絡、云內網絡及軟硬件廠商、云業務編排等多個環節使得故障排查流程變長,故障定界定位時效差。
②缺乏租戶級監控:上云后的“虛”環境使得用戶運維人員無法再對除業務之外的軟硬件等進行監控,宿主機、網絡設備真實的負荷、告警以及可能潛在的安全漏洞等可能導致業務中斷的情況。
③缺乏實時性監控及評估:例行的周報、月報等性能、運行報告難以提前發現隱患,缺乏整體性、實時性以及可視化的監控手段。
業務上云后面臨的問題對云端業務保障手段提出了新要求,即“云業務除了傳統的監控/ 保障方式(如SNMP、Zabbix 系統監控,架構自帶的高可用)外,還有哪些方式可以完善云業務的保障體系,保障云業務的持續高可用?
二、保障思路
基于不同云架構平臺網絡及業務保障場景,融合網絡流量分析及探針自動化測試兩個手段,采用流量分析實現租戶及業務關聯識別并進行流量建模,利用植入宿主機的軟探針進行自動化測試并收集測試數據,結合租戶業務特征及探針測試結果呈現云平臺業務全景監控,通過不間斷采集資源及配置信息。如算力(CPU、內存)、存儲、負載等信息,按照訂購信息進行租戶與業務關聯,配合租戶所屬SLA 等級實現模塊化監控及告警,實現主動+ 被動手段有效結合,達到保障云平臺網絡及業務穩健及高可用目的。
三、實現方法
結合本省云平臺網絡拓撲及云上業務特征,分別制定云內外網絡保障和云內業務保障兩個子方案,相關測試及采集數據匯總于省內云業務監控及保障平臺進行綜合可視化呈現,對網絡+ 業務的綜合性監控及告警,呈現云平臺網絡及業務性能監控一體化視圖。
(一)云內外網絡監控保障
結合云平臺網絡拓撲分別于用戶側、接入PE、省網PE、云平臺入口、云主機等5 個關鍵節點做為監測點部署主動監控探針,通過專用的數據回傳通道將分段測試數據回傳至云業務監控及保障平臺,平臺對5 個關鍵點的測試結果進行分段處理及匯總,得到網絡質量全景化視圖。
云外網絡監控及保障手段:從用戶接入至云平臺入口之間的專用或公用網絡,在用戶側部署便攜式探針,基于城域網落地PE 及專網入口設備部署機架式高性能探針用于分段測試。
云內網絡監控及保障手段:對于虛擬化環境,采用虛擬化探針的方式,將探針部署于宿主機以及租戶虛機等位置進行業務測試及監控,測試宿主機或VPC 至云平臺網關的underlay 網絡質量,實現云業務端到端的故障定界。
1. 監測點探針主要功能及測試內容
監測點1:便攜式探針,置于用戶辦公室模擬同一網絡環境,支持Ping、Traceroute、TCP/UDP 測試等基礎連通性測試、業務仿真測試等。實現對落地PE、網絡PE、云入口、云主機4 個監測點不間斷Ping 測試以及結合業務類型對云端業務進行測試。
監測點2、3、4:機架式高性能探針,部署于落地PE、網PE、云入口測試傳輸通道質量,支持萬兆網絡,支持高并發具備應用壓力測試、應用層業務性能分析等多項高級功能。
監測點5:軟探針,以軟件包形式部署于宿主機或作為一個VNF 功能部署于租戶虛機內,支持操作系統環境及性能參數采集。實現對云內管理網絡以及租戶的VPC 虛機、私有網絡自動化測試以及實時采集宿主機或虛機的相關性能信息,如主機CPU、內存利用率、磁盤存儲性能、進程類占用、網絡資源占用等性能指標。
2. 測試原理
Ping 測試:網絡可達性測試,用于測試IP 網絡的連通性。發送端周期發送ICMP Echo 消息給接收端,發送端根據收到Reply 消息數量以及接收Echo Reply 與發送Echo 的時間差計算丟包率、時延、抖動等指標。
TraceRoute 測試:實現對源和目標的數據報傳送中路徑的探測,返回至目的節點中間的路由信息和默認每跳3 次的Ping 測試結果,通過對兩次測試結果進行路徑比較,將路徑變化情況進行量化,可直觀檢測路由路徑的變化。
DNS 測試:DNS 測試通過發送Query 消息向指定的域名服務器請求解析某域名,計算域名解析的時間和解析成功率[2]。
TCP 測試:TCP 測試用于測試IP 網絡的數據包傳輸質量,是端到端測試,使用兩臺探針各自統計收發雙方根據收到TCP 數據包個數與時間計算TCP 握手時延、TCP 握手成功率等指標。
HTTP 測試:向Web 服務器發起HTTP 請求, 對WEB 服務器返回內容進行解析并下載相應的頁面元素,獲取每個頁面元素的DNS 解析時延、TCP 連接時延、下載時延、吞吐率,經過綜合感知評分后得到用戶訪問整體頁面的綜合質量。
綜合質量:綜合感知評估體系基于DNS 解析時延(權重20%)、TCP 連接時延( 權重20%)、下載時延(權重30%)和吞吐率(權重30%)四個指標,每個指標根據測試結果劃分0-50、50-80、80-100 三個線性得分區間,每項指標的區間得分乘以指標權重,再求和之后得到的分數即為綜合質量。
(二)云內業務監控保障
對業務監測的前提是要識別業務,在宿主機或vSwich 上部署流量采集設備進行流量采集和流量分析,通過解析流量中的五元組信息或應用特征字段實現租戶流量識別、業務識別以及業務關鍵KPI 指標統計。
有兩個虛擬化場景下的云架構資源池,一號資源池是基于VMware 的虛擬化方案,二號資源池是基于華為的虛擬化方案。需要考慮在虛擬環境下的流量采集問題,譬如流量的獲取方式、環境中的流量模型、采集點的規模和可管理性、采集機部署后對現網環境的影響、流量分析數據回傳等多個問題。
目前在虛擬環境下,虛擬流量采集可行的方案有:
① VM 內部署虛擬探針模式;
②在宿主機Hypervisor 上安裝采集探針;
③ vSwitch 鏡像+ 虛機虛擬探針模式(虛擬化);
④ vSwitch 鏡像引出模式。
因此,需要結合不同平臺下的實際環境采用不同的方案[3]。
1. 一號資源池(華為云環境)的流量采集方案
根據實際情況評估,采用在宿主機Hypervisor(如Openstack Hypervisor)上安裝采集探針方式部署。
采用宿主機管理端口做探針管理地址,配置采集探針使用抓包的方式對業務流量端口進行抓包,部署NPM流量分析模塊到公共管理域虛機上,分配管理地址做平臺的登錄維護地址,探針向平臺進行注冊后,由平臺下發流量采集任務。
2. 二號資源池(VMware 云環境)的流量采集方案
根據實際情況評估,采用vSwitch 鏡像+ 虛機虛擬探針模式(虛擬化)+vSwitch 鏡像引出模式部署。
VMware 分配2 臺虛機部署探針和平臺,配置OVS鏡像到探針所在虛機,先進行探針所在宿主機流量鏡像,完成本機鏡像流量測試后,再配置遠程OVS 鏡像到探針所在虛機進行,OVS 鏡像引出方式實現流量采集。
四、實現效果
(一)租戶資源容量可視化
通過對租戶的宿主機、虛機的資源信息及運行狀態采集匯聚,租戶可以查看已訂購資源的負載統計,如CPU、內存利用率、磁盤分區利用率、網卡流量利用率等信息以及綜合健康度信息,便于租戶實時了解資源利用情況,通過郵件或短信方式主動提醒租戶資源超限情況,為租戶彈性化的業務編排和資源訂購提供數據依據。
(二)租戶業務質量可視化
通過部署流量采集與流量分析模塊,基于業務特征庫識別租戶業務類型,根據訂購關系識別租戶流量中關鍵的業務指標并進行可視化呈現,比如TCP 建鏈時延和成功率、DNS 解析成功率、HTTP 業務響應時延和成功率等,支持下鉆至IP/ 主機維度,當業務流量或質量異常或下降時,快速定位故障主機。
實現對用戶的秒級粒度的會話數和會話包數進行采集,匯聚分鐘或小時粒度的會話數和報文數建立會話流量監控模型,支持告警及可視化呈現。例如:統計某個采樣周期內,平均會話數較最近連續7 個周期的均值偏差,設定偏差閾值產生告警,通知云平臺監控部門預先進行定界和定位并積極協同相關業務部門或者租戶開展進一步排查與修復,達到先于租戶發現問題并修復問題,保障租戶業務連續性,提升租戶對云平臺服務滿意度。
(三)云端網絡質量可視化
基于云內以及云外探針不間斷對云業務網絡分段自動化測試,結合網絡拓撲,統計云主機至用戶側落地PE、云主機至城域網、云主機至云平臺出口的時延、丟包、抖動等網絡性能指標并可視化呈現。
通過統計并監控每段網絡的時延和丟包指標波動,重點監控租戶端到端網絡時延和丟包率與近7 個周期均值的偏離情況,產生指標偏離告警時,通過分段的探針撥測指標來輔助定界并協調相關部門開展排查。
(四)支持定制化SLA 測試及可視化
為滿足租戶上云后業務對服務質量的基本需求,對客戶簽約的SLA 服務級別進行測試驗證:比如通過FTP測試或HTTP 下載測試展現租戶的簽約帶寬保障;通過持續高頻的Ping 測試呈現租戶簽約的鏈路質量服務等級保障;或基于租戶不同業務需求進行一些定制化測試等,并對測試結果進行可視化呈現,提升租戶對云平臺信任度。
(五)性能與感知相關性可視化
業務關鍵性能指標的高低變化可較為直觀的反映業務感知的優劣,通過將網絡性能指標與業務關鍵性能指標進行關聯,構建網絡性能與業務質量相關性模型,根據不同業務類型與網絡性能指標的相關性,將網絡性能對業務感知的影響進行量化,以業務健康度的方式呈現于租戶視圖和專題視圖,租戶可以直觀的一覽資源占用以及業務感知評分情況,為租戶提供更多增值服務,有利于提升云平臺品牌價值和市場競爭力。
四、結束語
基于云業務流量分析以及自動化測試的業務可靠性保障方案是將網絡流量分析工具和基于網絡多層級探針自動化測試手段二者進行有效融合形成的一種保障方案,也是對當前云端業務保障方案的一次探索和創新。該方案較好地填補了當前在云端業務單一依靠云內設備自身日志和告警進行監控的盲區,結合多探針分段定位、云內性能主動采集、業務流量實時分析、輔以實時的大數據處理手段并進行可視化呈現,手段上實現主動+ 被動、場景上實現云內+ 云外、質量上實現網絡+ 業務的有效融合,形成了完整可靠的整體云平臺監控與保障體系,提升移動云平臺品牌價值與市場競爭力。