孫維亞 吳興國(guó) 胡林森



摘要:云服務(wù)商提供的云服務(wù)承載了政務(wù)、金融等諸多重要客戶(hù)業(yè)務(wù)。如何提升云上部署重要業(yè)務(wù)的監(jiān)控水平是當(dāng)前面臨的難題。文章以基線預(yù)警系統(tǒng)為例,從系統(tǒng)的模型構(gòu)建、實(shí)現(xiàn)原理、部署方法和應(yīng)用效果等幾個(gè)方面詳細(xì)進(jìn)行了闡述。該系統(tǒng)實(shí)現(xiàn)了客戶(hù)業(yè)務(wù)主動(dòng)監(jiān)控,業(yè)務(wù)流量變化快速感知,大幅提升了運(yùn)維人員響應(yīng)效率,為探索云服務(wù)商提升重要業(yè)務(wù)的監(jiān)控能力提供了新的方法。
關(guān)鍵詞:云服務(wù)商;智慧監(jiān)控;基線預(yù)警
中圖分類(lèi)號(hào):TN711.1? 文獻(xiàn)標(biāo)志碼:A
0 引言
近年來(lái),在數(shù)字經(jīng)濟(jì)大潮的引領(lǐng)下,云計(jì)算技術(shù)從互聯(lián)網(wǎng)行業(yè)向政務(wù)、金融、工業(yè)、醫(yī)療等傳統(tǒng)行業(yè)加速滲透,在各行業(yè)得到了迅速發(fā)展和廣泛應(yīng)用[1]。云計(jì)算具有高性?xún)r(jià)比、高可靠性、高安全性、快速部署、方便擴(kuò)展等特點(diǎn)[2-3],大幅節(jié)約了使用成本,提升了管理效率。
由云服務(wù)商提供算力服務(wù)的政務(wù)云平臺(tái),承載了諸如健康碼、疫苗追溯管理系統(tǒng)等涉及民生的重要業(yè)務(wù),在特定時(shí)期發(fā)揮了重要作用。客戶(hù)為提升業(yè)務(wù)穩(wěn)定性,通常會(huì)選取兩個(gè)云服務(wù)商,分別部署一些重要的政務(wù)服務(wù),用于業(yè)務(wù)冗余。當(dāng)主用平臺(tái)發(fā)生故障時(shí),緊急啟用備用平臺(tái),以提升服務(wù)的連續(xù)性、穩(wěn)定性。從云服務(wù)商角度來(lái)看,當(dāng)客戶(hù)業(yè)務(wù)系統(tǒng)功能故障或用戶(hù)流量突增時(shí),客戶(hù)會(huì)將部分或全部用戶(hù)流量分流到備用平臺(tái)。一般來(lái)說(shuō),部署在租戶(hù)層面的監(jiān)控由客戶(hù)單位進(jìn)行管理,可及時(shí)感知到業(yè)務(wù)流量變化;但對(duì)于云服務(wù)商的平臺(tái)運(yùn)維人員,卻無(wú)相關(guān)手段在第一時(shí)間內(nèi)感知到客戶(hù)重要業(yè)務(wù)的切換。如何做好此類(lèi)場(chǎng)景的通信保障工作成了一個(gè)新的研究課題。
1 構(gòu)建智慧監(jiān)控能力
為提升云服務(wù)商智慧化運(yùn)維能力,本文采用智慧監(jiān)控手段,對(duì)客戶(hù)部署在云平臺(tái)上的重要業(yè)務(wù),采用基線預(yù)警系統(tǒng)進(jìn)行監(jiān)控,其工作原理如下。
1.1 構(gòu)建基線模型
基線預(yù)警系統(tǒng)構(gòu)建的基線模型由網(wǎng)絡(luò)基線、存儲(chǔ)基線、計(jì)算基線構(gòu)成,如圖1所示。系統(tǒng)針對(duì)云平臺(tái)承載的重點(diǎn)客戶(hù)業(yè)務(wù),通過(guò)設(shè)置網(wǎng)絡(luò)基線進(jìn)行監(jiān)控。當(dāng)云平臺(tái)重點(diǎn)指標(biāo)(如防火墻會(huì)話數(shù)、出口帶寬等)劣化時(shí),系統(tǒng)會(huì)生成告警,實(shí)現(xiàn)故障提前發(fā)現(xiàn)和預(yù)測(cè)。該模型以網(wǎng)絡(luò)基線為主要指標(biāo),同時(shí)引入存儲(chǔ)基線、計(jì)算基線作為輔助驗(yàn)證手段,參考租戶(hù)虛機(jī)磁盤(pán)讀寫(xiě)率的變化,以及虛機(jī)CPU、內(nèi)存變化趨勢(shì),用于輔助驗(yàn)證客戶(hù)業(yè)務(wù)承載狀態(tài),提高系統(tǒng)識(shí)別準(zhǔn)確率。
1.1.1 網(wǎng)絡(luò)基線
包含防火墻會(huì)話數(shù)、指定IP會(huì)話數(shù)、出口帶寬、端口CRC誤碼率等指標(biāo)。
1.1.2 存儲(chǔ)基線
包含IOPS、存儲(chǔ)流量?jī)蓚€(gè)指標(biāo)。
1.1.3 計(jì)算基線
包含宿主機(jī)CPU利用率、內(nèi)存利用率,云主機(jī)CPU利用率、內(nèi)存利用率等指標(biāo)。
1.1.4 設(shè)定閾值
根據(jù)承載客戶(hù)業(yè)務(wù)日常運(yùn)營(yíng)數(shù)據(jù)作為參考值。重要告警閾值:取參考值的2倍;緊急告警閾值:取參考值的5倍。以云平臺(tái)出口網(wǎng)絡(luò)帶寬為例,若出口網(wǎng)絡(luò)帶寬月度峰值1.01 Gb/s為參考值,則重要告警閾值:2.02 Gb/s;緊急告警閾值:5.05 Gb/s。同時(shí),根據(jù)客戶(hù)業(yè)務(wù)特點(diǎn),若日間業(yè)務(wù)峰值與夜間業(yè)務(wù)峰值有顯著區(qū)別,基線可根據(jù)時(shí)間動(dòng)態(tài)調(diào)整。
1.2 系統(tǒng)工作原理及部署方法
1.2.1 系統(tǒng)工作原理
基線預(yù)警系統(tǒng)由采集模塊、通知模塊、頁(yè)面展示 ?模塊組成,如圖2所示。采集模塊通過(guò)部署采集機(jī),限定源、目的IP地址及端口,安全接入云平臺(tái)管理網(wǎng)絡(luò),定時(shí)從相關(guān)網(wǎng)絡(luò)設(shè)備實(shí)時(shí)獲取業(yè)務(wù)的重要指標(biāo)。
圖2 基線預(yù)警系統(tǒng)工作原理
當(dāng)指標(biāo)超過(guò)設(shè)定的閾值時(shí),由通知模塊調(diào)用監(jiān)控告警平臺(tái)接口,向運(yùn)維人員派發(fā)告警通知。同時(shí)根據(jù)運(yùn)維人員關(guān)注的云平臺(tái)重要指標(biāo),如出口網(wǎng)絡(luò)實(shí)時(shí)流量、防火墻總會(huì)話數(shù)、指定業(yè)務(wù)會(huì)話數(shù)等,將這些信息整合關(guān)聯(lián),以短信或郵件的方式及時(shí)告知平臺(tái)運(yùn)維人員,使運(yùn)維人員全方位掌握云平臺(tái)運(yùn)行情況。
通知模塊還設(shè)定了告警恢復(fù)機(jī)制,當(dāng)指標(biāo)低于設(shè)定的告警閾值時(shí),由通知模塊調(diào)用監(jiān)控告警平臺(tái)接口,向運(yùn)維人員發(fā)送業(yè)務(wù)恢復(fù)短信。
同時(shí),該系統(tǒng)提供了頁(yè)面展示模塊,定時(shí)將運(yùn)維人員關(guān)注的平臺(tái)重點(diǎn)運(yùn)行性能指標(biāo)記錄下來(lái),如圖3所示,進(jìn)行可視化展示,性能指標(biāo)包含:云平臺(tái)出口流量、防火墻總會(huì)話數(shù)、重要業(yè)務(wù)會(huì)話數(shù)等,方便運(yùn)維人員及時(shí)回溯監(jiān)控?cái)?shù)據(jù),如圖4所示。
1.2.2 部署方法
我們以監(jiān)控某健康碼系統(tǒng)為例,基線預(yù)警系統(tǒng)在配置好待監(jiān)控的業(yè)務(wù)IP后,系統(tǒng)調(diào)用采集模塊定時(shí)登錄云平臺(tái)防火墻設(shè)備,獲取業(yè)務(wù)IP實(shí)時(shí)防火墻會(huì)話數(shù)。我們根據(jù)客戶(hù)業(yè)務(wù)模型及業(yè)務(wù)高峰時(shí)段,動(dòng)態(tài)設(shè)定告警閾值。系統(tǒng)每隔3分鐘獲取一次客戶(hù)業(yè)務(wù)會(huì)話數(shù)。為降低誤報(bào)概率,當(dāng)連續(xù)2次獲取的會(huì)話數(shù)超過(guò)閾值,即觸發(fā)告警機(jī)制,由通知模塊調(diào)用監(jiān)控告警系統(tǒng)API,發(fā)送告警工單預(yù)警,如圖5所示。同時(shí)整合采集到的云平臺(tái)出口流量、防火墻總會(huì)話數(shù)等重要指標(biāo),定時(shí)發(fā)送報(bào)平安短信到運(yùn)維人員,如圖6所示。
當(dāng)獲取的業(yè)務(wù)實(shí)時(shí)會(huì)話數(shù),連續(xù)2次低于設(shè)定的閾值,系統(tǒng)即判定業(yè)務(wù)高峰已恢復(fù),發(fā)送一條業(yè)務(wù)恢復(fù)工單,告知運(yùn)維人員業(yè)務(wù)峰值已過(guò)。
1.3 系統(tǒng)應(yīng)用效果
基線預(yù)警系統(tǒng)自投入使用以來(lái),對(duì)部署在云平臺(tái)上的某健康碼平臺(tái)進(jìn)行7*24小時(shí)監(jiān)控,共完成客戶(hù)業(yè)務(wù)重保10次,改變了之前人工判斷業(yè)務(wù)流量切換的現(xiàn)狀,平均響應(yīng)時(shí)間由原來(lái)的90分鐘,縮短為10分鐘以?xún)?nèi),響應(yīng)效率大幅度提升。
2 結(jié)語(yǔ)
本文結(jié)合當(dāng)前云服務(wù)商具體運(yùn)維工作面臨的難點(diǎn),采用智慧監(jiān)控手段,自研基線預(yù)警系統(tǒng),設(shè)定網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算基線模型,實(shí)時(shí)獲取重要平臺(tái)指標(biāo),整合云平臺(tái)重要運(yùn)維數(shù)據(jù),實(shí)現(xiàn)了客戶(hù)業(yè)務(wù)主動(dòng)監(jiān)控,業(yè)務(wù)流量變化快速感知,大幅提升了運(yùn)維人員響應(yīng)效率。
參考文獻(xiàn)
[1]中國(guó)信息通信研究院.云計(jì)算發(fā)展研究[J].大數(shù)據(jù)時(shí)代,2020(8):28-39.
[2]王佳雋,呂智慧,吳杰,等.云計(jì)算技術(shù)發(fā)展分析及其應(yīng)用探討[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(20):4404-4409.
[3]戴元順.云計(jì)算技術(shù)簡(jiǎn)述[J].信息通信技術(shù),2010(2):29-35.
(編輯 李春燕)
Application of intelligent monitoring in key business monitoring of cloud service providers
Sun? Weiya, Wu? Xingguo, Hu? Linsen
(China Telecom Anhui Branch Hefei Co., Ltd., Hefei 230000, China)
Abstract:? The cloud services provided by cloud service providers carry many important customer businesses, such as government affairs and finance. How to improve the monitoring level of important business deployed on the cloud is the current challenge. Taking the baseline warning system as an example, this paper expounds the model construction, implementation principle, deployment method and application effect of the system in detail . The system realizes the active monitoring of customers business and rapid perception of business flow changes, greatly improves the response efficiency of operation and maintenance personnel, and provides a new method for exploring cloud service providers to improve the monitoring ability of key businesses.
Key words: cloud service provider; intelligent monitoring; baseline warning