吳秋玫,楊鷗
(云南電網(wǎng)有限責(zé)任公司普洱供電局,云南 普洱 665000)
傳統(tǒng)的IT運(yùn)維監(jiān)控系統(tǒng)都需要為每一個(gè)監(jiān)控對(duì)象(交換機(jī)、路由器、防火墻、IPS、服務(wù)器、數(shù)據(jù)庫(kù)、中間件等)的每個(gè)監(jiān)控指標(biāo)設(shè)置報(bào)警閥值,需要根據(jù)基于規(guī)則的閥值配置進(jìn)行報(bào)警,這需要投入大量的人力成本和時(shí)間成本來(lái)完成配置工作,所有的監(jiān)控對(duì)象運(yùn)維人員都需要根據(jù)自身的運(yùn)維經(jīng)驗(yàn)進(jìn)行配置,并且不同的IT業(yè)務(wù)系統(tǒng)對(duì)指標(biāo)的要求存在差異性,這將導(dǎo)致報(bào)警規(guī)則配置標(biāo)準(zhǔn)無(wú)法統(tǒng)一、配置的指標(biāo)范圍難以規(guī)范化,這將導(dǎo)致IT業(yè)務(wù)系統(tǒng)在高峰時(shí)間產(chǎn)生大量的“無(wú)效”報(bào)警,需要運(yùn)維人員進(jìn)行手工消除報(bào)警并且根據(jù)報(bào)警的情況持續(xù)調(diào)整告警上下限閥值,告警維護(hù)成本高,給運(yùn)維人員增加了工作量,且難以適應(yīng)實(shí)時(shí)動(dòng)態(tài)變化的系統(tǒng)運(yùn)行狀況,同時(shí)在閥值調(diào)整過(guò)程中,可能引發(fā)關(guān)聯(lián)指標(biāo)的異常預(yù)警,甚至引入業(yè)務(wù)系統(tǒng)中斷的風(fēng)險(xiǎn),基于規(guī)則的手動(dòng)配置閥值導(dǎo)致報(bào)警指標(biāo)覆蓋率、準(zhǔn)確率不高,且誤報(bào)率比較高[1]。因此通過(guò)實(shí)施IT監(jiān)控系統(tǒng)指標(biāo)動(dòng)態(tài)閥值設(shè)定,減少系統(tǒng)“誤報(bào)”率,降低運(yùn)維人員指標(biāo)設(shè)定工作量以及配置風(fēng)險(xiǎn),減少通過(guò)主觀判斷進(jìn)行監(jiān)控系統(tǒng)的報(bào)警閥值設(shè)定,確保業(yè)務(wù)系統(tǒng)的安全、可靠、高效運(yùn)行。
系統(tǒng)功能架構(gòu)劃分為三層,分別為數(shù)據(jù)采集層、算法模型層及應(yīng)用層。數(shù)據(jù)采集層主要負(fù)責(zé)對(duì)服務(wù)器、數(shù)據(jù)庫(kù)、中間件及網(wǎng)絡(luò)設(shè)備的監(jiān)測(cè)指標(biāo)進(jìn)行收集,并且根據(jù)算法模型對(duì)數(shù)據(jù)的要求進(jìn)行數(shù)據(jù)理解和數(shù)據(jù)處理;算法模型層是本系統(tǒng)的核心,是在實(shí)現(xiàn)運(yùn)維指標(biāo)數(shù)據(jù)統(tǒng)一采集的基礎(chǔ)上,針對(duì)每個(gè)應(yīng)用系統(tǒng)運(yùn)行的特點(diǎn)以及歷史運(yùn)行數(shù)據(jù)構(gòu)建可靠的算法模型,并且提供模型訓(xùn)練窗口以及數(shù)據(jù)樣本管理功能;應(yīng)用層是基于數(shù)據(jù)采集層及算法模型層而迭代的數(shù)字化運(yùn)維管理功能模塊,為運(yùn)維人員提供可視化、數(shù)字化的運(yùn)維管理視窗,實(shí)現(xiàn)高效的運(yùn)維管控和保障[2]。
編寫(xiě)高性能、高并發(fā)的數(shù)據(jù)采集器代理,負(fù)責(zé)把服務(wù)器、數(shù)據(jù)庫(kù)、中間件及網(wǎng)絡(luò)設(shè)備運(yùn)行的關(guān)鍵指標(biāo)數(shù)據(jù)按照采集周期,主動(dòng)地把數(shù)據(jù)發(fā)送到具備大數(shù)據(jù)分析能力的數(shù)據(jù)聚合平臺(tái),完成運(yùn)維數(shù)據(jù)的統(tǒng)一存儲(chǔ)、加工和處理,實(shí)現(xiàn)了源數(shù)據(jù)的聚合管控。
對(duì)已完成聚合的源數(shù)據(jù)進(jìn)行分級(jí)分類(lèi)管理,將IT系統(tǒng)按照對(duì)象類(lèi)別進(jìn)行劃分,并對(duì)每個(gè)IT對(duì)象的指標(biāo)劃分為:軟硬件狀態(tài)——決定IT對(duì)象的生命、性能狀態(tài)——決定IT對(duì)象的容量能力、日志——決定IT對(duì)象的健康度以及安全性。IT對(duì)象之間的關(guān)聯(lián)關(guān)系我們采用軟鏈路和硬鏈路兩種方式來(lái)進(jìn)行連接,具有物理連接關(guān)系的IT對(duì)象之間的連接為硬鏈路連接,服務(wù)器與以太網(wǎng)交換機(jī)、服務(wù)器與SAN交換機(jī)、SAN交換機(jī)與磁盤(pán)陣列設(shè)備等之間的連接關(guān)系均為硬鏈路連接,端口故障、物理鏈路中斷均影響IT系統(tǒng)的正常運(yùn)行;除此之外,IT對(duì)象之間的連接關(guān)聯(lián)為軟鏈路連接,數(shù)據(jù)庫(kù)與操作系統(tǒng)之間的關(guān)系、中間件與操作系統(tǒng)之間的關(guān)系、業(yè)務(wù)應(yīng)用包與數(shù)據(jù)庫(kù)、中間件之間的關(guān)系均為軟鏈路連接,其之間通常通過(guò)端口號(hào)、賬戶(hù)進(jìn)行建立連接關(guān)系,防火墻、賬號(hào)錯(cuò)誤、端口占用均可能導(dǎo)致業(yè)務(wù)系統(tǒng)中斷。因此,預(yù)警閥值要從IT系統(tǒng)中的單體對(duì)象以及干系對(duì)象、鏈路可靠性等多維度、多層次進(jìn)行設(shè)置和預(yù)測(cè)[3]。
通過(guò)構(gòu)建以業(yè)務(wù)系統(tǒng)為單元的監(jiān)控預(yù)警分析模型,采用模型最小化法則,將影響業(yè)務(wù)系統(tǒng)的干系對(duì)象縮減到最小范圍,控制IT對(duì)象指標(biāo)的分析數(shù)據(jù)量,保證高性能實(shí)時(shí)分析IT系統(tǒng)狀態(tài)和挖掘歷史數(shù)據(jù),并進(jìn)行實(shí)時(shí)分析對(duì)比。通過(guò)對(duì)具體的業(yè)務(wù)系統(tǒng)抽取應(yīng)用級(jí)的運(yùn)行指標(biāo),構(gòu)建業(yè)務(wù)正常運(yùn)行時(shí)的指標(biāo)數(shù)值范圍,即業(yè)務(wù)運(yùn)行指標(biāo)健康度取值范圍,我們將業(yè)務(wù)系統(tǒng)的登錄時(shí)間、連接時(shí)間、響應(yīng)時(shí)間、登錄用戶(hù)數(shù)、活動(dòng)用戶(hù)數(shù)等關(guān)鍵指標(biāo)數(shù)據(jù)與服務(wù)器運(yùn)行狀態(tài)及性能消耗、網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)及性能消耗、中間件運(yùn)行狀態(tài)及性能消耗、日志內(nèi)容、日常報(bào)警信息以及機(jī)房環(huán)境關(guān)鍵指標(biāo)就行立體空間映射,實(shí)時(shí)進(jìn)行數(shù)據(jù)收集以及數(shù)據(jù)映射管理,構(gòu)建具備實(shí)時(shí)流分析能力的IT系統(tǒng)運(yùn)行歷史數(shù)據(jù)庫(kù)系統(tǒng)。

圖1 系統(tǒng)功能架構(gòu)圖
算法模型層主要包括特征提取、模型構(gòu)建、模型評(píng)估及模型訓(xùn)練四個(gè)環(huán)節(jié)。
特征提取主要依據(jù)數(shù)據(jù)采集層構(gòu)建的IT系統(tǒng)運(yùn)行歷史數(shù)據(jù)庫(kù)系統(tǒng)以及所構(gòu)建的數(shù)據(jù)映射立體空間圖。在本算法模型中我們采用七種數(shù)據(jù)挖掘特征提取方法,即基于樹(shù)模型提取特征、基于L1/L2懲罰值提取特征、遞歸特征消除法提取特征、互信息選擇法提取特征、利用相關(guān)系數(shù)選擇特征、卡方檢驗(yàn)法提取特征、利用方差選擇特征對(duì)不同的數(shù)據(jù)類(lèi)型和維度進(jìn)行特征提取,并且構(gòu)建一個(gè)融合七個(gè)維度特征的綜合性特征庫(kù)。特征庫(kù)內(nèi)容至少包括業(yè)務(wù)系統(tǒng)狀態(tài)及健康度、IT系統(tǒng)軟硬件狀態(tài)、IT軟硬件關(guān)鍵指標(biāo)性能、日志信息數(shù)據(jù)以及嚴(yán)重報(bào)警信息等內(nèi)容,通過(guò)多維特征的提取形成以業(yè)務(wù)系統(tǒng)安全、高效、可靠運(yùn)行為中心的、以業(yè)務(wù)系統(tǒng)為單元的綜合特征庫(kù)[4]。
根據(jù)業(yè)務(wù)系統(tǒng)所涉及到的IT系統(tǒng)運(yùn)行綜合狀態(tài)信息數(shù)據(jù),以及結(jié)合多維綜合特征工程所提取的特征內(nèi)容進(jìn)行設(shè)計(jì)開(kāi)發(fā)訓(xùn)練模型,并且配套編程樣本庫(kù)管理模塊、樣本數(shù)據(jù)管理模塊進(jìn)行對(duì)業(yè)務(wù)系統(tǒng)的運(yùn)維數(shù)據(jù)綜合性訓(xùn)練和校驗(yàn)。
基于IT系統(tǒng)運(yùn)行綜合數(shù)據(jù)庫(kù)、樣本數(shù)據(jù)庫(kù)以及模型訓(xùn)練集數(shù)據(jù),構(gòu)建IT系統(tǒng)運(yùn)行健康狀況動(dòng)態(tài)負(fù)載實(shí)時(shí)監(jiān)測(cè)功能,并進(jìn)行報(bào)警閥值的動(dòng)態(tài)設(shè)置及預(yù)警,減少無(wú)效報(bào)警信息。通過(guò)運(yùn)維算法模型實(shí)時(shí)挖掘IT系統(tǒng)運(yùn)行歷史數(shù)據(jù)庫(kù)對(duì)業(yè)務(wù)系統(tǒng)的故障點(diǎn)進(jìn)行預(yù)判、業(yè)務(wù)系統(tǒng)鏈路節(jié)點(diǎn)故障定位及預(yù)判。

圖2 算法結(jié)構(gòu)圖
在算法模型中,我們采用基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法RNN、DNNN、LSTM,同時(shí),將IT系統(tǒng)運(yùn)行指標(biāo)劃分為兩大類(lèi),一類(lèi)為重要關(guān)鍵指標(biāo),比如業(yè)務(wù)交易、業(yè)務(wù)系統(tǒng)可用狀態(tài)登,采用LSTM異常檢測(cè)算法對(duì)指標(biāo)的運(yùn)行歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練,并基于實(shí)時(shí)運(yùn)行指標(biāo)對(duì)預(yù)測(cè)指標(biāo)未來(lái)的趨勢(shì),在模型算法中,為每一個(gè)關(guān)鍵指標(biāo)建立模型,即單子指標(biāo)單模型;另外一類(lèi)為普通指標(biāo),即非關(guān)鍵指標(biāo),這類(lèi)指標(biāo)采用DNN算法,利用小波變換算法提取監(jiān)控指標(biāo)頻域特征到DNN模型,直接導(dǎo)出指標(biāo)異常與否結(jié)果,DNN模型融通綜合性的指標(biāo)特征工程數(shù)據(jù)庫(kù),配合運(yùn)維人員人工的數(shù)據(jù)標(biāo)記工程,進(jìn)行持續(xù)提高模型精度,較好地滿(mǎn)足所有異常檢測(cè)場(chǎng)景全覆蓋。通過(guò)對(duì)IT軟硬件系統(tǒng)以及業(yè)務(wù)系統(tǒng)運(yùn)行的實(shí)時(shí)的異常分析、預(yù)判,實(shí)現(xiàn)系統(tǒng)不斷自動(dòng)調(diào)整報(bào)警閥值,自動(dòng)化進(jìn)行IT關(guān)系干系分析、影響分析及單體分析,在業(yè)務(wù)單元網(wǎng)格中進(jìn)行可靠性、健康度及安全性的多維分析、預(yù)測(cè)、預(yù)警,為運(yùn)維人員提供科學(xué)的報(bào)警信息和動(dòng)態(tài)化的IT系統(tǒng)閥值配置系統(tǒng),實(shí)現(xiàn)具有針對(duì)業(yè)務(wù)系統(tǒng)特點(diǎn)和個(gè)性化的IT系統(tǒng)對(duì)象指標(biāo)閥值自動(dòng)配置算法庫(kù)及指標(biāo)域值。
通過(guò)算法模型層,實(shí)現(xiàn)了特征庫(kù)、訓(xùn)練集、標(biāo)記庫(kù)以及算法模型的創(chuàng)建,實(shí)現(xiàn)了IT系統(tǒng)軟硬件設(shè)備的異常檢測(cè)及預(yù)判,并對(duì)IT系統(tǒng)報(bào)警閥值進(jìn)行自動(dòng)調(diào)節(jié),確保報(bào)警數(shù)據(jù)及時(shí)性及可靠性。
應(yīng)用層的主要功能模塊是完全基于數(shù)據(jù)采集層和算法模型層實(shí)現(xiàn)IT系統(tǒng)運(yùn)維可視化監(jiān)控、業(yè)務(wù)系統(tǒng)端到端全鏈路監(jiān)控與故障自動(dòng)定位,并對(duì)運(yùn)維的實(shí)際需求進(jìn)行動(dòng)態(tài)化“零編碼”的可視化中心建設(shè),并對(duì)對(duì)IT對(duì)象進(jìn)行實(shí)時(shí)監(jiān)控與歷史數(shù)據(jù)挖掘分析對(duì)比,針對(duì)業(yè)務(wù)系統(tǒng)當(dāng)前的綜合運(yùn)行狀態(tài)及系統(tǒng)負(fù)荷進(jìn)行閥值動(dòng)態(tài)化自動(dòng)優(yōu)化調(diào)整以及預(yù)警等功能,為運(yùn)維人員提供高效的、智能化的IT系統(tǒng)運(yùn)維管理工具平臺(tái)[5]。
通過(guò)基于歷史運(yùn)維數(shù)據(jù)特征的監(jiān)控系統(tǒng)告警閥值自動(dòng)設(shè)定功能平臺(tái)建設(shè),結(jié)合IT系統(tǒng)運(yùn)維監(jiān)測(cè)可視化畫(huà)像、IT系統(tǒng)指標(biāo)及日志關(guān)聯(lián)分析的需求,完善和迭代基于IT業(yè)務(wù)端到端的全鏈路數(shù)據(jù)節(jié)點(diǎn)監(jiān)控一條線(xiàn),把IT軟硬件對(duì)象狀態(tài)及軟硬鏈路關(guān)系數(shù)字化可視化、IT軟硬件設(shè)備運(yùn)行狀態(tài)可視化、運(yùn)行指標(biāo)數(shù)據(jù)可視化、故障節(jié)點(diǎn)可視化,并且通過(guò)運(yùn)維知識(shí)圖譜系統(tǒng),根據(jù)IT系統(tǒng)報(bào)警信息自動(dòng)推薦故障解決措施和方案,并且系統(tǒng)平臺(tái)引入自動(dòng)化運(yùn)維技術(shù),支持人工關(guān)聯(lián)自動(dòng)化運(yùn)行作業(yè),全面打造高效、可靠、安全的IT系統(tǒng)運(yùn)維數(shù)字化平臺(tái)。
本課題充分采用大數(shù)據(jù)分析技術(shù)、AI算法模型、數(shù)據(jù)聚合技術(shù)、AIOPS自動(dòng)化運(yùn)維、運(yùn)維數(shù)據(jù)分析及運(yùn)維指標(biāo)量化,將IT系統(tǒng)運(yùn)行歷史數(shù)據(jù)聚合到大數(shù)據(jù)分析平臺(tái),打破運(yùn)維數(shù)據(jù)孤島,構(gòu)建IT運(yùn)維大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)對(duì)IT運(yùn)維數(shù)據(jù)的深度挖掘。并且構(gòu)建針對(duì)業(yè)務(wù)系統(tǒng)為單元的IT指標(biāo)綜合特征庫(kù)、算法模型、數(shù)據(jù)訓(xùn)練集,實(shí)現(xiàn)構(gòu)建動(dòng)態(tài)的IT系統(tǒng)運(yùn)維監(jiān)控指標(biāo)閥值自動(dòng)設(shè)定及預(yù)警,解決IT運(yùn)維指標(biāo)報(bào)警閥值配置規(guī)范化、標(biāo)準(zhǔn)化及個(gè)性化難點(diǎn)、難題,降低IT系統(tǒng)報(bào)警誤報(bào)率問(wèn)題,并且基于此技術(shù)創(chuàng)新和建設(shè)思路,實(shí)現(xiàn)IT系統(tǒng)監(jiān)控?cái)?shù)據(jù)分析、業(yè)務(wù)端到端監(jiān)控視圖以及關(guān)聯(lián)分析,全面提升IT監(jiān)控系統(tǒng)的使用價(jià)值和應(yīng)用水平。