衛薇,龍玉江,鐘掖
基于概率統計模型的電力IT監控對象特征異常檢測
衛薇,龍玉江*,鐘掖*
貴州電網有限責任公司信息中心, 貴州 貴陽 553000
隨著數據中心規模的不斷擴大,業務系統越趨復雜,可用性和可靠性要求不斷提高,傳統的電力IT監控軟件僅僅只能夠監控對象特征數據指標量,但是卻沒法對對象特征數據指標量進行異常預警,傳統的電力IT監控對象特征數據異常告警僅僅依靠簡單的事先閾值配置,誤報率與漏報率依賴事先閾值的設置,整體異常告警性能欠佳。本文針對電力IT監控對象特征數據,提出了基于概率統計模型的電力IT監控對象特征異常檢測方法,針對數據分布的特點,研究了基于一元正態分布的監控對象異常檢測方法與基于混合參數分布的監控對象異常檢測。實驗結果表明本文提出的方法在電力IT監控對象特征異常檢測的準確率、召回率、以及F值上均優于傳統的事先閾值配置的異常告警方法。
電力; IT監控; 異常檢測; 概率統計模型
目前的電力IT監控運維管理方法是:通過人工制定管理規則,例如對每一個監控對象設置監控哪些指標、設置每個指標的閾值、定義指標發生異常后的處理策略等[1],都是通過人工進行制定,然后由運維管理系統進行實施的。但是,隨著數據中心規模的不斷擴大,業務系統越趨復雜[2],可用性和可靠性要求不斷提高,僅僅依靠這些通用特征的指標量沒法判斷整個IT監控中的異常問題[3,4]。
比如IT監控軟件僅僅只能夠監控服務器CPU負載指標量,但是卻沒法對CPU負載指標量進行異常預警,即什么樣的指標量說明CPU處于高負載不得而知。又如IT監控軟件僅僅只能夠監控網絡中的輸入流量和輸出流量的具體指標量,但是什么樣的流量屬于異常流量不得而知。
傳統的IT監控軟件指標預警通常人工事先指定一個閾值,指標觸發越界指標則告警。人工事先指定閾值通常存在如下幾個問題:(1)采集指標覆蓋面不夠。目前電網公司采購的數據采集軟件,采集的監控指標覆蓋面不夠,需要進行二次開發才能實現。如風扇、溫度、電壓、硬件物理故障等硬件監控指標;負載均衡器的資源池、虛擬節點健康狀態等指標及一些特殊設備的監控指標,如DSG數據同步管理軟件的監控采集指標。
(2)監控軟件實施困難。當采用有代理的方式部署在大量被監控對象中的時候,每個代理程序都是一個系統,需要進行監控參數的設置,這些設置工作量大而且重復,傳統的監控軟件缺乏自適應的配置管理功能,不能根據監控對象類型自動設置監控指標或其他參數。
(3)監控軟件維護困難。維護每個Agent都是在維護一個小系統,傳統的監控軟件缺乏統一的管理平臺,Agent的相關腳本或者數據管理都是本地化模式,一方面是維護工作量大,另一方面是在代理程序升級修改的時候容易造成腳本或數據的丟失。
(4)缺乏采集功能差異化管理。傳統監控軟件不能根據被監控對象的服務級別實現監控功能的差異化管理,更不能根據監控指標的重要程度實現差異化的采集調度,它們將同類設備一視同仁,無緊急重要程度區分。
(5)監控軟件平臺缺乏自我監控功能。傳統監控軟件各個節點之間沒有實現相互協同,相互監視的機制,出現監控的死角。
本文通過電力IT監控對象特征的指標量數據,利用概率統計方法,來發現電力IT監控對象的異常特征,進一步為電力IT復雜業務系統的軟件以及硬件可靠性服務。
(由于電力IT系統涉及的設備種類繁多、應用多樣,因此,我們首先對采集的數據進行層次劃分與屬性歸類,并提出相應的采集方法,從而為后續的監控技術研究明確數據規范與標準。從監控需求出發,采集數據大致可以分為物理層、網絡層、系統層、數據層、中間件層、應用層等6個不同的層次,具體的數據采集需求如表1所示。

表 1 電力IT監控數據采集需求
● 主機硬件
各主機硬件基本信息及各項指標如溫度、轉速、傳感器等的相關狀態及獲取到各指標相關數據。
● 網絡設備
監控如防火墻、交換機、路由器等設備的性能及獲取各項指標。
● 主機系統
對Windows、Linux等各種類型的操作系統的主機實施監控,并對各項性能指標進行監測并獲取各指標相關數據。
● 均衡負載器
對均衡負載器實施監控,獲取相關指標信息。
● 數據庫
對oracle等數據庫獲取并監測如訪問狀態、表空間使用率等指標信息。
● 中間件
對weblogic等中間件獲取并監測如訪問狀態、工作狀態等指標信息。
● 存儲設備
對IPMI等硬件獲取并監測如設備相關狀態信息等指標信息。
● IPMI硬件
對磁盤陣列、光纖交換機等存儲設備獲取并監測如設備相關狀態信息、工作狀態等指標信息等。
● 第三方coherence軟件告警
監控第三方coherence軟件的相關指標。
首先,我們實現監控Agent的批量部署功能,同時通過統一的管理視圖對分布在不同被監控設備上的Agent進行統一的管理,主要包括啟停、升級、維護、監視等管理功能。監控指標的增加、刪除、修改、查詢等功能。
隨后,針對監控對象的操作系統、設備類型、功能屬性、服務級別等特征及屬性進行自動識別分析,形成監控對象特征庫。
本文利用統計方法對電力IT監控對象特征數據進行建模[5]。統計學方法是基于模型的方法,即為數據創建一個模型,并且根據對象擬合模型的情況來評估它們。本文的電力IT監控對象特征異常檢測的統計學方法基于構建一個概率分布模型,并計算特征對象有多大概率可能符合該模型。
定義1電力IT監控對象異常點的概率定義。電力IT監控對象異常點是一個對象,關于IT監控對象數據的概率分布模型,它具有低概率。
即假設正常電力IT監控對象特征的指標量被一個以Q為參數的參數分布產生,該參數分布的概率密度函數(,Q)給出對象被該分布產生的概率。該值越小,越可能是異常值。
概率分布模型通常估計指定的分布參數Q,由數據創建。本文假設IT監控對象特征的指標量數據具有高斯分布,則基本分布的均值和標準差可通過計算IT監控對象特征的指標量數據來估計。
正態分布是電力IT監控對象特征數據中最常見的分布。定義電力IT監控對象特征數據中的正態分布為(,),兩個參數和分別表示均值和方差。

定義2 單個(0,1)正態屬性的電力IT監控對象異常點。設屬性取自具有均值0和標準差1的正態分布。一個具有屬性值的電力IT監控對象的異常點,如果:||≥
其中,是一個選定的常量,滿足(||≥。
為了使用該定義來發現電力IT監控對象的異常點,需要指定值。具體表示錯誤地將來自給定分布的值分類為異常點的概率。
如果電力IT監控對象的正常指標量分布是具有均值和標準差的正態分布,即(,)分布,我們需要將屬性變換為新屬性,具有(0,1)分布。具體的變換方法,本文使用檢驗(又被稱為最大標準殘差檢驗)。


一元正態分布在大多數電力IT監控對象特征指標量中是有效的。然后,隨著數據中心規模的不斷擴大及云計算技術的廣泛應用,基于資源的IT監控對象的數據也更加復雜化,一元正態分布過于簡單。比如IT監控對象網絡設備中的流量數據相對較為復雜,一元正態分布不能夠很好地對流量數據進行建模。因此,針對IT監控對象特征指標量中分布較為復雜的數據,本文采用基于混合參數分布的監控對象異常檢測方法。

其中,Q1和Q2分別是Q1和Q2的概率密度函數,本文采用期望最大化(EM)算法來學習混合模型的參數1,1,2,2。正常數據將形成對應分布的簇,一個電力IT監控對象某一特征指標量的數據被檢測為異常點,如果它不屬于任何正常簇,即它被這兩個分布的組合產生的概率很低。
上述混合參數異常點檢測方法僅僅只能夠發現電力IT監控對象某一特征指標量孤立的異常對象點。而實際的電力IT監控對象特征指標量數據通常表現的極為復雜性。比如電力IT監控主機硬件的溫度,指標量異常值不僅僅體現幾個單一的溫度值,通常一小簇溫度值都為異常對象。因此,假設2個分布的混合模型,一個分布為正常數據,而另外一個分布為異常點數據。

其中,是一個對象;是0和1之間的數,即異常點的期望比例。分布由數據估計,而分布通常取均勻分布。R和E分別為時刻正常和異常對象的集合。初始=0,0=,而0為空。在任意時刻,整個數據集的似然和對數似然分別根據以下兩式計算:

其中,Ps、PRt和PEt分別是S、Rt和Et的概率分布函數,由上式可以計算正常對象分布和異常對象分布的概率密度參數,進一步的可以發現電力IT監控對象的異常點。具體的電力IT監控對象特征指標量數據異常檢測算法如下所示。
算法1基于混合模型的電力IT監控對象特征指標量數據異常檢測
1:初始化,在時刻t=0,令Rt包含所有的對象,而Et為空。
令LLt(S)=LL(Rt)+LLt(Et)為所有數據的對象似然。
2:for 屬于Rt的每個點o do
北京科技大學圖書館推行的輔助大學生創新社會實踐案例獲得了2016年全國高校信息素養教育研討會案例大賽一等獎,案例是為滿足學生創新社會實踐進行前期文獻調研這一臨時性、應急性的需求而設計的。目的是要在短時間內將學生當下所需的知識技能以恰當的方式迅速有效地傳達給學生。案例從學生社會實踐文獻調研的全流程進行了教學設計,內容不僅包括文獻及檢索基礎知識框架、文獻的檢索、遴選、獲取、管理等文獻檢索相關技能,同時還針對實踐隊要求高協同工作的特點,介紹了知識管理軟件有道云筆記和有道云協作,以輔助團隊提高協作效率。并結合邏輯演繹規則及學生認知規律,對學生選題及檢索系統使用做了剖析和講解。
3:將o從Rt移動到Et,產生新的數據集合Et+1和Rt+1
4:計算S的新的對象似然LLt+1(S)=LL(Rt+1)+LLt(Et+1)
5:計算差D=LLt(S)-LLt+1(S)
水上有不少篷船,船夫獨居在船中,久而久之,連聽到自己的聲音都會嚇一跳,所以幾乎很少開口。另一些孤獨的人卻害怕安靜,他們像流水一樣養成了自言自語的習慣。明尼見過在一艘堆滿貝殼的駁船上的男人。“下一個貝殼,”他喃喃自語道,“里頭一定有珍珠。不過,就算沒珍珠,至少殼也能做珍珠色的扣子。算算,我撈的貝殼做成的扣子大概能堆成幾座山了……”有時候,明尼腳下混合著黏土和沙土的河床上就鋪有被沖壓出的一個個密密網眼的貝殼。
6:if D>x,其中x是某個閾值then
7:將o分類為異常。即Rt+1和Et+1保持不變,并成為當前的正常和異常集。
8:end if
9:end for
一個響徹神州的食品品牌,一個由40萬元起家的行業巨頭,一個低調沉默的企業家,一個發生在深圳的創業神話,他構建起目前世界上最大的布丁王國。
因為電力IT監控正常對象的數量比電力IT監控異常對象的數量大得多,因此,當一個電力IT監控對象特征指標量數據移動到異常集合后,正常對象的分布變化不大。在這種情況下,每個電力IT監控正常對象對正常對象的總似然保持相對不變。此外,如果假定電力IT監控對象特征指標量異常數據服從均勻分布,則移動到異常集合的每個對象對異常的似然貢獻為一個固定的量。這樣,當一個電力IT監控對象特征指標量數據移動到異常集合時,數據總似然的改變初略地等于該對象在均勻分布下的概率減去對象在電力IT監控對象特征指標量正常數據點分布下的概率。因此,電力IT監控對象特征指標量異常數據在均勻分布下的概率明顯比在正常對象分布下的概率高。
4 系統實現與算法有效性驗證
4.1 系統架構
電力IT監控管理自適應系統架構圖如下圖所示:
整個架構包含四個部分:
(1)監控Portal服務器:負責將監控對象、監控腳本、監控策略、操作指令等定義成一系列的監控模板,并提供給數據庫。
(2)數據庫:作為中間媒介,存儲通過Portal定義的監控模板;
(3)監控管理服務器:讀取相關監控模板進行解析,通過與Agent間的管理協議(例如監控作業管理、Agent操作命令協議等),調度Agent進行相關操作。
(4)Agent:一般部署在服務器上,執行采集命令。
這種通過各個層次相對松耦合的體系結構及完善的監控管理協議機制,基于監控對象的不同服務級別、特征及屬性進行自動識別分析,形成監控對象特征庫,實現監控腳本及策略的自適應部署、變更、升級。同時可形成標準自動化管理接口規范,電力IT監控廠商只要遵循接口規范,都可以通過該接口實現電力IT監控管理自適應,提升監控管理水平,降低管理成本。
圖 1 電力IT監控管理自適應系統架構圖 Fig.1 Architecture framework of power IT monitoring and management adaptive system
4.2 實驗采集的數據
實驗具體針對如下電力IT資源進行采集。
表 1 電力IT資源采集Table 1 Power IT resource acquisition序號No.類型Type采集設備類型Acquisition devices 1網絡設備路由器、交換機、防火墻、負載均衡設備等 2主機系統Windows、Unix(HP-UX、IBM AIX、SunSolaris等)、Linux 3硬件溫度、轉速、電壓等硬件物理故障 4存儲設備光纖交換機、磁盤陣列、磁帶庫等 5數據庫Oracle、SQLServer、MySql等 6中間件Tomcat、Weblogic等 7特殊軟件如數據庫同步復制軟件等
4.3 異常檢測準確率驗證
實驗分別驗證了基于一元正態分布與混合參數分布的異常檢測方法的準確率。在準確率驗證對比方面,實驗對比了事先指定閾值的告警準確率計算方法。
一元正態分布異常檢測方面,主要驗證了設備溫度與轉速異常(圖2)。
圖 2 一元正態分布異常檢測準確率驗證 Fig.2 Verification of anomaly detection accuracy of unary normal distribution
由實驗結果可知,一元正態分布異常檢測根據統計模型對電力IT監控對象特征指標量進行異常檢測,不需要先驗閾值,通過對設備溫度和轉速進行異常檢測的校驗,對溫度異常檢測的準確率約為0.878,對轉速異常檢測的準確率約為0.853。事先指定閾值的異常檢測方法需要認為指定一個閾值,高于該閾值則認為是異常告警。實驗分別設置了10組閾值,閾值從小到大排序。由實驗結果可知,當閾值設置過小的時候,指定閾值的異常檢測方法誤報率較高,準確率較低,隨著指定閾值的上升,準確率呈現上升趨勢。盡管當閾值高于一定程度的時候,指定閾值的異常檢測方法準確率較高,但是事先指定閾值的異常檢測方法存在兩個問題:(1)閾值較難設定;(2)閾值設置較高時,盡管準確率較高,但是召回率較低,后面實驗將驗證召回率。一元正態分布異常檢測方法相對來說,具有兩個優勢:(1)利用統計學方法,不用事先指定閾值;(2)異常檢測的準確率相對也較高。
【12】湯顯祖《牡丹亭記題詞》,見《牡丹亭記題詞》,見徐朔方箋校《湯顯祖全集》,北京古籍出版社1999年版,第1153頁。
圖 3 混合參數分布異常檢測準確率驗證 Fig.3 Verification of the accuracy of anomaly detection with mixed parameter distribution
對于混合參數分布異常檢測準確率,實驗同樣對比了事先指定閾值的告警準確率計算方法。實驗主要驗證了流量的異常檢測,具體的實驗結果如圖3所示。實驗結果同樣表明在事先不指定閾值的情況下,混合參數分布異常檢測方法具有較高的準確率,且實驗可以發現由于流量數據統計分布特性較復雜,異常檢測準確率相對溫度和轉速的準確率存在略微的偏低。
4.4 異常檢測召回率驗證
實驗分別驗證了基于一元正態分布與混合參數分布的異常檢測方法的召回率。在召回率驗證對比方面,實驗對比了事先指定閾值的召回率計算方法。
再者,學生的知識能力準備狀況也影響到其課堂表現。學生由于課程的背景知識準備不足,課前沒做好預習、課后沒及時復習而使得課上無話可說,導致課堂沉默。
一元正態分布異常檢測方面,主要驗證設備溫度與轉速異常(圖4)。
圖 4 一元正態分布異常檢測召回率驗證 Fig.4 Verification of recall rate of anomaly detection based on unary normal distribution
由實驗結果可知,一元正態分布異常檢測根據統計模型對電力IT監控對象特征指標量進行異常檢測,不需要先驗閾值,通過對設備溫度和轉速進行異常檢測的校驗,對溫度異常檢測的召回率約為0.862,對轉速異常檢測的召回率約為0.852。事先指定閾值的異常檢測方法需要認為指定一個閾值,高于該閾值則認為是異常告警。實驗從小到大分別設置10組閾值。由實驗結果可知,當閾值設置過小的時候,指定閾值的異常檢測方法報警次數較高,召回率較高,隨著指定閾值的上升,召回率呈現下降趨勢。盡管當閾值設置較低的時候,指定閾值的異常檢測方法召回率較高,但是事先指定閾值的異常檢測方法存在兩個問題:(1)閾值較難設定;(2)閾值設置較低時,盡管召回率較高,但是由前面的準確率實驗可知,此時準確率較低。一元正態分布異常檢測方法相對來說,具有兩個優勢:(1)利用統計學方法,不用事先指定閾值;(2)異常檢測的召回率相對也較高。
圖 5 混合參數分布異常檢測召回率驗證 Fig.5 Verification of recall rate for anomaly detection with mixed parameter distribution
對于混合參數分布異常檢測召回率,實驗同樣對比了事先指定閾值的召回率計算方法。實驗主要驗證了流量的異常檢測,具體的實驗結果如圖5所示。實驗結果同樣表明在事先不指定閾值的情況下,混合參數分布異常檢測方法具有較高的召回率,且實驗可以發現由于流量數據統計分布特性較復雜,異常檢測召回率相對溫度和轉速的召回率略低。
4.5 異常檢測F值驗證
由前面的實驗可知,事先指定閾值的異常檢測方法準確率隨著閾值的升高而升高,召回率隨著閾值的升高而降低。為了綜合衡量實驗性能,實驗計算每個閾值的F值,具體的F值計算方法如下:
F值即為準確率和召回率的調和平均值。
實驗分別驗證了基于一元正態分布與混合參數分布的異常檢測方法的F值。在F值對比方面,實驗對比了事先指定閾值的F值計算方法。
一元正態分布異常檢測方面,主要驗證了設備溫度與轉速異常(圖6)。
圖 6 一元正態分布異常檢測F值驗證 Fig.6 Validation of F value for anomaly detection of unary normal distribution
由實驗結果可知,一元正態分布異常檢測根據統計模型對電力IT監控對象特征指標量進行異常檢測,不需要先驗閾值,通過對設備溫度和轉速進行異常檢測的校驗,對溫度異常檢測的F值約為0.857,對轉速異常檢測的F值約為0.865。事先指定閾值的異常檢測方法需要認為指定一個閾值,高于該閾值則認為是異常告警。實驗分別從小到大設置10組閾值。實驗結果表明一元正態分布異常檢測方法在不需要設置閾值的情況下,相對事先指定閾值異常檢測方法仍然具有較高的整體性能。
對于混合參數分布異常檢測F值,實驗同樣對比了事先指定閾值的F值計算方法。實驗主要驗證了流量的異常檢測,具體的實驗結果如圖7所示。實驗結果同樣表明在事先不指定閾值的情況下,混合參數分布異常檢測方法具有較高的整體性能F值,且實驗可以發現由于流量數據統計分布特性較復雜,異常檢測整體性能F值相對溫度和轉速的略低。
圖 7 混合參數分布異常檢測F值驗證 Fig.7 Validation of F value in anomaly detection of mixed parameter distribution
5 結語
本文針對電力IT監控對象特征數據,提出了基于概率統計模型的電力IT監控對象特征異常檢測方法,針對數據分布的特點,研究了基于一元正態分布的監控對象異常檢測方法與基于混合參數分布的監控對象異常檢測。在未來的工作中,我們將對電力IT監控對象特征數據異常檢測方法進行更深入的研究,結合機器學習的相關理論與知識,提高監控系統的智能性。
參考文獻
[1] 高麗婷,溫秀梅,侯滿哲,等.基于以太網的電網監控系統設計[J].電源技術,2016,40(7):1498-1500
[2] 葛君偉,張博,方義秋.云計算環境下的資源監測模型研究[J].計算機工程,2011,37(11):31-33
[3] Jeswani D, Natu M, Ghosh RK. Adaptive Monitoring: Application of Probing to Adapt Passive Monitoring[J]. Journal of Network and Systems Management, 2015,23(4):950-977
[4] 李軍虎.一種基于多Agent遠程分布式故障診斷系統模型[J].計算機與數字工程,2011,39(6):58-60
[5] Rousseeuw PJ, Hubert M. Anomaly detection by robust statistics[J]. Data mining and knowledge discovery, 2018,8(2):1236
Anomaly Detection for Characteristics of Power IT Monitoring Objects Based on Probability Statistic Model
WEI Wei, LONG Yu-jiang*, ZHONG Ye*
Information Center of Guizhou Power Grid Co.,Ltd., Guiyang 553000, China
Abstract:With the continuous expansion of the scale of data center, the more complex the business system is, the requirement of availability and reliability is increasing. The traditional power IT monitoring software only can monitor the object feature data to be scalar, but it cannot make the abnormal early warning of the object characteristic data, and the traditional power IT monitor the feature data of the object. Exception alarm relies on simple pre threshold allocation, false alarm rate and false negative rate depend on prior threshold setting, and the overall abnormal alarm performance is not good. In this paper, based on the characteristic data of power IT monitoring objects, this paper proposes an anomaly detection method based on probability and statistics model for power IT monitoring objects. In view of the characteristics of data distribution, the anomaly detection method based on one normal distribution and the anomaly detection of monitoring objects based on the mixed parameter distribution are studied. The experimental results show that the method proposed in this paper is superior to the traditional prior threshold allocation for the accuracy, recall, and F value of the IT monitoring object anomaly detection.
Keywords: Power; IT monitoring system; anomaly detection; probability statistic model
中圖法分類號:TM76
文獻標識碼: A
文章編號:1000-2324(2019)04-0612-07
收稿日期: 2018-02-10
修回日期: 2018-03-29
作者簡介:衛薇(1982-),女,碩士研究生,高級工程師,研究方向為信息技術. E-mail:47765382@qq.com*
通訊作者:Author for correspondence. E-mail:longyj@gz.csg.cn; zhongye@gz.csg.cn