董惠良,姜學峰,劉 偉,段春立,毛科技
(1.浙江中煙工業有限責任公司,浙江 杭州 311200;2.浙江工業大學 計算機學院,浙江 杭州 310023)
機房作為數據中心必須24 h不間斷正常運行[1]。目前,對于機房環境監測方面的主要研究為針對性的,例如文獻[2]采用基于無線傳感器網絡(wireless sensor networks,WSNs)[3,4]的電力信息機房監測系統,系統采用CC2530芯片、基于ZigBee網絡,實現了機房中重要環境參數的采集,并通過服務器端的瀏覽器/服務器(B/S)系統分析與存儲數據,實現了機房的遠程監測;文獻[5]主要針對信息機房環境監測的需求,設計了一種基于WSNs和Web 3D的信息機房三維仿真監測系統,利用無線模塊JN5148組成的WSNs進行數據的采集和通信;其他類似的研究有獻[6~9]。
本文針對浙江中煙工業有限責任公司的中心機房設計了一種基于WSNs的分布式事件觸發的溫度異常監測報警系統。WSNs節點周期采樣溫度值,根據之前采集設備異常情況時的溫度曲線提取異常溫度曲線的波形因子[10],利用貝葉斯分類器[11~13]判斷設備異常的種類,一旦事件觸發器滿足觸發條件,則將該情況直接報警給機房管理人員。
將WSNs節點部署在機房環境和設備上,傳感器節點每秒采集一次溫度值,并且記錄近期30個溫度值,并判斷,如果監測到異常情況,直接報警給機房管理員。
研究表明[14,15]服務器的工作溫度高于60 ℃時,設備性能會下降且易故障。正常情況下WSNs節點采集的服務器核心部位對應的外殼溫度如圖1所示,由于機房內制冷設備等作用,服務器設備的正常工作溫度通常在30℃左右,當采集次數低于23,設備溫度逐漸升高,達到35 ℃時,機房制冷設備開始工作,設備溫度降低。

圖1 正常溫度曲線
當機房的制冷系統故障或服務器負載過重時,機房設備溫度會過高。為了獲取設備異常情況下(分為提醒異常、警報異常和異常恢復)的溫度變化曲線,通過停止制冷控制系統并加重服務器負載的方式模擬設備的提醒異常,溫度變化曲線如圖2所示;通過停止制冷控制系統、停止散熱風扇并加重服務器負載的方式模擬設備的警報異常,溫度變化曲線如圖3所示;兩種異常需要立即前往機房排查,防止故障的進一步惡化。圖4為異常恢復情況,當設備溫度高于50 ℃,后又因為制冷控制系統或設備散熱系統恢復正常工作,設備從異常狀態恢復正常。
選擇設備核心部件外殼溫度為50 ℃作為系統異常閾值,然后分別選取異常情況下30個連續采集的溫度構成的波形作為異常溫度樣本,如圖2~圖4方框內波形所示。由波形分析,提醒異常的溫度曲線升高較慢,且有存在降低的趨勢;警報異常溫度曲線升高較快,且沒有降溫的趨勢;異常恢復情況溫度曲線逐漸降低,最終恢復正常。

圖2 提醒異常溫度曲線

圖3 警報異常溫度曲線

圖4 異常恢復溫度曲線
針對溫度異常進行分類判斷:提取異常的樣本溫度波形特征;對特征值進行貝葉斯分類器訓練;實時采集的溫度值輸過貝葉斯分類器判斷具體歸屬,方法如圖5所示。

圖5 異常情況判斷分類
提取的溫度波形特征值包括均值Tavg、方差Tv、有效值Trms、峰值指標Tcf和裕度指標Te,設溫度數據集合為tp={x1,x2,x3,…,xi,…,x30},則溫度數據集合tp的5個特征值計算方法如下:
1)均值
(1)
2)方差
(2)
3)有效值
(3)
4)峰值指標
(4)
5)裕度指標
(5)
根據異常恢復、警報異常和提醒異常3種情況下的樣本溫度特征值,設S=0表示異常恢復情況,S=1表示警報異常,S=2表示提醒異常,其中,異常恢復情況采集了numc個樣本,警報異常采集了numa個樣本,提醒異常采集了numr個樣本,每個樣本均由30個溫度數據組成的集合。3種情況的樣本占總樣本數量如式(6)~式(8)所示
(6)
(7)
(8)
以S=1為例,其他2種情況處理方法一致,對numa個樣本分別提取對應的5種特征值,每種特征值的數量為numa,然后分別對每種特征值以gi為梯度進行區域劃分,劃分梯度如式(9)所示
(9)
式中CVi_max為第i種特征值中的最大值,CVi_min為第i種特征值中的最小值;n為將特征值劃分的區間數量,劃分后的區間表示為Rj,j∈[1,n]。
分別計算5種樣本特征值在每個區間Rj中所占的數量比例,以S=1的均值Tavg為例,其他4種特征值處理方法一致,共numa個均值,用集合Avg={Tavg_1,Tavg_2,…,Tavg_numa}表示,其中均值在區間Rj中的數量為numj,則均值在區間Rj中所占的比例如式(10)所示
P(Avg∈Rj|S=1)=numj/numa
(10)
上述過程根據3種情況的樣本計算了先驗概率,計算過程在計算機中完成,然后將先驗概率和區間范圍保存到傳感器節點內部,最后利用先驗概率對實時采集的溫度數據進行判斷分類。具體步驟如下:
1)計算待判溫度的5個特征值(Tavg,Tv,Trms,Tcf,Te);
2)分別查找5個特征值在3種情況下,每種特征值對應的區間和該區間對應的比例;
3)假設查找后待判斷溫度的均值、方差、有效值、峰值指標、裕度指標在S=0,S=1,S=2 3種情況下所處的區間對應的比例分別為Pavg_0,Pavg_1,Pavg_2;Pv_0,Pv_1,Pv_2;Prms_0,Prms_1,Prms_2;Pcf_0,Pcf_1,Pcf_2;Pe_0,Pe_1,Pe_2;
4)分別計算待判溫度屬于S=0,S=1,S=2的概率,計算方法如式(11)
PS_k=P(S=k)·Pavc_k·Pv_k·Prms_k·Pcf_k·Pe_k,
k={0,1,2}
(11)
5)k分別取0,1,2時,計算待判斷溫度屬于S=0,S=1,S=2 3種情況的概率分別為PS_0,PS_1,PS_2,當PS_0,PS_1,PS_2均最大,WSNs節點分別向機房管理員發送異常恢復、警報異常、提醒異常。
本文系統已實際應用于浙江中煙工業有限責任公司的中心機房。實驗對S=0,S=1,S=2共3種情況采集的樣本數量均為20次,將樣本特征值劃分為10個區間。
為驗證本文算法對3種異常情況的分類準確率,實驗中3種異常情況的驗證集均為100個異常溫度波形,實驗結果如表1所示。

表1 分類結果表
實驗結果表明:異常分類算法對S=0情況的識別率最高,因為異常恢復情況的溫度波形呈逐漸下降趨勢,與其他2種異常的溫度波形差別較大,因此,不會對S=0的情況誤判。S=1情況的識別率次之,為96 %,其中,誤判部分被識別為S=2,因為S=1和S=2 2種異常情況的溫度波形均呈上升趨勢,且存在部分相似,因此,實驗中有4個警報異常(S=1)被判斷為提醒異常(S=2)。同樣地,S=2中也存在少量溫度曲線被判斷為警報異常。
當系統判斷出設備溫度異常時,WSNs節點向機房管理員發送報警提示,如圖6所示,包括異常種類、節點編號、發生異常的設備編號和溫度,℃。
針對浙江中煙工業有限責任公司的中心機房設計了基于WSNs分布式溫度異常監測報警系統,WSNs節點分布式監測各個設備的狀態,當設備溫度異常時,節點向管理員發送報警提示,并通過實驗驗證了系統的準確性和實時性。
[1] 魏 翔.網絡機房管理與維護的重要意義及對策[J].科技與創新,2017(5):87-88.
[2] 易健翔,秦肖臻,汪秉文.基于WSNs的電力信息機房監測系統的設計[J].計算機與數字工程,2013,41(1):135-137.
[3] 謝 昕,吳 穎,張 磊,等.基于無線傳感器網絡節點的RFID系統節能研究[J].傳感器與微系統,2012,31(6):66-68.
[4] Nayak P,Devulapalli A.A fuzzy logic-based clustering algorithm for WSNs to extend the network lifetime[J].IEEE Sensors Journal,2015,16(1):137-144.
[5] 何 輝,龔成瑩,邢敬宏.基于WSNs與Web 3D的信息機房環境三維仿真監測[J].自動化儀表,2015,36(8):49-52.
[6] 吳維農,唐 夲,肖靜薇,等.電力信息通信機房智能PDU監測系統的研究與實現[J].機床與液壓,2017,45(6):83-88.
[7] 董惠良,王正敏,姜學峰,等.基于WSNs的機房溫控系統設計與實現[J].傳感器與微系統,2017,36(10):92-94.
[8] 李富強,鄭寶周,豆根生,等.基于WSNs的溫室溫度分布式事件觸發控制系統研究[J].現代電子技術,2015(15):15-17.
[9] 吳海龍.分布式機房環境信息集中監測管理系統[J].蘭州工業學院學報,2017,24(1):64-68.
[10] 陳玉玲,王華忠,李 實,等.EAST波形數據特征值提取方法[J].計算機工程與設計,2016,37(7):1851-1856.
[11] 張 品,董為浩,高大冬.一種優化的貝葉斯估計多傳感器數據融合方法[J].傳感技術學報,2014(5):643-648.
[12] Robertson D S,Prevost A T,Bowden J.Correcting for bias in the selection and validation of informative diagnostic tests[J].Statistics in Medicine,2015,34(8):1417-1437.
[13] 王雙成,高 瑞,杜瑞杰.小時間序列的動態樸素貝葉斯分類器學習與優化[J].控制與決策,2017,32(1):163-166.
[14] 張振亞,王 芳,屈 巖,等.新型冷板對服務器CPU散熱的研究及能耗分析[J].上海理工大學學報,2014(4):317-321.
[15] 黃 胡,黃子昕,基于單片機和kingview的機房溫度監測系統設計[J].自動化技術與應用,2016,35(12):131-134.