侯曉凱, 李師謙, 王杰瓊, 胡 彬, 鄧 晶
(1.中國人民解放軍72671部隊, 山東 濟南 250022; 2.山東省中醫藥大學 藥學院, 山東 濟南 250355)
為了克服傳統維修方式的不足,隨著狀態監測和故障診斷技術的不斷進步,上個世紀末逐漸發展起來一種新的維修方式——基于狀態的維修(CBM).該維修方式綜合運用各種技術手段獲取設備的運行狀態信息,并運用數據分析與維修決策技術對設備狀態進行實時或者周期性的評價,最終做出科學化的維修決策.實現了通過狀態監測預測即將發生的故障,制訂合理的維修決策.
基于狀態的維修過程示意圖如圖1所示.

圖1 基于狀態維修示意圖
基于狀態的維修主要根據獲得的設備狀態信息預測設備(或部件)的剩余壽命,以一定的優化準則為目標對設備做出維修決策,即判斷設備是否需要進行預防性維修,若需要,何時進行維修最合適.這種維修方式的維修間隔期是不固定的,其最大的特點是根據每個設備具體的狀態,在設備故障發生前進行維修.因此,基于狀態的維修能克服傳統維修方式的不足,實現精確維修.對于設備,基于狀態的維修可以降低維修保障費用、提高設備完好率和任務成功率[1];通過減少備件、保障設備、維修人力等保障資源需求,降低維修保障費用[2];通過減少維修,特別是計劃外維修次數,縮短維修時間,提高戰備完好率;通過狀態監測,減少任務過程中故障引起的風險,提高任務成功率.
對于一些故障,其性能劣化是一個逐漸劣化的過程,即存在“潛在故障—功能故障”間隔,這個過程也就是P-F間隔期,如圖2所示.“P”點是潛在故障點,是能夠發現故障的點,在此之前,故障是沒有任何征兆的,當經歷“P”點之后,如果還不采取維修措施,它通常會以較快的速度退化到功能故障點“F”,即設備已不可用.“P—F間隔期”的存在是復雜設備開展CBM的前提條件,即CBM僅適用于存在“P—F間隔期”的故障.
網絡在網運行設備的性能也是一個逐漸劣化的過程,在經過一個時間點(潛在故障點“P”)后會產生告警信息和日志信息,性能開始劣化,如不及時進行維修,很快會導致設備故障(功能故障點“F”),因此,通過建立故障預測標準準確判斷設備的“P”點,跟進設備的運行態勢,在“F”點之前進行預防性的維修是很有必要的.

圖2 P-F間隔期
基于狀態的故障預測模型分為設備的狀態信息、提取故障特征、故障分級和故障預測4個模塊,如圖3所示.其中設備的狀態信息為后續模塊提供了基本信息,通過對其分析提取出與設備運行狀態緊密相關的故障特征,故障分級根據故障的嚴重性劃分為藍、黃、橙、紅4個級別,這樣,通過判斷設備運行狀態處于何種級別,一方面可以更直觀的顯示設備的運行狀態,比較清楚的展現設備的劣化趨勢;另一方面也可以針對不同的級別分別進行故障預測,使得故障預測更準確.故障預測就是通過數學建模,預測出即將發生的故障特征,從而判斷設備運行狀態的未來走勢.

圖3 基于狀態的故障預測模型
對設備進行基于狀態的故障預測,其實質是利用預測模型對特征量進行預測,再通過預測的特征量的值來預測未來一段時間設備的健康狀態,所以故障特征量的選擇顯得格外重要,要選擇對設備運行狀態影響較大的特征量,而對于在線運行的計算機網絡設備來說,可以通過SNMP和SYSLOG獲取其大量運行信息,比如:生產廠商、路由表、設備的運行時間、板卡的溫度、CPU利用率、內存利用率、SYSLOG日志、端口流量、端口丟包率等,通常認為設備的運行時間、板卡的溫度、CPU利用率、內存利用率和SYSLOG日志信息對設備的運行趨勢影響較大,因此,選擇它們作為預測模型的特征量,并且從概率的角度出發,做出以下6點合理假設:
(1) 設備的運行時間越趨近或超過故障周期,認為發生故障的可能性越大.
(2) 板卡的溫度超過標準溫度(夏季23±3℃,冬季20±3℃)越高,認為發生故障的可能性越大.
(3)CPU利用率越高,認為發生故障的可能性越大.
(4) 內存利用率越高,認為發生故障的可能性越大.
(5)SYSLOG級別越低,認為發生故障的可能性越大;從前面的介紹可知:對應于0至7個級別, 0級別說明是最嚴重的消息,設備即將不可用;1級別說明要立即關注系統的狀態,發生故障的可能性次之,依次類推,6、7級別發生故障的可能性非常低,只是一些報告性、調試性信息,可以通過SYSLOG采集模塊過濾掉.
(6)SYSLOG日志信息的刷新速度,認為刷新速度越快,出現故障的可能性越大.
一方面為更直觀的顯示設備的運行狀態、運行趨勢,另一方面可以針對不同的級別,分別分析故障特征量對預測結果的影響,提高預測的準確性.參照突發氣象災害用4種顏色即“藍、黃、橙、紅”來表示其嚴重性,將設備故障的級別也用這四種顏色表示.那么,從設備運行狀態來說,“藍色”預示著設備已經歷了潛在故障點,進入“黃色”反映出故障的嚴重性上升了,“橙色”較“黃色”進一步上升,“紅色”則預示著即將到達功能故障點;從趨勢上來說,從“藍色”到“紅色”反映出故障的嚴重性在逐漸上升.反映到P-F間隔圖上如圖4所示.

圖4 故障分級
而故障分級則是根據設備的故障特征的閾值進行劃分的,如果故障特征的指標達到“藍”、“黃”、“橙”、“紅”級別,則判斷設備的狀態進入了相應的級別,且故障特征的閾值是可以修正的.這里,通過對以往獲得的大量歷史樣本進行統計分析,認為“藍”、“黃”、“橙”、“紅”4個級別對應的閾值見表1至表4.

表1 藍色預警的閾值

表2 黃色預警的閾值

表3 橙色預警的閾值

表4 紅色預警的閾值
故障預測就是通過對歷史和當前的故障特征值進行分析,預測出未來的故障特征值,判斷設備的預警級別.經過實踐證明,當故障發生時,以上6種故障特征中SYSLOG級別和SYSLOG刷新速度并不會因時間的推移而發生變化,可以直接用來判斷設備所處的預警級別.而板卡溫度、CPU利用率和內存利用率之間關系密切,比如CPU和內存的高利用率勢必帶來板卡溫度的升高,即未來設備的板卡溫度、CPU利用率和內存利用率與當前及歷史上設備的板卡溫度、CPU利用率和內存利用率之間存在一種非線性的關系,而BP網絡恰能以任意的精度逼近任何非線性函數,且MATLAB神經網絡工具箱提供了對BP神經網絡的仿真.因此采用BP神經網絡理論來進行故障預測的.
6.1.1 網絡隱層節點數目選擇
在設計BP神經網絡時,一般先考慮設計一個隱層,當一個隱層的隱節點數仍不能改善網絡性能時,才考慮再增加一個隱層[3].這里,我們選擇單隱層BP網絡進行設計仿真.而設置多少個隱節點則通過試湊法來確定,確定隱節點數的經驗公式[4]:
(1)
式中:m為隱層節點數,n為輸入層節點數,l為輸出層節點數, α為1~10之間的常數.
6.1.2 傳遞函數的選擇
BP屬于多層網絡,其神經元常用的傳遞函數包括log-sigmoid型函數logsig,tan-sigmoid函數tansig,以及線形函數purelin.
需要指出,sigmoid型傳遞函數的曲線形狀是S型的[5],log-sigmoid、tan-sigmoid型函數都是如此.如果BP網絡的輸出層采用sigmoid型函數,輸出就被限制在[-1,1]范圍之內,而如果采用線性函數purelin作為輸出層的傳遞函數,那么輸出就可以取任何值.由于網絡的輸出向量值已經被限制在[-1,1]中,因此輸出層神經元傳遞函數我們選用log-sigmoid函數.
而中間層神經元傳遞函數的選擇,我們依據BP網絡設計的一般原則設定為S型正切函數tan-sigmoid.
6.1.3 神經網絡的訓練
網絡設計完成后,要應用歷史樣本對其進行訓練.訓練時對所有樣本正向進行一輪并反向修改權值一次稱為一次訓練.在訓練過程中要反復使用樣本集數據.
6.2.1 訓練樣本的確定
BP神經網絡首先要利用歷史訓練樣本對網絡進行訓練,該過程是BP神經網絡預測的基礎.
當前校園網網絡歷史訓練樣本的主要來源為長期在網運行的H3C智能網管系統所采集的大量數據.經統計整理,在2010年至2013年10月份之間,某校園網路由交換設備共發生103次設備故障,其中設備或(板卡)出現溫度過高、CPU和內存利用率較高征兆的占77次,比例達到76.9%.其他導致故障的主要原因為:誤操作、電源系統故障等,而這些故障信息大多可以通過SYSLOG獲取.可見,溫度、CPU利用率和內存利用率是預測故障的一個重要切入點,而SYSLOG信息是一個極為重要的補充.
表5為通過H3C智能網管系統獲取的2011年某校園網路由器SIP501母板故障前一段時間內的運行狀態信息,該板卡 4月11日突然無法工作,導致對上阻斷.該表摘取了3月13日達到“藍色”告警之后的數據,也就是說通過本系統在3月13日就可以判斷設備進入潛在故障點,并可預測出未來板件的運行趨勢,從而采取一定措施避免阻斷的發生.表5中,X1和Y1、X2和Y2、X3和Y3分別代表上一天和下一天板卡的溫度值(單位:℃)、CPU利用率(單位:%)和內存利用率(單位:%).

表5 2011年某路由器故障前設備運行狀態信息

續表
6.2.2 訓練樣本的分級
獲得的訓練樣本按照“藍、黃、橙、紅”4個級別進行劃分,對不同的級別分別用神經網絡進行預測.
在MATLAB[6]中用 X1、X2、X3代表輸入序列,Y1、Y2、Y3代表輸出序列,按照藍、黃、橙、紅4個級別區分如下:
“藍色”級別對應的輸入輸出樣本為
X1=[40,40,40,41,42,42,43,43,44,44,45,
45,47,48,49]
X2=[60,60,61,62,63,63,64,65,66,68,69,
70,71,72,73]
X3=[58,58,58,59,60,60,61,62,62,63,64,
65,67,67,69]
Y1=[40,40,41,42,42,43,43,44,44,45,45,
47,48,49,50]
Y2=[60,61,62,63,63,64,65,66,68,69,70,
71,72,73,75]
Y3=[58,58,59,60,60,61,62,62,63,64,65,
67,67,69,69]
“黃色”級別對應的輸入輸出樣本為
X1=[50,51,52,53,54,55,56,57,57,58,59]
X2=[75,75,75,75,76,76,77,78,78,78,78]
X3=[69,70,70,70,70,70,70,72,72,72,72]
Y1=[51,52,53,54,55,56,57,57,58,59,60]
Y2=[75,75,75,76,76,77,78,78,78,78,80]
Y3=[70,70,70,70,70,70,72,72,72,72,75]
“橙色”級別對應的輸入輸出樣本為
X1=[60,62,64,65]
X2=[80,82,83,84]
X3=[75,76,77,77]
Y1=[62,64,65,70]
Y2=[82,83,84,85]
Y3=[76,77,77,80]
“紅色”級別對應的輸入輸出樣本為
X1=[70,75]
X2=[85,90]
X3=[80,90]
Y1=[75,75]
Y2=[90,90]
Y3=[90,90]
分別對X1、X2、X3、Y1、Y2、Y3進行歸一化到[-1,1]之間,采用的表達式如下:
(2)
在MATLAB中,用premnmx命令實現:
V=premnmx(V)
(3)
對于不同的預警級別,分別構建神經網絡.不同級別的神經網絡結構區別在隱含層的節點數目上,根據經驗公式:
4<隱含層節點九<14
(4)
對于不同的預警級別,遍歷所有的隱含層節點數,尋找最優的目標.
forinti=4:1:14
Xs=[X1;X2;X3]’;
Ys=[Y1;Y2;Y3]’;
Net=newff([-1 1;-1 1;-1 1],[i,3],{’tansig’,’logsig’},’trainlm’);
Net.trainParam.show=100;
Net.trainParam.epoch=2000;
Net.trainParam.goal=0.0001;
[net,tr]=train(Net,Xs’,Ys’);
訓練過程中,“藍色”和“黃色”告警級別對應的網絡誤差的變化情形如圖5,圖6所示.

圖5 BP仿真誤差曲線“(藍色”告警級別)

圖6 BP仿真誤差曲線(“黃色”告警級別)
本系統投入運行后,2012年10月該路由器再次出現板卡溫度過高,CPU利用率和內存利用率過高的現象,經過該系統預測值與實際值相比基本吻合.如圖7、圖8、圖9所示:

圖7 故障預測誤差曲線(溫度)

圖8 故障預測誤差曲線(CPU利用率)

圖9 故障預測誤差曲線(內存利用率)
通過以上分析可知,當設備處于“藍色”和“黃色”告警級別時,神經網絡計算所得的預測值與實際值基本吻合,當進入“橙色”和“紅色”告警級別時,由于設備(或板件)的劣化速度加劇,訓練樣本較少,已無法正確預測.因此,對于在網運行設備的故障預測最好在“藍色”和“黃色”告警級別就做好維修工作.
[1] 李春.故障預測與健康管理(PHM)技術介紹[J].中國高新技術企業,2008,15(8):43-44.
[2] 劉志偉.復雜系統故障預測與健康管理(PHM)技術研究[J].計算機測量與控制,2010,18(12):2687-2689.
[3] 徐萍,基于小波分析和神經網絡的BFI預測研究[D].大連:大連海事大學,2005.
[4] 洪衛國.人工神經網絡在太陽能熱水器市場預測中的應用[D].上海:上海交通大學,2013.
[5] 孫妍姑. 基于BP神經網絡的圖像識別技術研究[J]. 淮南師范學院學報, 2010,63(5):22-23.
[6] 廖芳瑜.基于BP神經網絡分析的在線礦漿品位分析儀設計[J].企業科技與發展, 2012(7):19-20.