劉喜梅,曲鵬程
(青島科技大學自動化與電子工程學院,山東 青島 266100)
故障預測歷來是設備安全保障中重要的一環。近年來,各種故障預測方法層出不窮,大致可歸為兩大類。一類是基于設備參數的在線監測,憑借專家系統經驗或技術人員現場維護實現故障類型的診斷預警。另一類則是通過數據驅動預測,應用大數據技術對故障進行預警。
在設備參數監測方面,國內石化行業有著成熟的實踐經驗。如:①實時監測外輸泵機組的油溫、轉速以及振動等參數,從而有效地對故障進行診斷[1];②利用振動趨勢、頻譜圖、時域波形圖等分析手段,對參數進行實時監測,進而實現故障診斷預警[2];③采用Internet傳輸形式,通過分析常用內燃機監測技術,最終實現內燃機的性能監測、故障診斷和油液在線分析[3]等。
在數據驅動預測方面,高帆等應用機器學習算法對設備運行大數據進行數據挖掘,建立專家知識庫,獲得與故障有關的診斷規則,實現了設備故障在線預警[4]。另外,模糊C均值聚類分析算法[5]、長短期記憶(long short-term memory,LSTM)網絡[6]、支持向量機(support vector machine,SVM)[7]以及整合移動平均自回歸模型(auto regressive integrated moving average model,ARIMA)算法在故障預測方面都有著不錯的應用效果。其中,ARIMA算法在時間序列數據預測上有著廣泛的應用。
黎瑜春提出了一種基于ARIMA和反向傳播(back propagation,BP)神經網絡的組合預測方法[8]。該組合預測算法分別對振動序列的線性相關部分和非線性相關部分進行預測,充分利用了各單一模型的優點,提高了預測精度。李志軍等則結合核主成分分析(k principal components analysis,KPCA)方法,應用ARIMA算法,以田納西-伊斯曼(tennessee eastman,TE)過程作為研究對象,得到了較為滿意的預測效果[9]。劉穎等根據汽輪機典型故障構造模擬信號,建立其ARIMA預測模型,通過聚類分析得出標準信號及待測信號的特征向量,取得了很好的預測效果[10]。周建民等運用最小二乘法估計參數建立ARIMA模型,將軸承同工況與類工況下的數據輸入已建立的ARIMA模型中,對軸承故障進行預測分析,效果良好[11]。
本文選取中國石油青島石化廠P301A往復式壓縮機的氣缸振動數據,通過ARIMA算法,對其機械性能故障中的振動故障進行預測預警。
ARIMA算法來自BOX和Jenkins的著作《時間序列分析、預測和控制》。隨著其在金融、證券、航空班次、設備故障預警方面的廣泛應用,逐漸形成了一整套時間序列識別、估計、建模、預測及控制的理論和方法[12]。
ARIMA(p,d,q)算法基于時間序列數據進行預測,包括自回歸(auto regressive,AR)模型、移動平均(moving average,MA)模型、自回歸移動平均(auto regressive moving average,ARMA)模型、差分(integrated,I)運算。該算法的目的是將時間序列變為平穩序列。在獲取到設備的振動數據后,對數據依次進行數據預處理、時間序列平穩,然后通過自相關函數(auto correlation function,ACF)與偏自相關函數(partial auto correlation function,PACF)尋找p、q最優值,建立模型、檢驗模型、模型預測。
ACF用來衡量yt與yt-k之間的相關性;PACF是在去除yt-1,yt-2,...,yt-k+1之后,衡量yt與yt-k之間的相關性。
ARIMA(p,d,q)模型包括序列的平穩性處理與ARMA(p,q)模型預測。
①平穩性處理。
ARIMA算法要求所預測的時間序列必須是平穩序列。所謂平穩,就是要求經過樣本時間序列得到的擬合曲線,在未來的一段時間內仍能按照現有的形態“慣性”延續。在數學表達上,就是其均值和方差不發生明顯的變化。如果不平穩,則必須進行差分處理,使之變為平穩序列。具體處理過程如下。
Δxt=xt-xt-1=xt-Lxt=(1-L)xt
(1)
Δ2xt=Δxt-Δxt-1=(1-L)xt-(1-L)xt-1=(1-L)2xt
(2)
Δdxt=(1-L)dxt
(3)
式中:xt為t時刻數據;xt-1為t-1時刻數據;L為常數滯后算子;d為差分次數。
令wt=(1-L)dxt,此時,wt變為平穩序列。將變換后的時間序列wt代入ARMA模型中,即可進行預測。由于預測序列為差分變換后的序列,因此,在預測結束后要進行預測值還原。
②ARMA模型。
ARMA(p,q)模型可表述為:
(4)
式中:γi為自相關系數;θi為移動平均系數;p為自回歸階數;q為移動平均階數;wt為當前值;μ為常數值;{εt}為白噪聲,即誤差值。
當q=0時,ARMA模型變為AR(p)模型。此時,模型表述為:
wt=γ1wt-1+…+γpwt-p+εt
(5)
當p=0時,ARMA 模型變為MA(q)模型,此時,模型表述為:
wt=-θ1εt-1-…-θqεt-q+εt
(6)
①時間序列可視化,進行平穩性處理和白噪聲檢驗。
將時間序列以時間為橫軸,以預測數據為縱軸,繪制出擬合曲線,通過單位根檢驗法(augmented dickey fuller,ADF)判定序列平穩性。ADF的原假設是存在單位根,也即序列不平穩。只要Test Statistic統計值小于1%水平下的統計值,即可以極顯著地拒絕原假設,從而認為時間序列平穩。如果ADF檢驗值介于1%水平下的統計值與5%、10%水平下的統計值,并不能說明時間序列不平穩,需根據具體預測的序列屬性進行判斷,是否需要對序列進行差分處理。若ADF檢驗值大于10%水平下的統計值,則必須對序列進行差分處理,再將差分后的時間序列進行ADF檢驗。以此方法依次進行其他步驟,直到所處理的時間序列通過平穩性檢驗,所進行差分處理的次數即為d值。
白噪聲檢驗是時間序列預處理過程中非常重要的步驟,它決定了經平穩性處理后的時間序列能否進行實際預測。白噪聲時間序列數據,即一組隨機數據,這種數據沒有研究意義。因此,一旦經平穩處理后的數據被檢驗為白噪聲數據,就不能進行該組數據的數據預測工作。
對平穩性處理后的數據的隨機性進行假設檢驗。其中,原假設H0是自相關系數ρ1=ρ2=...=ρk=0,而備擇假設H1至少有一個自相關系數ρi≠0。在默認情況下,返回一個p值。如果該值小于10-4,則拒絕原假設,說明數據不是白噪聲序列,即可進行后續預測工作。
②確定p,q的值。
畫出平穩后的時間序列的ACF圖與PACF圖,選擇合適的自相關階數p值與移動平均階數q值組合,然后對模型進行擬合,確定最佳p、q值組合。如果自相關系數呈指數形式衰減到0,則存在自回歸過程;如果偏自相關系數呈指數形式衰減到0,則存在移動平均過程。如果上述兩種情況都存在,則該序列符合自回歸移動平均模型。p,q值確定規則如表1所示。

表1 p,q值確定規則Tab.1 p,q value determination rules
通過觀察ACF圖與PACF圖,如果有多個p、q值符合要求,接下來依據貝葉斯信息準則(bayesian information criterion,BIC),從中選出最合適的參數組合。
③驗證預測。
在確定好最佳p、d、q值組合后,將數據分為訓練組與對照組。訓練組用于訓練改進模型,對照組用來對數據進行準確率驗證。
④預測效果評定。

(7)
(8)

整理往復式壓縮機氣缸振動數據,對其進行ARIMA時間序列預測算法建模。首先,對數據的日期進行標準化修正,對數據進行預處理。
所獲取的數據為2015年1月4日至2018年5月3日的812個數據,往復式壓縮機氣缸振動數據并非每日采集,在日期上不能呈現連續性。因此,在進行預測前應進行插值,得到1 182個在時間上連續的數據。石化設備的振動速度值在短期內不會有太大的波動,一般鄰近日期的值不會相差太大。本文采用線性插值的方式,對數據進行插值填充。線性插值具有簡單、方便的特點,也符合石化設備運行過程的物理特性。表2為部分原始數據,表3為部分經過差值處理后的數據。

表2 部分原始數據Tab.2 Partial raw data

表3 部分處理后數據Tab.3 Partial processed data
由表3可以看出,經過插值處理后的數據在時間上實現了日期的連續性。
接下來對數據進行可視化及平穩性處理。根據1~4 h數據包含設備開機后的四組振動數據,選取設備趨于穩定后的第4 h的振動數據。數據可視化圖如圖1所示。

圖1 數據可視化圖Fig.1 Data visualization
首先,對序列進行移動平均、標準差求解,使用單位根檢驗法對數據進行平穩性判斷,所得統計值結果為-7.434 663e×10-13,1%顯著水平下的統計值為-3.436 353e×10-13。由于統計值結果小于1%顯著水平下的統計值,因此可以極顯著拒絕原假設,該時間序列平穩。由此可知,原始時間序列數據無需進行差分處理,d值為0。
接著,進行白噪聲檢驗。將數據進行白噪聲假設檢驗處理,檢驗結果遠小于10-4,因此拒絕原假設,認為數列為非白噪聲序列,可以進行后續預測工作。
ACF圖和PACF圖如圖2、圖3所示。

圖2 ACF圖Fig.2 ACF graph

圖3 PACF圖Fig.3 PACF graph
圖2、圖3中陰影部分為置信區間。從PACF圖可以看到,AR(p)模型在5階后自相關值均落于置信區間內,即p=5后偏自相關值均落于置信區間內;MA(q)模型在15階后均有截尾現象出現。結合積分次數d=0,故預測模型的(p,d,q)=(5,0,15)。
將插值填充后的1 182個數據分成三部分:前1 095個數據作為訓練組,訓練組之后的30個數據為預測組;剩余數據不作處理。
經試驗數據分析,在本設備的振動故障預測上,基于ARIMA的時間序列算法有著不錯的效果,且所需信息量少,運行方便快捷,結合往復式壓縮機氣缸振動速度安全閾值,可以為現場技術人員提供更為精準的故障預警。
預測結果與實際數據對比圖如圖4所示。

圖4 預測結果與實際數據對比圖Fig.4 Comparison between predicted results and actual data
往復式壓縮機氣缸的振動頻率在故障診斷中是一個重要的指標。由于其數據呈現出時間序列的特性,因此本文使用ARIMA時間預測算法對其數據進行預測,進而對故障進行預警。
通過算法實際運行,取得了較為滿意的預測效果。結合其他參數的動態顯示(如溫度、壓強等),可以為現場技術人員提供較為準確的故障預警建議,基本可以取代傳統的人工巡檢,減少設備因突發故障而產生的損失。
隨著大數據科學的不斷發展,基于數據驅動的設備故障預測與診斷將會有越來越廣泛的應用。