黃佳林, 茅大鈞
(上海電力學院 自動化工程學院, 上海 200090)
基于多維時間序列狀態估計的壓氣機故障預警模型建立
黃佳林, 茅大鈞
(上海電力學院 自動化工程學院, 上海 200090)
采用基于歷史數據的數據挖掘理論,對燃氣輪機壓氣機建立多維時間序列非參數模型,應用相似性狀態估計方法對壓氣機的故障特征參數進行預測,與壓氣機實際正常運行的數據相比較具有很高的擬合度。仿真結果表明,該方法可以準確地對壓氣機監測參數進行實時狀態估計計算,若超出動態閾,則說明設備存在故障隱患,進而實現壓氣機運行狀態的預警監測。
壓氣機預警監測; 歷史數據挖掘; 多維時間序列; 相似性狀態估計
壓氣機是燃氣輪機3大主要組成部分之一,在燃氣輪機的故障中壓氣機所占比例也較大。因此,找到一種能夠對壓氣機的監測參數進行實時估計的方法,實現壓氣機狀態的預警監測,對于壓氣機的檢修維護十分有意義。對壓氣機的故障診斷技術已有了一些研究,文獻[1]中建立了一種面向對象的重型燃氣輪機通用仿真模型,并結合強跟蹤濾波器,可對燃氣輪機氣路故障進行診斷。文獻[2]中提出了一種應用遞歸最小二乘線性擬合建立壓氣機非線性過程中的線性變參數的建模方法,實現了實時非線性過程中模型穩定區域小于1%的動態建模誤差。文獻[3]中應用基于神經網絡的線性擬合方法,實現壓氣機離散模型的建立。本文的核心思想是對設備運行的歷史數據進行數據挖掘 (Data Mining,DM) 分析。近年來,國內電站數據利用相對落后于數據增長的局面,也使得國內學者開始關注數據挖掘在電廠領域的應用研究,逐漸將數據挖掘技術應用于電站運行參數的最優化以及設備故障診斷等方面。
多維時間序列是將多個屬性的數值按其發生的時間先后順序排列成多維數列矩陣。通過時間序列分析建立數學模型,可用于未來狀態的預測、系統故障診斷、系統的辨識及性能分析等。
本文通過合適的距離函數找出最相似的案例,利用合適的結合函數將相似案例的屬性結合起來,以供預測之用;通過特征選擇算法排除無關特征量,提高計算效率,并采用多個相關特征量數據作為輸入得到預測目標值以減小誤差;將聚類算法應用到狀態矩陣的構造中,避免人為選取數據構建多維狀態矩陣造成的誤差;最后,分別用壓氣機正常狀態和故障狀態下的數據對模型進行測試。結果表明,本文提出的預警模型有較好的應用效果。
對設備運行的歷史數據進行分析挖掘,假設某一時間點tj處設備監測參數所形成的向量為X(tj)=[x1(tj),x2(tj),…,xn(tj)]T(j=1,2,…,m),參數xi處時間序列向量為Xi=[xi(t1),xi(t2),…,xi(tm)]T(i=1,2,…,n),將這些向量按照時間排列成一個多維時間序列監測矩陣X1,如圖1所示。

圖1 多維時間序列矩陣圖
該監測矩陣X1包含了傳感器監測得到的所有設備測點的數據,包括設備正常運行和故障時的數據;為能進行多維時間序列的狀態估計,必須將X1中的故障數據和非運行數據過濾,得到驗證矩陣X2;從驗證矩陣中抽取一部分形成狀態矩陣X3=[X(1)X(2) …X(m)]。由于狀態矩陣中包含的是設備健康狀態數據,若實際值和預估值擬合程度很高,則說明設備處于健康狀態;反之,則說明設備存在隱患。定義W=[w1w2…wm](k=1,2,…,m)為權值矩陣,代表監測值和狀態矩陣的相似程度,設備的估計矩陣為
(1)
令ε為X1與X4對應列向量間殘差,則ε的殘差平方和為

(2)
為了獲得W,需要最小化殘差平方和,令wk的偏導數為零,即
1≤j≠k≤m
(3)
化簡式(3)可得:

1≤j≠k≤m
(4)
式(4)寫成如下矩陣形式:
(5)
將式(5)代入式(1)得:
(6)
為了描述監測向量與狀態矩陣在空間上的相似程度,以及狀態與模型之間的空間距離,提高計算效率,本文引入歐氏距離作為相似性運算符。對于兩個n維向量X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),它們之間的歐氏距離為

(7)
d越近,表示兩者越相似;反之,則表示相似程度越低[4]。
由于多維時間序列監測參數矩陣存在很強的相關性,導致式(6)的矩陣不可逆,故引入相關性距離函數算子?代替點積運算。替換后得到的估計矩陣為

(8)
2.1數據預處理
由于從電廠PI數據庫中得到的各個測點數據的量綱和采集頻率都不同,故必須對數據進行插值和歸一化處理。本文選用Matlab自帶的插值函數interp1完成;考慮到執行速度及精度的要求,選擇Linear插值法對數據進行插值平滑處理[5]。由于涉及到相似性度量計算和聚類分析,故選用0均值標準化(Z-Score)方法將原始數據歸一化成均值為0、方差1的數據集。歸一化值為
z=(x-μ)/γ
(9)
式中,μ、γ分別為原始數據集的均值和標準差。歸一化處理后,每個維度的量綱其實已經等價了,每個維度都服從均值為0、方差1的正態分布;在計算距離時,每個維度都去量綱化,避免了不同量綱的選取對距離計算產生的巨大影響[6]。數據歸一化后便能完成后續的特征參數選取等計算。
2.2壓氣機特征向量選取
由于燃氣機組的數據采集與監視控制 (Supervisory Control and Data Acquisition,SCADA) 系統每分鐘記錄一次機組的運行參數,每次主要記錄100多個參數,若將這些參數都作為壓氣機的特征參數,將會出現冗余,造成不必要的計算量,增加模型的復雜度,故需要對壓氣機的特征參數進行篩選。常用的降維方法采用主成分分析(Principal Component Analysis,PCA)算法,該算法根據參數間的相關性分類,用幾個共性因子代替相關性程度高的參數,從達到降維目的[7]。然而,要保持原有特征形態不變,去除不能有效區分壓氣機故障和正常狀態的特征參數,顯然,PCA算法不適合,本文應用支持向量機(Support Uector Machine, SVE)遞歸特征消除法對壓氣機特征參數進行排序選取[8]。計算出每個特征的權值h,h越大,代表對于分類越重要,因此,選出h較大的作為壓氣機的故障特征參數。算法每次刪除一個‖h‖最小的特征,然后,重新訓練分類器再次進行迭代步驟,直到特征排序列表構建完成。SVM的目標函數為

(10)
當第s個特征被刪除時,目標函數變為

(11)

(12)
式中,xs、ys分別為輸入和輸出。
當1個特征被移除后,在二次規劃中的拉格朗日算子α值保持不變,意味著分類器保持不變。每個特征的特征排序系數為
(13)
式中,α=[α1,α2,…,αl];Q(-s)為第s個特征被移除時矩陣的值;Φ(xf)=xf。
特征排序列表定義一組嵌套特征子集:F1?F2?F3,…,Fl,子集的評價標準可以用SVM的分類精度來評價。Fs(s=1,2,…,l)表示從全集中選擇出來的前s個對目標函數最有影響力的子集。
用算法對燃氣輪機50組正常數據和30組故障數據進行特征參數篩選。按照SVM分類正確率將各個特征參數的權值進行排序,選取權值高于0.06的參數,結果如圖2所示??紤]到環境和負載因素對壓氣機工作狀態有一定影響,故也納入特征參數考慮范圍。
由圖可見,結合燃氣輪機故障分析的資料,選取機組負荷、大氣壓力、相對濕度、進氣濾網壓差、喇叭口靜壓、壓氣機進口壓力、壓氣機進氣溫度、IGV開度、壓氣機進氣流量、壓氣機壓比、排氣壓力11個參數為模型的特征參數[9-11],若壓氣機出現故障,則會在這些參數上有明顯變化,這樣就能提高故障預警的效率。

圖2壓氣機特征排序圖
Fig.2 Sorting chart of Compressor characteristics
2.3聚類算法改進狀態矩陣的構造
狀態矩陣的選取是模型建立的關鍵,若狀態量太少,則無法得到精確的預測效果??咳斯みx取的狀態矩陣存在大量相似的數據,由于數據波動很小而無法抑制不良噪聲的影響,將嚴重影響預警精度。這就要在壓氣機正常工況下,包含盡可能少的狀態量,本文選用自適應距離的密度峰值算法[12]來獲取聚類中心,以盡可能地減少類似的數據。自適應距離的密度峰值算法的核心思想在于對聚類中心的確定上,聚類中心可歸納為以下兩個特征:① 聚類中心本身的密度大,周圍點的密度較其??;② 與其他密度更大的點的距離相對更大。因此,為每個數據點都引入兩個屬性:局部密度ρa和距離δa。其中,
(14)
式中,dab為兩個樣本點的歐式距離;I為所有樣本點的下標序號;Ia為所有密度大于點a的樣本點的下標序號;dc為截斷距離,為了得到最優截斷距離,引入點勢能的概念。勢能較大的點位于密集區域,勢能較小的點位于稀疏區域,數據的勢能和數據中的點局部密度具有類似的效果。因此,可用每個點的勢能來估算整體數據集的勢能,以此作為衡量數據集整體分布情況的指標[13]。對于數據集{x1,x2,…,xq},數據點的勢能為
(15)
式中,σ為最優影響因子。
用基尼指數G代表數據不純度,表示數據分布的不確定性大小,即
(16)
式中,Z為總勢能。G越小,表示數據的不純度越小,數據分布越不均勻,數據勢能差別越大。因此,求取G的最小值,得到的最優影響因子σ就可以當做是自適應的截斷距離dc。dc的選取是計算ρa的關鍵,ρa的大小將直接影響最終的聚類效果。定義γa=ρaδa,對γa進行降序排列。定義排序中的突變點為臨界點p,本文用斜率q來表示變化程度,點p滿足以下條件:
式中,va為第a個點和a+1點間的斜率;θ(b)為相鄰點斜率差總和;β為相鄰點斜率差的平均值,當a≥β點中序號最大的點時,即為臨界點。如果存在多個疑似聚類中心,則將γa最大的第1個疑似聚類中心作為該簇的唯一實際聚類中心進行聚類,依次判斷剩余點與第1個點的最短距離和dc的大小,若剩余點與第1個點的最短距離小于dc,則將該點作為錯選的聚類中心點,當作簇成員處理[14];反之,該點為是其他簇的聚類中心。這樣可以剔除多余的聚類中心,最終選擇出實際的聚類中心。
經過聚類算法優化選取的聚類中心,既能有效地覆蓋壓氣機的正常工況,又盡可能地減少了數據冗余,提高計算效率,使得狀態矩陣的構建更加完善。
多維時間序列模型的主要步驟概括如下:用壓氣機正常工作的數據建立多維狀態矩陣,通過計算實際運行數據與建立的多維時間序列狀態矩陣間的相似程度得到權重系數,再將模型中設備狀態的正常模式進行加權組合,計算出設備的估計狀態,若某一監測參數的實際值與預估值的殘差超過了動態閾值,則說明設備存在潛在故障。模型的整體框架如圖3所示。

圖3 模型整體框圖
結合某電廠的GE 9FA型燃氣輪機的壓氣機運行數據對建模過程進行仿真實驗。本文的研究數據來自某電廠的PI實時數據庫。選取壓氣機的11個特征向量300 d左右的歷史數據,根據燃機電廠運行規程將停機和故障時段數據清洗,剩下包含多種負荷工況下壓氣機正常工作的850個時間點的數據,應用式(10)對數據集進行插值和歸一化處理,結果如圖4所示。

圖4 處理后的數據集
由式(15)~(20)計算得到數據集的聚類中心,然后,根據聚類中心確定能夠準確反映壓氣機工況的多維時間序列狀態矩陣,可以減少人工選取數據造成的誤差,得到更有說服力的狀態矩陣,聚類中心選取后得到的狀態矩陣如圖5所示。

圖5 狀態矩陣的選取
本文選取170組正常數據作為模型測試數據集進行預估值仿真計算。為驗證本文算法的預估結果,應用時間序列預測中常用的自回歸滑動平均 (Auto-Regressive and Moving Average ,ARMA)算法與本文算法進行對比。以壓氣機進氣流量為例,圖6所示為ARMA算法的仿真結果。

(a) 實際值與預估值曲線

(b) 殘差圖
其中,圖6(a)為ARMA算法得到的實際值和預估值曲線,圖6(b)為殘差圖。由于監測數據波動較大且序列為非平穩序列,出現了數據間相關性大導致的尖峰誤差,可以看出直接應用ARMA算法對測試數據進行預測的結果并不理想[15]。
本文采用的多維時間序列狀態估計算法加入了聚類方法,優化了狀態矩陣選取,得到的預估值和實際值曲線如圖7(a)所示,圖7(b)為兩者殘差圖。

(a) 實際值與預估值曲線

(b) 殘差圖
Fig.7 Simulation results of estimation algorithm of multidimensional time series state
由圖可見,預估值和實際值吻合度很高,預測準確率相較于ARMA算法有一定提升;且改善了采用人工選取數據得到狀態矩陣的方法,使模型更有說服力,既盡可能地保留了原始工況信息,又避免了太多的連續數據造成的噪聲導致的尖峰誤差。
為比較兩種算法的預測結果,通過計算評價模型預測精度的擬合優度來計算回歸線對觀測值的擬合程度,在數學上的統計量是可決系數,即R2。表1給出了兩種算法的R2、平穩R2、均方根誤差值以及平均絕對百分誤差。由表1可見,多維時間序列狀態估計算法得到的R2更接近于1,且均方根誤差和平均絕對百分誤差都較小,說明該算法有更高的精度。
導入一段壓氣機發生進氣濾網壓差大故障時的數據對模型進行測試,仿真結果如圖8所示。由圖可見,在第55個時間點前,實測值與預測值兩條曲線吻合較好,但在該時間點后,兩條曲線開始出現明顯的偏差,并有變大的趨勢,但測點數據并沒有到跳機值,說明壓氣機存在潛在的故障趨勢,需要及時檢查相關部件。
根據以上信息,相關人員能夠在故障發生前對壓氣機相關部件進行檢修排查,避免更嚴重的經濟損失。綜合上述測試結果表明,本文提出的壓氣機多維時間序列狀態估計模型能準確地估計出壓氣機的工作狀態,將實時狀態與估計狀態進行對比從而及時發現潛在故障。

表1 兩種算法的估計效果比較

圖8 故障數據仿真結果圖
對設備歷史運行數據進行挖掘分析,合理構建壓氣機的多維時間序列狀態估計模型。應用了SVM遞歸特征消除法對模型特征向量進行選取,并加入相似性算子改善矩陣運算求逆困難的問題,采用聚類算法得到的聚類中心優化了狀態矩陣的構建,有效抑制了監測數據的強相關性對預估值計算的影響,提高了模型的精度。通過該方法能有效地發現設備的潛在故障趨勢,降低燃氣輪機壓氣機檢修成本,對于壓氣機的狀態監測與檢修維護具有重要意義。
[1] 蒲星星,劉尚明,張文杰,等. 一種重型燃氣輪機通用模型的建立 [J].熱力透平,2012,41(1):7-12,65.
[2] 賀琛,張小棟. 基于LPV的航空發動機壓氣機健康監測系統建模研究 [J].測控技術, 2014,33(5):139-142.
[3] 賀琛,張小棟,Patton RJ. 基于LMI和離散模型的航空發動機壓氣機傳感器魯棒故障診斷 [J].航空動力學報, 2014,29(4):965-972.
[4] 丁毅,黃向華,張天宏.基于相似理論的燃氣輪機建模技術研究 [J].航空動力學報,2004,19(5):689-694.
[5] 張航,葉東毅. 一種基于多正則化參數的矩陣分解推薦算法 [J].計算機工程與應用,2017,53(3):74-79.
[6] 簡金寶,尹江華,江羨珍.一個充分下降的有效共軛梯度法 [J].計算數學,2015,37(4):415-424.
[7] 齊敏芳,付忠廣,景源,等.基于信息熵與主成分分析的火電機組綜合評價方法 [J].中國電機工程學報,2013,33(2): 58-64.
[8] 尹祖鈺.基于主成分分析和遞歸特征消除的支持向量機分類方法研究 [D]. 哈爾濱:哈爾濱工業大學,2016:28-30.
[9] 朱寶田,肖俊鋒,祁文玉. 某電廠3號燃氣輪機壓氣機葉片故障的原因分析 [J].熱力透平,2007,36(1):67-70.
[10] 李宏偉. 燃氣輪機結垢性能退化仿真研究 [J].裝備制造技術,2015(6):41-44.
[11] 劉波. 9E型燃氣輪機壓氣機葉片斷裂分析 [J].科技創新與應用,2014(21):125.
[12] LUXBURG U. A tutorial on spectral clustering [J].Statistics and Computing,2007,17(4):395-416.
[13] TENENBAUM J B, DE SILVA V, LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction [J].Science,2000,290(5500):2319-2323.
[14] RODRIGUEZ A,LAIO A. Clustering by fast search and find of density peaks [J]. Science,2014,344(6191) : 1492-1496.
[15] HONG Chang, YEUNG D Y. Robust path-based spectral clustering [J].Pattern Recognition, 2008,41( 1) : 191-203.
Modeling Early Warning of Gas Turbine Compressor Based on Multidimensional Time Series State Estimation
HUANGJialin,MAODajun
(Automation Engineering Institute, Shanghai University of Electric Power, Shanghai 200090, China)
A nonparametric multidimensional time series model of gas turbine compressor is established by data mining based on historical data. A similarity state estimation method is used to predict parameters of fault characteristics of the compressor, which fits the actual normal operation data very well. The results show that the method can accurately calculate the real-time state of the compressor monitoring parameters. If the dynamic threshold is exceeded, the equipment has hidden risk of failure, thus realizing early warning.
early warning of compressor; historical data mining; multidimensional time series; similarity state estimation
TK 478
A
2017 -06 -05
黃佳林(1993-),男,碩士生,主要研究方向為電氣系統檢測與控制、電站自動化,E-mail:2421836946@qq.com
2095 - 0020(2017)04 -0208 - 07
指導老師: 茅大鈞(1966-),男,教授級高級工程師,主要研究方向為電站過程自動化、計算機測控技術以及智能儀器儀表等,E-mail:maodajun@shiep.edu.cn