孫群麗, 周 瑛, 劉長良
(1.華北電力大學 科技學院, 河北 保定 071003; 2.石家莊鐵道大學 四方學院, 河北 石家莊 051132;3.華北電力大學 新能源電力系統國家重點實驗室, 北京 102206)
隨著風力發電產業的快速發展,降低機組的故障維護成本受到各方的重視。 有關風力發電機組狀態監測和故障診斷的系統相繼被開發出來,其中有一部分研究是利用SCADA 數據來進行的。 文獻[1]在分析了傳動系統故障原理的基礎上,選擇SCADA 數據中的風速、功率、環境溫度和上一時刻的4 個相關溫度,一共7 個特征來建立模型,把這7 個特征數據輸入到最小二乘支持向量機和高斯混合模型中,以4 個相關溫度作為輸出,通過輸出值來對機組的故障進行分析。 文獻[2]分析了風電機組變槳系統在不同工況下的運行特性,用熵優化的鄰域粗糙集來對不同工況下的特征進行選擇,把選擇出來的特征數據代入到以小世界粒子群優化的熵加權學習向量量化模型中,實現對故障的診斷。 文獻[3]針對SCADA系統發出故障報警時總是跟隨一連串故障的現象,提出用FDA 貢獻圖法計算出各個特征數據對故障的貢獻率,從而實現對故障的定位。 文獻[4],[5] 利用自適應神經模糊推理系統分別對機組的變槳系統和整機進行狀態監視, 建立了故障模型,針對故障的情況給出警告的輸出值。 文獻[6]借助于專家經驗從SCADA 中選取了幾個特征,作為主成分分析模型的輸入,通過計算Hotelling-T2 和Q 統計量的斯皮爾曼系數對機組的狀態進行監視并識別出功率輸出故障。文獻[7]用SCADA數據建立機組正常運行的深度神經網絡模型,統計分析其誤差,確定診斷閾值。
上述文獻在利用SCADA 數據的時候沒有對所用的特征進行說明,僅僅是依據經驗來選擇。特征選擇的方法分為過濾式、 封裝式和嵌入式3 大類[8]。過濾式特征選擇方法先對數據集進行特征選擇,然后再訓練模型,沒有考慮其選擇出來的特征對后續模型學習的影響。 封裝式特征選擇方法從初始特征集合中不斷地選擇特征子集, 訓練學習器,根據學習器的性能對子集進行評價,直到選擇出最佳的子集, 該方法直接針對給定學習器進行優化,須要多次訓練學習器,計算成本很大。 嵌入式特征選擇在學習器訓練過程中自動地進行特征選擇,最小角回歸(Least Angle Regression,LARS)算法就是一種嵌入式特征選擇方法[9]。 文獻[10]利用LARS 在全光譜區進行變量篩選, 得到建模用的特征波長點,提高了模型預測的精度。 文獻[11]針對火電廠煙氣含氧量的測量環境差、 儀器成本高、測量遲延的問題,利用LARS 從鍋爐運行的參數中選擇出與煙氣含氧量相關的特征參數, 并利用這些參數建立高斯回歸模型,實現了煙氣含氧量的軟測量。 結合上述LARS 算法在非線性系統中的應用, 本文采用LARS 算法對風電機組變槳系統超級電容的參數進行特征選擇,對所選擇出來的特征數據用K 均值(K-means) 方法對其分類,最后建立隱馬爾可夫(HMM)模型對故障進行診斷。 HMM 模型是20 世紀70 年代建立起來的一種時間序列信號的統計分析模型,該模型用不完全統計方法克服了傳統統計方法對樣本需求量大的不足,并且具有嚴謹的理論基礎,有學者將其應用于故障診斷。
風力發電機組在把風能轉換成電能的過程中,機組的各個部件之間緊密結合,這就導致了眾多監測參數之間的互相偶合,利用這些特征參數進行分析時,會造成精確度不高。 為了提高分析的準確性, 本文提出利用LARS 方法來選擇問題研究所需的特征[9]。 LARS 方法是一種線性回歸方法,基于線性回歸平方誤差最小,可以從高維數據中選擇出重要的特征,使得后續的學習過程僅在一部分特征上構建模型。
給定數據{X,y},X∈Rn×m,y∈Rn,其中xi∈Rn(i=1,2,…,m),尋求最少的變量x1,…,xr,(r≤m)∈Rn,使其線性組合最大程度的接近y,即:


LARS 算法的基本思想是先找出和y 最相關的一個變量xi,將其加入優化模型中,然后在xi所在的方向前進,直到出現另一個變量xj,它和當前殘差的相關系數與第一個入選變量xi的相關系數絕對值相同, 此時把xj也加入回歸模型中,然后沿著xi和xj角平分線的方向前進,直到找到第3 個變量xk,使得其和(xi,xj)與殘差相關性相同,以此類推,直到所需變量均被選入優化模型,在這個過程中殘差與所選變量的相關性逐漸減小。
設第k 步時, 被選擇出的前k 個變量的集合為A,得到的回歸向量為k,對特征矩陣X 標準化,因變量y 中心化,具體算法如下:

(1)初始化k=0,A=φ,μ0=0;(5)重復(2)~(4),直至選到所需個數為止。
以變槳超級電容不平衡故障為例, 利用上述方法進行故障特征的選擇。 已知數據中變槳超級電容不平衡故障特征包括電網電壓x1、 電網電流x2、電網頻率x3、有功功率x4、無功功率x5、變流器直流電壓正極x6、變流器直流電壓負極x7、變流器直流電流x8、變流器制動電流x9、變流器整流電壓x10、變流器直流電流設定值x11、變流器無功功率設定值x12、機艙x 方向振動信號x13、機艙y 方向振動信號x14、 機艙振動有效值x15、 發電機轉速x16、發電機轉速上限值x17、偏航位置x18、風速x19、發電機轉速設定值x20、二階低通濾波發電機轉速x21、陷波濾波后的發電機轉速x22、槳距角設定值x23、控制扭矩x24、變槳速率需求值x25、槳距角x26和變槳速率x27。 LRAS 的目標變量為電容不平衡值, 在R 語言中用LARS 對SCADA 中的上述數據進行參數的重要度分析, 在分析過程中進行逐步迭代, 首次迭代時各個特征的標準化回歸系數為0,每經過一次迭代系數變化一次,利用R 語言中的summary 函數對各次迭代進行計算,找出最小值對應的各個特征的權重系數β,各權重系數β如表1 所示。

表1 特征對應的權重系數Table 1 Weight coefficients for each feature
由表1 可知,x1,x2, x4, x5, x6, x7, x8, x9, x10,x12,x16,x18,x24,x25和x27的權重系數β 均為0,這表明它們與目標變量的相關性很弱。因此,從上述特征中去除這些項,最后選擇出的特征為x3,x11,x13,x14,x15,x17,x19,x20,x21,x22,x23和x26。電網頻率、發電機的轉速、 變流器信號影響變槳系統超級電容的充電過程,風速、機艙的振動、變槳系統的槳距角影響超級電容的放電過程。
HMM 模型最早被廣泛應用于語音識別領域,后續在數字圖像處理、生物醫學、故障診斷等方面也得到廣泛的應用。N,M,π,A,B 為HMM 的模型參數,其含義如下。
N:隱藏馬爾科夫鏈的狀態數,在t 時刻所處的狀態。已知風電機組的狀態是連續變化的,將具有代表性的狀態定義為HMM 的隱藏狀態。
M:觀測向量的個數,O=(o1,o2,…,oM),從一個狀態變化轉移到另一個狀態會導致觀測數據的變換, 對觀測到的風電機組SCADA 數據進行聚類分析。
π:狀態的概率分布,π=(π1,π2,…,πN),其中πi=p(q1=si),1≤i≤N,即在初始時刻t=1 時,N 個狀態出現的概率。
A:狀態轉移概率矩陣,A={aij}N×N;aij=p(qt+1=sj│qt=si),1≤i,j≤N。
B:觀測向量概率矩陣,在狀態si下觀測向量ot出現的概率,B={bj(ot)}N×M,bj(ot)=P(ot│qt=sj),1≤j≤N,1≤t≤M。
風電機組在運行過程中, 狀態之間的轉移模式會在觀測值序列中體現出來。 因此利用上述選擇出來的特征觀測值序列作為樣本進行模型訓練,可以得到各個故障的HMM 模型。
在進行機組故障診斷的過程中, 往往是根據觀測到的數據O=(o1,o2,…,oT)來判斷它屬于的故障類型,HMM 在已知故障模型λ 的基礎上,通過計算觀測數據屬于該模型的概率p(O│λ)來進行故障識別。
利用前向算法或后向算法來計算觀測序列O在模型下出現的概率。
為了能夠對HMM 的參數進行估計,須要利用已知的一組觀測向量, 通過遞歸迭代得到一模型λ,利用Baum-Welch 算法使得p(O│λ)最大[12]。
某1.5 MW 風力發電機, 超級電容為變槳系統提供備用電源。 超級電容由4 個超級電容組串聯而成,額定電壓為60 V,總容量為108 F,可用能量為150 kJ。NG5 為變槳電機提供總的電源,給超級電容充電時額定輸入電壓為400 VAC, 額定輸出電壓為60 VDC,額定輸出電流為80 A。 上面有超級電容的充電程度指示燈,紅色LED 燈表明處于初始化充電階段,黃色LED 燈表明已經達到80%的充電量,綠色LED 燈表明已經充滿。
NG5 輸出電壓不正常或損壞、 超級電容損壞、 監測超級電容電壓的A10 自制模塊KL3404損壞、 電磁剎車繼電器或電磁剎車動作不靈敏導致電容充電沒有放電、 干擾引起監測電容電壓信號跳變、PLC 死機等都有可能導致電容電壓不平衡。 現從SCADA 數據中提取出變槳電容電壓不平衡數據,共有5 713 組數據,數據分為兩部,其中前4 000 組數據作為訓練集,后1 713 組數據作為測試集。 HMM 模型中N 為隱藏狀態的數目,根據設備的衰退過程將其狀態劃分為4 個等級,M為觀測向量的個數, 觀測向量是從現場獲取的數據,對這些數據用k-均值方法進行聚類,每一個類別為一個觀測種類。 HMM 模型中觀測種類的個數會對模型的精確度產生影響, 從訓練數據集中取4 組觀測數據,每組100 個,用這些構成觀測向量, 選擇聚類數k 分別為4,5,6,7,8,9 建立對應的模型一、模型二、模型三、模型四、模型五、模型六。圖1 為不同模型的建立過程。 由圖1 可知:當k 為4 時,模型一實際上經過了500 次的迭代,但是在200 次以后, 得到的對數似然概率在-11上下做微小波動,因此在圖中沒有進行顯示;當k為5 時, 模型二經過163 次迭代達到最大似然概率-2.25,后續的模型經過一定的迭代后也都達到穩定,但是穩定后的最大似然概率均比較低。

圖1 變槳系統超級電容不平衡故障模型訓練過程Fig.1 Supercapacitor imbalance fault model training process of pitch system
圖2 為100 組測試數據在上述不同模型下的匹配程度。

圖2 測試數據對模型的識別率Fig.2 The recognition rate of the test data on the model
由圖2 可知:模型一有64%的測試數據對數似然概率在-0.1 附近,有30%的測試數據對數似然概率在-3.3 附近;對模型二,大部分測試數據的對數似然概率都在-1.5 上下波動,雖然某些觀測值的匹配度與模型一相比低了些,但是在整個測試范圍內識別率較平穩,而且與后面的模型相比,對數似然概率也不低。 因此,本文選擇模型二為最佳模型。 圖3 為整個模型的建立過程。

圖3 模型的建立過程Fig.3 Model building process
利用LARS 方法選擇出某1.5 MW 風力發電機變槳系統超級電容不平衡故障的原始數據的主要特征。 為了驗證選擇出的特征對系統的故障識別能力,現將其與原始特征搭建的模型進行對比。首先, 分別利用原始特征數據和經過選擇的特征數據訓練各自的HMM 模型。然后,利用同樣的測試數據在兩個模型上驗證,驗證結果如圖4 所示。圖4 中: 虛線為利用SCADA 給出的原始特征數據建立的HMM 模型, 該模型對測試數據的對數似然概率最大值為-0.750 3,最小值為-23.861 5,在整個測試過程中波動性比較大; 實線為利用經過選擇后的特征建立的HMM-LARS 模型, 在整個測試范圍內對數似然概率保持在較高水平做微小波動。

圖4 HMM 和HMM-LARS 模型的對比Fig.4 Comparison of HMM and HMM-LARS
為了驗證HMM-LARS 模型對故障診斷的有效性, 從變槳位置故障數據和電容不平衡數據中從前向后提取100 組數據, 將這些數據處理后代入到HMM-LARS 模型中, 模型對該故障的識別效果如圖5 中虛線所示, 圖中實線為該模型對電容不平衡故障的識別率。

圖5 模型對不同故障的識別效果Fig.5 Model recognition effect on different faults
由圖5 可知, 用電容不平衡數據建立的模型對其他故障的識別效果比較差, 對電容不平衡故障識別的對數似然概率較高。 在對電容不平衡故障識別的過程中, 模型通過電容在不同狀態間的概率來確定其所處的狀態, 上述100 組數據在不同狀態間的概率分布如圖6 所示, 圖中4 個狀態代表了設備性能逐漸下降的過程。
圖6(a)中數據的前部分表示設備性能相對較好,所以對應狀態一的概率比較大,隨著設備的運行,性能下降,對應狀態一的概率也在逐漸地減小,如圖中的向下變化的趨勢所示。 圖6(b)中概率相對比較高的部分出現在第40 個測試數據和第60 個測試數據之間,表明了在這個階段設備的性能處于狀態二。同理可以看出,隨著時間和數據的向前推進,圖6(c)中最大概率在第60 個測試數據和第80 個測試數據之間,圖6(d)中最大概率在第80 個測試數據和第100 個測試數據之間。
從圖6(a)~(d)可以看出,設備的性能在不斷地退化。 圖6 中某一數據段的數據最大概率對應的狀態就是該數據段設備所對應的狀態, 在最初階段,圖6(a)對應的狀態一概率比其他3 幅圖高, 這也說明了在最初階段設備的性能處于狀態一, 同理也可看出設備在其他階段設備所處的狀態。

圖6 不同狀態間的概率Fig.6 Probability between different states
在建立風電機組SCADA 數據模型時,針對選用不同的特征數據而導致機組故障診斷和預測時精度不高的問題, 提出了一種基于考慮后續模型優化的特征選擇方法, 并在此基礎上確定了最優模型的參數。
①根據風電機組運行過程中眾多參數間的關系, 以變槳系統超級電容不平衡故障為例,用LARS 特征選擇辦法找出與電容不平衡的相關特征。
②針對HMM 模型在建模過程中觀測向量對模型的影響,設計了觀測向量的提取方法,并基于此確定了最優的模型。
③考慮到風電機組在同一部件上出現的多個故障情況,故障之間難以識別的情況,利用其他故障信息來驗證所建立模型的準確性。