孫 勇,宋 銳,孟德霞,魏 敏,楊 晨,曹哲銘
(1. 國網(wǎng)新源控股有限公司,北京 100053;2.太極計算機股份有限公司,北京 100102)
在當(dāng)下綠色能源大發(fā)展的背景下,抽水蓄能電站對于提高電網(wǎng)供電質(zhì)量和電網(wǎng)靈活性及可靠性發(fā)揮著不可替代的作用。由于抽水蓄能機組運行復(fù)雜,啟動繁雜,水力、機械、電力共同作用,極有可能引起機組溫度過高、并網(wǎng)故障、甩油故障等,從而影響整個機組的正常運行。在電力系統(tǒng)中,抽水蓄能機組是非常重要的組成模塊,也是電力穩(wěn)定、持續(xù)不間斷供應(yīng)的基礎(chǔ)。因此,基于數(shù)據(jù)挖掘技術(shù)對抽水蓄能電站機組狀態(tài)進(jìn)行預(yù)測和判斷具有重要的現(xiàn)實意義[1-7]。
目前,對于抽水蓄能機組狀態(tài)監(jiān)測和故障診斷系統(tǒng)的研究大多基于傳統(tǒng)的信號處理方法,它是以機組的狀態(tài)監(jiān)測為基礎(chǔ),根據(jù)所獲得的監(jiān)測數(shù)據(jù),提取反映水輪機運行狀態(tài)的特征值,并對這些特征值進(jìn)行分析診斷,判斷水輪機是否存在故障[8]。這種方法只能對故障進(jìn)行事后分析,無法實現(xiàn)預(yù)測,而且由于故障樣本數(shù)據(jù)有限,導(dǎo)致其適應(yīng)性差,只能用于特定故障的分析診斷。國內(nèi)外已有一些基于數(shù)據(jù)挖掘技術(shù)的抽水蓄能電站設(shè)備故障診斷和狀態(tài)檢修方面的研究,為機組狀態(tài)監(jiān)測分析和故障診斷提供了有益探索[6-7]。文獻(xiàn)[5]運用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則對抽水蓄能機組的歷史故障信息進(jìn)行分析,頻繁模式增長算法分析故障樣本事務(wù),提取了機組有效故障信息,為電站運維人員提供了檢修指導(dǎo)意見[5]。故障診斷與預(yù)測實質(zhì)上就是建立一套設(shè)備的運行狀態(tài)分析系統(tǒng)來提前預(yù)判機組的健康狀況,從而對是否需要檢修做出決定,實現(xiàn)預(yù)測性維修策略,避免被動維修造成的巨大損失。對機組狀態(tài)進(jìn)行預(yù)測建模,首先要收集機組的相關(guān)信息,包括設(shè)備的基礎(chǔ)信息、歷史運行數(shù)據(jù)及設(shè)備故障信息等。通過對設(shè)備歷史數(shù)據(jù)進(jìn)行清洗、特征工程、打標(biāo)簽、數(shù)據(jù)挖掘和預(yù)測建模、模型性能測試驗證,最終得出抽水蓄能機組故障預(yù)測模型。模型部署后對機組當(dāng)前監(jiān)測值進(jìn)行對比分析,判斷當(dāng)前設(shè)備運行狀態(tài)是否正常。
數(shù)據(jù)挖掘的主要過程如圖1所示[4]。數(shù)據(jù)挖掘技術(shù)和算法多種多樣,主要是嘗試使用分類算法對抽水蓄能機組的狀態(tài)進(jìn)行分類,也就是說給定機組的運行狀態(tài)值x,找到一個分類器模型f(·), 能夠通過模型計算得出機組狀態(tài)y=f(x),y為0-1變量,0代表無故障,1代表有故障。
本文使用三種典型的數(shù)據(jù)挖掘分類算法進(jìn)行機組狀態(tài)預(yù)測建模。數(shù)據(jù)挖掘過程模型如圖1所示。
(1)決策樹(Decision Tree,簡稱DT)是一種最常用的呈樹狀結(jié)構(gòu)的分類算法,其創(chuàng)建的過程主要包括變量選擇、決策樹生成以及決策樹修剪。首先對原始數(shù)據(jù)進(jìn)行處理,并歸納生成可讀規(guī)則,然后使用決策樹對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。
(2)BP神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用十分廣泛的神經(jīng)網(wǎng)絡(luò),按照誤差反向傳播的方法對其進(jìn)行訓(xùn)練,從而不斷對權(quán)值和偏差進(jìn)行反復(fù)調(diào)整,從而使算法的正確率不斷上升。
(3)支持向量機(Support Vector Machines,簡稱SVM)是一種二分類模型,它的目的是尋找一個超平面來對樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解[1-3]。

圖1 數(shù)據(jù)挖掘過程模型
對于分類模型而言,模型的評價指標(biāo)主要有混淆矩陣和接收者特征(Receiver Operating Characteristic,簡稱ROC)曲線[2]。ROC曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標(biāo),假陽性率(1-特異度)為橫坐標(biāo)繪制的曲線,對于評價不平衡性數(shù)據(jù)分類器性能具有很好的參考價值。ROC曲線越靠近左上角則其對應(yīng)的分類器性能越好,若一個分類器的ROC曲線總是在另一個分類器的ROC曲線上方,則說明前者分類性能優(yōu)于后者。若不同的ROC曲線有交叉情況或要量化分類器性能,則可以由ROC曲線下的面積得出模型的總體準(zhǔn)確度。AUC(Area under ROC curve)是一種常用的分類指標(biāo)(如圖2所示),具有統(tǒng)計意義,其優(yōu)點是受不平衡分類的影響小。AUC值為0.5代表隨機分類器,理想模型的AUC值為1,因此通常情況下分類器的AUC值越接近1越好。

圖2 ROC曲線與AUG面積
本文數(shù)據(jù)挖掘計算試驗數(shù)據(jù)來自于國網(wǎng)新源泰山抽水蓄能機組。原始數(shù)據(jù)收集了“導(dǎo)葉開度”、“轉(zhuǎn)速”、“負(fù)荷”三個參數(shù)的歷史運行數(shù)據(jù)。時間跨度為2019年11月1日至30日,110多次的機組開機發(fā)電數(shù)據(jù)。通過數(shù)據(jù)清洗(刪除掉缺失值和采集時間不匹配的記錄)得到12萬多條有效記錄。這12萬多條數(shù)據(jù)的描述性統(tǒng)計值如表1所示。

表1 計算試驗的數(shù)據(jù)描述性統(tǒng)計分析
在數(shù)據(jù)挖掘過程當(dāng)中,把原始特征(導(dǎo)葉開度、轉(zhuǎn)速、負(fù)荷)進(jìn)行加工生成新特征,利用新特征對機組運行狀態(tài)進(jìn)行標(biāo)簽,區(qū)分每條記錄是處于故障狀態(tài)還是健康狀態(tài)。依據(jù)行業(yè)專家知識,本文從三個維度來判斷抽水蓄能機組是否存在潛在的故障:首先是計算機組開機負(fù)荷不穩(wěn)定性與不穩(wěn)定時長兩個特征,將負(fù)荷數(shù)據(jù)從不穩(wěn)定擺動時長與擺動的不穩(wěn)定程度兩個方向進(jìn)行量化,其中不穩(wěn)定擺動時間越長,則證明故障程度越大,擺動的不穩(wěn)定度越大,則證明調(diào)速器故障越明顯;其次是計算導(dǎo)葉開度不穩(wěn)定性與不穩(wěn)定時長兩個特征,將導(dǎo)葉開度數(shù)據(jù)從不穩(wěn)定擺動時長與擺動的不穩(wěn)定程度兩個方向進(jìn)行量化,其中不穩(wěn)定擺動時間越長,則證明故障越嚴(yán)重,擺動的不穩(wěn)定度越大,則證明調(diào)速器故障越嚴(yán)重;最后計算出轉(zhuǎn)速超限度特征,將轉(zhuǎn)速實際設(shè)定超出100%的幅度進(jìn)行量化,超出100%的幅度越大則證明機組潛在的故障越嚴(yán)重。34 000多條記錄標(biāo)記為故障狀態(tài)y=1;85 000多條記錄標(biāo)記為正常狀態(tài)y=0。
本文采用了三種常見的分類算法,決策樹、神經(jīng)網(wǎng)絡(luò)和SVM(支持向量機)對近12萬條數(shù)據(jù)進(jìn)行訓(xùn)練和測試,通過10-fold交叉試驗來評估預(yù)測模型的準(zhǔn)確性[1]。表2羅列三種分類算法的績效。總體來看,三種分類算法都能夠準(zhǔn)確地預(yù)測機組故障和非故障狀態(tài),10-fold準(zhǔn)確性和AUC指標(biāo)都比較滿意,其中神經(jīng)網(wǎng)絡(luò)和決策樹都取得了類似AUC,略高于支持向量機SVM的績效。這也充分證明前面依據(jù)行業(yè)專家選擇的機組狀態(tài)監(jiān)測特征“導(dǎo)葉開度”、“轉(zhuǎn)速”和“負(fù)荷”能夠很好地用于故障狀態(tài)預(yù)測建模,具有較強的解釋力度。

表2 分類算法準(zhǔn)確性
由于抽水蓄能電站擁有獨特的運行特性和機組的優(yōu)越技術(shù)性能,使其在我國大規(guī)模的建成與投運,十分有利于保障我國電力系統(tǒng)的安全穩(wěn)定和優(yōu)質(zhì)經(jīng)濟運行。通過數(shù)據(jù)挖掘流程,把抽水蓄能電站的歷史運行數(shù)據(jù)進(jìn)行清洗、特征變換和打故障狀態(tài)標(biāo)簽,形成訓(xùn)練數(shù)據(jù);然后采用決策樹、BP神經(jīng)網(wǎng)絡(luò)和支持向量機等三種分類算法進(jìn)行抽水蓄能電站故障狀態(tài)分類預(yù)測計算試驗,對抽水蓄能電站機組可能發(fā)生的故障狀態(tài)進(jìn)行了預(yù)測。研究結(jié)果表明通過數(shù)據(jù)挖掘方法能夠建立比較準(zhǔn)確的故障狀態(tài)預(yù)測模型,提前判斷機組運行狀態(tài),從而實施預(yù)測性維護策略來促進(jìn)電站的安全穩(wěn)定運行。