夏延秋,夏和民,馮 欣
(華北電力大學(xué) 能源動(dòng)力與機(jī)械工程學(xué)院,北京 102206)
作為一種可再生能源,風(fēng)能受到諸多國(guó)家的重視。隨著我國(guó)風(fēng)機(jī)裝機(jī)容量的逐年增加,至2020年,我國(guó)風(fēng)力發(fā)電總量占比已達(dá)各產(chǎn)業(yè)總發(fā)電量的第三位,所占比例亦在逐年增加。但越來(lái)越多的風(fēng)電機(jī)組運(yùn)維問(wèn)題凸顯出來(lái)。雖然,各風(fēng)電場(chǎng)引入了SCADA數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)對(duì)風(fēng)機(jī)進(jìn)行監(jiān)測(cè)[1],然而諸多情況下,當(dāng)工作人員發(fā)現(xiàn)SCADA系統(tǒng)發(fā)出警報(bào)再去對(duì)風(fēng)機(jī)停機(jī)維修時(shí),已經(jīng)為時(shí)已晚,由此導(dǎo)致的損失可能是巨大的。維護(hù)風(fēng)機(jī)良好的工作狀態(tài)是風(fēng)電場(chǎng)正常運(yùn)行的首要任務(wù),而高質(zhì)量的SCADA數(shù)據(jù)則為分析及預(yù)測(cè)風(fēng)機(jī)當(dāng)前狀態(tài)及未來(lái)趨勢(shì)提供更為真實(shí)、有效的數(shù)據(jù)支持與保障。SCADA數(shù)據(jù)中風(fēng)速、風(fēng)向、環(huán)境溫度等具有波動(dòng)性的參量,可使風(fēng)機(jī)的功率、發(fā)電量、各種監(jiān)測(cè)溫度也具有波動(dòng)性。風(fēng)機(jī)發(fā)電功率是評(píng)價(jià)風(fēng)機(jī)是否正常工作的一項(xiàng)重要指標(biāo),基于風(fēng)電場(chǎng)的各種數(shù)據(jù)信息對(duì)風(fēng)機(jī)發(fā)電功率進(jìn)行預(yù)測(cè)[2],可為制定風(fēng)電并網(wǎng)消納預(yù)案提供重要參考依據(jù)。針對(duì)SCADA數(shù)據(jù)展開(kāi)的分析與研究對(duì)風(fēng)電場(chǎng)及電力系統(tǒng)的可持續(xù)發(fā)展有深遠(yuǎn)影響[3]。
諸多研究表明,在用機(jī)器學(xué)習(xí)算法處理SCADA數(shù)據(jù)時(shí),模型的準(zhǔn)確性受異常點(diǎn)的影響較大,因此,針對(duì)SCADA數(shù)據(jù)的有效清洗與識(shí)別技術(shù)和方法一直是研究的熱點(diǎn)。現(xiàn)有的SCADA數(shù)據(jù)清洗方法各具優(yōu)勢(shì),但也存在不足。文獻(xiàn)[4]分別建立基于密度聚類法、截?cái)喾ā⑿甭士刂品ā⒑嗣芏裙烙?jì)法的異常數(shù)據(jù)識(shí)別模型,實(shí)現(xiàn)了風(fēng)電機(jī)組運(yùn)行數(shù)據(jù)的定向清洗。文獻(xiàn)[5],[6]采用局部異常點(diǎn)檢測(cè)算法(LOF),僅能識(shí)別部分密度值很低的點(diǎn),當(dāng)異常值與正常值密度相近時(shí),會(huì)被劃分為同一簇,無(wú)法進(jìn)行有效識(shí)別。文獻(xiàn)[7]采用孤立森林對(duì)高頻SCADA數(shù)據(jù)(1 s采樣一次)進(jìn)行清洗,雖然在后續(xù)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的功率預(yù)測(cè)效果更好,但是其對(duì)限功率點(diǎn)間的數(shù)據(jù)清洗效果較差。
作為一種數(shù)據(jù)清洗識(shí)別算法,一類支持向量機(jī)(OCSVM)已在諸多領(lǐng)域有所應(yīng)用。文獻(xiàn)[8]采用OCSVM進(jìn)行信息系統(tǒng)人員基本情況和adult數(shù)據(jù)集的相似重復(fù)數(shù)據(jù)分類識(shí)別檢測(cè),效果比支持向量域描述算法和傳統(tǒng)二分類支持向量機(jī)算法均好。文獻(xiàn)[9]基于時(shí)間序列的建筑能源消耗圖像化,采用OCSVM檢測(cè)能源消耗的異常情況。文獻(xiàn)[10]采用OCSVM對(duì)電力質(zhì)量進(jìn)行監(jiān)測(cè),在基于較大正常數(shù)據(jù)的訓(xùn)練下,模型可以實(shí)時(shí)檢測(cè)異常擾動(dòng)的出現(xiàn)。本文結(jié)合風(fēng)機(jī)的實(shí)際情況,提出一種改進(jìn)的OCSVM算法,將其運(yùn)用在風(fēng)機(jī)SCADA的風(fēng)功率曲線數(shù)據(jù)清洗,并通過(guò)實(shí)例驗(yàn)證了算法的有效性。
風(fēng)機(jī)數(shù)據(jù)清洗中采用最多的研究對(duì)象是風(fēng)速-功率曲線(P-V圖),圖1為基于風(fēng)機(jī)SCADA數(shù)據(jù)的風(fēng)速-功率曲線異常數(shù)據(jù)分布特征示意圖。將原始的風(fēng)功率散點(diǎn)圖根據(jù)其運(yùn)行狀態(tài)和分布特征及運(yùn)行狀態(tài)分為4類,即正常運(yùn)行點(diǎn)、停機(jī)點(diǎn)、限功率點(diǎn)和異常運(yùn)行點(diǎn)。

圖1 風(fēng)功率曲線異常數(shù)據(jù)分布特征示意圖Fig.1 Schematic diagram of abnormal data distribution characteristics of wind power curve
簡(jiǎn)單的異常數(shù)據(jù)識(shí)別模型有基于正態(tài)分布的3σ模型等,復(fù)雜的異常數(shù)據(jù)識(shí)別模型有基于散點(diǎn)型數(shù)據(jù)的密度/距離、連線數(shù)據(jù)的夾角、利用線性/非線性變換進(jìn)行升維/降維尋找超平面等。OCSVM算法屬于后者。有學(xué)者將OCSVM視為一種新穎值檢測(cè)算法,這種方法尚未被用于風(fēng)機(jī)SCADA數(shù)據(jù)清洗。
OCSVM算法是一種半監(jiān)督學(xué)習(xí)分類算法,同樣適用于正常數(shù)據(jù)多、異常數(shù)據(jù)少的情況,且在處理高維數(shù)據(jù)時(shí)效果更好。
OCSVM的計(jì)算原理為

式中:ξ為松弛張量;ν為權(quán)衡參數(shù),相當(dāng)于二分類SVM問(wèn)題中的C,為超平面的劃分提供上下界;Φ為原始數(shù)據(jù)集空間到特征空間的映射變換;w和ρ均為超平面的參數(shù)。
引入拉格朗日算子并采用dotproduct calculation,決策函數(shù)可變?yōu)?/p>

式中:α為拉格朗日乘子;K(x,y)為核函數(shù);sgn(x)為階躍函數(shù)。

對(duì)東北某風(fēng)電場(chǎng)的同一批次風(fēng)機(jī)展開(kāi)研究,發(fā)現(xiàn)每臺(tái)風(fēng)機(jī)都存在大量停機(jī)點(diǎn)類型的異常數(shù)據(jù),對(duì)此類數(shù)據(jù)的處理一般采用刪除發(fā)電量小于5的數(shù)據(jù)點(diǎn)。
對(duì)該批次的風(fēng)機(jī)進(jìn)行風(fēng)功率曲線可視化處理,發(fā)現(xiàn)大部分風(fēng)機(jī)均有限功率點(diǎn)類型的異常數(shù)據(jù),需要對(duì)這些點(diǎn)進(jìn)行預(yù)處理刪除。圖2為風(fēng)機(jī)限功率點(diǎn)故障類型圖。

圖2 風(fēng)機(jī)限功率點(diǎn)故障類型圖Fig.2 Schematic diagram of fault type of fan power limit point
限功率點(diǎn)類型的異常數(shù)據(jù)可分為三類,本文將圖2中標(biāo)準(zhǔn)的異常數(shù)據(jù)自下而上命名為第一類、第二類和第三類限功率點(diǎn)。資料中很少有對(duì)棄風(fēng)限電導(dǎo)致的限功率點(diǎn)的解釋說(shuō)明,也沒(méi)有指出風(fēng)機(jī)限功率點(diǎn)的功率范圍,為此本文對(duì)該風(fēng)場(chǎng)的同一批次風(fēng)機(jī)的限功率點(diǎn)功率范圍進(jìn)行估算。
圖3為該風(fēng)電場(chǎng)55號(hào)風(fēng)機(jī)的限功率點(diǎn)示意圖。

圖3 第一類限功率點(diǎn)示意圖Fig.3 Schematic diagram of the first type of power limit point
該風(fēng)機(jī)只有第一類限功率點(diǎn),采用區(qū)間統(tǒng)計(jì)的方法來(lái)估算第一類限功率點(diǎn)的功率范圍。取風(fēng)速為5.82~6.32 m/s的數(shù)據(jù),獲取此風(fēng)速區(qū)間對(duì)應(yīng)功率點(diǎn)的最大值和最小值分別為111.85 kW和702.71 kW,得出此功率區(qū)間的長(zhǎng)度為590.86(圖4)。再將此功率區(qū)間以20的單位長(zhǎng)度進(jìn)行區(qū)間劃分,可被分為30個(gè)區(qū)間,統(tǒng)計(jì)單個(gè)區(qū)間內(nèi)點(diǎn)的個(gè)數(shù)(表1)。由于概率密度的關(guān)系,正常數(shù)據(jù)密度大(表1中區(qū)間13~25),其次是限功率點(diǎn)數(shù)據(jù)(表1中區(qū)間6,7),因此可以得出區(qū)間6和7內(nèi)的點(diǎn)為限功率點(diǎn),其功率為210~250 kW。

圖4 風(fēng)速為5.82~6.32 m/s的風(fēng)功率散點(diǎn)示意圖Fig.4 Schematic diagram of wind power scatter with wind speed of 5.82~6.32 m/s

表1 風(fēng)速區(qū)間為5.82~6.32 m/s的功率點(diǎn)分區(qū)間統(tǒng)計(jì)Table 1 Corresponding wind speed interval between 5.82~6.32 m/s power point statistics
將此功率范圍運(yùn)用到其它風(fēng)機(jī)進(jìn)行驗(yàn)算,結(jié)果是合理的。同理,在其它風(fēng)機(jī)上運(yùn)用此方法估算出第二類限功率點(diǎn)的功率為784.18~804.18 kW,第三類限功率點(diǎn)的功率為1 150.58~1 170.58 kW。同理,在有相同故障數(shù)據(jù)類型的風(fēng)機(jī)上皆可驗(yàn)證算法的準(zhǔn)確性。
據(jù)此,可按照上述方法得到的限功率點(diǎn)的功率范圍對(duì)此類型異常數(shù)據(jù)進(jìn)行刪除。
改進(jìn)的OCSVM是一種針對(duì)不同類型風(fēng)功率異常散點(diǎn)的數(shù)據(jù)清洗算法,可結(jié)合風(fēng)功率散點(diǎn)本身的特點(diǎn)和預(yù)處理及OCSVM的算法優(yōu)勢(shì),從而達(dá)到預(yù)期目的。數(shù)據(jù)清洗的具體步驟如下。
①在風(fēng)場(chǎng)同一型號(hào)的全部風(fēng)機(jī)中選擇將要處理的風(fēng)機(jī),選擇某幾個(gè)月的連續(xù)SCADA數(shù)據(jù)。
②根據(jù)風(fēng)機(jī)的運(yùn)行規(guī)律,停機(jī)點(diǎn)并不包含有用的風(fēng)機(jī)運(yùn)行信息,可直接刪除發(fā)電量小于5的SCADA數(shù)據(jù)點(diǎn),并得到風(fēng)功率散點(diǎn)圖。
③根據(jù)風(fēng)功率散點(diǎn)圖的實(shí)際情況,采用2.2節(jié)中提出的方法,刪除圖中出現(xiàn)的第一、二、三類的限功率點(diǎn)。
④根據(jù)風(fēng)功率散點(diǎn)圖的分布特點(diǎn)將其一分為二,在風(fēng)功率散點(diǎn)圖中,當(dāng)風(fēng)速小于額定風(fēng)速時(shí),采用基于高斯核的OCSVM清洗這部分散點(diǎn),另一部分采用基于線性核的OCSVM進(jìn)行清洗。完成后將兩部分合并。
⑤將清洗完的數(shù)據(jù)運(yùn)用到后續(xù)的風(fēng)機(jī)參數(shù)預(yù)測(cè)中檢驗(yàn)清洗效果。
東北某風(fēng)電場(chǎng)二期為雙饋型異步發(fā)電機(jī),其基本運(yùn)行參數(shù)見(jiàn)表2。

表2 風(fēng)機(jī)基本運(yùn)行參數(shù)Table 2 Basic operating parameters of fans
查看近兩年故障統(tǒng)計(jì)表,發(fā)現(xiàn)有6臺(tái)風(fēng)機(jī)更換過(guò)發(fā)電機(jī)或發(fā)電機(jī)雙側(cè)軸承。根據(jù)異常數(shù)據(jù)點(diǎn)的類型,選擇6臺(tái)故障機(jī)組中的37號(hào)、55號(hào)、61號(hào)和66號(hào)4臺(tái)檢驗(yàn)前述算法的清洗識(shí)別效果。4臺(tái)風(fēng)機(jī)更換配件前4,5個(gè)月的原始風(fēng)功率曲線如圖5所示。

將改進(jìn)的OCSVM算法運(yùn)用于上述4臺(tái)風(fēng)機(jī)的風(fēng)功率曲線清洗。以風(fēng)機(jī)的額定風(fēng)速為界限,對(duì)該界限左右兩側(cè)的風(fēng)功率散點(diǎn)分別采用基于線性核、高斯核的OCSVM進(jìn)行清洗,并與四分位法、LOF和IF方法進(jìn)行清洗效果對(duì)比(圖6~9)。


圖6 37號(hào)風(fēng)機(jī)數(shù)據(jù)清洗結(jié)果示意圖Fig.6 Schematic diagram of data cleaning result of No.37 fan

圖7 55號(hào)風(fēng)機(jī)數(shù)據(jù)清洗結(jié)果示意圖Fig.7 Schematic diagram of data cleaning result of No.55 fan

圖8 61號(hào)風(fēng)機(jī)數(shù)據(jù)清洗結(jié)果示意圖Fig.8 Schematic diagram of data cleaning result of No.61 fan


圖9 66號(hào)風(fēng)機(jī)數(shù)據(jù)清洗結(jié)果示意圖Fig.9 Schematic diagram of data cleaning result of No.66 fan
由圖6~9可知:預(yù)處理-OCSVM的清洗效果均優(yōu)于四分位法、LOF和IF;在低風(fēng)速區(qū)段,四分位法清洗后的風(fēng)功率曲線存在鋸齒狀邊界,在高風(fēng)速區(qū)段,其對(duì)異常數(shù)據(jù)的清洗效果非常差,但此方法對(duì)限功率點(diǎn)的清洗效果很好;對(duì)存在限功率點(diǎn)的風(fēng)機(jī),LOF在限功率點(diǎn)上的清洗效果不好,且對(duì)中風(fēng)速區(qū)段的異常點(diǎn)的清洗效果較差,在超高風(fēng)速區(qū)段,其會(huì)直接清洗掉全部數(shù)據(jù);IF能清除部分限功率點(diǎn)的異常數(shù)據(jù),對(duì)非限功率點(diǎn)的數(shù)據(jù)清洗的效果也不佳,且會(huì)將位于中風(fēng)速、高風(fēng)速區(qū)段的數(shù)據(jù)全部識(shí)別為不正常數(shù)據(jù)。
LSTM模型是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變種,常用于基于時(shí)間序列模型的預(yù)測(cè)。均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和確定系數(shù)(R2)是常用的預(yù)測(cè)模型評(píng)價(jià)指標(biāo)。
經(jīng)測(cè)試,清洗后的數(shù)據(jù)對(duì)基于LSTM的風(fēng)力發(fā)電機(jī)驅(qū)動(dòng)側(cè)軸承溫度的預(yù)測(cè)效果可以起到促進(jìn)作用。以66號(hào)風(fēng)機(jī)為例,清洗前后的預(yù)測(cè)模型評(píng)價(jià)指標(biāo)變化見(jiàn)表3。由表3可知,清洗后預(yù)測(cè)精度更高。

表3 數(shù)據(jù)清洗前后預(yù)測(cè)評(píng)價(jià)指標(biāo)對(duì)比Table 3 Comparison table of prediction and evaluation indicators before and after data cleaning
風(fēng)功率數(shù)據(jù)曲線的異常數(shù)值點(diǎn)會(huì)對(duì)風(fēng)機(jī)狀態(tài)評(píng)估和性能預(yù)測(cè)產(chǎn)生負(fù)面影響。本文針對(duì)風(fēng)功率曲線散點(diǎn)的分布特征,分析了因棄風(fēng)限電而產(chǎn)生的限功率點(diǎn)的數(shù)值范圍,提出了一種改進(jìn)的OCSVM數(shù)據(jù)清洗方法,設(shè)計(jì)和對(duì)比驗(yàn)證了整個(gè)清洗流程。實(shí)例數(shù)據(jù)測(cè)試結(jié)果表明,本文所提出的方法能夠有效進(jìn)行異常數(shù)據(jù)清洗,對(duì)異常點(diǎn)清洗效率更高,結(jié)果更接近標(biāo)準(zhǔn)風(fēng)功率曲線,用于后續(xù)預(yù)測(cè)效果更好,具有較好的適用性。