劉鈺宸, 安 靜
(上海應(yīng)用技術(shù)大學(xué) 電氣與電子工程學(xué)院,上海 201418)
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,在生產(chǎn)過(guò)程中所需要的電力資源也越來(lái)越多,傳統(tǒng)的火力發(fā)電消耗較多的不可再生能源,能源消耗的問(wèn)題變得更加嚴(yán)重。因此,在世界范圍內(nèi)都在進(jìn)行可再生能源的開(kāi)發(fā)與探索。其中,風(fēng)能是比較容易進(jìn)行利用的一種可再生資源,風(fēng)力發(fā)電機(jī)作為一種風(fēng)力發(fā)電的主要設(shè)備也被廣泛的使用[1]。由于低溫、潮濕和機(jī)械振動(dòng)容易造成風(fēng)力發(fā)電機(jī)葉片的裂紋損傷,在風(fēng)力發(fā)電機(jī)設(shè)備損壞問(wèn)題中,葉片開(kāi)裂問(wèn)題是最為嚴(yán)重的。葉片振動(dòng)產(chǎn)生的彎扭力會(huì)使原有裂紋不斷加深、加長(zhǎng)、擴(kuò)張,最后導(dǎo)致發(fā)電機(jī)葉片開(kāi)裂甚至斷裂。而葉片開(kāi)裂的維修也非常困難,需要托運(yùn)到廠家進(jìn)行維修,維修的費(fèi)用和時(shí)間成本都非常高昂。定期檢測(cè)和預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂情況,是保障運(yùn)轉(zhuǎn)的重要因素。使用機(jī)器學(xué)習(xí)算法對(duì)風(fēng)力發(fā)電機(jī)葉片數(shù)據(jù)進(jìn)行分析具有重要的現(xiàn)實(shí)意義。
在預(yù)測(cè)領(lǐng)域,梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)算法是一種應(yīng)用最為廣泛的預(yù)測(cè)算法,能夠在大部分的預(yù)測(cè)任務(wù)上取得比其他方法更為優(yōu)秀的預(yù)測(cè)結(jié)果。GBDT算法最初由Friedman[2]提出,并將其應(yīng)用于分類(lèi)和回歸任務(wù)。眾多研究人員對(duì)GBDT算法進(jìn)行了研究,其中Chen等[3]提出的XGBoost算法取得了較好的效果。劉宇等[4]將XGBoost算法應(yīng)用于心臟病的預(yù)測(cè),趙洪山等[5]使用XGBoost算法結(jié)合深度自編碼網(wǎng)絡(luò)對(duì)GBDT風(fēng)電機(jī)組發(fā)電機(jī)故障進(jìn)行診斷。
本文針對(duì)XGBoost算法占用較大內(nèi)存,并且訓(xùn)練速度較慢的不足,提出了一種皮爾森相關(guān)性系數(shù)以及模型特征重要性篩選特征結(jié)合基于lightGBM改進(jìn)的GBDT算法。首先對(duì)風(fēng)力發(fā)電機(jī)葉片數(shù)據(jù)進(jìn)行分析,其次,提取較為重要的特征進(jìn)行訓(xùn)練,最后分別使用基于LightGBM的GBDT算法和GBDT算法構(gòu)建預(yù)測(cè)模型,并將這2種模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。
風(fēng)機(jī)葉片開(kāi)裂故障主要是由于共振,主要與風(fēng)力發(fā)電機(jī)的機(jī)械特性有關(guān)[6]。共振的特點(diǎn)是能夠在非常短的時(shí)間內(nèi)對(duì)風(fēng)機(jī)葉片造成巨大破壞[7-9]。但是葉片的數(shù)據(jù)在開(kāi)裂之前都是正常的,只有在發(fā)生故障這段時(shí)間數(shù)據(jù)有異常,所以很多數(shù)據(jù)都是無(wú)效的。因此,需要對(duì)數(shù)據(jù)進(jìn)行特征提取。
由于數(shù)據(jù)是從真實(shí)場(chǎng)景下獲取的,數(shù)據(jù)集不完整,存在少量數(shù)據(jù)缺失,不能直接用于訓(xùn)練,所以本文通過(guò)求最大值、最小值、均值和標(biāo)準(zhǔn)差的方式,同時(shí)進(jìn)行對(duì)數(shù)據(jù)的去空和去噪處理[10],保持訓(xùn)練模型的精準(zhǔn)性等操作對(duì)所選取的數(shù)據(jù)進(jìn)行預(yù)處理。
皮爾森相關(guān)性系數(shù)也稱皮爾森積矩相關(guān)系數(shù),是一種線性相關(guān)系數(shù),能夠體現(xiàn)出變量之間的線性相關(guān)程度,是最常用的一種相關(guān)系數(shù)[11]。運(yùn)用皮爾森相關(guān)性系數(shù)分析風(fēng)力發(fā)電機(jī)運(yùn)行的數(shù)據(jù)特征,確定特征之間是否緊密相關(guān),如果相關(guān)就屬于重復(fù)特征,可以去除,從而降低機(jī)器學(xué)習(xí)數(shù)據(jù)維度,得到更好的模型。
首先,計(jì)算出原始數(shù)據(jù)中的皮爾森相關(guān)性系數(shù),皮爾森相關(guān)性系數(shù)的公式定義如下:
(1)
式中:兩個(gè)連續(xù)變量(X,Y)的皮爾森相關(guān)性系數(shù)PX,Y等于它們之間的協(xié)方差cov(X,Y)除以它們各自標(biāo)準(zhǔn)差σX、σY的乘積。
對(duì)真實(shí)場(chǎng)景下獲得的數(shù)據(jù)集運(yùn)用皮爾森相關(guān)性系數(shù)的方法進(jìn)行分析,對(duì)相關(guān)性較大的數(shù)據(jù)進(jìn)行特征提取。本文取皮爾森相關(guān)性系數(shù)前5的特征,如圖1所示。

圖1 皮爾森相關(guān)性系數(shù)分析
本文使用的是樹(shù)模型,因此可以通過(guò)計(jì)算特征重要性來(lái)進(jìn)行特征提取,特征重要性的計(jì)算方法是,基于單棵樹(shù)計(jì)算每個(gè)特征的重要性,探究每個(gè)特征在每棵樹(shù)上做了多少的貢獻(xiàn),最后再計(jì)算出平均值(見(jiàn)圖2)。
本文通過(guò)基尼指數(shù)計(jì)算特征重要性?;嶂笖?shù)定義如下:
(2)

模型重要性評(píng)分定義如下:
(3)

圖2 模型特征重要性分析

本文取模型相關(guān)性系數(shù)前45的特征。
GBDT算法主要步驟:利用訓(xùn)練數(shù)據(jù)集迭代計(jì)算目標(biāo)與實(shí)際值的殘差,每次更新弱學(xué)習(xí)器參數(shù)最終得到符合要求的強(qiáng)學(xué)習(xí)器,同時(shí)得到擬合出的回歸樹(shù)。預(yù)測(cè)時(shí)將所有樹(shù)的結(jié)果進(jìn)行累計(jì)作為最終的預(yù)測(cè)結(jié)果,即通過(guò)多個(gè)弱學(xué)習(xí)器組成一個(gè)強(qiáng)學(xué)習(xí)器。采用GBDT算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂過(guò)程是先利用風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)集的一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,迭代計(jì)算更新弱分類(lèi)器,最后得到擬合完成的回歸樹(shù),利用剩余的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)驗(yàn)證強(qiáng)學(xué)習(xí)器預(yù)測(cè)準(zhǔn)確度。計(jì)算過(guò)程如下:
設(shè)回歸樹(shù)為
(4)
式中:l(x∈Rj)為指示函數(shù);bj為回歸樹(shù)結(jié)點(diǎn)上的數(shù)值。
定義回歸樹(shù)模型為
(5)
式(5)整理為
(6)
式中,γjm=ρmbjm。
Guo等[12]提出的lightGBM算法是一種新的梯度提升框架,對(duì)于其他的GBDT算法來(lái)說(shuō),基于lightGBM改進(jìn)的GBDT算法,主要2個(gè)關(guān)鍵步驟:① 對(duì)訓(xùn)練樣本數(shù)據(jù)利用數(shù)據(jù)梯度變化和設(shè)定梯度閾值來(lái)進(jìn)行采樣,保證數(shù)據(jù)的同時(shí)減少數(shù)據(jù)以降低計(jì)算量,提高生成的強(qiáng)分類(lèi)器的預(yù)測(cè)準(zhǔn)確率;② 遍歷訓(xùn)練樣本所有特征進(jìn)行特征綁定沖突率計(jì)算,根據(jù)設(shè)定的綁定沖突閾值進(jìn)行特征選擇,對(duì)低于綁定沖突率的特征進(jìn)行獨(dú)立特征合并,使不同維度數(shù)據(jù)合并在一起,由此特征空間有稀疏狀態(tài)變成稠密狀態(tài)。通過(guò)數(shù)據(jù)采樣與獨(dú)立特征合并之后再進(jìn)行初始化弱學(xué)習(xí)器、更新弱分類(lèi)器和生成強(qiáng)學(xué)習(xí)器。通過(guò)以上2個(gè)步驟能夠提高風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)準(zhǔn)確性,同時(shí)具有更快的運(yùn)算速度,更小的內(nèi)存占用,以及更高的效率。
數(shù)據(jù)集T,定義回歸樹(shù)模型為
(7)
損失函數(shù)為
(8)
采用牛頓法對(duì)上式進(jìn)行擬合
(9)
式中:gi為損失函數(shù)的一階梯度;hi為損失函數(shù)的二階梯度。
設(shè)Ij為回歸樹(shù)結(jié)點(diǎn)j上的樣本集合,則上述損失函數(shù)可以變?yōu)?/p>
(10)
式中:ω為權(quán)重;j表示葉節(jié)點(diǎn)數(shù)。求解上式:
(11)
(12)
則得到的最優(yōu)弱學(xué)習(xí)器
(13)
(2)Form=1~M,M為生成樹(shù)的個(gè)數(shù)。
① Fori=1,2,3,…,N。N為訓(xùn)練樣本數(shù)量
(14)
② 計(jì)算梯度、依據(jù)特征梯度劃分?jǐn)?shù)據(jù)集分割數(shù)據(jù)產(chǎn)生節(jié)點(diǎn),Rjm,j=1,2,…,Jm
③ Forj=1,2,3,…,Jm
(15)
xi∈Rjm
④ 更新
(16)
(3)輸出f(x)=fM(x)得到強(qiáng)學(xué)習(xí)器提升回歸樹(shù)。
(4)依據(jù)訓(xùn)練結(jié)果輸入測(cè)試集中風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)中的特征值預(yù)測(cè)未來(lái)風(fēng)力發(fā)電機(jī)發(fā)生葉片開(kāi)裂的可能性。
(1)輸入訓(xùn)練數(shù)據(jù)I,最大梯度d,大梯度采樣比例系數(shù)a,小梯度采樣比例系數(shù)b,初始化損失函數(shù)loss以及弱學(xué)習(xí)器L。

(4)將(3)步獲得的大梯度風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)樣本與小梯度風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)樣本拼接,對(duì)于小梯度樣本乘以fact。
(5)獨(dú)立特征綁定輸入特征F,最大沖突率K,綁定bundles={ }(表示綁定后的合并特征數(shù)組),綁定沖突bundlesConflict={ }(表示每一個(gè)特征綁定后的沖突率組成的數(shù)組)。對(duì)每一個(gè)特征進(jìn)行計(jì)算是否小于綁定沖突,若否需要綁定,運(yùn)行所有特征。最后,合并獨(dú)立特征,輸出合并后的獨(dú)立特征。
(6)通過(guò)將采樣后的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)和獨(dú)立特征合并后的特征輸入原始的GBDT算法進(jìn)行弱學(xué)習(xí)器反復(fù)迭代,最終得到能夠預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂的強(qiáng)學(xué)習(xí)器,并利用25%的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)做葉片開(kāi)裂預(yù)測(cè)與驗(yàn)證。
本文采用的數(shù)據(jù)來(lái)源于國(guó)際電力投資集團(tuán)有限公司,發(fā)布的5萬(wàn)條采集于300臺(tái)風(fēng)力發(fā)電機(jī)連續(xù)兩個(gè)月的運(yùn)行數(shù)據(jù),其中包含風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障30次。風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)共有75個(gè)特征,全部特征如下表1所示。其中,75%的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)(其包含風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障數(shù)據(jù))用來(lái)訓(xùn)練GBDT算法與lightGBM改進(jìn)的GBDT算法的強(qiáng)學(xué)習(xí)器,25%的運(yùn)行數(shù)據(jù)用來(lái)做風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)驗(yàn)證。
對(duì)訓(xùn)練數(shù)據(jù)集分別采用了GBDT算法與lightGBM改進(jìn)的GBDT算法進(jìn)行訓(xùn)練,通過(guò)初始化殘差生成弱學(xué)習(xí)器,計(jì)算殘差尋找最佳劃分點(diǎn)并利用數(shù)據(jù)特征劃分?jǐn)?shù)據(jù)生成葉子節(jié)點(diǎn),之后更新弱學(xué)習(xí)器反復(fù)迭代最終獲得具有預(yù)測(cè)能力的強(qiáng)學(xué)習(xí)器。但由于兩種算法的差異使得訓(xùn)練數(shù)據(jù)時(shí)的計(jì)算量、風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)結(jié)果出現(xiàn)不同。風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)采用GBDT算法預(yù)測(cè)時(shí),由于該算法不進(jìn)行數(shù)據(jù)與特征處理,使用所有特征數(shù)據(jù)進(jìn)行全局弱學(xué)習(xí)器更新使得計(jì)算量非常大,具有75個(gè)特征的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)在一棵樹(shù)一次迭代時(shí)計(jì)算次數(shù)至少需要275以上,生成數(shù)量龐大的葉子節(jié)點(diǎn),進(jìn)行多棵樹(shù)多次運(yùn)行數(shù)據(jù)迭代后計(jì)算量將更大。

表1 風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)特征列表
基于lightGBM改進(jìn)的GBDT算法在第一次弱學(xué)習(xí)器迭代前,首先利用風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)中樣本的梯度與初始化后產(chǎn)生的誤差對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行采樣,對(duì)運(yùn)行數(shù)據(jù)中梯度絕對(duì)值大的保留,梯度絕對(duì)值小的數(shù)據(jù)集采樣一部分子集,同時(shí)給該數(shù)據(jù)子集權(quán)重,使得這部分子集能夠近似代替梯度小的數(shù)據(jù)全集,采樣后的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)集不會(huì)丟失梯度大的訓(xùn)練樣本,不改變樣本數(shù)據(jù)的分布狀態(tài),同時(shí)能夠減少訓(xùn)練樣本數(shù)量和降低計(jì)算量,訓(xùn)練速度大大加快。采用基于lightGBM改進(jìn)的GBDT算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂的另一優(yōu)勢(shì)在于該算法能夠降低特征維度,對(duì)于具有75個(gè)特征的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)其特征空間是稀疏的,利用算法的獨(dú)立特征合并能夠使不同維度數(shù)據(jù)合并在一起,使特征空間有稀疏狀態(tài)變成稠密狀態(tài),進(jìn)行了數(shù)據(jù)采樣與獨(dú)立特征合并之后進(jìn)行GBDT算法初始化弱學(xué)習(xí)器、更新弱分類(lèi)器和生成強(qiáng)學(xué)習(xí)器,最后使用剩余風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)預(yù)測(cè)葉片開(kāi)裂,驗(yàn)證預(yù)測(cè)結(jié)果。
圖3所示為GBDT算法與基于lightGBM改進(jìn)的GBDT算法進(jìn)行第一次迭代前輸入弱學(xué)習(xí)器的數(shù)據(jù)量,經(jīng)過(guò)采樣后數(shù)據(jù)量減少,因此更新弱學(xué)習(xí)器時(shí)輸入樣本減少,計(jì)算量降低。

圖3 基于lightGBM改進(jìn)的GBDT算法對(duì)輸入樣本采樣后數(shù)據(jù)與GBDT算法輸入樣本數(shù)據(jù)量對(duì)比

圖4 基于lightGBM改進(jìn)的GBDT算法對(duì)輸入樣本特征與GBDT算法輸入樣本特征對(duì)比
圖4所示為GBDT算法與基于lightGBM改進(jìn)的GBDT算法更新迭代弱學(xué)習(xí)器前特征數(shù)量對(duì)比,通過(guò)獨(dú)立特征合并使得特征數(shù)量減少。圖中基于lightGBM改進(jìn)的GBDT算法的特征合并后數(shù)量降為30個(gè)特征大大減少了計(jì)算葉子結(jié)點(diǎn)時(shí)最佳劃分點(diǎn)的計(jì)算消耗,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)合并的的特征中輪轂轉(zhuǎn)速和角度、葉片1、2、3角度、變槳電機(jī)1、2、3電流、x、y方向振動(dòng)值、機(jī)艙氣象站風(fēng)速、大氣壓力、風(fēng)向絕對(duì)值、無(wú)功功率控制狀態(tài)、額定的輪轂轉(zhuǎn)速、機(jī)艙氣象站風(fēng)速、變頻器電網(wǎng)側(cè)電流、電壓、有功功率、無(wú)功率、變頻器入口、出口溫度,入口、出口壓力等被分類(lèi)合并,而與溫度相關(guān)的測(cè)風(fēng)塔環(huán)境溫度發(fā)電機(jī)定子1、2、3、4、5、6溫度、發(fā)電機(jī)空氣溫度、主軸承溫度、機(jī)艙、控制柜溫度、變頻器INU、ISU溫度等特征沒(méi)有被合并,這說(shuō)明被合并的特征相互之間相關(guān)性小,相互獨(dú)立,未被合并的特征相互之間相關(guān)性大。對(duì)于功率轉(zhuǎn)矩電流電壓等特征是相互產(chǎn)生影響,而風(fēng)力發(fā)電機(jī)處于開(kāi)放空間中由于熱傳導(dǎo)的原因距離較近的多臺(tái)設(shè)備,其溫度必然會(huì)相互影響溫度,進(jìn)而在測(cè)量得到的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)中相互關(guān)聯(lián)。
表2中對(duì)比了采用2種算法對(duì)風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)中用于訓(xùn)練的數(shù)據(jù)集,進(jìn)行預(yù)測(cè)驗(yàn)證,2種算法都具有非常高的準(zhǔn)確率,將訓(xùn)練數(shù)據(jù)集中的22處風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障準(zhǔn)確檢測(cè)。這表明通過(guò)兩種算法訓(xùn)練的弱學(xué)習(xí)器和強(qiáng)學(xué)習(xí)器具有基本的預(yù)測(cè)能力,之后將訓(xùn)練得到的2個(gè)強(qiáng)學(xué)習(xí)器用于風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)的剩余數(shù)據(jù)集驗(yàn)證,檢測(cè)強(qiáng)學(xué)習(xí)器預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂的能力。
表2 采用GBDT算法與基于lightGBM改進(jìn)的GBDT算法在風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)訓(xùn)練集中預(yù)測(cè)結(jié)果
Tab.2 GBDT algorithm and improved GBDT algorithm based on lightGBM are used to predict the results of wind turbine operation data training set

算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障/次數(shù)驗(yàn)證訓(xùn)練樣本風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障/次數(shù)GBDT算法2222lightGBM改進(jìn)的GBDT算法2222
由表3、表4可以得到對(duì)于含有相同的葉片開(kāi)裂故障的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)集,2種算法的預(yù)測(cè)結(jié)果有較大差異。基于lightGBM改進(jìn)的GBDT算法的算法預(yù)測(cè)效果顯著優(yōu)于未改進(jìn)的GBDT算法,這說(shuō)明對(duì)風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)進(jìn)行采樣和獨(dú)立特征合并不僅提高了計(jì)算速度,而且利用部分特征之間的互斥性在降低特征維度的同時(shí)提高了風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)的準(zhǔn)確性。但基于lightGBM改進(jìn)的GBDT算法仍然不能完全預(yù)測(cè)出風(fēng)力發(fā)電機(jī)葉片開(kāi)裂,這是由于在采樣系數(shù)的選擇中,對(duì)于大梯度和小梯度選擇的取舍,小梯度的系數(shù)過(guò)于小會(huì)造成數(shù)據(jù)集中丟失一部分有用信息,大梯度系數(shù)太大會(huì)造成數(shù)據(jù)集中包含的特征過(guò)于集中于某些特征丟失一些特征信息。獨(dú)立特征合并時(shí)也會(huì)造成一些信息損失,對(duì)于選取合適的最大沖突率,使得特征合并適量也非常重要。對(duì)于不同的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)其參數(shù)設(shè)置往往不同。因此,基于lightGBM改進(jìn)的GBDT算法采樣系數(shù)、最大沖突率參數(shù)選擇十分關(guān)鍵。GBDT算法沒(méi)有進(jìn)行數(shù)據(jù)采樣以及獨(dú)立特征合并,但預(yù)測(cè)能力較低的重要原因,一方面是由于未進(jìn)行獨(dú)立特征合并不能充分發(fā)揮特征特性,另一方面是由于對(duì)于風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)問(wèn)題,所采集的數(shù)據(jù)并不能夠非常完整的描述風(fēng)力發(fā)電機(jī)運(yùn)行狀態(tài)特征,使得不同的葉片開(kāi)裂時(shí)所具有的真實(shí)特征不一致,用于GBDT算法與基于lightGBM改進(jìn)的GBDT算法不能從獲得的風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)中分析出另外特殊情況下風(fēng)力發(fā)電機(jī)葉片開(kāi)裂的故障。這是預(yù)測(cè)算法必須面臨的問(wèn)題,在風(fēng)力發(fā)電機(jī)運(yùn)行數(shù)據(jù)訓(xùn)練集中從來(lái)為出現(xiàn)的葉片開(kāi)裂狀況,是不能準(zhǔn)確預(yù)測(cè)到的只能表示葉片開(kāi)裂發(fā)生的可能性。
表3 采用GBDT算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂情況以及樣本驗(yàn)證
Tab.3 The wind turbine blade cracking and sample verification were predicted by GBDT algorithm

數(shù)據(jù)索引編號(hào)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂與否驗(yàn)證樣本風(fēng)力發(fā)電機(jī)葉片開(kāi)裂數(shù)據(jù)索引編號(hào)預(yù)測(cè)正確與否21100開(kāi)裂21100正確23232開(kāi)裂23232正確無(wú)未檢測(cè)數(shù)出25002錯(cuò)誤25890開(kāi)裂25890正確無(wú)未檢測(cè)出26785錯(cuò)誤無(wú)未檢測(cè)出32106錯(cuò)誤43567開(kāi)裂43567正確48982開(kāi)裂48982正確
表4 采用基于lightGBM改進(jìn)的GBDT算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂以及樣本驗(yàn)證
Tab.4 The wind turbine blade cracking and sample verification were predicted by the improved GBDT algorithm based on lightGBM

數(shù)據(jù)索引編號(hào)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂與否驗(yàn)證樣本風(fēng)力發(fā)電機(jī)葉片開(kāi)裂數(shù)據(jù)索引編號(hào)預(yù)測(cè)正確與否21100開(kāi)裂21100正確無(wú)未檢測(cè)數(shù)出23232錯(cuò)誤25002開(kāi)裂25002正確25890開(kāi)裂25890正確26785開(kāi)裂26785正確32106開(kāi)裂32106正確43567開(kāi)裂43567正確48982開(kāi)裂48982正確
本文采用F1-score進(jìn)行模型的評(píng)價(jià)
(17)
式中:P表示精準(zhǔn)度;R表示召回率;F1-score表示預(yù)測(cè)的準(zhǔn)確度其值在0~1之間。
本文采用了GBDT算法和基于lightGBM改進(jìn)的GBDT算法,并對(duì)這2種算法預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片是否開(kāi)裂的結(jié)果進(jìn)行了比較,如表5所示。由表5得出GBDT算法預(yù)測(cè)的風(fēng)力發(fā)電機(jī)葉片開(kāi)裂準(zhǔn)確性低于基于lightGBM改進(jìn)的GBDT算法。未改進(jìn)的GBDT算法對(duì)于風(fēng)力發(fā)電價(jià)葉片開(kāi)裂預(yù)測(cè)準(zhǔn)確性只有62.3%,而基于lightGBM改進(jìn)的GBDT算法對(duì)于風(fēng)力發(fā)電價(jià)葉片開(kāi)裂預(yù)測(cè)準(zhǔn)確性達(dá)到了87.5%,其具有更高的可信度。
表5 變參數(shù)模型參數(shù)點(diǎn)選取
Tab.5 Select parameter points of the variable parameter model

算法F1-scoreGBDT0.625基于lightGBM改進(jìn)的GBDT0.875
本文通過(guò)使用基于lightGBM改進(jìn)的梯度提升決策樹(shù)算法與lightGBM梯度提升決策樹(shù)算法,建立了風(fēng)力發(fā)電機(jī)葉片開(kāi)裂預(yù)測(cè)模型。對(duì)采集于風(fēng)力發(fā)電機(jī)的運(yùn)行數(shù)據(jù)進(jìn)行分析準(zhǔn)確預(yù)測(cè)出了風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障。同時(shí),將lightGBM梯度提升決策樹(shù)算法和基于lightGBM改進(jìn)的梯度提升決策樹(shù)算法建立的預(yù)測(cè)模型進(jìn)行了比較,預(yù)測(cè)結(jié)果表明,基于lightGBM改進(jìn)的梯度提升決策樹(shù)算法的模型擁有得更好的預(yù)測(cè)性能,能夠?yàn)轱L(fēng)力發(fā)電機(jī)開(kāi)裂提供較為準(zhǔn)確的預(yù)測(cè)信息。采用基于lightGBM改進(jìn)的梯度提升決策樹(shù)算法通過(guò)對(duì)樣本數(shù)據(jù)的采樣,刪減了樣本中梯度變化較小的樣本,從而降低了樣本數(shù)量,此外,對(duì)于每一個(gè)特征該算法計(jì)算特征之間的相關(guān)性,對(duì)相關(guān)性小的相互獨(dú)立的特征進(jìn)行捆綁,使得劃分點(diǎn)特征數(shù)量減少降低計(jì)算量的同時(shí)能夠提高風(fēng)力發(fā)電機(jī)預(yù)測(cè)的準(zhǔn)確性。但基于lightGBM改進(jìn)的梯度提升決策樹(shù)算法并不能每次都完全預(yù)測(cè)風(fēng)力發(fā)電機(jī)葉片開(kāi)裂故障,因?yàn)閷?duì)于預(yù)測(cè)問(wèn)題始終存在訓(xùn)練樣本是否完全包含風(fēng)力發(fā)電機(jī)葉片開(kāi)裂的所有相關(guān)特征,顯然在現(xiàn)實(shí)環(huán)境中不可能滿足?;趌ightGBM改進(jìn)的梯度提升決策樹(shù)算法也存在樣本采樣時(shí)的最小梯度選取、獨(dú)立特征合并時(shí)最大沖突率選取等問(wèn)題需要完善。
應(yīng)用技術(shù)學(xué)報(bào)2020年1期