祁煒雯,張 俊,吳 洋,范 強(qiáng),趙 峰,陳建國(guó),王 健
(1. 國(guó)網(wǎng)浙江省電力有限公司紹興供電公司,浙江 紹興 312362;2. 國(guó)網(wǎng)浙江省電力有限公司,杭州 310007;3. 河海大學(xué) 能源與電氣學(xué)院,南京 211100)
在“雙碳”目標(biāo)下,傳統(tǒng)電力系統(tǒng)將向以新能源為主體的新型電力系統(tǒng)轉(zhuǎn)變,光伏發(fā)電將成為未來(lái)電源結(jié)構(gòu)中的重要主體。截至2023年2月底,全國(guó)累計(jì)發(fā)電裝機(jī)容量約26.0 億kW,同比增長(zhǎng)8.5%。其中,風(fēng)電裝機(jī)容量約3.7億kW,同比增長(zhǎng)11.0%;太陽(yáng)能發(fā)電裝機(jī)容量約4.1 億kW,同比增長(zhǎng)30.8%。2023 年1—2 月份,全國(guó)主要發(fā)電企業(yè)電源工程完成投資676 億元,同比增長(zhǎng)43.6%。其中,核電87 億元,同比增長(zhǎng)44.8%;太陽(yáng)能發(fā)電283億元,同比增長(zhǎng)199.9%[1]。
光伏發(fā)電是實(shí)現(xiàn)“雙碳”目標(biāo)的重要手段。在光伏發(fā)電迅猛發(fā)展的同時(shí),其運(yùn)行安全問(wèn)題愈發(fā)凸顯。若故障處理不及時(shí),極易導(dǎo)致光伏面板、匯流箱燒毀,造成經(jīng)濟(jì)損失,威脅站內(nèi)人員安全??焖贆z測(cè)光伏電站是否發(fā)生故障以及精準(zhǔn)診斷故障類型對(duì)于光伏供電系統(tǒng)安全可靠運(yùn)行至關(guān)重要。現(xiàn)有光伏故障診斷方法大致包括紅外圖像診斷法、數(shù)學(xué)模型診斷法和人工智能診斷法。文獻(xiàn)[2-4]基于紅外成像原理,提出自動(dòng)檢測(cè)光伏熱斑的方法,提高了熱斑故障診斷的自動(dòng)化水平,但此類方法過(guò)分依賴紅外設(shè)備的精密程度,成本較高且僅能診斷單一故障類型。文獻(xiàn)[5-8]基于數(shù)學(xué)模型診斷法實(shí)現(xiàn)了光伏電站故障診斷,該方法僅需提供光伏運(yùn)行數(shù)據(jù),不依賴于價(jià)格高昂的紅外檢測(cè)設(shè)備,但是診斷效果依賴模型的精準(zhǔn)性。文獻(xiàn)[9-13]基于人工智能技術(shù),采用數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)現(xiàn)光伏電站故障的精確診斷,此類方法既避免了紅外圖像法高昂的設(shè)備費(fèi)用,又彌補(bǔ)了數(shù)學(xué)模型診斷法難以在線應(yīng)用的問(wèn)題,但其高度依賴數(shù)據(jù),存在過(guò)擬合問(wèn)題。
人工智能診斷法憑借使用成本低、診斷精準(zhǔn)的優(yōu)點(diǎn)逐漸成為故障診斷的主流方法。文獻(xiàn)[14]提出了基于1D-CAE(一維卷積自動(dòng)編碼器)的故障診斷方法,1D-CAE 通過(guò)高維信號(hào)的降噪來(lái)學(xué)習(xí)分層特征,與卷積核和池化單元集成的自動(dòng)編碼器使特征提取特別有效,這對(duì)于多變量的故障檢測(cè)和診斷具有重要意義。文獻(xiàn)[15]提出基于1DCNN-BiLSTM算法的電力電纜故障診斷模型,基于CNN(卷積神經(jīng)網(wǎng)絡(luò))和LSTM(長(zhǎng)短期記憶)的特征提取能力實(shí)現(xiàn)多類型故障的準(zhǔn)確識(shí)別,但并未解決電力電纜故障數(shù)據(jù)與正常數(shù)據(jù)之間的平衡問(wèn)題。文獻(xiàn)[16]提出一種基于數(shù)據(jù)增強(qiáng)型CNN的變壓器故障診斷方法,通過(guò)改進(jìn)變分自編碼器生成變壓器故障數(shù)據(jù),再借助改進(jìn)的CNN實(shí)現(xiàn)變壓器故障診斷。該方法通過(guò)模型生成故障數(shù)據(jù),在一定程度上解決了故障診斷中存在的類不平衡問(wèn)題。但是由于模型生成的故障數(shù)據(jù)可能根本不存在,基于不存在的樣本數(shù)據(jù)訓(xùn)練得到的模型準(zhǔn)確性有待考證。文獻(xiàn)[17]提出了一種基于電壓電流量測(cè)的SSLN(半監(jiān)督階梯網(wǎng)絡(luò))光伏故障診斷模型,利用少量標(biāo)記樣本訓(xùn)練SSLN故障診斷模型,實(shí)現(xiàn)對(duì)線間故障、開路故障的診斷。文獻(xiàn)[18]提出一種基于CatBoost 算法的光伏陣列故障診斷方法,CatBoost 算法能高效處理光伏陣列故障類別特征,提高故障診斷的準(zhǔn)確率。但是該算法仍沒(méi)有在本質(zhì)上改變樣本的類不平衡問(wèn)題,并且Boost算法采用串行框架,模型訓(xùn)練花費(fèi)的時(shí)間成本較高。
上述人工智能算法在電力系統(tǒng)故障診斷領(lǐng)域取得了一定的成果,但仍存在不足。對(duì)光伏電站運(yùn)行故障診斷而言,正常運(yùn)行狀態(tài)的樣本數(shù)據(jù)要遠(yuǎn)多于故障運(yùn)行狀態(tài)的樣本數(shù)據(jù),這種類不平衡問(wèn)題會(huì)導(dǎo)致模型更傾向于學(xué)習(xí)樣本類型占比更大的樣本特性。同時(shí),單個(gè)基學(xué)習(xí)器模型學(xué)習(xí)深度有限,對(duì)特征較為相似的運(yùn)行故障誤判率較高。
針對(duì)目前人工智能算法在光伏電站故障診斷問(wèn)題上的不足,本文提出了一種基于隨機(jī)欠采樣BP-Bagging 算法的光伏電站故障診斷方法,借助BP(反向傳播)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)多故障類型的診斷識(shí)別,基于Bagging框架搭建并行故障學(xué)習(xí)網(wǎng)絡(luò),克服單個(gè)網(wǎng)絡(luò)模型存在的過(guò)擬合問(wèn)題,用隨機(jī)欠采樣替換原Bagging中的采樣方法,在保證樣本數(shù)據(jù)真實(shí)性的前提下,均衡樣本不平衡度,提高模型的故障診斷效果。
Bagging算法是應(yīng)用最為廣泛的集成學(xué)習(xí)算法之一,其基本思想是將多個(gè)不同的弱學(xué)習(xí)器按照一定規(guī)則組成強(qiáng)學(xué)習(xí)器,以提高模型的準(zhǔn)確性。其特點(diǎn)是可并行計(jì)算,降低弱學(xué)習(xí)算法的不穩(wěn)定性,從而改善整個(gè)模型的泛化能力[19-20]。
Bagging算法的基本流程:采樣出T個(gè)含m個(gè)訓(xùn)練樣本的采樣集,然后基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。對(duì)分類任務(wù)使用簡(jiǎn)單投票法,對(duì)回歸任務(wù)使用簡(jiǎn)單平均法。若分類預(yù)測(cè)時(shí)出現(xiàn)兩個(gè)類收到同樣票數(shù)的情形,最簡(jiǎn)單的做法是隨機(jī)選擇一個(gè),大多情況下將T設(shè)置為奇數(shù)。
圖1 為Bagging 方法的框架示意圖,圖中給出了Bagging方法的形象表達(dá):首先對(duì)訓(xùn)練集隨機(jī)抽樣,形成多個(gè)存在數(shù)據(jù)特征差異的訓(xùn)練子集;然后基于各個(gè)子集訓(xùn)練基學(xué)習(xí)器(基模型);最后對(duì)各個(gè)基模型的預(yù)測(cè)結(jié)果進(jìn)行綜合,得到最終的綜合預(yù)測(cè)結(jié)果。

圖1 Bagging方法框架示意圖Fig.1 Framework diagram of Bagging method
Bagging方法具有以下優(yōu)勢(shì):
1)可以降低模型方差。使用不同子樣本訓(xùn)練出多個(gè)弱分類器,并將它們進(jìn)行整合,可以減少模型方差和過(guò)擬合現(xiàn)象。
2)并行計(jì)算效率高。每一個(gè)基礎(chǔ)模型可以并行地訓(xùn)練、測(cè)試和預(yù)測(cè),因此Bagging具有較高的計(jì)算效率。
3)通用性強(qiáng)。在各種機(jī)器學(xué)習(xí)任務(wù)中都表現(xiàn)良好,特別適用于易受噪聲影響或容易過(guò)擬合的模型。
4)對(duì)異常值具有魯棒性。由于采取隨機(jī)抽樣方式生成多組數(shù)據(jù)集,因此能有效處理極端值問(wèn)題。
對(duì)于某些分類問(wèn)題,尤其是故障診斷問(wèn)題,其樣本數(shù)據(jù)分布存在明顯的類不平衡特點(diǎn)。正常運(yùn)行狀態(tài)的樣本總是占總體樣本量的絕大多數(shù),而各種故障狀態(tài)的樣本數(shù)量較少,這在很大程度上會(huì)促使模型過(guò)度學(xué)習(xí)正常運(yùn)行狀態(tài)的樣本特征,致使模型會(huì)將“故障”誤判為“正常”。
對(duì)此,在改進(jìn)Bagging方法中引入了并行隨機(jī)欠采樣方法,以此均衡訓(xùn)練集中各類數(shù)據(jù)集的占比。本文參考文獻(xiàn)[21]中提出的隨機(jī)欠采樣方法,具體如圖2 所示,使用隨機(jī)欠采樣步驟取代原Bagging方法中的并行隨機(jī)采樣步驟,通過(guò)降低對(duì)原數(shù)據(jù)集中多數(shù)樣本的采樣頻率,緩解原數(shù)據(jù)集的類不平衡問(wèn)題,從而有效提升模型對(duì)少數(shù)樣本的學(xué)習(xí)效率,提高模型的準(zhǔn)確率。

圖2 隨機(jī)欠采樣方法示意圖Fig.2 Schematic diagram of the random under-sampling method
不同于過(guò)采樣方法易引入錯(cuò)誤的樣本,從而損害少數(shù)樣本的學(xué)習(xí)效果[22],欠采樣方法通過(guò)削減多數(shù)樣本的比例,間接提高少數(shù)樣本的占比,從而起到均衡樣本分布的作用。
假設(shè)重采樣數(shù)據(jù)集的大小為S,其中S≤NP×2,NP為多數(shù)集P 的大小。從多數(shù)集P和少數(shù)集N中隨機(jī)抽取樣本,放入新的訓(xùn)練數(shù)據(jù)集D[23]。為了確保訓(xùn)練的每個(gè)子集Di都是相對(duì)獨(dú)立的,并且盡可能多地覆蓋原始集的樣本,引入重疊率概念。
給定兩個(gè)數(shù)據(jù)集D1和D2,大小為m,mS是兩個(gè)數(shù)據(jù)集中相同樣本的個(gè)數(shù),D1和D2的重疊率為:
設(shè)置閾值RT限制每個(gè)子集的重疊率:
將欠采樣方法與Bagging方法相結(jié)合,得到改進(jìn)Bagging 方法,如圖3 所示。改進(jìn)Bagging 方法采用并行隨機(jī)欠采樣,將訓(xùn)練集分為多個(gè)子集,基于各個(gè)子集進(jìn)行模型訓(xùn)練,最終統(tǒng)計(jì)各個(gè)模型輸出結(jié)果,按票數(shù)多少輸出模型最終的評(píng)估結(jié)果。隨機(jī)欠采樣方法可以改善樣本集的類均衡性,Bagging提高了模型整體的穩(wěn)定性和魯棒性。

圖3 改進(jìn)Bagging方法示意圖Fig.3 Framework diagram of the enhanced Bagging method
設(shè)ht表示第t個(gè)學(xué)習(xí)器的輸出;Ⅱ(·)表示指示函數(shù),在·為真和假時(shí)分別取值1 和0。則基于隨機(jī)欠采樣的Bagging算法代碼實(shí)現(xiàn)如下:
輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym};基學(xué)習(xí)器算法ζ;訓(xùn)練輪數(shù)T。
for t=1,2,…,T do
采用隨機(jī)欠采樣方法從數(shù)據(jù)集D中抽取子訓(xùn)練集Drus
end
如圖4所示,光伏面板由線路串并聯(lián)組成光伏發(fā)電陣列,經(jīng)由匯流箱、逆變器、變壓器與電網(wǎng)并聯(lián)。光伏電站內(nèi)具備相應(yīng)的數(shù)據(jù)采集設(shè)備,能夠采集光伏發(fā)電相關(guān)數(shù)據(jù),如光照幅度、氣溫、氣壓、空氣濕度、各光伏串列直流側(cè)電壓電流、逆變器側(cè)電壓電流等。光伏電站一般建設(shè)在光照充裕的室外,受自然條件的影響較大,工作環(huán)境較為惡劣,因此光伏電站時(shí)常出現(xiàn)故障,其中光伏面板發(fā)生故障的概率最高,主要故障類型包括:冰雹碎石撞擊光伏電池板造成面板短路、斷路,長(zhǎng)時(shí)間暴曬、雨水侵蝕使發(fā)電組件老化,沙塵污穢遮擋使得面板出現(xiàn)熱斑。基于站內(nèi)數(shù)據(jù)資源驅(qū)動(dòng)人工智能模型實(shí)現(xiàn)光伏電站的故障診斷是本文的研究重心。

圖4 光伏電站故障診斷示意圖Fig.4 Schematic diagram of PV power plant fault diagnosis
假設(shè)對(duì)任意一個(gè)光伏電站,可以采集到第i組光伏組串?dāng)?shù)據(jù)Xi=[Ai1,…,Aij,…,Aim]T,其中Aij表示第i組光伏組串第j個(gè)面板的運(yùn)行狀態(tài)向量。Aij=[E0ij,EDij,ESij,Tij,Hij,Pij],其中,E0ij表示第i個(gè)組串第j個(gè)面板的總輻照度;EDij表示第i個(gè)組串第j個(gè)面板的直射輻照度;ESij表示第i個(gè)組串第j個(gè)面板的散射輻照度;Tij表示第i個(gè)組串第j個(gè)面板的溫度;Hij表示第i個(gè)組串第j個(gè)面板的相對(duì)濕度;Pij表示第i個(gè)組串第j個(gè)面板的輸出有功功率。
由于各類數(shù)據(jù)的量綱和量級(jí)存在差異,需要對(duì)這些數(shù)據(jù)進(jìn)行歸一化處理。按照同類物理屬性進(jìn)行歸一化處理[24]:
式中:xmax表示光伏電站某類發(fā)電數(shù)據(jù)的最大值;xmin表示光伏電站某類發(fā)電數(shù)據(jù)的最小值。
搭建用于分類的人工神經(jīng)網(wǎng)絡(luò),選用ReLU函數(shù)作為隱藏層激活函數(shù),避免梯度消失的問(wèn)題;選用softmax函數(shù)作為輸出層激活函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)的多分類功能[25]。
ReLU函數(shù)其實(shí)是分段線性函數(shù),把所有的負(fù)值都變?yōu)?,而正值不變,這種操作被稱為單側(cè)抑制。
對(duì)維數(shù)為k的任意實(shí)向量,softmax 函數(shù)都可以將其壓縮為相同維數(shù)、值在[0,1]范圍內(nèi)、向量元素總和為1的實(shí)向量:
將神經(jīng)網(wǎng)絡(luò)內(nèi)部按照不同功能劃分為輸入層、隱含層和輸出層,圖5 為典型的BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

圖5 典型的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Typical structure diagram of BP neural network
X為輸入列向量,xi為第i行元素;W為權(quán)重矩陣,具體地,某個(gè)元素可以用wf,ij表示,下標(biāo)f表示對(duì)應(yīng)層,下標(biāo)ij表示本層i節(jié)點(diǎn)與下層j節(jié)點(diǎn)連接關(guān)系;Y為輸出列向量,yi為第i行元素;∑為求和符號(hào);φi為隱含層第i個(gè)神經(jīng)元激活函數(shù);?i為輸出層第i個(gè)神經(jīng)元激活函數(shù);θi為隱含層第i個(gè)神經(jīng)元閾值;bi為輸出層第i個(gè)神經(jīng)元閾值;N、M、K分別表示輸入數(shù)據(jù)維度、隱含層神經(jīng)元個(gè)數(shù)和輸出層神經(jīng)元個(gè)數(shù)。
神經(jīng)網(wǎng)絡(luò)借助大量的隱含層神經(jīng)元進(jìn)行數(shù)據(jù)流處理和網(wǎng)絡(luò)訓(xùn)練。不失一般性,以圖5中單個(gè)神經(jīng)元為例,簡(jiǎn)要介紹神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)流處理過(guò)程。
假設(shè)隱含層第i個(gè)神經(jīng)元輸出為oi,由圖5 可知第i個(gè)神經(jīng)元輸出如式(7)所示:
同理,可以推導(dǎo)出輸出層第i個(gè)神經(jīng)元輸出為:
為進(jìn)一步降低模型誤判風(fēng)險(xiǎn),提升模型性能,本文采用集成學(xué)習(xí)框架,利用Bagging方法實(shí)現(xiàn)單個(gè)BP模型的并行建模。對(duì)于光伏電站故障分類問(wèn)題,樣本不均衡問(wèn)題依然存在,如若不解決,那么經(jīng)過(guò)Bagging后的模型將會(huì)進(jìn)一步放大由樣本不均衡導(dǎo)致的模型故障診斷正確率低的問(wèn)題。本文提出的改進(jìn)Bagging方法恰當(dāng)?shù)亟鉀Q了此問(wèn)題。
對(duì)于光伏故障診斷問(wèn)題,假設(shè)每個(gè)基學(xué)習(xí)器的診斷錯(cuò)誤率為ε,那么對(duì)每個(gè)基學(xué)習(xí)器ht有:
結(jié)合T個(gè)基學(xué)習(xí)器的故障診斷結(jié)果,采用投票法得到最終診斷結(jié)果。當(dāng)有超過(guò)T/2的基學(xué)習(xí)器給出正確的故障診斷結(jié)果時(shí),則該集成模型正確:
假設(shè)每個(gè)基學(xué)習(xí)器相互獨(dú)立,則集成模型的錯(cuò)誤率為:
式中:[·]表示取整運(yùn)算;CkT表示從T個(gè)學(xué)習(xí)器中取出k個(gè)學(xué)習(xí)器的組合數(shù)。
對(duì)式(11)進(jìn)行縮放:
顯然,隨著T的增多,Bagging集成模型的診斷錯(cuò)誤率將呈指數(shù)下降。表1給出了基學(xué)習(xí)器錯(cuò)誤率為0.4的條件下,集成模型錯(cuò)誤率與基學(xué)習(xí)器數(shù)量的關(guān)系。

表1 模型錯(cuò)誤率與基學(xué)習(xí)器數(shù)量之間關(guān)系Table 1 Relationship between model error rate and the number of base learners
由表1可知,隨著基學(xué)習(xí)器個(gè)數(shù)的增加,集成模型的錯(cuò)誤率呈指數(shù)下降。
如圖6所示,光伏電站的運(yùn)行數(shù)據(jù)經(jīng)由設(shè)備采集、數(shù)據(jù)預(yù)處理后再打包制作成模型訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集樣本特征為正常運(yùn)行樣本占絕大數(shù)、故障運(yùn)行樣本占少數(shù)。利用并行隨機(jī)欠采樣方法,得到數(shù)組類平衡訓(xùn)練集,將每組數(shù)據(jù)集都作為BP模型的訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練BP模型,累計(jì)每個(gè)BP模型的故障診斷結(jié)果,按照投票法得到最終診斷結(jié)果。

圖6 基于改進(jìn)BP-Bagging的光伏電站故障診斷方法示意圖Fig.6 Schematic diagram of PV plant fault diagnosis method based on an enhanced BP-Bagging
基于Pytorch平臺(tái)進(jìn)行模型訓(xùn)練,選用數(shù)據(jù)集樣本數(shù)量為1 373 798 條,將其劃分為訓(xùn)練集和測(cè)試集兩部分,各占總體樣本的85%和15%。設(shè)置訓(xùn)練循環(huán)次數(shù)為100 次,并行的BP 網(wǎng)絡(luò)為51 個(gè),記錄并分析訓(xùn)練過(guò)程中每個(gè)BP模型產(chǎn)生的誤差函數(shù)值和診斷準(zhǔn)確率。訓(xùn)練誤差函數(shù)值和診斷準(zhǔn)確率如圖7所示。

圖7 模型訓(xùn)練誤差值與準(zhǔn)確率Fig.7 Model training error values and accuracy rates
圖7中,每個(gè)點(diǎn)的數(shù)據(jù)都是所有BP 模型產(chǎn)生的誤差函數(shù)值或是診斷準(zhǔn)確率的平均值。圖中藍(lán)色線條和橘紅色線條分別代表51 個(gè)子模型的平均診斷準(zhǔn)確率和平均誤差值。藍(lán)、橘兩條曲線呈明顯的“此消彼長(zhǎng)”特性,這是符合客觀規(guī)律的,隨著模型訓(xùn)練次數(shù)的增加,模型愈發(fā)精準(zhǔn),準(zhǔn)確率提升,誤差降低。對(duì)于本文所用算例模型,模型大約在第20 次訓(xùn)練后趨于收斂,因此可以設(shè)置訓(xùn)練次數(shù)為20 次作為模型訓(xùn)練終止的條件,以提高時(shí)間利用效率。
完成訓(xùn)練后,將模型應(yīng)用于測(cè)試集,對(duì)其性能進(jìn)行測(cè)試,得到結(jié)果如圖8所示。

圖8 模型測(cè)試準(zhǔn)確率Fig.8 Model test accuracies
圖8中,模型在測(cè)試集上的準(zhǔn)確率介于97%~100%,表2 中給出了所提模型在測(cè)試集上的準(zhǔn)確率,其值為99.71%。圖8 中子模型平均準(zhǔn)確率約為98.2%,與99.71%有著明顯差距,這正是由于Bagging方法的集成效果,實(shí)現(xiàn)了整體大于個(gè)體之和的突破。

表2 各算法分類評(píng)價(jià)指標(biāo)結(jié)果Table 2 Results of classification and evaluation indicators of the algorithms%
3.2.1 二分類算法評(píng)價(jià)指標(biāo)
為證明所提算法的有效性,設(shè)置了4種不同的算法進(jìn)行對(duì)照,比較各個(gè)算法在測(cè)試集上的診斷效果。常用的分類評(píng)價(jià)指標(biāo)有:準(zhǔn)確率Ac、召回率Re、精確率Pr和F1等。
1)準(zhǔn)確率,表示模型正確分類的個(gè)數(shù)占測(cè)試集總數(shù)的比例。
式中:TP表示實(shí)際為正例、模型評(píng)估結(jié)果為正例的樣本;TN表示實(shí)際為反例、模型評(píng)估結(jié)果為反例的樣本;FP表示實(shí)際為反例、模型評(píng)估結(jié)果為正例的樣本;FN表示實(shí)際為正例、模型評(píng)估結(jié)果為反例的樣本。本文中的正例為光伏電站無(wú)故障狀態(tài)樣本,反例為其余故障狀態(tài)樣本。
2)召回率,也稱查全率,表示模型正確分類的正例個(gè)數(shù)占測(cè)試集實(shí)際正例個(gè)數(shù)的比例。
3)精確率,也稱查準(zhǔn)率,表示模型正確分類的正例個(gè)數(shù)占模型分類為正例的比例。
4)F1是基于召回率和精確率的調(diào)和平均值,是對(duì)召回率和精確率的綜合評(píng)價(jià)。
根據(jù)上述各式得到各算法在測(cè)試集上的評(píng)價(jià)指標(biāo),結(jié)果如表2所示。
由表2 可知,所提算法模型不論是在準(zhǔn)確率、召回率還是精確率上都有亮眼的表現(xiàn),綜合表現(xiàn)在4種算法中最優(yōu)。
3.2.2 多分類算法評(píng)價(jià)指標(biāo)
本文討論的光伏故障診斷問(wèn)題歸屬于多分類問(wèn)題,以上的二分類算法評(píng)價(jià)指標(biāo)還不夠細(xì)致,因此,采用多維混淆矩陣具體展示各算法的故障診斷性能。
光伏運(yùn)行共有5 種狀態(tài),圖9 給出了4 種算法的5×5 故障診斷混淆矩陣,矩陣中行表示實(shí)際樣本的故障類型,列表示模型評(píng)估出的樣本故障類型。
圖9(a)為BP模型的混淆矩陣。該矩陣第一列皆為100%,其余列皆為0%,這表明BP 模型將所有故障類型皆評(píng)估為“無(wú)故障”,這顯然是不合理的。
圖9(b)為BP-Bagging模型的混淆矩陣。該矩陣第一列和最后一列有非零值,其余列皆為0%,這表明該模型不能區(qū)分“短路”“老化”和“開路”故障,并且對(duì)“陰影”故障的判斷準(zhǔn)確率只有77.81%。該模型是BP 模型的Bagging 集成算法,在一定程度上有所進(jìn)步,但距離目標(biāo)模型仍有不小差距。
圖9(c)為Random Forest模型的混淆矩陣。該矩陣是對(duì)角占優(yōu)陣,這表明該模型對(duì)各種故障都有著較高的診斷準(zhǔn)確率。具體地,模型對(duì)于“無(wú)故障”“開路”和“陰影”這三類運(yùn)行狀態(tài)有著極高的診斷準(zhǔn)確率,對(duì)“老化”故障有著較高的診斷準(zhǔn)確率,但有15.02%的概率將“老化”故障識(shí)別為“無(wú)故障”,存在較大的安全隱患,在實(shí)際工程中極易造成財(cái)產(chǎn)損失。
圖9(d)為改進(jìn)BP-Bagging 模型的混淆矩陣。該矩陣也是對(duì)角占優(yōu)陣,相比于Random Forest模型具有更明顯的優(yōu)勢(shì)。該模型對(duì)所有運(yùn)行狀態(tài)的診斷評(píng)估都有著非常高的準(zhǔn)確率。對(duì)“開路”故障的識(shí)別率達(dá)到100%,對(duì)“無(wú)故障”“短路”和“陰影”的診斷識(shí)別率也接近100%,對(duì)“老化”故障的診斷識(shí)別率為94.77%。
同時(shí),模型對(duì)故障的忽視現(xiàn)象僅出現(xiàn)在“陰影”故障診斷中,發(fā)生率為0.48%,由于“陰影”故障出現(xiàn)的概率僅為13.72%,因此該模型對(duì)故障的忽視率僅為0.066%,不足千分之一。雖然模型仍有一定的誤判,但此行為不會(huì)在本質(zhì)上造成光伏電站的故障擴(kuò)大和設(shè)備財(cái)產(chǎn)損失。
考慮到樣本集中樣本的非均衡特性,上述分類指標(biāo)并不能客觀全面地反映算法性能。例如BP模型的準(zhǔn)確率為86.28%,但根據(jù)表3 給出的各類型故障數(shù)據(jù)占比情況可知,一個(gè)模型無(wú)論其輸入數(shù)據(jù)如何,如果將所有故障都診斷為無(wú)故障,那么該模型的準(zhǔn)確率可達(dá)到84.65%。

表3 各類型故障統(tǒng)計(jì)數(shù)據(jù)Table 3 Statistical data for various types of failure
因此,考慮到樣本集的非均衡特性,使用指標(biāo)AU、TR、FR對(duì)分類結(jié)果進(jìn)行補(bǔ)充評(píng)價(jià)。
式中:TR表示在所有實(shí)際為正例的樣本中模型評(píng)估為正例的比例;FR表示在所有實(shí)際為反例的樣本中模型評(píng)估為正例的比例。AU數(shù)值范圍在0~1,數(shù)值越高代表模型的性能越佳,當(dāng)AU=0.5時(shí),表示當(dāng)前的模型等同于隨機(jī)猜測(cè),一般認(rèn)為當(dāng)AU≥0.5時(shí),模型才有實(shí)際意義。
按照式(17)計(jì)算得到4種算法在測(cè)試集上的評(píng)價(jià)指標(biāo),結(jié)果如表4 所示。根據(jù)定義可知,TR和AU為正向指標(biāo)值,即數(shù)值越大,模型評(píng)價(jià)越高;FR為負(fù)向指標(biāo)值,數(shù)值越大,模型評(píng)價(jià)越低。其中,改進(jìn)BP-Bagging算法在評(píng)價(jià)指標(biāo)上再次位列第一,證明了該算法在光伏電站故障診斷問(wèn)題上的有效性。

表4 4種算法的評(píng)價(jià)指標(biāo)Table 4 Evaluation metrics for the four algorithms%
為直觀比較各模型的性能,繪制各算法5種評(píng)價(jià)指標(biāo)值如圖10 所示??梢钥闯?,改進(jìn)BPBagging 算法5 種指標(biāo)值幾乎都達(dá)到100%,較其余3種算法有著絕對(duì)的優(yōu)勢(shì)。

圖10 各算法性能評(píng)價(jià)指標(biāo)Fig.10 Performance evaluation indicators of the algorithms
在“雙碳”背景下,浙江省光伏裝機(jī)容量快速增長(zhǎng),規(guī)模僅次于火電。在可預(yù)見的未來(lái),光伏裝機(jī)比例還將進(jìn)一步增加,因此準(zhǔn)確診斷光伏電站的故障類型對(duì)其安全穩(wěn)定運(yùn)行至關(guān)重要。
本文提出一種基于改進(jìn)BP-Bagging算法的光伏電站故障診斷方法,取得如下研究成果:通過(guò)隨機(jī)欠采樣方法解決了樣本分布不均衡的問(wèn)題,有效提升了模型對(duì)故障樣本特征的學(xué)習(xí)效果;基于Bagging集成學(xué)習(xí)框架,搭建光伏電站故障并行診斷模型,解決了單個(gè)BP模型存在的過(guò)擬合問(wèn)題,有效提升了故障診斷的準(zhǔn)確率。