






摘 要:系統(tǒng)性總結(jié)了有監(jiān)督機(jī)器學(xué)習(xí)在光伏故障監(jiān)測技術(shù)中的應(yīng)用.支持向量機(jī)(SVM)對懲罰因子和核函數(shù)非常敏感,通過優(yōu)化參數(shù)選擇和數(shù)據(jù)預(yù)處理可以提高監(jiān)測準(zhǔn)確率.決策樹(DT)容易過擬合,可以通過剪枝技術(shù)避免過擬合問題.隨機(jī)森林(RF)對數(shù)據(jù)量和參數(shù)調(diào)節(jié)要求較高,可以通過算法生成數(shù)據(jù)和優(yōu)化參數(shù)來滿足要求,從而提高監(jiān)測準(zhǔn)確率.K-近鄰(KNN)在處理高維數(shù)據(jù)時(shí)能力較差,可以引入合適的核函數(shù)和數(shù)據(jù)預(yù)處理技術(shù)來提高準(zhǔn)確率.神經(jīng)網(wǎng)絡(luò)(ANN)需要大量數(shù)據(jù)和參數(shù)選擇,優(yōu)化算法可以解決這些問題.ANN和SVM具有最高的準(zhǔn)確率但耗時(shí)較長,DT耗時(shí)短但準(zhǔn)確率較低.未來的趨勢是進(jìn)一步優(yōu)化算法,結(jié)合深度學(xué)習(xí)和智能化發(fā)展.由于ANN在故障監(jiān)測中具有高準(zhǔn)確率,基于ANN的光伏故障監(jiān)測系統(tǒng)預(yù)計(jì)將成為主流方法.
關(guān)鍵詞:光伏故障;有監(jiān)督機(jī)器學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);監(jiān)測系統(tǒng)
中圖分類號:TM615;TP274
文獻(xiàn)標(biāo)志碼:A
0 引 言
可再生能源系統(tǒng)被用作以化石燃料為基礎(chǔ)的能源生產(chǎn)系統(tǒng)的替代品,以滿足日益增長的能源需求[1].由于太陽能具有應(yīng)用廣、無污染與易獲取等優(yōu)點(diǎn),已成為了主流的可再生能源之一.近年來,光伏系統(tǒng)的使用量呈指數(shù)級增長,光伏市場以驚人的速度發(fā)展.
光伏系統(tǒng)主要有太陽能電池板/電池、逆變器、電池、電纜和控制器等組件[2].然而,由于光伏系統(tǒng)較為脆弱,再加上長期在惡劣的環(huán)境下工作,就可能發(fā)生故障,主要故障如圖1所示.主要分為物理故障、電氣故障與環(huán)境故障.物理故障主要分為電池破裂、逆變器故障與接線盒故障等;電氣故障主要分為短路故障、開路故障、接地故障與電弧故障等;環(huán)境故障分為暫時(shí)遮擋、永久遮擋,以及由于遮擋形成的熱斑故障.一旦出現(xiàn)故障如果不能及時(shí)處理就會導(dǎo)致光伏發(fā)電能量的大量損失甚至是發(fā)生火災(zāi),而且光伏系統(tǒng)一般都處于偏遠(yuǎn)地帶或者沙漠之中,這為維護(hù)與檢修帶來了不便.光伏電站的生產(chǎn)和初始投資的回報(bào)主要取決于光伏組件的性能和使用壽命,光伏組件的使用壽命和可靠性的提高是降低光伏系統(tǒng)成本的主要因素.因此,為了提高光伏發(fā)電系統(tǒng)的穩(wěn)定性和安全性,急需開發(fā)出一種實(shí)時(shí)的、迅速的與準(zhǔn)確的光伏故障監(jiān)測系統(tǒng).
常用于光伏故障監(jiān)測的技術(shù)有目視觀察法、基于伏安(I-V)曲線特性分析法、基于紅外熱成像法與基于數(shù)字模型的監(jiān)測方法等.目視觀察法是通過人眼對光伏系統(tǒng)進(jìn)行檢查,可以識別明顯的物理故障,如電池破裂與電纜損壞等故障,但不能識別電池隱裂與短路等類型的故障,該方法操作雖相對簡單,但是效率低,且監(jiān)測故障類型有限;基于I-V曲線特性分析法,是通過與正常的系統(tǒng)或者標(biāo)準(zhǔn)情況下的伏安特性進(jìn)行對比,從而實(shí)現(xiàn)故障監(jiān)測功能,該方法可以直觀地顯示監(jiān)測結(jié)果,但受環(huán)境與測量方法等的影響時(shí),I-V曲線有時(shí)會含有大量噪聲,導(dǎo)致無法準(zhǔn)確地監(jiān)測故障,且部分故障的I-V曲線相似,難以區(qū)分;基于紅外熱成像法是一種檢測評估區(qū)域熱量分布的技術(shù),利用紅外設(shè)備得到光伏系統(tǒng)的紅外圖像,再通過對比溫度差異判斷是否存在故障,該方法可以對故障進(jìn)行定位,但所需設(shè)備昂貴且監(jiān)測精度不高;基于數(shù)學(xué)模型的監(jiān)測方法需要對光伏系統(tǒng)進(jìn)行仿真模擬,并輸入對應(yīng)參數(shù)(如光照幅度等)得到仿真系統(tǒng)輸出的電流、電壓或者功率等數(shù)據(jù),再與真實(shí)的光伏系統(tǒng)輸出進(jìn)行對比,從而實(shí)現(xiàn)故障監(jiān)測,使用數(shù)學(xué)模型的狀態(tài)監(jiān)測系統(tǒng)可實(shí)現(xiàn)大多數(shù)的監(jiān)測任務(wù),能夠監(jiān)測電流、電壓和功率等參數(shù)及變化情況,但也存在一些不足,如監(jiān)測的準(zhǔn)確性太低,存在很大的誤差問題.
為了克服傳統(tǒng)光伏故障監(jiān)測系統(tǒng)的局限性,研究人員開發(fā)了基于機(jī)器學(xué)習(xí)的監(jiān)測系統(tǒng).隨著計(jì)算機(jī)與算法的快速發(fā)展,機(jī)器學(xué)習(xí)也迎來了又一個(gè)高速發(fā)展期.由于機(jī)器學(xué)習(xí)的強(qiáng)大功能,已被應(yīng)用于各個(gè)領(lǐng)域來解決復(fù)雜的實(shí)際項(xiàng)目,同樣地,機(jī)器學(xué)習(xí)在光伏故障監(jiān)測中也有著強(qiáng)大的競爭力.機(jī)器學(xué)習(xí)主要分為有監(jiān)督機(jī)器學(xué)習(xí)、無監(jiān)督機(jī)器學(xué)習(xí)與半監(jiān)督機(jī)器學(xué)習(xí)[3].有監(jiān)督機(jī)器學(xué)習(xí)是指使用已知標(biāo)簽數(shù)據(jù)來構(gòu)建、訓(xùn)練和測試機(jī)器學(xué)習(xí)模型以預(yù)測未知結(jié)果的方法.通常,有監(jiān)督機(jī)器學(xué)習(xí)由訓(xùn)練集、驗(yàn)證集和測試集構(gòu)成,其中訓(xùn)練集與驗(yàn)證集包含帶有標(biāo)簽的數(shù)據(jù),用于訓(xùn)練及驗(yàn)證所使用的模型,而測試集可能只包含未標(biāo)記的數(shù)據(jù),用于對訓(xùn)練之后的模型進(jìn)行準(zhǔn)確率測試.監(jiān)督機(jī)器學(xué)習(xí)的技術(shù)主要包括支持向量機(jī)(support vector machine,SVM)、決策樹(decision tree,DT)、K-近鄰(K-nearest neighbors,KNN)、隨機(jī)森林(random forest,RF)與人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)等.相比于無監(jiān)督與半監(jiān)督機(jī)器學(xué)習(xí)而言,有監(jiān)督機(jī)器學(xué)習(xí)具有高準(zhǔn)確率的優(yōu)點(diǎn),因此有監(jiān)督機(jī)器學(xué)習(xí)更多地被用于光伏故障監(jiān)測系統(tǒng)中.本文對常見的基于有監(jiān)督機(jī)器學(xué)習(xí)的光伏故障監(jiān)測系統(tǒng)進(jìn)行了全面總結(jié),以期為有監(jiān)督機(jī)器學(xué)習(xí)在光伏故障監(jiān)測系統(tǒng)中的應(yīng)用提供參考.
1 技術(shù)簡介
1.1 SVM
SVM是最流行的分類算法之一,是一種具有監(jiān)督學(xué)習(xí)的二元分類模型[4],SVM在故障診斷領(lǐng)域應(yīng)用廣泛,其數(shù)學(xué)推理嚴(yán)格,具有堅(jiān)實(shí)的理論基礎(chǔ),SVM不僅可以解決線性分類問題,還可以解決非線性分類問題,同時(shí)相對于其他機(jī)器學(xué)習(xí)算法,SVM可以避免過擬合或欠擬合的問題[5],SVM的原理如圖2[6]所示.圖2中的坐標(biāo)軸即為所選的特征值,其中黃色圓點(diǎn)和藍(lán)色方塊分別代表不同故障類型的數(shù)據(jù)(也可以是正常數(shù)據(jù)),wTx+b=0為超平面方程(optimal hyperplane),可將數(shù)據(jù)分為2類,wTx+b=1以上為同一類數(shù)據(jù),wTx+b=-1以下為另一類數(shù)據(jù).其中,w代表SVM的權(quán)重向量,b代表偏置量,x即特征向量,最接近決策邊界的數(shù)據(jù)被稱為支持向量(support vector)[5].對于非線性數(shù)據(jù),則可以利用合適的核函數(shù)將數(shù)據(jù)映射到高維空間,進(jìn)而對數(shù)據(jù)進(jìn)行分類,使得高維數(shù)據(jù)能夠?qū)崿F(xiàn)線性分類,從而提高分類的泛化能力和置信度.但是在處理大數(shù)據(jù)集時(shí),該操作會導(dǎo)致SVM對計(jì)算資源與樣本數(shù)量的要求更高.因此,SVM更適用于小樣本與高維度的數(shù)據(jù)集.
在使用光伏數(shù)據(jù)訓(xùn)練SVM時(shí),需要對懲罰系數(shù)等超參數(shù)進(jìn)行選擇,選擇合適的超參數(shù)是決定基于SVM的監(jiān)測故障系統(tǒng)準(zhǔn)確率的一個(gè)重要因素.此外,SVM處理非線性數(shù)據(jù)時(shí),會將數(shù)據(jù)映射到高維空間,這樣就需要設(shè)置合適的維數(shù),只有在維數(shù)合適的情況下,才能發(fā)揮SVM良好的分類性能[4].為了解決SVM超參數(shù)及核函數(shù)的選擇問題,研究人員引入了優(yōu)化算法,如Cai等[4]使用粒子群優(yōu)化算法(particle swarm optimization,PSO)對SVM的超參數(shù)進(jìn)行優(yōu)化,該方法不僅能準(zhǔn)確辨識故障發(fā)生所在位置,而且普適性也較好,準(zhǔn)確率均在98.21%以上.Eskandari等[7]引入遺傳算法(genetic algorithm,GA)對SVM的核函數(shù)進(jìn)行選擇,使該模型在不同情況下(包括低失配水平和高故障阻抗)對線線故障的分類平均準(zhǔn)確率達(dá)到了97.5%.Ahmed等[8]引入灰狼優(yōu)化(grey wolf optimization,GWO)算法對SVM模型超參數(shù)進(jìn)行優(yōu)化,并對比了多種優(yōu)化算法結(jié)果,最終發(fā)現(xiàn)經(jīng)GWO優(yōu)化之后的SVM分類模型對于故障檢測的準(zhǔn)確率達(dá)到了97.28%.但是這些方法存在收斂速度慢、易陷入局部最優(yōu)解的問題.在GWO算法中,當(dāng)參數(shù)A≤1時(shí),算法進(jìn)行局部搜索,當(dāng)Agt;1時(shí),則算法進(jìn)行全局搜索,同時(shí)參數(shù)A隨著控制因子a的變化而不斷地變化.傳統(tǒng)的GWO算法中參數(shù)A是線性遞減的,但算法的優(yōu)化過程卻不一定也是線性遞減的,尤其是對于多峰值問題,這樣就容易陷入局部最優(yōu).因此,宋玉生等[9]對GWO進(jìn)行了改進(jìn),提出一種非線性控制因子策略,在迭代初期,控制因子a遞減速率較小,參數(shù)A的值則較大,更容易克服局部最優(yōu)的問題,到了迭代后期,控制因子a遞減速率較大,算法更容易找到更優(yōu)解.同時(shí),對起引導(dǎo)作用的灰狼隨機(jī)賦予權(quán)重值,從而也可以很大程度上克服陷入局部最優(yōu)的問題.然而,由于初期控制因子變化較小,可能會導(dǎo)致算法收斂速度下降.
除參數(shù)選擇問題之外,基于SVM的光伏故障監(jiān)測系統(tǒng)處理異常值與噪聲的能力較差.為了解決該問題,研究人員引入了數(shù)據(jù)進(jìn)行預(yù)處理技術(shù),從而提高系統(tǒng)的性能.例如,引入主成分分析(principal component analysis,PCA)算法,Yuan等[10]利用PCA對數(shù)據(jù)降維處理,并將處理之后的數(shù)據(jù)用于訓(xùn)練模型,從而使模型能更好地實(shí)現(xiàn)故障監(jiān)測;Wang等[5]利用熱甲板(hot-decking)算法進(jìn)行數(shù)據(jù)預(yù)處理,并采用K均值(K-means)聚類算法對結(jié)果進(jìn)行優(yōu)化,用相似的完整故障數(shù)據(jù)的相應(yīng)參數(shù)來替代缺失故障數(shù)據(jù)的相應(yīng)參數(shù),該方法可以一定程度上克服故障值帶來的影響,但是該方法可能會丟失部分信息.此外數(shù)據(jù)的特征提取也影響著最終準(zhǔn)確率,Miao等[11]采用經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)分析了赫斯特指數(shù),并使用各模態(tài)的熵和標(biāo)準(zhǔn)差訓(xùn)練SVM,從而實(shí)現(xiàn)故障監(jiān)測.EMD雖然具有一定的自調(diào)整能力,但具有較強(qiáng)的模式混雜效應(yīng),難以獲得良好的檢測效果.Wang等[12]利用變分模態(tài)分解(variational mode decomposition,VMD)獲得多模態(tài)的實(shí)測電流,然后利用改進(jìn)的電弧故障相關(guān)模態(tài)的多尺度模糊熵作為檢測特征,通過SVM實(shí)現(xiàn)故障診斷.由于VMD是一種基于迭代運(yùn)算的時(shí)頻域分離算法,如果參數(shù)選擇不當(dāng),則會導(dǎo)致執(zhí)行時(shí)間過長.因此,Cai等[4]將皮爾遜相關(guān)系數(shù)與VMD相結(jié)合,得到了改進(jìn)的VMD算法,可以節(jié)省VMD執(zhí)行時(shí)間.該算法對于低頻信號很敏感,但對于中高頻信號表現(xiàn)較差.
除了上述方法之外,Yi等[13]提出了一種2階段的SVM系統(tǒng),使用訓(xùn)練集對第一階段SVM進(jìn)行訓(xùn)練,再使用第一階段的輸出作為第二階段SVM的輸入并訓(xùn)練SVM2,進(jìn)一步進(jìn)行監(jiān)測,這樣可以更好地區(qū)分故障數(shù)據(jù)與正常數(shù)據(jù),從而提高準(zhǔn)確率.類似地,Yuan等[10]也提出一種基于PCA-SVM的二次分類故障診斷策略,第一種分類用于對所有類型的故障進(jìn)行初步故障診斷,而第二種分類用于區(qū)分2組相似的故障,監(jiān)測準(zhǔn)確率達(dá)到了99.03%.這些系統(tǒng)具有強(qiáng)大的魯棒性與高準(zhǔn)確率,但是使用了2次算法模型,因此需要消耗更多的計(jì)算資源與時(shí)間.Sun等[14]提出一種基于貝葉斯框架中最小二乘支持向量機(jī)(least squares support vector machine,LSSVM)的故障監(jiān)測方法,傳統(tǒng)SVM模型的目標(biāo)是找到一個(gè)最優(yōu)的超平面,即wTx+b=0,使得樣本點(diǎn)離該超平面具有最大的間隔,并將不同類別的樣本點(diǎn)分隔開.但在某些情況下,數(shù)據(jù)可能存在噪音數(shù)據(jù),導(dǎo)致傳統(tǒng)的SVM無法直接應(yīng)用.LSSVM使用一個(gè)帶有線性約束的最小二乘線性系統(tǒng)誤差平方和損失函數(shù)作為訓(xùn)練樣本集的經(jīng)驗(yàn)損失,將約束條件從不等式更改為方程,然后,對凸二次規(guī)劃問題進(jìn)行變換,從而提高了模型的計(jì)算速度,LSSVM可以大大地減少傳感器的數(shù)量與監(jiān)測成本.但是該方法需要設(shè)置許多參數(shù),而這些參數(shù)又會影響到最終結(jié)果.Chouay等[15]提出了三階段分類算法來監(jiān)測故障,第一階段通過比較測量值和預(yù)期產(chǎn)生的功率來識別潛在故障的存在,第二階段通過比較提取的光伏電池(PV)特性和參考PV特性來識別故障類型,最后一階段SVM進(jìn)一步對故障進(jìn)行區(qū)分,該方法具有很高的準(zhǔn)確率,但是其對計(jì)算資源要求更高.
在小樣本數(shù)據(jù)集上,基于SVM的光伏故障監(jiān)測系統(tǒng)表現(xiàn)優(yōu)異.通過引入核函數(shù),SVM也能處理高維數(shù)據(jù)集,但需選擇合適參數(shù),優(yōu)化算法選擇和改進(jìn)至關(guān)重要.基于SVM的光伏故障監(jiān)測系統(tǒng)優(yōu)點(diǎn)包括優(yōu)秀的泛化能力和高準(zhǔn)確率,良好的魯棒性,以及處理非線性問題效果好.然而,其不足在于對懲罰因子和核函數(shù)敏感,需操作人員具備專業(yè)知識;處理異常值和噪聲能力較差,可能影響準(zhǔn)確率.
1.2 DT
DT的結(jié)構(gòu)可以用等價(jià)的規(guī)則來表示,這些規(guī)則可以用“如果……否則”來翻譯[16],可以根據(jù)不同的特征將數(shù)據(jù)進(jìn)行分類.DT一般可使用迭代二分器3(ID3)、ID3的后續(xù)算法(C4.5),以及分類和回歸樹(CART)等分類算法生成DT模型,而每個(gè)算法都有專屬的分裂標(biāo)準(zhǔn),如使用ID3算法時(shí),可以與香農(nóng)熵相結(jié)合,而使用C4.5時(shí),則可以與歸一化香農(nóng)熵值相結(jié)合,原理圖如圖3所示[6].圖3中左端坐標(biāo)系的坐標(biāo)軸為特征值,ε為邊界,區(qū)分不同類型的數(shù)據(jù),不同顏色的符號代表不同故障類型的數(shù)據(jù)(也可以是正常數(shù)據(jù)).圖3中右端為DT的流程圖,DT利用分類算法生成根節(jié)點(diǎn)(root node),當(dāng)數(shù)據(jù)輸入到DT中,經(jīng)過內(nèi)部節(jié)點(diǎn)(internal node)條件判斷確定分支(branch)方向,從而確定數(shù)據(jù)類型,葉節(jié)點(diǎn)(leaf node)是沒有任何分支的最終節(jié)點(diǎn).如需要監(jiān)測的數(shù)據(jù)輸入到模型中,通過第一個(gè)內(nèi)部節(jié)點(diǎn)判斷該數(shù)據(jù)的特征值φ1是否大于ε1,若大于則將其視為該類型數(shù)據(jù)(該圖中將其視為紅色菱形類型的數(shù)據(jù)),否則將會通過分支進(jìn)入下一個(gè)節(jié)點(diǎn),并再次進(jìn)行判斷,從而達(dá)到分類的功能,DT的優(yōu)點(diǎn)便是在于易于理解和實(shí)現(xiàn).
雖然DT算法容易理解與實(shí)現(xiàn),但是如果內(nèi)部節(jié)點(diǎn)與分支過多就容易出現(xiàn)過擬合問題,這會嚴(yán)重影響光伏故障監(jiān)測系統(tǒng)的性能,因此如何克服DT過擬合問題也是提高系統(tǒng)監(jiān)測準(zhǔn)確率的一個(gè)重要課題.對此,Benkercha等[16]使用C4.5實(shí)現(xiàn)光伏故障監(jiān)測功能,克服過擬合問題,并使故障監(jiān)測準(zhǔn)確率達(dá)到了99.80%,且故障分類準(zhǔn)確率也達(dá)到了99%.C4.5算法是一種DT算法,是ID3算法的升級版.ID3算法是一種經(jīng)典的DT算法,其基于信息熵的概念來進(jìn)行特征選擇.C4.5算法在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn),能夠處理連續(xù)性數(shù)據(jù)和缺失值,使用信息增益比來選擇最優(yōu)的分裂屬性,并采用剪枝技術(shù)避免過擬合,即減少DT的分支.此外,CART等算法也可以實(shí)現(xiàn)剪枝功能,CART算法是一種DT算法,使用基尼指數(shù)生成DT,可以用于分類和回歸問題,選擇最優(yōu)特征和特征值,將數(shù)據(jù)集劃分為2個(gè)子集,使得每個(gè)子集的純度最大.但是該方法無法很好地處理故障值與噪聲.此外,還可以利用PCA對數(shù)據(jù)進(jìn)行預(yù)處理,這不僅可以有效地提高準(zhǔn)確率,也能一定程度上克服DT容易過擬合的問題.
除傳統(tǒng)的DT算法之外,研究人員還開發(fā)了許多基于DT的集成算法,例如極端梯度提升(extreme gradient boosting,XGBoost)與多類自適應(yīng)增效(adaptive boosting,AdaBoost)等.XGBoost是一種基于梯度提升樹的算法,通過逐步優(yōu)化損失函數(shù)構(gòu)建強(qiáng)學(xué)習(xí)器.XGBoost使用自定義損失函數(shù),結(jié)合梯度和Hessian矩陣,在每輪迭代中計(jì)算分裂增益,選擇最佳特征和閾值以最小化損失,并利用L1和L2正則化避免過擬合.AdaBoost是一種集成學(xué)習(xí)算法,通過訓(xùn)練多個(gè)弱分類器并調(diào)整樣本權(quán)重,特別關(guān)注被錯(cuò)誤分類的樣本,逐步構(gòu)建強(qiáng)學(xué)習(xí)器,直到滿足條件停止迭代.Wang等[17]提出了一種網(wǎng)格搜索法和交叉驗(yàn)證(GridSearchCV)與XGBoost算法相結(jié)合的故障監(jiān)測系統(tǒng),使用GridSearchCV對XGBoost進(jìn)行參數(shù)優(yōu)化,使模型擁有更高的準(zhǔn)確率、更低的過擬合風(fēng)險(xiǎn)與更強(qiáng)的泛化性能.類似地,Liu等[18]也使用網(wǎng)格搜索法與XGBoost算法實(shí)現(xiàn)故障檢測和診斷,同時(shí)還采用合成少數(shù)類過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)算法對不平衡數(shù)據(jù)集進(jìn)行擴(kuò)展,提高模型的精度.SMOTE通過對少數(shù)類樣本進(jìn)行插值,生成一些新的合成樣本,使得少數(shù)類樣本數(shù)量增加,從而平衡數(shù)據(jù)集.Du等[19]提出一種基于改進(jìn)AdaBoost算法的故障監(jiān)測方法,并使用K均值算法對檢測數(shù)據(jù)進(jìn)行2次分類.這些基于集成算法的故障監(jiān)測系統(tǒng)都具有很高的準(zhǔn)確率,但是AdaBoost在處理不平衡數(shù)據(jù)集時(shí)可能會出現(xiàn)問題,而XGBoost對于噪聲和異常值的魯棒性相對較低.Kapucu等[20]則利用了DT、二次判別分析和帶熵的額外樹結(jié)合構(gòu)建了光伏故障監(jiān)測系統(tǒng),該模型的準(zhǔn)確率從97.46%提高為97.67%.但是該模型的準(zhǔn)確率提高十分有限,花費(fèi)的成本與性能提升不符.
基于DT的故障監(jiān)測系統(tǒng)快速且易于調(diào)試,但易過擬合,需結(jié)合剪枝技術(shù).基于DT的集成算法,如XGBoost和AdaBoost提高了監(jiān)測準(zhǔn)確率,部分克服了過擬合問題,但處理非線性數(shù)據(jù)能力較差,AdaBoost對不平衡數(shù)據(jù)集表現(xiàn)不佳,XGBoost對噪聲和異常值魯棒性較低.總之,基于DT的故障監(jiān)測方法優(yōu)點(diǎn)包括直觀易懂,簡化復(fù)雜決策過程;高效處理多分類問題,快速學(xué)習(xí)和分類數(shù)據(jù)集.然而,基于DT的故障監(jiān)測方法也存在不足,比如易過擬合,優(yōu)化復(fù)雜;無法很好處理連續(xù)數(shù)據(jù),需離散化處理,可能導(dǎo)致信息丟失.
1.3 RF
RF由多個(gè)DT組成,每個(gè)DT對不同的特征進(jìn)行判決,并對輸出進(jìn)行處理,從而實(shí)現(xiàn)故障監(jiān)測.常用的處理方法有平均法(對所有DT的輸出進(jìn)行平均)、投票法(對所有DT的輸出進(jìn)行投票)、加權(quán)平均法(對所有DT的輸出進(jìn)行加權(quán)平均)和閾值法(針對二分類問題,可以將每個(gè)DT的輸出結(jié)果看作一個(gè)概率值,然后根據(jù)設(shè)定的閾值來進(jìn)行分類).RF原理圖如圖4所示,輸入Xi(input)然后經(jīng)過N個(gè)DT(tree i)進(jìn)行判斷,每個(gè)DT都輸出1個(gè)結(jié)果,共計(jì)N個(gè)輸出結(jié)果(output for tree i),并最終對這N個(gè)結(jié)果進(jìn)行處理,得到最終的監(jiān)測結(jié)果(final result).RF可用于分類、回歸和聚類問題等,也可以很好地處理高維數(shù)據(jù),具有更高準(zhǔn)確性和穩(wěn)健性[21].
與大多數(shù)算法一樣,RF也需要對例如DT的數(shù)量與樹的深度等參數(shù)進(jìn)行設(shè)置,這也會對RF的性能造成影響.對此,Chen等[21]利用網(wǎng)格搜索方法對RF算法的參數(shù)進(jìn)行優(yōu)化;同樣地,劉新鋒等[22]也利用網(wǎng)格搜索法和K折交叉驗(yàn)證法通過遍歷給定的參數(shù)組合來對RF進(jìn)行優(yōu)化,從而選擇準(zhǔn)確率最高的參數(shù)組合作為模型參數(shù).然而網(wǎng)格搜索算法無法保證找到全局最優(yōu)解,因?yàn)樵撍惴ㄖ荒茉诮o定的范圍內(nèi)進(jìn)行搜索.
此外,準(zhǔn)確率也是光伏故障監(jiān)測系統(tǒng)的一個(gè)重要指標(biāo),因此,也有許多研究者旨在提高系統(tǒng)的監(jiān)測準(zhǔn)確率,而數(shù)據(jù)預(yù)處理便是提高準(zhǔn)確率的一個(gè)重要手段.Dhibi等[23]使用2個(gè)間縮減核PCA(interval reduced kernel principal component analysis,IRKPCA)對數(shù)據(jù)進(jìn)行預(yù)處理,去除了特征提取過程中不相關(guān)和多余的樣本,提高了RF的監(jiān)測準(zhǔn)確率并減少了計(jì)算時(shí)間.值得一提的是,除了PCA技術(shù)降維之外,Yang等[24]引入修正獨(dú)立分量分析(modified independent component analysis,MICA),MICA技術(shù)也實(shí)現(xiàn)了數(shù)據(jù)降維.但是使用這些技術(shù)對包含許多異常值的數(shù)據(jù)的性能不佳,且無法處理非線性數(shù)據(jù).除此之外,另一個(gè)常用的數(shù)據(jù)預(yù)處理技術(shù)便是小波變換.吳忠強(qiáng)等[25]便利用小波變換對電壓信號進(jìn)行分解,從而提取到各頻帶能量作為故障特征,再將其輸入到RF中進(jìn)行處理.還有研究將獨(dú)立成分分析(independent component analysis,ICA)用于對數(shù)據(jù)預(yù)處理[24].這些方法都能夠提高監(jiān)測的準(zhǔn)確率,但是也提高了模型的復(fù)雜度,同時(shí)可能存在信息損失等問題.除數(shù)據(jù)預(yù)處理外,RF模型的準(zhǔn)確率可能還會受到不平衡數(shù)據(jù)集的影響.為解決該問題,Yang等[24]引入隨機(jī)欠采樣與SMOTE分別解決2種不同數(shù)據(jù)不平衡的問題,使該模型對這2種數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了99.88%和99.43%.隨機(jī)欠采樣算法是通過減少多數(shù)類樣本的數(shù)量來平衡數(shù)據(jù)集.但是隨機(jī)欠采樣算法可能會導(dǎo)致部分重要的數(shù)據(jù)丟失,而SMOTE算法生成的數(shù)據(jù)可能會含有大量噪聲.張治等[26]也將自適應(yīng)模糊C均值聚類(adaptive fuzzy c-means,AFCM)、SMOTE與RF模型結(jié)合,通過算法生成部分?jǐn)?shù)據(jù),增加訓(xùn)練數(shù)據(jù)量,從而提高故障監(jiān)測的準(zhǔn)確率,但是該方法對于噪聲與故障值表現(xiàn)較差.
除上述之外,汪洋等[27]提出了一種RF的改進(jìn)算法,使用RF作為監(jiān)測模型的同時(shí),使用stacking法改進(jìn)了傳統(tǒng)RF投票機(jī)制不合理的問題,將模型準(zhǔn)確率提高到了97.5%.傳統(tǒng)的RF模型使用投票機(jī)制決定最終的輸出結(jié)果,但是一些表現(xiàn)差的DT會對最終輸出造成影響,而在許多情況下,stacking方法比投票法更有效,因?yàn)槠渫ㄟ^訓(xùn)練1個(gè)次級分類模型來組合多個(gè)初級分類模型的輸出.具體而言,stacking方法會首先訓(xùn)練多個(gè)不同的初級分類模型,然后以這些模型的輸出作為輸入,訓(xùn)練1個(gè)次級分類模型.最后,stacking方法通過次級分類模型輸出最終的分類結(jié)果.但是該方法沒有涉及RF的過擬合問題,無法克服RF容易過擬合的問題.Dhibi等[28]提出2種增強(qiáng)型RF分類器,即基于歐氏距離的簡化核RF和基于K均值聚類的簡化核RF,第一種方法包括使用歐氏距離作為相異性度量,以便在樣本之間存在冗余的情況下僅保留1個(gè)測量值.第二種方法旨在減少基于K均值聚類技術(shù)的訓(xùn)練數(shù)據(jù)量,該模型被證實(shí)了在較短的計(jì)算時(shí)間下具有較高的分類精度.但是歐氏距離簡化核的RF模型對高維數(shù)據(jù)處理能力較差,基于K均值聚類的簡化核RF對于離群值與故障值表現(xiàn)較差.葉進(jìn)等[29]提出一種基于級聯(lián)RF的光伏組件在線故障診斷模型,通過使用多個(gè)RF模型提高模型的最終準(zhǔn)確率,優(yōu)于傳統(tǒng)RF模型.但是該模型在準(zhǔn)確率與收斂時(shí)長上提升十分有限.
基于RF的光伏故障監(jiān)測系統(tǒng)精度高、泛化性能強(qiáng),對噪聲具有魯棒性,但對不平衡數(shù)據(jù)集表現(xiàn)較差,易過擬合,且計(jì)算開銷大.RF由多個(gè)決策樹組成,準(zhǔn)確性和魯棒性高;能有效處理高維數(shù)據(jù)和非線性關(guān)系,適用于光伏故障監(jiān)測.但也存在處理不平衡數(shù)據(jù)集能力較差及易過擬合等缺點(diǎn).
1.4 KNN
KNN是一種非參數(shù)的、基于實(shí)例的學(xué)習(xí)方法,通過利用距離度量函數(shù)比較每個(gè)新實(shí)例與現(xiàn)有實(shí)例的狀態(tài),從距離最近的實(shí)例為新實(shí)例分配類別,如果使用更多數(shù)量的最近鄰居,則為新實(shí)例分配最近K個(gè)鄰居的多數(shù)類[30].KNN算法只需要1個(gè)整數(shù)K、1組標(biāo)記樣本(訓(xùn)練數(shù)據(jù))和1個(gè)距離度量,具有簡單、易實(shí)現(xiàn)的優(yōu)點(diǎn).距離度量是用來計(jì)算任意2個(gè)樣本點(diǎn)之間距離的方法,從而決定哪些鄰居點(diǎn)被選為K個(gè)最近鄰居.KNN是一個(gè)理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一,因此該方法也運(yùn)用于光伏故障監(jiān)測,原理圖如圖5所示[6].圖5中坐標(biāo)軸為特征值,不同顏色的符號代表訓(xùn)練數(shù)據(jù)中的不同故障類型的數(shù)據(jù)(也可以是正常數(shù)據(jù)),Pt為需要監(jiān)測的值,K為選定的鄰居數(shù).
KNN常用的距離度量有歐氏距離、曼哈頓距離和余弦相似度.歐氏距離是指2個(gè)樣本在各個(gè)維度上對應(yīng)數(shù)值差值的平方和的開方;曼哈頓距離是指2個(gè)樣本在各個(gè)維度上對應(yīng)數(shù)值差值的絕對值之和;余弦相似度是指2個(gè)向量在空間中的夾角余弦值,可以用來計(jì)算2個(gè)向量之間的相似度等[6].研究人員可以選擇適合的距離度量與K值運(yùn)用于KNN模型之中.由于KNN處理高維數(shù)據(jù)較差,因此,研究人員便將核函數(shù)引入KNN模型之中,從而提高KNN模型對高維數(shù)據(jù)的監(jiān)測能力,但是引入核函數(shù)容易造成過擬合問題.部分研究也使用數(shù)據(jù)預(yù)處理技術(shù)來提高KNN光伏故障監(jiān)測系統(tǒng)的監(jiān)測準(zhǔn)確率,例如,PCA與小波變換.Manohar等[30]提出了一種基于離散小波變換(discrete wavelet transform,DWT)和KNN相結(jié)合的故障監(jiān)測系統(tǒng),利用DWT對信號進(jìn)行預(yù)處理確定近似系數(shù),并使用處理之后的數(shù)據(jù)作為基于KNN的分類器的輸入.除此之外,歸一化也是數(shù)據(jù)預(yù)處理的常用手段之一[31].但是這些方法都可能會導(dǎo)致信息損失,從而使系統(tǒng)性能無法達(dá)到期望值,且處理非線性數(shù)據(jù)的能力較差.此外,Harrou等[32]提出了一種改進(jìn)型KNN模型,將KNN與休哈特(Shewhart)和(具有參數(shù)和非參數(shù)閾值)指數(shù)加權(quán)移動平均(exponentially weighted moving average,EWMA)相結(jié)合,從而提高模型對異常數(shù)據(jù)的監(jiān)測能力,模型監(jiān)測故障的準(zhǔn)確率超過了90%,其中,不含參數(shù)的EWMA與KNN結(jié)合的模型準(zhǔn)確率達(dá)到了98%.EWMA使用指數(shù)加權(quán)的方式對歷史數(shù)據(jù)進(jìn)行平滑處理,給予過去觀測值的權(quán)重逐漸減小.在EWMA中,較新的觀測值會被賦予較高的權(quán)重,而較舊的觀測值則獲得較低的權(quán)重,因此,EWMA方法在檢測微小變化方面很敏感.
總之,KNN原理簡單易懂,僅需選擇K值和距離度量,調(diào)參要求不高,小數(shù)據(jù)集下監(jiān)測速度快.然而,KNN分類需計(jì)算每個(gè)樣本與訓(xùn)練數(shù)據(jù)的“距離”,處理大數(shù)據(jù)集時(shí)需大量計(jì)算資源且耗時(shí)長,易受故障值與噪聲影響.
1.5 ANN
ANN的結(jié)構(gòu)由1個(gè)輸入層、1個(gè)或多個(gè)隱藏層和1個(gè)輸出層組成.ANN在非線性、高維度、故障和噪聲環(huán)境中處理信息的能力引起了許多領(lǐng)域研究人員的興趣.ANN是一種強(qiáng)大的非線性模型,適用于復(fù)雜的非線性問題,可以更熟練地處理復(fù)雜的問題.ANN的原理圖如圖6所示,特征向量通過輸入層(input layer)輸入到模型之中,再到隱藏層(hidden layer),經(jīng)過權(quán)重向量與激活函數(shù)處理之后,從輸出層輸出結(jié)果.其中,xi代表不同的特征值,wp代表權(quán)重向量,φi代表激活函數(shù),yi代表輸出結(jié)果.總的來說,ANN具有很高的容錯(cuò)性,可以處理大量的故障統(tǒng)計(jì)數(shù)據(jù),以準(zhǔn)確識別光伏系統(tǒng)中發(fā)生的故障.
ANN包括許多不同的技術(shù)模型,例如,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBF)、多層感知器神經(jīng)網(wǎng)絡(luò)(multi-layer perceptron,MLP)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等技術(shù).RBF通過徑向基函數(shù)將輸入空間映射到高維特征空間,適用于非線性問題,具有良好的泛化能力和對噪聲的魯棒性,但需選擇合適參數(shù),容易過擬合,處理高維數(shù)據(jù)時(shí)計(jì)算資源需求高,且訓(xùn)練時(shí)間長.MLP由輸入層、多個(gè)隱含層和輸出層組成,利用非線性激活函數(shù)處理非線性問題和多輸入多輸出問題,但需大量訓(xùn)練數(shù)據(jù),可能過擬合.PNN是基于RBF的前饋神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)簡單快速,分類準(zhǔn)確且容錯(cuò)率高,但復(fù)雜問題需較多神經(jīng)元,易過擬合且需手動設(shè)置神經(jīng)元數(shù)量.CNN由卷積層、池化層和全連接層組成,高效處理圖像數(shù)據(jù),減少參數(shù)和過擬合風(fēng)險(xiǎn),但需大量計(jì)算資源和數(shù)據(jù)預(yù)處理,處理非圖像數(shù)據(jù)能力較差.此外還有反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)和深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)等模型.不同的模型可能會對故障監(jiān)測的準(zhǔn)確率造成影響,因此,針對不同的要求,研究者可以選擇自己所需的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行故障監(jiān)測.
對于ANN模型而言,參數(shù)(例如權(quán)重向量等)對最終結(jié)果有著決定性作用,不同的參數(shù)可能會導(dǎo)致不同的結(jié)果,因此,對其參數(shù)進(jìn)行優(yōu)化可以得到更好的性能.對此,Hichri等[33]使用GA對ANN模型進(jìn)行結(jié)構(gòu)優(yōu)化,性能超過了傳統(tǒng)ANN,使該模型對不同故障的監(jiān)測平均準(zhǔn)確率達(dá)到了97.63%,且耗費(fèi)時(shí)間更短.Eldeghady等[34]則使用PSO算法優(yōu)化BPNN,將BPNN的局部搜索能力和PSO中的全局搜索能力相結(jié)合,與傳統(tǒng)的BPNN相比,該模型收斂更快,節(jié)省時(shí)間,并將準(zhǔn)確率提高了8%.Yu等[35]使用改進(jìn)的蟻群算法(ant colony algorithm,ACA)對RBF神經(jīng)網(wǎng)絡(luò)的中心值和寬度進(jìn)行優(yōu)化,ACA優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)具有收斂速度快、診斷精度高的特點(diǎn).然而,這些算法都沒有考慮局部最優(yōu)的問題.
此外,數(shù)據(jù)預(yù)處理也是提高準(zhǔn)確率的一個(gè)重要手段,Attouri等[36]使用多尺度主成分分析(multiscale principal component analysis,MSPCA)優(yōu)化ANN,MSPCA將原始過程樣本分解為多尺度分量,將PCA通過提取線性關(guān)系來解相關(guān)變量的能力與小波分析能力相結(jié)合,以提取確定性特征,并大致去相關(guān)自相關(guān)度量.MSPCA在每個(gè)尺度上執(zhí)行并計(jì)算小波系數(shù)的PCA,然后再在適當(dāng)?shù)某叨壬辖M合結(jié)果.因此,在減少不太相關(guān)的信號特征后,通過僅保留那些捕獲變量之間關(guān)系的潛在變量來獲得每個(gè)場景的重要特征.變量之間的關(guān)系通過PCA去相關(guān),而隨機(jī)測量值之間的關(guān)系通過小波分解近似地去相關(guān).因此,一旦測量值可用于代表過程中健康和不同的可能錯(cuò)誤場景,就會使用小波分解來消除誤差,并解除隨機(jī)測量之間的關(guān)系,然后創(chuàng)建PCA模型.從數(shù)據(jù)中提取和分離隨機(jī)和確定性特征,以限制噪聲和異常值的影響,并將模型準(zhǔn)確率提高到了93.63%,但是MSPCA涉及到計(jì)算協(xié)方差矩陣和特征值分解等操作,在處理大數(shù)據(jù)集或高維數(shù)據(jù)集時(shí)可能會非常耗時(shí).Kurukuru等[37]利用小波變換分析了識別輸出的銳點(diǎn),并提取了相應(yīng)的特征,使RBF的準(zhǔn)確率達(dá)到了97.05%,并可以有效地克服噪聲帶來的干擾.然而,該方法只考慮了低頻信號.Alves等[38]使用數(shù)據(jù)增強(qiáng)技術(shù)(data augmentation,DA)、欠采樣與過采樣來克服數(shù)據(jù)不平衡問題.DA是一種常用于深度學(xué)習(xí)中的技術(shù),通過對原始數(shù)據(jù)進(jìn)行隨機(jī)變換(如翻轉(zhuǎn)、旋轉(zhuǎn)和裁剪等),生成新的數(shù)據(jù)集,以增加原有數(shù)據(jù)集的樣本數(shù)量.但是DA只適用于照片等數(shù)據(jù)集,無法對常規(guī)數(shù)據(jù)集進(jìn)行操作.
ANN在光伏故障監(jiān)測中具有高準(zhǔn)確率、強(qiáng)魯棒性和對異常值的容錯(cuò)能力,尤其適用于處理復(fù)雜的非線性數(shù)據(jù).然而,ANN也存在不足,例如,需要大量訓(xùn)練數(shù)據(jù)和較長訓(xùn)練時(shí)間,對參數(shù)選擇要求高,且數(shù)據(jù)質(zhì)量直接影響監(jiān)測結(jié)果.總體而言,ANN在需要高準(zhǔn)確率的場景下具有顯著競爭力.
1.6 其他算法
除了上述算法外,研究人員還提出了線性回歸、非線性回歸、樸素貝葉斯(NB)和邏輯回歸等優(yōu)化算法.線性回歸結(jié)構(gòu)簡單但無法處理非線性數(shù)據(jù).Harrou等[39]結(jié)合支持向量回歸(SVR)、高斯過程回歸(GPR)與核密度估計(jì)(KDE)進(jìn)行故障監(jiān)測,發(fā)現(xiàn)基于GPR的系統(tǒng)性能優(yōu)于SVR.非線性回歸更能處理非線性數(shù)據(jù),但易過擬合且需選擇合適參數(shù).Jia等[40]提出的基于邏輯回歸的電弧故障監(jiān)測系統(tǒng)在實(shí)驗(yàn)中準(zhǔn)確率達(dá)到100%,但缺乏廣泛性和真實(shí)測試.Niazi等[41]基于NB的光伏熱斑故障監(jiān)測系統(tǒng)分類準(zhǔn)確率為94.10%,但無法分類故障類型.集成算法如XGBoost、AdaBoost、RF與多種技術(shù)結(jié)合的方法常用于故障監(jiān)測.Yang等[42]提出的基于投票的線性回歸、DT和SVM系統(tǒng),經(jīng)過歸一化處理后,在不同情況下準(zhǔn)確率均超過99.89%.盡管多種技術(shù)結(jié)合提高了準(zhǔn)確率,但性能提升與成本消耗不成正比.
2 監(jiān)測結(jié)果
不同技術(shù)在故障監(jiān)測中的性能表現(xiàn)差異顯著.對于含噪數(shù)據(jù)集,提取8個(gè)特征值時(shí),SVM準(zhǔn)確率最高(94.83%),KNN、DT、RF和ANN分別為83.63%、85.88%、89.5%和94.21%;直接使用I-V曲線數(shù)據(jù)時(shí),SVM、KNN、DT、RF和ANN準(zhǔn)確率分別為99.25%、89.83%、94%、96.5%和99.92%;使用特征提取技術(shù)后,SVM、KNN、DT、RF和ANN準(zhǔn)確率分別為98.88%、95.42%、97.21%、98.25%和100%[43].數(shù)據(jù)預(yù)處理顯著提高了監(jiān)測準(zhǔn)確率,證明其重要性.對于大數(shù)據(jù)集,DT和KNN準(zhǔn)確率分別為89.92%和82.50%,SVM和ANN分別為98.64%和99.65%,且ANN、SVM、KNN和DT花費(fèi)時(shí)間分別為205.26、15.58、0.71和0.75s[44].另一組數(shù)據(jù)集下,SVM、KNN和ANN準(zhǔn)確率分別為80.3%、56.8%和92.8%[45].SVM與ANN在光伏故障監(jiān)測中表現(xiàn)出較高的準(zhǔn)確率,尤其是ANN在大數(shù)據(jù)集上表現(xiàn)更佳.不同“內(nèi)核”模型性能各異,經(jīng)過歸一化預(yù)處理的較大數(shù)據(jù)集上,KNN(歐式、曼哈頓、馬氏和余弦)準(zhǔn)確率分別為98.6%、99.29%、99.04%和97.85%,DT(基尼指數(shù)、系綜規(guī)則和偏差)分別為99.73%、99.73%和99.79%,SVM(線性、二次項(xiàng)、三次項(xiàng)和高斯徑向基)為99.97%、100%、100%和100%[6].SVM在故障檢測上表現(xiàn)優(yōu)異,但在故障分類時(shí)準(zhǔn)確率(平均為82.34%)低于DT(平均為85.55%).此外,KNN監(jiān)測故障耗時(shí)最長(平均為1 608.72 ms),其次是SVM(平均為5.82 ms),DT最短(平均為3.44 ms).分類時(shí),KNN耗時(shí)最長(平均為1 247.94 ms),其次是SVM(平均為185.52 ms),DT最短(平均為6.151 ms).綜上,ANN與SVM耗時(shí)較久,DT實(shí)現(xiàn)故障監(jiān)測更快,而KNN耗時(shí)與數(shù)據(jù)集大小相關(guān).
對于ANN,不同模型在故障監(jiān)測中的表現(xiàn)各異.在無噪聲情況下,MLP對短路和斷路故障的準(zhǔn)確率分別為99.1%和100%,優(yōu)于PNN的96.7%和99.4%.在含噪聲數(shù)據(jù)中,MLP分別為97.2%和100%,而PNN為67.5%和92.2%[46].MLP的準(zhǔn)確率優(yōu)于RBF(高出0.5%),但計(jì)算時(shí)間更長(MLP需290 ms,RBF需45 ms).PNN比RBF準(zhǔn)確率更高且耗時(shí)更短(PNN平均為15.3 s,RBF平均為30 s).在高維大數(shù)據(jù)集上,CNN優(yōu)于PNN,精度更高,損失更低,收斂更快.
總體而言,SVM適用于小樣本數(shù)據(jù)集,ANN適用于復(fù)雜數(shù)據(jù)集,但兩者耗時(shí)較長.DT監(jiān)測速度快,適合多元分類,但處理非線性數(shù)據(jù)能力較差.高維數(shù)據(jù)推薦使用SVM、RF和ANN.對于含故障數(shù)據(jù)集,ANN表現(xiàn)最佳.由于真實(shí)數(shù)據(jù)集通常非線性且復(fù)雜,對模型準(zhǔn)確率要求高,雖然優(yōu)化模型可提升準(zhǔn)確率,但也引入其他問題.隨著ANN技術(shù)和硬件的發(fā)展,基于ANN的光伏故障監(jiān)測系統(tǒng)將受到更多關(guān)注.
3 結(jié) 語
由于傳統(tǒng)監(jiān)測技術(shù)的局限性,以及相關(guān)技術(shù)的飛速迭代,研究人員對基于有監(jiān)督機(jī)器學(xué)習(xí)的光伏故障監(jiān)測技術(shù)進(jìn)行了大量研究.本文對常用基于有監(jiān)督機(jī)器學(xué)習(xí)的光伏故障監(jiān)測系統(tǒng)進(jìn)行了全面總結(jié),包括不同的技術(shù)及其在光伏故障監(jiān)測中的應(yīng)用、優(yōu)缺點(diǎn)及發(fā)展趨勢等方面,不同技術(shù)總結(jié)見表1.基于有監(jiān)督機(jī)器學(xué)習(xí)的光伏故障監(jiān)測系統(tǒng)已經(jīng)逐漸發(fā)展成為重要的監(jiān)測手段,并且已經(jīng)取得了一些顯著的研究成果,由于ANN模型在光伏故障監(jiān)測領(lǐng)域的優(yōu)勢(高準(zhǔn)確率,高魯棒性,很好地處理故障數(shù)據(jù)、高維數(shù)據(jù)與非線性數(shù)據(jù)),因此,預(yù)測基于ANN的監(jiān)測系統(tǒng)將逐步成為研究主流.不同的技術(shù)各有其優(yōu)缺點(diǎn),在實(shí)際應(yīng)用中需要根據(jù)具體情況選擇合適的算法.雖然這些算法和技術(shù)已經(jīng)有了很好的發(fā)展,但仍需要進(jìn)一步研究以提高其性能,優(yōu)化算法,并對優(yōu)化算法進(jìn)行改進(jìn),多模態(tài)數(shù)據(jù)分析(如除能處理數(shù)字?jǐn)?shù)據(jù)集之外,還能夠處理圖像和視頻等數(shù)據(jù)集)、智能化發(fā)展與多種技術(shù)相結(jié)合將會是光伏故障監(jiān)測系統(tǒng)的發(fā)展趨勢.
參考文獻(xiàn):
[1]Sayyad J,Nasikkar P.Design and development of low cost,portable,on-field IV curve tracer based on capacitor loading for high power rated solar photovoltaic modules[J].IEEE Access,2021,9:70715-70731.
[2]Santhakumari M,Sagar N.A review of the environmental factors degrading the performance of silicon wafer-based photovoltaic modules:Failure detection methods and essential mitigation techniques[J].Renew Sust Energ Rev,2019,110:83-100.
[3]Pilario K E,Shafiea M,Cao Y,et al.A review of kernel methods for feature exratction in nonlinear process monitoring[J].Processes,2020,8(1):24-1-24-47.
[4]Cai X,Wai R J.Intelligent DC arc-fault detection of solar PV power generation system via optimized VMD-based signal processing and PSO-SVM classifier[J].IEEE J Photovolt,2022,12(4):1058-1077.
[5]Wang J,Gao D,Zhu S,et al.Fault diagnosis method of photovoltaic array based on support vector machine[J].Energ Source Part A,2019,45(2):5380-5395.
[6]Badr M M,Hamad M S,Abdel-Khalik A S,et al.Fault identification of photovoltaic array based on machine learning classifiers[J].IEEE Access,2021,9:159113-159132.
[7]Eskandari A,Milimonfared J,Aghaei M,et al.Autonomous monitoring of line-to-line faults in photovoltaic systems by feature selection and parameter optimization of support vector machine using genetic algorithms[J].Appl Sci,2020,10(16):5527-1-5527-15.
[8]Ahmed Q I,Attar H,Amer A,et al.Development of a hybrid support vector machine with grey wolf optimization algorithm for detection of the solar power plants anomalies[J].Systems,2023,11(5):237-1-237-20.
[9]宋玉生,劉光宇,朱凌,等.改進(jìn)的灰狼優(yōu)化算法在SVM參數(shù)優(yōu)化中的應(yīng)用[J].傳感器與微系統(tǒng),2022,41(9):151-155.
[10]Yuan W,Wang T,Diallo D.A secondary classification fault diagnosis strategy based on PCA-SVM for cascaded photovoltaic grid-connected inverter[C]//IECON 2019-45th Annual Conference of the IEEE Industrial Electronics Society.Lisbon,Portugal:IEEE,2019,1:5986-5991.
[11]Miao W,Xu Q,Lam K H,et al.DC arc-fault detection based on empirical mode decomposition of arc signatures and support vector machine[J].IEEE Sens J,2020,21(5):7024-7033.
[12]Wang L,Qiu H,Yang P,et al.Arc fault detection algorithm based on variational mode decomposition and improved multi-scale fuzzy entropy[J].Energies,2021,14(14):4137-1-4137-16.
[13]Yi Z,Etemadi A H.Line-to-line fault detection for photovoltaic arrays based on multiresolution signal decomposition and two-stage support vector machine[J].IEEE T Ind Electron,2017,64(11):8546-8556.
[14]Sun J,Sun F,F(xiàn)an J,et al.Fault diagnosis model of photovoltaic array based on least squares support vector machine in Bayesian framework[J].Appl Sci,2017,7(11):1199-1-1199-14.
[15]Chouay Y,Ouassaid M.A multi-stage SVM based diagnosis technique for photovoltaic PV systems[C]//Advances in Robotics,Automation and Data Analytics:Selected Papers from iCITES 2020.Berlin,Germany:Springer International Publishing,2021:183-193.
[16]Benkercha R,Moulahoum S.Fault detection and diagnosis based on C4.5 decision tree algorithm for grid connected PV system[J].Sol Energy,2018,173:610-634.
[17]Wang H,Sun F.Optimal sensor placement and fault diagnosis model of PV array of photovoltaic power stations based on XGBoost[C]//IOP Conference Series:Earth and Environmental Science.Beijing,China:IOP Publishing,2021,661(1):012025-1-012025-9.
[18]Liu B,Wang X,Sun K,et al.Fault diagnosis of photovoltaic array based on xgboost method[C]//2021 IEEE Sustainable Power and Energy Conference (iSPEC).Nanjing,China:IEEE,2021:3733-3738.
[19]Du Y,Ding R,Wang D S,et al.Research on islanding detection method of distributed photovoltaic power supply based on improved AdaBoost algorithm[C]//2020 IEEE Power amp; Energy Society General Meeting (PESGM).Montreal,Canada:IEEE,2020:1-5.
[20]Kapucu C,Cubukcu M.A supervised ensemble learning method for fault diagnosis in photovoltaic strings[J].Energy,2021,227:120463-1-120463-12.
[21]Chen Z,Han F,Wu L,et al.Random forest based intelligent fault diagnosis for PV arrays using array voltage and string currents[J].Energ Convers Manage,2018,178:250-264.
[22]劉新鋒,張旖旎,徐惠三,等.基于隨機(jī)森林和專家系統(tǒng)的分布式光伏電站陰影遮擋診斷[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2021,51(2):98-104.
[23]Dhibi K,F(xiàn)ezai R,Mansouri M,et al.A hybrid fault detection and diagnosis of grid-tied pv systems:Enhanced random forest classifier using data reduction and interval-valued representation[J].IEEE Access,2021,9:64267-64277.
[24]Yang N C,Ismail H.Robust intelligent learning algorithm using random forest and modified-independent component analysis for PV fault detection:In case of imbalanced data[J].IEEE Access,2022,10:41119-41130.
[25]吳忠強(qiáng),曹碧蓮,侯林成,等.基于小波包變換和隨機(jī)森林算法的光伏系統(tǒng)故障分類[J].計(jì)量學(xué)報(bào),2021,42(12):1650-1657.
[26]張治,馬輝,王林.采用AFCM-SMOTE-RF的光伏電站故障診斷方法[J].電源技術(shù),2021,45(11):1495-1499.
[27]汪洋,閆天一,陳鳳云,等.基于FCM和SRF組合的光伏組件故障診斷研究[J].電源技術(shù),2019,43(12):2009-2013,2057.
[28]Dhibi K,F(xiàn)ezai R,Mansouri M,et al.Reduced kernel random forest technique for fault detection and classification in grid-tied PV systems[J].IEEE J Photovolt,2020,10(6):1864-1871.
[29]葉進(jìn),盧泉,王鈺淞,等.基于級聯(lián)隨機(jī)森林的光伏故障診斷模型研究[J].太陽能學(xué)報(bào),2021,42(3):358-362.
[30]Manohar M,Koley E,Kumar Y,et al.Discrete wavelet transform and kNN-based fault detector and classifier for PV integrated microgrid[C]//Advances in Data and Information Sciences:Proceedings of ICDIS-2017.Singapore:Springer Singapore,2018:19-28.
[31]Swarna K S V,Vinayagam A,Ananth M B J,et al.A KNN based random subspace ensemble classifier for detection and discrimination of high impedance fault in PV integrated power network[J].Measurement,2022,187:110333-1-110333-20.
[32]Harrou F,Taghezouit B,Sun Y.Improved KNN-based monitoring schemes for detecting faults in PV systems[J].IEEE J Photovolt,2019,9(3):811-821.
[33]Hichri A,Hajji M,Mansouri M,et al.Genetic-algorithm-based neural network for fault detection and diagnosis:Application to grid-connected photovoltaic systems [J].Sustainability,2022,14(17):10518-1-10518-14.
[34]Eldeghady G S,Kamal H A,Hassan M A M.Fault diagnosis for PV system using a deep learning optimized via PSO heuristic combination technique[J].Electr Eng,2023,105(4):1-15.
[35]Yu J,Liu Y.Research on fault diagnosis of photovoltaic array based on ACA-RBF neural network model[C]//2022 4th International Conference on Power and Energy Technology (ICPET).Beijing,China:IEEE,2022:731-735.
[36]Attouri K,Mansouri M,Hajji M,et al.Effective fault diagnosis in grid connected photovoltaic systems using multiscale PCA based artificial neural network technique[C]//2022 8th International Conference on Control,Decision and Information Technologies (CoDIT).Istanbul,Turkey:IEEE,2022,1:1318-1323.
[37]Kurukuru V S B,Blaabjerg F,Khan M A,et al.A novel fault classification approach for photovoltaic systems[J].Energies,2020,13(2):308-1-308-17.
[38]Alves R H F,de Deus Junior G A,Marra E G,et al.Automatic fault classification in photovoltaic modules using Convolutional Neural Networks[J].Renew Energ,2021,179:502-516.
[39]Harrou F,Saidi A,Sun Y,et al.Monitoring of photovoltaic systems using improved kernel-based learning schemes[J].IEEE J Photovolt,2021,11(3):806-818.
[40]Jia F,Luo L,Gao S,et al.Logistic regression based arc fault detection in photovoltaic systems under different conditions[J].Journal of Shanghai Jiaotong University (Science),2019,24:459-470.
[41]Niazi K A K,Akhtar W,Khan H A,et al.Hotspot diagnosis for solar photovoltaic modules using a Naive Bayes classifier[J].Sol Energy,2019,190:34-43.
[42]Yang N C,Ismail H.Voting-based ensemble learning algorithm for fault detection in photovoltaic systems under different weather conditions[J].Mathematics,2022,10(2):285-1-285-18.
[43]Li B,Delpha C,Migan-Dubois A,et al.Fault diagnosis of photovoltaic panels using full I-V characteristics and machine learning techniques[J].Energ Convers Manage,2021,248:114785-1-114785-13.
[44]Da Costa C H,Moritz G L,Lazzaretti A E,et al.A comparison of machine learning-based methods for fault classification in photovoltaic systems[C]//2019 IEEE PES Innovative Smart Grid Technologies Conference-Latin America (ISGT Latin America).Gramado,Brazil:IEEE,2019:1-6.
[45]Ul-Haq A,Sindi H F,Gul S,et al.Modeling and fault categorization in thin-film and crystalline PV arrays through multilayer neural network algorithm[J].IEEE Access,2020,8:102235-102255.
[46]Vieira R G,Dhimish M,de Araújo F M U,et al.Comparing multilayer perceptron and probabilistic neural network for PV systems fault detection[J].Expert Syst Appl,2022,201:117248-1-117248-16.
(實(shí)習(xí)編輯:林 璐)
Review of Supervised Machine Learning Based on Photovoltaic Fault Monitoring System
DONG Huangfeng1,2,GUO Xingping1,2,JI Xuan1,2,XIAO Wenbo1,2
(1.Key Laboratory of Nondestructive Testing Technology of Ministry of Education,Nanchang Hangkong University,Nanchang 330063,China;
2.Engineering Laboratory of Optoelectronics Detection Technology in Jiangxi Province,Nanchang Hangkong University,Nanchang 330063,China)
Abstract:
This article provides a systematic summary of supervised machine learning techniques for photovoltaic fault monitoring.Support Vector Machine (SVM) is sensitive to the penalty factor and kernel function,and its accuracy can be improved by optimizing parameter selection and preprocessing the data.Decision Tree (DT) is prone to overfitting,but this can be avoided by using pruning technique.Random Forest (RF) requires high-quality data and tuning,which can be achieved by generating data through algorithms and by using optimization algorithms for parameter tuning,thereby improving the monitoring accuracy.K-Nearest Neighbors (KNN) has poor performance in handling high-dimensional data,but an appropriate kernel function can be introduced to address this issue,and data preprocessing techniques can also improve KNN’s monitoring accuracy.Artificial Neural Network (ANN) requires a large amount of data for training and parameter selection,which can be addressed by optimization algorithms.Furthermore,ANN and SVM have the highest accuracy,albeit time-consuming,whereas DT is faster,but less accurate.The future trend is to further optimize the algorithms,integrate them with deep learning,and develop intelligent systems.ANN’s high accuracy in fault monitoring,and the prediction systems based on neural networks are expected to become the mainstream method of fault monitoring.
Key words:
photovoltaic fault;supervised machine learning;neural network;monitoring system
收稿日期:2023-07-13
基金項(xiàng)目:國家自然科學(xué)基金(12064027、62065014);研究生創(chuàng)新專項(xiàng)(YC2022-113、YC2022-118)
作者簡介:董煌鋒(1999—),男,碩士研究生,從事監(jiān)督機(jī)器學(xué)習(xí)的光伏故障監(jiān)測系統(tǒng)研究.E-mail:1833202664@qq.com
通信作者:肖文波(1975—),男,博士,教授,從事半導(dǎo)體光電檢測研究.E-mail:70075@nchu.edu.cn