楊 君,林 翀,周皖奎
(杭州華電下沙熱電有限公司,浙江 杭州 310018)
光伏發(fā)電光伏組件多部署于地勢(shì)復(fù)雜、環(huán)境惡劣的場所,依靠人工巡檢的方式排查和診斷故障時(shí)效性差,難以檢出故障,影響電池壽命和發(fā)電效率,甚至?xí)l(fā)事故。因此,需采用有效的光伏故障診斷方法,以提高故障檢出的時(shí)效性和檢出率,降低人工成本。
目前,光伏組件的故障診斷主要有傳統(tǒng)巡檢和智能算法等方式。人工巡檢診斷方式主要有熱成像法、對(duì)地電容測(cè)量法以及經(jīng)驗(yàn)觀察法等。由于它的時(shí)效性差、巡檢周期長以及成本高,光伏組件的故障診斷正逐漸地被智能分析法取代。陶彩霞針對(duì)光伏陣列的常見故障類型,提出基于深度信念網(wǎng)絡(luò),通過故障數(shù)據(jù)的樣本積累度模型進(jìn)行訓(xùn)練,從而診斷光伏的常規(guī)故障。但是,采用深度網(wǎng)絡(luò)對(duì)少量的光伏故障數(shù)據(jù)進(jìn)行處理,容易出現(xiàn)模型欠擬合和難以收斂的問題[1]。Kang B K利用環(huán)境溫度、光伏組件電流以及電壓,提出了基于卡爾曼濾波器的故障檢測(cè)模型,但模型無法穩(wěn)定數(shù)據(jù)的明顯擾動(dòng),導(dǎo)致無法檢出故障類型[2]。Ding H提出了一種決策樹模型檢測(cè)故障和識(shí)別故障類型,其監(jiān)督學(xué)習(xí)方式針對(duì)小樣本的效果并不明顯,且忽視了環(huán)境擾動(dòng)對(duì)模型帶來的影響[3]。YI Z基于模式識(shí)別方法和模糊推理系統(tǒng)確定光伏是否發(fā)生故障,其模糊系統(tǒng)的建立依靠個(gè)人經(jīng)驗(yàn)需反復(fù)試湊,主觀性較大[4]。
針對(duì)以上問題,提出了基于AE和K-Means++的光伏組件故障診斷方法,利用AE表征學(xué)習(xí)少量樣本的連續(xù)參數(shù),進(jìn)行去線性化,降低參數(shù)內(nèi)部的耦合性,然后通過AE壓縮降維后,采用K-Means++對(duì)AE生成的降維特征進(jìn)行聚類。該方法能明顯降低故障類別的混淆,有效分類故障模式。
自編碼器是一種能夠通過無監(jiān)督學(xué)習(xí)學(xué)到輸入數(shù)據(jù)并高效表示的人工神經(jīng)網(wǎng)絡(luò)。自編碼器包含編碼器(Encoder)和解碼器(Decoder)兩部分,如圖1所示。自編碼器隱含層神經(jīng)元個(gè)數(shù)小于輸入層神經(jīng)網(wǎng)絡(luò)個(gè)數(shù)即可進(jìn)行數(shù)據(jù)壓縮和降維,通過對(duì)已有無標(biāo)簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)之間的關(guān)鍵表征,舍棄一些數(shù)據(jù)間共有的無關(guān)緊要的特征,從而降低在高維空間下不同類型數(shù)據(jù)特征之間的混淆。

圖1 自編碼器結(jié)構(gòu)
K-Means算法是解決聚類問題的經(jīng)典算法,簡單快速。當(dāng)結(jié)構(gòu)集是密集的,簇與簇之間區(qū)別明顯時(shí),聚類算法的結(jié)果較好。在處理大量數(shù)據(jù)時(shí),該算法具有較高的可伸縮性和高效性。
傳統(tǒng)的K-Means算法擁有許多優(yōu)勢(shì),同時(shí)存在K值需要事先指定、對(duì)初始聚類中心敏感、對(duì)噪聲敏感以及只能發(fā)現(xiàn)球狀簇的缺陷。其中,初始聚類中心敏感的特性對(duì)模型影響最大。若聚類中心選取不合理,聚類會(huì)出現(xiàn)偏差、空簇甚至計(jì)算失敗的情況,影響聚類的穩(wěn)定性。合理選擇初始聚類中心可以加快算法的收斂,避免聚類陷入局部最優(yōu)。多次K-Means聚類取平均的方法能夠在一定程度上降低其影響。但是,對(duì)于多次聚類差異較大的聚類中心,其平均值會(huì)受較大的影響。因此,考慮采用K-Means++的方式進(jìn)行聚類,改進(jìn)傳統(tǒng)K-Means算法隨機(jī)選取K個(gè)點(diǎn)作為初始聚類中心的問題,實(shí)現(xiàn)步驟如下。第一步,隨機(jī)選取一個(gè)點(diǎn)P1作為聚類中心。第二步,求樣本中每個(gè)點(diǎn)與前n(1<n<K)個(gè)聚類中心距離的和。第三步,選擇距離最遠(yuǎn)的樣本點(diǎn)作為下一個(gè)簇的初始聚類中心。第四步,重復(fù)第二步和第三步,直到找出K個(gè)初始聚類中心。
基于AE和K-Means++的光伏故障診斷方法需要獲取故障樣本數(shù)據(jù),通過AE降維和K-Means++聚類分析獲取聚類中心及對(duì)應(yīng)類別,最后利用新的故障數(shù)據(jù)診斷故障。具體步驟如下:第一,獲取光伏組件原始故障數(shù)據(jù);第二,根據(jù)原始數(shù)據(jù)集訓(xùn)練AE,當(dāng)AE模型收斂并評(píng)估達(dá)到要求后,保存AE模型、結(jié)構(gòu)以及權(quán)重;第三,獲取AE編碼器部分層,通過保存的模型權(quán)重將數(shù)據(jù)降維為2維,以便聚類和可視化分析;第四,利用K-Means++聚類分析AE降維后的數(shù)據(jù)集,保存聚類中心,并將聚類中心與光伏故障類別相對(duì)應(yīng);第五,獲取新的故障數(shù)據(jù),通過AE進(jìn)行降維后計(jì)算降維后的數(shù)據(jù)與保存的聚類中心的距離,距離最近的聚類中心對(duì)應(yīng)的故障類別即為光伏當(dāng)前故障類別;第六,通過新的數(shù)據(jù)集重新更新聚類中心,使模型不斷地自省和完善,提升模型故障診斷的準(zhǔn)確率。
光伏組件內(nèi)部特性的改變會(huì)引起如最大功率電壓、電流以及輸出功率等指標(biāo)的改變。理論上,光伏組件發(fā)電量的計(jì)算式為:

式中,L為發(fā)電總量;Q為斜面總輻照量;S為光伏總面積;η為光電轉(zhuǎn)換效率。由于輻照、溫度、積灰、蒸發(fā)量以及氣壓等各種外部因素的影響,光伏發(fā)電量往往沒有那么多。因此,為準(zhǔn)確分析光伏組件的故障,需綜合考慮光伏組件的內(nèi)外影響因素。選取最主要的輸出電流、輸出電壓、環(huán)境溫度、凈輻射瞬時(shí)值、蒸發(fā)量、氣壓以及輸出功率等內(nèi)外部參數(shù)作為輸入,重點(diǎn)分析常見的短路、開路、老化以及遮擋故障類型。選取遼寧某光伏廠家SSM235P-60型多晶硅組件,分別采集不同季節(jié)、不同輻照以及不同溫度條件下的組件故障數(shù)據(jù)。每種故障數(shù)據(jù)100條,共400條故障數(shù)據(jù),其中320條數(shù)據(jù)用于自編碼器訓(xùn)練,80條數(shù)據(jù)用于自編碼器驗(yàn)證和分類測(cè)試,如表1所示。

表1 光伏組件故障數(shù)據(jù)分布
光伏樣本數(shù)據(jù)特征數(shù)為7。對(duì)于特征維度較小的數(shù)據(jù)樣本,為防止過擬合,選取僅含一個(gè)隱含層的自編碼器。為便于數(shù)據(jù)可視化和聚類分析,隱含維度為2作為數(shù)據(jù)壓縮的維度。自編碼器結(jié)構(gòu)如表2所示。

表2 自編碼器網(wǎng)絡(luò)結(jié)構(gòu)
為避免網(wǎng)絡(luò)過擬合,提升網(wǎng)絡(luò)的穩(wěn)定性,在原始數(shù)據(jù)上增加隨機(jī)擾動(dòng)作為輸入,原始數(shù)據(jù)作為輸出,并增加L2正則化項(xiàng),模型batch_size=8,epoch=100。經(jīng)過100輪迭代后,網(wǎng)絡(luò)訓(xùn)練結(jié)果如圖2(a)所示??梢?,在23輪前,模型訓(xùn)練損失急劇下降,隨后趨于平穩(wěn)。模型精度如圖2(b)所示,由于添加了正則化項(xiàng),驗(yàn)證集模型精度比訓(xùn)練集模型精度稍高,模型在訓(xùn)練集和驗(yàn)證集上模型精度均超過95%,驗(yàn)證集精度更是超過98%。由此可知,該自編碼器滿足對(duì)光伏組件數(shù)據(jù)特征的提取及降維要求。
通過K-Menas++聚類分析主成分分析(Principle Component Analysis,PCA)降維后的數(shù)據(jù),并利用輪廓圖分析聚類的性能。如圖3(a)所示,聚類分析在相應(yīng)的數(shù)據(jù)集上,強(qiáng)行將數(shù)據(jù)分析指定對(duì)應(yīng)的類別。由圖3(b)可知,聚類輪廓系數(shù)遠(yuǎn)低于1,且平均輪廓系數(shù)不到0.43,說明聚類類別存在明顯的重疊。
采用訓(xùn)練好的AE降維數(shù)據(jù),將輸入的7維數(shù)據(jù)降維為2維,利用K-Means++進(jìn)行聚類,聚類結(jié)果如圖4(a)所示。由圖4(b)可知,它的分類內(nèi)聚度總體較好,僅類別4分類內(nèi)聚度較低,單聚類平均輪廓系數(shù)達(dá)到0.63,總體聚類效果較好。
取數(shù)據(jù)集中用于驗(yàn)證AE模型的80條故障數(shù)據(jù)驗(yàn)證模型,通過AE降維后求最近的聚類中心判斷故障類別,其故障診斷具體信息如表2所示。除少量的開路和遮擋故障類別被分到其他類別外,該模型準(zhǔn)確分類了短路和老化故障類別。由此可知,AE能夠準(zhǔn)確地提取故障特征,并且利用K-Means++進(jìn)行聚類獲取聚類中心,在光伏組件故障診斷應(yīng)用中效果良好,結(jié)果如表3所示。

表3 模型故障診斷結(jié)果
本文基于AE和K-Means++算法診斷光伏組件的短路、老化、遮擋以及開路故障,分別采用AE對(duì)光伏組件這種非線性系統(tǒng)進(jìn)行特征提取和數(shù)據(jù)降維,通過聚類可視化分析分類識(shí)別降維后的數(shù)據(jù)特征,以達(dá)到故障診斷的目的。通過數(shù)據(jù)試驗(yàn)和對(duì)比分析可知,AE對(duì)復(fù)雜的數(shù)據(jù)特征降維的表現(xiàn)明顯優(yōu)于PCA。通過AE降維,將電壓、電流等連續(xù)呈條狀的數(shù)據(jù)分布形式進(jìn)行解耦和離散化,以充分滿足K-Means++聚類的需求。利用改進(jìn)的K-Means++,優(yōu)化初始聚類中心的選取,進(jìn)一步降低了不同類別之間的混淆,提升了故障診斷的準(zhǔn)確率。

圖2 自編碼器訓(xùn)練結(jié)果

圖3 數(shù)據(jù)PCA降維K-Means++聚類可視化

圖4 數(shù)據(jù)AE降維K-Means++聚類可視化