












摘要:針對(duì)冷水機(jī)組運(yùn)行過(guò)程中數(shù)據(jù)類別不平衡問(wèn)題,提出基于馬氏距離進(jìn)行“三角”區(qū)域插值的MSSMOTE方法對(duì)故障數(shù)據(jù)進(jìn)行擴(kuò)充,將得到的數(shù)據(jù)輸入CNN模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)冷水機(jī)組中7種故障的診斷。在不同擴(kuò)充比例下和同一種數(shù)據(jù)類型下分別進(jìn)行仿真測(cè)試,結(jié)果顯示:在擴(kuò)充比例為4時(shí),MSSMOTE-CNN模型對(duì)于正常樣本測(cè)試的準(zhǔn)確率和F1-score分別達(dá)到0.961和0.971,能夠較準(zhǔn)確識(shí)別出冷水機(jī)組的故障類型。
關(guān)鍵詞:MSSMOTE-CNN模型;數(shù)據(jù)不平衡;故障診斷;冷水機(jī)組
中圖分類號(hào):TP277文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5276(2024)06-0128-05
Abstract:To deal with the unbalanced data types during the operation of water chillers, this paper proposes the MSSMOTE method based on Mahalanobis distance and \"triangle\" area interpolation to expand the fault data, and input the obtained data into the CNN model for training, so as to realize the diagnosis of seven kinds of faults in water chillers. Simulation tests were conducted under different expansion ratios and the same data type. The results showed that when the expansion ratio was 4, the MSSMOTE-CNN model achieved an accuracy of 0.961 and a F1-score of 0.971 respectively for normal sample testing, which was capable of accurately identifying the fault type of the chiller.
Keywords:MSSMOTE-CNN model; data imbalance; fault diagnosis; water chilling unit
0引言
隨著國(guó)內(nèi)建筑全壽命周期能源消耗總量占據(jù)全國(guó)能源消耗總量比例的日益增高[1],如果暖通空調(diào)(heating, ventilating and air conditioning,HVAC)系統(tǒng)發(fā)生故障,不僅影響室內(nèi)環(huán)境的舒適度,而且會(huì)造成能源的大量浪費(fèi)。所以設(shè)備的故障診斷研究是非常有必要的[2]?;跀?shù)據(jù)的方法在異常檢測(cè)[3]和語(yǔ)音識(shí)別[4-5]等領(lǐng)域都展現(xiàn)出了一定的優(yōu)勢(shì)。可以說(shuō)工業(yè)互聯(lián)網(wǎng)和智能化技術(shù)的不斷發(fā)展為故障診斷技術(shù)帶來(lái)了新的機(jī)遇[6],但是在大數(shù)據(jù)背景下往往存在著極度的類別不平衡特性,即正常樣本數(shù)量遠(yuǎn)遠(yuǎn)多于故障樣本。這種情況嚴(yán)重影響傳統(tǒng)的基于數(shù)據(jù)驅(qū)動(dòng)故障診斷模型的診斷效果[7-9]。本文主要針對(duì)數(shù)據(jù)采樣方法中的過(guò)采樣方法進(jìn)行改進(jìn),研究基于數(shù)據(jù)的冷水機(jī)組故障診斷方法,有助于及時(shí)識(shí)別并解決冷水機(jī)組故障。
為了獲得更具競(jìng)爭(zhēng)力的平衡效果,基于過(guò)采樣的方法主要關(guān)注少數(shù)樣本,采用各種采集少數(shù)樣本的思想來(lái)擴(kuò)展其樣本集的大小。隨機(jī)復(fù)制幾種類型的樣本是一種相對(duì)簡(jiǎn)單的采樣思想,但單個(gè)復(fù)制的樣本只重復(fù)原始樣本信息,往往會(huì)導(dǎo)致分類模型的過(guò)擬合[10]。面向不平衡數(shù)據(jù)集的分類方法,一般基于SMOTE改進(jìn)的過(guò)采樣方法是將SMOTE方法與密度思想或者k-means聚類思想相結(jié)合,或者通過(guò)賦予選擇權(quán)重,以達(dá)到較好的樣本平衡化效果。有通過(guò)構(gòu)建穩(wěn)定空間和改變插值方式來(lái)降低樣本重疊性,進(jìn)而對(duì)故障數(shù)據(jù)進(jìn)行有效擴(kuò)充的[11],還有通過(guò)改變距離的度量方式來(lái)優(yōu)化數(shù)據(jù)擴(kuò)充方法的[12]。除此之外,還有很多基于支持向量機(jī)的平衡化樣本方法,其實(shí)驗(yàn)結(jié)果較傳統(tǒng)的分類算法具有更好的性能和更高的精度。
實(shí)際冷水機(jī)組運(yùn)行過(guò)程中通常存在類別不平衡以及多類型故障識(shí)別準(zhǔn)確率低的問(wèn)題。針對(duì)這兩種問(wèn)題,本文提出一種改進(jìn)的MSSMOTE樣本平衡化方法。最后將平衡化后得到的數(shù)據(jù)集輸入CNN模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)冷水機(jī)組運(yùn)行過(guò)程中多類故障的診斷。
1基于MSSMOTE-CNN的故障診斷模型
1.1故障的類型
根據(jù)COMSTOCK等[13]對(duì)美國(guó)主流冷水機(jī)組產(chǎn)品進(jìn)行的調(diào)查,同時(shí)列出了7種值得研究的故障類型,如表1所示。
在同一條件下,由于不同故障類型和同一故障類型的不同方面都有一定的影響,這會(huì)大大增加故障診斷模型構(gòu)建的難度。
1.2數(shù)據(jù)擴(kuò)充方法的對(duì)比
在傳統(tǒng)SMOTE方法的基礎(chǔ)上,SSMOTE和MSMOTE分別在插值方式和距離度量方式上進(jìn)行了改進(jìn)。本文將利用SSMOTE方法的插值方式改進(jìn)MSMOTE方法樣本重疊性低的問(wèn)題,其中SMOTE、SSMOTE和MSMOTE在距離度量方式和插值方式上的對(duì)比如表2所示。
1.3改進(jìn)的MSSMOTE方法
由于MSMOTE方法的聚類效果好,但是采用線性插值導(dǎo)致樣本重疊性較高,而SSMOTE方法的聚類效果較差,而采用的“三角”區(qū)域插值能降低樣本重疊性。為了得到更好的聚類效果,同時(shí)降低樣本重疊性,將SSMOTE方法中的“三角”區(qū)域插值方式與MSMOTE方法基于馬氏距離這兩個(gè)方式相結(jié)合,以改進(jìn)MSMOTE方法樣本重疊性低的問(wèn)題,以下是基于改進(jìn)后的MSSMOTE方法的具體步驟。
1)利用式(1)計(jì)算故障樣本集X∧min中的任意一個(gè)樣本X∧min,i到X∧min中其他樣本的馬氏距離,篩選出其中最小的k個(gè)樣本作為近鄰樣本,并記為X∧min,j。將少數(shù)類樣本X∧min,i與其近鄰樣本組合成形式為x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik的樣本組。
式中:S-1為S的逆矩陣,S為樣本協(xié)方差矩陣;k一般取值為5。
2)對(duì)于每個(gè)樣本組{x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik},統(tǒng)計(jì)其中的樣本x∧min,i1~x∧min,ik所對(duì)應(yīng)的故障類型標(biāo)簽,并設(shè)定比率閾值rs。對(duì)于樣本X∧min,i, 若在k個(gè)近鄰樣本的類型標(biāo)簽中與X∧min,i類型標(biāo)簽相同樣本的數(shù)目所占比例超過(guò)rs,則樣本X∧min,i被保留,否則被去除。通過(guò)這種方式對(duì)各個(gè)類型的樣本集進(jìn)行樣本篩選,每個(gè)類型的保留樣本構(gòu)成了所屬類型的穩(wěn)定特征空間集合St(t=1,2,…)。
3)在任一穩(wěn)定特征空間集合St中,隨機(jī)選出一個(gè)保留樣本x∧Sti。然后,在樣本x∧Sti的k個(gè)近鄰樣本中隨機(jī)選出兩個(gè)近鄰樣本x∧Sti1和x∧Sti2。最后,利用上述3個(gè)樣本合成新樣本x∧new,計(jì)算公式如下:
式中re1、re2和re3均為取值在0~1之間的隨機(jī)數(shù)。
MSSMOTE方法流程如圖1所示。首先將訓(xùn)練樣本集分為故障樣本集和正常樣本集,然后分別進(jìn)行歸一化,得到歸一化后的故障樣本集和正常樣本集。按照上面的步驟得到新樣本x∧new,直到x∧new和X∧min數(shù)量達(dá)到一定比例。將得到的新樣本添加到故障樣本集X∧min中,此時(shí)X∧max和X∧min構(gòu)成新的訓(xùn)練數(shù)據(jù)集。
2實(shí)驗(yàn)方案及仿真分析
2.1MSSMOTE方法可行性分析
在本節(jié)仿真過(guò)程中,選用了RP-1043公開數(shù)據(jù)集[14]中的LEVEL2數(shù)據(jù)集來(lái)訓(xùn)練MSSMOTE-CNN、MSSMOTE-LSTM和MSSMOTE-TCN模型,并測(cè)試各模型在正常和7種故障數(shù)據(jù)中的故障診斷性能。
故障診斷結(jié)果如圖2所示,混淆矩陣的橫向代表樣本預(yù)測(cè)類別,縱向?yàn)闃颖镜恼鎸?shí)類別。主對(duì)角線方塊中的數(shù)字代表正確分類的樣本數(shù)量,除主對(duì)角線以外的深色方塊中的數(shù)字表示錯(cuò)誤分類的樣本數(shù)量。可以看出,圖2(b)和圖2(c)中的第一行錯(cuò)誤分類的樣本數(shù)字和分別為20和9,大于圖2(a)中第一行錯(cuò)誤分類的樣本數(shù)字和3;同樣圖2(b)和圖2(c)中其余幾行錯(cuò)誤分類的樣本數(shù)字和都大于圖2(a)中相應(yīng)行的錯(cuò)誤分類的樣本數(shù)字和,這說(shuō)明MSSMOTE-LSTM和MSSMOTE-TCN錯(cuò)誤分類的樣本更多。從圖2(a)來(lái)看,MSSMOTE方法產(chǎn)生的數(shù)據(jù)在CNN模型上的適用性更好。
2.2故障診斷方案
基于MSSMOTE方法的冷卻系統(tǒng)故障診斷整體方案如圖3所示,具體流程如下。
1)仿真數(shù)據(jù)設(shè)定
本節(jié)所使用的數(shù)據(jù)集是從原始數(shù)據(jù)集中隨機(jī)選取了6 668個(gè)正常樣本,而每一種故障類型都僅選取了800個(gè)樣本,由此組成不平衡數(shù)據(jù)集。測(cè)試集則是由與不平衡數(shù)據(jù)集不重復(fù)的13 344個(gè)樣本組成。為了驗(yàn)證MSSMOTE方法的數(shù)據(jù)擴(kuò)充能力,在仿真過(guò)程中,選擇了SSMOTE和MSMOTE這兩種作為數(shù)據(jù)擴(kuò)充對(duì)比方法。分類器選用了在上節(jié)表現(xiàn)較好的CNN模型進(jìn)行訓(xùn)練。本文選擇準(zhǔn)確率(Accuracy)和F1分?jǐn)?shù)(F1-score)作為評(píng)價(jià)指標(biāo),其中F1分?jǐn)?shù)定義為精確率(Precision)和召回率(Recall)的調(diào)和平均值,是一個(gè)衡量分類模型綜合能力的指標(biāo),F(xiàn)1-score值越高說(shuō)明模型的綜合識(shí)別能力越好。評(píng)價(jià)指標(biāo)的混沌矩陣如表3所示,計(jì)算過(guò)程如下:
2)按照擴(kuò)充比例對(duì)MSSMOTE方法的性能測(cè)試
為了驗(yàn)證MSSMOTE方法的數(shù)據(jù)擴(kuò)充能力,在實(shí)驗(yàn)分析中,選擇了SSMOTE和MSMOTE作為數(shù)據(jù)擴(kuò)充對(duì)比方法,并將擴(kuò)充之后的數(shù)據(jù)輸入CNN模型中訓(xùn)練,MSSMOTE、SSMOTE和MSMOTE與CNN模型的組合分別簡(jiǎn)記為MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN。最后,使用測(cè)試集獲取3種模型各自的Accuracy和F1-score指標(biāo)。
測(cè)試結(jié)果如圖4所示,從圖中可以看出,在擴(kuò)充比例為1、2和3的情況下,3種方法擴(kuò)充的數(shù)據(jù)都可以使模型的Accuracy和F1-score指標(biāo)得到不同程度的上升,并且在擴(kuò)充比例為4時(shí)達(dá)到了最大值,但在4以上都有不同程度的下降。
詳細(xì)數(shù)據(jù)結(jié)果如表4所示??梢园l(fā)現(xiàn),在擴(kuò)充比例從0~1的變化階段,MSSMOTE-CNN方法的性能提升得更多,在Accuracy指標(biāo)中上升了15.1%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在Accuracy指標(biāo)中分別上升了5.8%和6.0%;MSSMOTE-CNN方法的性能在F1-score指標(biāo)中提升了16.9%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在F1-score指標(biāo)中分別提升了7.3%和4.7%;MSSMOTE-CNN在擴(kuò)充比例上升到4時(shí),Accuracy和F1-score兩項(xiàng)指標(biāo)達(dá)到最高值,分別為0.961和0.971。達(dá)到最大值之后MSSMOT-CNN還可以保持較穩(wěn)定的性能。
總之,相比較于其他方法,MSSMOTE方法可以實(shí)現(xiàn)更大比例的數(shù)據(jù)擴(kuò)充,仿真結(jié)果表明:MSSMOTE-CNN模型在解決冷水機(jī)組故障診斷問(wèn)題上具有出色的表現(xiàn)。
3)按照數(shù)據(jù)類型對(duì)MSSMOTE方法的性能測(cè)試。
為了進(jìn)一步分析MSSMOTE方法的性能,對(duì)MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN 3種模型在數(shù)據(jù)擴(kuò)充比例為4時(shí)的故障診斷表現(xiàn)進(jìn)行了詳細(xì)比較。使用測(cè)試集獲取了3種模型在每一種數(shù)據(jù)類型下的Accuracy和F1-score結(jié)果,3種模型的對(duì)比情況如圖5所示。
通過(guò)圖5中7種故障類型的Accuracy和F1-score指標(biāo)比較結(jié)果可以看出,SSMOTE-CNN和MSMOTE-CNN的表現(xiàn)相對(duì)接近;MSSMOTE-CNN明顯更高。
表5為在同一數(shù)據(jù)類型中3種方法的實(shí)驗(yàn)數(shù)據(jù)結(jié)果。從表5仿真結(jié)果數(shù)據(jù)可以看出,在RL故障的Accuracy指標(biāo)中,MSSMOTE-CNN比SSMOTE-CNN提高了15.9%,MSSMOTE-CNN比MSMOTE-CNN提升了14.7%。在其他數(shù)據(jù)類型中,相較于SSMOTE-CNN和MSMOTE-CNN兩種方法,MSSMOTE-CNN的Accuracy指標(biāo)都有不同程度的提升。而在CF故障的F1-score指標(biāo)結(jié)果中,MSSMOTE-CNN比SSMOTE-CNN提升了7.3%;在RO故障的F1-score結(jié)果中,MSSMOTE-CNN比MSMOTE-CNN提高了13.7%。在其他數(shù)據(jù)類型中,MSSMOTE-CNN比SSMOTE-CNN和MSMOTE-CNN在F1-Score上都有不同程度的提升。
3結(jié)語(yǔ)
本文為了解決冷水機(jī)組數(shù)據(jù)類別不平衡問(wèn)題,利用MSSMOTE方法實(shí)現(xiàn)數(shù)據(jù)的有效擴(kuò)充。訓(xùn)練結(jié)果顯示:在擴(kuò)充比例為4時(shí),對(duì)于正常樣本測(cè)試的Accuracy和F1-score值分別達(dá)到0.961和0.971,所構(gòu)建的MSSMOTE-CNN模型具有更好的故障診斷性能。但是從仿真結(jié)果數(shù)據(jù)可以看出,仍有一定的提升空間,并且本文仿真分析所采用的是公開數(shù)據(jù)集,必然會(huì)受到一些相關(guān)外在因素的影響,但本文尚未考慮這些問(wèn)題。
參考文獻(xiàn):
[1] 中國(guó)建筑節(jié)能協(xié)會(huì). 中國(guó)建筑能耗研究報(bào)告2020[J]. 建筑節(jié)能(中英文),2021,49(2):1-6.
[2] JIA F,LEI Y G,GUO L,et al. A neural network constructed by deep learning technique and its application to intelligent fault diagnosis of machines[J]. Neurocomputing,2018,272(C):619-628.
[3] WANG Z M,TIAN J Y,F(xiàn)ANG H,et al. LightLog:a lightweight temporal convolutional network for log anomaly detection on the edge[J]. Computer Networks,2022,203:108616.
[4] KORVEL G,TREIGYS P,TAMULEVICUS G,et al. Analysis of 2D feature spaces for deep learning-based speech recognition[J]. Journal of the Audio Engineering Society,2018,66(12):1072-1081.
[5] BOU NASSIF A,SHAHIN I,ATTILI I,et al. Speech recognition using deep neural networks:a systematic review[J]. IEEE Access,2885,7:19143-19165.
[6] 柴天佑,劉強(qiáng),丁進(jìn)良,等. 工業(yè)互聯(lián)網(wǎng)驅(qū)動(dòng)的流程工業(yè)智能優(yōu)化制造新模式研究展望[J]. 中國(guó)科學(xué):技術(shù)科學(xué),2022,52(1):14-25.
[7] DUAN A,GUO L,GAO H L,et al. Deep focus parallel convolutional neural network for imbalanced classification of machinery fault diagnostics[J]. IEEE Transactions on Instrumentation and Measurement,2020,69(11):8680-8689.
[8] HU Z X,JIANG P. An imbalance modified deep neural network with dynamical incremental learning for chemical fault diagnosis[J]. IEEE Transactions on Industrial Electronics,2019,66(1):540-550.
[9] YANG G,ZHONG Y,YANG L,et al. Fault diagnosis of harmonic drive with imbalanced data using generative adversarial network[J]. IEEE Transactions on Instrumentation and Measurement,2021,70:3519911.
[10] 丁勝奪,趙剛,閻紅巧,等. 基于遺傳理論的改進(jìn)數(shù)據(jù)過(guò)采樣方法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(2):185-190.
[11] 申存驍. 基于數(shù)據(jù)的冷水機(jī)組故障檢測(cè)與診斷[D]. 濟(jì)南:山東建筑大學(xué),2022.
[12] 程曉倩. 面向類別不平衡數(shù)據(jù)的工業(yè)過(guò)程多故障診斷方法研究[D]. 北京:北京化工大學(xué),2022.
[13] COMSTOCK M C, BRAUN J E, GROLL E A. A survey of common faults for chillers/discussion[J]. Ashrae Transactions, 2002, 108: 819.
[14]COMSTOCK M C, BRAUN J E, BERNHARD R. Development of analysis tools for the evaluation of fault detection and diagnostics in chillers[M]. [S.I]:Purdue University, 1999.
收稿日期:20230414
基金項(xiàng)目:國(guó)網(wǎng)天津市電力公司科技項(xiàng)目(KJ22-2-02);國(guó)網(wǎng)天津市電力公司科技項(xiàng)目(KJ21-1-21);天津理工大學(xué) 2022年天津市研究生科研創(chuàng)新項(xiàng)目(2022SKYZ070);天津理工大學(xué) 2022年校級(jí)研究生科研創(chuàng)新實(shí)踐項(xiàng)目(YJ2209);企業(yè)科技特派員項(xiàng)目(20YDTPJC01670)
第一作者簡(jiǎn)介:曹冉冉(1996—),女,河北邯鄲人,碩士研究生,研究方向?yàn)闄C(jī)械及機(jī)器學(xué)習(xí)算法,3401517075@qq.com。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.025