








摘 要:冷水機(jī)組的故障檢測(cè)與診斷(FDD)對(duì)調(diào)節(jié)室內(nèi)舒適度和管理建筑能耗具有重要意義。然而,原始數(shù)據(jù)中的特征冗余給故障診斷帶來(lái)很大困擾,為解決這一問(wèn)題,提出了一種結(jié)合機(jī)器學(xué)習(xí)回歸與分類的預(yù)測(cè)方法。首先,通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)及其變體精確預(yù)測(cè)高相關(guān)但低重要的特征,從而有效減少特征冗余。其次,利用支持向量機(jī)(SVM)對(duì)優(yōu)化后的特征進(jìn)行故障診斷,評(píng)估其效果。研究表明,采用結(jié)合LSTM與科爾莫格羅夫-阿諾德網(wǎng)絡(luò)(KAN)的模型(LSTM-KAN)優(yōu)化特征后,當(dāng)特征數(shù)減少至預(yù)設(shè)目標(biāo)特征的60%時(shí),診斷準(zhǔn)確率達(dá)94.23%,相比未優(yōu)化前的準(zhǔn)確率提高了16.64個(gè)百分點(diǎn);此外,訓(xùn)練次數(shù)大幅度減少,進(jìn)一步提升了模型的訓(xùn)練效率。該方法為冷水機(jī)組的故障檢測(cè)與診斷提供了更加高效和準(zhǔn)確的技術(shù)支持。
關(guān)鍵詞:故障檢測(cè)與診斷;冷水機(jī)組;特征優(yōu)化;長(zhǎng)短期記憶
中圖分類號(hào):TK018" " 文獻(xiàn)標(biāo)志碼:A" " 文章編號(hào):1671-0797(2025)05-0010-07
DOI:10.19514/j.cnki.cn32-1628/tm.2025.05.003
0" " 引言
供暖、通風(fēng)和空調(diào)系統(tǒng)(Heating,Ventilation and Air Conditioning,HVAC)是一種高能耗建筑裝置,當(dāng)出現(xiàn)維護(hù)不足、組件老化和控制紊亂時(shí),會(huì)發(fā)生故障。調(diào)查顯示,65%的住宅空調(diào)單元和71%的商業(yè)空調(diào)單元存在故障,這些故障帶來(lái)的能源損失占總建筑能耗的15%~30%[1],造成了巨大的能源浪費(fèi)和經(jīng)濟(jì)損失。因此,對(duì)故障快速準(zhǔn)確和低成本的診斷不僅能滿足國(guó)家節(jié)能要求,還能挽回經(jīng)濟(jì)損失。
HVAC的故障檢測(cè)與診斷技術(shù)(Fault Detection and Diagnosis,F(xiàn)DD)是一種嵌入在建筑能源管理系統(tǒng)中的先進(jìn)技術(shù),可用于檢測(cè)設(shè)備在運(yùn)行過(guò)程中的故障。近年基于數(shù)據(jù)驅(qū)動(dòng)的FDD技術(shù)研究占比接近70%[2],利用運(yùn)行數(shù)據(jù)來(lái)檢測(cè)和診斷系統(tǒng)中的故障,根據(jù)數(shù)據(jù)變化自動(dòng)更新模型,不僅能滿足智能化要求,還能應(yīng)對(duì)設(shè)備在長(zhǎng)期運(yùn)行過(guò)程中的性能變化[3]。原始數(shù)據(jù)特征冗余復(fù)雜,需要進(jìn)行特征選擇,選出一組最具代表性和區(qū)分性的特征子集。經(jīng)過(guò)大量研究驗(yàn)證,目前最佳的特征數(shù)集中在6~16個(gè),在8個(gè)特征時(shí)模型已具有很好的效果[4],但在10個(gè)特征后準(zhǔn)確率將隨特征數(shù)量的減少而急劇下降。然而特征個(gè)數(shù)對(duì)應(yīng)傳感器數(shù)量,特征數(shù)量過(guò)多不僅會(huì)增加模型的訓(xùn)練難度,還會(huì)增加經(jīng)濟(jì)成本。因此,在保證準(zhǔn)確率的前提下,優(yōu)化特征子集個(gè)數(shù)到6個(gè)是一個(gè)很大的挑戰(zhàn)。
針對(duì)上述問(wèn)題,提出LSTM-KAN的方法優(yōu)化特征,以SVM作為基分類器,利用特征重要度和皮爾遜相關(guān)性分析,對(duì)高相關(guān)性與低重要度的特征進(jìn)行預(yù)測(cè),不僅減少了初始特征的數(shù)量,還提高了最終的診斷準(zhǔn)確率。
1" " 故障數(shù)據(jù)及分析
1.1" "系統(tǒng)和數(shù)據(jù)
本研究使用的是ASHRAE組織的冷水機(jī)組故障模擬數(shù)據(jù),項(xiàng)目編號(hào)是ASHRAE-RP-1043,該項(xiàng)目利用實(shí)驗(yàn)室一臺(tái)90 t離心式冷水機(jī)組進(jìn)行故障模擬實(shí)驗(yàn),生成多種故障數(shù)據(jù)[5]。圖1是實(shí)驗(yàn)所用的單級(jí)冷水機(jī)組的系統(tǒng)圖,由壓縮機(jī)、冷凝器、膨脹閥和蒸發(fā)器組成,模擬的故障包括四個(gè)壓縮循環(huán)類故障:制冷劑過(guò)充(RO)、制冷劑欠充(RU)、不凝氣體(NC)和過(guò)量油(EO);三個(gè)水路循環(huán)故障:蒸發(fā)器水流量減少(FWE)、冷凝器水流量減少(FWC)和冷凝器結(jié)垢(CF)。
項(xiàng)目報(bào)告將每個(gè)故障分為4個(gè)強(qiáng)度等級(jí),在每個(gè)故障強(qiáng)度中選擇1 000組數(shù)據(jù)作為原始數(shù)據(jù)集,再集合5 000多組無(wú)故障數(shù)據(jù)得到33 000多組數(shù)據(jù),如表1所示。
1.2" " 數(shù)據(jù)預(yù)處理
故障檢測(cè)與診斷技術(shù)常用的歸一化方法有最小最大值歸一化、Sigmoid歸一化和Z值歸一化,最小最大值歸一化適合于數(shù)值分布均勻且不含異常值的情況,RP-1043數(shù)據(jù)符合該條件,因此選擇最小最大值歸一化進(jìn)行數(shù)據(jù)預(yù)處理,公式如下:
式中:xmin為特征x在所有樣本下的最小值;xmax為特征x在所有樣本下的最大值。
1.3" " 評(píng)估方法
模型評(píng)估是為了衡量模型訓(xùn)練后的性能,在訓(xùn)練LSTM及其變體形式算法預(yù)測(cè)效果時(shí)使用均方誤差(MSE)和決定系數(shù)(R2)兩種方法進(jìn)行評(píng)估,訓(xùn)練SVM分類效果時(shí)使用準(zhǔn)確率(Accurary)和F1得分(F1-Score)兩種方法進(jìn)行評(píng)估。
式中:n為樣本數(shù)量;yi為第i個(gè)觀測(cè)值的實(shí)際值;為第i個(gè)觀測(cè)值的預(yù)測(cè)值;y為所有實(shí)際值的均值;NTP表示真實(shí)和預(yù)測(cè)結(jié)果都為正的數(shù)量;NFP表示真實(shí)標(biāo)簽為負(fù),預(yù)測(cè)結(jié)果為正的數(shù)量;NFN表示真實(shí)標(biāo)簽為正,預(yù)測(cè)結(jié)果為負(fù)的數(shù)量;NTN表示真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果都為負(fù)的數(shù)量;Precision為查準(zhǔn)率;Recall為召回率。
2" " 算法介紹
2.1" " 多分類支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是一個(gè)功能強(qiáng)大而全面的機(jī)器學(xué)習(xí)模型,并且經(jīng)過(guò)大量研究驗(yàn)證,可選擇作為基分類器進(jìn)行故障診斷。基礎(chǔ)的SVM是二分類,通過(guò)尋找一個(gè)最優(yōu)超平面來(lái)分隔不同類別的樣本,如圖2所示。多分類SVM可以分為一對(duì)一分類或一對(duì)多分類,都是將多分類轉(zhuǎn)化為多個(gè)二分類問(wèn)題處理,區(qū)別在于一對(duì)一是每?jī)蓚€(gè)類別進(jìn)行對(duì)比,一對(duì)多是每個(gè)類別和其他類別進(jìn)行對(duì)比,本文使用的是一對(duì)多分類。
2.2" " LSTM算法模型
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體形式,能有效解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度爆炸問(wèn)題。LSTM由輸入門(mén)、遺忘門(mén)和輸出門(mén)組成[6],如圖3所示。輸入門(mén)it用來(lái)控制當(dāng)前時(shí)刻內(nèi)部狀態(tài)輸入信息保存,遺忘門(mén)ft控制上一時(shí)刻候選狀態(tài)和信息保留,輸出門(mén)ot控制當(dāng)前時(shí)刻內(nèi)部狀態(tài)的輸出,ct是當(dāng)前的內(nèi)部狀態(tài),ht是隱藏層的外部狀態(tài),t是通過(guò)非線性激活函數(shù)tanh的候選狀態(tài)[7]。
式中:ht-1是上一時(shí)刻的外部狀態(tài);xt是當(dāng)前時(shí)刻輸入數(shù)據(jù);σ是激活函數(shù);W、U和b是可學(xué)習(xí)參數(shù)。
2.3" " KAN
KAN是基于Kolmogorov-Arnold定理衍生的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),相對(duì)于多層感知機(jī)(Multi-Layer Perceptron,MLP),KAN模型將固定的非線性激活和線性參數(shù)學(xué)習(xí)變?yōu)閷?duì)參數(shù)非線性激活學(xué)習(xí),在保持靈活性的同時(shí),能夠以少量參數(shù)擬合復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),使得模型的網(wǎng)絡(luò)結(jié)構(gòu)具有更高的訓(xùn)練效率。KAN的網(wǎng)絡(luò)架構(gòu)如圖4所示,表達(dá)式如式(13)所示[8-9]。式中:x為n維輸入向量;φq,p為內(nèi)部函數(shù);Φq為外部函數(shù);b(x)為基礎(chǔ)函數(shù);silu(x)為Swish激活函數(shù),是sigmoid函數(shù)的一種變體;spline(x)為樣條函數(shù);ci為樣條參數(shù);Bi(x)為預(yù)定義基礎(chǔ)樣條函數(shù);Φ(x)為激活函數(shù),它是b(x)與spline(x)的總和。
KAN是MLP的一種替代方案,用于擺脫維度提高帶來(lái)的梯度爆炸,在LSTM中添加MLP和KAN架構(gòu),對(duì)處理復(fù)雜數(shù)據(jù)或解決特征密集的任務(wù)具有獨(dú)特的能力。
3" " 特征選擇和分析
原始特征冗余復(fù)雜,需要進(jìn)行多重處理,為了更好地尋找用于優(yōu)化的輸入特征和輸出特征,對(duì)原始數(shù)據(jù)集包含的65個(gè)特征進(jìn)行多次處理,如圖5所示。
首先人工剔除4個(gè)始終保持不變的無(wú)關(guān)特征:Unit Siatus、Active Fault、VH和VE,再利用基分類器特征重要度排除31個(gè)低重要度特征,這些特征重要度占比為19.5%,與診斷結(jié)果呈負(fù)相關(guān),會(huì)使診斷準(zhǔn)確率降低0.62%。這與基分類器處理復(fù)雜數(shù)據(jù)的能力有關(guān),SVM診斷特征重要度排序和特征分布如圖6所示,其中溫度特征和計(jì)算特征的重要度影響最大。
通過(guò)特征重要度篩選得到30個(gè)關(guān)鍵特征,平均診斷準(zhǔn)確率達(dá)到97.65%。以這些特征為基礎(chǔ),繪制了兩個(gè)降序排列的雷達(dá)圖:一個(gè)是基于特征重要度的圖7(a),另一個(gè)是基于皮爾遜相關(guān)性分析的圖7(b)。結(jié)果顯示,在特征數(shù)量從30減少到10的過(guò)程中,診斷準(zhǔn)確率的變化較小。然而,圖7(a)中特征重要度的準(zhǔn)確率下降速率明顯高于圖7(b)中皮爾遜相關(guān)性分析的準(zhǔn)確率下降速率。這表明特征重要度篩選有助于剔除相關(guān)性較低的特征。基于這一發(fā)現(xiàn),進(jìn)一步利用皮爾遜相關(guān)度分析剔除20個(gè)高相關(guān)度特征,僅保留10個(gè)最為關(guān)鍵的特征,這些特征的相關(guān)度閾值設(shè)定為0.73,最終診斷準(zhǔn)確率為95.87%。
當(dāng)特征集數(shù)量低于10個(gè)時(shí),診斷準(zhǔn)確率快速下降,6個(gè)特征時(shí)診斷準(zhǔn)確率減少到77.59%,此時(shí)特征重要度的準(zhǔn)確率下降速率低于皮爾遜相關(guān)度分析的準(zhǔn)確率下降速率,這證明在皮爾遜相關(guān)度分析時(shí)剔除了重要度高的特征,影響了診斷結(jié)果。圖8是10個(gè)特征的皮爾遜相關(guān)度分析矩陣圖,選擇相關(guān)度在[0.44,0.73)之間的5組特征對(duì),根據(jù)高相關(guān)性和低重要度要求篩選,但發(fā)現(xiàn)Cond Tons這個(gè)特征與其他3個(gè)低重要度特征都有關(guān)系,保留該特征為輸入特征。最終選擇的6個(gè)輸入特征是:FWC、FWE、TO_feed、Cond Tons、TWE_set、VC;選擇的4個(gè)輸出特征(目標(biāo)特征)是:Cond Energy Balance、PO_feed、PRE、TCA。
4" " 基于LSTM的特征優(yōu)化結(jié)果分析
選定的原始數(shù)據(jù)中包括10個(gè)特征,經(jīng)過(guò)特征重要度和皮爾遜相關(guān)性分析篩選,最終將10個(gè)特征分為6個(gè)輸入特征和4個(gè)輸出特征用于訓(xùn)練LSTM、LSTM-MLP、LSTM-KAN三種模型。這三種模型的訓(xùn)練和測(cè)試數(shù)據(jù)比例為8:2,總數(shù)據(jù)集為33 000多組。對(duì)于這三種模型,設(shè)置以下參數(shù):輸入特征數(shù)為6個(gè),輸出特征數(shù)為4個(gè),每個(gè)隱藏層包含64個(gè)神經(jīng)元。使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,其學(xué)習(xí)率設(shè)定為0.001,批次大小設(shè)置為32。最終模型的損失函數(shù)結(jié)果收斂在0.03附近,表明模型訓(xùn)練效果良好。
預(yù)測(cè)結(jié)果如圖9所示,為了更加清晰地展示基于LSTM-KAN預(yù)測(cè)的4個(gè)輸出特征測(cè)試情況,針對(duì)測(cè)試集數(shù)據(jù)6 000多個(gè)樣本,每100個(gè)數(shù)據(jù)設(shè)置為一個(gè)觀測(cè)點(diǎn),最終得到了60個(gè)觀測(cè)點(diǎn),可以看出預(yù)測(cè)值和真實(shí)值之間的相近程度。這樣處理后的數(shù)據(jù)可以更直觀地反映出模型在預(yù)測(cè)過(guò)程中的表現(xiàn),為進(jìn)一步分析和優(yōu)化提供了基礎(chǔ)。在真實(shí)值大幅度波動(dòng)的情況下,預(yù)測(cè)效果不佳,這是各種故障之間的數(shù)值差異性所致。訓(xùn)練完成后,通過(guò)將輸入特征和輸出特征合并,得到10個(gè)特征的33 000多個(gè)數(shù)據(jù)集,并為每個(gè)數(shù)據(jù)集添加了故障標(biāo)簽,進(jìn)行故障分類。
由表2可知,LSTM-KAN的效果優(yōu)于其他兩種,在近似的損失函數(shù)收斂值下,LSTM-KAN的訓(xùn)練次數(shù)僅為L(zhǎng)STM的1/10,LSTM-MLP的1/5,并且在診斷結(jié)果差距不大的情況下,MSE分別減少13.057 2和6.524 6,表明LSTM-KAN在預(yù)測(cè)上有更小的誤差;R2分別提高了0.007 3和0.003 0,表明LSTM-KAN在預(yù)測(cè)結(jié)果上更為精準(zhǔn),數(shù)據(jù)擬合效果更好。
為避免分類結(jié)果的不確定性,從每個(gè)標(biāo)簽中隨機(jī)選擇1 000組數(shù)據(jù)組成8 000組數(shù)據(jù)作為基分類器的分類數(shù)據(jù)集,重復(fù)20次,每次分類結(jié)果進(jìn)行十折交叉驗(yàn)證。在利用LSTM及其變體將6個(gè)輸入特征擴(kuò)充至10個(gè)特征后,3種模型得到的數(shù)據(jù)診斷準(zhǔn)確率分別為94.14%、94.22%和94.23%,但比10個(gè)原始特征時(shí)的準(zhǔn)確率少1.73、1.65、1.64個(gè)百分點(diǎn),這是由于經(jīng)過(guò)模型訓(xùn)練擴(kuò)充的4個(gè)目標(biāo)特征的誤差所造成。但與未擴(kuò)充前6個(gè)特征時(shí)的準(zhǔn)確率對(duì)比,分別提高16.55、16.63和16.64個(gè)百分點(diǎn),這證明此種方法對(duì)特征子集的擴(kuò)充效果明顯。
5" " 結(jié)論
為了保障少量特征時(shí)的診斷準(zhǔn)確率,本文利用LSTM算法對(duì)特征子集進(jìn)行優(yōu)化,成功提升了低特征數(shù)診斷的準(zhǔn)確率。這種思路不僅解決了原始數(shù)據(jù)特征冗余問(wèn)題,還探討了LSTM-KAN在訓(xùn)練次數(shù)上的優(yōu)化,提高了診斷效率。本文可以得出下列結(jié)論:
1)結(jié)合特征重要度和皮爾遜相關(guān)度分析可以滿足目標(biāo)特征的選取預(yù)期,所選擇的4個(gè)目標(biāo)特征對(duì)后續(xù)診斷的準(zhǔn)確率有很大的提升,僅比原始10個(gè)特征的診斷準(zhǔn)確率低1~2個(gè)百分點(diǎn)。
2)結(jié)合KAN的LSTM算法體現(xiàn)出強(qiáng)大的分析能力,其使用更少的訓(xùn)練次數(shù)能得到更好的效果,預(yù)測(cè)均方誤差分別減少13.057 2和6.524 6,決定系數(shù)提高了0.007 3和0.003 0。
3)LSTM-KAN的預(yù)測(cè)結(jié)果帶來(lái)的診斷準(zhǔn)確率的增益是16.64個(gè)百分點(diǎn),大幅度提升了6個(gè)特征的診斷準(zhǔn)確率。
[參考文獻(xiàn)]
[1] SHI Z X,O'BRIEN W.Development and implementation of automated fault detection and diagnostics for building systems:A review[J].Automation in Construction,2019,104:215-229.
[2] CHEN J L,ZHANG L,LI Y F,ET AL.A review of computing-
based automated fault detection and diagnosis of heating,ventilation and air conditioning systems[J].Renewable and Sustainable Energy Reviews,2022,161:112395.
[3] CHEN Z,XIAO F,GUO F C.Similarity learning-based fault detection and diagnosis in building HVAC systems with limited labeled data[J].Renewable and Sustainable Energy Reviews,2023(185):113612.
[4] YAN K,MA L L,DAI Y T,et al.Cost-sensitive and sequential feature selection for chiller fault detection and diagnosis[J].International Journal of Refrigeration, 2018, 86: 401-409.
[5] COMSTOCK M C,BRAUN J E,BERNHARD R.Experimental Data from Fault Detection and Diagnostic Studies on a Centrifugal Chiller[D].West Lafayette:Purdue University,1999.
[6] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[7] 杜浩,趙健,鄒江,等.基于CNN-LSTM神經(jīng)網(wǎng)絡(luò)的輸電線路覆冰預(yù)測(cè)技術(shù)研究[J].機(jī)電信息,2024(21):81-85.
[8] 劉燦鋒,孫浩,東輝.結(jié)合Transformer與Kolmogorov Arnold網(wǎng)絡(luò)的分子擴(kuò)增時(shí)序預(yù)測(cè)研究[J].圖學(xué)學(xué)報(bào),2024,45(6):1256-1265.
[9] LIU Z M,WANG Y X,VAIDYA S,et al.KAN:Kolmogorov-
arnold networks[J/OL].(2024-04-30)[2024-11-19]. arXiv preprint arXiv:2404.19756,2024.https://arxiv.org/abs/2404.19756.
收稿日期:2024-11-28
作者簡(jiǎn)介:郭馬超(1997—),男,陜西商洛人,碩士研究生,研究方向:暖通空調(diào)故障檢測(cè)與診斷。
通信作者:馮榮(1987—),男,甘肅定西人,工學(xué)博士,副教授,研究方向:分布式能源系統(tǒng)和新型熱泵技術(shù)。