楊皓琳 丁 強 江愛朋 戴炳坤
(杭州電子科技大學自動化學院 浙江 杭州 310018)
能耗問題是當今社會的熱點問題,隨著社會發展,我國建筑能耗逐年增加,其中空調系統能耗占建筑總能耗的40%~50%。空調系統中冷水機組是最主要的能耗設備,冷水機組其結構復雜、內部零件多、工作環境特殊,導致制冷系統容易出現各種故障,“帶障運行”會使其性能下降,維護成本增加,人員舒適感降低,能耗大大增加,對冷水機組進行故障診斷具有重要意義。
近年來在故障診斷領域,不少學者取得了卓越成就。Yin等[2]采用主元分析法(PCA)結合似然比檢驗應用于故障診斷系統;Haddad等[3]采用線性判別分析(LDA)作為分類方法,完成對電機的故障診斷;朱紅林等[4]將局部鄰域保留(LPP)結合非負矩陣分解(NMF)完成對化工過程的故障檢測;徐瑩等[5]把獨立分量分析(ICA)和貝葉斯估計結合,提出一種基于獨立元的混合模型,并將該方法應用于過程故障診斷。
上述方法均為線性的降維方法,在制冷領域,由于制冷工質存在相變以及系統參數的非線性、高耦合、低內聚、非高斯性使得系統更加復雜。線性降維方法面對這樣的復雜系統顯得無能為力,若繼續使用如上方法進行線性降維,將會丟失大量的重要信息,影響診斷結果。針對這一問題,Hinton等[6]提出可用于非線性降維分析的隨機鄰域嵌入(SNE)算法。SNE算法一經提出便引起了國內外眾多學者的關注,并將其應用于人臉識別、指紋匹配、智慧建筑和遙感影像分析等領域[7-11],近年來也成功應用于故障診斷領域[12]。
盡管SNE提供了很好的非線性降維方法,但存在不對稱和擁擠問題(crowding problem)。為解決此問題,Laurens等[13]引入t分布,對SNE算法進行了改進,提出t分布隨機鄰域嵌入(t-SNE)。t-SNE在計算條件概率時,會計算數據樣本點間的歐氏距離。文獻[14]指出在高維空間中,歐氏距離并不可靠,因為它們可能包含許多只產生噪聲數據的不相關維度。并且歐氏距離會賦予每個變量相同的權重,忽略了各個變量間的相關性,所以不能準確地進行距離度量。而馬氏距離的計算是建立在總體樣本的基礎上,它充分考慮了數據分布的統計特征,排除了變量之間相關性的干擾,能有效降低樣本間的混疊性,是一種衡量兩個未知樣本集相似程度的有效方法。因此,本文引入馬氏距離度量方式對 t-SNE 算法進行改進,提出基于馬氏距離的t分布隨機鄰域嵌入(Mt-SNE)算法,利用Mt-SNE算法降維后的數據作為支持向量機的輸入向量,研究Mt-SNE算法的改進效果。
t-SNE算法的核心為構造高維空間的數據點X={x1,x2,…,xN}之間的相似度轉化為條件概率,高維空間中數據點的相似度由高斯聯合分布表示,構造低維空間中數據點Y={y1,y2,…,yN}的相似度由t分布表示,使得這兩個概率分布之間盡可能地相似,從而實現降維效果。 t-SNE首先定義高維數據點xi和xj之間的條件概率分布pj/i:
(1)
式中:σi是以xi為中心點的高斯分布方差;‖xi-xj‖為高維數據點xi和xj之間的歐氏距離。
由于t-SNE解決了對稱化問題,所以任取i和j都有pij=pji,根據條件概率pj/i和pi/j計算聯合概率pij:
(2)
定義高維數據點xi和xj在低維空間中對應的點yi和yj的聯合概率qij:
(3)
定義代價函數為Kullback-Leibler 散度:
(4)
為了獲得攜帶更多信息的低維數據Y={y1,y2,…,yN},通過梯度下降法迭代求得式(4)的最優解。
Mt-SNE算法的具體步驟如下:

(5)


(6)
式中:s為樣本的協方差矩陣,其可逆條件為樣本的個數應該要大于每個樣本自身的維度。
(7)
(8)

(9)
(10)
(6) 定義Mt-SNE算法的代價函數:
(11)
(7) 對式(11)求偏導計算其梯度,并將求E(Y)最小值最為目標函數:
(12)
(8) 用梯度下降法進行迭代尋優:
(13)
式中:y′(t)為高維數據點經過映射后的低維矩陣;t為迭代次數,取t為1 000;η為學習率,將η設置為500;α(t)是為了加快尋優速度加入的動量因子,取α(t)等于0.5。
Mt-SNE算法流程如圖1所示。

圖1 Mt-SNE算法流程
傳統的支持向量機(SVM)是由Vapnik提出的一種基于統計學習理論有導師學習的線性分類器。SVM解決了線性二分類問題,核心思想為尋找一個超平面使得樣本間的間距最大,其基本原理文獻[15-17]作了詳細介紹,本文不再贅述。
為解決多分類問題,把SVM分為“一對一”或者“一對多”模型,本文采用“一對一”的模型。在處理非線性問題時,支持向量機引入了核函數替換了內積。不同的核函數的選擇對分類性能有重大影響,常見的核函數主要有線性核、多項式核、RBF徑向基核、拉普拉斯核、Sigmoid核。本文采用RBF徑向基核,并用網格搜索法對SVM的懲罰系數C和核參數gamma進行尋優。
本文采用ASHRAE 1043-RP提供的實驗數據對故障診斷模型完成訓練與測試。ASHRAE實驗的研究對象是一臺制冷量為90冷噸(約316 kW)的冷水機組,其壓縮機為離心式,制冷工質為R134a, 實驗環境為22.2 ℃,共有4個換熱器均為殼管式換熱器,分別為冷卻水-冷凍水換熱器、冷卻水-自來水換熱器、蒸汽-熱水換熱器和冷凍水-熱水換熱器。
實驗平臺通過改變相關變量能夠模擬 27 種典型工況,其中(TCI)冷凝器進水溫度和(TCO)冷凝器出水溫度等 48個參數為傳感器測得,直接送到上位機。制冷量、過冷度等 16個參數通過計算簡單獲得,共計64個參數。通過調節系統中的相關設備,實驗平臺能夠模擬出7種典型故障,包括 4 種局部故障和3 種系統故障,如表1所示。每種故障設有4種故障程度,表2為7種故障4個故障程度的詳細指標,從總體看,最輕的故障程度約為10%,最嚴重的故障程度約為40%,分別命名為A、B、C和D故障程度依次升高。根據ASHRAE的數據庫,對表1的每種故障程度的7種典型故障和正常狀態各取1 000個樣本,得到4組8 000個樣本用于模型的訓練與測試。

表1 7種典型故障和正常狀態

表2 4種故障程度故障類別
文獻[18]定義了如下指標評價分類結果。
準確率(Accuracy):衡量所有樣本被分類準確的比例。
(14)
虛警率(FAR):正常狀態被分類為故障狀態的比例。
(15)
誤報率(FPR):將某類故障錯分為其他故障的比例。
(16)
漏報率(FNR):故障狀態被分類為正常狀態的比例。
(17)
式中:TP為被分類為正樣本,事實是正樣本;FP為被分類為正樣本,事實是負樣本;FN為被分類為負樣本,事實是正樣本;TN為被分類為負樣本,事實是負樣本;NFPR為將某類故障分為其他故障的個數。
為了驗證Mt-SNE算法對特征提取的有效性,分別設置3個對照組:(1) 主元分析法(PCA)+核參數為徑向基函數的支持向量機(SVM);(2) t分布隨機鄰域嵌入(t-SNE)+核參數為徑向基函數的支持向量機(SVM);(3) 基于馬氏距離改進的t分布隨機鄰域嵌入(Mt-SNE)+核參數為徑向基函數的支持向量機(SVM),以下分別簡稱為M1、M2和M3。為了公平起見,將PCA、t-SNE和Mt-SNE的降維維數統一設置為8,并統一將降維后8 000個樣本隨機取80%(共計6 400)用于訓練,剩余20%(共計1 600)作為驗證。其結果如圖2所示。

圖2 三種模型準確率對比情況
可以看出,3種模型在故障程度D的情況下,都能顯示出優異的性能(準確率都在95%以上)。隨著故障程度的提升,準確率不斷提高,這是由于故障程度越高,故障數據越偏離正常水平,樣本間的混疊越小,數據之間的差異越大,更能被分類器識別。
M3模型對于各種故障程度其準確率都優于M1模型和M2模型。尤其對A故障程度而言,M3模型的準確率比M1模型提高5.56百分點,比M2模型高出6百分點。說明針對程度較低的故障,Mt-SNE算法具有更高的故障靈敏度,能進一步降低數據之間的耦合性,去除冗余信息,能使SVM獲得更優質的超平面,及時發現故障,減少損失。
表3為三種模型對不同故障程度診斷效果的評價指標。可以看出M3模型除了B故障程度的虛警率低于M2模型0.24個百分點,其原因為將3個RefLeak故障和3個RefOver故障誤判為正常運行狀態。而其他指標不管在FAR、FPR和FNR上對比其他兩種模型都有大幅度降低。其中M3模型對于D故障程度的誤報率為0%,表明在D故障程度發生時,可以完全信任M3模型對不同故障類別的判斷。

表3 三種模型診斷效果評價指標(%)
高程度的故障程度容易檢測,而低程度的故障通常是首先發生并且難以檢測。因此提高低程度的故障的檢測能力,對于冷水機組運行狀態監測而言有重要意義。為了進一步分析Mt-SNE算法的性能,后面只對故障程度最低的A類故障程度做分析。圖3為三種模型對A故障程度各類故障和正常運行的診斷準確率。其中:1-4為局部故障,5-7為系統故障,8為正常運行狀態。

圖3 三種模型對A故障程度各類故障的診斷準確率
分析圖3可得,對于故障ExcsOil(類別7)而言,M3模型的準確率高達98.5%,比M1模型和M2模型分別高出13.3百分點、5.7百分點。M3模型診斷故障RefLeak(類別5)的準確率為97.9%,高出M1模型13.7百分點,高出M2模型9百分點。對故障RefOver(類別6),M1模型的檢測準確率僅為81.3%,而M3模型高達97.4%。上述3種故障均屬于系統故障,由文獻[19-20]可知,系統故障涉及到整個制冷系統,對系統的參數影響范圍大,數據之間的耦合系數更高,易與其他故障混淆,相對局部故障而言更難被檢測到。
表4為三種模型對故障程度A,訓練集和測試集評判的總體性能指標。由表4可知,M3模型測試集的FP、NFPR和FN都比其他兩個模型有明顯減少。其中M3模型的FP個數比M1模型減少10個,比M2模型減少18個,NFPR個數比M1模型減少48個,比M2模型減少74個,FN個數比M1模型減少39個,比M2模型減少12個。M3模型訓練集的FAR、FPR和FNR也大多優于M1模型和M2模型。比較訓練集和測試集的準確率發現,M3模型的準確率差值僅為1.69百分點,M1模型差值為2.56百分點,M2模型的差值為7.51百分點。其原因為PCA和t-SNE提取的特征混疊較為嚴重,造成SVM的過擬合,使其超平面過于復雜,泛化能力降低。綜合而言,Mt-SNE算法提取特征的效果優于PCA和t-SNE,表現為故障識別準確率更高,測試集FP、NFPR和FN更少。

表4 三種模型故障診斷總體性能
本文針對歐氏距離和馬氏距離在高維空間中對樣本度量的差異性,提出基于馬氏距離的t分布隨機鄰域嵌入算法(Mt-SNE)。本文使用改進的t分布隨機鄰域嵌入(Mt-SNE)算法結合支持向量機對制冷系統7種典型故障,包括3種系統故障和4種局部故障進行診斷。并對比了PCA+SVM、t-SNE+SVM模型的診斷效果,通過研究分析,得到的主要結論如下。
(1) 對Mt-SNE算法特征提取后的數據進行分類,4個故障程度的整體準確率均得到明顯提高,對故障程度A提升最為顯著。
(2) 尤其解決了系統故障檢測率偏低的局面,對比傳統的特征提取方法,其對系統故障的檢測率均有大幅度提升。
(3) Mt-SNE算法在降低樣本相關性的同時,可以改善SVM的過擬合程度,提高了SVM的泛化能力。
綜上所述,基于馬氏距離改進的t分布隨機鄰域嵌入(Mt-SNE)結合支持向量機(SVM)復合模型在冷水機組故障診斷中有良好的應用前景。