采用編碼輸入的生成對抗網絡故障檢測方法及應用

2022-06-19 03:23:52吳曉東熊偉麗

智能系統學報 2022年3期

吳曉東，熊偉麗

（江南大學輕工過程先進控制教育部重點實驗室，江蘇無錫 214122）

迅速準確地檢出故障工況并進行故障隔離對現代工業生產過程的安全性及產品質量具有重要意義[1]。隨著生產工藝復雜程度及自動化水平的提升，在故障檢測中建立過程機理模型變得更加困難且不易求取，基于簡化后模型的檢測效果也并不理想。近年來，基于數據驅動的故障檢測方法得到了廣泛關注和應用[2]，其中常用的有主元分析法(principal component analysis,PCA)[3]、偏最小二乘回歸(partial least squares,PLS)[4]、基于k 近鄰算法的故障檢測(fault detection using k-nearest neighborhood,FD-KNN)[5]等。

基于數據的故障檢測方法中，建模數據對于故障檢測的效果起著決定性作用。傳統機器學習方法中的淺層模型往往無法滿足過程大數據的解析需求，因此學者們提出了不同的深層模型以解決實際復雜問題[6-9]。其中，生成對抗網絡[10](generative adversarial network,GAN)由于其特殊的訓練思想及生成能力受到了研究人員的廣泛關注，已被應用于圖像、視頻、文本處理等領域。文獻[11]提出一種新的對抗訓練方法并證明了其在指定數據集上的準確性，提升了卷積語義分割網絡的訓練效果。文獻[12]提出一種感知生成對抗網絡，減少了小對象與大對象之間的表示差異，從而有效改善了低分辨率與高噪聲帶來的小對象檢測困難問題。通過訓練深度卷積生成對抗網絡，文獻[13]有效地提取出文本信息特征從而生成逼真的圖像。利用一種基于多尺度密集注意力的生成對抗網絡框架，文獻[14]解決了現有方法無法處理復雜運動及遠距離依賴的問題。近幾年GAN研究和應用的不斷擴展，逐漸應用到了復雜工業過程監控領域。

文獻[15]利用GAN 生成虛假故障樣本，實現訓練集中正常與異常樣本的平衡，再由深度神經網絡進行分類從而實現故障檢測。文獻[16]采用深層卷積GAN 生成旋轉軸承的二維圖像信息以提升訓練集樣本平衡性，采用卷積神經網絡區分樣本類別。上述方法可以看作GAN 在工業過程中的一種運用，但其實際是通過有監督分類算法實現樣本的分類，對于故障類型多且未知的過程如TE 過程，效果并不理想，本文后續所提故障檢測訓練集均僅包含正常工況樣本。

經典的故障檢測方法，比如PCA 通過選取方差貢獻率大的主元檢測故障，易忽略方差貢獻率小的變量[17]。基于KNN 的故障檢測方法假設異常樣本較正常工況樣本在變量上會存在較大偏差，計算樣本的KNN 距離作為統計量進行故障檢測。上述兩種傳統算法在故障檢測前都存在著先驗假設，對故障檢測的效果具有一定影響。對此，Wang 等[18]提出了基于生成對抗網絡的異常檢測方法，并在手寫數據集(national institute of standards and technology,NIST)及田納西伊斯曼(Tennessee Eastman,TE)過程仿真中驗證了方法的有效性。基于GAN 的故障檢測方法采用正常工況數據訓練生成對抗網絡，根據網絡中的生成器及判別器構建統計量進行故障檢測，因此不存在對故障產生的先驗假設，而是通過判別器從真實樣本及虛假樣本中提取出的潛隱特征并計算概率判斷故障是否發生，更貼合檢測過程中故障類型及發生原因未知的背景。文獻[19]利用風電機組數據訓練GAN，通過判別器輸出概率判斷機組運行狀態是否健康。但基于GAN 的故障檢測方法采用經典的生成對抗網絡模型，不可避免地存在著訓練困難及模式崩潰的問題。為此許多學者從生成對抗網絡結構及尋找最佳GAN 模型的角度進行了改進。文獻[20]引入BiGAN 模型，在保證檢測精度的同時大大減少了程序耗時。文獻[21]構建了一個基于自編碼器的性能指標來衡量生成模型的生成能力，選取最優的生成模型作為最終的分類器。但上述方法中生成器均采用隨機噪聲作為輸入，生成器得到的有效信息少，生成樣本不逼真，以致判別器性能在對抗過程中提升有限，故障檢出率不高。

綜上所述，為進一步提升基于GAN 的故障檢測的性能與效果，結合自編碼器提出一種基于改進GAN 的故障檢測方法(fault detection using GAN with encoded input,EIGAN)。首先，在訓練數據集上通過最小化重構誤差，得到自編碼器模型，并將訓練集經自編碼器降維后的隱變量作為生成器輸入，進行生成對抗網絡的訓練；然后，分別根據判別器及自編碼器提取出的隱變量空間對正常工況樣本計算統計量，并得出控制限；最后，計算待測樣本的統計量，結合控制圖進行故障檢測。將本文所提方法用于TE 過程及火力發電廠磨煤機的故障檢測，獲得了較好的檢測結果，從而驗證了方法的有效性。

1 基于生成模型的故障檢測原理

1.1 生成對抗網絡

生成對抗網絡是一種基于對抗思想進行訓練的網絡結構，通過尋找零和博弈中的納什平衡確定模型中的參數[22]，其結構如圖1 所示。生成對抗網絡包含1 個生成器和1 個判別器，兩者均為深層神經網絡。生成器的目標是生成與真實樣本近似的以致判別器區分不出的“虛假樣本”；相反，判別器的目標則是區分真實樣本和虛假樣本，將這2 種樣本實現正確的分類。

圖1 生成對抗網絡的結構Fig.1 Architecture of GAN

生成對抗網絡的訓練過程為：樣本數為b、特征數為n的小批量真實樣本Xb×n與生成器生成的虛假樣本Gb×n一并送給判別器；判別器通過計算樣本x的得分D(x)判別真偽，在每一次的訓練中，通過梯度下降方法對生成器和判別器的模型參數進行更新，以最小化兩者各自的代價函數LD和LG，其計算過程分別如式(1)和(2)所示：

式中：E 表示求期望；x～Pdata表示樣本x服從真實樣本的數據分布；z～Platent表示變量z服從隱變量空間的數據分布；G(z)表示將隱變量z映射到與真實樣本維度一致的生成樣本空間；D(·)表示判別器輸出，其值位于0～1；假設樣本u為某一未知樣本，D(u)越趨向于1，則判別器認為樣本u為真實樣本的概率越大，反之，為虛假樣本的概率越大；表示輸入為真實數據時，判別器輸出概率的熵。

1.2 故障檢測原理

Wang 等[18]首先提出了基于GAN 的異常點檢測，將訓練數據集進行最值歸一化后進行網絡訓練，得到模型后，按照式(3)、(4)分別計算出統計量和控制限（本文采用核密度估計方法計算控制限，置信度取95%）；最后如式(5)所示，通過比較待測樣本x′的統計量與控制限大小，判斷待測樣本是否為故障樣本。

式中：x為待計算統計量的待測樣本；表示待測樣本x到其在生成樣本集中最近鄰樣本的平方歐氏距離；D(x)表示輸入為x時判別器的輸出；fKDE({Gscore|x∈Xtrain},0.95)表示對訓練集統計量利用核密度估計(kernel density estimation,KDE)函數計算控制限，置信度選取0.95；lG(x′)表示利用Gscore統計量對樣本x′的故障檢測函數；sgn()為符號函數；sgn(fG(x′)?TG)對樣本x′的Gscore統計量與Gscore控制限的差求取符號函數，若為1 則表示樣本故障，否則樣本正常；Dscore控制限及其故障檢測函數同Gscore類似，故不做贅述。

2 基于改進GAN 的故障檢測策略

2.1 改進生成器輸入

生成器的本質為多層感知機，由于網絡結構及每一層中神經元的作用，可以提取出有利于提升擬合精度的潛隱特征。與此同時，每一層網絡中適當的激活函數也使得模型可以更好地擬合出訓練集數據分布中的非線性和多模態特征。如圖2 所示的生成器生成樣本：圖(a)、(b)、(c)分別表示某非線性真實樣本數據分布情況及不同訓練次數后生成器生成樣本的分布情況；圖(d)、(e)、(f)分別表示某多模態真實樣本數據分布情況及不同訓練次數后生成器生成樣本的分布情況。其中綠色點表示真實樣本數據分布，紅色點表示生成樣本數據分布，橫軸、縱軸表示生成樣本的兩個維度。從圖2 中可以看出，經過一定次數的訓練后，生成器可以生成與真實樣本數據分布近似的樣本。但傳統生成對抗網絡中生成器采用均值為0 標準差為1 的正態分布作為輸入，生成器要從這樣一個隱變量空間映射到與真實樣本相似的空間分布，需要較長的時間成本；同時生成樣本與真實樣本的相似性也較差，對于最終的判別器效果具有一定影響。

圖2 生成器生成樣本Fig.2 Generated sample from generator

如何給生成器一個包含訓練數據集更多信息的低維特征是本文改進GAN 用于故障檢測的一個動機，PCA 作為一種降維方法，雖然能保證提取出的主成分含有較多的信息，但受制于變量服從線性相關及高斯分布的假設，具有一定的局限性。本文采用自編碼器[23]提取低維特征，其網絡結構如圖3 所示。不同于PCA 方法：1）自編碼器特殊的網絡結構及引入的激活函數使得自編碼器可以同時獲取原始信息中線性與非線性特征；2）由于自編碼器解碼后的重構輸出要與輸入盡可能地接近，這也保證了編碼器提取出的特征能夠包含更多輸入數據的信息。

圖3 自編碼器結構Fig.3 Architecture of autoencoder

最小化式(6)所示的代價函數得到自編碼器網絡參數，從而提取出訓練集中較大程度表示原有數據信息的隱變量，將這組隱變量作為生成器的輸入，生成樣本過程如圖4 所示，其中綠色樣本點表示真實數據分布，紅色樣本點表示生成器生成虛假數據分布。對比圖4(a)、(c)、(b)和(d)可以看出，改進生成器輸入后，有效提升了生成器的生成能力，在相同迭代次數下，改進后的生成器生成的樣本分布更接近真實數據分布，從而有效地避免了以隨機正態分布作為生成器輸入的不足。

圖4 改進前后生成樣本分布對比Fig.4 Comparison of generated sample distribution before and after improvement

式中：θ表示自編碼器網絡參數；X表示自編碼器輸入；X′表示自編碼器對輸入X的重構輸出；表示自編碼器與其重構輸出的平方歐氏距離。

2.2 基于自編碼器的統計量改進

GAN 故障檢測中將待測樣本與其在生成器生成數據分布中最近鄰樣本間的歐氏距離作為統計量，這種統計量計算方法只尋找待測樣本與生成數據中的最近鄰樣本，生成數據中的離群點對于檢測結果具有很大的干擾；此外由于涉及歐氏距離的計算，無論是求統計量過程中計算生成數據間兩兩樣本的距離，還是待測樣本到生成數據的歐氏距離，都存在著樣本數量多，數據維度高導致計算量大的問題。針對上述問題，本文提出一種新的統計量如式(7)所示：

式中：E(x)表示待測樣本經自編碼器編碼后的降維輸出；表示訓練集經自編碼器編碼后降維輸出的均值；為二者的曼哈頓距離。

通過比較待測樣本映射到隱變量空間中的向量與訓練集對應隱變量分布間的距離，即曼哈頓距離。在減少計算量的同時也降低了離群點對統計量的影響。針對新統計量的控制限計算如式(8)所示，本文采用核密度估計方法確定控制限，置信度選0.95。

由于編碼器輸出小于1，故式(8)中采用曼哈頓街區距離避免誤差被縮小；fKDE({Escore|x∈Xtrain},0.95)表示對訓練集Escore統計量以0.95 作為置信度采用KDE 計算控制限。

綜上所述，本文提出的基于編碼器輸入的改進GAN 故障檢測方法，檢測流程如圖5 所示，算法分為離線建模和在線檢測兩部分。其中，離線建模部分對正常工況下的訓練數據集進行相關計算，得到訓練集各樣本的統計量，再根據置信度及核密度估計方法確定控制限；在線檢測部分對未知的待測樣本計算其統計量并與控制限比較，判斷是否發生故障。

圖5 改進GAN 故障檢測流程Fig.5 Fault detection process using improved GAN

3 算法的應用仿真

3.1 TE 過程

美國Eastman 化學公司依據實際化工反應過程開發了TE 仿真平臺，其產生的過程數據作為基準數據被廣泛應用于不同故障檢測方法中[24]。TE 工藝過程如圖6 所示，共包含5 個操作單元和8個組成部分，含22 個過程測量變量、19 個成分測量變量及12 個操縱變量，本文選取22 個過程變量及除攪拌速度外的11 個操作變量用于建模與檢測，詳細的變量描述可參見文獻[25]。數據分為訓練集和測試集兩部分，除正常工況數據外，還包含21 種異常工況。訓練集對應正常工況下采集到的數據，測試集則為21 種異常工況下的數據，同時測試集中故障均在第161 個樣本處被引入。

圖6 TE 工藝過程示意圖Fig.6 TE process diagram

首先將訓練數據集通過自編碼器得到維度為4 的隱變量作為生成器輸入；然后對生成對抗網絡進行訓練，網絡中生成器及判別器均采用多層感知機，生成器各層神經元個數分別為4、15、30、60、33，判別器各層神經元個數分別為33、60、30、10、1；除判別器及生成器的輸出層采用sigmoid 激活函數外，其余層均采用lekay-relu 激活函數；進一步再計算出統計量及控制限。對測試集計算統計量，結合控制限繪制控制圖如圖7所示。可以看出，本文所提算法可以很好地通過統計量將正常工況樣本與異常工況的樣本區分開來，從而驗證了其作為故障檢測算法的有效性。

圖7 TE 過程制圖Fig.7 Control plot of TE process

同時將本文所提算法與傳統的故障檢測算法進行對比，結果如表1 所示。對比GAN 故障檢測[18]結果可以看出，本文方法通過改進生成器輸入，有效地改善了生成對抗網絡的訓練效果，提升了判別器區分真假樣本的能力，從而提高了異常樣本的故障檢出率。與此同時，對比2 種傳統的故障檢測方法（PCA[3]及FD-KNN[5]），本文所提算法具有更高的報警率。

表1 TE 過程報警率對比Table 1 TE process alarm rate comparison

為進一步對結果進行分析，對TE 過程訓練集及故障2、6、14 對應的測試集通過自編碼器提取隱變量并繪制箱線圖，如圖8 所示，將圖(a)分別與圖(b)、(c)、(d)對比可以發現：使用自編碼器提取TE 過程特征信息在還原原始數據集信息的同時，編碼器提取出的故障樣本的隱變量與正常樣本隱變量具有明顯的差異性，這也很好地解釋了圖7(c)、(d)中Escore統計量能很好地檢出故障2、6、14 的原因。

圖8 TE 過程正常工況與部分故障的隱變量箱線圖對比Fig.8 Comparison of hidden variable box plots between normal operating conditions and partial failures of TE process

3.2 磨煤機數據仿真

磨煤機作為火力發電廠中的核心設施，準確快速地檢出故障對安全高效地發電具有重要意義。用于對比仿真的磨煤機數據被劃分為訓練集和測試集兩部分，訓練集包含3 500 個正常工況數據，測試集包括1 000 個數據，其中前500 個是正常工況下記錄得到的，后500 個為異常工況（輸出煤粉溫度降低）下記錄的數據。訓練集和測試集中過程變量個數均為46，關于磨煤機過程變量的詳細描述見表2。

表2 磨煤機過程變量描述Table 2 Variable description of coal pulverizer process

對傳統GAN、采用PCA 降維數據作為生成器輸入的GAN（principal component based GAN，PCGAN）及本文所提的改進GAN 三者進行相同的參數初始化及網絡結構設置，即生成器與判別器層數、每一層神經元個數、每一層激活函數、梯度更新規則、學習率設置（采用指數衰減法，基學習率為0.01，衰減系數為0.95，衰減速率為2000次迭代）均相同，訓練相同次數后，采用Dscore、Gscore、Escore和Tscore統計量對磨煤機數據進行故障檢測，其中Tscore為類比Escore統計量對采用主成分輸入的GAN 故障檢測方法計算得到的統計量，如式(9)所示：

式中：X∈Rm×n，x∈R1×n分別為訓練集和待測樣本；P∈Rn×k，分別為為主元載荷矩陣和殘差載荷矩陣；xP、XP分別為待測樣本得分向量和訓練集得分向量均值；Tscore為統計量仿照本文所提Escore統計量。計算了xP、XP間的曼哈頓街區距離，從而衡量以PCA 提取信息作為GAN 輸入時故障檢測效果的好壞。

磨煤機過程檢測結果對比圖如圖9、10 所示，檢測效果見表3。可以看出采用包含信息量更多的編碼器輸出作為生成器輸入，在幫助生成器生成更接近真實數據分布的虛假樣本的同時也提升了判別器的效果，從而使得基于判別器的Dscore統計量能更好地檢出故障。通過表3 及對比圖10(a)、(b)，可以發現相較于PCA 得到的主成分，采用自編碼器降維后隱變量作為生成器輸入，使得生成對抗網絡在低誤報的同時具有更高的報警率，從而體現出自編碼器降維后得到的數據較PCA 降維后的數據包含更多原始數據中的信息，對生成對抗網絡具有更好的訓練效果。另外，本文所提統計量對比傳統GAN 故障檢測算法中的兩種統計量對于磨煤機數據進行故障檢測用時如表4 所示。結合表3、表4 可以看出本文基于自編碼器隱變量空間提出的統計量較傳統GAN故障檢測中的Gscore統計量，計算速度得到了很大提升。而檢測用時與GAN 故障檢測中Dscore及PCGAN 故障檢測中Tscore統計量為同一數量級的同時，檢測效果均優于二者。

表3 磨煤機過程檢測結果對比Table 3 Comparison of detection results of coal pulverizer process

表4 磨煤機過程檢測時間對比Table 4 Comparison of detection time of coal pulverizer process

圖9 磨煤機過程控制圖對比Fig.9 Comparison of control plot of coal pulzerizer process

圖10 關于生成器輸入的統計量檢測結果對比Fig.10 Comparison of the statistics using different generator input

對磨煤機數據訓練集、測試集及其經自編碼器編碼后的隱變量空間繪制箱線圖，如圖11 所示。通過對比圖11(a)、(c)、(e)可以看出：經自編碼器提取出的隱變量空間及PCA 方法提取出的得分向量空間去除了線性相關及冗余的變量，以少量的變量最大程度地還原了原有數據集中的信息。但對比圖11(d)、(f)發現測試集經自編碼器提取出的隱變量空間在變量2、3、5 上均表現出了與訓練集隱變量空間的差異性，而測試集經PCA 方法提取出的隱變量空間僅在變量2 上表現出了與訓練集隱變量空間的差異性。此外，訓練集經PCA 方法提取出的隱變量分布的離散程度高于測試集隱變量分布，不利于故障檢測。這也解釋了本文所提的Escore統計量較Tscore統計量有利于故障檢測的原因。

圖11 磨煤機數據及其隱變量箱線圖Fig.11 Pulverizer data and its hidden variable box plot

4 結束語

本文提出了一種采用編碼輸入的生成對抗網絡故障檢測方法，通過引入自編碼器，將自編碼器降維后的數據作為生成對抗網絡中生成器的輸入，改善了傳統生成對抗網絡中生成器使用隨機噪聲作為輸入帶來的缺乏有效信息訓練過程緩慢的問題，提升了生成對抗網絡的訓練效果和檢測性能。所提方法與其他傳統故障檢測方法相比，在TE 及磨煤機過程仿真中具有更高的報警率，表明了方法的有效性和可靠性。但在仿真過程中發現生成對抗網絡最終得到的生成器模型對于故障檢測貢獻率不高，與此同時判別器在對樣本進行故障檢測時僅考慮了待測樣本維度上的信息。如何更好地利用生成器設計統計量及改進判別器模型得到關于待測樣本更多更豐富的信息是未來需要進一步考慮和研究的問題。