易維淋,田學民,張漢元
?
基于重構的半監督ELM及其在故障診斷中的應用
易維淋,田學民,張漢元
(中國石油大學(華東)信息與控制工程學院,山東青島266580)
工業過程中獲取帶標簽的故障數據困難,而無標簽故障數據卻大量存在,如何有效地利用數據信息進行故障診斷是故障診斷領域的重要內容。為更充分地挖掘和利用數據信息,提出一種新的半監督學習方法:基于重構的半監督極限學習機(RSELM)。相比于傳統的半監督極限學習機(ELM)方法,RSELM采用自動編碼ELM(ELM-AE)獲得的輸出權重替代隨機的隱含層輸入權重,能更有效地提取數據特征;考慮到數據均可由其近鄰數據來線性重構,故可構建近鄰數自適應選擇的重構圖,并同時利用數據的標簽信息優化連接權重,以更優地反映數據結構信息;通過建立新的含局部保持的目標函數,可有效地訓練分類器。標準數據集和TE過程上的仿真實驗驗證了所提算法的有效性。
半監督極限學習機;重構;ELM-AE;故障診斷
隨著工業過程安全性和可靠性需求的增加,故障診斷技術受到廣泛的關注[1-5]。而工業過程中對歷史故障數據進行人工標注是費時費力的,因而如何有效地利用有限的帶標簽故障數據進行故障分類,確定故障類型成為了故障診斷領域的一個重要內容。
極限學習機(ELM)是Huang等提出的一種學習速度快且泛化性能好的單隱層前饋神經網絡(SLFNs)訓練方法[6-7],已被廣泛地應用于數據的分類、聚類、回歸分析、特征選擇和表征學習等領域[8-16]。例如,通過對每個樣本施以不同的誤分類代價,Zong等[17]提出WELM以解決不平衡數據的分類問題;Kasun等[18]利用自動編碼技術將原輸入數據作為輸出目標,提出自動編碼極限學習機(ELM-AE),通過將獲得的輸出權重代替隨機確定的隱含層的輸入權重,可更有效地提取數據特征。鑒于ELM的快速有效性,ELM也被應用于故障診斷領域[19-21]。
然而,ELM是一種監督型的學習方法,而現實中獲取帶標簽數據困難,無標簽數據卻大量存在。為有效地利用無標簽數據來提高學習性能,學者們基于成對樣本間相似性建立反映數據結構信息的kNN圖,并將局部結構保持函數融入原ELM的目標函數,提出了各種半監督ELM方法[22-26]。Liu等[22]提出一種半監督ELM方法并將之應用于室內定位;Iosifidis等[23]融入數據的判別信息,給出了用于單角度和多角度動作識別的半監督學習方法,即SDELM和MVSDELM;Huang等[24]則利用圖論和譜回歸理論提出了一種有效的半監督分類方法SELM;而Zhou等[25]則同時考慮了數據的流型特征和成對約束問題,給出了一種快速有效的半監督ELM方法;Averdi等[26]則通過將集成的ELM算法推廣至半監督學習領域,并結合空間正則化,提出半監督ELM方法并將之應用于高光譜圖像分類與分割。
盡管上述方法能有效地完成半監督學習任務,但在挖掘和利用數據信息方面還有待進一步研究。
(1)數據特征信息的提取:隨機確定的隱含層參數使得數據在映射至特征空間的過程中對數據的潛在特征信息提取不充分。
(2)數據結構信息的反映:數據的結構信息是通過構建kNN圖來反映的,但存在以下兩個問題。
① kNN圖是根據經驗給每個樣本點設定相同的近鄰數來建立的,近鄰數的選擇獨立于數據分布,使得在對樣本數據進行學習的過程中影響標簽信息的傳播;
② kNN圖中,確定衡量樣本間相似性的權重時,僅利用了數據間的距離信息,而忽略了帶標簽數據的標簽(類別)信息。
為解決傳統的半監督ELM存在的問題,利用ELM-AE在提取數據特征方面的優勢以及局部線性嵌入(LLE)[27]具有的局部結構保持功能,本文提出一種基于重構的半監督ELM方法,即RSELM。RSELM采用ELM-AE獲取的輸出權重代替隨機確定的隱含層權重,提取數據特征;基于LLE中樣本數據均可由其近鄰點加權重構的思想,在特征空間中建立反映數據局部結構信息的自適應重構圖,并利用數據類別信息優化連接權重,同時在輸出空間中構建局部結構保持的目標函數,基于此來訓練分類器?;赗SELM的標準數據集分類和TE過程的故障診斷實驗驗證了所提算法的有效性。
1.1 自動編碼極限學習機
與傳統的監督型學習算法ELM不同,自動編碼極限學習機(ELM-AE)[18]采用無監督的學習策略,將輸入數據作為輸出目標,得到的輸出權重可有效地用于數據特征的提取。

通過對式(1)求解,則可得到輸出權重為

1.2 半監督極限學習機
基于光滑性假設思想,半監督ELM(SELM)[24]利用成對數據的相似關系構建拉普拉斯圖,建立含流形正則項的優化目標函數,以同時利用帶標簽和無標簽數據信息來處理實際中帶標簽數據不足而無標簽數據大量存在的情況,提高分類器性能。

(4)
式中,為樣本數據與之近鄰數據間距離的均值。
與經典的ELM一致,SELM采用隨機映射將數據映射至特征空間,對數據的潛在信息提取不充分;同時SELM利用成對樣本間的相似關系建立kNN圖來反映數據結構,但每個樣本點選取的近鄰數卻是獨立于數據結構而根據經驗選擇的。而對于式(4)所示衡量成對樣本間相似程度的權重w的確定,僅利用了數據間的距離信息,卻未能對帶標簽數據的先驗的類別信息加以利用。
LLE[27]是一種能夠使降維后的數據保持原有局部結構的非線性降維方法,其主要思想為數據的重構:輸入/輸出空間中,每個樣本數據均可通過對其近鄰數據加權來線性重構,而權重大小即可反映數據間的相似程度,為此,數據間的局部結構信息可通過建立一個重構圖的方式來表達。而半監督學習的一種形式即為:利用數據間的局部結構信息來彌補帶標簽數據不足,故本文提出基于重構的半監督極限學習機(RSELM),通過構建自適應重構圖來表征數據結構,建立新的局部保持目標函數來進行分類器的訓練,以處理標記數據過少的情況。
不同于LLE的是,在構建重構圖的過程中,LLE根據經驗給每個樣本確定相同的近鄰數,基于重構誤差最小的準則來確定重構圖的連接權重。而RSELM則通過數據的距離信息和類別信息來確定重構圖的連接權重,基于重構誤差最小的準則來自適應地確定每個樣本的近鄰數,使得重構圖的構建依賴于數據分布,更好地反映數據結構信息。
如圖1所示,RSELM方法具體可分為3步:(1)采用ELM-AE方法確定隱含層的輸入權重,將原數據映射至特征空間;(2)特征空間中,通過最小化每個樣本數據的相應隱含層輸出的重構誤差,自適應地選擇每個樣本的近鄰數來建立反映數據結構信息的加權圖,即重構圖;(3)輸出空間中,為保持原數據的結構信息,則每個樣本的輸出均應能夠由其近鄰點的相應輸出來進行較小誤差的重構,基于此可構建含有重構誤差項的目標函數來對網絡進行訓練,得到滿足要求的半監督分類器。
2.1 構建重構圖
特征空間中,每個樣本點均可由其近鄰點來線性重構,其重構誤差為

其中,k表示對應于樣本的隱含層輸出的近鄰數,且,隱含層參數由ELM-AE算法確定(圖1)。
(1)若樣本數據均為帶標簽數據且屬于同類則增大其權重(同類樣本相似性大);
(2)若樣本數據均為帶標簽數據但不屬于同類則減小其權重(不同類樣本相似性?。?;
(3)若樣本數據中含有無標簽數據則保持其權重不變,具體如式(6)所示

其中,()樣本對應的所屬類的標簽,為樣本數據隱含層輸出與之近鄰間距離的均值。
值得注意的是:(1)構建的重構圖是帶方向的自適應kNN圖,即衡量相似程度的權重;(2)樣本間權重的計算是在ELM特征空間中而不是輸入空間中進行的,因為在空間中輸入數據間的非線性關系能更好地表達。
對式(5)所示的重構誤差函數進行最小化,即可得到每個樣本的自適應近鄰數。由于式(5)所示的最小化問題并非凸優化問題,故難以尋找到該問題的最優解。本文采用在一定近鄰數范圍內進行遍歷的方法來尋找相對最優的近鄰數,考慮到計算問題,本文所選取的最大近鄰數max為10。
2.2 RSELM算法
ELM特征空間中,通過建立自適應的重構圖來反映數據的局部結構信息;輸出空間中,則可構建局部保持的目標函數,使得輸入空間中每個樣本的對應的輸出均可由其近鄰點對應輸出以相同的權重進行小誤差重構,即

式中,′是樣本對應網絡輸出的重構誤差。
將約束條件代入目標函數則有

由式(5)和式(8)對比可以看出,=Tr(),即樣本在輸出空間中的重構誤差是與ELM特征空間中的樣本重構誤差密切相關,故若使得式(7)所示的目標函數最小,則可認為數據的局部結構信息被較好地保留下來。
引入新的局部保持函數的RSELM的優化目標即為找到輸出權重,使得以下目標函數最小

式中,為相應于每個樣本訓練誤差的懲罰因子;為權衡參數;為樣本的平均重構偏移。
為得到滿足目標函數的輸出權重值*,令,可得輸出權重為

則對于新樣本的相應網絡輸出為
(11)
而樣本所屬的類為RSELM分類器輸出值最高的輸出節點所代表的標簽類。令y()表示第個輸出節點的輸出值,則樣本所屬的類標簽為

以二分類問題為例,傳統的SELM網絡和RSELM的局部保持結構示意圖如圖2和圖3所示。為便于比較,假定RSELM在特征空間中的數據分布與SELM在輸入空間中一致。由圖可知,樣本點A和C屬于正類樣本,B和D屬于負類樣本。映射前,根據近鄰規則,對于SELM,樣本點A和B的近鄰數均獨立于樣本的分布給定為A=B=5,而RSELM卻可基于最小化重構誤差的準則根據樣本的分布自適應的選擇近鄰數(A=5,B=4);映射后,SELM能較好地保持原數據結構,即A、B、C、D的距離基本保持不變;而RSELM在考慮了數據的類別信息,對連接權重優化后,可使得輸出空間中的同類樣本間的距離減小(B和D),不同類樣本間的距離增大(A和D,B和C),更有利于數據的分類。
圖2 SELM局部結構保持示意圖
Fig.2 Local structure preserving graph of SELM
基于RSELM的故障診斷方法由離線建模和在線診斷兩部分組成。離線建模是通過歷史的標簽與未標簽故障數據建立故障診斷模型;而在線診斷則是對新到的故障數據進行診斷分類,以便于判斷故障類型。
離線建模
輸出:網絡的輸出權重*。
(1)歸一化數據集為均值為0,方差為1的標準數據集;
(2)初始化隱含層節點數n,根據ELM-AE確定隱含層參數,計算隱含層輸出;
(3)ELM特征空間中,建立重構圖:
①計算樣本間距離找到樣本,=1,…,+的max個最近鄰,計算初始權重;
③得出樣本的最終近鄰數k,使最??;
(4)計算平均重構偏移;
(5)選擇平衡參數和,計算輸出權重*。
在線診斷
輸出:未知樣本所屬的類。
(1)根據訓練集的均值和方差歸一化為標準數據集;
(2)根據已有的輸入權重和偏差,計算隱含層輸出;
(3)基于輸出權重*計算網絡輸出;
(4)根據式(12)確定每個樣本所屬的類,即確定故障類型。
為驗證所提算法的有效性,分別采用源自KEEL數據庫(http://www.keel.es/datasets.php)用于半監督分類的5個標準數據集G50C[29-30]、Iris、Wine、Image segmentation[24]、Vowel[20]以及TE過程作為仿真對象,在MATLAB中分別將SDELM[23]、SELM[24]與本文的RSELM的方法進行比較。
參數設置:隨機選取每個數據集的80%作為訓練集,其余作為測試集。訓練集又分為帶標簽數據集、無標簽數據集和驗證集,其中驗證集為訓練集的10%,且僅用于網絡模型參數和的選擇。而所用方法的隱含層節點數均設為2000,SDELM和SELM的近鄰數均設為5,RSELM的最大近鄰數設為10,而平衡參數和則在指數序列{10-3,10-2,…,104}基于驗證集的分類精度進行選取。
仿真過程中,定義數據的標記率為=/(+),其中,表示帶標簽樣本數,表示無標簽樣本數,表示驗證集樣本數,表示測試集樣本數。分類精度即被正確分類的樣本數/測試樣本總數。
4.1 標準數據集仿真
采用源自KEEL數據庫用于半監督分類的標準數據集G50C、Iris、Wine、Vowel和Image segmentation作為仿真對象,仿真過程中,選擇數據標記率0.2,具體數據信息如表1所示。
由于隱含層參數隨機選取導致網絡輸出不穩定的原因,各方法均獨立運行20次,取其“均值±標準差”作為對比,仿真結果如表2所示。

表1 標準數據集信息

表2 標準數據集分類結果
由表2可以看出,相比于SDELM和SELM學習方法,RSELM能得到最優的分類結果,驗證了算法的有效性,同時也說明了在帶標簽數據不足的情況下,所提方法能夠更充分地挖掘和利用數據信息來完成半監督學習任務,提高網絡的分類性能。
4.2 TE過程仿真
田納西-伊斯曼(TE)過程[31],是伊斯曼化學品公司的Downs和Vogel公布的用于學術研究的過程仿真,它基于實際化工過程,包含41個測量變量和12個操縱變量,有21種預設定的故障。每種故障工況的數據包均含960個樣本,且均在第161個樣本數據點加入故障,即每類故障均含有800個故障數據。目前,TE過程已經成為大家公認的用于檢驗各種控制及監控方案性能的研究對象。
仿真實驗中,選取9種類型的故障數據,并將之混合作為故障數據集進行學習,每類故障數據均歸一化為均值為0,方差為1的標準數據。
以標記率=0.2為例,說明RSELM在帶標簽數據不足的情況下進行故障診斷的有效性。各方法對所選取的9種故障的分類結果如表3和圖4所示。其中,總體分類精度(overall accuracy)為所有正確分類樣本數除以總的測試樣本數。
表3 TE過程故障診斷結果()
Table 3 Results of fault diagnosis on TE process()/%

表3 TE過程故障診斷結果()
FaultSDELMSELMRSELM 197.88±0.342397.88±0.3423100±0 4100±0100±0100±0 870.88±2.088970.00±0.883969.13±1.8160 1038.13±1.397543.00±2.044471.13±2.6295 1379.13±1.704376.13±1.425281.13±1.4922 1444.63±2.269951.38±2.666341.88±2.2097 1795.00±0.988290.50±1.617897.13±0.3423 2074.63±2.192073.88±1.355075.38±0.8385 2180.13±2.436778.13±1.169381.38±1.1180 overall accuracy75.60±1.288675.65±0.932079.68±0.5141
由表3和圖4可知,對于所列的故障類型,除故障8和故障14外,所提方法對于均能以最高的分類精度對故障進行分類,特別是對于故障10,RSELM的分類精度相比于其他兩種方法提高了30%左右的分類精度。而故障8和故障14分類精度下降是因為分類器參數是根據驗證集的總體分類精度來調整的,為達到更高的總體分類精度,分類器重心偏向了其他幾種故障的精度的提高,但就總體分類精度來說,在=0.2時,總體分類精度提高了4%,說明了在相同的條件下,RSELM能夠更有效地對故障進行分類,提高故障診斷性能。
為進一步驗證算法的有效性,對不同數據標記率下的故障數據進行仿真。不同標記率下的總體分類精度(overall accuracy)如表4和圖5所示??梢钥闯?,隨著樣本數據的標記率的增大,各種方法的故障診斷精度呈現升高的趨勢,而當帶標簽數據過少時(≤0.2),RSELM的分類精度明顯提升更多;而在相同的標記率下,RSELM總能得到比其他兩種方法更高的總體分類精度,說明了RSELM在綜合考慮了數據特征提取、自適應重構圖和類別信息優化權重等因素的情況下,能更充分地挖掘和利用歷史故障數據信息來訓練半監督分類器,使得對于未知的故障數據,RSELM能更有效地對故障進行分類,提高故障診斷性能。

表4 TE過程不同標記率下故障診斷結果
本文提出了一種基于重構的半監督極限學習機(RSELM)方法,以更充分地挖掘和利用數據信息,來處理實際工業過程中獲取帶標簽數據困難,而無標簽數據大量存在的情況下的故障診斷問題。不同于傳統的半監督ELM方法,RSELM利用ELM-AE獲取的輸出權重替代隨機的輸入權重以提取數據特征,并在特征空間中基于重構誤差最小的準則構建圖時,同時考慮了數據的局部結構信息和帶標簽數據的類別信息來優化連接權重,并基于此在輸出空間中構建新的局部保持的目標函數來訓練分類器?;跇藴蕯祿蚑E過程的仿真結果表明,所提算法能達到比傳統的半監督ELM方法相近甚至更高的分類精度,可有效地提高故障診斷的準確性。
[1] GE Z, SONG Z, GAO F. Review of recent research on data-based process monitoring[J]. Industrial & Engineering Chemistry Research, 2013, 52(10): 3543-3562.
[2] QIN S J. Survey on data-driven industrial process monitoring and diagnosis[J]. Annual Reviews in Control, 2012, 36(2): 220-234.
[3] ZHANG Y, MA C. Fault diagnosis of nonlinear processes using multiscale KPCA and multiscale KPLS[J]. Chemical Engineering Science, 2011, 66(1): 64-72.
[4] 劉強, 柴天佑, 秦泗釗, 等. 基于數據和知識的工業過程監視及故障診斷綜述[J]. 控制與決策, 2010, 25(6): 801-807. LIU Q, CHAI T Y, QIN S Z,. Progress of data-driven and knowledge-driven process monitoring and fault diagnosis for industry process[J]. Control & Decision, 2010, 25(6): 801-807.
[5] 李晗, 蕭德云. 基于數據驅動的故障診斷方法綜述[J]. 控制與決策, 2011, 26(1): 1-9. LI H, XIAO D Y. Survey on data driven fault diagnosis methods[J]. Control & Decision, 2011, 26(1): 1-9.
[6] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]// IEEE International Joint Conference on Neural Networks. Proceedings. IEEE Xplore, 2004, 2: 985-990.
[7] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.
[8] HUANG G B, WANG D H, LAN Y. Extreme learning machines: a survey[J]. International Journal of Machine Learning & Cybernetics, 2011, 2(2): 107-122.
[9] GAO H, HUANG G B, SONG S,. Trends in extreme learning machines: a review[J]. Neural Networks the Official Journal of the International Neural Network Society, 2015, 61: 32.
[10] HUANG G B. An insight into extreme learning machines: random neurons, random features and kernels[J]. Cognitive Computation, 2014, 6(3): 376-390.
[11] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.
[12] HUANG G B, CHEN L. Enhanced random search based incremental extreme learning machine[J]. Neurocomputing, 2008, 71(16/17/18): 3460-3468.
[13] HUANG G B, DING X, ZHOU H. Optimization method based extreme learning machine for classification[J]. Neurocomputing, 2010, 74(1/2/3): 155-163.
[14] HUANG G B, ZHOU H, DING X,. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B(Cybernetics), 2012, 42(42): 513-529.
[15] HUANG G B. An insight into extreme learning machines: random neurons, random features and kernels[J]. Cognitive Computation, 2014, 6(3): 376-390.
[16] CAMBRIA E, HUANG G B, KASUN L L C,. Extreme learning machines[J]. Intelligent Systems, IEEE, 2013, 28(6): 30-59.
[17] ZONG W, HUANG G B, CHEN Y. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101(3): 229-242.
[18] KASUN L L C, ZHOU H, HUANG G B,. Representational learning with ELMs for big data[J]. Intelligent Systems IEEE, 2013, 28(6): 31-34.
[19] MARTINEZ-REGO D, FONTENLA-ROMERO O, PEREZ- SANCHEZ B,. Fault Prognosis of Mechanical Components Using On-Line Learning Neural Networks[M]// Artificial Neural Networks – ICANN 2010. Berlin , Heidelberg: Springer, 2010: 60-66.
[20] MUHAMMAD I G, TEPE K E, ABDEL-RAHEEM E. QAM equalization and symbol detection in OFDM systems using extreme learning machine[J]. Neural Computing and Applications, 2013, 22(3): 491-500.
[21] WANG C, WEN C, LU Y. A fault diagnosis method by using extreme learning machine[C]// International Conference on Estimation, Detection and Information Fusion. IEEE, 2015: 318-322.
[22] LIU J, CHEN Y, LIU M,. SELM: Semi-supervised ELM with application in sparse calibrated location estimation[J]. Neurocomputing, 2011, 74(16): 2566-2572.
[23] IOSIFIDIS A, TEFAS A, PITAS I. Regularized extreme learning machine for multi-view semi-supervised action recognition[J]. Neurocomputing, 2014, 145(18): 250-262.
[24] HUANG G, SONG S, GUPTA J N,. Semi-supervised and unsupervised extreme learning machines[J]. IEEE Transactions on Cybernetics, 2014, 44(12): 2405-2417.
[25] ZHOU Y, LIU B, XIA S,. Semi-supervised extreme learning machine with manifold and pairwise constraints regularization[J]. Neurocomputing, 2015, 149(PA): 180-186.
[26] AVERDI B, MARQES I, GRANA M. Spatially regularized semisupervised ensembles of extreme learning machines for hyperspectral image segmentation[J]. Neurocomputing, 2015, 149: 373-386.
[27] ROWEIS S T, SAUAL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326.
[28] ZHAO H. Combining labeled and unlabeled data with graph embedding[J]. Neurocomputing, 2006, 69(16/17/18): 2385-2389.
[29] SINDHWANI V, NIYOGI P, BELKIN M. Beyond the point cloud: from transductive to semi-supervised learning[C]//ICML’05 Proceedings of the 22nd International Conference on Machine Learning Bonn, Germany, 2005: 824-831.
[30] MELACCI S, BELKIN M. Laplacian support vector machines trained in the primal[J]. Journal of Machine Learning Research, 2009, 12(5): 1149-1184.
[31] LEE J M, QIN S J, LEE I B. Fault detection of non-linear processes using kernel independent component analysis[J]. Canadian Journal of Chemical Engineering, 2008, 85(4): 526-536.
Reconstruction based semi-supervised ELM and its application in fault diagnosis
YI Weilin, TIAN Xuemin, ZHANG Hanyuan
(College of Information and Control Engineering, China University of Petroleum, Qingdao 266580, Shandong, China)
It is difficult to obtain labeled fault data while there are a multitude of unlabeled data available in industrial process, so how to utilize data information effectively is an important focal point in the field of fault diagnosis. A new semi-supervised learning method, reconstruction-based semi-supervised extreme learning machine (RSELM), was proposed for more sufficient data mining and information usage. Compared to traditional semi-supervised ELM, RSELM replaced random input weight in hidden layer with output weight, which was obtained by ELM auto-encoder (ELM-AE), such that data feature was extracterd more effectively. Since data could be reconstructed linearly by its neighbors, a self-adaptive reconstruction graph of neighboring data in combination with connection weight of optimal labeled data better reflected data structure information. A novel objective function preserving local structure information was further built to train classifier effectively. Simulation experiment on standard datasets and TE process demonstrated effectiveness of the proposed algorithm.
semi-supervised ELM; reconstruction;ELM-AE; fault diagnosis
10.11949/j.issn.0438-1157.20161252
TP 277
A
0438—1157(2017)06—2447—08
田學民。
易維淋(1991—),男,碩士研究生。
國家自然科學基金項目(61273160)。
2016-09-06收到初稿,2017-02-06收到修改稿。
2016-09-06.
Prof. TIAN Xuemin, tianxm@upc.edu.cn
supported by the National Natural Science Foundation of China (61273160).