謝 瑩, 胡范超, 劉雪偉
(1.沈陽化工大學 信息工程學院, 遼寧 沈陽 110142;2.沈陽化工大學 遼寧省工業環境-資源協同控制與優化技術重點實驗室, 遼寧 沈陽 110142)
在工業過程監控中,故障分類對于追溯故障根源以及使操作人員采取及時、準確的補救措施具有至關重要的作用.然而,在工業生產過程中,由于數據的高維特征和復雜關系,從工業過程中采集的數據通常很難進行分類.因此,學者們提出了一些分類方法,常見的有FDA方法[1]、k近鄰方法[2-3]和支持向量機方法[4-5]等.這些方法都屬于有監督的學習方法,即要求所有訓練數據都帶有標簽.然而,在實際的工業生產過程中,由于帶有標簽的數據往往數量很少,并且對工業過程數據進行人工標注需要耗費大量的人力和物力,因此獲取大量的標記數據進而對故障過程進行分類非常困難.
為了解決標記數據不足的問題,近年來,半監督學習方法在過程監控領域得到了廣泛的研究[6-7],例如:Feng等[8]提出了一種半監督主元分析方法,并將該方法應用于過程監控中;Yan等[9]提出了一種半監督混合判別式框架,并應用于注塑過程構造;Zhong等[10]提出了一種半監督FDA模型,并用于工業過程故障分類中.半監督學習方法可以有效挖掘未標記數據的結構和特征,從而在標記數據不足的情況下提高數據標簽的預測性能.
標簽傳播方法作為一種典型的半監督學習方法,近年來引起了學者們的廣泛關注[11-12].標簽傳播方法是利用標記數據和未標記數據的相似性和初始狀態,將標記數據的標簽傳播給未標記數據的一種常用方法.已有的標簽傳播方法按照能否直接處理樣本集以外的數據分為直推式標簽傳播方法和歸納式標簽傳播方法兩類.其中,直推式標簽傳播方法能夠處理樣本集內給定的數據,例如線性鄰域傳播方法[13]、特殊標簽傳播方法[14]、投影標簽傳播方法[15]、自適應鄰域傳播方法[16]和正負標簽傳播方法[17]等.
由于直推式標簽傳播方法快速、簡單、高效的優點,該方法已應用于許多領域,例如:Zhou等[11]提出了標簽傳播方法,該方法關注已標記和未標記數據的內在結構并定義一個平滑的分類函數,并且應用在Toy數據、數字識別和文本分類等實驗中;Wang等[13]提出了一種線性鄰域傳播方法,該方法假設每個數據點都可以被其近鄰線性重構,通過線性鄰域將標簽從標記點傳播到整個數據集,并且具有足夠的平滑度,然后應用于數據、數字和文本的分類過程;Zhang等[18]提出了一種自適應非負投影傳播方法,該方法將自適應標簽傳播、重構權重學習和鄰域保持投影非負矩陣分解集成在一起,并應用于圖像數據的分類過程中;Lin等[19]提出了一種動態圖融合標簽傳播方法,聯合考慮多圖的關系和每個圖的唯一分布,在傳播過程中建模多圖的各種相關性,并將其應用于多模態過程分類.
然而,現有的標簽傳播方法存在一些潛在的缺點.首先,數據圖的構建獨立于標簽傳播過程,根據之前的數據圖而計算得到的相似性權重對于后續的標簽傳播過程并不是最優的;其次,未標記數據的初始標簽向量通常簡單地定義為零向量,沒有充分考慮未標記數據和已標記數據之間的內部關系,而這些未標記數據和標記數據之間的關系和隱含的特征非常有價值.以上這些問題都可能導致故障分類的準確率降低.
針對工業過程中標記數據的有限性問題和故障分類問題,筆者研究了基于點密度標簽傳播(dot density label propagation,DDLP)的數據標簽預測方法和故障分類方法.首先,該方法構建了一個基于數據圖和數據標簽的框架,該框架假設流形上的數據具有相似的結構,近鄰數據具有相似的標簽;其次,在標簽傳播的初始化階段,考慮未標記數據和歷史標記數據之間的內在關系,定義了一個新的初始標簽矩陣;最后,通過Toy數據集和青霉素發酵過程驗證了所提出方法的有效性.
將給定的數據集映射到圖X=[XL,XU]∈Rs×n,圖中的每個數據對應于圖中的一個節點,數據之間的相似性對應于圖中的邊[14,20-21].XL=[x1,x2,…,xl]∈Rs×l表示已標記的數據集,XU=[xl+1,xl+2,…,xl+u]∈Rs×u表示未標記的數據集.其中:s表示每個數據的原始維度;l+u=n表示樣本數.假設C={1,2,…,c}是一個分類標簽集,XL中的每個數據xi都有一個唯一的標簽ηi(i=1,2,…,l),當xi標記為j∈{1,2,...,c}時,ηi,j=1;否則,ηi,j=0.點密度標簽傳播模型的目標函數表示為:
minJ(P,W,F)=
s.t.PPT=I.
(1)

在對目標函數中的參數P、W和F進行優化時,筆者采用迭代優化方法,即在固定其中兩個參數的同時更新第三個參數,反之亦然[22].目標函數的具體優化過程如下:
首先,設置相似性權重矩陣W的初始值.如果i≠j,Wij=e-‖xi-xj‖2/2δ2;否則,Wij=0.其中δ是核函數的核寬度參數,控制著函數的徑向作用范圍.采用核函數可以將兩點之間的距離轉化為相似度.其次,設置軟標簽矩陣F的初始值.當xi標記為j∈{1,2,…,c}時,fi,j=1;否則,fi,j=0[11-12].
然后,便可以計算低維流形的投影矩陣P[23-24].公式(1)中關于P的目標函數為[16]:
s.t.PPT=I.
(2)
在計算參數時對XLXT進行特征分解[25],選擇對應于d個最小特征值的特征向量作為P,其中L=(I-W)T(I-W),I為單位矩陣,d表示低維流形空間的維數.
接下來,更新相似性權重矩陣,關于W的目標函數表示為
(3)
W可通過對J(W)求導并設置為零得到.
最后,通過公式(4)更新軟標簽矩陣F.
(4)
對于給定數據集,無法準確得到每個樣本的特性,但是當樣本分布在一個簇中時,根據數據分布原理可知如果樣本點周圍有其他樣本點,那么該樣本點的分布密度會更高,這樣該樣本點對分類的影響也會更大.因此,本節將根據點密度思想來定義新的初始標簽矩陣,以充分挖掘未標記數據和歷史標記數據之間的內在關系.首先,設置初始標簽矩陣G=[g1,g2,…,gl+u]T∈R(l+u)×c,該矩陣代表每個樣本點密度的影響力.具體來說,對于已標記的數據,當xi標記為j∈{1,2,…,c}時,gi,j=1;否則gi,j=0.根據式(5)計算每個標記樣本的點密度.
1≤p≤l,1≤q≤n.
(5)
其次,對zp進行歸一化處理,便可以得到每個未標記數據的初始標簽為

(6)
然后,在得到初始標簽矩陣G之后,將公式(4)中J(F)關于F的導數設為零,即可得到迭代結果
F=[α(I-W)T(I-W)+βI]-1βG.
(7)
接下來,根據上述迭代方法更新參數,直到滿足收斂條件‖Ft+1-Ft‖2≤ε,當表示第(t+1)次與第t次迭代后的預測軟標簽沒有顯著差異時迭代結束,其中ε表示閾值.最后,根據fi中最大元素的列索引確定樣本的軟標簽.

在低維空間中,第j類數據的均值和協方差計算為:
(8)

采集新樣本并計算其低維投影z,首先將其代到每個類別數據的條件概率密度函數公式(9)[27-28]中.
(9)

引入Toy數據集和青霉素發酵過程兩個例子來驗證基于點密度標簽傳播的數據標簽預測方法和故障分類方法的有效性.
首先以Toy數據集[22,30]為研究對象來驗證所提出方法的標簽預測性能.Toy數據集中包括兩種數據類型,分別用類型1和類型2表示,每種類型的數據集分布在半月形中.在本次仿真中,引入了標簽傳播(LP)方法[11]和線性鄰域傳播(LNP)方法[13]與所提出的方法進行比較.
選取每種類型的60個樣本作為測試數據集,其分布情況如圖1所示.圖1上面的半月形表示類型1的數據分布,其中含5個已標記數據,用紅色實心正方形表示;下面的半月形表示類型2的數據分布,其中含5個已標記數據,用藍色實心三角形表示;110個未標記數據用黑色圓點表示.在本次仿真中,參數d設為1,α和β均為0.5,收斂閾值ε為e-6,δ2為500.

圖1 測試數據集
基于LP、LNP和本文提出的DDLP方法的仿真結果如圖2至圖4所示.通過仿真結果可以看出LP和LNP方法的標簽傳播正確率分別為65.5%和53.6%.相比而言,DDLP方法得到比較理想的標簽傳播結果,其標簽傳播準確率為90.9%.仿真結果表明:DDLP方法的點密度框架為標簽傳播提供了最優的初始標簽矩陣,使得本方法能夠有效地挖掘和利用已標記數據和未標記數據中的信息,達到準確預測標簽的目的,標簽傳播性能得到了明顯提高.

圖2 LP方法的標簽傳播結果

圖3 LNP方法的標簽傳播結果

圖4 DDLP方法的標簽傳播結果
青霉素發酵過程是一個復雜的生化過程[31-34],其工藝流程如圖5所示.它包括兩個主要操作階段:細菌生長階段和青霉素發酵階段.由于該過程在不同的初始條件和運行模式下的過程數據歸屬于不同的類別,故本節通過青霉素發酵過程對提出的基于點密度標簽傳播的分類方法進行驗證.
本次仿真使用的數據由Pensim V2.0生成,選取青霉素發酵過程中的14個變量進行仿真,過程變量詳見表1.在本次仿真中,青霉素發酵過程運行在正常、故障1、故障2和故障3四種類別情況下.其中正常模式中的初始條件、設置點和溫度控制器均為默認設置值,并采用PID控制器對pH值進行調節.故障1是由通風率出現斜坡故障引起的,故障2是由攪拌器功率出現階躍故障引起的,故障3是由底物喂料流速出現斜坡故障引起的.

圖5 青霉素發酵工藝流程

表1 青霉素發酵過程變量
建模過程中訓練數據集由300個樣本組成,其中包括120個正常樣本(含10個已標記樣本)、60個故障1樣本(含5個已標記樣本)、60個故障2樣本(含5個已標記樣本)和60個故障3樣本(含5個已標記樣本).通過Pensim V2.0生成測試數據集,包括100個正常樣本、50個故障1樣本、50個故障2樣本和50個故障3樣本,且它們依次出現,并且故障1、故障2和故障3的故障幅度分別為0.9、2%和0.9.
通過LP、LNP和DDLP方法可以得到未標記數據的軟標簽,然后將這三種方法分別結合SFDA方法實現過程數據的分類.LP-SFDA、LNP-SFDA和DDLP-SFDA模型中的參數r均設為4.在DDLP-SFDA模型中,參數d設置為4,α和β均為0.5,ε為e-6,ω為0.7,δ2為500.
圖6至圖8為利用LP-SFDA、LNP-SFDA和DDLP-SFDA方法測試數據在低維空間的投影結果.圖6和圖7表明LP-SFDA和LNP-SFDA方法在低維空間獲得的投影比較接近,四種類別的數據不能較好地區分開,模型對這四種類別不能進行良好地判別.相比而言,圖8表明了用DDLP-SFDA方法獲得的4種類別在低維子空間的投影彼此之間明顯分離.這說明DDLP-SFDA方法對4種類別具有更好的判別效果,表明DDLP-SFDA方法可以獲得更好的判別子空間,從而得到更準確的判別結果.

圖6 LP-SFDA方法降維結果

圖7 LNP-SFDA方法降維結果

圖8 DDLP-SFDA方法降維結果
圖9至圖11給出了基于LP-SFDA、LNP-SFDA和DDLP-SFDA方法的分類結果,三種方法的分類準確率分別為87.6%、81.2%和98.0%.由圖9和圖10可以看出利用LP-SFDA和LNP-SFDA方法對四種類型的數據進行分類時存在一些錯誤的分類,準確率較低.相比而言,圖11表明DDLP-SFDA方法的分類正確率遠高于LP-SFDA和LNP-SFDA方法,故障分類性能得到了明顯提高.

圖9 LP-SFDA方法故障分類結果

圖10 LNP-SFDA方法故障分類結果

圖11 DDLP-SFDA方法故障分類結果
因此,根據對比結果可以看出DDLP-SFDA方法的故障分類準確率明顯高于其他兩種方法.以上結果表明:通過DDLP方法的標簽預測和SFDA模型的半監督特性,所提出方法的分類性能得到了顯著提高.通過本次實驗也驗證了所提出方法在故障分類方面的有效性.
針對工業過程中的標記數據有限性問題和故障分類問題,研究了基于點密度標簽傳播的數據標簽預測方法和故障分類方法.首先,該方法基于數據圖和數據標簽理論,構建了一個全局和局部一致性框架;然后,根據數據的分布特征和點密度定義了一個新的初始標簽矩陣,通過迭代方法得到最優參數集;最后,通過Toy數據集和青霉素發酵過程驗證了所提出方法的有效性.結果表明本文所提出的方法在未標記數據的標簽預測中具有良好的性能,并且在故障分類方面使分類效果得到顯著提高,具有一定的理論意義和實際應用價值.