李 元 耿 焱 馮立偉,b
(沈陽化工大學(xué)a.過程故障診斷研究中心;b.理學(xué)院)
現(xiàn)代工業(yè)生產(chǎn)過程通常具有動態(tài)性、非線性及多階段性等特征。 常見的具有多階段結(jié)構(gòu)特征的工業(yè)過程有半導(dǎo)體蝕刻工藝[1,2]、芯片封裝工藝[3]和青霉素發(fā)酵過程[4~7]。 為了提高控制系統(tǒng)故障檢測的性能,近年來在該研究領(lǐng)域,主元分析(Principal Component Analysis,PCA)[8,9]、 核主元分析 (Kernel Principal Component Analysis,KPCA)[10,11]、偏最小二乘[12]及獨立元分析[13]等方法應(yīng)用廣泛。 其中PCA監(jiān)控策略是一種廣泛應(yīng)用的線性降維方法。 針對工業(yè)生產(chǎn)過程中的數(shù)據(jù)存在非線性的問題,采用了KPCA方法[14,15],但是該方法未能考慮多階段性和動態(tài)性特征的不利影響。考慮工業(yè)過程具有動態(tài)性特征,Ku W等提出了DPCA (Dynamic Principal Component Analysis,DPCA)[16], 該方法能夠處理數(shù)據(jù)的動態(tài)信息,剔除數(shù)據(jù)樣本間的相關(guān)性。 但是它也要求過程數(shù)據(jù)滿足單一階段的同一分布的基本假設(shè),在多階段過程中故障檢測率[17]較低,無法實現(xiàn)對多階段過程的有效監(jiān)控。
針對具有的多階段性和非線性特征的工業(yè)過程數(shù)據(jù)的檢測問題,國內(nèi)外眾多學(xué)者提出一系列有效的方法應(yīng)用于多階段工業(yè)過程[18~21]。He Q P和Wang J提出以累積近鄰距離作為檢測指標的K近鄰規(guī)則(K Nearest Neighbor Rule,KNN)故障檢測方法[18]。 針對多階段過程數(shù)據(jù)方差差異大的問題,馮立偉等提出特定距離的K近鄰方法[19],然而,當工業(yè)過程具有較強的動態(tài)性時,檢測效果相對較差。 馬賀賀等提出局部離群因子(Local Outlier Factor,LOF)[20],劉幫莉等提出運用局部密度估計方法對多階段過程實現(xiàn)故障檢測[21],但這兩種方法對動態(tài)過程的監(jiān)控效果不佳。 馮立偉等提出基于時空近鄰標準化和局部離群因子(Time-Space Nearest Neighborhood Standardization and Local Outlier Factor,TSNS-LOF)的方法[22],該方法考慮了時間和空間近鄰信息,相對于上述多階段方法,檢測效果明顯提高。 但是它的每個數(shù)據(jù)點都要分配依賴鄰域密度的離群因子,同時還需求出全體采樣點的離群因子,計算所需的時間較長。
綜上,為了進一步提高非線性、動態(tài)性與多階段性特征系統(tǒng)的可靠性、穩(wěn)定性,筆者提出一種基于時空近鄰標準化和K近鄰規(guī)則(Time-Space Nearest Neighborhood Standardization and K Nearest Neighbor Rule,TSNS-KNN) 的故障檢測方法,首先在時間維度上搜索到訓(xùn)練樣本的近鄰樣本集,其次在空間維度上尋找上述樣本集的近鄰樣本集,并進行標準化處理,最后利用標準化的訓(xùn)練樣本集計算樣本的累積近鄰距離,將該值作為檢測的指標進行在線故障檢測。 TSNS-KNN方法與局部離群因子的復(fù)雜過程故障檢測方法相比適用范圍更廣且計算時間相對較短。
在訓(xùn)練樣本數(shù)據(jù)集中,首先查找樣本xi的前k個近鄰樣本,并計算xi到前k個近鄰樣本之間的距離,然后計算前k個距離的平方和,并把它作為統(tǒng)計指標:

K近鄰方法分為離線建模和在線檢測過程。
離線建模過程如下:
a. 從訓(xùn)練樣本集X中查找樣本x的前k個近鄰樣本;
在線檢測過程如下:
a. 從訓(xùn)練樣本集X中尋找待檢測樣本xγ的前k個近鄰樣本;



將樣本x標準化可得:

正常樣本具有一組相似的時間近鄰樣本集與空間近鄰樣本集。 通過TSNS處理后,正常樣本會接近坐標原點, 而故障樣本會偏離正常樣本。TSNS方法能夠保留故障樣本與正常樣本的差異性。 考慮單純使用空間近鄰信息所導(dǎo)致的錯誤檢測,TSNS方法充分考慮時間序列信息的影響,使用來自于相近時刻的樣本近鄰集,最后對過程使用KNN方法進行檢測。
下面利用Lyapunov中心極限定理[24]證明包含動態(tài)性和多階段的數(shù)據(jù)通過TSNS方法處理后近似服從單一正態(tài)分布。

如果存在δ>0時,Lyapunov條件滿足,則(xjμj)/sh的和在h有限時收斂于標準正態(tài)隨機分布,即:

判斷Lyapunov條件成立[25],一般要求δ=1。 在具有動態(tài)性和多階段性的數(shù)據(jù)集中, 樣本x雖然來自不同的階段,對于正常樣本xi來說,樣本xi與其時間和空間層面的近鄰組成的序列集合屬于同一階段,其期望值和方差與近鄰集均值和近鄰集方差相同。 Lyapunov條件有如下形式:

因同一階段的數(shù)據(jù)服從高斯分布時, 可滿足Lyapunov條件。故根據(jù)Lyapunov中心極限定理可得:

盡管在多階段數(shù)據(jù)集中,樣本來自不同的階段,但是對每一個樣本而言,其Lyapunov條件總是能夠得到滿足,即經(jīng)過TSNS處理之后的樣本都可以近似服從標準正態(tài)分布,此時每個樣本之間是獨立的,即消除了過程的動態(tài)性。
2.2.1 離線建模
離線建模步驟如下:

2.2.2 在線檢測
在線檢測步驟如下:


使用一個動態(tài)非線性的數(shù)值仿真實例闡述該方法。該過程有兩個輸入變量θ和t,兩個輸出變量x1和x2,模型如下:

其中,θ的取值范圍為-2π~2π,t的取值范圍為0~4π,e1、e2是隨機噪聲,a是取值為0.2的過程參數(shù)。
首先確保整個過程正常運行并生成500個建模樣本。其次保證過程再次正常運行,但從t=2π開始, 在變量x1上加入幅值為-6的階躍型擾動故障,直到過程結(jié)束。 原始數(shù)據(jù)如圖1所示,可以看出有大量故障很接近正常訓(xùn)練樣本。 運用TSNS-KNN方法監(jiān)控整個過程,其中時空近鄰標準化后的結(jié)果如圖2a所示, 從圖2a中看出TSNS方法對數(shù)值實例實現(xiàn)了故障樣本和正常樣本的分離,TSNS-KNN方法的檢測結(jié)果如圖2b所示, 由圖2b可見對測試數(shù)據(jù)的故障檢測效果較好。

圖1 原始數(shù)據(jù)散點圖

圖2 TSNS-KNN方法的非線性動態(tài)過程檢測結(jié)果
在青霉素發(fā)酵過程中,觀測變量隨著時間的變化而發(fā)生改變,且前一時刻的樣本會影響后一時刻的樣本,因此其具有動態(tài)性,過程中的樣本間也具有較強的自相關(guān)性,同時變量之間也具有非線性。 經(jīng)過時空近鄰標準化處理后(圖3),樣本的時刻相關(guān)性降低,同時消除了過程中的動態(tài)性特征。 原始數(shù)據(jù)的相關(guān)性如圖4a所示,經(jīng)過TSNS方法處理后,將具有動態(tài)性和多階段性的原始樣本轉(zhuǎn)化為單一階段樣本,如圖4b所示,并完成了故障樣本和正常樣本的分離。 青霉素發(fā)酵過程的第1階段是青霉菌適應(yīng)生長繁殖階段,第2階段青霉素作為二次代謝的產(chǎn)物開始合成,青霉菌開始生產(chǎn)青霉素。 青霉素發(fā)酵過程的數(shù)值仿真在Pensim平臺上[7],已經(jīng)有相關(guān)研究成果表明該仿真軟件具有較高的實用性和有效性[19]。 筆者使用Pensim平臺模擬生產(chǎn)數(shù)據(jù),總模擬時間設(shè)置為400 h,采樣間隔為0.5 h。 首先,所有系統(tǒng)采用默認參數(shù)來建模,產(chǎn)生一組正常批次數(shù)據(jù)。 其次,加入階躍信號和斜坡信號在變量底物流速率上,并設(shè)定不同的故障幅度,此故障設(shè)有不同的引入時間,其中終止時間均為400 h。 其余參數(shù)均采用默認值,生產(chǎn)5個批次故障數(shù)據(jù),故障數(shù)據(jù)的詳細描述見表1。

表1 故障樣本

圖3 樣本相關(guān)性

圖4 青霉素過程數(shù)據(jù)
運用TSNS-KNN方法, 解決青霉素發(fā)酵過程中的動態(tài)性、非線性和多階段性問題,檢測結(jié)果優(yōu)于文中其他方法。 運用PCA、KPCA、DPCA、KNN、TSNS-LOF和TSNS-KNN方法進行檢測對比。TSNS-KNN方法的置信水平均取95%;PCA、KPCA方法依據(jù)85%的累計貢獻率[25]選取主元個數(shù);KPCA中的高斯徑向核函數(shù)中的參數(shù)取3 500;DPCA方法的時滯參數(shù)[26]取2,主元個數(shù)選擇為5;KNN的近鄰個數(shù)選擇為5;TSNS-LOF方法與TSNSKNN方法的近鄰個數(shù)N=5,K=5,k=5。 測試集中故障f5的檢測圖如圖5所示,測試集所用方法的故障檢測率列于表2, 由表2可見TSNS-KNN方法檢測效果相對較好。

表2 不同方法的故障檢測率%


圖5 故障f5檢測結(jié)果
如圖5a所示,PCA方法檢測上述故障效果相對較差, 因為PCA方法要求數(shù)據(jù)來自單一階段的獨立正態(tài)分布,由圖4a可知,該過程是具有非線性和多階段性特征的過程,因此無法做出準確的檢測;如圖5b所示,KPCA方法無法捕捉數(shù)據(jù)的動態(tài)性特征,所以檢測效果相對低下;如圖5c所示,DPCA方法能夠提取復(fù)雜過程的動態(tài)特征, 但是它的統(tǒng)計量需要滿足單階段的多元正態(tài)分布的假設(shè), 所以對多階段過程的故障檢測率也比較低; 如圖5d所示,KNN方法能夠解決非線性和多階段特征問題, 但是它無法檢測過程的動態(tài)性,部分故障檢測效果不顯著; 如圖5e所示,TSNSLOF方法在線檢測實時性要求較高, 必須求出所有樣本采樣點的離群因子, 從而計算時間長,檢測時間見表3;如圖5f所示,TSNS-KNN方法相比其他方法,檢測效果相對更優(yōu),因為該方法消除了樣本之間的動態(tài)相關(guān)性。

表3 測試集的檢測時間s
針對復(fù)雜工業(yè)過程的動態(tài)性、非線性和多階段性的特點,筆者提出了基于時空近鄰標準化和KNN規(guī)則的復(fù)雜階段過程故障檢測方法。 TSNSKNN方法將時序信息考慮在內(nèi), 能夠克服非線性、動態(tài)性和中心漂移的不利影響。 將TSNS-KNN應(yīng)用在青霉素發(fā)酵過程中,實驗結(jié)果表明:TSNSKNN方法相對于PCA、KPCA、DPCA、KNN和TSNSLOF方法具有更高的及時性和故障檢測率, 針對多階段過程和動態(tài)過程的故障,具有較高的檢測能力,筆者所提方法能夠更好地保障生產(chǎn)過程的安全和產(chǎn)品高質(zhì)量的動態(tài)性特征。