崔超宇,郭麗杰,*,康建新
(1. 燕山大學 河北省應用化學重點實驗室,河北 秦皇島 066004;2. 燕山大學 環境與化學工程學院,河北 秦皇島 066004)
化工生產通常處于高溫高壓的生產環境,原料或產品往往涉及易燃易爆、有毒有害的物質,一旦發生事故后果不堪設想。正是由于化工生產安全的重要性,為了確保生產的安全,對大型化工裝置普遍采用狀態監測的方法,因而也得到大量有價值的過程監測數據。近年來,過程狀態監測和故障診斷技術得到迅速發展,總的來說,分為3種:基于知識的方法、基于解析模型的方法和基于數據驅動的方法[1]。其中,基于知識的方法[2]需要決策者具有較高的知識水平,基于解析模型的方法[3]對于大型復雜系統建模十分困難,且精度較低,這兩種方法在使用時往往會受到制約。基于數據驅動的方法通過挖掘過程數據潛在信息來發現系統的故障情況,且對于建模精度和操作者的知識水平要求不高而得到廣泛使用[4]。郭金玉等[5]提出基于加權差分主元分析算法,實現了對多模態和非線性過程數據進行故障檢測;馬賀賀等[6]針對數據多模態分布的特性,結合多元統計監控(Multivariate Statistical Process Monitoring,MSPM)方法提出了馬氏距離局部離群因子(Mahalanobis Distance-based Local Outlier Factor,MDLOF)方法進行故障檢測;Wang等[7]提出了用于過程監控的分區主成分分析方法(Probabilistic Principal Component Analysis,PPCA),實現了對模型的局部變化行為進行監控;Gao等[8]針對化工數據高維性結合主成分分析法(Principal Component Analysis,PCA)與網格搜索方法(Grid Search,GS)對支持向量機參數進行優化,有效提高了診斷的準確性。Zhang等[9]根據化工數據非線性與多模態的特點,提出了一種基于核熵分量分析(Kernel Entropy Component Analysis,KECA)的非線性化工過程監測方法。
在基于數據驅動的方法中,復雜網絡建模由于對過程監測數據不需要滿足線性、符合高斯分布等要求,而且可以以圖形化的方式直觀地表示系統的整體結構特征,近年來不論是在工程應用還是在學術研究領域都取得了長足進步[10-11]。陳雨等[12]利用偏相關系數確定復雜變量間的鄰接矩陣并建立網絡模型用于過程故障診斷;Jiang等[13]將整套化工過程建模為復雜網絡模型,并通過拓撲特性來對故障進行分析,找出易引起系統崩潰的重要節點;李果等[14]對化工系統進行了網絡拓撲特性的研究,并利用蟻群算法有效地找出系統中的脆弱節點;杜海峰等[15]將故障診斷聚類問題轉化為復雜網絡子網絡探測問題,并提出一種基于模塊合并的故障診斷聚類算法;王政等[16]將化工過程系統結合符號有向圖抽象為復雜網絡拓撲結構,對化工生產中易產生故障的部位進行了研究。但目前,復雜網絡在應用中要通過觀察網絡結構來評判系統的狀態,缺乏定量化的評價依據,結果可能引起誤判,而且效率低。為了有效地從過程監測數據中提取故障特征,本文建立了基于復雜網絡節點異常系數的化工過程狀態監測方法,首先對建立復雜網絡建模的數據樣本數量進行優化,然后建立復雜網絡,提出節點異常系數用于定量識別系統狀態,最后以TE過程作為應用實例進行驗證。
復雜網絡是近年來研究的熱點之一,在解決數據復雜性問題中有著出色的表現,已在電力系統、社交網絡、交通規劃、病毒傳播等方面得到廣泛應用[17-21]。以復雜網絡理論為基礎的狀態監測是通過計算各節點之間相似度得到節點的關聯性,由關聯性建立復雜網絡模型,通過對比實時工況與正常工況網絡結構,即主要分析網絡節點和連邊的增減,來判斷系統的運行狀態。本方法包括優化復雜網絡建模和基于節點異常系數的狀態監測兩部分。
在建立復雜網絡時,如果樣本數量不足,所建立的復雜網絡不可能表示系統的真實狀態,從而會造成誤判,影響監測結果;但數據樣本數量過于龐大時,會大大增加運算的工作量。在最佳樣本容量下進行復雜網絡建模時,不僅可以保證模型精度,還可以減小運算工作量,從而減少建模時間,提高診斷效率。優化復雜網絡建模就是要尋找建立復雜網絡所需的最佳樣本數量,最佳樣本數量是通過網絡模型的穩定性來確定的。
在已有的復雜網絡狀態監測方法中,評判故障發生的依據僅僅是通過觀察復雜網絡拓撲圖來得出,存在一定的局限性。因為在實際生產中,一整套化工過程的監測節點數目巨大,僅僅通過肉眼觀察復雜網絡拓撲圖很難準確判斷出故障是否發生。本文構建了節點異常系數,目的是為化工過程狀態監測建立定量化的評判依據,從而提高狀態監測的準確性和效率。
化工過程復雜網絡建模是把工藝監測變量作為節點,通過節點之間的相關性建立鄰接矩陣,形成網絡圖形[22]。文獻[12]采用偏相關系數法計算節點之間的相關性,根據相關性閾值定義節點之間的強弱相關關系,得到鄰接矩陣A。鄰接矩陣A中,若節點i與節點j存在相關關系,則Aij=1,否則Aij=0。之后,根據鄰接矩陣建立復雜網絡模型。例如,若A為一個五階矩陣:當Aij=1時,則節點i和j之間存在一條連邊;當Aij=0時,節點i和j之間不存在連邊。圖1為由上述鄰接矩陣A建立的復雜網絡拓撲圖。


圖1 由鄰接矩陣A建立的復雜網絡拓撲圖Fig.1 Complex networks topology of adjacency matrix A
平均節點度與平均聚集系數是復雜網絡的兩個重要的基本特征度[23]。
節點度Di(Degree)是指節點i與其他節點之間連接的個數,平均節點度越大,網絡的魯棒性越好,研究表明,網絡的魯棒性與穩定性有著正相關的關系,整個網絡的平均節點度表示為

(1)
式中,kij為與節點i連通的節點;N為復雜網絡節點總數。
聚集系數Ci(Clustering Coefficient)是指在網絡中與同一個節點相連的兩個節點也相連的概率,它是復雜網絡聚集程度的判斷指標,整個網絡的平均聚集系數表示為

(2)
式中,Mi表示與節點i相連的節點之間的連接數;Di為節點i的節點度;N為復雜網絡節點總數。
復雜網絡的建立和特征參數的計算可以通過Pajek軟件實現,將鄰接矩陣輸入到Pajek軟件中,使用繪圖功能直接根據鄰接矩陣建立復雜網絡拓撲圖,并利用其內置的特征參數計算方法可以得到平均節點度與平均聚集系數。
最佳樣本數量主要是通過復雜網絡的穩定性來確定。當樣本數量S小于最佳樣本數量N0時,網絡處于未穩定狀態,節點分布比較稀疏,網絡平均聚集系數較小;當樣本數量S接近或者等于最佳樣本數量N0時,平均網絡節點度較大,網絡節點之間的連通性進一步增強,故網絡具有較大的平均聚集系數,此時復雜網絡結構變化程度開始變得緩慢,網絡逐漸趨于穩定狀態,并且具有較強的魯棒性;當樣本數量S大于最佳樣本數量N0時,網絡處于穩定狀態,若收集更多的正常數據對網絡結構幾乎不會產生影響,并且隨著樣本數量的增加,建模過程的計算量也隨之增加,影響診斷效率。
確定正常工況最佳樣本數量N0的步驟如下:
1) 在正常工況下,把采集到的每個時刻的工藝變量數據作為一個樣本,按照每次10個樣本的速度逐漸增加,并進行復雜網絡建模,之后分別利用式(1)、(2)計算網絡平均節點度、網絡平均聚集系數。
2) 觀察復雜網絡模型結構的穩定性,以及復雜網絡平均節點度和平均聚集系數。
3) 若網絡狀態評定結果為穩定狀態則停止增加樣本數量,此時的樣本數量為最佳樣本數量N0。
在化工生產中,監測的工藝變量數值往往會存在一些小的波動,有些變量的波動有時表現為突然變大但又迅速消失,這種情況對化工生產影響較小,生產可以繼續進行。但是這些波動可能會直接影響所建立復雜網絡的結構,從而造成操作和管理人員對系統狀態的誤判。為了避免工況波動的影響,為狀態監測提供準確定量化評判依據,本文提出了基于復雜網絡的節點異常系數法,計算公式如下:

(3)

(4)

采用統計學中的迭代法對部分變量的波動數據構建了節點異常系數閾值T0。首先在最佳樣本數量下,從正常工況歷史數據中找出波動較大的采樣點,記錄這些采樣點并刪除,然后將這些采樣點依次按照不同的組合輸入回原樣本空間中建立復雜網絡,并計算相應的節點異常系數T,其中最大的節點異常系數就作為節點異常系數閾值T0,計算步驟如下:
1) 分別找出各個監測節點中出現較大擾動的采樣點x個,記錄并從樣本空間中刪除這些采樣點,此時樣本數量為N0-x個,設m為加入的擾動樣本數量,初值令m=0,進行復雜網絡建模,并通過式(3)計算節點異常系數T0,1;
2) 將出現較大的擾動點分別以一次m=1的形式加入到樣本數量為N0-x的樣本中,進行復雜網絡建模,并通過式(3)計算節點異常系數T1,1,T1,2,…;
3) 將出現較大的擾動點分別以一次m=2個的形式加入到樣本數量為N0-x的樣本中,進行復雜網絡建模,并通過式(3)計算節點異常系數T2,1,T2,2,…;
4) 將出現較大的擾動點分別以一次m=x-1個的形式加入到樣本數量為N0-x的樣本中,進行復雜網絡建模,并通過式(3)計算節點異常系數Tx-1,1,Tx-1,2,…;
5) 按照上述計算方法完成x-1次迭代計算后結束運算,節點異常系數最大的值為節點異常系數的閾值,即T0=max {T}。
基于復雜網絡的化工過程狀態監測包括離線建模和在線監測兩個部分,流程如圖2所示。
離線建模過程:
1) 確定復雜網絡的最佳樣本數量N0,并對過程數據進行標準化處理;
2) 建立正常工況下的復雜網絡模型,計算出正常工況復雜網絡節點度D0;

圖2 基于復雜網絡的化工過程狀態監測流程Fig.2 Procedure of condition monitoring based on complex network for chemical process
3) 計算復雜網絡的節點異常系數閾值T0。
在線監測過程:
1) 對實時工況數據進行復雜網絡建模并計算節點異常系數T;
2) 在狀態監測中,當T≤T0時,雖然復雜網絡狀態發生改變,但并沒有產生很大影響,此時為正常工況;當T>T0時,說明工況波動對復雜網絡結構影響較大,此時為故障工況。
3) 對于故障工況,通過分析復雜網絡結構特征確定引起故障的網絡節點,即辨識故障原因。
TE過程又稱為田納西-伊斯曼(Tennessee-Eastman)過程,是根據Eastman化工公司的一套真實的化工過程開發的模型,由于其為化工過程控制和監測提供了出色的模擬平臺,在故障檢測領域得到廣泛應用[24]。因為TE過程本身是一個復雜的化工系統,具有多變量相互作用性較強的特點,應用復雜網絡理論可以以圖形化的方式直觀地表示它的整體結構特征,所以本研究以TE過程作為實例來驗證所提出方法的有效性。TE過程共包括41個測量變量和12個控制變量以及預先設定的20個故障,其中測量變量包括22個連續測量變量和19個組分測量變量。考慮到組分變量采樣時間較長,不符合狀態監測的及時性,所以本文不予考慮,僅對22個連續測量變量進行研究。過程數據為間歇式采集,采集時間間隔為3 min。對22個連續測量變量的說明見文獻[24]表2.5,故障編號與故障描述見文獻[24]表2.7。
在本文中,首先選取正常工況下樣本數量為100、200、300、400、450、500、550的化工過程監測數據,分別建立復雜網絡,不同數量樣本的復雜網絡平均節點度以及平均聚集系數如表1所示。
從表1可以看出,當樣本數量為100時,雖然此時復雜網絡平均節點度達到4.71,但聚集系數較小,僅為0.474,復雜網絡結構比較稀疏且分散。當樣本數量達到300時,網絡部分節點消失,導致平均節點度降低、網絡聚集系數降低,與樣本數量為100、200的網絡狀態相比,網絡的聚集程度在不斷升高。當樣本數量增加至450時,復雜網絡平均節點度與平均聚集系數均達到峰值,說明復雜網絡達到最穩定的狀態。

表1 不同樣本數量下的復雜網絡特征參數Tab.1 Characteristic parameters of complex networks with different sample numbers
根據不同數量樣本建立的復雜網絡拓撲圖如圖3所示。從圖3可以看出,隨著樣本數量的逐步增加,復雜網絡的網絡結構也隨之變化。當樣本數量從100增加到450時,復雜網絡結構一直在發生變化,當樣本數量從450增加到500、550時,復雜網絡結構穩定,不再發生變化。
根據上述復雜網絡特征參數與復雜網絡拓撲圖可以得出結論,當樣本數量為450時復雜網絡開始進入穩定狀態,此時的樣本數量可作為最佳樣本數量N0。本文為了避免偶然性等不利因素,確定最佳樣本數量為500,并在此樣本數量下進行復雜網絡建模。
2.3.1離線建模
取500個正常工況采樣點的數據進行復雜網絡建模,所建立的復雜網絡拓撲圖如圖4(a)所示,從圖中可以直觀地看出工藝變量之間的相互作用關系。經計算,正常工況復雜網絡節點度D0為56。根據1.3中所給出的計算步驟進行計算,得到最大的節點異常系數所對應的復雜網絡拓撲圖如圖4(b)所示。通過計算各個節點的節點度變化得出,節點10與節點13、節點10與節點18、節點9與節點21分別減少一條連邊,節點20與節點21增加一條連邊,節點度變化幅度為8,節點異常系數閾值T0最后確定為14.3%。復雜網絡模型的節點異常系數閾值與化工過程的監測變量、監測數據和網絡結構有關,不同化工過程的監測變量和數據存在差異,建立的復雜網絡結構也不同,因而在每一個化工過程建立復雜網絡時,都需要單獨計算其節點異常系數閾值。

圖3 不同樣本數量下的復雜網絡拓撲圖Fig.3 Complex networks topology with different sample numbers


圖4 復雜網絡模型變化比較Fig.4 Comparison of changes of complex networks model
2.3.2在線監測
TE過程中故障類型較多,本文僅以TE過程中已經設置好的故障4和故障5來為實例進行分析。故障4為反應器冷卻水入口溫度異常,故障5為冷凝器入口溫度異常。在TE過程正常工況后的第501個采樣點分別引入故障。
對于故障4的第501個采樣點進行復雜網絡建模,計算出節點異常系數T501為71.4%,大于節點異常系數閾值14.3%,此時可以判斷TE過程為故障狀態。第501個采樣點的復雜網絡拓撲圖如圖5所示,與圖4(a)中的正常工況拓撲圖相比,網絡聚集程度降低,邊緣節點增多,由圖6可以看出,在故障4發生后,一共22個節點發生不同程度的變化,其中節點9變化幅度最大,節點9為反應器溫度的監測點,反應器內發生放熱反應,當冷卻水發生故障時,造成反應器溫升,相關工序都受到影響,節點9的監測數據如圖7所示。從圖7可以看出,在第501個點時該溫度發生了非常明顯的階躍,并且遠遠超過控制上限,由此可以說明本方法的狀態監測結果與TE過程預設的故障相符。
同樣的,對于故障5,在第501采樣點進行復雜網絡建模并計算節點異常系數為0%,此時未檢測出故障。對第502采樣點采集的數據按照上述的方法進行復雜網絡建模,如圖8所示,此時節點異常系數為82.1%,已超出節點異常系數閾值,即可判斷為非正常工況。與圖4(a)中的正常工況拓撲圖相比,網絡聚集程度大幅度提高,并且出現了多個較大節點度的節點,由此判斷由于故障5的加入造成了多個監測節點數據異常。由圖9可知,故障5發生后大部分節點的節點度都發生了變化,其中節點11和22的變化幅度最為明顯。圖10和圖11分別為節點11和22的過程監測數據。TE過程在前500個時刻為正常工況,當第502個采樣點時節點11與12的監測數值超出控制限上限,因而確定由于節點11與22共同故障導致了整個系統故障的發生。

圖5 故障4時的復雜網絡模型Fig.5 Complex networks model for the 4th fault

圖6 故障4引起的節點度的變化Fig.6 Changes of node degree caused by the 4th fault

圖7 節點9的采樣數據Fig.7 Sample data of the 9th node

圖8 故障5時的復雜網絡模型Fig.8 Complex networks model of the 5th fault

圖9 故障5引起的節點度的變化Fig.9 Changes of node degree caused by the 5th fault

圖10 節點11的采樣數據Fig.10 Sample data of the 11th node

圖11 節點22的采樣數據Fig.11 Sample data of the 22nd node
1) 首先以復雜網絡結構的穩定性作為確定最佳樣本數量的依據,對建立復雜網絡的樣本數量進行優化;之后,進行復雜網絡建模;最后根據復雜網絡結構特性提出節點異常系數法,解決已有研究中利用復雜網絡理論進行故障檢測時缺少量化的問題。
2) 把本文所提出的方法應用于TE過程,結果表明,采用該方法能夠及時、準確地監測到故障,驗證了該方法的有效性。復雜網絡以圖形化的形式刻畫出變量之間的相互作用關系,為后續的故障診斷提供可靠的依據。
3)本文提出的基于復雜網絡的化工過程狀態監測方法在一定程度上提高了監測與診斷的準確性,但是目前仍采用手動建模,下一步需要研究整合建模、監測和診斷過程,開發自動故障診斷程序,從而提高分析速度。