張 進, 王貴成,2, 汪 瀅
(1.沈陽化工大學院 信息工程學院, 遼寧 沈陽 110142; 2.上海應用技術大學 電氣與電子工程學院, 上海 201418)
基于模糊聚類的谷氨酸發酵過程故障診斷研究
張 進1, 王貴成1,2, 汪 瀅1
(1.沈陽化工大學院 信息工程學院, 遼寧 沈陽 110142; 2.上海應用技術大學 電氣與電子工程學院, 上海 201418)
結合谷氨酸發酵過程,給出模糊聚類故障診斷的方法和步驟,在獲取與掌握先驗知識后,找到故障數據的聚類中心,運用對比方法預判故障發生的先兆,達到故障診斷的目標.以谷氨酸發酵過程生產故障為例,仿真結果表明模糊聚類的中心值隨故障類別不同而不同,初步實現利用模糊聚類方法對樣本數據的多級故障診斷,診斷結果與實際情況相符.
模糊聚類; 發酵過程; 故障診斷; 模式識別
隨著科學技術水平的發展,谷氨酸發酵工業正逐漸向大型化和自動化的方向發展,過程運行狀態的監測成為關鍵.在實際生產中,研究人員考慮從工藝采集數據中了解系統運行的確切狀態,最好在故障前期能及時發現,并采取相應措施,避免故障的發生.國內外許多資料表明,開展生產過程的監控與故障診斷會帶來顯著的經濟效應.現有故障診斷存在知識庫龐大、解決問題能力局限、自動獲取知識能力差等[1]問題.近年來,隨著數據庫知識發現技術的興起,對聚類的研究被眾多領域所關注,聚類分析技術己被廣泛應用于科學數據探測、信息管理、醫學診斷、生物技術、水質分析、金融管理以及過程控制、模式識別和系統辨識等領域,具有廣闊的應用前景.聚類分析同時又是一個具有挑戰性的領域,由于大型數據庫十分復雜,聚類算法必然要面對由此產生的計算需求,它的一些潛在應用成為聚類分析研究的重點[2].因此,對于聚類分析特別是模糊聚類分析進行研究具有非常重要的意義.本文結合谷氨酸發酵過程的生產實際,分析模糊聚類方法,實現生產過程一類故障狀態的診斷.
谷氨酸發酵過程是復雜的非線性系統,其反應過程極其復雜[3].鑒于發酵工業存在問題的嚴峻性,迫切需要建立一種能與發酵過程特征相吻合、完整而又具有相同特性、實際操作簡單的過程故障診斷技術.一般情況下,利用現有數據庫和規則的模式多數已被故障診斷專家系統采用,而專家系統亟待解決的首要問題是數據庫規則的有效獲取.由于模糊聚類算法的應用,可以在數據自身所展現的信息中攫取知識并抽出所需信息,故而為解決專家系統獲取知識困難的問題和處理含糊不清的知識提供了新的途徑.
模糊聚類算法是一種數據驅動的軟計算方法,它可以分析特征變量相對于控制決策的重要程度,最終整理出簡明的決策規范.基于這些特點,將其應用于生產過程故障診斷,可經濟有效地解決谷氨酸發酵過程中一些難以解決的問題.
一個基于模糊聚類的故障診斷過程可分成4個步驟:第1步要進行信息的采集.信息采集的過程就是對處理對象的調查與了解,進而從里面獲取需要的關鍵數據和重要資料.第2步要進行信息的預先處理.信息預處理的過程相當于除去外界干擾和差異,將原本的對象變成一種可以被隨時提取的計算機特征形式.第3步要進行特征的提取.特征提取作用是為了把已經獲取的材料數據進一步的歸納整理從而去粗存精并找到本質特征.第4步需要分類決策,運用某一類的判別算法和判別規則對現有信息進一步分類和辨識,進而獲得識別的結果,在這一過程中,需要考慮的是分類有效性.
文獻[4]中主要采用的是K-均值聚類算法,它是將數據點與原型之間的某種距離當作優化目標函數,通過函數求極值的算法取得迭代運算的一個調整規則.該算法具有簡單快速、適于處理大數據集等優點,在沒有任何先驗知識的情況下,K-均值聚類狀態診斷模型能夠很好地區分故障數據和正常數據,但它不能同時區分多種故障,并且該算法對初始值的選取依賴性極大,對于大的數據量,算法開銷很大.所以本文應用的是模糊C均值聚類算法,同時解決了以上問題.
模糊C均值算法原理具有很強的代表性,很多其他的算法是在其基礎上添加約束條件或者操作步驟發展而來的,是基于對目標函數的優化基礎上的一種數據聚類方法[5].
模糊C均值算法(FCM)先初始化聚類中心(或者隸屬度矩陣),然后進行迭代直至滿足設定的終止條件.具體步驟如下:
步驟1,初始化.令模糊加權指數m=2,聚類類別數C(2≤C≤n)、數據樣本點數量n、迭代停止閡值ε、最初的聚類中心值P(0),及迭代的次數l=0[6];


(1)

步驟3,聚類中心值的更新.
(2)
步驟4,若‖P(l+1)-P(l)‖<ε,則算法停止,否則轉到步驟(2).
式中:m>1是模糊系數;U=uik是一個c×n的模糊劃分矩陣,uik是第k個樣本xk屬于第i類的隸屬度值;dik=‖xk-vi‖表示從樣本點xk到中心vi的距離.關于隸屬度的迭代公式是一個從點到集合的映射,在實際計算中通常采用如下的隸屬度更新公式:
(3)
模糊聚類可以用來間接地識別因果關系,基本思想是以現在的故障征兆群與以前的各次診斷的征兆情況對比[7],找出本次的故障與以前已確定的故障中哪次最為類似,就可認為本次故障起因與以前類似故障的起因相像,因此可參考歷史經驗來認定當前最可能的故障起因,從而取得較滿意的結論[8].
運用模糊聚類算法的實現故障診斷,大體上可分為3大步驟:
步驟1,提取對象的特征.即把與對象x相關的各個特征從中提取出來,同時把x在諸特征上的詳細數據測出來;
步驟2,隸屬函數的建立.即先明確算法,再把隸屬于它的矩陣U初始化,Ai的隸屬度uAi(x)是x,并且依賴于x1,x2,…,xn.
步驟3,識別對象的判定.根據一定的規則識別判定對象x,找到其對應的歸屬類型及其分類的行之有效性[9].
操作流程:首先選取特征變量建立樣本參數空間,對樣本的各特征值進行標準化處理,確定聚類數C,模糊加權系數m,按約束條件初始化隸屬度矩陣設定一個任意小的迭代誤差閾值,然后不斷地計算更新模糊劃分矩陣和聚類中心,直到系統達到穩定狀態,迭代停止,輸出結果.
實驗所用的數據全部來自于某味精廠生產車間的記錄數據,此次研究的目標為谷氨酸正常發酵與異常發酵的發酵液的質量濃度.選取4個批次谷氨酸發酵過程的記錄數據,其中有一個批次的谷氨酸發酵最終質量濃度超過10 g/L,將其認為是正常發酵.此外,還有3個批次的谷氨酸發酵最終質量濃度沒有達到10 g/L,其最終結果的質量濃度最大值僅有5.3 g/L,將其認為是非正常發酵.3種非正常發酵故障情況分別是攪拌機故障引起的溶氧故障,氨水添加故障和染菌故障.表1和表2是原始正常數據和故障數據.圖1是3種故障和正常情況下的分類結果.

表1 發酵過程30組正常數據

表2 15組故障數據

圖1 3種故障和正常情況下的分類結果
經模糊聚類處理,最后得到的群中心值為:
37.4 8.8 0.4 16.1 4 000
37.3 7.4 0.3 14.3 3 400
35.3 7.0 0.1 15.4 2 800
37.3 8.6 0.2 12.1 3 400
迭代過程的遞歸循環次數為19,成本函數值為2.38,數據被準確分為4類,得到的聚類中心被認為是某種狀態的標準特征點.截取其中30組數據進行分析.隸屬度矩陣見表3.從表3可以看出:每組數據對各個聚類中心的隸屬度不同,以此形成了不同的故障群和正常狀況群劃分.每一組數據隸屬于某個狀態類的大小不同,可以反映出該數據更接近于那個狀態.通過這個隸屬度矩陣也可以看出故障的嚴重程度.數據點對于故障中心的隸屬度越大,說明發生故障的可能性就越大.比如第18組數據對聚類中心點4的隸屬度最高,為0.95,而對其他中心點的隸屬度都很小,說明該點處發生染菌故障可能性很大,幾乎可以確定.與之相對,第30組數據則對每一個中心點的隸屬度都在0.6以下,其中對染菌的中心點隸屬度又為最高是0.58,接近0.6.據此可以推斷該數據點處的狀態有可能是染菌初期,因為它具有一些染菌狀態的相似信息.實驗分析得出前,在表3中出現的3種故障有標準故障狀態集合的情況下,這種分類的方法可以快速的對數據進行分類.

表3 多故障數據實驗結果的隸屬度矩陣
下面通過染菌故障的診斷問題來分析對比較大的狀態數據集合分多個聚類中心聚類的問題.從生產過程中的染菌故障數據中隨機選取100組數據,并加入50組正常數據同時輸入故障診斷模型.由于輸入數據較多,初始還不知道最佳分類數是多少,暫定分類數為2,得到結果的聚類圖如圖2所示,從隸屬度矩陣中選取40組數據進行分析,如表4所示.

圖2 染菌故障分析結果

表4 模糊聚類數為2時染菌樣本數據隸屬度矩陣
聚類之后得到的聚類中心為

迭代過程的遞歸循環次數為26,成本函數值為21.6.從聚類結果可以看到隸屬度矩陣中的值很清楚地反映出數據點和聚類中心的關系:隸屬度越大,說明數據點和這個數據類相似度越高,對應該狀態發生的可能性越大,反之則越小.
從表4看到大部分數據點能以較大的隸屬度歸于某一類中,但是有些數據點特征不明顯,它對于兩類的隸屬度值很接近,例如表4中第19組數據,對于故障類的隸屬度為0.47,對于正常類的隸屬度為0.53,這個結果說明它屬于兩類中間,不具有某種狀態的明顯特征,因此嘗試將聚類數目改為3,再來看一次聚類結果,如圖3所示.從隸屬度矩陣中選取30組數據來分析,如表5所示.

圖3 聚類中心數為3時的染菌故障樣本聚類結果

表5 聚類中心數為3時的染菌樣本數據隸屬度
聚類之后得到的聚類中心為

迭代過程的遞歸循環次數為78,成本函數值為45.7.從聚類結果可以看出:這次聚類的數據點給出更為合理的聚類.數據隸屬于某一類的隸屬度相對于另外的兩組有了比較大的區別,如第30組數據相對正常狀態的隸屬度為0.80,而相對于另外兩組的隸屬度分別為0.03,0.16,0.80相對0.03和0.16要大很多,說明該數據點和這個聚類的特征相似度較高,發生的可能性大.反之發生的可能越小.基于此,可以提出診斷的處理模型,在生產中將故障源從數據群中提取出來,然后將輸入進來的待測數據和故障源中的數據進行分類,得到結果距離哪個聚類中心最近,發生哪種故障的可能性也越大.這里分2個故障類就代表了2種情況,染菌前期和后期,染菌前期情況并不明顯,數據反映不劇烈,因此既不完全屬于正常的類,也不完全屬于染菌后期的標準故障類.
根據大量研究指出,文中所給出的模糊聚類研究方法對總體分析谷氨酸的發酵過程中出現的故障有明顯的效果,而且還減輕了診斷的工作任務,減少了診斷時間.對于高維特征空間的故障數據信息和正常數據信息能夠很好地區分,對于多種故障信息和正常數據信息也有良好的聚類效果.對于染菌故障中大批量的數據處理,可以通過計算得到多個聚類中心,提取出染菌故障不同階段的特征信息;可以不依賴大量的先驗知識,只通過將生產過程采集來的數據同故障源數據對比分析即可得出結論.模糊聚類分析方法用于故障診斷尚有許多難題需要解決,例如用來分析的聚類樣板比較少,就會出現分析結果的精確率下降等一系列問題;因此要與生產實際相結合,盡可能地在生產現場做大量故障記錄,豐富各類故障樣本,以提高判別的準確率.
[1] FRANK P M.New Developments Using AI in Fault Diagnosis[J].Engineering Applications of Artificial Intelligence,1997,10(1):3-14.
[2] 陽琳赟,王文淵.聚類融合方法綜述[J].計算機應用研究,2005,22(12):8-10.
[3] 高敏杰,丁健,張許,等.基于支持向量機和模糊推理的畢赤酵母發酵過程故障診斷[J].食品與生物技術學報,2014,33(11):1182-1190.
[4] 廖松有.模糊C均值與K均值聚類算法及其并行化[D].太原:太原科技大學電子信息系,2013:43-55.
[5] 陳琳,何嘉.基于模糊聚類的粒子群優化算法[J].西南民族大學學報(自然科學版),2007,33(4):39-42.
[6] 劉曼蘭.永磁直流電機故障在線監測與智能診斷的研究[D].哈爾濱:哈爾濱工業大學電機與電器系,2007:92-93.
[7] 王清,潘宏俠,周傳剛.機械故障診斷技術現狀及趨勢[J].機械管理開發,2005,20(6):49-51.
[8] 曾輝.模糊邏輯在機械故障診斷中的應用[D].燕山:燕山大學邏輯學系,2007:26-27.
[9] 陳凌.基于模糊聚類算法的圖像分割方法研究[D].江西:江西理工大學計算機應用技術系,2012:28-29.
Fault Diagnosis for Glutamic Acid Fermentation Process Based on Fuzzy Clustering
ZHANG Jin1, WANG Gui-cheng1,2, WANG Ying1
(1.Shenyang University of Chemical Technology, Shenyang 110142, China; 2.Shanghai Institute of Technology, Shanghai 201418, China)
Combined with glutamic acid fermentation process, the method and step of fault diagnosis of fuzzy clustering are given, especially after obtaining and mastering the prior knowledge, to find the clustering center of fault data, and using the contrast method to predict the fault omen and realize the goal of fault diagnosis.For glutamic acid fermentation process, process,production fault as an example,the simulation results show that the central value of fuzzy clustering is different with fault category.The multi-level fault diagnosis is realized by fuzzy clustering for sample data,and the diagnosis result is consistent with the actual situation.
fuzzy clustering; fermentation process; fault diagnosis; pattern recognition
2015-03-20
張進(1992-),女,遼寧沈陽人,碩士研究生在讀,主要從事智能控制算法的研究.
王貴成(1972-),男,遼寧撫順人,副教授,博士,主要從事復雜過程建模與控制研究.
2095-2198(2017)02-0182-06
10.3969/j.issn.2095-2198.2017.02.018
TP182
: A