付曉幸 于佐軍
?
基于改進的離群點檢測軟測量方法研究
付曉幸 于佐軍
(中國石油大學(華東)信息與控制工程學院)
提出一種改進的離群點檢測方法,采用參數更新的支持向量數據描述的離群點檢測方法,并引入貝葉斯分類原理對離群點分類,對校正離群點后的數據用最小二乘支持向量機建模并預測。工業聚丙烯熔融指數軟測量模型的應用結果表明:該方法預測精度更高,泛化能力更強。
軟測量;離群點檢測;貝葉斯分類
石油、化工等工業生產過程中,為確保產品的質量和生產過程持續穩定,關系到產品質量的過程變量需要被實時控制和監測[1]。但是實際生產過程中大量過程變量難以用傳感器直接檢測甚至無法檢測,例如航空煤油干點、紙漿的Kappa值以及聚合反應中聚合物的熔融指數等。軟測量技術應運而生。
軟測量技術的核心是軟測量模型的建立[2-3]。在目前軟測量建模中,基于數據的統計建模占主導地位。由于測量儀表自身故障和傳感器容易受化工環境影響,使測量數據偏離原來范圍,導致離群點產生,而離群點對軟測量模型的預測精度影響很大,因此需要排除離群點。生產過程中生產過程切換或物料改變會產生不同于歷史采集的數據,易被誤判成離群點排除。如何確定離群點是由干擾產生,還是由過程變化引起,已成為軟測量技術研究的重點。
為解決上述問題,Wang Jin等[4]提出一種在線離群點檢測和分類的自適應軟測量,該方法先以故障檢測PCA算法中的SPE指標作為離群點判斷的準則,再把檢測出的離群點進一步進行判斷。Galicia H等[5]在控制過程應用中,提出一種貝葉斯方法檢測離群點并對其分類。如何鑒別工業生產過程采集樣本數據的離群點,并判斷其是否為真正意義上的離群點,仍沒有通用的方法。
針對上述問題,本文引入基于支持向量數據描述(support vector data description,SVDD)的離群點檢測方法,對化工運行過程中存在的離群點進行檢測。為判斷離群點是否為真正意義上的離群點,提出離群點分類的概念。基于貝葉斯分類原理把離群點分為脈沖型離群點、短階躍型離群點和長階躍型離群點。其中脈沖型和短階躍型是真正意義上的離群點需要排除校正,而長階躍型代表化工過程的變化。對需要校正的離群點采用時間序列校正的方法進行校正后用最小二乘支持向量機(least square support vector machine,LSSVM)建模。
1.1SVDD算法
Tax等人提出SVDD是解決單值分類問題的有效方法,是一種基于支持向量機學習的算法[6]。單個值分類要解決的問題是區分目標類的數據和其他所有不屬于目標類的數據(稱為異常類)。支持向量數據描述可以將目標數據建立支持向量數據描述模型,包括目標數據超領域、與所有異常類的目標類。輸入的空間不可分離,通過一個非線性映射函數,把數據從輸入空間映射到一個高維空間,尋找支持向量在特征空間中構造包圍與最小半徑和超球體的最佳點。

(1)


(3)
把式(2)表示為對偶問題,并引入核函數取代特征空間上的內積運算得

(4)

SVDD算法在不使用類標的情況下,解決了單值分類問題,通過引入懲罰參數,使在訓練數據中包含噪聲的條件下SVDD算法仍能工作。
1.2改進的支持向量數據描述參數更新
模型在實際運行中,如果發生過程變化,如汽油干點軟測量中精餾塔的原油發生變化,則測量數據會超出檢測判斷的正常范圍。SVDD的參數半徑和球心應隨著數據的變化而變化,這樣才能適應過程的變化而不會導致誤判正常數據為離群點[7]。針對這個過程引入了指數加權移動平均(EWMA)魯棒的方式更新SVDD參數,指數加權移動平均的公式如下:
(6)
2.1樸素貝葉斯理論
貝葉斯分類器是一種基于統計方法的典型分類模型,它基于貝葉斯理論,先驗概率和后驗概率被巧妙地聯系在一起,利用先驗信息和樣本數據來確定所述事件的后驗概率[8-9]。
(7)
(8)
2.2改進的基于樸素貝葉斯的離群點分類算法
為判斷離群點是否為真正意義上的離群點,采用貝葉斯分類原理對已檢測到的離群點進一步分類。
2.2.1長階躍數據的判斷準則
對于一個階躍干擾,通過計算每個Post-Change Window中的聯合后驗概率來確定后驗概率的模式。因為,所以對每個子集,階躍幅值可用的均值表示
假設所有的數據都服從高斯分布,則正常狀態下和發生階躍后的概率密度函數分別用和表示。所以,發生階躍時任意離群點的似然函數表示為
(10)

把式(10)代入式(11),得
(12)

因此,用式(8)計算的聯合后驗概率變為
(14)
假設干擾的類型是階躍,則在Post-Change Window中第一個數據點的后驗概率是

(16)
僅依靠式(17)無法判斷此時發生的階躍是否為長階躍。因此,還需要Post-Change Window中更多的數據來證明。由于假設階躍發生在Post-Change Window的開始,所以隨著樣本數目的增加,后驗概率也單調遞增

為提高對長階躍信號檢測和分類的精確性,需讓整個Post-Change Window的后驗概率比置信限大
(18)
2.2.2脈沖數據的判斷準則
對于脈沖信號的干擾,在Post-Change Window中的第一個值提供了脈沖信號的幅值,而階躍信號需要很多數據才能確定。因此,對于脈沖干擾,要確定脈沖干擾,首先需滿足式(16),其中,為置信限,滿足分布。

2.2.3短階躍數據的判斷準則
假設干擾是短階躍,在Post-Change Window中短階躍持續階段的后驗概率必須滿足和長階躍一樣的關系:

與式(19)一樣,在Post-Change Window中短階躍持續階段的后驗概率必須大于1個置信限
(21)
為了識別短階躍干擾結束,在Post-Change Window后的短階躍的后驗概率必須小于一個閾值:

式(20)~式(22)就是判斷短階躍的準則。
具體分類過程如圖1所示。

圖1 貝葉斯對離群點的分類過程
聚丙烯以其良好的應用性能越來越受到人們的關注,成為全球發展最迅速的熱塑性材料。本文以某石化企業聚丙烯生產裝置采用的Spheripol工藝技術為例進行仿真。數據來源為某石化公司在2007年8月~12月間,聚丙烯的生產過程數據[10]。結合現場操作中的實際經驗和機理分析的結果,選定用于建立聚丙烯熔融指數軟測量的輔助變量有:第一環管反應器R201中丙烯的濃度、氫氣的濃度、催化劑的濃度;第二環管反應器R202中丙烯的濃度、氫氣的濃度、催化劑的濃度以及總的宏觀反應熱。現場采用DCS系統,每20 s采集一次數據,而化驗數據每4 h一次,經過時序匹配等處理后得到379組數據,其中229組用來建模,150組用來測試。

圖2 熔融指數的離群點檢測

表1 兩種離群點檢測方法性能對比
當過程發生變化,數據偏離原來的中心范圍時被判為離群點,因此離群點的參數更新才不會被誤判,而不能實現參數更新。在短階躍型離群點判別前,根據聚丙烯熔融指數的先驗知識規定1個離群點為脈沖型離群點;連續2~15個離群點為短階躍型離群點;連續15個以上的離群點表示過程切換。所以,用來測試的180組數據的第37~40組數據規定為短階躍型數據。沒有參數更新和分類的SVDD離群點檢測的仿真結果如圖3所示,有參數更新和分類的SVDD離群點的仿真結果如圖4所示。

圖4 有參數更新和分類的SVDD離群點檢測
由圖3和圖4可知,本文所提出的離群點分類方法可行,能夠很好地判斷出離群點的類型。針對不同類型的離群點采取不同的方法來處理,用時間校正方法的自回歸移動平均模型對離群點進行校正,校正后的仿真結果如圖5所示。

圖5 聚丙烯熔融指數離群點校正的曲線
校正數據時沒有對過程變化引起的數據進行校正說明本文提出的離群點分類算法起了很好的效果。對離群點校正前和校正后的數據用LSSVM建模。圖6和圖7分別為兩種情況的預測曲線,表2列出了2種方法的泛化誤差。

圖6 離群點校正前的熔融指數預測曲線

圖7 離群點校正后的熔融指數預測曲線

表2 模型預測誤差比較
由表2中的定量數據可知采用改進后的離群點檢測方法處理的數據建模,模型的預測效果更好,泛化能力更強。
以聚丙烯熔融指數為研究對象,對本文的離群點檢測、分類、校正等方法進行驗證,結果表明:所給出的SVDD檢測方法能很好地應用在離群點檢測中,其中基于Bayesian算法的離群點分類方法較好地對脈沖型離群點、短階躍型離群點和長階躍型數據進行區分,用離群點校正后的數據建模提高了模型的預測精度。
[1] 吳長江.常壓蒸餾產品質量與收率預測模型建立與應用[D].大慶:大慶石油學院,2008.
[2] 俞金壽,劉愛倫,張克進.軟測量技術及其在石油化工中的應用[M].1版.北京:化學工業出版社,2000:2-7.
[3] 李海青,黃志堯.軟測量技術原理及應用[M].北京:化學工業出版社,2000.
[4] Wang Jin, He Q Peter. A Bayesian approach for disturbance detection and classification and its application to state estimation in run-to-run control[J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(2): 126-136.
[5] Galicia H, He Q, Wang Jin. Adaptive outlier detection and classification for online soft sensor update[J]. Advanced Control of Chemical Processes, 2012, 8(1):402-407.
[6]Hawkins D M. Identification of outliers[M]. 1980.
[7] 王震.基于距離的離群點檢測算法分析與研究[D].重慶:重慶大學,2011.
[8] Pell R J. Multiple outlier detection for multivariate calibration using robust statistical techniques[J]. Chemometrics and Intelligent Laboratory Systems, 2000, 52(1): 87-104.
[9] 趙玉霞,王克如,白中英,等.貝葉斯方法在玉米葉部病害圖像識別中的應用[J].計算機工程與應用,2007,43(5):193-195.
[10] 巨穩,田學民.基于混合核函數的OLS軟測量建模方法研究[J].石油化工自動化,2011,47(1):31-35.
Soft Sensor Research Based on Improved Outlier Detection
Fu Xiaoxing Yu Zuojun
(College of Information and Control Engineering in the University of Petroleum)
A soft sensor research based on improved outlier detection is proposed and the method of outlier detection based on support vector data description (SVDD) is introduced in this paper. To determine whether the outliers get is authentic, the concept of outlier classification is put forward. The application of industrial polypropylene melt index soft measurement modeling has indicated that method has better prediction accuracy and generalization performance.
Soft Measurement; Outlier Detection; Bayesian Classification
付曉幸,女,1990年生,碩士研究生,主要研究方向:工業過程建模、控制與優化等。E-mail:ymnlfuxiaoxing@126.com
于佐軍,男,1960年生,碩士生導師,主要研究方向:工業過程建模、控制與優化等。E-mail:yuzuojun@gmail.com