王春鵬
(中海油石化工程有限公司,山東 濟南 250001)
Tax等人提出的支持向量數據描述(SVDD)是解決單值分類問題的有效方法,SVDD是一種基于支持向量機學習的算法;通過一個非線性映射函數,把數據從輸入空間映射到一個高維空間,尋找支持向量在特征空間中,構造包圍與最小半徑和超球體的最佳點[1]。超球體的描述模型目標類是由支持向量,超球外點被判定為離群點的數據不屬于目標類(也稱為離群點)確定。以二維空間為例的超球體示意如圖1所示。

圖1 超球體示意圖


加入拉格朗日乘子αi,βi≥0,將原來的問題(1)可以轉化稱無約束的問題(2):



把(2)表示為對偶問題,并引入核函數來取代特征空間上的內積運算得:



當模型在實際運行中,如果發生過程的變化,如汽油干點軟測量中精餾塔的原油發生變化,那么測量的數據也會發生變化超出我們檢測判斷的正常范圍。因此,SVDD的參數半徑和球心也得隨著數據的變化而變化,這樣才能適應過程的變化而不會導致誤判正常數據為離群點。
本文針對這個過程引入了指數加權移動平均(EWMA)這種魯棒的方式來更新SVDD參數,指數加權移動平均的公式如下:

R_old和a_old代表著更新前離群點檢測的判斷參數,R_new和a_new代表著更新后離群點檢測的判斷參數,R_current和a_current是用一定量新的樣本所構成的離群點檢測參數。λ為更新因子代表著參數更新的速度。
對一個正常的過程,譬如沒有連續檢測出大量離群點,更新因子我們通常設定為0.7<λ<0.9。而當連續檢測出大量的離群點時更新因子我們通常設為0.01<λ<0.05。
貝葉斯分類器是一種基于統計方法的典型的分類模型,它是基于貝葉斯理論,先驗概率和后驗概率被巧妙地聯系在一起,利用先驗信息和樣本數據來確定所述事件的后驗概率[2-3]。
采用貝葉斯分類原理對以檢測到的離群點進一步分類,分類過程如圖2 所示。

圖2 貝葉斯對離群點的分類過程



為了表示在x1點發生階躍,我們定義置信限C1,則需要滿足:

僅僅依靠公式(7)我們還不能判斷此時發生的階躍是不是長階躍,因為還有可能是脈沖或者短階躍。因此,我們還需要Post-ChangeWindow中更多的數據來證明。由于我們假設階躍發生在Post-ChangeWindow的開始,所以隨著樣本數目的增加,后驗概率也單調遞增:

為了提高對長階躍信號檢測和分類的精確性,我們需要讓整個Post-ChangeWindow的后驗概率比置信限C2要大:

方程(6)~(9)用來作為判斷長階躍的準則,一般情況下C1取0.8,C2取0.99,本文也是取這個值。
對于脈沖信號的干擾,在Post-ChangeWindow中的第一個值x1提供了脈沖信號的幅值。這是和階躍信號所不同的,階躍信號需要很多數據一起才能確定。因此,對于脈沖干擾μD=x1。為了確定脈沖干擾,我們首先需要滿足:

C1為置信限,x1滿足N(μD,σ2)分布。



根據上面講的長階躍和脈沖干擾的知識,我們很容易確定對短階躍信號的處理。短階躍的幅值μD是對每個Post-ChangeWindow的子集來計算的。同樣的,在Post-ChangeWindow中的第一個值x1應滿足:

因為我們假設干擾是短階躍,在Post-ChangeWindow中短階躍持續階段的后驗概率必須滿足和長階躍一樣的關系:

和式(9)一樣,在Post-ChangeWindow中短階躍持續階段的后驗概率必須大于一個置信限C2:

最后,為了指出短階躍干擾結束,在Post-ChangeWindow后的短階躍的后驗概率必須小于一個閾值,和式(14)對脈沖干擾一樣:

方程(13)-(15)就是判斷短階躍的準則。
為了驗證所給出的算法的有效性,我們針對化工過程中常用的軟測量技術進行仿真研究,本文采用某煉化廠航空煤油的干點數據進行研究仿真。
首先離線進行離群點的檢測,把檢測到的離群點排除掉然后利用PLS-RBF進行離線建模作為軟測量模型[4],然后,用建立的模型對工業數據進行仿真預測,最后針對在線過程中檢測到的離群點引入離群點分類方法。
對于大型煉油裝置來說,常減壓蒸餾的主要裝置之一就是常壓塔。航空煤油(簡稱,航煤)是常壓塔的主要餾分,其中一個重要衡量質量的指標是其干點,經濟效益直接受干點影響。
本文選用的是某煉化公司航空煤油干點數據,該數據是通過DCS采集與干點相關的現場數據生成。采集頻率10 min/次,化驗數據采樣6次/d,時間間隔為4 h。共采集樣本數據近250組用于仿真研究,其中100組作為訓練數據,150組作為檢驗數據,其中150組數據中后50組是代表了過程變化。
本文建模之前,了解現場工藝情況及向相關工藝人員咨詢后,確定其中9個過程變量為該模型的輔助變量,首先采用主元分析法,設定貢獻率為90%,提取了6個主元作為模型的輸入。首先我們針對100組訓練數據進行離線離群點檢測,為了說明我們所引入的支持向量數據描述方法的有效性我們和常規離群點判別方法“3δ”方法進行對比。下圖為兩者對離群點的檢測圖像。其中現場采集的數據時所規定的溫度為253℃允許誤差為±1.5%。仿真圖像如圖3、4。

圖3 航空煤油干點的3δ離群點檢測

圖4 航空煤油干點的SVDD離群點檢測
表1是在計算機上的仿真參數,本文以Matlab10.0(a)作為工具,計算機配置為2.82GHz。

表1 兩種離群點檢測方法性能對比
由圖3、4和表1比較可得,SVDD的離群點檢測方法要比 方法檢測率要高,也就是說誤判率要小,但是SVDD仿真時間比 要長。但是對于離線處理數據而言我們要求高檢測率為第一位,因此SVDD可以很好的作為離群點檢測的方法。針對離群點檢測完的數據采用PLS-RBF建模。仿真如圖5。

圖5 不含離群點的PLS-RBF建模曲線
當模型建好之后在運行過程中,我們要實時的對采集的數據進行預測,有離群點的時候我們也會通過SVDD算法進行檢測,但是當化工過程受到物料變化,工藝切換等改變生產流程的影響時,我們所預測到的數據因為偏移了所規定的范圍將會被連續的誤判為離群點,針對這個問題我們引入的離群點分類的概念就可以輕松的解決這個問題。下面還是以航空煤油干點作為研究的對象,這次我們用100組數據作為訓練數據,150組數據作為測試數據,其中150組測試數據中前100組是和訓練數據是同一過程的數據,而后50組數據是同一生產裝置在改變原料時所確定的數據,以此來表示過程的變化來驗證本文所給出出的貝葉斯分類方法的有效性。其中前100組數據時的狀態所規定的的標準數值為253℃允許誤差為±1.5%,而后50組數據的規定標準值為273℃允許誤差為±1.5%,根據先驗知識規定在航空煤油干點仿真過程中本文提出的只有1個離群點為脈沖型離群點,短階躍離群點規定為連續2~10離群點,連續10個以上的離群點為長階躍離群點也就是新的過程變化,仿真圖像如圖6、7。

圖6 沒有參數更新和分類的離群點檢測

圖7 有參數更新和分類的離群點檢測
由圖6和圖7可知,當加入Bayesian分類算法和SVDD參數更新時由過程變化的所引起的數據偏移不會被誤判為離群點。由上圖也很容易看出,當過程發生變化后模型的預測已經完全不符合實際了,這是由于模型還是原來的模型并沒有根據實際數據進行更新,在第四章將會介紹模型更新的相關算法。由于汽油干點過程沒有本文所給出出的短階躍離群點狀態,所以在下面的聚丙烯熔融指數的軟測量仿真過程中將會體現。
本文主要對離群點檢測和分類的算法進行了分析和研究。根據故障檢測的理論,對在線軟測量模型引入了基于支持向量數據描述(SVDD)算法的離群點檢測方法。通過仿真研究驗證了該方法作為離群點檢測算法的有效性。針對實際過程的變化也會引起數據的偏移,導致誤判為離群點處理掉問題,本文創造性的引入了離群點分類的概念,將離群點根據實際工況的先驗知識主要分為脈沖型、短階躍型和長階躍型,其中,脈沖型和短階躍型是我們要排除的真正意義上的離群點而長階躍型是代表了化工過程的變化。本文離群點的分類算法采用的是貝葉斯分類算法。通過航空煤油干點數據的仿真研究該方法能有效的判斷出離群點的類別,從而實現對離群點的分類。
參考文獻
[1]黃光鑫.支持向量數據描述與支持向量機及其應用[D].成都:電子科技大學,2011.
[2]周開武.貝葉斯方法在化工軟測量建模中的應用研究[D].無錫:江南大學,2009.
[3]劉 敏.臭氧技術中的神經網絡軟測量建模研究[D].大連:大連理工大學,2003.
[4]Qin S J,McAvoy T J.Non-linear PLS modeling using neural networks.[J] Comput Chem Eng,1992,16:379-391.