王建國 范凱 張文興
(內蒙古科技大學機械工程學院,內蒙 古包頭 014010)
改進的粒度支持向量機在甲醇合成中的應用
王建國 范凱 張文興
(內蒙古科技大學機械工程學院,內蒙 古包頭 014010)
針對甲醇合成過程中的復雜性和非線性等問題,利用共享最近鄰(SNN)相似度將訓練樣本劃分成若干個信息粒,然后分別進行支持向量提取,最后將提取出的支持向量融合,建立最終粗甲醇轉化率預測模型。試驗結果表明,改進的粒度支持向量機(GSVM)可以將“冗余數據”進行刪減,獲得更“稀疏”的回歸模型,精度也高于傳統支持向量機的粗甲醇轉化率模型,從而能更好地指導甲醇生產。
支持向量機 共享最近鄰(SNN) 粒度支持向量機 粗甲醇轉化率 粒度計算
甲醇作為一種重要的有機化工材料,在有機合成、醫藥、涂料和國防等工業領域有著廣泛的應用。在甲醇生產過程中,合成塔出口粗甲醇的轉化率是一個非常關鍵的指標。在實際生產中,由于在線分析儀價格昂貴且維護復雜,通常使用人工采樣分析方法來計算粗甲醇的轉化率,因此,建立一個準確有效的粗甲醇轉化率預測模型變得尤為重要。
對于甲醇轉化率的建模研究,目前國內研究仍然處于起步階段。文獻[1]利用多模型方法代替單模型來建立甲醇轉化率預測模型。文獻[2]提出一種新的差分進化算法。文獻[3]主要利用模糊神經網絡方法,并結合一定的優化算法對網絡進行優化處理,其效果優于傳統的神經網絡。然而由于神經網絡易陷入局部最優,其訓練效果不太穩定,一般需要大量樣本。支持向量機具有較強的學習能力與泛化能力,并可以解決小樣本、高維數、非線性等問題[4-5],因此更適合建立甲醇轉化率模型。但是,由于傳統的支持向量機對于復雜冗余的海量數據運算能力較差,導致其泛化能力變弱,影響其最終預測精度。因此,本文采用一種改進的粒度支持向量機建模方法,通過“稀疏化”樣本數據來提高模型的預測精度,從而更好地指導生產。
假設給定訓練樣本集{(xi,yi),i=1,2,…,l},其中xi∈Rd為第i個學習樣本的輸入值,d維列向量。對應的目標值為為樣本個數。
對于線性情況,支持向量機的函數擬合首先考慮用線性回歸函數f(x)=ωx+b擬合,而標準支持向量機一般采用ε-不敏感函數,并引入了松弛變量將最優化問題轉化成:

可以看出,式(1)為一個凸二次優化問題,所以引入Lagrange函數求解:

αi、為拉格朗日乘子。分別對w、b、ξ、 ξ*求偏導并令其等于零,得到極值條件,返代入上式,可得到如下的對偶最優化問題。

根據最優化的KKT條件可知,在最優點處拉格朗日乘子與約束的乘積為0,即:


圖1 不敏感系數及損失函數Fig.1 The insensitive coefficient and loss function
由式(4)可推導出如下結論。
①同時滿足ai=0和的樣本點落在ε-帶內,即如圖1中所示兩條虛線之間的點。這些樣本點對模型的預測沒有貢獻,因此不會出現在決策函數中。
從上述結論中可以看出,只有標準支持向量和邊界支持向量對決策函數有貢獻。也就是說,應盡可能地去除那些對決策函數沒有貢獻的點,即稀疏性可以簡化計算,而且可以提高最終的預測精度。
2.1 粒度支持向量機
2004年,Yuchun Tang提出了將粒度計算理論和支持向量機相結合的機器學習模型,稱為粒度支持向量機(granular support vector machine,GSVM)[6]。它既可以克服傳統支持向量機對于大規模數據訓練效率低下的問題,同時也可以獲得不錯的泛化性能。目前GSVM已成為支持向量機的研究熱點之一[7-9]。
GSVM將樣本空間劃分為若干個粒,構建出比傳統支持向量機更加優越的間隔寬度,從而提高模型的泛化能力。最優超平面的對比圖如圖2所示。

圖2 最優超平面的對比圖Fig.2 Comparison of the optimal hyperplanes
其次,GSVM還可以將一個典型的X-OR線性不可分問題,通過合理的劃分機制,將其轉化為兩個線性可分問題,從而得到多個決策函數。線性不可分問題的解決示意圖如圖3所示。

圖3 線性不可分問題的解決示意圖Fig.3 Solution of the linear inseparable issue
支持向量機是針對整體樣本集構造最優超平面。而粒度支持向量機的主要思想是通過一定的方法將樣本空間劃分成為若干個子空間,得到一系列的信息粒;然后在每個信息粒上進行支持向量機的學習;最后通過信息粒上的信息,獲得最終的支持向量機決策函數。
2.2 SNN相似度
傳統相似度在高維空間中不能準確地反映兩點之間的相似問題,而對于密度不同的樣本空間,傳統的密度聚類方法也無法準確將樣本點區分出來。針對以上問題,Jarvis-Patrick提出了一種相似性的間接方法,即共享最近鄰(shared nearest neighbor,SNN)相似度。其原理為:如果兩個點與相同的點中的大部分相似,即使兩點的直接相似度量無法反映兩點的相似性,兩點依然相似[10]。
定義 xi和xj為樣本集{x1,x2…xn}的任意兩點,若兩點存在于對方的k-最近鄰中,則兩點相似,且其共享最近鄰點的個數為兩點的相似度。
兩點之間的SNN相似度的計算如圖4所示。首先,計算兩個黑點的8個最近鄰,其中4個灰色點是兩個黑點共享的最近鄰點,則我們稱這兩個黑點之間的SNN相似度為4。

圖4 兩點之間的SNN相似度的計算Fig.4 Calculation of SNN similarity between two points
2.3 GSVM-SNN算法
由圖5可知,第1股水氨氮濃度為1 700 mg/L,其氨水最低采出濃度為31 927 mg/L,最高采出濃度為67 875 mg/L,未達到設計值;出水氨氮濃度即塔釜液氨氮濃度在75 mg/L以內,其平均值為69.4 mg/L,滿足設計值。第2股水氨氮濃度為3 500 mg/L,其氨水低采出濃度為86 732 mg/L,最高采出濃度為138 830 mg/L,未達到設計值;出水氨氮濃度在45 mg/L以內,其平均值為33.3 mg/L,滿足設計值。
SNN相似度在聚類中可以劃分為任意形狀、變密度的樣本集。本文利用SNN相似度這一特性,對樣本點進行粒的劃分,得到更符合樣本點自然分布的信息粒。然后對這些信息粒進行支持向量機(support vector machine,SVM)的訓練,盡可能地提取混合粒中的支持向量點。將這些點與“邊緣點”融合在一起,建立最終的決策模型。
GSVM-SNN主要算法步驟如下。
(1)設定閾值k。
(2)根據式(5)計算樣本點的每一個點的k最近鄰,得到整個樣本點的k最近鄰列表。

式中:xi、xj為樣本的任意兩點。
(3)通過k最近鄰列表,計算每個點的SNN相似度,得出樣本的相似度矩陣。
(4)利用閾值稀疏化SNN相似度矩陣,將大于閾值相似度的點劃分成簇;將小于閾值相似度的點歸為離群點。
②利用參數ε較小的SVM對其余的粒分別進行支持向量機的訓練,并提取支持向量。保證在不丟失關鍵支持向量的前提下,對冗余樣本點進行刪減。
(5)融合混合粒與提取出的支持向量,建立最終的決策模型。
(6)輸入測試樣本,計算預測結果。
本文主要研究某廠甲醇項目中的甲醇合成工序。甲醇生產的主要任務是將合成氣在一定壓力、溫度、催化劑的作用下合成粗甲醇[11]。而甲醇轉換率受諸多因素的影響,由生產經驗總結出,影響因素主要有溫度、壓力、碳氫比、空速、循環比。因此,本文選取溫度、壓力、碳氫比、空速以及循環比這5個變量作為預測模型的輸入,選取甲醇合成塔出口的單程粗甲醇質量轉化率為輸出。試驗首先利用歸一化對數據進行預處理,將所有數據縮放到[0,1]之間,并選取均方誤差(mean square error,MSE)作為評價指標。

式中:yi為真實值;為預測值。
為了驗證對比結果的有效性,傳統的SVM與GSVM-SNN兩種方法的核函數都采用高斯核函數,且參數C=1、ε=0.01、q=0.08。
兩種方法的MSE誤差及對甲醇轉化率的數據擬合對比圖分別如圖5和圖6所示。

圖5 兩種方法的MSE誤差對比圖Fig.5 Comparison of the MSE errors from different methods
經過預處理后共有249組數據,本文利用10折交叉驗證,將數據分為10份,其中8份作為訓練樣本,剩余2份作為測試樣本,與傳統支持向量機進行10次對比試驗。

圖6 兩種方法的擬合對比圖Fig.6 The fitting comparison of different algorithms
兩種方法10次試驗分別得到的最終支持向量個數如表1所示。

表1 兩種方法的最終支持向量個數Tab.1 The number of final support vectors from two methods
傳統支持向量機對樣本數據建模與GSVM-SNN模型的10次試驗所得到的誤差結果對比如表2所示。

表2 兩種方法的MSE誤差結果Tab.2 The MSE errors results from two methods
從表1可以看出,GSVM-SNN利用SNN相似度在給定閾值k時,對于不同的樣本數據,其劃分的粒的個數也不盡相同。這是因為基于SNN相似度的劃分方法得出的結果更符合數據樣本的“自然”分布。然后對每一個信息粒進行SVM的訓練,在保證不丟失關鍵信息的前提下,盡可能地刪去“冗余”數據。
從表2以及圖5可以看出,經過“瘦身”后的GSVM-SNN的預測誤差基本上低于傳統支持向量機的預測誤差。而從圖6可以看出,GSVM-SNN對實際甲醇轉化率的數據擬合效果優于傳統的支持向量機,說明GSVM-SNN的模型預測精度高于SVM的模型。
本文利用SNN相似度對粒度支持向量機模型進行改進并預測粗甲醇的轉化率。結果表明,GSVMSNN模型的預測精度比傳統的SVM模型更高,且更適應甲醇合成過程的非線性、復雜性,從而能更好地指導實際生產過程。
[1] 魏可泰.多模型軟測量理論研究及其在甲醇生產中的應用[D].青島:青島科技大學,2008.
[2] Rahnamayan S,Tizhoosh H R,Salamam M A.Opposition-based differential evoloution[J].IEEE Transactions on Evolutionary Computation,2008,12(1):64-79.
[3] 繆嘯華,宋淑群,王建華,等.基于模糊神經網絡的甲醇合成塔轉化率軟測量模型[J].石油化工自動化,2012,48(2):32-35.
[4] Vapnik V.The nature of statistical learning theory[M].New York: Springer-Verlay Press,1995:156.
[5] 張學工.關于統計學習理論與支持向量機[J].自動化學報, 2000,26(1):32-42.
[6] Tang Yuchun,Jin Bo,Sun Yi,et al.Granular support vector machines for medical binary classification problems[C]//Computational Intelligence in Bioinformatics and Computational Biology,2004:73-78.
[7] 張鑫,王文劍.一種基于粒度的支持向量機學習策略[J].計算機科學,2008,35(8a):101-103.
[8] Ding Shifei,Qi Bingjun.Research of granular support vector machine[J]. Artif Intell Rev,2012,38(5):1-7.
[9] Wang Wenjian,Guo Husheng,Jia Yuanfeng,et al.Granular support vector machine based on mixed measure[J].Neuro Computing, 2013,101(5):116-128.
[10] Ertoz L,Steinbach M,Kumar V.A new shared nearest neighbor clustering algorithm and its applications[C]//In Workshop on Clustering High Dimensional Data and Its Applications,Proceedings of Text Mine'01,First SIAM intl.Conference on Data Mining, Chicago,IL,USA,2001.
[11] 王珊.基于改進人工蜂群算法和LSSVM的甲醇合成過程軟測量建模方法研究[D].上海:華東理工大學,2012.
Application of the Improved Granular Support Vector Machine in Methanol Synthesis
To counter the problems of complexity and nonlinearity in methanol synthesis process,by using shared nearest neighbor(SNN) similarity,the training samples are divided into several information granules,then support vector extraction is conducted respectively,finally the prediction model of crude methanol conversion rate is built from these extracted support vectors.The experimental results show that the improved granular support vector machine can delete“redundant data”and to get“sparse”regression model,and offer higher accuracy than traditional support vector machine crude methanol conversion rate model,thus the methanol production can be guided better.
Support vector machine(SVM) Shared nearest neighbor(SNN) Granular support vector machine(GSVM) Crude methanol conversion rate Granular computation
TP202
A
國家自然科學基金資助項目(編號:21366017);
內蒙古自然科學基金重大項目(編號:2011ZD08);
內蒙古自治區教育廳高等學校科學研究基金資助項目(編號: NJZY13144);
包頭市科技局重大科技發展基金資助項目(編號:2011Z1006)。
修改稿收到日期:2014-02-17。
王建國(1958-),男,2009年畢業于北京科技大學機械電子工程專業,獲博士學位,教授;主要從事機電系統智能診斷與復雜工業過程建模、優化及故障診斷的研究。