陳 靜,張 倩,卞小強(qiáng),韓 兵
(1.西南石油大學(xué) 應(yīng)用技術(shù)學(xué)院,四川 南充 637001;2.西南石油大學(xué) 油氣藏地質(zhì)及開(kāi)發(fā)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,四川 成都 610500)
基于GA-SVR模型預(yù)測(cè)多環(huán)芳香烴在超臨界CO2中的溶解度
陳 靜1,張 倩2,卞小強(qiáng)2,韓 兵2
(1.西南石油大學(xué) 應(yīng)用技術(shù)學(xué)院,四川 南充 637001;2.西南石油大學(xué) 油氣藏地質(zhì)及開(kāi)發(fā)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,四川 成都 610500)
針對(duì)有機(jī)固體溶質(zhì)在超臨界CO2(SCCO2)中的溶解度實(shí)驗(yàn)耗時(shí)費(fèi)力問(wèn)題,采用基于支持向量機(jī)和遺傳算法建立了多環(huán)芳香烴(PAH)在SCCO2中的溶解度模型(GA-SVR),利用PAH在SCCO2中的467個(gè)實(shí)驗(yàn)溶解度數(shù)據(jù)對(duì)GA-SVR模型進(jìn)行了訓(xùn)練和預(yù)測(cè),并基于帽子矩陣和William plot 理論,建立了一種檢測(cè)GA-SVR模型異常點(diǎn)的方法。實(shí)驗(yàn)結(jié)果表明,新模型預(yù)測(cè)PAH在SCCO2中的溶解度精度較高,絕對(duì)相對(duì)偏差最小為5.42%,最大7.77%,平均為5.94%,對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行了異常點(diǎn)檢測(cè),發(fā)現(xiàn)新建模型沒(méi)有出現(xiàn)異常數(shù)值。該研究成果為溶質(zhì)在超臨界流體中的溶解度計(jì)算提供了一種新方法。
溶解度;支持向量機(jī);遺傳算法;多環(huán)芳香烴;超臨界CO2
超臨界流體(SCF)在石油化工中主要應(yīng)用于超臨界萃取技術(shù),如超臨界流體萃取多環(huán)芳香烴(PAH)。PAH是分子中含有兩個(gè)或兩個(gè)以上并環(huán)苯環(huán)結(jié)構(gòu)的烴類化合物[1]。而在超臨界萃取過(guò)程中,PAH在SCF中的溶解度是進(jìn)行萃取參數(shù)選擇和設(shè)備操作的關(guān)鍵。超臨界CO2(SCCO2)是SCF中最常見(jiàn)的一種流體,無(wú)毒、不可燃、不爆炸、價(jià)格相對(duì)低廉。目前,確定PAH在SCCO2中溶解度的方法主要有實(shí)驗(yàn)法[2]、狀態(tài)方程法[3]、締合模型[4-6]和智能模型[7]。實(shí)驗(yàn)測(cè)定溶解度較準(zhǔn)確,但耗時(shí)費(fèi)力、成本較高。狀態(tài)方程法需要溶質(zhì)的臨界參數(shù)[5],很多情況下溶質(zhì)的臨界參數(shù)并不清楚。締合模型無(wú)需溶質(zhì)的臨界參數(shù),計(jì)算相對(duì)簡(jiǎn)單,但其預(yù)測(cè)能力較差[5,8]。近年來(lái),神經(jīng)網(wǎng)絡(luò)能夠較好模擬PAH在SCCO2中的溶解度,也無(wú)需考慮溶質(zhì)的臨界參數(shù),但神經(jīng)網(wǎng)絡(luò)需要大量的實(shí)驗(yàn)數(shù)據(jù),方法本身易出現(xiàn)局部最優(yōu)、泛化能力較差、網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)選擇難[9]等問(wèn)題。
本工作采用支持向量機(jī)(SVM)和遺傳算法(GA)相結(jié)合的方法,建立了PAH在SCCO2中的溶解度模型(記為GA-SVR模型)。該模型輸入變量:溫度、壓力、SCCO2的密度,輸出變量為PAH在SCCO2中的溶解度。利用PAH在SCCO2中的467個(gè)溶解度數(shù)據(jù)對(duì)GA-SVR模型進(jìn)行了訓(xùn)練和預(yù)測(cè),基于帽子矩陣和William plot理論方法,開(kāi)展了所有數(shù)據(jù)點(diǎn)(467個(gè))的異常點(diǎn)檢測(cè),為有機(jī)固體溶質(zhì)在SCCO2中溶解度的準(zhǔn)確預(yù)測(cè)提供了一種有效的新方法。
1.1 支持向量機(jī)
SVM是一種創(chuàng)新型機(jī)器學(xué)習(xí)算法,具有理論性強(qiáng)、泛化能力好等特點(diǎn),能有效避免BP神經(jīng)網(wǎng)絡(luò)等方法中常出現(xiàn)的局部最優(yōu)、泛化能力差[9-10]等問(wèn)題。
SVM非線性回歸模型(SVR)的基本思想是通過(guò)一個(gè)非線性映射將低維空間的非線性回歸問(wèn)題轉(zhuǎn)為高維特征空間的線性回歸問(wèn)題[9]。給出一個(gè)訓(xùn)練樣本集{(xi,yi),i=1,2,…,N},其基本回歸函數(shù)f(x):

SVM回歸中所用的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)R(f):

式(2)中損失函數(shù)為:

將方程(3)代入式(2)并引入松弛變量ξ和ξ*可得目標(biāo)函數(shù):

方程(4)引入Lagrange函數(shù)并進(jìn)行對(duì)偶處理:

聯(lián)立式(6)和(7),可得SVM回歸模型:

對(duì)于內(nèi)積問(wèn)題,常用Radial basis function(RBF)核函數(shù)進(jìn)行代替:

最終,SVM回歸模型:

其中,ε為損失函數(shù)的損失因子;ξ和ξ*為松弛變量;C為懲罰因子;αi和為每個(gè)樣本對(duì)應(yīng)的Lagrange乘子對(duì);γ為核函數(shù)的寬度參數(shù)[9]。
1.2 遺傳算法
GA是一種具有自適應(yīng)能力、全局性的概率搜索[11]算法。GA求解問(wèn)題的核心過(guò)程包括:編碼(二進(jìn)制)、遺傳操作(選擇、交叉、變異)、適應(yīng)度函數(shù)。針對(duì)SVM存在的參數(shù)有C,γ,ε。首先對(duì)參數(shù)進(jìn)行二進(jìn)制編碼,確定初始種群,對(duì)新模型進(jìn)行訓(xùn)練,再利用遺傳算法計(jì)算出適應(yīng)度函數(shù),進(jìn)行全局最優(yōu)解判斷,如果滿足條件,確定C,γ,ε,反之迭代重新計(jì)算[12]。在參數(shù)尋優(yōu)的過(guò)程中,懲罰因子C的值對(duì)ε-SVR回歸模型的準(zhǔn)確度影響最大[13]。
常見(jiàn)的核函數(shù)有Linear,Polynomial,RBF,Sigmoid核函數(shù)[14]。本工作采用RBF核函數(shù),訓(xùn)練時(shí)采用ε-SVR函數(shù)模型。利用Matlab(2014a)軟件和LIBSVM工具箱進(jìn)行擴(kuò)展編程,選用GA作為模型的優(yōu)化算法,建立GA-SVR模型。GA-SVR模型預(yù)測(cè)PAH在SCCO2中溶解度的優(yōu)化參數(shù),結(jié)果見(jiàn)表1。模型具體的計(jì)算流程見(jiàn)圖2。

圖2 GA-SVR模型流程圖Fig.2 Flowchart of the proposed GA-SVR model.

表1 GA-SVR模型的優(yōu)化參數(shù)Table 1 Optimized parameters of the GA-SVR model
2.1 數(shù)據(jù)選擇
應(yīng)用SVM,建立預(yù)測(cè)PAH在SCCO2中溶解度模型,確保數(shù)據(jù)的多樣性和有效性。本工作選取了6種典型的多環(huán)芳香烴類固體溶質(zhì)(467個(gè)數(shù)據(jù)點(diǎn)),如表2所示。選取表2中每一組溶質(zhì)數(shù)據(jù)的70%作為訓(xùn)練,用以建立GA-SVR模型,選取剩余的數(shù)據(jù)作為測(cè)試,以檢驗(yàn)GA-SVR模型的準(zhǔn)確性。
由于實(shí)驗(yàn)數(shù)據(jù)數(shù)量級(jí)不一致,為了提高預(yù)測(cè)精度,采用mapminmax函數(shù)對(duì)數(shù)據(jù)進(jìn)行歸一化和反歸一化處理[9]。函數(shù)所采用的映射見(jiàn)式(11):

2.2 參數(shù)優(yōu)化
訓(xùn)練過(guò)程中利用GA對(duì)模型中涉及的參數(shù)(C,γ,ε)進(jìn)行優(yōu)化。每種溶質(zhì)相對(duì)應(yīng)的最優(yōu)C,γ,ε見(jiàn)表3。
GA-SVR模型訓(xùn)練和預(yù)測(cè)的結(jié)果分別見(jiàn)圖3和圖4。由圖3和4可知,GA-SVR模型訓(xùn)練和預(yù)測(cè)值大多均勻分布在45°線附近,相關(guān)系數(shù)分別為0.995 3和0.995 2。

圖3 GA-SVR模型訓(xùn)練結(jié)果Fig.3 Comparison of experimental data and training data from the GA-SVR model.

圖4 GA-SVR模型預(yù)測(cè)結(jié)果Fig.4 Comparison of the experimental data and data predicted by the GA-SVR model.
為定量評(píng)價(jià)模型,定義平均絕對(duì)相對(duì)偏差(AARD):

表4為每種物質(zhì)對(duì)應(yīng)的AARD。由表4可知,GA-SVR模型能較好地預(yù)測(cè)PAH在SCCO2中的溶解度;除Triphenylene的預(yù)測(cè)AARD超過(guò)7.0%外,其余訓(xùn)練和預(yù)測(cè)值均在7.0%以下,預(yù)測(cè)AARD最小為5.42%,最大值為7.77%,平均為5.94%。

表4 不同溶質(zhì)的GA-SVR模型的AARDTable 4 AARD of the proposed GA-SVR model for each solute
基于帽子矩陣和Williams plot 理論,對(duì)所有的數(shù)據(jù)點(diǎn)進(jìn)行異常點(diǎn)檢測(cè),鑒別GA-SVR模型的有效性[18]。帽子矩陣見(jiàn)式(13):

式中,X是一個(gè)二維矩陣,此矩陣由數(shù)據(jù)點(diǎn)和模型參數(shù)的個(gè)數(shù)決定,Xt為矩陣的轉(zhuǎn)置。設(shè)定H*為H的杠桿值,將其定義為:

式中,m是模型輸入變量的個(gè)數(shù)。經(jīng)計(jì)算每種溶質(zhì)相對(duì)應(yīng)的H*分別是0.103 5,0.134 8,0.125 0,0.137 9,0.279 1,0.307 7,H*的有效范圍是0≤H≤H*。
SVM模型標(biāo)準(zhǔn)化殘差(SR)定義為:

其中,Hii為第i個(gè)數(shù)據(jù)點(diǎn)帽子矩陣的對(duì)角線元素。一般的選擇SR有效范圍為-3≤SR≤3。
運(yùn)用上述方法計(jì)算GA-SVR模型的H值和SR,以H和SR為橫縱坐標(biāo),作異常點(diǎn)檢測(cè)圖,結(jié)果見(jiàn)圖5。


圖5 溶質(zhì)異常點(diǎn)檢測(cè)圖Fig.5 Outlier data detection and applicability domain of the GA-SVR model for the prediction of the solubility of PAH in supercritical carbon dioxide(SCCO2).
由圖5可知,所有的數(shù)據(jù)點(diǎn)均分布在0≤H*≤H和-3≤SR≤3控制的區(qū)域內(nèi),說(shuō)明GASVR模型沒(méi)有出現(xiàn)異常值現(xiàn)象,進(jìn)一步說(shuō)明了模型的可靠性和準(zhǔn)確性。
1)采用GA和SVM法,建立了一種預(yù)測(cè)PAH在SCCO2中的GA-SVR模型。
2)采用467個(gè)PAH在SCCO2中的溶解度文獻(xiàn)數(shù)據(jù)對(duì)新建GA-SVR模型進(jìn)行檢驗(yàn),結(jié)果表明新模型預(yù)測(cè)PAH在SCCO2中的溶解度精度較高,預(yù)測(cè)和訓(xùn)練的相關(guān)系數(shù)分別為0.995 3和0.995 2,AARD最小為5.42%,最大7.77%,平均為5.94%。
3)基于帽子矩陣和William plot理論,建立了一種檢測(cè)GA-SVR模型異常點(diǎn)的方法,經(jīng)檢驗(yàn)建立的新模型沒(méi)出現(xiàn)異常值現(xiàn)象。
符 號(hào) 說(shuō) 明

AARD 平均絕對(duì)相對(duì)偏差,%b偏移量

C懲罰因子H帽子矩陣Hii第i個(gè)數(shù)據(jù)點(diǎn)帽子矩陣的對(duì)角線元素H*H的杠桿值m模型輸入變量的個(gè)數(shù)N樣本個(gè)數(shù)n每組溶質(zhì)相對(duì)應(yīng)的數(shù)據(jù)點(diǎn)總數(shù)p壓力,MPaR2相關(guān)系數(shù)SR 模型的標(biāo)準(zhǔn)化殘差T溫度,kw權(quán)重X二維矩陣Xt矩陣的轉(zhuǎn)置xx1,x2,…xN的集合體xi第i個(gè)學(xué)習(xí)樣本輸入值yy1,y2,…yN的集合體yi第i個(gè)學(xué)習(xí)樣本輸出值yprei第i個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)值yexpi第i個(gè)數(shù)據(jù)點(diǎn)的實(shí)驗(yàn)值αi,α*i,αj,α*j每個(gè)樣本對(duì)應(yīng)的Lagrange乘子對(duì)

γ核函數(shù)的寬度參數(shù)ε損失函數(shù)的損失因子ξ,ξ*松弛變量ρ密度,kg/m3
[1] 任偉偉. 原油熒光光譜特性及分析技術(shù)研究[D].青島:中國(guó)海洋大學(xué),2010.
[2] Miller D J,Hawthorne S B,Clifford A A,et al. Solubility of polycyclic aromatic hydrocarbons in supercritical carbon dioxide from 313 K to 523 K and pressures from 100 bar to 450 bar[J].J Chem Eng Data,1996,41(4):779-786.
[3] Vitu S,Privat R,Jaubert J N,et al. Predicting the phase equilibria of CO2+ hydrocarbon systems with the PPR78 model(PR EOS andkijcalculated through a group contribution method)[J].J Supercrit Fluid,2008,45(1):1-26.
[4] Bian Xiaoqiang,Zhang Qian,Du Zhimin,et al. A fiveparameter empirical model for correlating the solubility of solid compounds in supercritical carbon dioxide[J].Fluid Phase Equilibria,2016,411:74-80.
[5] 卞小強(qiáng),杜志敏,湯勇. 改進(jìn)密度模型計(jì)算溶質(zhì)在超臨界CO2中的溶解度[J].石油化工,2011,40(5):536-540.
[6] Bian Xiaoqiang,Li Jing,Chen Jing,et al. A combined model for the solubility of different compounds in supercritical carbon dioxide[J].Chem Eng Res Des,2015,104:416-428.
[7] Khayamian T,Esteki M. Prediction of solubility for polycyclic aromatic hydrocarbons in supercritical carbon dioxide using wavelet neural networks in quantitative structure property relationship[J].J Supercritl Fluid,2004,32(1):73-78.
[8] Mehdizadeh B,Movagharnejad K. A comparison between neural network method and semi empirical equations to predict the solubility of different compounds in supercritical carbon dioxide[J].Fluid Phase Equilibria,2011,303(1):40-44.
[9] 卞小強(qiáng),韓兵,杜志敏. 基于支持向量機(jī)的酸性天然氣水合物生成條件預(yù)測(cè)[J].中國(guó)科技論文,2016,11(9):1017-1020.
[10] Boyle B H. Support vector machines:Data analysis,machine learning,and applications[M].New York:Nova Science Publishers Inc,2012.
[11]Holland J H. Adaptation in natural and artificial systems:An introductory analysis with applications to biology,control,and artificial intelligence[M].Michigan:U Michigan Press,1975.
[12] 臧淑英,張策,張麗娟,等. 遺傳算法優(yōu)化的支持向量機(jī)濕地遙感分類——以洪河國(guó)家級(jí)自然保護(hù)區(qū)為例[J].地理科學(xué),2012,32(4):434-441.
[13] Bian Xiaoqiang,Han Bing,Du Zhimin,et al. Integrating support vector regression with genetic algorithm for CO2-oil minimum miscibility pressure(MMP) in pure and impure CO2streams[J].Fuel,2016,182:550-557.
[14] Vapnik V. The nature of statistical learning theory[M].New York:Springer Science & Business Media,2013.
[15] Bartle K D,Clifford A A,Jafar S A. Measurement of solubility in supercritical fluids using chromatographic retention:The solubility of fl uorene,phenanthrene,and pyrene in carbon dioxide[J].J Chem Eng Data,1990,35(3):355-360.
[16] Anitescu G,Tavlarides L L. Solubilities of solids in supercritical fl uids I. New quasistatic experimental method for polycyclic aromatic hydrocarbons(PAHs)+ pure fluids[J].J Supercrit Fluid,1997,10(3):175-189.
[17] Yamini Y,Bahramifar N. Solubility of polycyclic aromatic hydrocarbons in supercritical carbon dioxide[J].J Chem Eng Data,2000,45(1):53-56.
[18] Eslamimanesh A,Gharagheizi F,Mohammadi A H,et al. Assessment test of sulfur content of gases[J].Fuel Process Technol,2013,110:133-140.
(編輯 平春霞)
Prediction of the solubility of polycyclic aromatic hydrocarbons in supercritical CO2by the GA-SVR model
Chen Jing1,Zhang Qian2,Bian Xiaoqiang2,Han Bing2
(1. College of Applied Technology,Southwest Petroleum University,Nanchong Sichuan 637001,China;2. State Key Laboratory of Oil and Gas Reservoir Geology and Exploitation,Southwest Petroleum University,Chengdu Sichuan 610500,China)
Aimed at the expensive and time-consuming problems in the experimental determination of the solubility of solid organic compounds in supercritical carbon dioxide(SCCO2) under different temperature and pressure,a solubility model(GA-SVR) for polycyclic aromatic hydrocarbons(PAH) in SCCO2was established based on the support vector machine model and the genetic algorithm. Training and prediction for the GA-SVR model were carried out based on 467 data experimental data for the solubility of PAH in SCCO2. A detection method for the outliers of the GA-SVR model was established by means of the Hat matrix and the Williams plot theory. It was showed that the predictions of the proposed model were in excellent agreement with the experimental data,with the minimum average absolute relative deviation(AARD) of 5.42%,the maximum AARD of 7.77% and the average AARD of 5.94%. It was indicated that presented GA-SVR model for predicting the solubility of PAH in SCCO2was correct without any outliers.
solubility;support vector machine;genetic algorithm;polycyclic aromatic hydrocarbons;supercritical carbon dioxide
1000-8144(2017)03-0321-06
TQ 013.1
A
10.3969/j.issn.1000-8144.2017.03.010
2016-09-19;[修改稿日期]2016-12-03。
陳靜(1980—),女,內(nèi)蒙古自治區(qū)烏海市人,碩士,助教,電郵 569127901@qq.com。聯(lián)系人:卞小強(qiáng),電話 13438945103,電郵 bxqiang3210_88@163.com。
國(guó)家自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(51404205)。