李敬巖,安曉春,田松柏,楊星明
(1.中國石化石油化工科學研究院,北京 100083;2.中國石化茂名分公司)
柴油十六烷值快速分析技術研究
李敬巖1,安曉春2,田松柏1,楊星明2
(1.中國石化石油化工科學研究院,北京 100083;2.中國石化茂名分公司)
基于上千個柴油樣本建立了測定柴油十六烷值的近紅外光譜數據庫,采用一次性空瓶解決了光譜快速采集的問題,通過向數據庫中添加少量樣本的方式改進了模型在某石化企業的適用性,通過偏最小二乘法、支持向量機法和最小二乘支持向量機法將不同類型的柴油建立了統一的分析模型,并比較了不同算法建模的準確性。結果表明:使用PLS,SVM,LSSVM算法建立的校正模型對柴油樣本十六烷值的預測標準偏差分別為1.6,1.4,1.3,可滿足快速評價要求。本研究節約了建模成本,減少了數據庫的維護工作量。
近紅外光譜 柴油 十六烷值 數據庫 化學計量學
柴油是目前使用最多的車用燃料之一,柴油十六烷值(CN)是衡量燃燒性能的主要指標。測定柴油十六烷值的標準方法為發動機臺架試驗。由于該試驗機價格昂貴、使用和維護費用高,需要較高標準的實驗室和高素質分析人員,中小煉油廠很少配備;即使一些大型煉油廠使用的頻率也很低,一般每月只測1~2次,平時則采用十六烷指數來評價柴油的燃燒性能,不便用于柴油的自動調合系統。由于十六烷指數的影響因素較多,其與十六烷值的對應關系往往隨油品組成的改變而變化,以致影響對油品燃燒性能的正確評價。
近紅外光譜結合化學計量學方法可以快速測定柴油的多項性質和組成數據[1-2]。近紅外光譜法(NIR)不需要對樣品進行預處理,操作簡單,分析快速,非常適合油品的定量和定性分析,在石油化工行業中得到了較為廣泛的應用[3-4]。目前,在柴油的自動調合中,也大都采用在線近紅外技術實時測定十六烷值、多環芳烴含量、密度等關鍵指標[5-6]。近紅外分析技術需建立較復雜的分析模型,才能得到可靠的測量結果。建立穩健的定量校正模型是近紅外光譜分析的核心之一,經典的多元校正方法有偏最小二乘(PLS),可以完美地回歸線性系統,近紅外光譜建立的模型是基于開放性的、可擴展樣品數量的數據庫技術,隨著使用過程校正集樣本數量的不斷增加,其適用范圍將越來越寬,分析準確性和穩健性也將越來越高。
國外一些大型石化企業以及知名儀器公司都有汽油、柴油數據庫,在先進過程控制和優化控制等方面發揮著重要的作用。在柴油分析方面,中國石化石油化工科學研究院(簡稱石科院)前期只是做了初步的探索工作,尚未進行系統的研究和開發。針對目前某石化企業對柴油快速分析以及未來柴油調合工藝的需要,本研究擬在一系列研究成果的基礎上,進一步擴充柴油近紅外數據庫,并解決試驗過程中的具體技術問題,針對性地建立柴油十六烷值分析模型并為以后柴油在線調合提供方案。
1.1 柴油樣本
石科院柴油庫共收集了1 148個柴油樣本,包括催化裂化柴油、直餾柴油、加氫柴油、成品柴油;其中,有多環芳烴基礎數據的470個樣本,有密度基礎數據的380個樣本,有碳含量和氫含量基礎數據的141個樣本,有十六烷值基礎數據的508個樣本。柴油樣本的收集時間為2009年11月至2014年8月。所有樣本用20 mL密封小瓶封裝,放置于冰柜中保存。柴油的十六烷值由臺架試驗機測定。
某石化企業需使用近紅外光譜儀來進行數據庫的建立和預測柴油性質的工作。從該石化企業收集兩個批次,共計72個柴油樣本,十六烷值范圍從43.3到55.7,收集時間為2013年7月至2014年9月。
1.2 近紅外光譜儀與光譜采集
本研究選用Thermo公司的Antaris Ⅱ傅里葉變換型近紅外光譜儀作為建立汽柴油近紅外光譜數據庫的硬件平臺。
采集柴油樣本的近紅外光譜參數如下:①儀器:Thermo Antais Ⅱ傅里葉變換近紅外光譜儀;②測量附件:透射樣品室,帶聚乙烯塞一次性透明0.7 mL圓筒玻璃小瓶,35 mm×7.8 mm,光程6.5 mm,用空玻璃小瓶進行背景測量;③光譜分辨率:8 cm-1;④累計掃描次數:128次;⑤光譜采集范圍:3 500~10 000 cm-1。典型柴油的近紅外光譜見圖1。

圖1 典型柴油的近紅外光譜
1.3 實驗方法
在油品測量時,傳統使用的比色皿方式給油品的光譜測量帶來了諸多不便,如比色皿價格高,需要清洗后重復使用,且易損壞。由于柴油的黏度較大,比色皿清洗費時費力。另外,比色皿密封性差,容易造成環境污染,光譜的重復性較難保證,也不能長期對油品進行儲存。
本研究選用一次性玻璃小瓶作為采集汽柴油近紅外光譜的測量方式,在光譜采集過程中,以空樣品瓶做參比,消除一次性玻璃小瓶在材質和尺寸上存在的微小差異。相比于傳統的比色皿采樣方式,其具有如下技術優勢:①測量方便,價格便宜,一個玻璃小瓶約1元人民幣;②因不用清洗,樣品用量大幅度下降(僅需1 mL),且環境污染小;③小瓶密封性好,光譜測量重復性顯著提高;④小瓶容量小,密封性好,可以長期對樣品進行保存。
1.4 定量校正方法
將采用標準方法測得的十六烷值和柴油光譜通過石科院“化學計量學光譜分析軟件3.0”進行編輯,生成標準矩陣式數據庫。光譜預處理、定量校正等計算均在石科院“化學計量學光譜分析軟件3.0”上進行。程序運行平臺:ThinkPad T440p,i5(2.50 GHz),4 GB RAM。本研究采用PLS、支持向量機(Support Vector Machine,SVM)和最小二乘支持向量機(Least Squares Support Vector Machines,LSSVM)3種定量校正方法進行建模。
PLS定量校正方法基本模型為:
Y=UQT+EY
(1)
X=TPT+EX
(2)
式中:T和U分別是X和Y矩陣的得分矩陣;P和Q分別是X和Y矩陣的載荷矩陣;EX和EY分別是X和Y矩陣的PLS擬合殘差矩陣。然后將T和U作線性回歸:
U=TB
(3)
B=(TTT)-1TTY
(4)
式中,B為回歸系數。在預測時,首先根據P求出未知樣品光譜矩陣Xun的得分Tun,然后根據式(5)得到濃度預測值Yun:
Yun=TunBQ
(5)
SVM是在20世紀 90 年代Vapnik等建立的統計學習理論(Statistical Learning Theory,SLT)基礎上發展起來的一種新的模式識別方法。SVM 可有效克服神經網絡方法收斂難、解不穩定以及推廣性(泛化能力、預測能力)差的缺點,SVM收斂速度快、無局部最優解。
對于光譜矩陣X={x1,x2,…xn},對應的性質矩陣Y={y1,y2,…yn},其中xi∈Rd為輸入向量,yi∈R為目標向量,d是維數,i=1,2,…n。首先由一非線性映射φ(·)將原空間映射Rd到特征空間φ(xi),然后在高維特征空間內構造最優決策函數y(x)=wTφ(x)+b,并以結構風險最小化原則優化模型參數w和b,其中以核函數代替從低維到高維的映射,該模型構建以下約束優化問題:
(6)
式中:Remp為訓練誤差;C為模型的正規化參數。建立適用的SVM校正模型需要首先對模型參數進行優化,γ參數是選擇徑向基函數作為核函數后,該函數自帶的一個核寬度參數。
為降低訓練時間、減少計算復雜程度以及提高泛化能力,一些改進的支持向量機算法被提出,如LSSVM等。LSSVM采用最小二乘線性系統作為損失函數,通過解一組線性方程組代替傳統 SVM 采用的較復雜的二次規劃方法,降低了計算復雜性,加快了求解速度。
LSSVM以線性系統降低了計算的復雜性,控制過擬合,無局部最小點,預測可靠性高且泛化能力更強。其構建的線性系統如下:
(7)
式中:I=[1,…,l];K為核函數,這里采用徑向基核函數。通過最小二乘法求解線性系統(7)可得到參數a、b。最終得到LSSVM決策函數為:
(8)
當采用徑向基核函數時,需要調節核參數δ2和正規化參數C。這兩個參數對模型的計算復雜度和預測精確度都有很大的影響,本研究采用基于交互驗證的網格搜索法尋找最優的參數組合。
2.1 光譜預處理
儀器采集的近紅外光譜信號除樣品信息外,還包含來自各方面的噪聲。光譜預處理的目的是濾去噪聲,提取有用信息,方便后續處理。常用的光譜預處理方法有小波變換、平滑、歸一化和微分等。其中微分是一種常用的光譜預處理方法,可以有效地消除樣本顏色、基線和其它背景干擾,分辨重疊峰,提高分辨率和靈敏度。本研究采用二階微分處理,以解決柴油樣品在顏色上的差別引起的光譜基線偏移和漂移。圖2為成品柴油的二階微分光譜。

圖2 柴油的二階微分光譜
2.2 光譜范圍的選擇
在不同波長范圍的近紅外光譜所含的信息量不同。要建立穩健的校正模型需要選擇與具體性質相關的譜區,因為沒有顯著吸收特征和與其它官能團吸收峰重疊的光譜區間將會降低校正模型的預測能力。以成品柴油為例,考察不同波長范圍與十六烷值的相關性。圖3為十六烷值與近紅外光譜的相關系數,從圖3可以看出,在不同的光譜區間十六烷值與近紅外光譜的相關性有較大的差別,其中4 500~6 000 cm-1范圍內光譜與十六烷值具有較高的相關性,但從圖1可以看出在此區間內吸光度遠遠大于1,此吸光度非線性響應較強,因此不予選擇。通過比較得出,7 000~7 400 cm-1和8 100~8 600 cm-1范圍內光譜與十六烷值具有較高的相關性,可以作為建模的區間。選擇最有用的光譜信息建立校正模型,不但可以提高模型預測能力,同時由于剔除了信息弱的光譜區域,減少了光譜數據量,能夠提高計算速度。

圖3 柴油十六烷值的光譜與性質的相關性
2.3 PLS校正模型
采用石科院 “化學計量學光譜分析軟件3.0”中的PLS方法建立校正模型。模型建立前,首先選取石科院柴油庫構成校正集,選取其中30個柴油樣本作為監測集樣本,某石化企業收集的72個柴油作為驗證集樣本。所有樣本均在38 ℃下采集光譜,光譜首先經二階微分處理,以消除樣品顏色、溫度及基線漂移等因素的影響,選擇與十六烷值有良好相關性的近紅外光譜波段區間(7 000~7 400 cm-1和8 100~8 600 cm-1)作為特征譜區,將特征譜區內的吸光度與標準方法測定的十六烷值數據相關聯,建立柴油十六烷值的校正模型。光譜最佳主因子數采用交互驗證法所得的預測殘差平方和(PRESS)確定。模型通過校正標準偏差(SECV)和監測集的標準偏差(SEM)來評價。
圖4為交互驗證的PRESS圖,當主因子數為11時,PLS交互驗證SECV達到最小并趨于穩定,因此由交互驗證所得的預測PRESS確定光譜最佳主因子數為11。

圖4 交互驗證PRESS圖
圖5為PLS建模的校正結果。從圖5可以看出,采用NIR方法與常規方法測得的柴油十六烷值具有良好的相關性,十六烷值交互驗證得到的SECV為1.6,SEM為1.8,與常規分析方法的重復性基本相當,說明所建模型有較好的預測能力。將所建立的PLS校正模型分別對驗證集中72個某石化企業柴油樣本的十六烷值進行預測分析,結果見表1。

圖5 PLS校正模型中十六烷值的NIR測定值與實測值的相關性■—校正集; ●—監測集。 圖7、圖8同
從表1可以看出,由于校正集中不含某石化企業柴油,因其在組成上與庫中柴油存在少許差異,所以導致個別樣本的預測結果偏差較大,預測標準偏差(SEP)為1.9,最大的十六烷值預測偏差為4.3個單位。
從72個某石化企業柴油樣本里選取20個樣本補充到校正集中,重新建立校正模型,對剩余52個樣本的十六烷值進行預測分析,結果見表2。從表2可以看出,經添加某石化企業柴油樣本后,校正模型的適應性有了顯著提高,SEP為1.6,十六烷值的預測值基本與實測值一致。說明該模型經過較少樣本的更新后,可以解決校正模型的適應性問題。

表1 PLS方法對72個某石化企業柴油未知樣本的十六烷值預測結果
上述結果說明,若將一個或數個煉油廠的柴油樣本建立的十六烷值近紅外模型直接用于另一個煉油廠,則會存在一定的系統誤差。通過向校正集中添加少量的新煉油廠的樣本更新模型后,便可擴大模型的適用性,得到更為準確的預測結果。

表2 PLS模型中NIR方法對52個某石化企業柴油未知樣本的十六烷值預測結果
2.4 SVM模型
采用徑向基函數作為核函數,建立適用的SVM校正模型需要首先對模型參數進行優化,包括γ參數(選擇徑向基函數作為核函數后,該函數自帶的一個核寬度參數)以及模型的正規化參數C。
圖6是通過網格搜索法,在一定的范圍內選擇參數組合進行模型計算得到的誤差面,其中X軸和Y軸代表參數γ和C,Z軸為校正標準偏差(SEC)。選取合適的參數組合使模型的SEC最小,從圖6可以看出,γ和C值分別選擇20、18時基本滿足要求。
確定模型參數后采用SVM方法建立校正模型。模型建立前,首先選取石科院柴油庫構成校正集,其中30個柴油樣本作為監測集樣本,某石化企業72個柴油樣本作為驗證集樣本。由近紅外光譜性質相關系數圖選取光譜區間參與模型的建立。

圖6 SVM網格搜索誤差面
圖7為采用NIR方法與常規方法測得的柴油十六烷值的相關性,結果表明,十六烷值的SEC為1.7,SEM為1.9。

圖7 SVM模型中十六烷值的NIR測定值與實測值的相關性
從72個某石化企業柴油樣本中選取20個樣本補充到校正集中,重新建立校正模型,對剩余52個樣本的十六烷值進行預測分析,結果見表3。從表3可以看出,SEP為1.4,十六烷值的預測值基本與實測值一致。說明該模型經過較少樣本的更新后,進一步提高了預測準確性。
2.5 LSSVM模型的建立
超參數是決定LSSVM的學習精度和泛化能力的重要參數,本研究采用徑向基核函數,首先需要調節核參數δ2和正規化系數C,通過基于交互驗證的網格搜索法找到最優的參數組合,得到lgC和lgδ2分別為8.0和4.9。

表3 SVM模型中NIR方法對52個某石化企業柴油未知樣本的十六烷值預測結果
確定模型參數后,采用LSSVM方法建立校正模型,樣本集同PLS模型,圖7為采用NIR方法與常規方法測得的柴油十六烷值的相關性,結果表明,十六烷值的SEC為1.7,SEM為1.9。

圖8 LSSVM模型中十六烷值的NIR測定值與實測值的相關性
選取20個某石化企業柴油樣本補充到校正集后,重新建立校正模型,對剩余52個樣本的十六烷值進行預測分析。將所建立的LSSVM校正模型對驗證集柴油樣本的十六烷值進行預測分析,結果見表4。從表4可以得出,SEP為1.3,優于PLS方法和SVM方法。

表4 LSSVM模型中NIR方法對52個某石化企業柴油未知樣本的十六烷值預測結果
本研究擴充了石科院柴油數據庫到千余個柴油樣本,基于NIR方法開發了適用于某石化企業柴油十六烷值的預測分析校正模型。
研究結果表明,若將原石科院近紅外柴油PLS校正模型直接用于某石化企業柴油十六烷值的預測分析,則會存在一定的系統偏差。但通過向校正集中添加較少數量的樣本更新模型后,便可擴大模型的適用性,顯著減少校正模型的維護量,得到準確的預測結果。
本課題同時考察了SVM以及改進后的LSSVM非線性校正方法建立柴油十六烷值校正模型的效果,結果表明這兩種方法對某石化企業柴油樣本的預測結果均優于PLS方法。使用PLS,SVM,LSSVM算法建立的校正模型對某石化企業柴油樣本十六烷值預測的SEP分別為1.6,1.4,1.3,滿足企業要求。
[1] 徐廣通,陸婉珍,袁洪福.近紅外光譜測定柴油十六烷值[J].石油學報(石油加工),1999,15(4):62-67
[2] Julio C L A,Claudete B H,Ronei J P.Classification of diesel pool refinery streams through near infrared spectroscopy and support vector machines using c-SVC and m-SVC[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2014,117:389-396
[3] Jr Vianney O S,Flavia C C O,Daniella G L,et al.A comparative study of diesel analysis by FTIR,FTNIR and FT-Raman spectroscopy using PLS and artificial neural network analysis[J].Analytica Chimica Acta,2005,547(2):188-196
[4] 徐廣通,劉澤龍,楊玉蕊,等.近紅外光譜法測定柴油組成及其應用[J].石油學報(石油加工),2002,18(4):65-71
[5] Julio C L A,Claudete B H,Ronei J P.Determination of diesel quality parameters using support vector regression and near infrared spectroscopy for an in-line blending optimizer system[J].Fuel,2012,97:710-717
[6] Li Jingyan,Chu Xiaoli,Tian Songbai.Research on calibration transfer across infrared spectrometric instruments for fast evaluation of crude oils[J].China Petroleum Processing and Petrochemical Technology,2015,17(1):1-5
RESEARCH ON FAST EVALUATION FOR DIESEL CETANE NUMBER BY NEAR-INFRARED SPECTROSCOPY
Li Jingyan1, An Xiaochun2, Tian Songbai1, Yang Xingming2
(1.SINOPECResearchInstituteofPetroleumProcessing,Beijing100083; 2.SINOPECMaomingCompany)
Based on more than one thousand diesel samples, the near infrared spectroscopic database for determination of cetane number was established, where a disposable headspace bottle was used for the spectral fast acquisition. By adding a small amount of samples to the database, a suitable model for a petrochemical company was obtained. A robust and uniform calibration model was developed for different types of diesels by partial least squares method,SVM and LSSVM algorithm and by comparing their results. The standard error of prediction of diesel CN using PLS, SVM and LSSVM calibration model were 1.6, 1.4 and 1.3, respectively. The work has advantages of high speed, cost saving of modeling and reduction of the database maintenance workload.
NIR; diesel; cetane number; database; chemometrics
2015-09-24; 修改稿收到日期:2015-11-27。
李敬巖:博士,高級工程師,從事原油及油品的快速分析工作。
李敬巖,E-mail:lijy.ripp@sinopec.com。