劉 偉,鄧 琥,2,3,劉泉澄,3,魏文卿,3,于洙海,尚麗平,2,3
(1.西南科技大學信息工程學院,四川 綿陽 621010;2.西南科大四川天府新區創新研究院,四川 成都 610299;3.特殊環境機器人技術四川省重點實驗室,四川 綿陽 621010)
乙二醇是一種非常重要的有機化工原料,可用于制造樹脂、增塑劑、合成纖維、化妝品和炸藥,也可用作溶劑、配制發動機的抗凍劑。水含量是評價聚酯級乙二醇產品質量等級的一項極為重要的指標。該指標能反映出乙二醇產品的質量狀況,實際生產中可以通過控制該指標來保證產品質量。因而快速準確地測定乙二醇產品中的水含量,在乙二醇實際生產中有著極其重要的指導意義[1]。
根據現行GB/T6283-2008《化工產品中水分含量的測定卡爾·費休法(通用方法)》,乙二醇水分含量的測定標準方法為卡爾·費休法,卡爾·費休法是針對水分的特異性方法,是大多數溶劑水分測量的標準方法。但是卡爾費休法副反應較多,操作繁瑣、耗時較長,存在人為滴定誤差,且使用的化學試劑具有一定毒性,使用不當還會造成環境污染[2-3]。乙二醇本身也存在毒性,因此在檢測時需要嚴格規范檢測措施,結合乙二醇的質量檢測指標要求,高精度的在線檢測方法具有良好的契合性。太赫茲時域光譜技術是一種可實現水分快速和無損檢測的新興技術,太赫茲波(Terahertz,THz)是一種介于微波和紅外波之間的電磁波,頻率范圍為0.1~10 THz、波長為0.03~3 mm、光子能量為0.414~41.4 meV。由于水分子在太赫茲波段獨有的分子鍵振動模式使其對太赫茲波具有極強的敏感性和吸收性,太赫茲時域光譜技術還具有、無損、安全、快速、高信噪比等特點,因而太赫茲時域光譜技術在物質水分含量評價領域具有廣泛的應用前景[4]。已有學者利用太赫茲技術開展了木材[5-6]、葉片[7-8]、藥材[9]、皮膚[10]等固體物質含水率的檢測,通過建立樣本的吸收系數和折射率與含水率的關系,采用多元線性、偏最小二乘法、支持向量機、神經網絡等回歸分析方法建立含水率預測模型,預測精度比較可觀,證明了太赫茲對于水分含量檢測的可行性。目前應用太赫茲時域光譜技術對于液體水分含量的檢測研究主要集中于油水混合物的檢測[11-13],而對于極性溶液以及高含水率的相關檢測報道較少,主要原因是極性液體對太赫茲也具有較強吸收,因此太赫茲在對乙二醇水含量檢測上的研究有重要意義。
本文選用優級純乙二醇,制備不同含水率的液體樣本(0~50 %),設計了可用于極性液體檢測的樣本池,為太赫茲液體檢測提供了樣品池參考,獲得了太赫茲時域光譜,根據光學參數提取模型計算出樣本的折射率和吸收系數,采用不同的預處理算法對原始數據進行優化處理,并構建了PCR、PLSR、SVR三種回歸預測模型,對不同模型比較選優,挑選出最優的預處理方法和定量分析模型的組合,對含水率進行了預測。
實驗需要用到的主要器材:采用光纖式太赫茲時域光譜系統(TeraSmart,MenloSystems)用于獲取樣本的光譜信息、空氣壓縮機(1200H-180)和空氣干燥機(TYWD-0.3)用于保持實驗系統的濕度≤1 %,此外還需要用到電子天平(AUW120D,Shimadzu)、超聲波震蕩儀、無水乙二醇(GR500 ml)、定制液體樣本池(PTFE)(如圖1),實驗器材具體清單如表1所示。

表1 實驗器材清單

圖1 定制液體池實物
采用德國MenloSystems公司光纖耦合式太赫茲時域光譜系統(TeraSmart),系統采用耦合式光纖發射和接收太赫茲信號,有效頻帶寬度>6 THz,光譜動態范圍>95 dB,其系統原理如圖2所示。為了使獲取的太赫茲樣本信息最大化,采用平行太赫茲光束與樣本作用。飛秒激光器(Femtosecond laser)產生兩束能量不同的光束,泵浦光(Pump)和探測光(Probe)。能量較強的泵浦光經光纖耦合光電導天線發射端(THz TX)激發產生太赫茲波,太赫茲波經離軸拋物鏡(OAP1)轉變成平行光束并與樣本作用,帶有樣本信息的太赫茲波經OAP2、OAP3、OAP4聚焦到光纖耦合光電導天線接收端(THz RX)。能量較弱的探測光經過時間延遲系統(Time delay )和光纖到達光纖耦合光導天線接收端與太赫茲信號匯合,再經信號放大器(Amplifier)信號處理獲得被測樣本的太赫茲時域光譜。

圖2 光纖式太赫茲時域光譜系統原理圖

圖3 樣本的制備及測試流程
使用光纖式太赫茲時域光譜系統分別獲得空液體池和含水液體樣本的太赫茲時域光譜數據,以空液體池時域光譜為參考,由于太赫茲波穿過很薄(0.5 mm)的液體池會使時域光譜信號產生反射峰,導致頻域信號會產生震蕩,需要先對反射峰及之后的數據進行截斷補零處理,再通過快速傅里葉變換獲得太赫茲頻域光譜,采用Dorney[14]和Duvillaret[15]等提出的光學參數提取模型,計算得到液體樣本的吸收系數和折射率,其計算公式為:
(1)
(2)
式中,n(ω)為樣本實折射率;α(ω)為樣本吸收系數;ω為角頻率;c為光速;d為液體樣本厚度;φ(ω)、T(ω)分別為液體樣本和空液體池頻譜信號相位之差和振幅之比。
步驟一,將樣本存液瓶置于天平并調零,用微量進樣器取0.01 g去離子水注射到存液瓶,隨后加入無水乙二醇9.99 g,記錄數據,放入超聲波震蕩儀中5 min使其混合均勻;
步驟二,按照步驟一方法制備不同濃度的乙二醇溶液,溶液含水濃度0.1~50 %;
步驟三,打開太赫茲時域系統飛秒激光器開關,并預熱60 min,設置太赫茲時域光譜系統參數:平均次數2000,掃描寬度100 ps;同時開啟空氣干燥裝置通入干燥空氣至整個系統相對濕度<1 %,即可開始測量;
步驟四,向液體池中通入干燥空氣持續2 min后,并測量其太赫茲光譜,用作參考信號;
步驟五,用注射器取出液體樣本注入到液體池,等其填充滿整個液體池塞上橡膠塞密封,并測量其太赫茲光譜;
步驟六,測量結束后排出液體池中樣品并用無水乙醇潤洗5次,隨后向液體池通入干燥空氣5 min;再進行下一樣本測試;
步驟七,重復步驟五和步驟六,得到所有液體樣本太赫茲光譜。
圖4為利用太赫茲時域光譜系統得到的不同含水率的乙二醇樣品時域光譜,圖5和圖6分別為通過光學參數提取后的不同含水率乙二醇樣本吸收光譜及折射率譜;從圖中可以看出,隨著乙二醇含水率的增大,樣本時域光譜峰值呈減小和右移的趨勢,這是由于不同含水率的乙二醇樣本對太赫茲波的吸收強度、折射和反射各不相同,且在相同頻段內其吸收系數和折射率隨含水率和頻率的變化趨勢基本相同,均呈現出正相關。由于不同含水率乙二醇樣本的吸收系數和折射率在0.5~1.5 THz之間的差異性顯著,0.5 T前及1.5 T 后數據波動較大,因此選取0.5~1.5 THz作為含水乙二醇樣本的太赫茲光譜分析頻段,當乙二醇含水率以1 %、5 %、10 %梯度增加時,其吸收系數和折射率增加的趨勢顯著,當含水率以0.1 %左右梯度增加時,吸收系數和折射率增加的趨勢不明顯。

圖4 不同含水率乙二醇樣本時域光譜

圖5 不同含水率乙二醇樣本吸收光譜

圖6 不同含水率乙二醇樣本折射率譜
從實驗結果中可以看出,單一頻率下的吸收系數和折射率與含水率之間有較好的相關性,但是單個維度的數據易受到光譜數據容易受到系統及環境噪聲、基線漂移等各方面的影響,使得光譜變得雜亂及信噪比降低,可能會造成樣品的很多重要信息丟失,影響定量分析的結果。為了減少或去除光譜中其他因素的干擾,減小光譜失真,使提取的樣品相關信息最大化,需要對原始光譜數據進行預處理,使其能更加契合模型,提高模型質量。選取0.5~1.5 THz頻段(138維數據)的吸收系數與折射率進行分析,使用一種和多種組合形式的預處理方法進行處理,使用標準正態變換(Standard Normal Variate,SNV)、Savitzky-Golay平滑、z-score標準化和Min-max歸一化方法不同組合(共9種)對乙二醇太赫茲光譜數據進行預處理分析;再結合3種回歸分析方法建立預測模型,依據最終建模效果評價選擇出最佳的預處理方法組合。
根據不同組合分析獲得的乙二醇光譜數據預處理結果,分別以乙二醇吸收系數和折射率為輸入,乙二醇含水率為輸出,建立主成分回歸(Principal components regression,PCR)、偏最小二乘回歸(Partial least squares regression,PLSR)和支持向量機回歸(Support vector regression,SVR)三種回歸預測模型。
主成分回歸是以主成分分析法為基礎思想的多元校正分析方法,可有效解決數據共線性問題,消除實驗誤差對模型結果的影響[16]。其基本思想是將原始高維變量重新組合成一組新的不相關的主成分低維變量。根據實際需求和累計貢獻率,選擇較少的主成分變量盡可能多地提取原始變量的信息,再對主成分變量進行回歸分析得到回歸方程。
偏最小二乘法是一種典型的多變量統計分析方法,適用于小樣本數據,偏最小二乘回歸與主成分回歸相關,在構建模型時,采用主成分分析對訓練樣本進行降維處理,將主成分中累積貢獻率超過98 %的數據作為特征數據。在預測模型中使用PLS分量,采用PLSR算法建立校正模型[17]。
Vapnik于1995年提出了支持向量機方法(Support Vector Machine,SVM),該方法在過去二十年中迅速流行,并在不同領域得到廣泛應用。支持向量機是一種用于分析分類和回歸問題的監督學習算法,可以應用于線性和非線性系統,在不同的領域中都有廣泛的應用;近年來,支持向量機也被用于解析太赫茲光譜,進行分類和回歸分析,其主要思想是找到一個使所有樣本都接近目標樣本的最佳決策超平面[18-19]。而支持向量回歸(Supportvector Regression,SVR)基本思想是使用核函數將輸入數據映射到高維特征空間,并在高維特征空間建立線性回歸[20]。
采用決定系數R2與預測均方根誤差RMSEP來評價預測模型的準確性和穩定性,進而優選出最佳的預測模型及預處理方法的組合。R2表示自變量與因變量之間的線性關系的強度,反映用自變量可以解釋因變量變化的百分比,在濃度范圍相同的前提下,其值越接近1,模型的回歸和預測效果越好,其表達式如下:
(3)

(4)
式中,n為樣本數量;yi,act為第i個樣本實測含水率的值;yi,pre為測試集過程中第i個樣品含水率的預測值。
根據不同組合分析獲得的乙二醇吸收系數和折射率光譜數據預處理結果,建立三種回歸預測模型,建模時隨機抽取4/5樣本數據作為訓練集,剩余1/5作為預測集。為了保證模型結果準確性,模型隨機運行10次,并以10個隨機抽樣模型的平均值作為最終的預測結果。
3.4.1 基于吸收系數預測模型乙二醇含水率定量分析結果
圖7和圖8展示不同預處理下乙二醇吸收系數的三種定量預測模型預測性能結果對比,通過對比模型預測集決定系數R2與均方根誤差RMSEP,可以看出三種定量分析模型對于乙二醇含水率具有不同程度的預測精度,三種模型中SVR預測性能最佳,最契合乙二醇吸收系數的回歸預測,PLSR次之,PCR最差。不同預處理方法也對模型有不同程度的影響,綜合模型和預處理方法對預測結果的精度影響,可以得出,經SNV處理后乙二醇吸收系數的SVR模型預測性能最佳,其預測集R2與RMSEP分別為0.9941和0.00451,具有較高的預測精度。

圖7 基于吸收系數三種模型RMSEP分析結果

圖8 基于吸收系數三種模型R2分析結果
3.4.2 基于折射率預測模型乙二醇含水率定量分析結果
圖9和圖10展示不同預處理下乙二醇折射率的三種定量預測模型預測性能結果對比,通過對比模型預測集決定系數R2與均方根誤差RMSEP,折射率模型的預測性能與基于吸收系數的模型預測性能高低順序一致,SVR>PLSR>PCR。綜合模型和預處理方法對預測結果的精度影響,可以得出,經SNV處理后乙二醇吸收系數的SVR模型預測性能最佳,經S-G平滑預處理處理后乙二醇折射率的SVR模型預測性能最佳,其預測集R2與RMSEP分別為0.9988和0.00507,預測精度良好。

圖9 基于折射率三種模型RMSEP分析結果

圖10 基于折射率三種模型R2分析結果
本文提出了基于太赫茲時域光譜技術檢測乙二醇含水率的新方法,實現了太赫茲光譜技術對于極性液體的定量分析研究,獲得了不同含水率乙二醇樣本的折射率和吸收系數,結合光譜預處理方法,構建了PLSR、PCR、SVR三種回歸模型對乙二醇含水率進行了預測。得出以下結論:三種回歸預測模型都能有效預測乙二醇的含水率,其中SVR模型預測性能最佳,表明了太赫茲光譜技術應用在乙二醇含水率的高精度檢測是可行的。適合的光譜數據預處理方法可以提升模型的性能,在基于吸收系數的預測模型中,經SNV處理后乙二醇吸收系數的SVR模型預測性能最佳,預測集R2與RMSE分別為0.9941和0.00451;在基于折射率的預測模型中,經S-G平滑預處理處理后乙二醇折射率的SVR模型預測性能最佳,其預測集R2與RMSE分別為0.9988和0.00507;均具有較高的預測精度。研究結果表明,所提方法能為乙二醇質量快速評價提供技術指導,也為有機溶劑水分含量檢測提供新的檢測思路。