薛曉康 李曉宇 丁 卯
(1 上?;瘜W(xué)品公共安全工程技術(shù)研究中心,上海 200062;2上?;ぱ芯吭河邢薰緳z測中心,上海 200062)
拉曼光譜可以被看作是一項“指紋”技術(shù),因為它可以提供非常豐富的結(jié)構(gòu)信息[1],因此拉曼光譜可以被用作物質(zhì)的定性識別[2]。拉曼光譜具有制樣簡單,不破壞樣品,在幾乎所有的環(huán)境下都可以采集[3]。由于拉曼光譜具有上述的優(yōu)點,故在化學(xué)品成分分析中被廣泛應(yīng)用,尤其是在爆炸事故現(xiàn)場,拉曼可以快速地對現(xiàn)場化學(xué)品進(jìn)行分析。但是現(xiàn)有拉曼技術(shù)僅對純物質(zhì)有較高識別度,然而爆炸事故現(xiàn)場往往混亂不堪,能采集到的樣品為純物質(zhì)的幾率極低,絕大部分為混合物。這時就需要通過計算機算法來對采集到的混合物用激光拉曼光譜法進(jìn)行分析并識別出其中的組分并進(jìn)行定量分析。大量的結(jié)構(gòu)信息隱藏在由成千上萬個數(shù)據(jù)點組成的拉曼光譜中。所以從拉曼光譜中確定混合物中組分的化學(xué)結(jié)構(gòu)將仍然是一個重要的挑戰(zhàn)。
各種化學(xué)計量學(xué)、統(tǒng)計和數(shù)據(jù)處理方法已被開發(fā)用于處理和提取的光譜組成和復(fù)雜系統(tǒng)結(jié)構(gòu)的基本信息,包括拉曼光譜數(shù)據(jù)庫物質(zhì)識別的建立、譜庫檢索方法、光譜標(biāo)準(zhǔn)化、熒光背景校正和混合物比例計算。
在不借助數(shù)據(jù)庫技術(shù)和相關(guān)算法的情況下,解析譜圖是一項耗時的任務(wù)。對于拉曼系統(tǒng),即使是便攜式拉曼系統(tǒng),也有適當(dāng)?shù)墓庾V分辨率來進(jìn)行鑒別。大多數(shù)應(yīng)用程序的核心是光譜數(shù)據(jù)庫。目前已經(jīng)建立了大量的光譜數(shù)據(jù)庫,用于快速無損的識別和檢測。Vandenabeele等人對21種偶氮顏料的拉曼光譜進(jìn)行了分析,建立了礦物識別的方法。此外,Burgio和Clark參考傅里葉變換光譜數(shù)據(jù)庫,分析了60種顏料,礦物和介質(zhì)組合。Castro等人已開發(fā)和實施材料數(shù)據(jù)庫分析不同類型的藝術(shù)品。除了在古代的顏料和礦物中的應(yīng)用外,拉曼數(shù)據(jù)庫也被廣泛地應(yīng)用于其它領(lǐng)域。拉曼光譜和光譜數(shù)據(jù)庫的特殊應(yīng)用已被應(yīng)用于解決各種生物醫(yī)學(xué)問題[4]。
隨著譜量的增加,需要開發(fā)有效的搜索方法來探索這些數(shù)據(jù)庫。常用的方法有相關(guān)性、歐氏距離、對原始光譜和一階導(dǎo)數(shù)光譜絕對值相關(guān)和最小二乘法。逆搜索具有相似性指標(biāo),其優(yōu)點是未知目標(biāo)譜可能是兩個或多個分量的混合物[5]。一個大的光譜庫增加了從許多化合物的類似光譜中提取真正化合物光譜的機會??焖俑道锶~變換[6-7]和小波變換[8-9]通常用于光譜壓縮和加快搜索速度[10]?;谛〔ㄗ儞Q的拉曼光譜比較適合于在參考光譜庫的幫助下識別未知拉曼光譜的后續(xù)峰-峰匹配。Rodriguez報道了一種利用命中質(zhì)量指數(shù)模型評估基于庫的拉曼光譜相關(guān)方法靈敏度的新方法[11]。一種新的相似度量稱為譜線性核查,其性能優(yōu)于標(biāo)準(zhǔn)方法,因為它能在譜搜索中捕捉到域的細(xì)微之處[12]。近年來,人們提出了一種基于命中質(zhì)量指數(shù)的群判定方法,避免了基于模型方法的過度擬合,提高了未知樣本的識別率[13]。
在實際環(huán)境中,樣品的光譜通常代表幾種成分的混合物。對于這種類型的問題,已經(jīng)開發(fā)了一些技術(shù)。Malinowski的目標(biāo)因子分析已應(yīng)用于混合物中可疑成分的定性和定量測定[14]。一種稱為交互式自建?;旌衔锏姆治龇椒ㄒ呀?jīng)發(fā)展到可提取有關(guān)的拉曼光譜和紅外光譜的混合物[15]純組分信息。Ryder等人使用近紅外拉曼光譜快速定量分析固體混合物中的可卡因。基于信息熵,提出了一種先進(jìn)的光譜重建算法,用于識別混合譜中的單個化合物[16]。
從上述討論中可以清楚地看出,數(shù)據(jù)庫建設(shè)、逆搜索和比值計算是混合物分析的重要研究領(lǐng)域,對于解決混合物分析問題具有重要意義[17]。在目前的工作中,提出了一種基于數(shù)據(jù)庫技術(shù)、逆搜索方法和多變量混合物分析技術(shù)的拉曼光譜解決方案[18]。該研究方法使得人們有可能從混合物拉曼光譜中提取到有用信息并得出混合物的組成及其化學(xué)結(jié)構(gòu)的結(jié)論。
通過B&W Tek i-Raman(i-Raman-785S)光譜儀,配拉曼光纖探頭,測定液體和粉末樣品。激發(fā)源是一個具有用于激光穩(wěn)定的CleanLaze技術(shù)的785 nm激光,激光最大激發(fā)功率315 mW,激發(fā)波長785 nm。拉曼光譜可以通過一個2 048像素由TE冷卻的線性CCD陣列來采集。光譜分辨率為5 cm-1,光譜范圍為175~3 200 cm-1拉曼位移。i-Raman系統(tǒng)的關(guān)鍵特征是深度TE冷卻,這可以使最大有效整合為4 min。這是一個對于低濃度和弱拉曼散射的化合物理想的光譜儀,并且光譜數(shù)據(jù)庫通過它會有很大的光譜質(zhì)量產(chǎn)生。數(shù)據(jù)采集軟件:BWspec3.27;4 mL石英比色皿。
化學(xué)試劑和樣品1-苯基-3-甲基-5-吡唑啉酮(CAS 89-25-8)均為分析純。
固體樣品:利用數(shù)據(jù)采集軟件BWspec3.27,設(shè)置積分時間36 000 ms,采集3次取平均值,激光功率90%,采集樣品1-苯基-3-甲基-5-吡唑啉酮(CAS 89-25-8)原始拉曼光譜數(shù)據(jù)。
液體樣品:利用數(shù)據(jù)采集軟件BWspec3.27,設(shè)置積分時間30 000 ms,采集3次取平均值,激光功率90%,采集液體樣品拉曼光譜數(shù)據(jù)。
基于逆檢索-非負(fù)最小二乘法的激光拉曼混合物分析方法,包括以下步驟[17],其研究方法架構(gòu)和流程圖見圖1。

圖1 RSearch-NNLS研究方法架構(gòu)和流程圖Figure 1 Architecture and flow chart of RSearch-NNLS method.
1)通過Whittaker平滑[19]、自適應(yīng)迭代重加權(quán)懲罰最小二乘法的正基線校正(Adaptive iteratively reweighted penalized least squares,ariPLS)[20]以及連續(xù)小波變換(Continuous wavelet transform,CWT)[21]建立純物質(zhì)的拉曼光譜庫。
2)通過逆檢索法對采集到的混合物拉曼光譜進(jìn)行定性分析。
3)根據(jù)第2步的結(jié)果,使用非負(fù)最小二乘法對候選化合物進(jìn)行比例估算。
如圖1所示,步驟1)中所述的建立純物質(zhì)拉曼光譜庫的具體操作如下:
用拉曼光譜儀器錄入純物質(zhì)的拉曼光譜;對錄入的光譜進(jìn)行Whittaker平滑以及airPLS基線校正(無先后順序);對進(jìn)行完平滑、基線校正的譜圖使用連續(xù)小波變換進(jìn)行峰檢測;記錄并儲存此純物質(zhì)主要峰的拉曼位移;處理多種純物質(zhì)主峰的拉曼位移后,純物質(zhì)拉曼光譜數(shù)據(jù)庫建立完成。
如圖2所示樣品原始拉曼光譜通過懲罰最小二乘法平滑和airPLS基線校正(圖3),熒光背景能夠大大地降低,同時隨機噪聲有效地減少。整體基線可以通過airPLS靈活擬合,峰可通過小波方法準(zhǔn)確地檢測。

圖2 原始拉曼光譜圖Figure 2 The raw raman spectrum of sample.

圖3 既通過懲罰最小二乘法平滑又通過airPLS校正的光譜圖Figure 3 The raman spectrum corrected by airPLS and smoothed by penalized least squares.
通過逆檢索法對采集到的混合物拉曼光譜進(jìn)行定性分析。定性分析中所述步驟如下:
用儀器錄入混合物拉曼光譜圖;對錄入的光譜進(jìn)行Whittaker平滑以及airPLS基線校正(無先后順序);對進(jìn)行完平滑和基線校正的譜圖使用連續(xù)小波變換進(jìn)行峰檢測;對進(jìn)行完峰檢測的圖譜進(jìn)行標(biāo)準(zhǔn)化處理;使用逆檢索法對進(jìn)行完標(biāo)準(zhǔn)化處理的光譜進(jìn)行混合物定性分析。
上述步驟中的標(biāo)準(zhǔn)化處理具體為:
1)位移標(biāo)定
(1)用B&W Tek i-Raman拉曼設(shè)備錄入拉曼位移覆蓋區(qū)間廣的拉曼位移標(biāo)準(zhǔn)樣品(對乙酰氨基酚、苯甲腈、環(huán)己烷以及聚苯乙烯)的拉曼光譜,并用連續(xù)小波變換法對這四種物質(zhì)進(jìn)行標(biāo)峰并儲存在數(shù)據(jù)庫中。
(2)當(dāng)用其它儀器錄入樣品時,需要先錄入(1)中所述四種標(biāo)準(zhǔn)樣品并用連續(xù)小波變換進(jìn)行標(biāo)峰。
(3)使用一個三級多項式來標(biāo)定(2)中的儀器所錄入的拉曼光譜。這個三級多項式為λdb,i-λh,i=β3λ3h,i+β2λ2h,i+β1λh,i+β0,其中,λdb,i和λh,i分別對應(yīng)(1)中的拉曼光譜儀與(2)中的拉曼光譜儀錄入的標(biāo)準(zhǔn)樣品中的第i個峰。β3、β2、β1、β0是用來在x軸上標(biāo)定拉曼位移的多項式參數(shù)。
(4)一旦不同儀器所錄入的光譜與數(shù)據(jù)庫中光譜的關(guān)系被確定,使用這臺儀器錄入的新光譜就可以很容易標(biāo)定。
2)反應(yīng)強度標(biāo)定
錄入光學(xué)玻璃標(biāo)準(zhǔn)參考物質(zhì)(對于785 nm的激光源可以使用NIST SRM-2241)的光譜,此標(biāo)準(zhǔn)參考物質(zhì)的光譜可以用一個五級多項式表示,使用此五級多項式來校準(zhǔn)不同儀器拉曼光譜的反應(yīng)強度。
上述步驟中,逆檢索法具體為:
(1)使用Whittaker 和airPLS 對數(shù)據(jù)庫中的光譜和目標(biāo)光譜進(jìn)行平滑和基線校正。 對目標(biāo)光譜的噪音進(jìn)行估計并將其絕對值儲存在向量中,記為σ。
(2)使用光譜的最大值對其進(jìn)行歸一化處理(光譜中最大強度的峰為1)。數(shù)據(jù)庫中的光譜以及目標(biāo)光譜的主要峰都可以用連續(xù)小波變換法檢測出(CWT)。核查數(shù)據(jù)庫中每一個光譜的主峰是否在目標(biāo)光譜中存在。
(3)如果數(shù)據(jù)庫中光譜d(向量長度為n)中所有的主峰都在目標(biāo)光譜q的主峰中存在,那么需要計算所匹配這些峰的最小強度比r。使用此強度比r對數(shù)據(jù)庫中匹配的那個光譜進(jìn)行縮放。對于那個匹配的目標(biāo)光譜,匹配質(zhì)量可以通過公式 MQ=count[sign+(abs(q-dr)-3)]/n計算。對于一個沒有主峰匹配的光譜,匹配質(zhì)量為零。
(4)使用非負(fù)最小二乘法找出匹配質(zhì)量大于0.8的光譜進(jìn)行篩選。
從圖4-圖9可以看出數(shù)據(jù)庫譜(乙醇、丙酮、乙腈拉曼光譜)和樣品光譜(乙醇、丙酮和乙腈混合物的拉曼光譜)之間匹配峰的細(xì)節(jié)??梢杂^察到對于拉曼光譜的峰值檢測,基于峰匹配的CWT是有效和穩(wěn)定的。數(shù)據(jù)庫光譜的峰可以被檢測和存儲在數(shù)據(jù)庫中以用來進(jìn)行逆檢索。對于一個數(shù)據(jù)庫的檢索CWT峰值檢測只需要應(yīng)用于其查詢光譜,并且逆檢索的速度是相當(dāng)快的。

圖4 研究號1717040007樣品拉曼光譜圖(乙醇∶丙酮=1∶1)Figure 4 The raman spectrum of sample 1717040007(ethanol∶acetone=1∶1).

圖5 研究號1717040010樣品拉曼光譜圖(乙醇∶丙酮=3∶7)Figure 5 The raman spectrum of sample 1717040010 (ethanol∶acetone=3∶7).

圖6 研究號1717060041樣品拉曼光譜圖(乙醇∶丙酮=7∶3)Figure 6 The raman spectrum of sample 1717060041 (ethanol∶acetone=7∶3).

圖7 研究號1717040015樣品拉曼光譜圖(乙醇∶丙酮∶乙腈=7∶2∶1)Figure 7 The raman spectrum of sample 1717040015 (ethanol∶acetone∶acetontrile=7∶2∶1).

圖8 研究號1717040016樣品拉曼光譜圖(乙醇∶丙酮∶乙腈=5∶3∶2)Figure 8 The raman spectrum of sample 1717040016 (ethanol∶acetone∶acetontrile=5∶3∶2).

圖9 研究號1717040017樣品拉曼光譜圖(乙醇∶丙酮∶乙腈=4∶3∶3)Figure 9 The raman spectrum of sample 1717040017 (ethanol∶acetone∶acetontrile=4∶3∶3).
進(jìn)行定量分析使用的算法是基于非負(fù)最小二乘法的混合物組分比例估算。其原理的數(shù)學(xué)表達(dá)式為[19]:
min‖y-Xb‖wherebi≥0
其中,y是混合物的光譜。X是一個矩陣,它的每一列是一個候選化合物的光譜。b是候選化合物比例的向量。通過用非負(fù)最小二乘法計算出的比率,不正確的那些純組分光譜可以被忽略。忽略時需要設(shè)定一個用來消除在向量b中是零或低正值化合物的閾值。
乙醇、丙酮和乙腈混合物可被RSearch-NNLS成功估算出大致比例,具體見表1和表2。雖然估算值與理論值有一定的偏差,但通過逆檢索和非負(fù)最小二乘法的幫助,RSearch-NNLS方法可以快速的識別混合物中的組成及其比例,其在混合物分析方面具有一定的應(yīng)用前景。

表1 通過RSearch-NNLS方法研究乙醇、丙酮混合物表

表2 通過RSearch-NNLS方法研究乙醇、丙酮和乙腈混合物表
通過逆檢索和非負(fù)最小二乘法的幫助,RSearch-NNLS方法可以輕松和準(zhǔn)確地識別混合物中的組成及其比例。通過連續(xù)小波變換可以準(zhǔn)確識別與分析一個拉曼光譜峰主要的譜峰。通過對混合物光譜峰化合物的逆匹配識別,逆檢索程序在確定混合物中化合物的組分是有優(yōu)勢的。識別結(jié)果可以用非負(fù)最小二乘法進(jìn)一步細(xì)化,也可以估算出各化合物的比值。
RSearch-NNLS估算出乙醇、丙酮和乙腈不同體積混合物的大致比例。所以對于一些應(yīng)用中拉曼光譜的混合物分析問題,RSearch-NNLS方法利用混合物的拉曼光譜的有用信息,得到混合物的化學(xué)結(jié)構(gòu)和組成。RSearch-NNLS的框架也可用于其它高分辨率的分析信號的混合物分析。