葉 倩,洪歡歡,,周 峰,郭 榮,,李剛強,,聞路紅,,陳 臘,*
(1.寧波大學 高等技術研究院,浙江 寧波 315211;2.寧波華儀寧創智能科技有限公司,浙江 寧波 315100)
直接電離質譜技術[1-2]可在敞開式環境下實現原位、快速實時離子化,且無需或只需極少的樣品前處理,廣泛應用于化妝品[3]、毒品[4]、爆炸物[5]等領域。介質阻擋放電離子源-質譜(DBDI-MS)是最常見的直接電離質譜分析方法之一,具有結構簡單、成本低廉、操作簡便等優點,可實現對氣、液、固態樣品的直接分析[6-7]。然而,直接電離質譜常因工作環境和樣品基質差異大,質譜信號易受干擾,同時質譜信號中噪聲峰、同位素峰等的存在會降低目標物質鑒定的準確性[8],從而給質譜數據處理和分析帶來巨大挑戰。常見質譜檢測數據分析方法主要包括提取離子流(Extracted Ion Current,EIC)計算信噪比[9]、高斯混合模型(Gaussian Mixture Model,GMM)[10]和機器學習(Machine Learning,ML)[11]等。如Garcia-Reyes等[5]通過計算爆炸物與背景信號強度的信噪比來判斷是否檢出,但該方法需預設定信噪比閾值;Gao等[10]引入GMM方法計算未知譜峰到噪聲基線的距離,通過距離的遠近實現對有用信號和噪聲信號的分類。Gradisek等[12]研究發現,利用ML可提高電子鼻對爆炸物的化學選擇性,從而提高分類準確性;Morton等[13]采用神經網絡方法分析微生物-代謝物對的共存情況,可處理多個數量級較大范圍強度的數據,具有廣泛的適用性。由于傳統的EIC和GMM僅利用峰強信息,忽略了峰位置、半峰寬等重要峰形特征,而ML可充分挖掘質譜信號中相關參數作為特征指標,因此可提高檢測的準確性。
本研究基于DBDI-MS技術,結合質譜信號預處理和不同分類方法,以離子化效率與爆炸物相近的乙酰水楊酸為模擬物建立檢測模型,并將其應用于低濃度的三硝基甲苯(TNT)和硝酸銨兩種爆炸物的檢測。
LTQ質譜儀(美國Thermo公司),配Xcalibur數據處理系統;DBDI-100離子源(寧波華儀寧創智能科技有限公司);SQP分析天平(德國賽多利斯公司)。
三硝基甲苯(TNT,純度大于99%,上海百靈威化學技術有限公司);硝酸銨(純度大于99%,北京普天同創生物科技有限公司);乙酰水楊酸(純度大于99%,上海阿拉丁生化科技股份有限公司);甲醇(色譜純,寧波市江東昌遠儀器儀表有限公司)。
TNT、硝酸銨和乙酰水楊酸分別用甲醇溶解,配制所需濃度的標準溶液。
基于DBDI-MS的爆炸物樣品檢測平臺見圖1,其離子源出口距質譜儀進樣口2.0 cm,將樣品溶液滴加至樣品載臺上,上表面距質譜儀進樣口下方0.5 cm,以45°反射進樣方式進行樣品分析。DBDI采用單電極,當向電極施加高壓時,離子化氣體電離形成穩定的等離子體,并通過絕緣介質管噴射出來[14]。LTQ質譜儀采用Full scan和MS/MS模式,每個樣品采樣時間約6 s,負離子檢測模式,離子掃描范圍m/z60~580 amu;噴霧電壓為-4 kV;離子化氣體為氦氣,流速3 L/min;離子源溫度200 ℃,離子傳輸線溫度275 ℃,毛細管電壓-21 V,管透鏡電壓-57 V。

圖1 基于介質阻擋放電離子源-質譜的爆炸物樣品檢測平臺示意圖Fig.1 Schematic of the explosive sample detection platform with DBDI-MS
1.3.1 數據預處理采用NumPy、SciPy等進行質譜數據處理。Scikit-learn是Python中廣泛應用的機器學習庫,它包含大量ML算法以及從數據預處理到模型訓練、模型測試等多個工具函數[15]。研究中采用的數據預處理主要有Boxcar濾波、插值平滑和峰形校準。
1.3.2 分類方法(1)提取離子流(EIC)指一定質荷比范圍內的峰強之和。鑒于LTQ-MS的分辨率,本研究在目標峰對應的質荷比左右各0.5 amu內,通過計算爆炸物和空白對照樣本的EIC強度,計算各自的統計分布,并設定閾值進行分類。通常正態分布遵循如下高斯函數:
(1)
式(1)中,μ、σ分別表示EIC強度的均值和標準差。
(2)高斯混合模型(GMM)[10]指多個高斯函數的線性組合,利用期望極大化(Expectation maximization,EM)算法對參數進行估計。本研究分別提取爆炸物和空白對照樣本的峰強,以其均值和標準差為初始值,通過EM多次迭代得到收斂后的均值和標準差作為樣本中心,然后計算未知譜峰到樣本中心的歐式距離并對其分類。如乙酰水楊酸的質荷比-峰強的二維質譜圖見圖2A。對多張質譜圖中目標離子m/z179對應的峰強進行統計分析,發現同一濃度的乙酰水楊酸樣品其峰強分布范圍較廣,可達5個數量級,且伽馬函數相比高斯函數具有更好的擬合效果(圖2B),然而,擬合參數的選取對伽馬函數的擬合結果影響很大[16]。若對峰強取對數后(圖2C),相應幾率與高斯函數高度吻合,通常這種分布又稱為對數正態分布。因此除特殊說明外,本研究均先對峰強取對數后,再進行分析。

圖2 乙酰水楊酸質譜圖(A)、m/z 179的質譜峰強統計分布與擬合(B)及其取對數后的統計直方圖(C)Fig.2 Mass spectrum of acetylsalicylic acid(A),histogram and fitting results(B) and the histogram of log-scaled peak intensity(C) of acetylsalicylic acid at m/z 179 B:the blue bars present the histogram of peak intensity,the green and red lines show the fitting results according to Gamma and Gaussian distribution,respectively(藍色為峰強統計直方圖,綠線為伽馬分布擬合,紅線為高斯分布擬合);C:the blue bars present the histogram of log-scaled peak intensity,the red line shows the fitting result according to Gaussian distribution(藍色為m/z 179質譜峰強取對數后的統計直方圖,紅色曲線為高斯分布擬合)
(3)機器學習(ML)。本研究基于ML的分類方法對爆炸物分類。原始質譜數據經預處理后,獲得特征矢量(峰強、峰位置和半峰寬),并對其進行主成分分析(PCA),計算各特征矢量占原始數據總信息量的比例。然后,將數據集劃分為訓練集(80%)和測試集(20%)進行模型訓練和模型測試。
1.3.3 性能評估爆炸物樣本設為陽性,空白對照樣本設為陰性。查準率(Precision)、查全率(Recall)分別反映假陽性(FP)、假陰性(FN)情況。本研究以Precision和Recall的調和平均F_score[17]作為綜合性能指標,只有當兩者均很高時,F_score才很大,即分類器效果好。F_score與Precision、Recall間的定量關系如下:
(2)
本研究采用的數據集為檢出限附近濃度為1 ng/mL的乙酰水楊酸樣本(115個)、兩種爆炸物樣本(TNT、硝酸銨分別為110、90個)和空白對照樣本(366個),每個樣本內含10 ~12幅目標物質譜圖。
由于乙酰水楊酸的母離子[M-H]-(m/z179)易碎裂成m/z137(圖2A),故對其雙目標m/z137、179進行質譜檢測分析。
2.1.1 基于提取離子流與高斯混合模型方法的乙酰水楊酸檢測結果數據分析顯示,乙酰水楊酸在離子峰m/z137和179處峰強分布特點及一級質譜檢測結果均類似,且在離子峰m/z137處的檢測準確率更高,因此,本研究重點介紹在m/z137處的檢測結果。采用EIC和GMM對乙酰水楊酸在136.5~137.5 amu質量范圍內的檢測結果見圖3。結果顯示:乙酰水楊酸與空白對照樣本EIC強度分布之間存在一定的交叉(圖3A中紫色部分),這可能導致設定單一閾值的檢測效果不佳,從而出現一定的假陽性率(FPR)和假陰性率(FNR)。FPR、FNR分別表示將陰性錯分為陽性的樣本占所有陰性樣本的比率以及將陽性錯分為陰性的樣本量占所有陽性樣本的比率,它們與閾值的關系如圖3B所示,可看出分類結果比較依賴所設定的閾值。

圖3 乙酰水楊酸一級質譜檢測結果(A)、EIC假陽性率和假陰性率與閾值的關系(B)以及基于GMM的分類結果(C)Fig.3 Detection results of acetylsalicylic acid(A),the relationship between FPR,FNR and the threshold of EIC(B) and classification results based on GMM(C)A:the histograms and the curves represent the intensity distribution of EIC and its probability density curves,respectively;the purple is the cross part;the standard deviations of the signal peak and the background peak after the GMM iteration are indicated by the length of the respective green line,and the means are indicated by the center position of the respective black line(直方圖表示EIC強度分布,曲線表示擬合的概率密度函數,紫色為交叉部分;GMM迭代后信號峰與噪聲峰的標準差通過各自的綠線長度表示,均值通過各自的黑線中心位置表示)
采用GMM分類的結果見圖3C,圖中橫軸f為距離函數,分類結果的準確性與所選閾值緊密相關。分析表明,當圖3B中閾值設定為4.2和圖3C中f為0.58時,分別對應EIC和GMM各自的最優檢測結果,此時,計算得F_score分別為0.74和0.89。由此可見,GMM相比EIC具有更高的檢測準確性,但其檢測結果均過于依賴設定的閾值,在閾值附近的質譜信號很難被正確分類,易造成假陽性、假陰性結果。
2.1.2 基于機器學習的乙酰水楊酸檢測結果由于EIC和GMM僅利用離子信號強度的信息,而忽略了峰位置、半峰寬等重要信息。因此,本研究基于質譜信號的相關特征,結合ML對不同樣品進行分類,以提高檢測準確性。對乙酰水楊酸的PCA分析結果表明,峰強占82.4%,為最重要特征,峰位置、半峰寬分別占13.8%、3.2%,因此選擇此3個參數作為特征進行模型訓練和測試。利用ML對乙酰水楊酸的檢測結果如表1所示。由“2.1.1”的分析結果與表中數據可見,由于ML除了考慮峰強這個單一特征外,還引入半峰寬和峰位置特征,有效降低了空白樣品中背景離子EIC強度過高引起的FPR,故基于ML的檢測準確率整體較高。綜合考慮表1中各ML的訓練時間、測試時間及檢測準確性等因素,重點介紹采用隨機森林(Random Forest,RF)分類方法對乙酰水楊酸數據的研究。RF是利用多棵樹對樣本進行訓練、測試的一種集成算法。在進行分類預測時,RF分別使用模型訓練時得到的多組分類器進行預測,最終選擇分類器投票結果中最多的類別作為分類結果[18],具有防止過擬合、檢測結果準確可靠、適應性強等優勢。結果顯示,與EIC和GMM相比,基于RF的檢測準確率顯著提高,且單個樣本數據分析時間均不超過0.1 s,可達到快速檢測乙酰水楊酸的目的。

表1 基于機器學習的檢測結果Table 1 Detection results based on machine learning
2.2.1 基于隨機森林分類方法的TNT一級、二級質譜檢測結果TNT的DBDI-MS一級負離子質譜(m/z226)以及經碰撞誘導解離后的二級質譜分別見圖4A和B。在所有碎片離子中,[TNT-NO-H]-(m/z196)的豐度最高,可見TNT最易丟失NO基團。根據乙酰水楊酸各ML的研究結果,此處同樣采用RF對TNT一級、二級質譜檢測。結果表明,TNT一級、二級質譜的F_score分別為0.76和0.93,且平均單個樣本數據分析時間均不超過0.1 s。相比于一級質譜,MS/MS在FPR較低的情況下,仍具有很高的真陽性率,檢測準確率顯著提高,這是因為m/z196經MS/MS獲得,大幅降低了背景干擾,類似于利用高分辨質譜可減少質荷比相同的背景離子對檢測的影響[19]。分析表明,與其它ML相比,RF為最佳選擇,這與表1中乙酰水楊酸的研究結果類似。

圖4 TNT的質譜圖Fig.4 Mass spectra of TNTA:full scan MS;B:MS/MS
2.2.2 基于提取離子流與高斯混合模型方法的TNT一級、二級質譜檢測結果實驗結果表明,對于TNT一級質譜,質量范圍在225.5~226.5 amu時,TNT與空白對照樣本的EIC強度分布之間的交叉較大(圖5A中紫色部分)。由EIC中FNR、FPR和閾值之間的關系(圖5B)可見,通過設定單一閾值的檢測效果不佳,FN、FP情況此消彼長,即出現少量FN時,FP情況也嚴重,這與“2.1.1”部分乙酰水楊酸研究結果類似。當FNR、FPR達到均衡狀態時,也達到40%以上,這是由于溶劑或空氣中背景離子m/z226的干擾,使空白樣品中EIC強度過高,從而出現FP。另外,采用GMM分類的結果準確性也與所選取的閾值緊密相關(圖5C)。研究顯示,當圖5B中設定閾值為3.6和圖5C中f為0.56時,分別對應EIC和GMM各自的最優檢測結果,此時F_score分別為0.30、0.89,即GMM相比EIC具有更高的檢測準確性。可能由于空氣中塑化劑等的影響,TNT一級質譜雜質較多且噪聲嚴重,從而使質譜信號出現拖尾、重疊等不規則峰形,導致其檢測準確率偏低。
TNT MS/MS的EIC強度分布見圖5D,與一級質譜相比,MS/MS中TNT與空白對照樣本的交叉明顯減小(圖5D中紫色部分),分類效果也有所提高;當圖5E中設定閾值為1.28和圖5F中f為0.65時,分別對應EIC和GMM各自的最優檢測結果,此時F_score分別為0.85、0.75。EIC比GMM的檢測準確性略高,如同TNT一級質譜結果,設定的閾值對檢測結果影響均較大。因此,與傳統的EIC和GMM方法相比,RF同樣也能較好地對TNT進行分類。

圖5 TNT一級質譜(A、B、C)與二級質譜(D、E、F)檢測結果Fig.5 Detection results of full scan MS and MS/MS of TNTA and D:EIC intensity distributions(EIC強度分布);B and E:the relationship between FPR,FNR and the threshold of EIC method(EIC假陽性率和假陰性率與閾值的關系);C and F:classification results based on GMM(基于GMM的分類結果)
除TNT外,為進一步驗證RF在爆炸物檢測中的適用性,本研究還對另一種爆炸物硝酸銨進行了研究。采用EIC、GMM和ML分別對其雙目標離子[NO3]-(m/z62)和[(HNO3)NO3]-(m/z125)進行分類檢測。結果表明,當EIC中設定閾值為5.1和GMM中f為0.56時,分別對應EIC和GMM各自的最優檢測結果,此時,F_score分別為0.84、0.88。利用RF檢測時,F_score可達0.95,且單個樣本數據分析時間不超過0.1 s。因此,RF同樣也滿足對硝酸銨的快速檢測。
本研究基于DBDI-MS聯用技術,利用爆炸物模擬物乙酰水楊酸進行質譜數據預處理和分類算法研究,建立了一種適用于低濃度典型爆炸物TNT和硝酸銨的快速、準確檢測方法。結果顯示,無論是空白對照樣品還是同一濃度爆炸物樣品,信號強度皆呈對數正態分布,橫跨幾個數量級,這導致傳統的EIC和GMM對預設定的閾值較敏感。在典型爆炸物的分類檢測中,RF檢測準確率均最高,可滿足檢測需求,且相比傳統的EIC和GMM,具有無需設定閾值的優勢;同時,相對于質譜儀獲取單個樣品質譜數據需3~6 s,在所有RF檢測中,單個樣本數據分析時間皆不超過0.1 s,因此可滿足快速、實時檢測需求。此外,進一步研究發現,針對TNT檢測,MS/MS相比一級質譜可大幅度降低背景干擾,顯著提高了檢測準確率。綜上所述,直接電離質譜技術結合ML可滿足現場快速、實時、準確檢測爆炸物的需求,具有較好的應用前景。