賈二惠 郝鳳龍 李 彬 張慶勝 張 濤
(1.北京中盾安民分析技術有限公司,北京 102200;2 .公安部第一研究所,北京 102200)
拉曼光譜分析技術基于印度科學家C.V.拉曼(Raman)所發現的拉曼散射效應,從分子水平實現被測物質化學成分的判定。隨著激光器、微型光譜儀、高光密度濾波片等現代科學技術的進步,拉曼光譜儀器成本降低、更加便攜易用,尤其具有無需制樣、無損檢測、能快速準確給出被測物質化學成分的信息等優點,非常適用于毒品、易制毒化學品、爆炸危險化學品、新精神活性物質等危險品違禁品的現場快速鑒定[1-6]。
鑒于當前安全檢查、禁毒、刑偵、消防、治安、海關稽私及反恐等迫切需求,世界各國紛紛出臺法規,提高對機場、火車站、地鐵站、海關等公共交通樞紐和重大公共場所的安全檢查標準。針對當前國內反恐態勢嚴峻,公共安全領域安全檢查要求日益增強,行政執法部門對用于拉曼光譜檢測技術的需求越來越高。尤其近年來,在海洛因、大麻等第一代傳統毒品和以冰毒、搖頭丸等第二代傳統合成毒品仍舊泛濫的情況下,第三代毒品即新精神活性物質已凸顯且日益活躍,這種新型毒品偽裝性極強,常常以“郵票”、‘浴鹽’、“奶茶”、“開心水”、“跳跳糖”、“阿拉伯茶”、“蘑菇”等多樣形式隱藏在生活中,對社會及青少年等造成重大的傷害。為此,在現有拉曼分析儀器技術基礎上發展高性能的譜圖數據處理方法,將充分提高儀器對目標物的快速檢測識別能力[7-15]。
針對新精神活性物質拉曼譜圖原始信號其普遍存在的強熒光背景以及不同程度的重疊簇峰等問題,由于熒光背景的干擾峰起點峰終點往往均處于同一上升或下降爬坡狀態、甚至有的峰頂點與其均處于同一上升或下降爬坡狀態,如何有效解析提取峰起點峰終點之間的峰谷基線點是本文要解決的主題。本文緊密結合分析儀器研制與信號系統數據處理實際工程背景,在大量觀察新精神活性物質拉曼譜圖數據特征的基礎上,通過歸納、邏輯分層與統計分析,巧妙借助幾何輔助線、切線斜滑及多層搜索判斷等技巧,設計了一種基于機器學習的譜圖基線校正方法。相比傳統的極小值峰谷點切線斜滑及其它較復雜校正方式[14-20],本算法的設計思想更加直接快捷,經驗證該方法在仿真及實際應用中快速準確、實用有效。
鑒于新精神活性物質樣品材料的本征性質,其在激光輻照下所發出的強熒光背景是無法避免的結果,通常情況下這些熒光遠比物質本身拉曼特征峰的真實信號更強,同時其譜峰較為豐富并呈現不同程度的重疊簇峰現象,請參見典型示例圖1。

圖1 6-氯-3,4-亞甲二氧基甲基苯丙胺拉曼譜圖信號
對于一張化學譜圖而言,通常情況下可通過峰識別并適當連接峰谷點建立基線[16,17]。而對于一張新精神活性物質拉曼譜圖而言,其譜峰以獨立譜峰的形式出現相對較少,多以重疊譜峰的形式呈現,且因熒光背景的干擾其峰起點峰終點往往混疊在一起,甚至有的峰頂點始終處于上升或下降爬坡過程中,譜峰似波浪此起彼伏錯綜交叉,峰谷點、真實基線點均被混雜淹沒。請參見典型示例圖2。

圖2 N-(2-甲氧基芐基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼譜圖信號
由此可見,其特有的強熒光背景將尤其影響待測物質拉曼譜圖信號的后續定量分析與最終的物質識別,基線校正是新精神活性物質拉曼譜圖數據處理的關鍵環節[7-10]。無疑,小波方法、分段多項式擬合及其改進的基線校正技術在一定場合下不失有效性發揮了重要作用[7-14]。但試想假如不要求速度,人工判讀提取真實基線點更加直觀簡捷有效。為此,面對連續出現、或斷斷續續出現的此起彼伏的若干簇拉曼特征峰,將這一人工判讀決策過程智能化、有效分離各種不同程度的重疊簇峰、自動提取真實基線點是我們要實現的目標。本文在大量觀察新精神活性物質拉曼譜圖數據特征的基礎上,巧妙借助幾何輔助線與切線斜滑技巧,先后通過“快速峰識別”、對峰谷點特征分類并建立分層假設空間、分層搜索及峰閾值判斷等主要技術環節,從而準確獲取基線點并最終實現基線校正。主要計算步驟如下:
步驟一:通過拉曼信號一階微分值符號變化進行快速峰識別,提取并記錄極小值 “峰谷點”、極大值“峰頂點”與峰高,如例圖3 所示。

圖3 步驟一例圖(峰識別)
再默認端點或適當確定第一個峰谷點與最后一個峰谷點,并記錄全部峰谷點、峰頂點信息。
步驟二:通過計算峰頂點原始信號最大值,提取基線單調變化轉折點并記錄該點信息TurnPoint;如例圖4所示。

圖4 步驟二例圖(峰識別)
步驟三:對基線單調變化轉折局部區域分別提取左、右基線點:
(1)以步驟二所得的原始信號最大值對應的基線單調變化轉折點為起點向左追溯,主要排除其相鄰的左肩峰及明顯重疊峰非基線峰谷點,直至提取基線峰谷點并記錄該點信息MidLeftBasep;
(2)以步驟二所得的原始信號最大值對應的基線單調變化轉折點為起點向右追溯,主要排除其相鄰的右肩峰及明顯重疊峰非基線峰谷點,直至提取峰谷基線點并記錄該點信息MidRighttBasep。
步驟四:借助幾何輔助線與切線斜滑技巧,對步驟三(1)所提取的基線單調變化轉折局部區域的左基線點的左側信號段采取從左到右的順序進行多層搜索判斷并解析提取基線點:
(1)左側信號段基線點個數開始計數,令NumLeftBaselp=0;
(2)將左側第一個信號點默認為第一個基線點,令NumLeftBaselp=NumLeftBaselp+1,記錄該基線點X1信息(位置波數、信號強度);
(3)將第一個基線點與第一個峰頂點直線連接作輔助線,通過輔助線是、否穿透信號判斷、計算當前基線點與各穿透信號點之間直線斜率、最小斜率切線斜滑法提取第二個基線點,如果第二個基線點與第一個峰頂點之間的位置距離超過峰寬閾值,令NumLeftBaselp= NumLeftBaselp+1,采用相同方法繼續獲取第三個基線點,令NumLeftBaselp= NumLeftBaselp+1,記錄基線點信息X2、X2與X3;
本步也可根據實際信號處理經驗采用其它方法確定1到3個初始基線點;
(4)令j=1,以當前基線點XNumLeftBaselp為起點與其右側峰谷點ValleyPointj(j=2,3,……, NumLeftValleyp)依次連接輔助線AuxiLine、并作如下判斷:
a如果該輔助線穿透原始拉曼信號
a1如果峰谷點ValleyPointj-1與峰頂點PeakPointj之間的位置距離與信號強度差超過峰閾值,則判斷可能出現兩個基線點:
首先,計算當前基線點PeakPointj與輔助線之下各拉曼信號點連線(直線連接)的斜率,通過最小斜率切線斜滑法搜索提取新的基線點,令NumLeftBaselp= NumLeftBaselp+1,記錄基線點信息XNumLeftBaselp;
繼續,如果該基線點XNumLeftBaselp與峰頂點PeakPointj之間的位置距離超過峰寬閾值,則判斷出現第二個新的基線點,根據峰寬閾值確定基線點XNumLeftBaselp右側、峰頂點PeakPointj左側之間的新的基線點,令NumLeftBaselp= NumLeftBaselp+1,記錄基線點信息XNumLeftBaselp;
a2否則(即a1不成立),計算當前基線點PeakPointj與輔助線之下各拉曼信號點連線(直線連接)的斜率,通過最小斜率切線斜滑法搜索提取新的基線點,令NumLeftBaselp= NumLeftBaselp+1,記錄基線點信息XNumLeftBaselp;
b否則(即a不成立),對峰谷點ValleyPointj其右側峰信息PeakNewsj+1做進一步判斷,如果峰谷點ValleyPointj與峰頂點PeakNewsj+1之間的位置距離與信號強度差超過峰閾值,則判斷可能出現兩個基線點:按照a1計算確定新的基線點,令NumLeftBaselp= NumLeftBaselp+1或 NumLeftBaselp= NumLeftBaselp+2,記錄相應的基線點信息 XNumLeftBaselp;
c否則(即a、b均不成立),對ValleyPointj-1與ValleyPointj之間的峰信息PeakNewsj-1進行判斷,如果滿足平穩基線隨機噪聲信號閾值條件,則ValleyPointj-1為新的基線點,令NumLeftBaselp= NumLeftBaselp+1,記錄基線點信息XNumLeftBaselp;
d否則(即a、b、c均不成立),令j=j+1,將當前基線點XNumLeftBaselp與該峰谷點ValleyPointj直線連接作輔助線AuxiLine,繼續循環判斷本段的a~d,直至本信號段數據處理結束;
步驟五:對步驟三所提取的基線單調變化轉折局部區域右基線點的右側信號段搜索提取基線點:不同于正向數據處理,而是以該信號段終點為起點向左進行回溯,其余全部參考步驟四;
步驟六:對步驟三~步驟五所提取的全部基線點按照從左到右的順序排序;對相鄰基線點直線連接得到基線BaseLine;再對原始信號進行基線扣除即可。
綜上所述,僅對體現算法思想和流程的主要計算步驟進行了闡述,在實際應用中應緊密結合分析儀器研制與信號系統數據處理實際工程背景,因此在編程實現該算法時還需更加細膩完善的數據處理,比如①在程序中需對極端信號情況(如“快速峰識別”極大值峰頂點個數特少甚至僅有1個峰頂點)做特別數據處理;②在步驟一快速峰識別過程中應對可能出現的奇異信號進行排除或特別處理;③兩端初始基線點的確定與優化;④步驟四第4)步的a1及b出現兩個基線點時可對這兩個基線點從兩端向中間方向做進一步的微調等。
筆者采用Matlab編程實現了本研究所提出的基線校正算法,并分別對所采集的6-氯-3,4-亞甲二氧基甲基苯丙胺、3,4-亞甲二氧基丙卡西酮、N-(2-甲氧基芐基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼譜圖原始信號進行了系列數據處理,基線校正仿真結果如圖5~圖7所示。

圖5 6-氯-3,4-亞甲二氧基甲基苯丙胺拉曼譜圖信號基線校正示例圖

圖6 3,4-亞甲二氧基丙卡西酮拉曼譜圖信號基線校正示例圖

圖7 N-(2-甲氧基芐基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼譜圖信號基線校正示例圖
通過以上及多組仿真實驗與結果分析可得:采用本研究設計的算法對新精神活性物質拉曼譜圖信號進行基線校正,可解析分離各種不同程度的重疊簇峰,取得了良好的基線校正效果;相比傳統的以及其它方法,該方法更加直接快捷,具有較強的抗干擾性;該方法亦可拓展到其它譜圖信號數據處理中,尤其對其后續的定量分析及物質識別鑒定至關重要。
本研究緊密結合分析儀器信號系統數據處理實際工程背景,在大量觀察新精神活性物質拉曼譜圖數據特征的基礎上,提供了一種基于機器學習的基線校正方法。該方法巧妙借助幾何輔助線與切線斜滑技巧,先后通過“快速峰識別”、對峰谷點特征分類并建立分層假設空間、分層搜索及峰閾值判斷等主要技術環節,從而獲取有效基線點并最終實現基線校正。經理論分析和眾多實際信號處理仿真驗證,該算法可解析分離各種不同程度的重疊簇峰,是一種快速準確、抗干擾性較強的有效算法。