(公安部第一研究所,北京 102200)
自1928年由印度科學家C.V. Raman發現拉曼光譜以來,尤其近幾十年基于拉曼散射效應所建立起來的分子結構表征技術融合激光技術獲得了蓬勃的發展,伴隨儀器技術與激光技術的發展,基本解決了多年存在的拉曼散射信號弱的問題。現代拉曼光譜分析技術因其無需制樣、無損、快速、信息豐富、水干擾小、可重復、靈敏度高、強穩定性及高分辨率等眾多優點,拉曼光譜儀已成為分析化學及工業、安檢及反恐等領域物質結構信息測定與快速識別鑒定的有效技術裝備[1-6]。
拉曼光譜是激發光照射到物質上發生的非彈性散射,與分子的振動轉動能級有關,和分子結構緊密相關。拉曼散射普遍存在于一切分子中,拉曼光譜對不同的物質具有不同的特征光譜,是一種能表征分子結構信息的指紋光譜。拉曼光譜信息蘊藏于拉曼譜峰之中,譜峰的位置和強弱可以靈敏地反映物質的結構、相應分子的濃度以及變化信息,利用拉曼光譜可進行物質的檢測和識別。一方面,拉曼光譜與分子結構的密切關系使得拉曼光譜具有進行定性并對相似物質進行區分的功能;另一方面,拉曼光譜的峰強度與相應分子的濃度呈線性關系,拉曼光譜也能用于待測物質成分的定量分析。
盡管拉曼光譜技術具有諸多其它光譜方法無法比擬的優勢,“硬手段”層面上的障礙總有一些是難以消除的,現代拉曼光譜儀器也還存在信號較弱的現象、拉曼光譜尖銳特征譜峰與在線拉曼宇宙射線體現的spike混淆、噪聲高頻帶與有用信號高頻帶亦發生重疊等,而噪聲的存在勢必影響拉曼光譜譜峰識別及其定性與定量分析。因此,需“軟方法”摒棄“硬手段”的固有缺陷,發展高性能數據處理方法,進而提高拉曼光譜儀器系統檢測性能[7-12]。本研究通過分析拉曼光譜儀噪聲信號數據特點,利用噪聲本身固有的無規則上下頻繁跳動的特性,合理篩選、解析提取噪聲數據段,提出了一種快速簡易的噪聲閾值實時計算方法,為后續儀器獲取待測物質拉曼光譜特征提供可靠的自適應閾值判別依據。
從理論上講,拉曼光譜儀器所采集的待測物質的譜圖可分解為:譜峰、基線、期望值為0的隨機噪聲共三部分,即
拉曼譜圖信號=拉曼譜峰+基線+期望值為0的隨機噪聲
其中,拉曼譜峰信號為所要提取的有用信息,具有特定的位置和大小,由此可提供最終的定性、定量分析結果;基線是在沒有分析樣品情況下儀器系統的本底信號,主要來自容器與物質受激產生的熒光背景;噪聲信號主要來自雜散光與儀器硬件系統等,它不同于基線與譜峰,無固定性態有不確定性,以不同頻率形式存在于譜圖之中。
一般而言,原始信號在譜峰信號段呈分段單調性,被譜峰信號淹沒的噪聲難以從中分離解析,因此需從譜峰信號段及若干信號奇異段(如常數值信號段及與部分譜峰信號混合段)之外合理篩選噪聲數據段,以獲取噪聲其不確定性中所隱含著的確定的統計規律。為此,首先對本幅譜圖信號從左到右分割成若干個定長的數據段,利用噪聲本身固有的無規則上下頻繁跳動的特性,通過統計每一數據段跳動出現的次數,根據跳動次數閾值從譜峰信號段之外合理篩選噪聲數據段,示例如圖1。
進一步,通過對所提取的各數據段進行線性回歸,計算得到各區間段噪聲相應的統計值;最后,結合儀器檢測系統信號特點,選擇噪聲值最小值適當的倍數,確定為該幅拉曼譜圖的噪聲閾值,該閾值作為自適應閾值可用于峰判斷,為最終獲取拉曼光譜特征提供可靠的判別依據。
本研究所設計的噪聲閾值算法,采用從左到右逐一滑動等長窗口,計算各窗口信號上下跳動次數,根據跳動次數閾值BeatTimesThreshold解析提取噪聲數據段,然后對所提取的噪聲數據段通過線性回歸值確定噪聲值。
該算法共有3個參數即數據窗口的寬度WindowSize、窗口信號上下跳動次數閾值BeatTimesThreshold與噪聲值倍數閾值BeatTimesThreshold,算法參數選項見表1。

表1 算法參數選項表
關于噪聲閾值確定算法的實現,請參看流程圖2。

圖2 噪聲閾值計算程序流程圖
根據上述噪聲閾值確定算法和程序流程圖,利用Matlab編程實現了該算法,為限于篇幅具體程序省略。現設置噪聲值倍數閾值NoiseTimesThreshold=3,數據窗口寬度WindowSize=50及BeatTimesThreshold=20,對一幅拉曼譜圖原始信號采用所編寫的程序進行噪聲閾值計算,本示例噪聲分析仿真結果如表2及圖3所示。

表2 噪聲值結果

續表2

圖3 仿真結果顯示圖WindowSize=50;BeatTimesThreshold=20
表2中第一列“序號”為本示例所提取的各噪聲段相應的原始信號等長分段序列號,噪聲值1、噪聲值2分別為基于漂移線性回歸的最大峰與最小峰的距離、校準偏差值,漂移為線性回歸的斜率。
噪聲分析采用了噪聲值1即基于漂移線性回歸的最大峰與最小峰的距離,最小噪聲值為853.4,噪聲閾值為最小噪聲值的3倍。
本示例最大噪聲值對應的噪聲段實際上有一真實峰,最大噪聲值為8818.2,為最小噪聲值的10倍之多,噪聲閾值作為自適應閾值峰判斷依據,可區分拉曼譜圖噪聲高頻帶與有用信號高頻帶。
通過以上及多組仿真實驗結果分析可得:①采用本文設計的算法進行數據處理,根據信號上下跳動次數閾值所篩選的噪聲段合理,噪聲閾值計算結果能區分噪聲高頻帶與有用信號高頻帶;②基于多參數選項的算法更加靈活實用,可通過選擇適當的參數值優化應用效果;③噪聲值1(漂移線性回歸的最大峰與最小峰的距離)、噪聲值2(漂移線性回歸的校準偏差值)之比值大約范圍為3~6,在實用中可根據儀器信號系統選擇噪聲值1或噪聲值2之一即可。
本研究所提出的噪聲閾值計算方法具備如下幾個特點:(1)快速簡易、獨立性非常強,無需平滑與去基線等前處理,直接對時間域信號提取能獨立反映噪聲信號隨機特性的信號段,從而快速確定拉曼譜圖信號噪聲閾值;(2)靈活易用、穩健高效,因該算法含有多個參數選項,結合拉曼光譜儀信號系統特性,根據算法參數值選擇準則和經驗,選擇適當的參數值(數據窗口寬度WindowSize、窗口信號上下跳動次數閾值BeatTimesThreshold與噪聲值倍數閾值BeatTimesThreshold)可優化應用效果;(3)通過設置適當的算法參數值,可解決因噪聲高頻帶與有用信號高頻帶發生重疊所引起的拉曼譜峰漏判誤判問題;(4)可為拉曼光譜儀提供實時在線監控噪聲檢測結果與故障診斷相應信息;(5)為儀器獲取待測物質拉曼光譜特征、后續譜圖數據處理峰識別提供可靠的自適應閾值判別依據。
通過以上理論分析和眾多仿真實驗反復驗證,該算法是一種靈活實用、快速簡易的高效算法。