趙怡鶴,張 濤,李 彬,賈二惠,賈亮亮
(公安部第一研究所,北京 100044)
法醫DNA 檢測平臺數據預處理技術,是將自主研發的法醫DNA 檢測平臺硬件系統采集的熒光光譜數據,處理后生成DNA 分型軟件可用的數據。包括空間校正、光譜校正、STR 數據處理技術。
光譜校正的目的是解決四(五)色熒光串擾問題。由于目前用于堿基識別的染料受激光激發后光譜范圍都比較寬,染料空間到光譜空間不是一一映射關系,不能直接用光譜空間來分辨四(五)種染料。為實現對DNA 樣品檢測信號的特異性分析,在使用法醫DNA 檢測平臺進行STR 檢測之前首先要進行光譜校正處理[1],建立染料空間到光譜空間的映射關系,即熒光染料光譜分布矩陣,達到染料分開與堿基識別的目的[2]。
處理器光譜校正中的數據處理技術涉及了濾噪、基線調整、峰值識別和歸一化。其中噪聲的濾除是極其重要的一環。當前最常用的濾波方法有中值濾波、高斯濾波、FRI 濾波、小波(WAVELET)濾波等方法[3]。本文首先對比了小波閾值去噪法和FRI 濾波去噪法對DNA 熒光信號的去噪效果,證明了小波去噪效果優于一般FRI去噪方法。隨后介紹了參數優化后的DNA 熒光信號小波閾值去噪方法。最后,通過與法醫鑒定實驗室常用的國外法醫DNA 遺傳分析儀光譜校正結果的對比,驗證了算法的有效性,可滿足法醫鑒定實驗室的要求。
小波去噪的主要方法有小波變換模極大去噪,基于各尺度下小波系數相關性去噪,小波閾值去噪等[4]。本文采用小波閥值去噪法研究DNA 熒光光譜信號的去噪方法。
采用一維信號的小波閾值去噪法去除DNA 熒光信號噪聲。該算法基于小波的多尺度分辨性以及信號強度與小波系數之間的對應關系,即將熒光信號進行多尺度分解,利用堿基信號能量大于噪聲能量,其高頻尺度上對應的小波系數值也較大的特點,合理的設定小波系數閾值,并對低于閾值的系數置零,實現了噪聲去除并保留了有用的DNA 堿基信號峰。
(1)利用選定的小波函數wname 對原信號進行小波多尺度分解(N 層分解)。根據小波多分辨分析理論,定義j-1 尺度空間為:

其中φ(t)為尺度函數,對信號f(t)∈Vj-1在空間可展開成:將f(t)在下一級尺度空間Vj和小波空間Wj分解一次,則有其中ψ(t)為小波函數,cj,k和dj,k為j 尺度上尺度系數和小波系數,經推導:

其中j=1,2,…,N。h0、h1為濾波器系數,由尺度函數φ(t)和小波函數ψ(t)決定,與具體的尺度無關。實際中的濾波器系數是有限長或近似有限長序列。依次遞推,可將尺度空間Vj-1逐級分解,得到任意尺度的尺度空間Vj和小波空間Wj,實現f(t)信號在任意尺度上的分解。
(2)對原信號的小波分解高頻系數做閾值量化處理。根據所選的閾值方法SORH、閾值選擇規則TPTR 及閾值調整方式SCAL 獲取小波去噪的閾值,再根據閾值對原信號的小波分解高頻系數進行閾值量化處理。
(3)做正交小波快速反變換,重構經過閾值量化去噪信號。使用小波分解的低頻系數以及閾值量化處理后的高頻系數進行小波重構,即對處理完的小波系數進行快速反變換,于是得到消噪后的信號。例如: f(t)信號的重構是多尺度分解的逆過程,其系數的重建公式為: cj-1,m=綜上所述,對DNA 熒光光譜信號進行多尺度分解,在小波空間Wj,小波系數dj,k的大小主要由對應時間點上的噪聲和該尺度上DNA堿基信號峰的大小決定。強度較大部分主要與有用的DNA 堿基信號峰對應,強度較小且個數眾多的部分主要與噪聲對應。基于此性質,選擇一個合適的閾值,將強度低于此閾值的小波系數置零,而高于此閾值的強度系數得以保留,即可實現去噪并保留有用的DNA 堿基信號的目的。將DNA 熒光光譜信號進行N 層分解,N 一般取4 至8 比較合適,計算第N 層小波系數的標準方差,作為小波系數強度的閾值,小波系數強度小于該閾值的被置零,大于該閾值的得以保留,對第N-1, N-2,…層的小波系數也采用此閾值進行相同處理。
小波函數取樣條小波bior5.5 進行3 層小波分解,FIR 低通濾噪器窗口選擇hamming 窗,n=9 階,截止頻率為0.125,該截止頻率與小波三層分解的低頻逼近信號對應。圖1 顯示了小波去噪與FIR 低通濾噪的效果。可見傳統的FIR 濾噪和小波去噪都可以實現信號平滑,去掉信號中的毛刺成分(高頻噪聲)。

圖1 小波去噪和FIR 濾噪的濾噪效果Fig.1 The result of wavelet de-noising and FRI de-noising for DNA fluorescence spectrum
FIR 濾噪后對DNA 堿基信號峰產生了較大的消弱,而采用小波去噪,通過合理的小波系數閾值處理,小波去噪后DNA 堿基信號峰基本保持了原來的幅度和形狀,可見基于閾值處理的小波去噪效果要優于傳統的FIR 濾噪效果,見圖2。

圖2 小波去噪和FIR 濾噪對信號峰型影響的對比Fig.2 Wavelet de-noising and FRI de-noising Impact on signal peak
法醫DNA 檢測平臺使用高250 像素,寬512 像素的面陣CCD 進行熒光光譜數據采集。
每個毛細管上激發的熒光展開到CCD 上都是一個長條型的光譜空間,圖3 左圖中,毛細管編號為①②……。空間大小按bin 計算為1×20bin,圖3 右圖所示。這樣對毛細管上激發的熒光進行數據采集時,每個bin產生一個數據,則每個毛細管將對應一個1×20 的數據(16 根毛細管則對應16×20 的數據)。對每根毛細管,染料空間(五色)定義為X(向量大小5×1),代表五種染料;光譜空間為B(向量大小20×1),代表20 個bin;映射矩陣為Q(矩陣大小為20×5),我們采集到的光譜空間B 實際上是由以下映射得到的:

矩陣Q 的每一列代表一種染料激發的熒光在20 個bin(光譜空間)上的值,稱為光譜分布矩陣。然而,我們關心的不是光譜空間B,而是染料空間X,因為只有染料空間X 與DNA 片段才是對應的,即:

據此可得到光譜校正模式下染料光譜分布矩陣Q,從而實現光譜空間到染料空間的映射,為后續DNA 數據采集、分析做準備。

圖3 法醫DNA 檢測平臺毛細管陣列光譜在面陣CCD 上的成像Fig.3 The capillary array image of forensic DNA detection platform on the surface of CCD
小波閾值去噪法共有五個參數選項,即小波函數、小波分解層數、閾值方法SORH、閾值選擇規則TPTR及閾值調整方式SCAL[3]。在實際應用時應選擇合適的小波函數、小波分解層數及閾值獲取方式,如果選擇不當將會影響去噪及數據后處理的效果。因篇幅有限,小波閾值去噪法參數的選擇原則(略),表1 為小波閾值去噪法參數的主要參數。
一般情況下,一組熒光染料通過一根毛細管時,其光譜分布陣列需同時滿足: ①光譜校正矩陣Q 的條件數c 要適中(STR:5~10),否則說明熒光串繞(或重疊)問題嚴重[9];②四(五)色熒光染料受激光激發后光譜分布的譜峰分開一致性,即質量數q0.95。則認為該根毛細管光譜校正通過。
實驗采用五色熒光試劑盒,自主設計的法醫DNA檢測平臺采集的數據作為原始數據。利用參數優化后的小波閾值去噪算法進行去噪處理。去噪后的數據再經基線調整和峰識別等步驟,得到了五色染料光譜分布矩陣Q,實現了光譜校正。

表1 小波閾值去噪算法和主要參數設置Tab.1 Wavelet threshold de- noising algorithm and main parameter settings
圖4 為法醫DNA 檢測平臺光譜校正結果。實驗采用IdentifilerTM 試劑盒(五色熒光,LIZ、NED、PET、VIC、6-FAM)。

圖4 法醫DNA 檢測平臺光譜校正結果Fig.4 Spectrum correction results of forensic DNA detection platform
小波閾值去噪法的效果強烈地依賴于所選的小波,采用和DNA 熒光信號波形相似的小波去噪,會得到較好的去噪效果。通過多組數值實驗反復驗證,在對DNA熒光信號進行小波去噪時,選擇正交小波函數wname='db5' 及小波分解層數lev=5 時的去噪效果比較理想。接下來選擇軟閾值函數、基于Stein 無偏似然估計的自適應閾值選擇及對各層噪聲進行估計和調整,會保持峰邊緣的光滑過度帶。
圖5 為AB3100 遺傳分析儀光譜校正處理后的效果和自主設計的法醫DNA 檢測平臺,DNA 光譜校正數據處理后的效果對比圖(16 根毛細管其中1 根,其余15 根略)。兩組光譜校正結果相比較,效果一致。

圖5 毛細管光譜校正對比效果圖Fig.5 Spectrum correction contrast figure
本文提出的小波閾值去噪算法信號保真度高、相位保真度高,兼顧信號細節。采用本文設計的算法去噪,再經過去基線和峰識別等光譜數據處理步驟,得到的光譜校正效果可媲美于法醫鑒定實驗室常用的國外法醫DNA 遺傳分析儀。實驗證明,此小波閾值去噪算法在對法醫DNA 檢測平臺光譜校正熒光信號噪聲濾除方面表現優秀。目前,自主設計的法醫DNA 檢測平臺已應用于一線法醫鑒定實驗室中,一系列光譜校正數據處理方法也已經集成于平臺配套的數據采集軟件中,實現了DNA 熒光光譜實時光譜校正處理,已成功的建立了IdentifilerTM、DNATyperTM15、AGCU17+1 等試劑盒[10]的染料光譜分布矩陣和對應的光譜校正文件。
[1] John M.Butler.侯一平,李成濤(譯).法醫DNA 分型專論:方法學(原書第三版)[M].北京:科學出版社,2013.
[2] John M.Butler. Fundamentals of Forensic DNA Typing [M]. U.S.A: ACADEMIC PRESS,2010.
[3] 林云躍.DNA 圖譜分析算法與軟件研究[D].浙江大學,2006.
[4] 潘泉,等.小波濾波方法及應用[J].電子與信息學報,2007,1.
[5] 周偉,桂林,等.Matlab 小波分析高級技術[M].機械工業西安電子科技大學出版社,2006.
[6] 唐向宏,李齊良.時頻分析與小波變換[M].科學出版社,2008.
[7] 彭玉華.小波變換與工程應用[M].科學出版社,2003.
[8] 裴黎. 現代DNA 分析技術理論與方法[M].中國人民公安大學出版社,2002.
[9] 李彬,趙怡鶴,張濤,等. 熒光光譜解析中矩陣病態對檢測結果的影響[J]. 分析測試技術與儀器,2014,3.
[10] 鄒廣發.AGCU 免提取STR 熒光檢測試劑盒的驗證[J].刑事技術,2010,3.