李瑞凱,侯凱旋,張麗娜,婁存廣,劉秀玲
(1. 河北大學附屬醫院 信息中心,河北 保定 071002;2. 河北大學 電子信息工程學院,河北省數字醫療工程重點實驗室,河北 保定 071002;3. 河北大學 中醫學院,河北 保定 071002)
分子是物質中能夠獨立存在的相對穩定并保持該物質物理化學特性的最小單位,而由于范德華力、分子內的振動與轉動、大分子的骨架振動、固體分子內的晶格振動等均位于太赫茲波段,所以太赫茲光譜對于研究分子的特性有重要的意義[1-4]. 中國中草藥品種繁多,相似的中草藥類型也很豐富,中藥飲品質量的監管與辨別顯得尤為重要. 傳統的眼看、手摸、口嘗等鑒別方法缺乏客觀性,對鑒定者的主觀判斷,個人能力依賴較大,通過顯微鏡輔助的顯微鑒定方法和通過化學儀器分析的理化鑒定方法等亦都有一定的缺點. 現代檢測技術中的色譜法、光譜法等對中草藥成分的鑒定非常有效,指紋峰顯著,容易區分. 因此,光譜檢測技術有望在中藥真偽鑒別及質量品鑒中發揮重要作用[2-4].
太赫茲波是一種位于微波和紅外輻射之間的一種電磁輻射(0.1~10 THz, 波長為3 mm到30 μm),其穿透性好,光子能量很低,安全沒有破壞性,可以檢測到多種物質分子的特征吸收峰,類似于人的指紋,具有唯一性,這一特性使得太赫茲波可以廣泛應用于物質檢測與成分分析. 太赫茲波段檢測得到的分子吸收光譜信噪比較好,并且不同特征峰之間的差別容易辨別,還可以得到各種物質的折射率、頻移、吸收幅值等信息,目前太赫茲檢測技術在病理檢測與成像、物質成分及真偽鑒別、油氣分析等多個領域取得了一定的研究進展.
主成分分析(PCA)可以反映物質內部變量之間的關系,在數據挖掘中即使數據維度變低了還能保留數據的主要信息. 本文利用太赫茲光譜技術與主成分分析相結合的方法在0.2~1.5 THz內對3組真偽中藥吸收光譜數據進行了分析,實現了較高的鑒別準確度[5-7].
由于中藥成分很復雜,包含了各種成分,而有機分子中化學鍵的震動主要在紅外波段,其中有機分子間較弱的相互作用(如氫鍵)以及大分子的震動都在太赫茲波段范圍,這就顯示出了太赫茲在中藥檢測中的優勢,并且太赫茲檢測快速,準確,靈敏度高,其測得的光譜數據通過PCA處理,可以使得實驗結構更具有說服力.
中藥材摻偽一直是有待解決的問題,中藥摻偽的方法有很多,例如重量摻偽、形似摻偽、成分摻偽等. 豬苓,體質疏松藥材代表,通常摻入硫酸鹽、氯化鈉、糖等增加飲品重量實現重量摻偽. 巴戟天是形似摻偽的代表,易與同屬植物羊角藤的根、木蘭科植物鐵箍散的根混淆. 粉防己,主要成分為粉防己堿、輪環藤酚堿、粉防己諾林堿等,其偽品大多數成分也含有粉防己堿,容易造成成分摻雜. 因為不同產地、不同廠家、不同銷售渠道所得到的同一種藥材也會有差異性,因此本文3組中藥品均購于安國東方藥城,由河北大學醫學部實驗室提供,并根據藥品形態、氣味、利用顯微鏡輔助的方法對藥材進行鑒定,區分出真偽,其真品和偽品的產地相同,外形相似度很高,如圖1所示. 取得樣品后首先進行12 h烘干處理,確保3組中藥材的干燥度相同,之后通過打粉機分別把每種藥材打成粉末狀,過75 μm篩. 用天平量出等量的3組中藥粉末,通過壓片機進行壓片處理. 實驗中將壓力設置為20 MPa,壓片1 min后將中藥粉壓成薄片狀,數據見表1. 為避免空氣中水分的影響,壓片完成后進行分袋裝存備用.

a.巴戟天真品;b.巴戟天偽品;c.粉防己真品;d.粉防己偽品;e.豬苓真品;f.豬苓偽品.圖1 3組真偽中草藥Fig.1 Three groups of genuine and fake Chinese herbal medicines

表1 藥材名稱及厚度

圖2 太赫茲檢測系統結構Fig.2 Structure diagram of terahertz detection system
實驗選用的是大恒新世紀元科技股份有限公司的CIP-FICO透射式太赫茲時域光譜儀,由主機、鎖相放大器和采集存儲數據的計算機組成,測量頻率為0.1~3.0 THz. 如圖2所示,該太赫茲檢測裝置分為左右2個部分,左側主要包括光纖飛秒激光器、時間延遲線、延遲線控制器等. 右側主要為太赫茲產生和探測,以及樣品檢測區域. 光纖飛秒激光器產生的2束光束分別用于激發和探測太赫茲波,光電導天線產生的太赫茲波通過準直透鏡照射到置物架上的被測物品,另一束探測光束作用于探測天線,然后通過延遲平臺均勻采樣,采樣得到的電信號通過鎖相放大器進行放大,最后通過計算機中的控制軟件得到太赫茲的時域、頻域波形及吸收譜[8-9].
由于水汽對太赫茲的吸收特別強,為避免其對待測樣品特征吸收峰的干擾,進行實驗時需要首先利用壓縮機及干燥機(DG2000, 索菲特氣體設備有限公司)產生干燥空氣吹掃測量腔,并將濕度控制在4%以下. 濕度控制完成后,首先將測量太赫茲波穿過干燥空氣后的透射時域信號作為參考信號,隨后放入樣品并將采集得到樣品的透射時域信號利用公式(1)(2)計算得到樣品的折射率n(ω)和吸收系數α(ω)[10-12]. 其中d為樣品的厚度(單位mm),ω為角頻率,φ(ω)為相位差,ρ(ω)為參考信號與樣品信號的模的比,c為光速.
(1)
(2)
PCA是一種無監督數據降維的統計學方法,可對大量數據降維,其通過線性變換將原有相關性特征的數據進行特征壓縮,得到了既保留原有特征的主要信息又減小了特征個數的新的數據.K-均值聚類(K-means)算法是一種無監督實時聚類算法,是典型的基于目標函數的聚類方法. 本文采用的算法過程如下:
2)用主成分分析處理標準化后的矩陣,取Y的前2列,就可以將52維的特征數據降為2維,并且累計方差貢獻率達到90%以上,可以很好地解釋原始特征數據.
3)利用K-means對樣本降維后的特征數據進行聚類,首先任意選取k個樣本作為初始聚類中心 {z1,z2,…,zk},其中每一個樣本代表一個聚類中心,其次根據公式(3)計算每一個樣本xj與每個均值向量zi的歐式距離,根據最小距離原理對樣本xj進行聚類,并根據公式(4)算出新的均值向量,所有ci類樣本的均值作為ci類新的聚類中心計算. 最后根據公式(5)計算聚類的最小化平方誤差的數值,如果最小化平方誤差的數值不再變化,或者前2次的差值小于設置的閾值,則完成聚類,否則繼續迭代[13-15].
dij=‖xj-zi‖2,
(3)
(4)
(5)
本實驗過程中首先將太赫茲測試過后的光譜數據進行保存,然后通過matlab程序將光譜數據變換得到物質的吸收峰數據,其次將大量的吸收峰數據通過PCA降維處理,最后在配合K-means將降維后的數據進行聚類處理.
實驗中將該太赫茲測量系統采樣長度設置為20 ps,每組樣品重復測量10次. 數據重復性較好,誤差很小,選用數據的平均值進行數據分析. 如圖3所示,在0~20 ps可得到信噪比較好的3組真偽中藥的時域波形,較好地展示了與參比信號(空氣)的振幅和相位信息,經過傅里葉變得到的頻譜圖展示在右下角子圖中.

a.巴戟天真品;b.巴戟天偽品;c.粉防己真品;d.粉防己偽品;e.豬苓真品;f.豬苓偽品.圖3 3組中藥的時域及頻域光譜Fig.3 Time and frequency spectrum of three graups of Chinese herbal medicines
由于樣品厚度以及吸收、折射率等因素,3組中藥材的時域波形相比于參考信號有一定的延遲,并且振幅明顯減小. 通過時域圖譜可以看到真偽品中藥的時域信號幅值不同,其中巴戟天為16.917,巴戟天偽品為20.320;粉防己為15.569,粉防己偽品為22.982;豬苓為19.001,豬苓偽品為18.801. 通過頻譜圖看到樣品振幅的衰減不同,頻譜波形產生了變化,表明樣品有不同的吸收系數及介電常數. 因為真偽品含量相似,相同的成分會有相同的頻率,但是含量的不同,則會體現在吸收強度上的差異,所以對比真偽品吸收強度的變化可以得到相似物質的含量.
即使是同一產地的中藥,因其生產廠家、銷售渠道的不同,使其吸收系數也會存在差異,地道性鑒別時應考慮這種差異. 為了進一步比較真偽中藥,將太赫茲時域光譜系統測得的原始數據進行傅里葉變換并根據式(1)、(2),可以得到3組中藥的太赫茲吸收譜,如圖4所示.

a.巴戟天真品;b.巴戟天偽品;c.粉防己真品;d.粉防己偽品;e.豬苓真品;f.豬苓偽品.圖4 3種中藥的太赫茲吸收譜Fig.4 Terahertz absorption map of three groups of Chinese herbal medicines

a.巴戟天真品;b.巴戟天偽品;c.粉防己真品;d.粉防己偽品;e.豬苓真品;f.豬苓偽品.圖5 3組中藥的折射率圖譜Fig.5 Refractive index map of three groups of Chinese herbal medicines
因為1.5 THz后信噪比變差,所以選取了0.2~1.5 THz波段進行研究. 通過吸收圖譜可以直觀地看到3組樣品的吸收系數存在明顯差異,并且巴戟天偽品相比于巴戟天真品有較小的吸收峰、粉防己真品相比于粉防己偽品有較小的吸收峰,豬苓真品相比于豬苓偽品有較小的吸收峰. 對于3組中藥吸收峰不是特別明顯的問題,筆者接下來對3組樣品的折射率進行分析,如圖5所示. 在0.2~1.5 THz,3組折射率隨頻率的增加保持基本平穩的變化趨勢,其樣品的折射率為1.2~2.0 THz,其中巴戟天折射率為1.851,巴戟天偽品折射率為1.613;粉防己折射率為1.807,粉防己偽品折射率為1.367;豬苓折射率為1.335,豬苓偽品折射率為1.767,真偽品的折射率都有明顯的區別,說明其所含成分差別較明顯.
針對上述3組中藥吸收系數可能受地域性原因影響、吸收峰不是太明顯的問題,筆者又利用了PCA和K-means算法來進一步提高吸收圖譜在真偽中藥中的準確度. 在本實驗中,對每組中藥的真偽品測量10次,將0.2~1.5 THz波段內的吸收系數作為最終的特征識別數據. 為了減少光譜數據冗余,對數據進行標準化和歸一化的預處理,消除了量綱,避免了量綱對距離計算的影響,同時也可以加快模型收斂的速度,并且提高了模型精度,然后利用PCA對原始數據降成2維,再利用K-means對降維后的數據進行聚類分析,結果如圖6所示. 3組中藥對應前2個主成分的方差貢獻率分別為94.6%和2.1%,85.6%和9.1%,92.6%和4.2%,把2個主成分的方差貢獻率加起來得到累計方差貢獻率,達到90以上可以反映足夠的物質信息量,并且能很好地提取原始數據的特征,因此由圖6說明PCA能很好的將3組真偽中藥的差異性在光譜數據中體現出來,并且真偽中藥的差異判斷率高達100%.

圖6 3組中藥第一、二主成分得分Fig.6 The first and second principal component scores of three groups of Chinese herbal medicines
通過太赫茲檢測系統對3組真偽中藥的吸收強度、折射率、吸收峰的位置進行了系統的比較,通過數據分析準確地對3組中藥的真偽品進行了區分,并結合主成分分析使真偽中藥的區分更加具有科學準確性. 盡管中藥材是一種復雜的混合物體系,但因其所含成分不同、各成分含量的比例不同,因而其太赫茲圖譜也各有差異,相比于傳統的鑒別方法太赫茲檢測技術提供了更好的科學性和準確性. 在0.2~1.5 THz波段內,筆者對太赫茲時域譜提取的吸收系數,采用主成分分析提取特征,然后利用K-means進行聚類分析,能夠準確地區分中藥的真偽品. 本研究對于中藥飲片安全的監督具有實際意義,對未來中藥指紋圖譜的建設也有一定的參考意義.