鄒慧琴,劉勇,陶歐,林輝,蘇玉貞,林相龍,閆永紅



[摘要] 電子鼻廣泛應用于諸多領域,在不同領域中電子鼻傳感器陣列的構成不同。由于中藥氣味的復雜性和特殊性,在中藥鑒別分析中,需建立陣列優化法、篩選專屬最佳陣列。采用法國Alpha MOS 公司的αFOX3000電子鼻對姜科常用10味中藥進行氣味檢測,基于逐步判別分析法和聚類分析結合典型指標篩選法,建立了MOS傳感器陣列的優化法。同時針對優化前后的數據,分別采用主成分分析、Fisher判別分析和隨機森林算法進行了對比研究。結果表明,優化后的陣列不僅保留了原始陣列的有效信息,而且在一定程度上剔除了冗余信息、提高了識別效率。隨機森林分類器計算結果表明:最佳陣列為逐步判別分析篩選的S1,S2,S5,S6,S8,S12組合而成,此陣列優化法有效、可行;為電子鼻在中藥鑒別中MOS傳感器陣列的優化提供思路與方法參考。
[關鍵字] 電子鼻;中藥材;傳感器陣列;隨機森林
電子鼻(electronic nose,EN)也稱人工嗅覺系統,是模仿人類對氣味的識別機制[1],設計研制的一種智能電子儀器,適用于許多系統中測量1種或多種氣味物質。一個典型的電子鼻主要由3部分構成:樣品處理器,傳感器陣列,信號處理系統[2]。而傳感器陣列作為電子鼻的檢測系統,是最為核心的部分;它由不同氣敏元件組成,具有廣譜響應性、交叉敏感性等特點。常見的傳感器類型有導電聚合物(CP)傳感器、石英晶體微平衡(QCM)傳感器和金屬氧化物(MOS)傳感器等。其中,MOS傳感器靈敏度高、重復性好、基線漂移可校正等,已成為電子鼻傳感器的主流。
從20世紀80年代電子鼻誕生后,學者在很多領域進行了應用研究。也正是由于電子鼻響應時間短、檢測速度快、樣品預處理簡便、測定評估范圍廣等優點,現已在農業[3]、食品[4]、環境監控[5]和公共安全[6]等領域得到了廣泛的應用。然而,不同領域檢測的物質種類及分析目標不同,相應最適宜傳感器陣列也不同。因此,傳感器陣列優化是電子鼻應用于不同領域中需解決的關鍵技術之一。而在給定區域內,如何選擇傳感器陣列,以剔除冗余信息,同時保證獲取信息的完整性、有效性和可靠性,是傳感器陣列優化的首要問題。目前,在傳感器陣列優化中常用的方法有方差分析[7]、相關系數分析[8]、變異系數因子載荷分析[9]等,每種方法的針對性和適應性因不同分析目標而異。
本研究探討了電子鼻傳感器陣列的優化方法及其在中藥快速鑒別中的應用。采用MOS傳感器陣列對姜科常用10味中藥進行氣味特征的提取,基于逐步判別分析法和聚類分析結合典型指標篩選法,建立了中藥鑒別中電子鼻傳感器陣列的優化方法。同時采用主成分分析(PCA)、Fisher判別分析(Fisher LDA)和隨機森林(RF)算法對優化前后的數據進行了對比分析,確立了中藥鑒別中最佳傳感器陣列。結果表明優化后的陣列所獲取信息不僅保留了原始信息的完整性、有效性和可靠性,還一定程度上剔除了冗余信息、提高了數據處理效率。此陣列優化法有效、可行。
1 材料
αFOX3000氣味指紋分析儀,又稱電子鼻(法國Alpha MOS公司);10味常用中藥飲片干姜、姜黃、高良姜、莪術、郁金、白豆蔻、草豆蔻、草果、益智、砂仁(北京同仁堂股份有限公司市售產品)。經北京中醫藥大學閆永紅教授鑒定,分別來源于姜科植物姜Zingiber officinale Rosc.的干燥根莖、姜黃Curcuma longa L.的干燥根莖、高良姜Alpinia officinarum Hance的干燥根莖、蓬莪術C. phaeocaulis Val.的干燥根莖、廣西莪術C. kwangsiensis S. G. Lee et C. F. Liang的干燥塊根、白豆蔻Amomm kravanh Pierre ex Gagnep.的干燥成熟果實、草豆蔻Alpinia katsumadai Hayata的干燥近成熟種子、草果Amomum tsaoko Crevost et Lemaire的干燥成熟果實、益智Alpinia oxyphylla Miq.的干燥成熟果實以及陽春砂Amomum villosum Lour.的干燥成熟果實。
αFox3000電子鼻中傳感器原始陣列(U)由12根MOS傳感器構成,這12根傳感器的類型及對不同化學成分的響應靈敏度不同,具體見表1。
2 方法
2.1 樣品預處理——氣味提取法 將樣品粉碎,過2號篩,精確稱取0.4 g樣品裝入10 mL頂空瓶中,壓蓋密封。每味中藥各取10個樣本,采用循環交叉排列的方式組成序列,以減小實驗的系統誤差[10],組成訓練集。另每味中藥再各取2個樣本,組成外部測試集。
電子鼻對樣品氣味特征采集分為3個流程:孵化平衡、自動進樣和信號采集。實驗參數設置分別為孵化時間600 s、孵化溫度45 ℃;進樣量500 μL; 信號采集時間200 s、采集周期1 s。本研究視12根傳感器為12個變量、以傳感器最大響應值為指標進行數據分析。
2.2 傳感器陣列優化——S逐步判別分析法 采用Wilks′Lambda方法進行逐步判別分析,以F作為判別統計量。一個變量是否能進入模型主要取決與協方差分析中F檢驗的顯著性水平和設置的進入、離開模型的F[11]。具體參數設置為:當F≥30時,變量進入模型;當F≤5時,變量移除模型。判別結果見表2。
表2中統計量(F)是該變量的均方與誤差均方的比值。該值越大,P越小,因此該值最大的先進入判別函數。當P小于0.05或0.01時,拒絕零假設。顯著性檢驗結果P=0.000,即小于0.001,可以說這6個變量對判別的貢獻都很顯著。總之,說明該變量在不同組中均值不同是由于組間差異,而不是由隨機誤差引起的;即該變量在各組中均值差異顯著。可以看出S12,S5,S8,S6,S2,S1的統計量(F)都在30以上,這是選擇進入判別函數的判據。經過6個步驟后,模型內,外變量無進,無出,逐步判別分析的自變量選擇結束。因此,最終確定的傳感器優化陣列(U1)的組成為S1,S2,S5,S6,S8,S12。
2.3 傳感器陣列優化聚類分析結合典型指標篩選法 對100個分析樣本、12個屬性進行聚類分析。具體參數設置為聚類方法Further neighbor;變量間相似性測度方法為Pearson Correlation,分類結果見圖1。
從圖1可以看出初步聚為2類:S1,S7,S8,S9,S10,S11,S12和S2,S3,S4,S5,S6。另外,還可以進一步具體查看,如果聚為3類,各類組成為:S1;S7,S8,S9,S10,S11,S12;S2,S3,S4,S5,S6。4類,5類以此類推,冰柱圖的最終分類結果需結合實際情況而定。在本研究中,對12根傳感器進行了方差分析,結果顯示聚為4組較為合理。A組 S1;B組 S7,S8,S9,S10,S11,S12;C組 S4,S5;D組 S2,S3,S6。
采用Bivariate Correlation相關分析分別對B,C,D組進行典型指標的篩選。參數設置為Correlation Coefficients:Pearson。以B組變量為例,說明篩選過程,分析結果見表3。從表3中讀取相關系數,計算各相關指數如下。
R72=(0.9972+0.9952+0.9982+0.9992+0.9962)/5=0.994
R82=(0.9972+0.9972+0.9982+0.9962+0.9962)/5=0.994表3 B組變量相關矩陣(n=100)
Table 3 Correlation matrix of group B variables (n=100)
R92=(0.9952 +0.9972 +0.9962 +0.9942 +0.9942) /5=0.990
R102=(0.9982 +0.9982 +0.9962 +0.9972 +0.9992) /5=0.995
R112=(0.9992 +0.9962 +0.9942 +0.9972 +0.9972) /5=0.993
R122= (0.9962 +0.9962 +0.9942 +0.9992 +0.9972) /5=0.993
比較5個相關指數,S10的相關指數(R102)最大,因此B組代表變量選定為S10。同法計算C組、D組各變量的相關指數。其中,C組的S4和S5的相關系數一致,結合累計相關系數分析中S4與其他11根傳感器的累計相關系數最小,選S4代表變量。D組中S3的相關指數最大,選為代表變量。由此,確定的典型指標為S1,S3,S4,S10。
此外,方差分析及累計相關系數分析最優解分別為S10,S12,S4;其中S10,S4都入選為典型指標,而S12未入選。因此,綜合分析最終確定的傳感器優化陣列(U2)的組成為S1,S3,S4,S10,S12。
3 結果
3.1 主成分分析(PCA) 傳感器優化前后的PCA對比見圖2,傳感器原始陣列對有些中藥材可以區分(砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜、郁金),對有些中藥材區分性較差(莪術、益智、姜黃)。圖2中b,c圖顯示優化后的傳感器陣列PCA分析效果與優化前基本一致。
3.2 Fisher線性判別分析(Fisher LDA) 電子鼻研究中可運用Fisher線性判別分析(Fisher linear discriminant analysis,Fisher LDA)根據已知樣本識別未知樣本。傳感器優化前后的Fisher LDA對比見圖3,判別能力稍優于PCA,二者分類結果相近。傳感器原始陣列可以較好地區分開砂仁、白豆蔻、草豆蔻、高良姜、草果、干姜以及郁金等7味中藥,而莪術、益智及姜黃三者的分布區域重疊較多、無法區分,仍為鑒別難點。圖3中顯示優化后的傳感器陣列Fisher LDA分類效果與優化前差異不大。
3.3 隨機森林(RF) 隨機森林(Random Forests,RF)是一個包含多個決策樹的分類器,其輸出類別是由個別樹輸出類別的眾數而定,其中每棵決策樹都會完整成長而不會剪枝。它具有準確度高、學習速度快、能容忍內部噪聲且不容易出現過擬合等優點,在醫學、生物信息、管理學等領域廣泛應用[13]。分類系統性能評估采用常用十折交叉驗證和外部測試集驗證2種方法。本研究基于Weka軟件實現隨機森林分類器的建立(由Weka論壇免費提供http://www.cs.waikato.ac.nz/ml/weka/ )。
感器優化前后的隨機森林分類結果的比較見表4。結果顯示優化前的傳感器陣列對10味中藥材的正判率在80%以上,分類效果較好。而優化后的傳感器陣列也可以對10味中藥材進行分類,正判率大于85%、最高為96%;判別能力有所改善。
4 討論
優化前后傳感器陣列的PCA,Fisher LDA分析結果表明,優化后的傳感器陣列能夠代替原始陣列完成對10味中藥的鑒別任務:首先保證所獲取信息的完整性和可靠性,即沒有丟失原始數據中的有效信息;再對比分析陣列優化前后隨機森林分類器的正判率,不難發現優化后分類效果有一定程度的提高,說明優化后的陣列在一定程度上剔除了冗余信息、提高數據處理效率。進一步考察,發現逐步判別分析法優化的傳感器陣列略勝一籌;綜合分析,中藥鑒別中最佳陣列由S1,S2,S5,S6,S8,S12傳感器組成。此種優化方法有效、可行。
值得進一步探討的是,本研究中優化前后的傳感器陣列對姜科10味藥材均無法完全區分開,尤其是莪術、益智和姜黃。雖然此3味藥材同其他7味藥材可區分性較好,但三者相互之間難以鑒別。究其原因,一可能是此三者難以與其他幾種藥材在同一判別模型中實現鑒別,建議在將來研究中針對篩 選數據處理方法、建立判別模型等方面作進一步完善;二可能是本研究中所采用的αFOX3000型號電 表4 傳感器優化前后的隨機森林分類結果的比較子鼻只有12根傳感器組成檢測器,其傳感器針對中藥氣味的靈敏度、專屬性均尚未有相關研究報道,存在此種鑒別難點很有可能是此三者處于它的“嗅覺盲區”,建議在將來的研究中,在多型號電子鼻、多數量傳感器的基礎上進行傳感器的優化與專屬性研究。
[參考文獻]
[1] Pradeep U K. An electronic nose for detecting hazardous chemicals and explosives [C]. Beijing:Plant growth modeling,simulation,visualization and applications (PMA),2006 International Symposium,2006.
[2] 鄒慧琴,劉勇,閆永紅,等. 電子鼻技術及應用研究進展[J]. 傳感器世界,2011,17(11):6.
[3] Tang Xiaowei,He Hongju,Geng Lihua,et al. Evalution of maturity and flavour of melons using an electronic noses [J]. Agric Sci Tech,2011,12(3):447.
[4] Tudu B,A Jana,A Metla,et al. Electronic nose for black tea quality evaluation by an incremental RBF network [J]. Sensor Actuator BChem,2009 (138):90.
[5] Fang Xiangsheng,Shi Hanchang,He Miao,et al. Application and progress of electronic nose in evironmental monitoring [J]. Evrion Sci Technol,2011,34(10):112.
[6] Yinon J. Field detection and monitoring of explosives [J]. Trend Anal Chem,2002,21(4):292.
[7] 張雙巖,余雋,唐禎安,等. 二元混合氣體識別中傳感器陣列優化方法研究[J]. 儀表技術與傳感器,2010(7):80.
[8] 周顯青,暴占彪,崔麗靜,等. 霉變玉米電子鼻識別及其傳感器陣列優化[J]. 河南工業大學學報:自然科學版,2011,32(4):16.
[9] 周海濤,殷勇,于慧春. 勁酒電子鼻鑒別分析中傳感器陣列優化方法研究[J]. 傳感技術學報,2009,22(2):175.
[10] 趙鐳,史波林,汪厚銀,等. 電子鼻傳感器篩選的組合優化法研究[J]. 食品科學,2009,30(20):367.
[11] 盧紋岱. SPSS統計分析[M]. 4版.北京:電子工業出版社,2003.
[12] 方匡南,吳建彬,朱建平,等. 隨機森林方法研究綜述[J]. 統計與信息論壇,2011,26(3): 32.
Optimization method of MOS sensor array for identification of traditional
Chinese medicine based on electronic nose
ZOU Huiqin, LIU Yong, TAO Ou, LIN Hui, SU Yuzhen, LIN Xianglong, YAN Yonghong*
(Beijing University of Chinese Medicine, Beijing 100102, China)
[Abstract] Optimization of sensor array is a significant topic in the application of electronic nose (EN). Stepwise discriminant analysis and cluster analysis combining with screening of typical index were employed to optimize the original array in the classification of 100 samples from 10 kinds of traditional Chinese medicine based on αFOX3000 EN. And the identification ability was evaluated by three algorithm including principle component analysis, Fisher discriminant analysis and random forest. The results showed that the identification ability of EN was improved since not only the effective information was maintained but also the redundant one was eliminated by the optimized array. The optimized method was eventually established, it was accurate and efficient. And the optimized array was built up, that is, S1,S2,S5,S6,S8,S12.
[Key words] electronic nose; traditional Chinese medicine; sensor array; random forest
doi:10.4268/cjcmm20130204
[責任編輯 呂冬梅]