楊尚梅, 陳 穎, 吉守祥
(青海民族大學 a.化學化工學院; b.藥學院,西寧 810007)
基于紅外光譜和隨機森林的蕨麻產地鑒別
楊尚梅a, 陳 穎a, 吉守祥b
(青海民族大學 a.化學化工學院; b.藥學院,西寧 810007)

利用紅外光譜與隨機森林相結合的方法對不同產地蕨麻進行分類鑒別,測定了42個來自青海省不同產地的蕨麻樣品的紅外光譜。小波變換對紅外光譜原始譜圖數據進行了預處理,紅外光譜數據壓縮到原來的1/8,其分析精度與原始光譜數據基本相當。將42個樣品劃分為有30個樣品的訓練集和12個樣品的測試集,建立隨機森林預測蕨麻產地模型。使用內部交叉驗證和外部數據進行驗證,采用R語言實現隨機森林算法, 并對模型的參數進行了優化。結果表明,所建立的判別模型中訓練樣本和測試樣本判別正確率均為100%。建立的模型能夠正確地對蕨麻樣品快速進行產地鑒別,紅外光譜法結合隨機森林可作為中藥材產域分類鑒別的一種新的嘗試。
蕨麻; 紅外光譜; 小波變換; 隨機森林; R語言
蕨麻(PotentillaanserineL)為薔薇科委陵菜屬植物鵝絨委陵菜的根,中藏醫常用藥,又名戳瑪、延壽果、人參果等,主產于青海及甘肅甘南等地區[1]。除常被作為營養進補藥外,近些年又作為抗腫瘤用藥而獲得廣泛應用[2]。已有色譜、光譜實驗技術并結合化學計量學方法鑒別蕨麻質量的報道[3-4],到目前為止,多采用包括多元統計分析在內的單分類器模型鑒別方法[5-6]。本文針對光譜數據龐大,受算法局限,單分類器容易引發過度擬合,使所建模型精度有限,采用數據挖掘中分類器集成的隨機森林方法,對不同產地蕨麻的紅外光譜數據建模。由于隨機森林算法對多線性不敏感,允許多達幾千個解釋變量,通過參數優化使所建模型精度高[7],成功地實現對青海蕨麻產地的鑒別。
1.1 樣品來源及處理
選用42個不同產地的蕨麻作為研究樣品,它們分別采自青海玉樹市、果洛州、海南州、西寧市及甘肅甘南等地,經青海省蕨麻研究中心李軍喬教授鑒定為薔薇科委陵菜屬植物鵝絨委陵菜的根,即蕨麻。具體產地、樣品數及分區見表1。

表1 樣品來源及分區
采摘的鮮果按產地編號,經洗凈曬干后,置于普通干燥箱內65 ℃以下干燥至恒重。制樣時,取出用微型植物粉碎機粉碎,過100目篩后裝袋密封備用。
1.2 實驗儀器及藥品
儀器:島津IRPrestge-21型傅里葉變換紅外光譜儀,分辨率0.5 cm-1,信噪比40 000∶1。新型高靈敏度DLATGS檢測器。
藥品:譜純溴化鉀,天津天光光學儀器有限公司出品。
1.3 不同產地蕨麻紅外光譜的測定
按編號依次取已過100目篩的蕨麻粉末3 mg與150 mg光譜純的溴化鉀在研缽中混合均勻后壓片,置于IRPrestge-21型傅里葉變換紅外光譜儀樣品池,按測定范圍4 000~400 cm-1,信號累加16次掃描獲取紅外光譜(分辨率4 cm-1)。利用儀器自帶IRsolution軟件自動進行多點基線校正和平滑處理。每個樣品平行測定3次,取其吸光度平均值作為該樣品的紅外光譜數據。
1.4 紅外光譜的小波變換預處理
利用Matlab小波工具箱,通過小波母函數的選擇,最高分解層次的確定以及采用啟發式SURE(heursure)方法獲取降噪和壓縮閾值等步驟,通過編程實現紅外光譜降噪和壓縮[8]。用于本研究的紅外光譜經壓縮,數據長度由1 868壓縮到241后,作為隨機森林建模的輸入數據。
2.1 隨機森林算法原理
隨機森林算法是基于Bagging(Bootstrap aggregating)一種組合分類器算法發展而來[9-12]。影響隨機森林分類預測能力的因素有:①森林中單棵樹的強度,如果每一棵決策樹的分類強度越大,則整體隨機森林的分類性能越好;②森林中樹之間的相關性,若樹與樹之間相關度越大,像似樹與樹之間技葉相互穿插越多,則隨機森林的分類性能越差。
2.2 隨機森林建模的計算機實現
本研究采用R軟件平臺下的擴展軟件包randomForest建立紅外光譜數據隨機森林模型。調用randomForest即可以建立隨機森林模型[13-15]。該函數預設置的核心參數有:mtry參數,表示樹節點預選變量個數,決定單棵樹性能;ntree參數,表示隨機森林中樹的數目,決定整片隨機森林的性能和規模。
2.3 紅外光譜隨機森林建模
以42個蕨麻樣品小波降噪壓縮后的241個紅外光譜數據及產地分區變量(REGION)與樣品編號(No)作為隨機森林建模的數據集(X42×243),分類變量為字符型變量。
隨機選取30例樣品作為訓練集samp=sample(1∶42,30),余下的12例樣品x=juema[-samp]作為測試集。建模時使用OOB(out-of-bag) 交叉驗證算法能保證訓練集與測試集獨立,提高預測精度。
以訓練集作為數據輸入,用randomForest ( )函數默認的參數,即mtry=3,ntree=500時建模,在R平臺調用該函數運行后,即可得到蕨麻紅外光譜的隨機森林模型juema.rf。模型的30個訓練集回判全部判對,調用函數命令pred=predict(juema.rf,x),得出12個獨立測試集的產地判定結果,其中有1例17號樣品判錯。初建的隨機森林模型有待優化。
2.4 紅外光譜隨機森林的優化建模
隨機森林模型優化是通過調整模型參數mtry和ntree實現的。可采用mtry從1~7逐一增加的方法,由基于OOB數據的模型誤判率均值的大小確定模型最優節點變量數。結果當模型節點變量數為1時,模型誤判率均值為0.022 276 41最低,因此,參數mtry選取為1。
利用R語言繪圖函數plot,通過編程可得到模型誤差Error與隨機森林中樹的數目trees的關系圖(見圖1),由該圖可以確定參數ntree。從圖1可以看出,當trees=450左右時,3類的分類誤差最小(total),因此,參數ntree選取為450。

圖1 隨機森林模型誤差與樹數量關系圖
以優化后的參數建立隨機森林蕨麻產地鑒別模型,模型回判和獨立測試集的產地歸屬判定結果正確率均達到100%。
3.1 隨機森林模型蕨麻產地鑒別結果
randomForest建模函數訓練集和測試集的實際運行總的結果如下:
OOB estimate of error rate: 0%
Confusion matrix:

ABCclass.errorA14000B01600C00120
全部樣品實現正確的地域分類,可見模型預測精度高,結果令人滿意。青海蕨麻產地的上述分類與青海實際情況是一致的。地域劃分為A類的青海玉樹市與果洛州兩地位置靠近,位于青海西南部,青藏高原東部,海拔、氣候、土壤等生態環境相似,因而產品質量相似,且品質優良[5];地域劃分為B類的青海海南州(同德與興海縣),位于青海湖之南,海拔、氣候、土壤等生態環境與地域A存在較大的不同,蕨麻品質良好,自然歸于另一類;地域劃分為C類的西寧市與甘南地區,位于青海東部,青藏高原的東方門戶,海拔、氣候、土壤等生態環境與地域A、B存在較大的不同,品質也就有差異,它們劃歸于C類是合理的。
作為比較,同一數據集交叉驗證下,采用單分類器的多元統計Fisher判別分析,誤判達5例之多(3,11,17,29,39號樣品),正確率88.1%。采用神經網絡BP方法建模,隨機選取30例為訓練集,12例為獨立檢測集,神經網絡參數調優后,預測誤判也有2例(17,29號樣品),正確率95.2%。可見隨機森林建模精度高。
3.2 變量的重要性
圖2是調用函數importance獲得變量測算出的標準重要值MeanDecreaseAccuracy對241個蕨麻紅外光譜波數變量位置的火柴桿圖。從圖中可以看出,前5個最大的標準重要值3.812 4 (波數位置X98,以下同)、3.080 0(X28)、2.979 6(X223)、2.971 9(X236)、2.848 6(X133)分布在紅外光譜R—H(R=O,N,C)伸縮振動峰區至指紋區,揭示若僅取指紋區數據建模,這通常是部分紅外光譜應用文獻中的一種數據處理方法,必然會丟失部分光譜信息,影響建模精度。本研究雖然數據點由1 868個壓縮至241個,但小波變換重構后的壓縮數據,仍保留了原始光譜數據的信息,仍然是全譜建模,不會丟失光譜信息,能保證建模精度。

圖2 特征波數重要性度量結果
3.3 隨機森林判別模型
隨機森林算法融合了Bagging算法和隨機特征選取兩大機器學習技術。大量的理論和實證研究都能夠證明該算法建立的模型具有很高的預測準確率,模型結果對缺失數據、多元共線性和非平衡的數據穩健;而且在對數據進行分類的同時,還可以給出各個變量在分類過程中的重要性量度,該量度能夠篩選出相對重要變量,從而加深對模型的理解。
實驗測定了青海不同產地蕨麻的紅外光譜。以R軟件平臺下的免費擴展軟件包randomForest實現隨機森林算法,建立了青海蕨麻產地鑒別模型。該模型對產地鑒別預測精度高,正確識別率達到100%,從而為蕨麻分類鑒別、質量控制提供了新的適用方法,也為鑒別其他中草藥提供了思路。
隨機森林建模方法對樣本數據沒有特定的要求,需要優化的參數少,模型穩定性好,適合光譜學大量樣品數據建模。而且免費擴展軟件包容易得到,因而建模方法易于推廣,應用前景廣闊。
[1] 劉 意,成 亮,延在昊,等.鵝絨委陵菜化學成分及藥理作用研究進展[J].中草藥,2015,46(8):159-166.
[2] 劉志軍,白 瑤,郭麗霞,等.蕨麻的化學成分及藥理活性研究進展[J].食品安全質量檢測學報,2015,16(9):277-282.
[3] 侯陸星,蔡光明,張雅銘,等. 藏藥蕨麻高效液相色譜指紋圖譜研究[J]. 中南藥學,2007,5(6):555-558.
[4] 夏 蓮,孫志偉,李國梁,等. 藏藥蕨麻多糖的光譜性質及單糖組成分析[J]. 天然產物研究與開發,2011,23(3): 453-457.
[5] 陳 穎,文 慧,謝久祥,等.青海及周圍地區的蕨麻紅外圖譜的建立及計算機解析[J]. 云南師范大學學報(自然科學版),2014,34(4):65-70.
[6] 白 雁,張 威,王 星,等. 銀黃顆粒劑的近紅外光譜鑒別分析[J]. 實驗室研究與探索,2010,29(6):22-23.
[7] 張曉明,王玉鑫,王 廣,等. 基于Hadoop的網站入侵檢測與分析系統設計[J]. 實驗室研究與探索,2016,35(4):126-128.
[8] 劉明地,李 仲,吳啟勛,等.枸杞產地的小波變換紅外光譜的聚類分析鑒別[J].華中師范大學學報(自然科學版),2014,48(6):857-860.
[9] Breiman L. Random Forests[J]. Machine Learning, 2001,45:5-32.
[10] Diaz Uriarte R, Andres S A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinform, 2006(7): 3-16.
[11] Prinzie A, Van Den Pdel D. Random forests for multiclassification: random multinomial logit[J]. Expert Systems with Applications,2008,34(3):1721-1732.
[12] Kurtanjek Z. Chemometric versus random forest predictors of ionic liquid toxicity[J]. Chemical and Engineering Quarterly, 2014,28(4): 459-463.
[13] Liaw A, Wiener M. Classification and regression by random forest[J]. Rnews, 2002,2(3): 18-22.
[14] Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: A survey and results of new tests[J].Pattern Recognition, 2010, 44(2):330-349.
Identifying the Origin of Potentilla Anserine Based on Infrared Spectroscopy and Random Forest Method
YANGShangmeia,CHENYinga,JIShouxiangb
(a. College of Chemistry and Chemical Engineering; b. College of Pharmacy, Qinghai University for Nationalities, Xining 810007, China)
The infrared spectroscopy combining with random forest method was used in the identification of Potentilla anserine from different fields of Qinghai Province. Forty-two samples of Potentilla anserine from different fields of Qinghai province were surveyed by FTIR (Fourier transform infrared spectroscopy). The original data matrix of FTIR was pretreated with wavelet transform. The results showed that the infrared spectroscopy data were compressed to 1/8 of its original data, but the spectral information and analytical accuracy were not deteriorated. The 42 samples of Potentilla anserine were divided into 30 training samples and 12 validation samples. Random forest model was constructed by the training samples to predict the discrimination effect of identifying the origin of Potentilla anserine with internal cross validation and external validation sample. R language was adopted to achieve algorithm of random forest. Parameters of random forest model were optimized. The prediction accuracy of the proposed model was 100% for the training samples and 100% for the test samples. It can be concluded that the method is quite suitable for the fast discrimination of producing areas of Potentilla anserine. This infrared spectral analysis technology combined the random forest was proved to be a reliable and new practical method for the identification of geographical origin of Chinese medicine. The method in the present paper is very broad prospect of application.
Potentilla anserine; infrared spectroscopy; wavelet transform; random forest; R language
2016-06-27
國家自然科學基金資助項目(81160554)
楊尚梅(1976-),女,青海西寧人,碩士,講師,現主要從事有機化學與分子光譜研究。
Tel.: 18797181523; E-mail: yangshm528@126.com
O 657.3
A
1006-7167(2017)03-0013-03