榮 菡, 廖書嫣, 劉欣宇, 梅澤桐, 李 亮
(1.北京理工大學珠海學院材料與環境學院,廣東 珠海 519088;2.北京理工大學珠海學院數理與土木工程學院,廣東 珠海 519088;3.江西省宜春市食品藥品檢驗所,江西 宜春 336000)
蒼耳是菊科植物蒼耳XanthiumsibiricumPatr.的干燥地上部分成熟帶苞的果實,具有散風寒、通鼻竅、祛風濕等功效[1]。我國蒼耳屬植物主要有蒼耳、蒙古蒼耳、偏基蒼耳、刺蒼耳等。
在蒼耳摻偽鑒別中,王俊等[1]提取蒼耳藥材以及混偽品的基因DNA,應用ITS2序列并測序,將其區分。基于性狀的不同,常常以大小、性狀、顏色、質感加以感官鑒別,誤差較大;理化檢驗一般根據蒼耳化學成分,采用薄層層析法、紫外光譜法、色譜法等方法[2-3]進行處理,需要使用大量有機試劑,費時繁瑣,針對其中個別成分的特征響應,有時亦難評價其質量標準的整體性。
近紅外光譜技術具有結構信號量豐富、測量形式多樣化、操作簡便、重現性好等優勢,常常與化學計量學聯用,對檢測對象進行快速無損的定性和定量檢測[4-5]。基于決策樹二叉樹歸納學習算法,具有能夠自組織學習,快速處理高度相關的多維數據結構矩陣變量的優點,可形成分類器和預測模型,廣泛用于農業工程[6]、礦業工程[7]、遙感氣象[8-9]等領域。
基于近紅外光譜技術與決策樹算法聯用,建立快速鑒別蒼耳摻偽的模式識別模型,能夠為實現大樣本量的蒼耳藥材品質評價。
試驗共采集正品蒼耳、蒙古蒼耳、偏基蒼耳、刺蒼耳共194批,共450例樣本,每批樣本重復3次,經江西中醫藥大學陳天朝主任藥師鑒定為正品蒼耳藥材、蒙古蒼耳、偏基蒼耳三類,樣品信息見表1。其中江西、湖南產地鑒定為蒙古蒼耳,與付曉梅等[10]對江西省蒼耳屬植物資源的調查結果一致。每批樣品均取其干燥莖,粉碎成粉末,過三號篩(50目)后,裝入直徑約6 cm、高約4 cm的圓形無色玻璃小瓶,并使瓶中粉末厚約3 cm,25 ℃條件下密封備用。配制分別摻有蒙古蒼耳、偏基蒼耳、刺蒼耳的偽品,摻偽含量為1%~90%。
傅里葉變換拓展近紅外光譜儀及近紅外光纖探頭(美國賽默飛公司)。所有樣本分為訓練集、校準集、預測集,供建模使用。

表1 樣品信息
2.1 近紅外譜圖采集 樣品充分混合均勻,放置于近紅外光譜測試室,用光纖探測頭對樣品進行光譜采集。掃描條件為PbS檢測器,白光光源;增益為1.0;動鏡速度為0.632 9;掃描范圍12 000~4 000 cm-1;掃描次數為72次,分辨率為8 cm-1;采集溫度平衡在21 ℃。扣除內置參比背景,每個樣品采集不同部位的6次譜圖,取其平均光譜為代表光譜,見圖1。正品蒼耳與摻有蒙古蒼耳、偏基蒼耳、刺蒼耳等偽品的近紅外光譜形態非常相似,無法直接進行區分,需要采用化學計量學方法進行光譜處理。

圖1 蒼耳近紅外光譜圖
2.2 分類回歸決策樹算法 分類回歸決策樹是一種結構簡潔的二分遞歸的二叉樹,包括2個階段構建決策樹和剪枝[10]。首先利用訓練集樣本進行遞歸劃分自變量空間建立決策樹,再用驗證集樣本進行剪枝,以克服訓練樣本集數據噪聲的同時,能夠準確把握分類的特征信息,提高模型的精確度。CART分類樹算法常用基尼系數(Gini)代表模型的不純度[10-11]。流程見圖2。

圖2 CART決策樹算法原理
3.1 光譜數據預處理 光譜數據預處理能夠將基線漂移及光程的變化對光譜響應所產生的影響降到最低,同時使樣品粉末粒徑大小和均勻度發生的漫反射影響減小。常用的數學預處理方法有一階微分、二階微分、Savitzky-Golay(SG)濾波平滑、Norris Derivative(ND)濾波平滑、多元散射校正(MSC)以及矢量歸一化(SNV)等。采用一階導數結合矢量歸一、ND濾波平滑時,模型判別準確率最高,見表2。

表2 不同預處理方法的模型判別準確率
3.2 主成分分析 由于光譜數據繁雜,變量多,需要采用主成分分析法(PCA)對光譜數據進行壓縮和降維,能夠在最大程度代表樣品信息。樣品光譜數據經PCA處理后主成分得分,如表3所示,當提取8個主成分時,累計貢獻率信度得分達99.875%,幾乎可涵蓋樣品信息。

表3 主成分分析法處理后主成分貢獻率信度得分
3.3 構建蒼耳摻偽種類的定性判別模型 樣品分成訓練集265例樣品,預測集185例樣品,采用CART算法,應用python軟件建模。其中建模函數包含三個主要參數,“max_depth”“min_samples_split”“min_samples_leaf”,能夠影響決策樹的生成和剪枝,從而直接影響模型預測結果的精確度[11-12]。
根據樣本大小和摻偽體系的復雜程度,以及決策樹“最大深度max_depth”“最小內部分裂節點樣本數min_samples_split”“最小葉節點樣本數min_samples_leaf”參數之間的相互作用,將“max_depth”范圍設置為3~12,“min_samples_split”范圍設置為6~12,“min_samples_leaf”設置為2、4、8,考察模型預測判別準確率,以模型的擬合程度作為評判依據,從而確定優化參數。
圖3是建模時“min_samples_split”參數分別取值6、8、10、12時模型預測的擬合結果。當“min_samples_split”參數取值為6時,對模型預測準確率的影響因素最為密切,模型預測時擬合值最高。同時,當“max_depth”參數取值大于10時,模型定性判別預測的擬合值并無明顯變化,因此將“max_depth”參數設置為3~12是合理的,既最大程度代表了樣品信息,又避免模型過擬合。
比較“min_samples_leaf”參數分別取2、4、8時,模型訓練時的擬合值分別為97.14%、83.33%、77.38%,可以發現,當“min_samples_leaf”參數取2時,模型擬合值越高。
建模時實施網格搜索和交叉驗證,在合理的參數范圍內,優化參數能夠獲得可靠的結果。建模參數“最大深度max_depth”為7,“最小內部分裂節點樣本數min_samples_split”為6,“最小葉節點樣本數min_samples_leaf”為2。
3.4 蒼耳摻偽種類模型的模式識別 根據建模參數,提取所有樣品的8個主成分,21個特征吸收峰(V)的特征矩陣信息,構建基于決策樹算法,快速識別蒼耳正品、蒙古蒼耳、偏基蒼耳、刺蒼耳摻偽的定性判別模型。模型對預測集樣品的判別結果見圖4。
當基尼系數為0時,樣本的各個特征子集在當前條件下處于較正確的分類,會以葉節點的形式作為分割結束,否則對子集進行再次的最優特征選取和分割,直到每個子集都被分配到葉節點為止,生成完整的決策樹[13]。模型以二分叉的形式,通過自組織學習訓練,最終將預測集樣品模式識別為4類。模型對185例預測集識別準確率達95.23%,識別結果良好,其中刺蒼耳和偏基蒼耳全部識別準確,12例來自江西、湖南的蒙古蒼耳被錯判為正品,來自8例來自河北的蒙古蒼耳被錯判為正品。
3.5 構建蒼耳摻偽量的定量預測模型 采用CART回歸算法,建立蒙古蒼耳、偏基蒼耳、刺蒼耳摻偽量的定量預測模型。模型實施包括模型訓練和再預測。通過不同種類的蒼耳摻偽樣品,經主成分分析后,提取特征作為模型的輸入向量,優化參數并訓練模型,直至模型預測精度良好且穩定。大批樣本的蒼耳近紅外光譜掃描后,相關數據直接代入已建好的預測模型中,通過機器學習,顯示輸出摻偽量的預測值。
建立模型執行內部交叉互驗法,一般用模型的擬合相關系數和模型評分來評價模型的預測效果和精度。當最大深度max_depth參數值大于5時,模型得分不變。為避免過度學習發生,選擇最大深度max_depth參數為5即可。通過比較最小內部分裂節點樣本數min_samples_split為2、4、8,并考慮到決策樹的生長原則和樣本量訓練情況,最小內部分裂節點樣本數min_samples_split為4時即可滿足建模需要。預測模型的擬合得分為0.975 1,預測精度良好,見圖5。

圖5 蒼耳摻偽量定量預測模型的建立
3.6 摻偽量定量預測模型結果 通過真實值與預測值之間通過交互驗證,真實值與預測值相對偏差小,擬合相關系數值為0.991 3,模型的預測能力較好,見表4。

表4 CART回歸模型對預測集樣品摻偽量結果
3.7 重現性 模型預測能力重現性是衡量所建模型可靠性的重要指標。以標準差為指標,對同一未知樣品近紅外光譜掃描8次后,模型預測得到的摻偽量分別為10.77、10.76、10.96、10.81、11.02、10.62、10.75、10.65,實際摻偽量10.87,誤差為0.132,說明模型重現性好。
此外,采用ICC組內相關系數對模型進行一致性分析,用于比較模型預測結果與實際值一致性,可衡量來自不同產地的多數據樣本建模的包容程度。通過SPSS軟件對模型預測集數據進行ICC分析后,得到的一致性分析的結果為0.925,說明該模型的一致性程度高,可滿足大樣本蒼耳整體品質評價。
4.1 光譜數據波段選擇與預處理 波譜圖中12 000~11 800、4 200~4 000 cm-1光譜范圍為噪聲干擾峰,7 500~6 500、5 500~5 000 cm-1光譜區間為水分子倍頻和合頻吸收峰。為排除干擾峰和水分含量差異造成的影響,將上述4個波段區間進行剔除。而波譜11 800~7 500 cm-1范圍內幾乎沒有吸收信號,故將全譜段分成6 500~5 500、5 000~4 200 cm-1區間進行分析。采用一階導數結合矢量歸一、ND濾波平滑進行處理,能夠校正樣品顆粒散射引起的光譜誤差,減少光譜基線漂移,提高建模靈敏度。
4.2 CART決策樹算法分類 在模型預測集185例樣本的自組織訓練中,包含正品蒼耳66例、摻偽蒙古蒼耳48例、摻偽偏基蒼耳35例、摻偽刺蒼耳36例,發現來自河北、河南區域的蒼耳正品容易識別為整體分類,來自甘肅、陜西、四川區域的蒼耳正品識別為整體分類;摻偽蒙古蒼耳的內蒙古、黑龍江容易識別為整體分類,而來自江西、湖南的摻偽蒙古蒼耳更易聚成一類,其中有12例被歸為正品蒼耳類,來自河北的蒙古蒼耳8例亦判為正品蒼耳。來自河南區域的摻偽刺蒼耳能夠最早被模式識別且預測準確。來自廣東、福建區域的摻偽偏基蒼耳亦容易識別為整體分類,說明容易識別歸為整體類的樣品質量相似,可能與蒼耳生長年限、產地氣候、光照雨量、采收季節等因素相關。此外,江西、湖南等地的蒙古蒼耳被判為正品,但不同區域的蒼耳化學成分會隨著地理氣候相應發生動態變化,是模型識別錯判的原因之一。
4.3 建模算法與驗證 蒼耳來源地域廣泛,因產地、季節、品種等因素產生的差異較大,采用不同區域來源的大樣品量數據,需要通過一致性檢驗驗證組內相關系數,得到可靠且預測精度較高的模型。根據CART決策樹算法特點,通過科學的剪枝優化,模型經過訓練,能將以二叉樹將三類摻偽蒼耳與正品蒼耳快速識別。
采用近紅外光譜結合PCA法,提取8個主成分的21個特征向量,基于決策樹CART算法建立快速鑒別蒼耳摻偽類別以及摻偽量預測的模式識別模型,模型可靠、訓練快速、預測精度良好。基于化學計量學與機器學習算法聯用,能夠為蒼耳品質的在線檢測與評價提供一種無損環保的新方法。