任強 桑世葉 劉長寧



摘要:文章以傳統形態學分類方法為依托,基于隨機森林算法,結合網站開發,設計并開發了重樓屬植物在線分類鑒定系統。該系統操作簡便,分類鑒定效果好,可用于重樓屬植物16個種及5個變種的分類鑒定,能夠在一定程度上為研究重樓的科研工作者和從事重樓屬藥用植物開發行業的工作人員提供幫助。
關鍵詞:重樓屬;隨機森林;網站開發;分類鑒定
中圖分類號:TP181
文獻標識碼:A
文章編號:1006-8228(2020)09-72-04
Design and implementation of Paris plants online classification and identification system
Ren Qiang1, Sang Shiye2, Liu Changning1
(1. Xishuangbanna Tropical Botanical Garden Chinese Academy of Scienres, Xishuaizgbanna, Yunnan, 666303, China;2.University of Chinese Academy of Sciences)
Abstract: Based on the traditional morphological classification method and Random Forest algorithm. combined with websitedevelopment, this paper designed and developed an online classification and identification system for plants Paris. The system iseasy to operate and has good classification and identification effects. It can be used for the classification and identification of 16species and 5 variants of Paris. To a certain extent, it can provide assistance to scientific researchers and workers engaged in thedevelopment of medicinal plants belonging to Paris.
Key words: Paris; Random Forest; website development; classification and identification
0引言
重樓屬(Paris)是種子植物黑藥花科(Melanthiaceae)家族中的一員,為多年生草本植物[1]。重樓是一味名貴的野生中藥材,全株皆可入藥,在民間習稱草河車、蚤休、七葉一枝花等,具有清熱解毒、涼肝定驚、消腫止痛之功效,可用于治療癰腫、毒蛇咬傷、咽喉腫痛、跌打傷痛、驚風抽搐等病癥[2]。
由于本屬植物的種類較多,而且其外貌特征極為相似:一個莖,一輪葉,頂生一朵花,不容易確定劃分種以上各級單位的指標[3]。當前重樓種苗的鑒定主要根據外觀形態特征鑒定,存在主觀性強的缺點,即使是有經驗的專家也難以準確鑒定。這給研究重樓的科研人員和從事重樓種植及開發的工作者帶來很大的困擾,特別是在缺少花、果時,重樓種子、種苗缺少有效方法來鑒別,無法確定重樓物種信息的真實性,藥材質量難以得到保障[4]。一旦種子種苗的源頭出錯,將會給科研人員和種植戶帶來很大損失。因此,建立起準確、高效的重樓分類鑒定系統是十分必要的。
為了滿足科研工作者和種植戶對重樓屬植物分類鑒定的需求,本文以隨機森林算法為基礎設計了并開發了重樓屬植物在線分類鑒定系統。
1隨機森林算法原理
隨機森林(Random Forest)是一種基于決策樹(Decision Tree)的集成算法,是目前機器學習和數據挖掘領域最流行的分類與回歸算法之一。決策樹[5]是一種廣泛應用的樹狀分類器,在樹的每個節點通過選擇最優的分裂特征不停地進行分類,直到達到建樹的停止條件。一般情況下,決策樹具有很好的準確率,但是當數據復雜時,就會遇到性能提升的瓶頸。隨機森林以決策樹為基分類器來構建集成分類器,為了產生有差異的分類器,隨機森林算法在構建森林的過程中采用了兩個“隨機”[6]。首先,采用有放回的裝袋法(Bagging)進行Bootstrap抽樣,制造有隨機差異的訓練樣本集;然后,隨機選擇屬性對內部節點進行分裂從而形成單棵決策樹;最后,重復上述兩個步驟建立大量的決策樹,就生成了隨機森林。隨機森林中包含多個由Bagging集成學習算法訓練得到的決策樹,在輸入待分類測試樣本集后,由單個決策樹的輸出結果進行投票,所得票數最多的分類結果即為隨機森林的最終輸出結果。隨機森林解決了決策樹性能瓶頸的問題,對噪聲和異常值有較好的容忍性,對高維數據分類問題具有良好的可擴展性和并行性。
2分類系統開發
2.1分類模型構建
通過隨機森林算法解決多分類問題,可以從數據采集、數據預處理、模型建立、結果預測幾個階段給出解決方案。
2.1.1數據采集
根據《重樓屬植物》一書中對重樓不同種的形態特征描述,并結合“CHV中國數字植物標本館”中重樓屬植物各種的標本信息,采集其形態學分類特征數據。重樓屬植物分類的相關特征經過文獻調研最終確定為31個。共采集包含重樓屬植物15個種及6個變種的形態學分類特征信息共2022條。具體統計信息如圖1所示。