黃勁潮
(龍巖學院 繼續教育學院,福建 龍巖 364000)
基于廣義回歸神經網絡的薄荷屬植物的分類識別
黃勁潮
(龍巖學院 繼續教育學院,福建 龍巖 364000)
薄荷屬植物易雜交以致多型性現象嚴重,對于薄荷屬植物的分類主要采用分類檢索表法或數量分類法等,但這些方法花費的時間與物力較大。選取了薄荷屬植物類別區分的一些強相關屬性作為訓練組,構建了廣義回歸神經網絡來對薄荷屬植物進行分類、識別,在保證準確度的同時也兼顧了識別的速度。同時,該模型也可用來識別薄荷屬植物的某種屬性是否與類別區分強相關。
GRNN;薄荷屬;分類;識別
薄荷屬植物在我國分布廣泛,由于其易雜交以致多型性現象嚴重。對于薄荷屬植物的分類和識別,不僅有助于了解薄荷屬植物的親緣關系,對于農業生產和植物學來說也是必不可少的工作。目前對于各種不同的薄荷品種,主要使用分類檢索表法作為鑒定方法[1];房海靈提出一種可以利用數量分類學對薄荷屬植物分類進行研究的方法[2]。但這些方法都存在花費時間較多,需要投入大量的財力物力的缺點。
本文采用有導師學習神經網絡中的廣義回歸神經網絡(GRNN)來對薄荷屬植物進行分類和識別。廣義回歸神經網絡作為一種有導師學習神經網絡,它具有非常好的學習能力。因此它被應用于許多領域中,研究者多用它來解決擬合回歸問題,實際上它也可以用于模式識別、分類識別[3]。
1.1 廣義回歸神經網絡的結構
廣義回歸神經網絡由Specht提出的,它是一種基于非線性回歸理論的前饋式神經網絡模型。廣義回歸神經網絡來源于RBF神經網絡,是它的一個分支[4]。
廣義回歸神經網絡和一般的RBF神經網絡一樣由輸入層、隱含層和輸出層組成,它的結構如圖1所示。輸入層的工作是把樣本數據輸入到中間層隱含層,在輸入層不進行運算。在中間層擁有和訓練集合樣本數一樣多的神經元節,它使用歐氏距離函數作為權值函數(記做||dist||),權值函數可以計算出輸入層權值IW1,1與神經網絡輸入值之間的距離,其中,隱含層的閥值是b1。第二層采用徑向基函數(一般采用高斯函數)作為傳遞函數。神經網絡第三層是輸出層,它是線性的。輸出層采用規范化點積權函數(nprod)作為它的權函數,并使用向量n2來計算網絡,它使用向量al和權值矩陣LW2,1每行元素的點積再除以向量al的各元素之和得到的了元素,并將算出的向量n2輸出給線性傳遞函數

最終得到神經網絡的輸出值[4]。

圖1 廣義回歸神經網絡的結構
1.2 廣義回歸神經網絡算法結構
廣義回歸神經網絡的學習算法從結構上看,與RBF神經算法比較相似,主要區別在于第三層輸出層。下面給出廣義回歸神經網絡算法與實現步驟。
1.2.1 確定第二層隱含層神經元的徑向基函數中心
不失去一般性意義,假設使用的訓練集樣本輸入矩陣I和輸出矩陣O如下

在式(1)中,iab代表著第b個訓練樣本的第a個輸入變量;而oab代表了第b個訓練樣本的第a個輸出變量;C代表輸入變量的維數;D代表輸出變量的維數;Q為訓練集含有的樣本數量。
GRNN的第二層隱含層擁有和訓練集合樣本數一樣多的神經元節,即如果有Q個隱含層神經元,那么徑向基函數中心為

1.2.2 確定第二層隱含層的神經元閾值
如果有Q個隱含層神經元,那么相應的神經元閾值為

在式(3)中,

spread代表了徑向基函數的展開速度。
1.2.3 確定第二層與第三層之間權值
當1、2步驟中的第二層中的神經元的徑向基函數中心及神經元閾值確定后,二層神經元節的輸出輸出便如式(4):

其中,oi=[oa1,oa2,…,oaR]代表了第a個訓練樣本矢量。
并記

廣義回歸神經網絡中二層到與三層間的連接權重值w取為訓練集的輸出矩陣,如式(5):

1.2.4 確定第三層輸出層神經元節點輸出值
當步驟3中的二層到三層的連接權值確定后,根據圖1結構圖,就可以確定第三層神經元節點的輸出值,如式(6):

1.3 廣義回歸神經網絡的優點
廣義回歸神經網絡比起傳統的BP神經網絡,具有如下優點:
神經網絡不需要迭代,只要單向訓練就可以。
隱含層擁有和訓練集合樣本數一樣多的神經元節,意味著神經元節數量由訓練樣本集數量自行確定。
神經網絡不同層間權重值由訓練樣本集確定,不用像BP網絡那樣每次迭代后再修改權值。
第二層節點的激活函數一般使用高斯函數,它對輸入層輸入信息有局部激活特效。他的特點是如果輸入相似于局部神經元節的特征的輸入值吸引力特別強。
1.4 GRNN的MATLAB工具箱函數
函數newgrnn用于創建一個GRNN,其調用格式如下:

其中,P為網絡輸入向量;T為網絡目標向量;spread代表了徑向基函數的展開速度(默認為1.0);net為創建好的GRNN。
2.1 思路步驟
本文從下列兩個方面對薄荷屬的分類進行研究:
(1)利用GRNN建立薄荷識別模型,并對模型的性能進行評價。
(2)利用GRNN建立薄荷不同屬性及不同屬性組合與薄荷種類間的識別模型,并與(1)式中所建模型的進行比較,可以識別薄荷屬植物的某種屬性是否與類別區分強相關。
實現GRNN的模型建立及性能評價,大體上可以分為以下幾個步驟,如2所示。

圖2 GRNN建模步驟
2.2 生成訓練集與測試集
薄荷屬從外觀上看,主要區別在于它的葉片。薄荷葉片的顏色、形狀會隨著不同的生長期而有所不同,但在相同生長期的同類別(紫莖、青莖)之間,差異不大[5]。最終我們挑選了種植較廣的三種薄荷作為訓練樣本:日本薄荷Marvensis、椒樣薄荷M.piperita、留蘭香薄荷Mspicata;同時我們選擇樣本葉片外觀區別較為明顯的四種屬性:葉片形狀、葉片顏色、葉片長度和葉片寬度作為輸入樣本屬性。
現采集到150組不同類型薄荷(三種薄荷各50組)葉片的4種屬性:形狀、顏色、長度和寬度,樣本編號與4種屬性的關系如圖3所示(其中,樣本編號1-50為Marvensis,51-100為M.piperita,101-150為Mspicata)。根據圖1點的排列分布,可以直觀看出葉片形狀、長度、寬度三圖中不同薄荷類型間有較好的線性關系,而葉片顏色不同薄荷類型間呈現出非線性的關系。

圖3 四種屬性與樣本編號
不失去一般性意義,這里采用隨機法產生訓練集與測試集。如前文所述,iris-data.Mat數據文件中包含兩個變量:features和classes,分別對應薄荷的屬性及類別。在各個類別的50個樣本中分別隨機選取40個樣本(三類共120個)構成訓練集,剩余的10個樣本(三類共30個)作為測試集。
2.3 建立模型
產生訓練集及測試集后,利用MATLAB自帶的神經網絡工具箱函數newgrnn,進行GRNN創建及仿真測試。具體程序如下:


2.4 性能評價
模型建立及仿真測試后,通過計算測試集的預測正確率以及程序運行時間,便可以對模型的性能進行綜合評價。
其中result-grnn為30行10列的矩陣,對應表1中的10個模型。

表1 十個模型的輸入變量
其中,“○”標示對應的輸入屬性參與模型的建立。
2.5 結果分析
由于訓練集和測試集是隨機產生的,因此每次運行時的結果亦會有所不同。圖4、圖5所示為某次程序運行所得結果。從圖4可以發現,GRNN模型30次預測,27次命中,測試集預測正確率達90.0%,具有良好的泛化能力。從圖5看出,GRNN 10個模型的平運行時間在50 ms左右,速度較快。
如表1所列,利用4個屬性(葉片形狀、葉片顏色、葉片長度、葉片寬度)建立的模型編號分別為1、5、8、10。表2描述了與之對應的GRNN模型的測試集正確率。

圖4 測試集預測結果

圖5 十個模型運行時間

表2 四屬性分布建立的模型測試集正確率
由表2中可以看出,葉片顏色單獨建立的GRNN模型(模型編號為5)性能不佳,正確率只有36.7%;用葉片形狀、葉片寬度和葉片長度單獨建立的GRNN型(模型編號分別為1、8和10)性能較好,正確率分別達90.0%、76.7%和93.3%。這表明葉片顏色與薄荷類別的相關性較小,而葉片形狀、葉片寬度和葉片長度與薄荷類別的相關性較大,該結論與圖3中呈現的規律一致。
GRNN具有良好的泛化性能,其權值和閾值由訓練樣本一步確定,無須迭代,計算量小。本文首先參考文獻,選取了150組薄荷屬植物(3種不同的薄荷各50組)的4種屬性:葉片形狀、葉片顏色、葉片長度和葉片寬度,作為構建GRNN神經網絡的訓練與測試樣本,建立了基于GRNN的薄荷屬種類識別模型,進一步對薄荷屬植物進行分類;同時建立了各個屬性及屬性組合與薄荷屬類的識別模型,探求各個屬性及屬性組合與薄荷屬種類的相關程度。得到構建后的GRNN模型與薄荷屬植物強相關屬性或屬性組合后,只需要對新的薄荷屬植物測量該強相關屬性組合值,就可以較為準確的對新植物進行識別。
應當看到,作為訓練組所選取的薄荷的種類數量、樣本組數、強相關屬性越多,構建出的GRNN模型預測的精度越高。同時,該模型也可作為篩選薄荷屬植物強相關屬性的一種方法。
[1] 樂云辰.薄荷屬不同植物品種遺傳關系分析[D].上海:上海交通大學,2008.
[2] 房海靈.薄荷屬植物的數量分類[J].安徽農業科學,2007,35 (26):8181-8183.
[3] 史峰,王輝,胡斐,郁磊.MATLAB智能算法30個案例分析[M].北京航空航天大學出版社,2011.
[4] 裴亞丹.基于多目視覺的適境計算理論研究.[D].北京:北京交通大學,2012.
[5] 張永清,劉合剛.藥用植物栽培學[M].北京:中國中醫藥出版社, 2013:372-380.
(責任編輯、校對:田敬軍)
Classification and Recognition of Mentha Based On the Generalized Regression Neural Network
HUANG Jin-Chao
(College of Continuing Education, Longyan University, Longyan 364000, China)
Mentha is easily to hybrid that polymorphism phenomenon is serious, therefore, the classification of Mentha mainly uses classification method or the number of classification and so on, but it spends a lot of time and effort of these methods. This paper selects some strong related attributes of plant category distinctions of Mentha as the training set, constructs the Generalized Regression Neural Network with mentors to classify and recognize Mentha, and ensures the accuracy and the recognition speed. At the same time, the model can also be used to tell whether some certain attribute of Mint is strongly related with classification recognition or not.
GRNN; Mentha; classification; recognition
TP301.6
A
1009-9115(2015)02-0045-04
10.3969/j.issn.1009-9115.2015.02.014
龍巖學院校立服務海西項目(lyxy2011057)
2014-07-17
黃勁潮(1980-),男,福建莆田人,碩士,講師,研究方向為數據庫、算法、網絡安全。