文/馮曉星 許學(xué)
稻谷品種鑒別是目前農(nóng)業(yè)生產(chǎn)、育種篩選和種子檢驗(yàn)的重要問(wèn)題。傳統(tǒng)鑒別的辦法主要有形態(tài)學(xué)方法、熒光掃描鑒定法、化學(xué)鑒定法以及電泳鑒定法等。這些方法的普遍缺點(diǎn)是:檢驗(yàn)所需的時(shí)間長(zhǎng),操作要求的專業(yè)性強(qiáng)。隨著技術(shù)的發(fā)展,利用數(shù)學(xué)模型和計(jì)算機(jī)軟件計(jì)算可以幫助我們發(fā)明品種鑒別的新方法。
于慧春等[1]利用電子鼻對(duì)來(lái)自同一產(chǎn)地不同稻谷品種進(jìn)行測(cè)試,對(duì)獲取信息采用主成分分析(PCA)、Fisher判別分析(FDA)及BP神經(jīng)網(wǎng)絡(luò)(BP-ANN)共3種模式識(shí)別方法進(jìn)行品種鑒別。結(jié)果表明:結(jié)合合適的特征提取方法及模式識(shí)別方法,有可能實(shí)現(xiàn)對(duì)不同水稻品種鑒別的簡(jiǎn)單、有效的方法。李曉麗等[2]通過(guò)可見/近紅外光譜儀掃描獲得稻谷樣本的光譜信息,利用BP-ANN分析其主成分,正確率達(dá)到了96%。梁詩(shī)華等[3]提取米粒的面積、周長(zhǎng)等6個(gè)形態(tài)特征,基于支持向量機(jī)(SVM)的不同核函數(shù)對(duì)其進(jìn)行品種識(shí)別,識(shí)別的準(zhǔn)確率均達(dá)到96%以上。劉偉等[4]提取稻谷的多光譜圖像,基于SVM結(jié)合粒子群尋優(yōu)算法,稻谷品種鑒別正確率在90%以上。

圖1:BP神經(jīng)網(wǎng)絡(luò)示意圖

圖2
可以看出,機(jī)器視覺技術(shù)與計(jì)算機(jī)軟件結(jié)合的方法越來(lái)越廣泛地應(yīng)用于農(nóng)作物果實(shí)與種子的鑒別分選過(guò)程。然而,不同應(yīng)用場(chǎng)合條件要求各異,方法本身參數(shù)選取、鑒別時(shí)間和精度要求、訓(xùn)練和預(yù)測(cè)樣本的數(shù)量等,都會(huì)影響鑒別效果,目前,多種方法之間缺乏比較,因素影響考慮較少,導(dǎo)致不同應(yīng)用場(chǎng)合選擇方法不當(dāng),結(jié)果往往不是最有效的那個(gè)。本文利用多光譜成像技術(shù),提取稻谷樣本的光譜信息和圖像特征,在有無(wú)主成分分析的兩種情況下,分別建立基于SVM和BP-ANN兩種模型,對(duì)稻谷的鑒別效果進(jìn)行全面分析和對(duì)比,以期尋求鑒別方法與應(yīng)用場(chǎng)合的最佳匹配。
稻谷樣本由安徽省農(nóng)科院提供,共 5個(gè)品種,分別為徽兩優(yōu)6號(hào),國(guó)豐一號(hào)、II優(yōu)838、新兩優(yōu)223、荃兩優(yōu)616。選取完整、未發(fā)芽、無(wú)霉變的稻谷,每個(gè)品種100 粒,5個(gè)品種共500 粒,置于多光譜測(cè)量?jī)x內(nèi)進(jìn)行光譜測(cè)定和圖像特征提取。光譜測(cè)定共在19個(gè)波長(zhǎng)上進(jìn)行光譜特征檢測(cè),分別為405、435、450、470、505、525、570、590、630、645、660、700、780、850、870、890、910、940和970 nm。圖像特征參數(shù)共有8個(gè),分別為長(zhǎng)寬比、面積、圓度、CIElab色彩空間坐標(biāo)值(3個(gè))、強(qiáng)度和飽和度。最后將該27維的特征數(shù)據(jù)按品種類別保存為表格文件。
SVM算法建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上,主要解決小樣本、非線性及高維模式識(shí)別問(wèn)題,其基本思想是將輸入空間的樣本通過(guò)核函數(shù)映射到高維特征空間,在此求取能將樣本線性分類的最優(yōu)超平面,實(shí)現(xiàn)對(duì)未知樣本的分類判斷。不同的核函數(shù)將樣本變換到不同的特征空間。

表1:各分類模型運(yùn)行結(jié)果比對(duì)
本文選用4種常用的核函數(shù),分別是:
線性核函數(shù)(Linear Kernel Function,Linear),表示如下:

二次核函數(shù)(Quadratic Kernel Function,Quadratic),表示如下:

多項(xiàng)式核函數(shù)(Polynomial Kernel Function,Polynomial),表示如下:

高斯徑向基核函數(shù)(Gaussian Radial Basis Function,RBF),表示如下:

其中,線性核函數(shù)主要用于線性可分的情況,是最簡(jiǎn)單的核函數(shù)。多項(xiàng)式核函數(shù)適合于正交歸一化后的數(shù)據(jù),比較好用,但參數(shù)比較多。與之相比,RBF核函數(shù)所需參數(shù)較少,但對(duì)參數(shù)變化比較敏感,是SVM經(jīng)常用到的函數(shù)。Quadratic核函數(shù)則可作為高斯核的替代品,與之相比運(yùn)行速度較快。
BP-ANN算法是一種最有效的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,其主要特點(diǎn)是信號(hào)前向傳遞,而誤差后向傳播,通過(guò)改變加權(quán)值,使網(wǎng)絡(luò)的輸出盡量收斂于理想期望輸出,訓(xùn)練的目的就達(dá)到了。
BP-ANN結(jié)構(gòu)包括輸入層、輸出層和位于中間的隱含層,如圖1所示。通過(guò)設(shè)置隱含層的節(jié)點(diǎn)數(shù),隱含層與輸出層的傳遞函數(shù),訓(xùn)練函數(shù),訓(xùn)練次數(shù)和誤差閾值,網(wǎng)絡(luò)可以完成有監(jiān)督式的學(xué)習(xí)過(guò)程,并完成預(yù)測(cè)。
由前文可知每粒稻谷樣本的輸入特征維數(shù)高達(dá)27,變量的增加會(huì)提供豐富的信息,但反之工作量也增加了,而且,多數(shù)變量之間是相關(guān)的,必須綜合考慮,這無(wú)疑增加了問(wèn)題分析的復(fù)雜性。如果盲目減少指標(biāo)則會(huì)損失很多信息,容易產(chǎn)生錯(cuò)誤的結(jié)論。
因此需要在減少工作量和防止信息損失之間尋找到一個(gè)合理的方法,考慮到變量之間的相關(guān)性,利用降維的方法,綜合變量中的各類相關(guān)信息,而指標(biāo)數(shù)量減少,達(dá)到在信息損失很少而能快速全面分析所采集數(shù)據(jù)的目的。PCA就屬于這類降維的方法,通過(guò)對(duì)原始大量特征變量進(jìn)行轉(zhuǎn)換,使數(shù)目較少的新變量成為原變量的線性組合,新變量能最大限度地表征原變量圖2主分量得分比與累計(jì)得分比的數(shù)據(jù)結(jié)構(gòu)特征。將特征的主成分得分進(jìn)行排序,如圖2所示,由原始特征數(shù)據(jù)經(jīng)主成分提取得到的前4個(gè)主成分的累計(jì)得分比已達(dá)到了98.94%。所以可以選擇前3~5個(gè)主成分進(jìn)行品種鑒別,達(dá)到了降維的目的。
將5個(gè)品種稻谷共500個(gè)樣本隨機(jī)分為訓(xùn)練集和測(cè)試集,每個(gè)品種稻谷各取70個(gè)共350個(gè)樣本作為訓(xùn)練集,其余每個(gè)品種稻谷30個(gè)共150個(gè)作為測(cè)試集,若要進(jìn)行PCA,選取前4個(gè)主成分作為新的特征變量。在MATLAB2011a環(huán)境下,利用libsvm工具箱和BP-ANN工具箱,本文算法流程如圖3所示。
SVM核函數(shù)分別選擇前述4個(gè)核函數(shù),核函數(shù)中的參數(shù)選擇,會(huì)對(duì)鑒別結(jié)果造成很大影響。以RBF核函數(shù)為例,核參數(shù)σ和懲罰因子C,與映射后樣本的分布密切相關(guān),必須慎重選擇。σ的大小反映了分類器的容量,容量過(guò)大,分類器學(xué)習(xí)能力很強(qiáng),但泛化性能很差,即過(guò)學(xué)習(xí);反之,容量過(guò)小,可供學(xué)習(xí)的支持向量樣本數(shù)不足,又會(huì)出現(xiàn)欠學(xué)習(xí)現(xiàn)象。而懲罰因子C反映了對(duì)離群點(diǎn)帶來(lái)?yè)p失的重視程度,C越大,分類器的VC維增大,分類間隔減小,錯(cuò)分樣本減少,但泛化性能會(huì)變差,反之亦然。因此,選取σ值分別為2的m次方,m=(-2,-1,0,1,2)。C值分別為10的n次方,n=(-3,-2,-1,0,1,2,3)。通過(guò)多次實(shí)驗(yàn)試湊比較不同取值組合對(duì)品種鑒別的影響,結(jié)果發(fā)現(xiàn)當(dāng)σ=1、C=10時(shí)鑒別效果最好。

圖3:算法流程圖
BP-ANN算法的特點(diǎn)是需要經(jīng)過(guò)多次迭代,才能使網(wǎng)絡(luò)學(xué)習(xí)的誤差收斂至預(yù)設(shè)的精度范圍內(nèi)。因此,網(wǎng)絡(luò)的學(xué)習(xí)時(shí)間、迭代次數(shù)和最終達(dá)到的誤差精度是衡量BP-ANN性能的重要指標(biāo),設(shè)置隱含層神經(jīng)元數(shù)為20,其與輸出層傳遞函數(shù)均為tansig,訓(xùn)練函數(shù)為trainlm,訓(xùn)練次數(shù)為200,預(yù)測(cè)誤差閾值為1e-20。當(dāng)運(yùn)行達(dá)到訓(xùn)練次數(shù)或超過(guò)誤差閾值,則停止運(yùn)行。
將本文算法訓(xùn)練所得模型對(duì)測(cè)試集樣本進(jìn)行鑒別預(yù)測(cè),并將預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
表1中,A~E為稻谷種類編號(hào),分別對(duì)應(yīng)稻谷品種徽兩優(yōu)6號(hào),國(guó)豐一號(hào)、II優(yōu)838、新兩優(yōu)223和荃兩優(yōu)616。后綴1為不進(jìn)行PCA的分類結(jié)果,后綴2為先進(jìn)行PCA降維,再分類的結(jié)果。由結(jié)果可以看出:
(1)在基于SVM的情況下,不進(jìn)行PCA時(shí),利用Linear核函數(shù)的分類效果較好,說(shuō)明在處理高維特征變量時(shí),Linear核函數(shù)有一定優(yōu)勢(shì);
(2)當(dāng)PCA降維后分類時(shí),RBF核函數(shù)效果較好,說(shuō)明RBF核函數(shù)比較適合處理低維特征變量的數(shù)據(jù)。PCA處理對(duì)兩類多項(xiàng)式核函數(shù)的最終分選結(jié)果影響不大。PCA的目的在于降低特征變量的維度,使得處理過(guò)程更加高效,但PCA有可能使得信息損失,因此選擇合適的主成分個(gè)數(shù)是很重要的;
(3)相比SVM,BP-ANN的分類效果要更好一些,說(shuō)明BP-ANN在這種多類分選的問(wèn)題處理上有較大的優(yōu)勢(shì),但BP-ANN訓(xùn)練過(guò)程時(shí)間較長(zhǎng),設(shè)置參數(shù)較多,且容易形成局部極小值而得不到全局最優(yōu)值。
本文應(yīng)用多光譜測(cè)量?jī)x提取稻谷光譜信息及圖像特征,基于SVM和BP-ANN兩類數(shù)學(xué)模型,對(duì)其品種鑒別問(wèn)題進(jìn)行了研究。對(duì)于這5類稻谷品種,從分類結(jié)果上來(lái)說(shuō),BPANN要優(yōu)于SVM。然而,核函數(shù)及其內(nèi)部參數(shù)的選擇,對(duì)其性能影響巨大,選用合適的算法,對(duì)內(nèi)存參數(shù)進(jìn)行優(yōu)化,品種鑒別正確率還將進(jìn)一步提高。因此核函數(shù)的參數(shù)尋優(yōu)仍然是一個(gè)開放的、可進(jìn)一步深入研究的問(wèn)題。