葉磊,韋克蘇,李德侖,張富貴,吳雪梅
(1.貴州大學(xué)機(jī)械工程學(xué)院,貴陽(yáng)市,550025;2.貴州省煙草科學(xué)研究院,貴陽(yáng)市,550025)
烤煙是貴州省農(nóng)村地區(qū)一項(xiàng)重要的經(jīng)濟(jì)作物,煙葉的等級(jí)評(píng)定是煙草行業(yè)的一項(xiàng)基礎(chǔ)性生產(chǎn)環(huán)節(jié)。我國(guó)烤煙的分級(jí)標(biāo)準(zhǔn)主要是依據(jù)煙葉的顏色特征、形狀特征、油分特征和成熟度特征等四大特征來(lái)判別一張煙葉等級(jí)歸屬。目前,國(guó)內(nèi)外已有研究將高廣譜技術(shù)應(yīng)用于煙葉葉片化學(xué)成分快速分析,煙葉生長(zhǎng)狀態(tài)檢測(cè),煙葉成熟度檢測(cè)、以及煙葉分級(jí)等領(lǐng)域,如楊艷東[1]、劉良云[2]、Sun[3]、Jia[4]、鄒勇[5]、李夢(mèng)竹[6]、黎瑞君[7]等采用高光譜圖像技術(shù)建立了烤煙葉片化學(xué)成分快速預(yù)測(cè)模型,取得了較好的預(yù)測(cè)效果;殷全玉等[8]在研究中發(fā)現(xiàn)不同品種,不同部位的煙葉葉面對(duì)光譜反射率之間的存在差異;劉印峰[9]通過(guò)對(duì)烤煙植被的波普特性分析,發(fā)現(xiàn)利用紅波普吸收峰的面積可以較好的區(qū)分煙葉與其他植被;鄭小雨[10]、余志虹[11]、韓龍洋[12]等通過(guò)對(duì)不同波段下鮮煙葉光譜反射率的差異建立煙葉成熟度監(jiān)測(cè)模型,對(duì)上部煙、中部煙的成熟度具有較好的預(yù)測(cè)效果;劉藝琳等[13]基于光譜數(shù)據(jù)建立烤煙部位判別模型,識(shí)別率較高;于春霞等[14]對(duì)不同部位煙葉的近紅外光譜進(jìn)行了相似性分析,建立了基于SIMCA算法的相似性分析數(shù)學(xué)模型,結(jié)果表明,基于近紅外光譜的煙葉部位相似性分析結(jié)果與實(shí)際煙葉部位之間的相似程度是相符的。周漢平等[15]以NIR的不同波長(zhǎng)范圍內(nèi)采用偏最小二乘法建立了煙葉的NIR預(yù)測(cè)模型,并指出油分預(yù)測(cè)模型在16階時(shí),預(yù)測(cè)模型的準(zhǔn)確率最高。
隨著對(duì)高光譜技術(shù)在煙草領(lǐng)域研究的不斷深入,利用高光譜技術(shù)創(chuàng)建煙葉分級(jí)系統(tǒng)的研究成果豐富,其原理是在高光譜圖像的基礎(chǔ)上通過(guò)提取能夠表征煙葉屬性的特征,利用大量的樣本特征結(jié)合多種分類器進(jìn)行學(xué)習(xí)訓(xùn)練,建立基于高光譜信息的預(yù)測(cè)模型,對(duì)煙葉等級(jí)進(jìn)行評(píng)判,以獲得較好的預(yù)測(cè)效果。那么對(duì)于煙葉高光譜特征的選擇將直接影響預(yù)測(cè)模型的性能,大量冗余的特征不但會(huì)增加分類模型的復(fù)雜度,還會(huì)降低分級(jí)準(zhǔn)確率。因此如何選擇有效特征,對(duì)于預(yù)測(cè)模型的好壞具有重要意義。
目前對(duì)于特征篩選的方法主要分為Filter方法與Wrapper方法[16],其中Filter方法包括卡方檢驗(yàn)法[17]、信息增益法[18]、相關(guān)系數(shù)法[19]等,其原理是賦予每一維特征權(quán)重,依據(jù)權(quán)重大小對(duì)特征進(jìn)行排序,最后選取權(quán)重占比較大的特征去訓(xùn)練分類器,而舍棄權(quán)重占比小的特征,這種脫離了分類器的學(xué)習(xí)算法往往會(huì)忽略掉一些有用的信息;Wrapper方法包括一些啟發(fā)式優(yōu)化算法比如遺傳算法[20]、模擬退火算法[21]、蟻群算法[22]以及人工神經(jīng)網(wǎng)絡(luò)等,其本質(zhì)是將特征篩選看作一個(gè)尋優(yōu)問(wèn)題,直接將分類器的分類效果作為特征篩選評(píng)價(jià)函數(shù),得到最適合該分類器的最優(yōu)特征子集。本文針對(duì)烤煙油分特征預(yù)測(cè)模型的特征優(yōu)選問(wèn)題,利用烤煙高光譜圖像ROI內(nèi)所有像素點(diǎn)光譜反射率的平均值作為烤煙表征烤煙油分的高光譜特征,提出了一種改進(jìn)RF(隨機(jī)森林)算法特征選擇策略,對(duì)高光譜特征進(jìn)行篩選,并輸入SVM分類器建立高光譜烤煙油分預(yù)測(cè)模型,旨在保證預(yù)測(cè)模型性能達(dá)到最優(yōu)的前提下,對(duì)特征子集降維,得到最優(yōu)特征子集。
本文利用貴州省煙草科學(xué)研究院提供的4個(gè)不同油分等級(jí)的煙葉共160張,樣本均由貴州省貴陽(yáng)市煙草科學(xué)研究院專家定級(jí)。高光譜圖像采集系統(tǒng)由GaiaSky-mini2機(jī)載高光譜成像儀(四川雙利合譜)、4個(gè)40 W白熾燈穩(wěn)定光源、暗箱、液晶顯示器搭建的室內(nèi)高光譜圖像信息采集系統(tǒng)。其中,GaiaSky-mini2機(jī)載高光譜成像儀內(nèi)裝置有成像光譜儀、面陣探測(cè)器、驅(qū)動(dòng)電源和運(yùn)動(dòng)控制模塊等;高光譜成像儀規(guī)格參數(shù):光譜分辨率3.5 nm±0.5 nm,全幅像素1 392×1 040,像素間距6.45 μm。
在高光譜圖像采集過(guò)程中由于光源的不均勻性以及拍攝鏡頭的暗電流聲產(chǎn)生的噪聲會(huì)對(duì)高光譜圖像造成影響,因此需要對(duì)高光譜圖像進(jìn)行黑白校正,其中Rc為校正后圖像;Rw是標(biāo)準(zhǔn)白板(反射率接近100%)得到圖像;Rd為掃描蓋住鏡頭(反射率接近0%)后得到的標(biāo)定圖像;Rr是原始的高光譜圖像。校正前后對(duì)比如圖1所示。
(1)

(a)校正前的烤煙高光譜圖像
為了提取烤煙高光譜圖像的光譜數(shù)據(jù),應(yīng)用ENVI5.3軟件對(duì)烤煙高光譜圖像進(jìn)行感興趣區(qū)域選擇,選擇方式為避開(kāi)主莖,選擇葉面部分作為烤煙樣本的感興趣區(qū)域(Region of Interesting,ROI),提取每個(gè)樣本ROI內(nèi)所有像素點(diǎn)光譜反射率的平均值作為該樣本的高光譜特征。所拍攝的烤煙高光譜圖像ROI數(shù)據(jù)波長(zhǎng)范圍為371.08~1 037.89 nm,包含176個(gè)波段點(diǎn)。
支持向量機(jī)算法對(duì)于處理高維非線性模式識(shí)別問(wèn)題時(shí),具有一定優(yōu)勢(shì),算法的核心是利用核函數(shù)映射的方法將線性不可分樣本數(shù)據(jù)轉(zhuǎn)化到高維空間,并在高維空間建立分類器[23]。定義訓(xùn)練樣本集D=(x1,y1),(x2,y2),…,(xm,ym),yi∈{-1,1}。在數(shù)學(xué)模型上SVM映射后的特征向量,在特征空間中劃分超平面的模型
f(x)=ωTx+b
(2)
若f(x)=0,則x是位于超平面f(x)上的數(shù)據(jù)點(diǎn),f(x)<0時(shí),數(shù)據(jù)點(diǎn)類別為-1,f(x)>0時(shí),數(shù)據(jù)點(diǎn)類別為1。在分隔超平面的兩邊有兩個(gè)相互平行的超平面,使兩個(gè)平行超平面之間的距離最大的為最優(yōu)超平面。
根據(jù)點(diǎn)到平面的距離公式可求的分類間隔
(3)
為了使得距離最優(yōu)超平面的分類間隔最大,則目標(biāo)函數(shù)
(4)

(5)
其中:i=1,2,…,m,ξi≥0。
為了便于計(jì)算,引入拉格朗日乘數(shù)將目標(biāo)函數(shù)對(duì)偶化,得到最終超平面函數(shù)
(6)
式中:κ(xi,xj)——xi、xj在高維空間中的內(nèi)積,即核函數(shù),αi≥0為拉格朗日乘數(shù)。
SVM常用的核函數(shù)有線性核函數(shù)、Sigmoid核函數(shù)、多項(xiàng)式核函數(shù)與RBF核函數(shù),因?yàn)镽BF核函數(shù)應(yīng)用較為廣泛,效果好,本文選用RBF核函數(shù)。將上述160個(gè)樣本中100個(gè)樣本作為訓(xùn)練集,60個(gè)樣本作為測(cè)試集,輸入到支持向量機(jī)分類器,得到分類正確率為91.67%。
RF(隨機(jī)森林)算法是一種以決策樹(shù)為弱學(xué)習(xí)器的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練中引入隨機(jī)屬性的集成學(xué)習(xí)算法,在特征工程中,隨機(jī)森林能從大量的樣本特征中識(shí)別出重要的特征,其原理是在原有的特征集中進(jìn)行隨機(jī)有放回的取去M個(gè)樣本,共進(jìn)行N次采樣后,生成N個(gè)訓(xùn)練集,對(duì)這N個(gè)訓(xùn)練集分別訓(xùn)練N個(gè)決策數(shù)模型,得到隨機(jī)森林模型,最后根據(jù)每個(gè)特征在隨機(jī)森林中對(duì)每個(gè)決策樹(shù)貢獻(xiàn)度的大小進(jìn)行特征重要程度劃分,通常用基尼指數(shù)作為評(píng)價(jià)指標(biāo)來(lái)衡量[24],記為RF-Score。本文利用RF算法將提取的烤煙高光譜特征按基尼系數(shù)降序排列如圖2所示。

圖2 每個(gè)特征的RF-Score值降序排列Fig.2 RF-Score values of each feature are arranged in descending order
將上述按RF-Score值排序的特征結(jié)合SVM分類器進(jìn)行訓(xùn)練,利用分類器的分類準(zhǔn)確率來(lái)對(duì)特征子集的分類性能進(jìn)行評(píng)價(jià)。SVM分類準(zhǔn)確率變化如圖3所示。
由圖3可以看出大量的特征并沒(méi)有提高模型的分類性能,甚至?xí)?dǎo)致分類器性能下降。當(dāng)子集數(shù)量小于64時(shí),隨著特征數(shù)量的增加,模型的分類性能整體趨勢(shì)向上,當(dāng)子集數(shù)量等于64時(shí),達(dá)到最高分類準(zhǔn)確率93.33%,當(dāng)子集數(shù)量大于64時(shí),隨著特征數(shù)量的增加,模型的分類準(zhǔn)確率保持在93.33%,在特征子集數(shù)量達(dá)到120~141,172~176時(shí),分類性能降低為91.67%。因此可以認(rèn)為經(jīng)RF特征選擇算法篩選后,176個(gè)高光譜特征中有64個(gè)波段的高光譜特征為有效特征。

圖3 基于RF特征選擇SVM分類準(zhǔn)確率Fig.3 SVM classification accuracy was selected based on RF features
改進(jìn)RF特征選擇流程如圖4所示。

圖4 改進(jìn)RF特征選擇流程圖Fig.4 Flow chart of improved RF feature selection
由上述分析可知,按RF-Score分值大小將特征依次輸入分類器時(shí),也可能引入對(duì)分類器無(wú)用的特征。因此,本文基于RF算法提出了一種改進(jìn)特征選擇策略,首先將特征數(shù)據(jù)集中RF-Score值最大的特征加入特征子集中,此時(shí)特征子集中只包含一個(gè)特征,然后對(duì)余下的特征數(shù)據(jù)集經(jīng)行篩選,選擇余下特征數(shù)據(jù)集中RF-Score值最大的特征加入到特征子集中,并利用當(dāng)前的特征子集輸入到SVM分類器,若分類器的分類性能提高則保留該特征,若分類器的分類性能沒(méi)有提高或分類性能降低則舍棄該特征,然后繼續(xù)對(duì)特征數(shù)據(jù)集中余下的特征進(jìn)行篩選,直到將特征數(shù)據(jù)集中所有特征篩選完畢,最后使得分類器分類性能最好的特征子集即為最優(yōu)特征子集。
采用改進(jìn)RF特征選擇策略時(shí),輸入到SVM分類器中得到的分類準(zhǔn)確率如表1所示。

表1 基于改進(jìn)RF特征選擇策略的SVM分類準(zhǔn)確率Tab.1 SVM classification accuracy based on the improved RF feature selection strategy
由表1可知,加入特征序號(hào)為1的特征時(shí),SVM分類器的分類準(zhǔn)確率為45%;然后加入特征序號(hào)為2的特征,此時(shí)特征子集中的特征為(1,2),SVM分類器分類準(zhǔn)確率為45%,故該特征對(duì)分類器性能并無(wú)提高作用,因此應(yīng)當(dāng)舍去該特征;加入特征序號(hào)為3的特征時(shí),此時(shí)特征子集中的特征為(1,3),SVM分類器分類準(zhǔn)確率為86.67%,故該特征對(duì)分類器性能有提高作用,應(yīng)當(dāng)保留該特征。以此類推,當(dāng)特征1、3、5、66、68、70加入到特征子集中時(shí),支持向量機(jī)的分類性能最高,其他特征加入特征子集時(shí),對(duì)于分類器的性能并無(wú)提高甚至?xí)档头诸愋阅?,因此通過(guò)改進(jìn)RF算法特征選擇策略選擇(1,3,5,66,68,70)為最優(yōu)特征子集,準(zhǔn)確率為95%。其中特征1、3、5、66、68、70所代表的高光譜波段為371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm。
將本文改進(jìn)的特征選擇策略與全光譜輸入、RF算法選擇特征的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,以驗(yàn)證本文改進(jìn)的特征選擇算法有效性,具體分析見(jiàn)表2。

表2 高光譜特征選擇前后分類準(zhǔn)確率對(duì)比Tab.2 Comparison of classification accuracy before and after the selection of hyperspectral features
從表2可以看出,全高光譜波段作為烤煙油分預(yù)測(cè)模型的輸入時(shí),特征數(shù)量為176個(gè),分類準(zhǔn)確率為91.67%;經(jīng)RF算法特征選擇策略選擇后的高光譜特征作為烤煙油分預(yù)測(cè)模型的輸入時(shí),特征數(shù)量為64個(gè),分類準(zhǔn)確率為93.33%;經(jīng)改進(jìn)RF特征選擇算法選擇后的高光譜特征作為烤煙油分預(yù)測(cè)模型的輸入時(shí),特征數(shù)量為6個(gè),分類準(zhǔn)確率為95%。本文提出的特征選擇算法與全高光譜波段相比,特征數(shù)量減少170個(gè),分類準(zhǔn)確率提高了3.33%;與RF特征選擇算法相比,特征數(shù)量減少了58個(gè),分類準(zhǔn)確率提高了1.67%。
為了對(duì)烤煙油分特征等級(jí)進(jìn)行預(yù)測(cè),本文利用高光譜相機(jī)采集不同油分等級(jí)的烤煙高光譜圖像,提取烤煙葉面感興趣區(qū)域光譜反射率的平均值作為表征烤煙油分等級(jí)的高光譜特征,并引入改進(jìn)RF特征選擇策略對(duì)176個(gè)高光譜波段特征進(jìn)行篩選,輸入到支持向量機(jī)分類器中,對(duì)烤煙油分等級(jí)進(jìn)行預(yù)測(cè)。主要結(jié)論如下。
1)利用RF特征選擇算法對(duì)烤煙高光譜特征進(jìn)行篩選,將176個(gè)高光譜特征中按基尼系數(shù)降序排列依次輸入SVM分類器中,前64個(gè)高光譜波段特征即可使支持向量機(jī)分類器性能最佳,特征子集維度為64,其分類準(zhǔn)確率為93.33%。
2)利用改進(jìn)RF算法特征選擇策略對(duì)176個(gè)烤煙高光譜波段特征進(jìn)行篩選,輸入371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm六個(gè)波段的高光譜特征即可使支持向量機(jī)分類器性能最佳,其分類準(zhǔn)確率為95%,特征子集維度為6,說(shuō)明改進(jìn)的RF特征選擇策略在保證分類器性能的前提下能較好地進(jìn)行數(shù)據(jù)降維,減小特征子集的冗余。
3)改進(jìn)后的RF算法特征選擇策略與全高光譜波段相比,特征數(shù)量減少170個(gè),分類準(zhǔn)確率提高了3.33%;與RF特征選擇算法相比,特征數(shù)量減少了58個(gè),分類準(zhǔn)確率提高了1.67%。
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2021年8期