基于改進(jìn)RF特征選擇策略的烤煙油分高光譜特征分析*

2021-09-13 01:22:36葉磊韋克蘇李德侖張富貴吳雪梅

中國(guó)農(nóng)機(jī)化學(xué)報(bào) 2021年8期

關(guān)鍵詞：分類特征

葉磊，韋克蘇，李德侖，張富貴，吳雪梅

(1.貴州大學(xué)機(jī)械工程學(xué)院，貴陽(yáng)市，550025；2.貴州省煙草科學(xué)研究院，貴陽(yáng)市，550025)

0 引言

烤煙是貴州省農(nóng)村地區(qū)一項(xiàng)重要的經(jīng)濟(jì)作物，煙葉的等級(jí)評(píng)定是煙草行業(yè)的一項(xiàng)基礎(chǔ)性生產(chǎn)環(huán)節(jié)。我國(guó)烤煙的分級(jí)標(biāo)準(zhǔn)主要是依據(jù)煙葉的顏色特征、形狀特征、油分特征和成熟度特征等四大特征來(lái)判別一張煙葉等級(jí)歸屬。目前，國(guó)內(nèi)外已有研究將高廣譜技術(shù)應(yīng)用于煙葉葉片化學(xué)成分快速分析，煙葉生長(zhǎng)狀態(tài)檢測(cè)，煙葉成熟度檢測(cè)、以及煙葉分級(jí)等領(lǐng)域，如楊艷東[1]、劉良云[2]、Sun[3]、Jia[4]、鄒勇[5]、李夢(mèng)竹[6]、黎瑞君[7]等采用高光譜圖像技術(shù)建立了烤煙葉片化學(xué)成分快速預(yù)測(cè)模型，取得了較好的預(yù)測(cè)效果；殷全玉等[8]在研究中發(fā)現(xiàn)不同品種，不同部位的煙葉葉面對(duì)光譜反射率之間的存在差異；劉印峰[9]通過(guò)對(duì)烤煙植被的波普特性分析，發(fā)現(xiàn)利用紅波普吸收峰的面積可以較好的區(qū)分煙葉與其他植被；鄭小雨[10]、余志虹[11]、韓龍洋[12]等通過(guò)對(duì)不同波段下鮮煙葉光譜反射率的差異建立煙葉成熟度監(jiān)測(cè)模型，對(duì)上部煙、中部煙的成熟度具有較好的預(yù)測(cè)效果；劉藝琳等[13]基于光譜數(shù)據(jù)建立烤煙部位判別模型，識(shí)別率較高；于春霞等[14]對(duì)不同部位煙葉的近紅外光譜進(jìn)行了相似性分析，建立了基于SIMCA算法的相似性分析數(shù)學(xué)模型，結(jié)果表明，基于近紅外光譜的煙葉部位相似性分析結(jié)果與實(shí)際煙葉部位之間的相似程度是相符的。周漢平等[15]以NIR的不同波長(zhǎng)范圍內(nèi)采用偏最小二乘法建立了煙葉的NIR預(yù)測(cè)模型，并指出油分預(yù)測(cè)模型在16階時(shí)，預(yù)測(cè)模型的準(zhǔn)確率最高。

隨著對(duì)高光譜技術(shù)在煙草領(lǐng)域研究的不斷深入，利用高光譜技術(shù)創(chuàng)建煙葉分級(jí)系統(tǒng)的研究成果豐富，其原理是在高光譜圖像的基礎(chǔ)上通過(guò)提取能夠表征煙葉屬性的特征，利用大量的樣本特征結(jié)合多種分類器進(jìn)行學(xué)習(xí)訓(xùn)練，建立基于高光譜信息的預(yù)測(cè)模型，對(duì)煙葉等級(jí)進(jìn)行評(píng)判，以獲得較好的預(yù)測(cè)效果。那么對(duì)于煙葉高光譜特征的選擇將直接影響預(yù)測(cè)模型的性能，大量冗余的特征不但會(huì)增加分類模型的復(fù)雜度，還會(huì)降低分級(jí)準(zhǔn)確率。因此如何選擇有效特征，對(duì)于預(yù)測(cè)模型的好壞具有重要意義。

目前對(duì)于特征篩選的方法主要分為Filter方法與Wrapper方法[16]，其中Filter方法包括卡方檢驗(yàn)法[17]、信息增益法[18]、相關(guān)系數(shù)法[19]等，其原理是賦予每一維特征權(quán)重，依據(jù)權(quán)重大小對(duì)特征進(jìn)行排序，最后選取權(quán)重占比較大的特征去訓(xùn)練分類器，而舍棄權(quán)重占比小的特征，這種脫離了分類器的學(xué)習(xí)算法往往會(huì)忽略掉一些有用的信息；Wrapper方法包括一些啟發(fā)式優(yōu)化算法比如遺傳算法[20]、模擬退火算法[21]、蟻群算法[22]以及人工神經(jīng)網(wǎng)絡(luò)等，其本質(zhì)是將特征篩選看作一個(gè)尋優(yōu)問(wèn)題，直接將分類器的分類效果作為特征篩選評(píng)價(jià)函數(shù)，得到最適合該分類器的最優(yōu)特征子集。本文針對(duì)烤煙油分特征預(yù)測(cè)模型的特征優(yōu)選問(wèn)題，利用烤煙高光譜圖像ROI內(nèi)所有像素點(diǎn)光譜反射率的平均值作為烤煙表征烤煙油分的高光譜特征，提出了一種改進(jìn)RF(隨機(jī)森林)算法特征選擇策略，對(duì)高光譜特征進(jìn)行篩選，并輸入SVM分類器建立高光譜烤煙油分預(yù)測(cè)模型，旨在保證預(yù)測(cè)模型性能達(dá)到最優(yōu)的前提下，對(duì)特征子集降維，得到最優(yōu)特征子集。

1 材料與方法

1.1 高光譜煙葉圖像采集

本文利用貴州省煙草科學(xué)研究院提供的4個(gè)不同油分等級(jí)的煙葉共160張，樣本均由貴州省貴陽(yáng)市煙草科學(xué)研究院專家定級(jí)。高光譜圖像采集系統(tǒng)由GaiaSky-mini2機(jī)載高光譜成像儀(四川雙利合譜)、4個(gè)40 W白熾燈穩(wěn)定光源、暗箱、液晶顯示器搭建的室內(nèi)高光譜圖像信息采集系統(tǒng)。其中，GaiaSky-mini2機(jī)載高光譜成像儀內(nèi)裝置有成像光譜儀、面陣探測(cè)器、驅(qū)動(dòng)電源和運(yùn)動(dòng)控制模塊等；高光譜成像儀規(guī)格參數(shù)：光譜分辨率3.5 nm±0.5 nm，全幅像素1 392×1 040，像素間距6.45 μm。

1.2 高光譜圖像校準(zhǔn)

在高光譜圖像采集過(guò)程中由于光源的不均勻性以及拍攝鏡頭的暗電流聲產(chǎn)生的噪聲會(huì)對(duì)高光譜圖像造成影響，因此需要對(duì)高光譜圖像進(jìn)行黑白校正，其中Rc為校正后圖像；Rw是標(biāo)準(zhǔn)白板(反射率接近100%)得到圖像；Rd為掃描蓋住鏡頭(反射率接近0%)后得到的標(biāo)定圖像；Rr是原始的高光譜圖像。校正前后對(duì)比如圖1所示。

(1)

(a)校正前的烤煙高光譜圖像

1.3 高光譜特征提取

為了提取烤煙高光譜圖像的光譜數(shù)據(jù)，應(yīng)用ENVI5.3軟件對(duì)烤煙高光譜圖像進(jìn)行感興趣區(qū)域選擇，選擇方式為避開(kāi)主莖，選擇葉面部分作為烤煙樣本的感興趣區(qū)域(Region of Interesting，ROI)，提取每個(gè)樣本ROI內(nèi)所有像素點(diǎn)光譜反射率的平均值作為該樣本的高光譜特征。所拍攝的烤煙高光譜圖像ROI數(shù)據(jù)波長(zhǎng)范圍為371.08～1 037.89 nm，包含176個(gè)波段點(diǎn)。

1.4 SVM分類識(shí)別

支持向量機(jī)算法對(duì)于處理高維非線性模式識(shí)別問(wèn)題時(shí)，具有一定優(yōu)勢(shì)，算法的核心是利用核函數(shù)映射的方法將線性不可分樣本數(shù)據(jù)轉(zhuǎn)化到高維空間，并在高維空間建立分類器[23]。定義訓(xùn)練樣本集D=(x1,y1)，(x2,y2)，…，(xm,ym)，yi∈{-1，1}。在數(shù)學(xué)模型上SVM映射后的特征向量，在特征空間中劃分超平面的模型

f(x)=ωTx+b

(2)

若f(x)=0，則x是位于超平面f(x)上的數(shù)據(jù)點(diǎn)，f(x)<0時(shí)，數(shù)據(jù)點(diǎn)類別為-1，f(x)>0時(shí)，數(shù)據(jù)點(diǎn)類別為1。在分隔超平面的兩邊有兩個(gè)相互平行的超平面，使兩個(gè)平行超平面之間的距離最大的為最優(yōu)超平面。

根據(jù)點(diǎn)到平面的距離公式可求的分類間隔

(3)

為了使得距離最優(yōu)超平面的分類間隔最大，則目標(biāo)函數(shù)

(4)

(5)

其中：i=1,2,…,m，ξi≥0。

為了便于計(jì)算，引入拉格朗日乘數(shù)將目標(biāo)函數(shù)對(duì)偶化，得到最終超平面函數(shù)

(6)

式中：κ(xi,xj)——xi、xj在高維空間中的內(nèi)積，即核函數(shù)，αi≥0為拉格朗日乘數(shù)。

SVM常用的核函數(shù)有線性核函數(shù)、Sigmoid核函數(shù)、多項(xiàng)式核函數(shù)與RBF核函數(shù)，因?yàn)镽BF核函數(shù)應(yīng)用較為廣泛，效果好，本文選用RBF核函數(shù)。將上述160個(gè)樣本中100個(gè)樣本作為訓(xùn)練集，60個(gè)樣本作為測(cè)試集，輸入到支持向量機(jī)分類器，得到分類正確率為91.67%。

1.5 基于RF算法的特征選擇

RF(隨機(jī)森林)算法是一種以決策樹(shù)為弱學(xué)習(xí)器的基礎(chǔ)上，進(jìn)一步在決策樹(shù)的訓(xùn)練中引入隨機(jī)屬性的集成學(xué)習(xí)算法，在特征工程中，隨機(jī)森林能從大量的樣本特征中識(shí)別出重要的特征，其原理是在原有的特征集中進(jìn)行隨機(jī)有放回的取去M個(gè)樣本，共進(jìn)行N次采樣后，生成N個(gè)訓(xùn)練集，對(duì)這N個(gè)訓(xùn)練集分別訓(xùn)練N個(gè)決策數(shù)模型，得到隨機(jī)森林模型，最后根據(jù)每個(gè)特征在隨機(jī)森林中對(duì)每個(gè)決策樹(shù)貢獻(xiàn)度的大小進(jìn)行特征重要程度劃分，通常用基尼指數(shù)作為評(píng)價(jià)指標(biāo)來(lái)衡量[24]，記為RF-Score。本文利用RF算法將提取的烤煙高光譜特征按基尼系數(shù)降序排列如圖2所示。

圖2 每個(gè)特征的RF-Score值降序排列Fig.2 RF-Score values of each feature are arranged in descending order

將上述按RF-Score值排序的特征結(jié)合SVM分類器進(jìn)行訓(xùn)練，利用分類器的分類準(zhǔn)確率來(lái)對(duì)特征子集的分類性能進(jìn)行評(píng)價(jià)。SVM分類準(zhǔn)確率變化如圖3所示。

由圖3可以看出大量的特征并沒(méi)有提高模型的分類性能，甚至?xí)?dǎo)致分類器性能下降。當(dāng)子集數(shù)量小于64時(shí)，隨著特征數(shù)量的增加，模型的分類性能整體趨勢(shì)向上，當(dāng)子集數(shù)量等于64時(shí)，達(dá)到最高分類準(zhǔn)確率93.33%，當(dāng)子集數(shù)量大于64時(shí)，隨著特征數(shù)量的增加，模型的分類準(zhǔn)確率保持在93.33%，在特征子集數(shù)量達(dá)到120～141，172～176時(shí)，分類性能降低為91.67%。因此可以認(rèn)為經(jīng)RF特征選擇算法篩選后，176個(gè)高光譜特征中有64個(gè)波段的高光譜特征為有效特征。

圖3 基于RF特征選擇SVM分類準(zhǔn)確率Fig.3 SVM classification accuracy was selected based on RF features

1.6 改進(jìn)RF算法的特征選擇

改進(jìn)RF特征選擇流程如圖4所示。

圖4 改進(jìn)RF特征選擇流程圖Fig.4 Flow chart of improved RF feature selection

由上述分析可知，按RF-Score分值大小將特征依次輸入分類器時(shí)，也可能引入對(duì)分類器無(wú)用的特征。因此，本文基于RF算法提出了一種改進(jìn)特征選擇策略，首先將特征數(shù)據(jù)集中RF-Score值最大的特征加入特征子集中，此時(shí)特征子集中只包含一個(gè)特征，然后對(duì)余下的特征數(shù)據(jù)集經(jīng)行篩選，選擇余下特征數(shù)據(jù)集中RF-Score值最大的特征加入到特征子集中，并利用當(dāng)前的特征子集輸入到SVM分類器，若分類器的分類性能提高則保留該特征，若分類器的分類性能沒(méi)有提高或分類性能降低則舍棄該特征，然后繼續(xù)對(duì)特征數(shù)據(jù)集中余下的特征進(jìn)行篩選，直到將特征數(shù)據(jù)集中所有特征篩選完畢，最后使得分類器分類性能最好的特征子集即為最優(yōu)特征子集。

2 試驗(yàn)分析

采用改進(jìn)RF特征選擇策略時(shí)，輸入到SVM分類器中得到的分類準(zhǔn)確率如表1所示。

表1 基于改進(jìn)RF特征選擇策略的SVM分類準(zhǔn)確率Tab.1 SVM classification accuracy based on the improved RF feature selection strategy

由表1可知，加入特征序號(hào)為1的特征時(shí)，SVM分類器的分類準(zhǔn)確率為45%；然后加入特征序號(hào)為2的特征，此時(shí)特征子集中的特征為(1,2)，SVM分類器分類準(zhǔn)確率為45%，故該特征對(duì)分類器性能并無(wú)提高作用，因此應(yīng)當(dāng)舍去該特征；加入特征序號(hào)為3的特征時(shí)，此時(shí)特征子集中的特征為(1,3)，SVM分類器分類準(zhǔn)確率為86.67%，故該特征對(duì)分類器性能有提高作用，應(yīng)當(dāng)保留該特征。以此類推，當(dāng)特征1、3、5、66、68、70加入到特征子集中時(shí)，支持向量機(jī)的分類性能最高，其他特征加入特征子集時(shí)，對(duì)于分類器的性能并無(wú)提高甚至?xí)档头诸愋阅?，因此通過(guò)改進(jìn)RF算法特征選擇策略選擇(1,3,5,66,68,70)為最優(yōu)特征子集，準(zhǔn)確率為95%。其中特征1、3、5、66、68、70所代表的高光譜波段為371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm。

將本文改進(jìn)的特征選擇策略與全光譜輸入、RF算法選擇特征的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比，以驗(yàn)證本文改進(jìn)的特征選擇算法有效性，具體分析見(jiàn)表2。

表2 高光譜特征選擇前后分類準(zhǔn)確率對(duì)比Tab.2 Comparison of classification accuracy before and after the selection of hyperspectral features

從表2可以看出，全高光譜波段作為烤煙油分預(yù)測(cè)模型的輸入時(shí)，特征數(shù)量為176個(gè)，分類準(zhǔn)確率為91.67%；經(jīng)RF算法特征選擇策略選擇后的高光譜特征作為烤煙油分預(yù)測(cè)模型的輸入時(shí)，特征數(shù)量為64個(gè)，分類準(zhǔn)確率為93.33%；經(jīng)改進(jìn)RF特征選擇算法選擇后的高光譜特征作為烤煙油分預(yù)測(cè)模型的輸入時(shí)，特征數(shù)量為6個(gè)，分類準(zhǔn)確率為95%。本文提出的特征選擇算法與全高光譜波段相比，特征數(shù)量減少170個(gè)，分類準(zhǔn)確率提高了3.33%；與RF特征選擇算法相比，特征數(shù)量減少了58個(gè)，分類準(zhǔn)確率提高了1.67%。

3 結(jié)論

為了對(duì)烤煙油分特征等級(jí)進(jìn)行預(yù)測(cè)，本文利用高光譜相機(jī)采集不同油分等級(jí)的烤煙高光譜圖像，提取烤煙葉面感興趣區(qū)域光譜反射率的平均值作為表征烤煙油分等級(jí)的高光譜特征，并引入改進(jìn)RF特征選擇策略對(duì)176個(gè)高光譜波段特征進(jìn)行篩選，輸入到支持向量機(jī)分類器中，對(duì)烤煙油分等級(jí)進(jìn)行預(yù)測(cè)。主要結(jié)論如下。

1)利用RF特征選擇算法對(duì)烤煙高光譜特征進(jìn)行篩選，將176個(gè)高光譜特征中按基尼系數(shù)降序排列依次輸入SVM分類器中，前64個(gè)高光譜波段特征即可使支持向量機(jī)分類器性能最佳，特征子集維度為64，其分類準(zhǔn)確率為93.33%。

2)利用改進(jìn)RF算法特征選擇策略對(duì)176個(gè)烤煙高光譜波段特征進(jìn)行篩選，輸入371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm六個(gè)波段的高光譜特征即可使支持向量機(jī)分類器性能最佳，其分類準(zhǔn)確率為95%，特征子集維度為6，說(shuō)明改進(jìn)的RF特征選擇策略在保證分類器性能的前提下能較好地進(jìn)行數(shù)據(jù)降維，減小特征子集的冗余。

3)改進(jìn)后的RF算法特征選擇策略與全高光譜波段相比，特征數(shù)量減少170個(gè)，分類準(zhǔn)確率提高了3.33%；與RF特征選擇算法相比，特征數(shù)量減少了58個(gè)，分類準(zhǔn)確率提高了1.67%。