劉 莉 陶紅燕 方 靜 鄭文娟 王良龍 金 秀
(1.安徽農業大學園藝學院, 合肥 230036; 2.安徽農業大學信息與計算機學院, 合肥 230036)
梨在我國的種植范圍廣泛,產量僅次于蘋果、柑橘[1]。在梨樹的生長過程中,各種病害不僅威脅著梨樹的生長,還會影響梨果實的品質,最典型的有黑斑病、炭疽病、銹病等,且病害的大規模爆發會造成嚴重的經濟損失[2]。因此,及時檢測梨葉片病害,并采取針對性的病害防治措施,對于梨樹病害防治、減少經濟損失有著重要意義。
在梨樹諸多病害中,炭疽病和黑斑病的發病癥狀相似,僅憑肉眼很難區分。盡管目前可見-近紅外檢測技術[3-5]、機器視覺檢測技術[6-7]等已經廣泛運用于農作物的無損檢測,但是可見-近紅外只能檢測到農作物的內部信息,而無法獲取其外部特征,機器視覺檢測技術雖然可以獲得農作物的外部特征,但是卻無法檢測其內部信息。相比之下,高光譜技術具有圖譜合一的特點,既可以探測到農作物的外部圖像信息,又可以獲得其內部品質信息。
目前已有很多學者利用高光譜技術在農產品品質檢測方面做了大量研究[8-10]。國外學者側重于將高光譜技術用于肉類以及水果的品質測定[11-12],國內學者則多將此技術應用于蔬菜水果農產品的無損檢測、病蟲害識別與分類[13-15]。ELMASRY等[16]利用波長400~1 000 nm的高光譜成像儀采集“Mclntosh”蘋果的高光譜圖像,建立了“Mclntosh”蘋果的早期損傷判別模型,并通過試驗表明,利用高光譜技術可以有效識別損傷1 h以上的蘋果與正常蘋果;MEHL[17]利用高光譜技術建立了Golden Delicious、Gala、Red Delicious 3個品種蘋果的表面損傷程度的檢測模型,檢測結果的準確率分別為85%、95%和76%;吳龍國等[18]利用高光譜圖像采集技術采集了波長400~1 000 nm范圍的高光譜圖像,對靈武長棗表面的外部碰傷缺陷進行檢測,結果較為理想;李勛蘭等[19]利用高光譜成像技術采集了4種柚子的上表面與下表面的高光譜圖像,構建了柚子種類鑒別的識別模型,準確率分別為99.46%和98.44%。但目前有關利用高光譜技術對梨樹病害種類進行識別研究的報道比較少。
本文以碭山酥梨葉片黑斑病與炭疽病為研究對象,以碭山酥梨正常葉片、炭疽病葉片與黑斑病葉片的高光譜圖像為試驗樣本,通過對高光譜圖像光譜信息的預處理、特征波長提取,并結合支持向量機(SVM)與反向傳播(BP)神經網絡模式識別等建立碭山酥梨炭疽病和黑斑病的識別模型,以期為果樹的病害識別提供參考依據與技術支持。
本試驗供試材料為安徽農業大學資源育種實驗室盆栽碭山酥梨葉片,挑選采集葉片大小均勻、葉面較為寬大、位于新梢頂端且健康的嫩葉葉片,共90片。
提前在實驗室配置好炭疽病與黑斑病菌絲。接種病菌前,用標簽標注每片葉片,并采集所有葉片正反兩面的高光譜圖像,共獲取180幅高光譜圖像。然后對90片樣品葉片進行菌絲塊接種處理。
為了觀察各葉片從健康狀態到發病狀態的連續動態過程,自接種病菌當天開始連續對葉片進行高光譜圖像采集,每天記錄發病葉片的標簽號及其發病癥狀,并將肉眼所能看到的發病癥狀與高光譜圖像上的癥狀作比較。

圖1 高光譜圖像采集系統Fig.1 Hyperspectral image acquisition system1.50 W鹵素燈 2.精密云臺 3.高光譜相機 4.樣本 5.便攜式計算機
試驗所采用的高光譜圖像采集系統如圖1所示。采用美國OKSI公司的Hycan1211型高光譜相機,其圖像分辨率為1 620像素×2 325像素,光譜分辨率為1.79 nm,波長范圍為400~1 000 nm,光譜采集點有339個波段。
拍攝環境封閉,儀器被置于用遮光布搭建的棚中,拍攝時除了光源外無其他任何干擾。同時,為了確保穩定的光源照射強度,每次采集高光譜圖像之前將高光譜儀預熱30 min,然后在計算機上對配套軟件進行參數設置以保證采集到的圖像清晰且不失真:掃描角度設置為-10°~10°,掃描速度設置為1.844(°)/s,鏡頭焦距為60 nm,相機曝光時間為10 ms。圖2為利用高光譜儀器采集的高光譜圖像樣例。

圖2 高光譜圖像Fig.2 Hyperspectral images
為了減少試驗過程中外界自然光、暗箱內照明以及采集系統本身暗電流對高光譜圖像質量的影響,需要進行黑白板圖像校正。黑白板標定公式為
式中R——校正后圖像I——原始圖像
W——白板圖像B——全黑圖像

圖3 病害葉片圖像樣例Fig.3 Sample images of diseased leaves
同時為了進一步從光譜圖像上確定對應的病害區域,用相機拍攝發病葉片每天的狀態,進行對照,分辨率在70ppi以上。拍攝背景統一使用單一白色,拍攝距離為15~20 cm,圖像保存為JPEG格式,采集的圖像樣例如圖3所示。
1.3.1信息提取
基于ENVI 4.7軟件對高光譜圖像進行操作,操作過程主要分為2部分:①提取感興趣區域,獲取病害區域與健康葉片的平均光譜反射率,通過光譜反射率曲線從光譜角度找差別并建立模型,從而進行炭疽病、黑斑病與健康葉片的高精度分類。②對所有的圖像進行主成分分析,一方面可以對高光譜數據進行數據降維,獲取每個感興趣區域的數據矩陣,另一方面可以通過計算主成分貢獻率獲取主成分圖像與特征波長。
高光譜圖像感興趣區域提取的具體操作:首先,在ENVI 4.7軟件中打開需處理的梨葉片高光譜圖像(圖4a);然后,采用ROI TOOL多邊形感興趣區域選擇工具分割出感興趣區域,如圖4b所示,即葉片中形如圓形斑點所示的發病區域;將感興趣區域的數據保存為.txt文件和.sta文件,.txt和.sta文件中都包括了400~1 000 nm高光譜圖像339個波段,曲線中間一條白色曲線即為DN值(像素值)的平均值;用Excel將.sta文件與.txt文件打開,獲取到感興趣區域的相關信息后,通過DN平均值數據,并根據黑白標定公式計算出感興趣區域的平均光譜反射率;最后,得到有效光譜反射率圖。
1.3.2信息預處理
為了提高后期建模效率,使得光譜變化輪廓更加清楚并提高光譜數據的信噪比,需在建模前對提取出的高光譜圖像感興趣區域的平均反射率數據進行預處理。剔除不符合條件的曲線后,獲得可供建模的光譜反射曲線共計440條,如圖5a所示, 葉片平均光譜反射率如圖5b所示。從整個光譜反射率曲線可以觀察到,健康葉片、炭疽病葉片與黑斑病葉片的光譜反射曲線整體走勢一致,差別在于反射率的大小。

圖4 提取感興趣區域流程圖Fig.4 Flow chart of extracting region of interest

圖5 葉片光譜反射率Fig.5 Leaf spectral reflectance diagrams
獲得原始曲線后,采用多元散射校正(MSC)、標準正態變換(SNV)和Savitzky-Golay(S-G)卷積平滑法分別對其進行預處理,預處理后反射率見圖6。由圖6可知,MSC減少了樣本之間發生基線偏移或平移現象,最大限度地保留樣本中與化學成分相關的光譜吸收信息;S-G法對光譜數據進行平均計算并重新分配誤差,對每個數據點進行處理,去除光譜數據中的高頻噪聲并保留有用的低頻信息,不存在波峰與波谷的區別,這樣的優點是可以讓光譜曲線發生傾斜偏移與線性平移;與MSC算法相比,SNV算法的不同之處在于單獨對每個樣本的光譜進行校正,并且不需要理想光譜,但是每個波段吸光度均符合正態分布[20]。

圖6 不同算法預處理后所有葉片原始平均光譜反射率Fig.6 Original average spectral reflectance of all leaves after preprocessing by different algorithms
3種方法雖然具體運算過程不同,但都間接提高了原始光譜數據的信噪比及后期的建模效率。其中,基于SNV法的預處理效果最佳。
通過高光譜成像技術得到的數據信息量豐富,但冗余信息也相對較多,繼而對后期建模效率、模型精度等會產生一系列影響,因此需從原有光譜中提取與樣本化學成分相關的波段和波長來進行降維處理。本試驗采取的特征提取方法有主成分分析法(PCA)、連續投影算法(SPA)、無信息變量消除法(UVE)、競爭性自適應重加權算法(CARS)和隨機蛙跳算法(SFLA)。PCA算法需要選擇貢獻率大的波長,且要求累計貢獻率之和大于85%;SPA算法利用少數幾列光譜概括大部分原始光譜的變量信息[21-22];UVE算法可以去除光譜中含有的較多噪聲,優選出特征波長;CARS算法不僅可以有效去除無信息變量,而且還可以最大程度地減少共線性變量對模型的影響[23];SFLA算法具有遺傳算法和PSO算法的優勢,在數據降維中具有重要的作用[24]。
1.5.1基于特征波段的支持向量機(SVM)分類識別建模
SVM模型的核心思想是通過找出邊際最大的決策邊界ωx+b=0,對數據進行分類。本研究中SVM算法選取的核函數為徑向基核函數(Radical basis function, RBF)。研究通過調整懲罰參數c及核函數參數g來提升模型的泛化性能,從而使得模型有更好的預測效果。
具體步驟如下:
(1) 選定建模集與測試集
本試驗所采集的樣本分為兩部分:①采集的樣本包括炭疽病與黑斑病病害區域的平均光譜反射率,以這部分樣本的高光譜數據作為測試集。②所獲取的樣本經過了從葉片健康狀態到發病狀態且病斑從小到大的連續動態過程,樣本量大,以這部分采集的高光譜數據作為建模集。
(2) 數據歸一化預處理
SVM網絡訓練對建模集與測試集都進行歸一化處理,以提高尋找最優解的效率,保證程序在運行時收斂加快。
(3) 參數尋優
本次建模試驗以準確率為評價指標,通過十折交叉驗證,選取建模效果最優的c和g,有效避免模型欠擬合現象的發生,同時保證了模型的泛化能力。
1.5.2BP神經網絡分類識別建模
BP神經網絡由輸入層、隱含層與輸出層組成,各層有若干個節點,層與層之間直接通過權重來連接。核心步驟分為正向傳播與反向傳播。反向傳播依靠學習率η和梯度更新權重。本研究搭建的BP神經網絡隱含層設置為1層,激活函數為tanh,輸出層的激活函數為softmax。
用測試集驗證模型在未知樣本上的表現,所建的各SVM模型以分類準確率作為評價指標。對各BP模型以分類準確率、召回率、F1值為評價指標進行綜合評價。準確率即從模型預測角度出發,表示在預測為i(i=1,2,3)的樣本中,預測正確的比率。召回率是從樣本的角度出發,表示的是標簽為i(i=1,2,3)的樣本中,被正確預測的比率。F1值為準確率與召回率的調和平均值。
樣本的平均光譜反射曲線共440條,分別編號1~440。具體劃分結果如表1所示,用標簽1、2、3分別代表健康葉片、炭疽病葉片和黑斑病葉片。類別1健康葉片所對應的編號為1~140,建模集曲線100條,測試集曲線40條;類別2炭疽病葉片所對應的編號為141~290,建模集曲線110條,測試集曲線40條;類別3黑斑病葉片所對應的編號為291~440,建模集曲線110條,測試集曲線40條。

表1 碭山酥梨葉片樣本光譜劃分Tab.1 Spectral division of ‘Dangshan’ pear leaf samples
PCA、SPA、UAE、CARS、SFLA法提取的特征波長如表2所示。
(1)PCA法。對碭山酥梨健康葉片、炭疽病葉片和黑斑病葉片光譜數據求取各變量的標準差并進行標準差變換,然后計算各主成分的累計貢獻率,并對加權系數加權平均,經過內部的交叉驗證,將339個原始光譜波段壓縮為27個主成分。
(2)SPA法。原始光譜數據是一個440×339的光譜矩陣,將最小特征波長數設置為15,任意選擇一列向量,計算該列向量在剩余所有列向量上的投影,輸出最大投影對應的列向量序號,當均方根誤差(RMSECV)最小時,對應的波長即特征波長。
(3)UVE法。經過UVE處理之后,共有15個被認為是有用信息的特征波長。
(4)CARS法。CARS是利用蒙特卡洛方法采樣,當程序運行100次時,采樣次數為56,從中選擇44個樣本建立偏最小二乘模型并計算該模型的回歸系數的絕對值與各回歸系數的權重,當最優變量子集確定的十折交叉驗證法均方根誤差(RMSECV)最小值等于1.27時,提取的特征波長數有26個。
(5)SFLA法。利用SFLA法可以計算出每個變量被選擇的概率,經過之前對梨樹葉片光譜數據的分析,本試驗中將變量被選擇的概率閾值設置為0.8,經過程序運行,提取出的最優特征波長為20個。
5種方法提取的特征波長多集中在400~550 nm間,表明病變葉片內部成分變化較為明顯的多集中響應在此波段范圍內。

表2 不同算法提取的特征波長Tab.2 Characteristic wavelength selected by different algorithms
各模型分類準確率如表3所示。

表3 各SVM模型分類預測準確率Tab.3 Prediction results of SVM models
將PCA、CARS、SPA、UVE和SFLA算法所選取的特征波長作為SVM支持向量機的輸入變量,本試驗中SVM所應用的核函數為RBF,其中參數g與c的最優取值均采用十折交叉驗證法實現。參數g即函數自帶參數gamma,決定了數據映射到新的特征空間后的分布,gamma值影響支持向量機的數量。參數c即懲罰參數,即對誤差的寬容度。因此,PCA-SVM、CARS-SVM、SPA-SVM、UVE-SVM和SFLA-SVM模型中的最優c值均為16,最優g值均為0.062 5。
(1)PCA-SVM測試集的實際分類和預測分類結果見圖7a。將這27個特征波長作為輸入變量,并對c和g劃分網格進行搜索,采用十折交叉驗證方法,得到最佳的c值為16,最佳的g值為0.062 5,最佳的RMSECV,即得到的所有分類準確率的平均數為87.925 7。總支持向量數為137,每類樣本支持向量數為115,建模集分類識別率為93.71%,測試集樣本分類識別率為90.83%,均方根誤差為0.205 1,預測效果良好。
(2)SPA-SVM測試集的實際分類和預測分類結果見圖7b。最佳的RMSECV為87.735 8。總支持向量數為146,每類樣本的支持向量數為123,建模集識別率為94.80%,120個預測樣本中正確分類的個數為111,測試集識別率為93.25%,均方根誤差為0.154 7。建模集和測試集的識別率均達到了90%以上,說明SPA-SVM具有較好的預測效果。

圖7 基于不同算法的SVM模型測試集分類結果Fig.7 Classification results of SVM model test set based on different algorithms
(3)UVE-SVM測試集的實際分類和預測分類結果見圖7c。得到懲罰參數c為16,核函數參數g為0.062 5,最佳的RMSECV為80.625 0。總支持向量數為236,每類樣本的支持向量數為198,建模集分類識別率為87.14%,測試集樣本分類識別率為86.23%,均方根誤差為1.175 0。與PCA-SVM和SPA-SVM模型相比,UVE-SVM模型的優點在于準確無誤地將健康葉片樣本識別出來。
(4)CARS-SVM測試集的實際分類和預測分類結果見圖7d。得到懲罰參數c為16,核函數參數g為0.062 5,最佳的RMSECV為86.525 6。總支持向量數為155,每類樣本支持向量數為129。最終得到的建模集樣本分類識別率為87.14%,測試集樣本分類識別率為86.23%,均方根誤差為0.158 3。
(5)SFLA-SVM測試集的實際分類和預測分類結果見圖7e。得到懲罰參數c為16,核函數參數g為0.062 5,最佳的RMSECV為81.25。總支持向量數為238,每類樣本支持向量數為203。建模集分類識別率為87.14%。
當實際測試集分類圖例與預測測試集分類圖例相重合時,分類結果即為正確,反之則說明模型分類錯誤。通過所有測試集的實際分類與預測分類圖發現,SVM支持向量機幾乎可以識別所有的正常葉片,分類誤差較大的為黑斑病葉片與炭疽病葉片。
各模型分類準確率如表4所示。

表4 各BP模型分類預測準確率Tab.4 Prediction results of BP models
(1)PCA-BP測試集的實際分類和預測分類結果見圖8a。此模型的學習率為0.1,網絡結構為27-20-3(輸入層有27個節點,隱藏層有20個節點,輸出層有3個節點)。此模型幾乎可以識別所有的正常葉片,但在炭疽病識別上,表現能力欠佳,在測試集40個炭疽病葉片樣本中,有29片被誤判為黑斑病葉片。
(2)SPA-BP測試集的實際分類和預測分類結果見圖8b。此模型學習率為0.1,網絡結構為12-50-3。SPA-BP建模集準確率為86.88%,為5個模型中最佳,且可以識別所有的正常葉片,誤差集中在2處:將16片炭疽病葉誤判成黑斑病葉片,將9片黑斑病葉片誤判成炭疽病葉片。
(3)UVE-BP測試集的實際分類和預測分類結果見圖8c。此模型學習率為0.2,網絡結構為15-16-3。UVE-BP在識別正常葉片方面表現出色,38片正常葉片分類正確,僅將2片正常葉片誤判為黑斑病葉片。在識別炭疽病葉片方面,UVE-BP 將28片炭疽病葉片判定正確,但將余下12片誤判為黑斑病葉片。在黑斑病葉片的識別上,25片被判定正確,只有1片葉片被誤判為正常葉片,還有14片葉片被誤判為炭疽病葉片。
(4)CARS-BP測試集的實際分類和預測分類結果見圖8d。此模型學習率為0.2,網絡結構為26-40-3。CARS-BP測試集準確率為79.17%,為5個模型中最高,且識別出了大部分正常葉片,僅有6枚葉片被誤判為炭疽病葉片。分類誤差較大的集中在炭疽病葉片和黑斑病葉片的識別上,但CARS-BP可識別將近75%的炭疽病葉片,以及80%的黑斑病葉片。
(5)SFLA-BP測試集的實際分類和預測分類結果見圖8e。此模型學習率為0.1,網絡結構為20-50-3。SFLA-BP幾乎可以識別所有的正常葉片,40片正常葉片樣本中僅有2片被誤判。SFLA-BP識別了75%的炭疽病葉片,余下的葉片樣本被誤判為黑斑病葉片。然而此模型在黑斑病葉片樣本的識別方面誤差較大,40個樣本中有18片葉片被誤判,且大多被誤判為炭疽病葉片。

圖8 基于不同算法的BP模型測試集分類結果Fig.8 Classification results of BP model test set based on different algorithms
所建的各模型中,健康葉片、炭疽病、黑斑病葉片測試集的分類準確率、召回率、F1值如表5所示,建模集的各評價指標如表6所示。

表5 BP模型測試集分類預測結果Tab.5 Test set classification prediction results of BP models

表6 BP模型建模集分類預測結果Tab.6 Training set classification prediction results of BP models
在所建的5個SVM模型中,測試集準確率大于85%的模型為SPA-SVM、PCA-SVM、CARS-SVM、UVE-SVM。其中基于SPA算法優選的特征變量建立的SVM模型性能最好,在減少模型變量的同時提高了模型精度。SPA算法將用于建模的特征波長由339個減少到了12個,測試集精度達到了93.25%,且相對于其它模型,SPA-SVM可以準確無誤地將健康葉片樣本識別出來,表明SPA法較其他4種特征波長提取方法,更大限度地剔除了噪聲數據,降低了相關性小的波長的干擾,同時提高了光譜的表現能力。在所建的各BP模型中,建模集準確率最高的模型為SPA-BP模型,準確率為86.88%,測試集準確率最高的模型為CARS-BP模型,準確率為79.17%。綜上所述,SPA-SVM模型效果最佳。
經試驗發現,所建的10個模型分別能識別大部分的梨炭疽病與黑斑病葉片,但由于2種病葉的表現癥狀過于相似,導致識別結果存在或多或少的偏差。在實際生產中,可以將模型結果與肉眼觀察到的果實發病特征相結合進行對比分析,從而進一步提高2種葉片識別的準確率:梨炭疽病果實表面有褐色的病斑,明顯下陷,軟腐,中央有大量輪紋狀排列隆起的黑色小粒點,即病菌分生孢子盤,且潮濕時呈緋紅色黏液形式從中溢出;患有黑斑病的梨果果面通常出現一至數個黑色斑點,略凹陷,隨著時間的推移,顏色變淺,形成淺褐至灰褐色圓形病斑,且發病后期病果畸形、龜裂,裂縫可深達果心,果面和裂縫內產生黑霉,并常常引起落果[25-27]。
(1)采用近紅外高光譜成像技術,獲取目標樣本的光譜數據,用ENVI 4.7軟件提取碭山酥梨病葉的感興趣區域并進行處理,再用MSC、S-G平滑法、SNV分別對原始圖像進行預處理。相較而言,基于SNV法的預處理效果最佳。
(2)基于PCA、SPA、UVE、CARS和SFLA分別提取了27、12、15、26、20條特征波長,5種方法均有效剔除了與建模無相關性或相關性小的波段,提高了信噪比并提升了后期建模精度。
(3)在病害識別模型建立的方法上,一方面,基于特征波長并利用支持向量機進行數據建模,在基于5種方法所建的分類模型中,SPA-SVM模型識別效果最佳,其建模集準確率為94.80%,測試集準確率為93.25%,均方根誤差為0.154 7。另一方面,BP神經網絡是完全不同于SVM的識別分類方式,CARS-BP模型的測試集準確率最高(79.17%)。結果表明,近紅外高光譜技術可以較好地應用在梨炭疽病和黑斑病葉片的識別檢測中,且利用高光譜技術可以為識別碭山酥梨葉片黑斑病與炭疽病提供在線技術支持與理論依據。
(4)由于梨炭疽病葉片和黑斑病葉片內部物質元素的變化,借助近紅外高光譜技術,2種病葉能在相應波段呈現出不同的特點,因此2種病葉能被區分開,葉片識別率較人工分辨顯著提高,大大改善了憑肉眼難以區分2種病葉的問題。