謝亞平 仝曉剛 王曉慧
(太原工業學院電子工程系,太原 030008)
近年來,稻曲病的發生范圍和危害有逐年上升趨勢,已成為水稻主要病害。病害不僅直接導致水稻產量減少,而且使水稻的品質嚴重降低,甚至會引發食品安全事故[1-2]。防治病害的傳統方法是噴灑農藥,但是這種方法既費時又費力,且不可能實時大面積地監測水稻發病區域和嚴重程度。
高光譜成像作為一種融合圖像處理和光譜學的信息獲取技術,能同時獲取目標的圖像信息和光譜信息,從而更直觀表達目標的特征[3]。目前,已經有很多學者將高光譜技術應用在農作物病害檢測方面并做了大量研究[4-12],這些農作物主要包括水稻[13-14]、小麥[15]、黃瓜[16-18]等。曹益飛等[19]利用高光譜成像裝置選取450~900 nm的水稻葉片作為樣本,提出將光譜分形維數作為定量描述水稻白葉枯病害的監測光譜指數,實現對白葉枯病害的監測。梁棟等[20]利用高光譜成像技術區分冬小麥白粉病與條銹病,得到識別白粉病的敏感波長為 519、643、696、764、795、813 nm,條銹病的敏感波長為 494、630、637、698、755、805 nm。雷雨等[21]提出了一種基于高光譜成像技術的小麥條銹病病害程度分級方法,正確率達98.15%。秦立峰等[22]通過溫室黃瓜早期霜霉病高光譜圖像數據,選取特征波長,建立了黃瓜霜霉病早期檢測模型,對染病2 d到發病12 d的黃瓜均能取得100%的檢測識別率;對染病1 d的黃瓜檢測識別率達到95.83%。劉莉等[23]利用近紅外梨葉片的高光譜數據能夠有效識別炭疽病與黑斑病。
高光譜成像技術是一種能夠獲得目標對象三維信息的成像方法,包括二維圖像信息和一維光譜信息,圖像信息能夠反映目標物質大小、形狀和缺陷等外部特征,光譜信息能夠反映目標物質的內部物理、化學成分,從而實現物質的識別[24]。植物葉片的光學特征參數是在各種生物和非生物脅迫下監測植物生長狀況的重要參數,不同植物的生理組分不同,這可以直接表征在光譜維上,體現出很明顯的光譜差異性,植物受到病害侵襲后,會改變其內部的結構和生物化學特性,在外形上會表現出一定程度的葉片發黃、枯萎、凋零等現象,同時其光譜特征也會隨著變化,而且這種變化間接反映了植物在病害脅迫下的生理特性,因此可以根據光譜的差異來監測植物的生長狀況[25]。本文使用 450~998 nm 原始反射光譜,通過對光譜特征數據分析和主成分分析,選出特征波長,建立兩種識別水稻稻曲病的模型,分別為支持向量機(SVM)識別模型和主成分分析(PCA)加人工神經網絡(ANN)識別模型,并檢驗兩種識別模型的準確性,為水稻稻曲病的早期監測提供理論依據與技術基礎。
本研究的實驗地點為浙江省杭州市水稻田,該地區夏季悶熱,冬季涼爽,降水充沛,為稻曲病感染創造了有利條件,水稻自然發病。
Cubert UHD185 是一種全畫幅、非掃描式、實時成像光譜儀,采用全畫幅快照式高光譜成像技術,集高速相機的易用性和高光譜精度為一體,其搭載在無人機(起飛質量18 kg,靜載荷不小于8 kg,單組續航達30 min)上時,可在1/1 000 s內得到波長450~1 000 nm范圍內137個波段的高光譜影像。UHD185全畫幅式高光譜儀如圖1所示。

圖1 UHD185全畫幅式高光譜儀
由于各波長下光強度分布的不均勻性及高光譜相機的非線性和暗電流的存在,需要對原圖像進行校正。校正公式為
(1)
式中Rn——校正后的圖像反射率
Rs——原始圖像反射率
Rd——關上光源,擰上鏡頭蓋后采集的全暗參考圖像反射率
Rw——掃描反射率為99%的標準白板全白參考圖像反射率
黑白標定后進行數據采集,采集時鏡頭與被測目標平行,距離被測目標20~30 cm。在水稻的生長期,選擇光線明亮、無云、無風的天氣,利用機載UHD185全畫幅式高光譜儀采集帶有發病區域的多組水稻冠層高光譜圖像數據,選取健康水稻和發病水稻中對比顯著的冠層圖像,共計198幅,該數據用于稻曲病識別。選用450~998 nm之間的548個光譜帶,采樣間隔為4 nm。采集的每幅圖像由137個波段組成,最終得到尺寸為1 000像素×1 000像素的高光譜圖像數據。采集的水稻稻曲病高光譜圖像不但擁有二維的平面圖像信息而且整個圖像上每個像素都存在著連續光譜信息。
如圖2所示,使用ENVI 5.1軟件,在健康稻穗和患病稻穗區域分別選取一個50像素×30像素的長方形作為感興趣區域(Region of interest,ROI),計算整個ROI的平均光譜,作為代表該感興趣區域中心點像素的反射光譜。

圖2 健康和患病水稻光譜曲線
由圖2可見,在450~720 nm可見光譜段范圍內和780~900 nm的近紅外光譜段內患病稻穗光譜反射率明顯下降。在可見光波段450~780 nm,色素主導光譜特性,其中葉綠素起著關鍵作用,因此該波段的光譜反射率相比其他波段較低。其中,葉綠素在藍波段(450 nm)和紅波段(670 nm)具有較強的吸收能力,在這兩處會形成吸收谷,在黃綠波段(550~600 nm)會出現一個反射峰,因此健康的稻穗會呈現黃綠色。受到稻曲病菌侵染后,細胞中色素被破壞,可見光波段反射率下降,同時對紅藍波段的吸收能力下降,因此稻穗呈現黃色、黑色等異常顏色[26]。近紅外 780~1 000 nm 波段的光譜特性由植物體內細胞結構決定。稻曲病菌破壞了稻穗細胞結構,大量細胞壞死,細胞內部間隔增大,對光的多重散射減少,患病稻穗光譜反射率出現明顯下降。
高光譜儀采集光譜圖像時易受到外界條件影響,包括天氣、儀器電流噪聲、外界噪聲和光照等,造成光譜譜線重疊等問題,因此需要進行噪聲消除、敏感波段選擇等預處理,去除冗余數據,提高模型準確度和穩定性。
平滑算法能夠有效去除光譜內部隨機誤差,經常用于噪聲消除。平滑算法需要估算最佳平衡點,基于平衡點將前后若干個點相關聯,取平均值,從而達到消除噪聲的目的,因此經過平滑算法處理的每個高光譜波段是原始數據和相鄰多個波段的加權和[27]。平滑算法包括 Norris Derivative 平滑、移動窗口平均法和最小二乘擬合法[28]等,本文采用移動窗口平均法。該方法通過平滑窗口在光譜上移動,對平滑窗口內的光譜求平均。移動窗口平均法的算法步驟如下:①確定窗口大小,根據窗口大小對光譜首尾進行補零處理。②對處于移動窗口內的光譜進行平滑。③移動平滑窗口,不斷重復步驟②直至結束。
光譜曲線反映了水稻對光線的吸收和反射特征,因水稻的內部結構不同,水稻的吸收和反射特征不同,同一水稻在不同生長時期也呈現出一定規律的變化,提取能夠體現水稻病害變化規律的敏感波段并建立對應的識別模型,具有良好的建模效果。使用 ENVI 5.1 影像處理軟件分析預處理過的高光譜數據,通過選擇 ROI 區域找出健康稻穗與發病稻穗光譜曲線之間的關系或者通過降維處理,得到發病稻穗的特征波段組合,建立不同的識別模型,并通過驗證樣本來檢驗識別模型的準確性。圖3為稻曲病識別技術路線圖。

圖3 稻曲病識別技術路線圖
支持向量機(SVM)是目前應用比較廣泛的分類方法,其兼顧訓練誤差和泛化能力,在解決小樣本、非線性、高維數、局部極小值等模式識別問題中表現出許多特有的優勢。通過核函數將非線性問題轉化為高維空間中的線性問題,從而完成分類識別。采用線性、多項式、徑向基、S型4種核函數的 SVM 建模算法對發病稻穗進行識別;對影像分類后的結果進行精度驗證,驗證方法包括混淆矩陣、Kappa 統計等。
2.1.1樣本及參數選擇
選取ROI區域來獲取訓練和驗證樣本,獲取與4種核函數分別對應的訓練樣本,4組訓練樣本相同且每組訓練樣本中樣本的個數均為40;驗證樣本個數為45。在支持向量機分類中,Gamma、Penalty Parameter、Pyramid Levels等參數值一致。
2.1.2特征圖像提取
通過ENVI 5.1軟件反復嘗試實驗組1,由光譜反射率圖像發現,在可見光譜段波長為654 nm處出現一個反射峰,該處波長下的水稻稻曲病圖像是特征波長下的圖像,近紅外光譜段波長為838 nm和898 nm處的病斑部分與正常部分的光譜值差別較大,所以選取654、838、898 nm特征波長組合成 TZH1,TZH1 為紅色波長為654 nm、綠色波長為838 nm、藍色波長為898 nm的假彩色圖像,如圖4a所示。同樣的方法應用于實驗組2得出特征圖像 TZH2,表示紅色波長為630 nm、綠色波長為762 nm、藍色波長為806 nm的假彩色圖像,如圖4b所示。

圖4 兩組特征波長下的圖像
本實驗采用2組數據進行分析。實驗組1:選擇Auto063.cue作為數據源,特征圖像TZH1波段組合為654、838、898 nm;實驗組2:選擇Auto067.cue作為數據源,TZH2的波段組合為630、762、806 nm。假彩色圖像是為了使稻曲病的特征更加明顯,有助于進行解釋和分析。
2.1.3支持向量機分類
分別對2組圖像數據使用支持向量機分類,分類結果如圖5所示。從2組實驗數據的分類結果來看,除了實驗組1有小部分空隙區域分為患病稻穗區域外,2組實驗數據基本達到了準確識別患病稻穗區域的目的。支持向量機識別模型對水稻稻曲病診斷結果如表1所示。

表1 水稻稻曲病診斷結果
由表1可知,支持向量機分類方法診斷正確率比較高。其中,線性核函數、多項式核函數、徑向基核函數、S型核函數的診斷性能依次升高。S型核函數總體分類精度最高達到 95.64%,Kappa系數最高達0.94,所以在這4種核函數中,S型核函數的 SVM 分類方法最適合受稻曲病脅迫的水稻病害識別。
主成分分析(PCA)是高光譜圖像處理的一項重要技術,它通過多個波段的線性變換,使原始數據映射到一個新的坐標系統,以使數據的差異性達到最大,其分析的目的在于尋找在最小均方差意義下最能代表原始數據的投影方法。主成分分析可以在保證數據信息損失最少的原則下,對高維變量空間數據進行降維處理。在不丟失主要光譜信息的前提下,選擇數目較少的新變量替代原來較多的變量,解決了高光譜波段過多、譜帶重疊的分析難題。
圖6是PCA簡易投影圖,小方塊代表原始二維數據,通過轉換矩陣投影到以L為基準的低維空間,一方面保存了原始數據信息,另一方面降維到了一維。在實際問題中,往往會選擇前k個主成分,使累計貢獻率達到95%以上,這樣獲取的k個特征能較好地保存原始信息,同時減少噪聲干擾,實現數據降維。

圖6 PCA投影示意圖
2.2.1樣本選擇
這里的感興趣區域選取方式與支持向量機中樣本的選取方式一致,選取ROI區域來獲取訓練樣本和驗證樣本,獲取一組訓練樣本,其對應的訓練樣本個數為40,驗證樣本個數為 45。
2.2.2特征波長選取
運用ENVI 5.1 軟件對患病水稻高光譜數據主成分分析后,得到的累計貢獻率見表2,其中“—”表示忽略不計。

表2 主成分分析中特征值貢獻率統計
選擇前6個主成分來代表原始高光譜圖像,以對圖像進行壓縮處理,獲得有全波段線性組合的6個主成分分析后的各個成分得分圖,如圖7所示。
從主成分得分圖中可以看到第1主成分圖像水稻輪廓清晰,信息量大,但是我們所關心的患病區域在大量信息中沒有得到體現;在第2主成分圖像和第3主成分圖像中,在去除第1主成分中的特征波長后,雖然圖像中特征波長特征值貢獻率僅為 4.04%,圖像中水稻輪廓沒有第1個主成分效果好,但是健康稻穗區域和患病稻穗區域清晰可辨;而第4主成分、第5主成分和第6主成分的特征值貢獻率不足1.5%,對分析作用不大。
2.2.3人工神經網絡分類
選取前3個主成分所組成的假彩色圖像代表患病水稻的特征波長下的圖像,貢獻率分別為93.67%、2.80%、1.24%。使用主成分分析得到特征波長組合后,通過選取感興趣區域(ROI)來獲得訓練樣本和驗證樣本,然后建立人工神經網絡識別模型,得到線性分類和非線性分類的整體分類結果如圖8所示。

圖8 人工神經網絡分類結果
由圖8可知,人工神經網絡模型的非線性分類輪廓清晰,識別效果較好。
3.1.1分類結果
表3、4是2組數據分類后不同樣本的診斷結果。

表3 第1組數據樣本分類結果

表4 第2組數據樣本分類結果
從整體分類結果來看,2組數據的錯分誤差、漏分誤差總體分別達到 4.24%和 5.41%。第1組的分類結果較好,且葉子和健康稻穗錯分誤差較高,患病稻穗和空隙錯分誤差較低,葉子、健康稻穗、患病稻穗的漏分誤差較低,空隙的漏分誤差較高;第2組分類結果中,除了空隙的錯分誤差為0和健康稻穗的漏分誤差為0外,其余誤差都比較大。造成2組數據不同的原因是不同的波段組合形成的假彩色圖像信息識別度不同,即使2組數據選取訓練樣本和驗證樣本的方式一致,但仍然有差異,導致分類結果不同。從總體分類結果來看,2組數據均基本實現了識別水稻稻曲病的目的。
3.1.2模型檢驗
為了確定分類的精度及可靠性,需對分類結果進行檢驗,主要的檢驗方法為混淆矩陣。使用之前選擇好的驗證樣本評價分類后的結果,將分類后的結果作為混淆矩陣的輸入進行驗證分析,從而實現分類結果準確性評估。文中使用第1組實驗數據的S型核函數的支持向量機結果進行模型檢驗,混淆矩陣的總體分類精度(OA)如表5所示。混淆矩陣的錯分誤差、漏分誤差、制圖精度和用戶精度如表6所示。從表5中可知,健康稻穗、葉子、患病稻穗、空隙分類結果所占百分比依次增加,其中,患病稻穗所占百分比達31.24%,說明水稻患病程度嚴重。總體分類精度為95.64%。Kappa系數為0.94。從表6 中可知,本實驗中,總共劃分為患病稻穗的ROI有2 879個像素,其中正確分類2 866個像素,其余13個像素是將葉子錯分為患病稻穗,其錯分誤差為0.45%。同時患病稻穗有真實參考像素2 942個,其中正確分類2 866個像素,其余76個被錯分為其余類,其漏分誤差為2.58%。分析可知患病稻穗的漏分誤差較大,這是由于部分患病稻穗與葉子的信息相似,導致錯分的概率增大。

表5 混淆矩陣第1組指標

表6 混淆矩陣第2組指標
3.2.1分類結果
表7、8是兩種分類方式分類后不同樣本的診斷結果。

表8 非線性分類后不同樣本的診斷結果
從整體分類結果來看,線性分類和非線性分類的錯分誤差、漏分誤差總體分別達到9.57%、3.81%,非線性分類達到較好的效果。線性分類結果中,葉子、患病稻穗、空隙、健康稻穗的錯分誤差依次升高,其中健康稻穗的錯分誤差高達30.13%,葉子和患病稻穗的漏分誤差較高,健康稻穗和空隙的漏分誤差較低;非線性分類結果中,健康稻穗、空隙、葉子、患病稻穗的錯分誤差依次降低,其中患病稻穗的錯分誤差最低且為0,葉子、患病稻穗、空隙、健康稻穗的漏分誤差依次降低,其中健康稻穗的漏分誤差最低且為0。從2種分類結果來看,非線性分類可用于水稻稻曲病的早期監測。
3.2.2模型檢驗
為了確定分類的精度及可靠性,需對分類結果進行檢驗,檢驗方法為混淆矩陣。表9是線性分類和非線性分類驗證結果統計。

表9 線性分類和非線性分類的驗證結果統計
由表9可知,通過訓練樣本的人工神經網絡模型分類結果與驗證樣本的檢測結果一致,非線性分類明顯比線性分類的精度高,總體分類精度達到 96.41%,Kappa 系數為0.95。這是在驗證樣本較多的情況下得出的結果,而實際驗證樣本可能沒這么多,得到的識別精度會更高。所以非線性人工神經網絡識別模型適合基于受稻曲病脅迫的水稻病害識別。
(1)本研究建立了支持向量機識別模型和主成分分析加人工神經網絡識別模型。通過選取感興趣區域來進行訓練樣本及驗證樣本的選擇,在支持向量機識別模型中,獲取與4種核函數分別對應的訓練樣本,4組訓練樣本相同且每組訓練樣本中樣本的個數均為40,驗證樣本個數為 45。找出健康稻穗與發病稻穗光譜曲線之間的關系,得到發病稻穗的特征波段組合。在主成分加人工神經網絡識別模型中,通過對138個波段進行數據降維處理,得到前3個主成分代表的特征波段組合。這2種識別模型訓練樣本和驗證樣本的選取方式和個數均一致。
(2)結果表明,支持向量機識別模型中,S型核函數診斷性能最好且穩定,總體分類精度最高達到95.64%,Kappa系數為0.94;線性核函數的SVM診斷效果較差。通過2個實驗組數據的支持向量機診斷結果對比可知,使用支持向量機識別模型分類精度整體平穩,4種核函數的診斷效果沒有比較明顯的差異。主成分加人工神經網絡識別模型中,非線性分類比線性分類的結果準確性好,總體分類精度達到了96.41%,Kappa 系數為0.95。就總體分類精度而言,主成分分析加人工神經網絡識別模型中的非線性分類比支持向量機識別模型中S型核函數分類高0.77個百分點。因此主成分分析加人工神經網絡模型的非線性分類可以作為水稻稻曲病的早期監測手段。