盧 柱 齊 亮 李邦昱,2
(1.江蘇科技大學電子信息學院 鎮江 212003)
(2.中國科學院自動化研究所 北京 100190)
水稻育種是一個極其復雜的過程,在常規育種的選擇過程中,準確估算農作物的生物量十分重要,目前估算農作物的生物量的工作主要依靠人工測量。然而,人工測量農作物生物量是主觀的,缺乏魯棒性或可重復性,并且對于較大面積的農田來說非常耗時[1]。隨著無人機技術和光譜成像技術的發展,基于無人機的高光譜相機在農作物生物量測量的高通量表型領域的應用越來越廣泛[2]。
目前,基于高光譜數據預測出高產的水稻品種通常是通過預測回歸模型來實現的[3~5],如最大似然分類方法、最小錯誤概率的貝葉斯分類器[6]、SVM[7]等。
近年來,深度學習的發展給利用農作物高光譜圖像進行分類預測帶來了新的機遇。2015 年,Hu等[8]將卷積神經網絡(CNN)引入高光譜分類中,該方法利用了光譜信息作為分類依據。閆苗等[9]通過分析不同CNN 模型對高光譜圖像的分類效果,證實了CNN 模型在高光譜遙感地物分類中具有較高的識別率。2019 年,魏祥坡等[10]結合殘差網絡和密集網絡設計了殘差密集網絡模型(ResDen-Net),該模型充分利用了所有分層特征,增強了分類方法的穩定性。
本文的研究中,我們結合了高光譜數據和深度學習語義分割算法來分類預測出高產水稻品種。高光譜數據的分類器通過deeplabv3+算法訓練獲得。我們先分析水稻高光譜中各波段的相關性,然后提取高光譜的通道特征向量以構成偽RGB 圖,最后將偽RGB 訓練集和標簽導入搭建的deeplabv3+網絡中進行訓練并保存模型,利用模型對目標數據進行有效分類。
本節介紹了本文所提出的稻田產量分類方法:deeplabv3+。該算法包括兩個部分:編碼器架構和解碼器架構。
deeplabv3+算法將deeplabv3 網絡作為編碼模塊來提取特征,然后通過解碼模塊來實現語義分割。在deeplabv3 網絡中,deeplabv3 使用深度殘差網絡(ResNet_101)[11]提取語義信息,同時采用空洞卷積(Atrous Convolution)來控制輸出特征圖的分辨率并擴大卷積核的感受野。以二維特征圖為例,假設卷積核為W,當空洞卷積作用于輸入特征圖x,對于輸出特征圖y中的每個位置i,有:
其中:r表示膨脹率。對應于我們采樣信號的步長(stride),這等效于在每個空間維度上,將輸入x與兩個連續的卷積核之間插入r-1 個零而產生的上采樣卷積核進行卷積。如圖2 所示,在卷積核中插入0,相當于對卷積核進行了上采樣,其中,標準卷積r=1。空洞卷積允許我們通過膨脹率來控制感受野的大小。

圖1 deeplabv3+網絡結構圖

圖2 高光譜數據采集地
deeplabv3+網絡中非常巧妙地使用了一個雖然簡單但很有效的解碼方式:在deeplabv3+網絡對目標圖像進行分割時,首先對編碼器特征進行雙線性插值4 倍上采樣,然后將計算后的編碼器特征與來自網絡主干的具有相同空間分辨率的低級特征連接起來。然后,采用3×3 的卷積核和因子為4的雙線性插值上采樣來將輸出特征圖的大小轉化成與輸入一樣的形狀,最終經Softmax 分類層得到對應的分割結果。
整個網絡采用逐像素的交叉熵誤差函數作為損失函數,對于每個像素x,Softmax 分類器的輸出為
其中:x為二維平面上的像素位置;k為總類別數;αk(x)表示Softmax輸出的像素x對應的第k個通道的值;Pk(x)表示像素x屬于第k類的概率。于是整個網絡的損失函數可表示為
其中:tx為像素x的正確解監督數據;Pl(x)為像素x屬于真實類別l的概率。
3.1.1 高光譜數據采集地點
在中國寧夏永寧縣寧夏農業科學院進行了水稻栽培和高光譜圖像數據采集(圖2)。寧夏6月至9月的平均月降雨量為34.3mm,此期間的平均溫度在15.9℃~23.4℃之間。水稻幼苗于2018 年6 月1日移栽,并于2018 年9 月9 日收獲。水稻種植地點和種植情況如圖2所示。
3.1.2 根據人工測量產量對水稻品種進行分類
本研究中所使用的數據集來自13 個晚熟早粳稻品系,每個品系有3 組,共39 個樣本單元。根據每畝人工測量的平均糧食產量對不同樣本單元中的水稻品系進行標記。據中國國家標準(編號:20000011),擁有產量超過750kg/畝,750kg/畝和700kg/畝之間,以及小于700kg/畝分別為high 類、mid類和low類。分類情況如表1所示。
將13 個水稻品種按人工測量的產量分為高產、中產、低產三個類別,其中紅色標簽代表中產,綠色標簽代表低產、黃色標簽代表高產。具體標記情況如圖3所示。

圖3 數據分類和標記
3.2.1 特征波段選擇在高光譜圖像分類中的作用
高光譜數據有上百個波段,波段間距窄,提供了豐富的地物光譜信息,但波段越多,波段間的相關性就越大,數據的冗余度也越大,同時也帶來了海量數據存儲和處理的技術難題。合適的光譜特征波段選擇方法可使高光譜圖像數據的維數降低、運算復雜度減小,分類算法的訓練和測試時間也隨之降低[12]。
3.2.2 分步選擇法提取特征波段
實現最佳波段組合,需要考慮波段信息量豐富、波段間相關性小、波段組合對目標地物的光譜反映差異大三個因素。波段相關性和波段信息量的提取有組法和分步法,組合法要求在一個評價準則或公式里求得最小相關性和最大信息量,如最優索引因子(Optimal Index Factor,OIF)的波段選擇法和自適應波段選擇法(Adaptive Band Selection,ABS)的兩種組合波段選擇方法。
有研究指出OIF 和ABS 法選取的特征波段難以兼顧信息量和相關性的問題[13],本研究采用分步選擇法提取水稻高光譜圖的特征波段。分步法采取分別考慮波段信息量和波段間相關性的方法來尋找最優波段組合,其流程圖如圖4所示。

圖4 分步選擇法提取特征波段的流程圖
通過無人機采集的水稻高光譜數據集的高光譜波段有176 個,其靈敏度高于分析要求。首先,通過對高光譜的各波段進行相關性分析,可以得出使該高光譜數據的相關性系數最大的連續波段數為8。因此,本文使用8 個相鄰頻段的平均值作為中心頻段將176 個波段按照植被光譜的特征分為相關性較弱的22 個子集,然后在各個子集內尋找信息量最大的波段作為子集的代表波段。
其次,在選出的幾個代表波段中,以任意3 個波段為一組,計算所有波段組合的最優索引因子OIF。將這些波段組合用3 波段分別合成假彩色圖像,并通過JM距離計算假彩色圖像中各類水稻特征的可分性M,其計算公式如式(4)所示。
式中,JM代表JM距離;X代表像元;ωi,ωj代表類別號;p(X/ωi)代表類條件概率密度,即第i個像元屬于第ωi個類別的幾率。JM的值在0~2 之間時,其大小代表樣本間的可分離程度。當JM位于0.0~1.0 之間時,認為樣本間不可分;JM位于1.0~1.8 之間時,樣本間具有一定的可分性,但存在錯分現象;位于1.8~2.0 之間時,樣本間具有較好的可分性[14]。
最后,最佳特征波段組合通過選擇OIF 最大且JM 距離大于1.8、相關性系數小于0.3 的一組波段確定[15]。
通過這樣的三步來獲取最優波段組合,雖然分步選擇法比OIF 法過程稍顯繁瑣,但只計算波段子集內兩兩波段的相關系數,計算量并不大,更重要的是該方法確保了所選波段相關性小、信息量大,因而更合理。
通過分布選擇法,我們從水稻田數據集的176個高光譜波段中提取有效的特征組合,獲取了1291 張可供深度學習網絡訓練的偽RGB 圖。如圖5所示。

圖5 各波段組合生成的偽RGB數據集
3.2.3 訓練數據集的制作
我們的水稻田數據集包含1291 張偽RGB 圖片。為了使用深度學習網絡對其進行有效訓練,我們對該數據集進行了相應的劃分,其中訓練集有833張圖,驗證集有358張圖,測試集有100張圖。
最后,我們使用語義分割專用的標記工具labelme對預處理好的數據集進行人工標記。每張圖片中的水稻田塊有3組,每一組有13塊地。我們先對水稻成熟后的產量進行人工統計,再根據各田塊產量的統計數據,將39 塊稻田劃分成高、中、低三類,分別用黃、紅、綠三種顏色標記,標簽名分別為mid,low,high,其余無關背景的標簽名為backgroud。
實驗軟件環境為Windows10-64 位系統,采用目前流行的tensorflow 深度學習開源框架。計算機內存為16GB,搭載AMD R7-4800H CPU,GPU 采用英偉達的GTX1650 對深度學習模型進行加速。試驗中訓練數據和測試數據的批次大小都設置為1。訓練模型時采用了momentum 優化器來實現網絡參數的快速更新。為防止過擬合,采用了常用的權值衰減(weight decay)方法,權值衰減系數設置為0.00004,初始學習率設置為0.0001,每迭代100 次學習率減小為原來的10%。。訓練過程中的損失函數值的變化與評估結果分別如圖6、圖7所示。

圖6 損失函數的變化曲線

圖7 評估結果
在水稻高光譜數據測試集上,我們評估了deeplabv3+分類的性能,并與其他傳統的用于圖像分類的語義分割方法進行了比較。具體的deeplabv3+網絡以及其他網絡對測試集圖片的分割效果分別由圖11 所示以及由表1 給出。在圖8 中,(a)是用于預測的原始圖像;(b)是用于驗證的標簽圖;(c)是deeplabv3+分割結果圖;其中,低中高三種產量的水稻地塊分布用綠、紅、黃三種顏色標記。
實驗中,我們比較了不同的深度學習網絡對水稻的數據集的分類效果。我們使用IOU>0.6 作為評估是否正確區分出水稻類別的依據。使用MIOU來評價所使用的深度學習網絡的優劣。它們的定義如下:
其中,A表示標簽中的像素,它由人工標記時進行定義,B表示網絡的預測結果。
其中nc為總類別數,nji表示實際類別為i、被預測類別為j的像素數量,為類i的像素總數,MIOU為真實值與預測值的交集比并集,通常為語義分割最終的評價標準。
其他兩個指標是precision和recall,它們的定義如下:
其中,TP表示真正樣本,FP表示假正樣本,FN表示假負樣本。
在水稻產量實驗中,我們將目標水稻田像素作為正類,以背景像素為負類,真正樣本表示網絡正確推斷出各自的產量類別像素,真負樣本表示網絡推斷背景像素正確,假正樣本是指網絡錯誤地推斷出水稻或將背景像素推斷為水稻,最后一個假負樣本表示網絡錯誤地推斷了水稻像素為背景。最后,表2 給出了評價指標,它由MIOU、Recall、F1-measure組成。

表2 不同水稻產量預測算法的比較
在本文中,我們對水稻的高光譜數據采用了當前最流行的語義分割算法deeplabv3+,以實現分類出高產產量水稻。此外,我們還比較了幾種不同的語義分割方法對水稻高光譜圖片分類的效果。deeplabv3+算法的總體精度高于其他分類算法。相比于原有的deeplabv3 架構的分類算法,它保持了較高的分類精度,同時,也明顯提升了稻田邊緣的細節信息。實驗結果表明,對于水稻高光譜數據集,deeplabv3+可以實現非常好的分類效果。為提高農業生產中的產量估算和育種等工作的速度和效果提供了更為準確有效的技術支持。