徐 權,郭 鵬※,祁佳峰,汪傳建,張國順
(1. 石河子大學理學院,石河子 832003;2. 兵團空間信息工程技術研究中心,兵團空間信息工程實驗室,石河子 832003)
作物估產對保障國家糧食安全、經濟政策制定和農業可持續發展具有重要意義[1]。棉花是中國重要的經濟作物,及時了解棉花的長勢和產量,不僅對加強其生產管理和生產計劃安排有利,也對棉花外貿和進出口計劃制定有直接幫助,便于農業部門提前實施相應的管理與決策,獲得更好的經濟及環境效益[2-3]。
隨著信息技術的不斷發展,對作物產量的估算研究已經從傳統的地面測量發展到了多維時空的遙感估算[4]。遙感技術由于具有宏觀性強、獲取信息快、感測范圍廣等特點,已被廣泛應用于農業研究當中[5-8]。針對棉花產量的估算,國內外眾多學者也展開了卓有成效的研究[9-13]。Haghverdi 等[14]利用 Landsat 8 遙感數據,通過人工神經網絡和作物物候指標預測了美國田納西州西部的棉花皮棉產量。 Dalezios 等 [15] 利用NOAA/AVHRR 衛星數據,建立了棉花生長季內時間序列的NDVI 模型以估算產量。莊麗等[16]通過分析棉花產量與冠層光譜指數之間的相關性,建立了基于高光譜成像的棉花估產模型。劉煥軍等[17]利用時間序列的Landsat遙感影像,采用相關分析和線性回歸方法對植被指數與實測產量數據的關系進行了分析,建立了棉花產量預測模型,對美國加州圣華金河谷種植區的棉花產量進行了預測。由此可見,利用衛星影像和時間序列數據對棉花產量估算是一種行之有效的方法,但在實際估產應用中,高空遙感影像受下墊面、大氣效應、作物物候等影響較大,估產精度有待進一步提高[18]。而無人機遙感空間分辨率高、獲取數據快、操作簡單、成本低,能夠快速針對某一區域進行影像采集,獲取更精確的作物分布信息,成為航空遙感和衛星遙感的重要補充,對作物監測技術的發展和應用具有重大意義,眾多學者也利用無人機開展了大量研究工作[19-21]。
但遙感估產方法易受大氣效應和作物物候等影響,估產精度有待提高,結合棉花出苗和生長狀態監測的估產研究相對較少,本研究利用無人機高分辨率遙感影像,提出一種基于出苗株數并結合生長過程狀態的棉花估產理念和方法,構建了基于苗鈴生長趨勢的SEGT(Seedling Emergence and Growth Trend)估產模型,以期為棉花估產提供新的研究思路。
研究區位于新疆生產建設兵團第八師石河子墾區(86°01′00″~86°01′50″E,44°29′30″~44°30′00″N),如圖 1 所示。第八師石河子墾區地處天山北麓中段,古爾班通古特大沙漠南緣,該地區地勢平坦,平均海拔450.8 m,自東南向西北傾斜,屬于典型的溫帶大陸性氣候,冬季長而嚴寒,夏季短而炎熱,年平均氣溫在6.5~7.2 ℃之間,氣溫北部低,南部高,年降水量在125.0~207.7 mm 之間,無霜期為168~171 d,日照充沛,年日照時數為2 721~2 818 h。該地區生態氣候條件獨特,耕地平整連片,條田建設規范,棉花種植的機械化和規?;捷^高,適宜實施遙感估產和精準農業。

圖1 研究區示意圖Fig.1 Sketch diagram of study area
首先借助無人機可見光影像數據,通過計算植被指數與大津法、形態學濾波相結合的方法,獲取研究區內每株棉花的空間位置;然后利用無人機多光譜時間序列影像數據,分析各時期歸一化差異植被指數 NDVI(Normalized Difference Vegetation Index)與實際產量的相關特征,構建棉花生長狀態圖,并對生長狀態進行等級劃分,反演每株棉花的預測成鈴數;最后結合棉花單鈴質量構建 SEGT 模型進行棉花產量估算,并根據實測產量進行模型精度驗證。研究方案如圖2 所示。

圖2 技術路線圖Fig.2 Technology roadmap
本研究分別采用無人機可見光和多光譜影像開展試驗,其中可見光影像由大鵬CW-10 垂直起降固定翼無人機平臺搭載佳能EF-M18-55 相機獲得,佳能相機可獲得RGB 三通道灰度圖像,空間分辨率為2.5 cm;多光譜影像由eBee SQ 無人機搭載Parrot Sequoia 傳感器獲得,空間分辨率為 10 cm。棉花苗的提取對影像分辨率要求極高,因此試驗中沒有使用Parrot Sequoia 自帶的可見光影像,而是選用空間分辨率更高的佳能相機。無人機可見光影像于2018 年5 月23 日上午11 點拍攝,多光譜影像分別于2018 年6 月至8 月拍攝,共10 期數據,數據采集時天氣情況良好,無風,無人機飛行高度150 m,航向重疊度為80%,旁向重疊度為 60%。無人機影像數據通過 Pix4Dmapper 軟件進行影像拼接和正射校正,處理后影像以TIFF 格式存儲各通道的灰度信息,每個通道包含8 bit 信息,投影方式為WGS_1984_UTM_zone_45N。
地面實測數據主要包括棉花的真實出苗信息和實際產量,用于模型的構建和結果的驗證。試驗在研究區內均勻劃定了60 個3 m × 3 m 的樣地,其中40 個試驗樣區,20 個驗證樣區(詳細分布見圖1)。為準確記錄各個樣區的位置,分別在每個樣區中心插入一根花桿,并在花桿頂端放置一個紅色圓盤,以便可以更準確地在影像中找到樣區位置。試驗于2018 年5 月23 日進行,利用手持GPS 采集并記錄60 個樣區內棉花苗的數量和空間位置,共計采集5 291 株棉花苗。將實測數據與提取結果進行對比,對棉花苗提取結果進行精度評價。試驗選用的棉花品種為新陸早 64 號,是新疆兵團第八師種植面積最廣的品種之一,該品種屬于早熟陸地棉常規產品,生育期 123 d,株型為塔型,莖稈堅硬抗倒伏,生長穩健,葉片中等大小,葉上舉,通透性好。鈴卵圓形,較大,吐絮暢,宜機采,衣分 43.6%左右,纖維長度約30 mm,馬克隆值4.2,整齊度85.5%。棉花產量在吐絮期已經基本形成,測產一般都在該時期內進行,試驗于2018 年9 月20 日開展測產工作,利用天平稱量并記錄 60 個樣區收獲的籽棉質量,產量調查結果用于構建模型和驗證估產精度。
鑒于棉花植株與裸土在影像中存在明顯差異,本試驗利用植被指數和大津法相結合的閾值檢測方法確定棉花苗的空間位置,并利用數學形態學濾波進行降噪處理。
2.3.1 植被指數的篩選
植被指數可以根據綠色植物在各個波段不同的反射和吸收特性,對所獲取的波段進行運算,以增強植被信息,其本質是在綜合考慮各光譜信號的基礎上,把多波段反射率進行數學變換,從而形成一些表征植被參數的數值[22]。相對于衛星遙感影像,搭載佳能數碼相機獲取的無人機影像由于缺少近紅外波段,只能借助可見光波段構建植被指數來提取棉花信息。常用于表征植被信息的指數有過綠減過紅指數(Excess Green-Excess Red)[23],可見光波段差異植被指數(Visible-Band Difference Vegetation Index,VDVI)[24],歸一化綠紅差異指數(Normalized Green-Red Difference Index,NGRDI)[25],歸一化綠藍差異指數(Normalized Green-Blue Difference Index,NGBDI)[26]等,具體計算如表1 所示。

表1 常用可見光植被指數Table 1 Usual visible vegetation indices
2.3.2 灰度閾值法與降噪
大津法能使類間方差達到最大時的閾值自動確定為最佳閾值,本研究利用ENVI 軟件中的Class Activation to Pixel ROI 工具,選擇OTSU 算法,對植被指數灰度處理后的圖像進行二值化處理,獲取棉花的出苗信息。
圖像濾波可以簡化圖像數據,保持圖像基本形狀特征,并除去不相干的結構,可進行噪聲抑制、邊緣檢測、圖像分割和形狀識別等處理。通過ExG-ExR 指數和大津法相結合可以得到較好的棉花苗提取結果,但圖像仍存在少量噪點,本研究采用數學形態學濾波來解決這個問題,利用ENVI 軟件中的Convolutions and Morphology 工具進行卷積運算,卷積核大小為3(Kernel size=3×3,像素),濾波的重復次數為1(Cycles=1)。
2.3.3 精度評價
采用精確率(Precision)、召回率(Recall)、F1值3 個指標對植被指數的提取結果進行精度評價。

式中 TP 為正確提取的棉花苗數量,FP 為錯誤提取的棉花苗數量,FN 為未被提取的棉花苗數量。
植被指數能夠綜合不同遙感波段下的植被反射特性,與作物生物量、葉面積指數等存在極強的相關關系,因此許多研究經常使用植被指數評價作物的生長狀態[27],其中NDVI(Normalized Difference Vegetation Index)是監測植被覆蓋情況和生長狀況的最佳遙感指數[28]。因此本文利用無人機多光譜時間序列影像,通過分析各期棉花 NDVI 與實際產量之間的相關特征,確定各期 NDVI在生長狀態評級中的權重,構建能夠整體反映棉花生長狀態的綜合植被指數CNDVI(Comprehensive Normalized Difference Vegetation Index)CNDVI 值越大,棉花生長狀態越好,CNDVI 定義如下:

式中ai代表不同時期NDVI 的權重;j代表多光譜影像期數,j=10。根據每期NDVI 與實際產量的相關系數大小占相關系數總和的比例獲得。
根據得到的CNDVI 指數,參考李敏等[29]研究成果,利用自然間斷點分級法對棉花生長狀態進行等級劃分,并結合當地實際情況,將棉花分為 3 個等級,分別為一等苗、二等苗、三等苗。一等苗指發育正常且健壯的苗;二等苗指比正常苗偏小偏弱的苗;三等苗指病苗、小苗和弱苗。不同的生長狀態等級,對應不同的棉鈴數,也對應了不同的預估產量區間。針對分級后的CNDVI數據,于2019 年8 月29 日棉花吐絮期通過GPS 定位在研究區60 個樣區內實地測算不同生長狀態等級下的棉鈴數,根據實際調查情況,CNDVI 值越大,棉花結鈴數越多,結鈴數大于12 個和小于6 個的植株數量相對較少,約占總數的 5%,不具有代表性,因此最終確定一等苗對應 12個棉鈴,二等苗對應9 個棉鈴,三等苗對應6 個棉鈴。
棉花產量估算模型定義如下:

式中SEGT 為區域內棉花單位面積估測產量,kg/hm2;n代表棉花生長狀態等級,n=3;Ci代表不同生長狀態等級下棉花苗數量;Qi代表對應等級下單株棉鈴數量;W代表單個棉鈴質量,kg;S代表區域面積,hm2。
試驗用棉花品種的單鈴實測質量約6.3 g,因此W取值為0.006 3 kg,棉花產量估算公式為

式中C1、C2、C3分別代表一等苗、二等苗、三等苗的數量。
用實測產量對估產結果進行驗證,選取統計學中常用的決定系數(R2)、均方根誤差(RMSE)和相對誤差(ME)3 個指標評價模型估產效果。

棉花苗提取是構建SEGT 模型的一個關鍵環節,在很大程度上影響最終的估產結果,因此棉花苗的提取結果準確性至關重要。本試驗利用無人機獲取的高分辨率可見光影像數據,通過計算植被指數提取每株棉花苗的空間位置,統計區域內總株數,局部提取結果如圖3 所示。最終,在研究區42.47 hm2面積內,共計提取出4 364 255 株棉花苗,其種植密度為102 761 株/hm2。將提取結果與實測數據(2.2 節地面實測棉花苗數據)對比可知,該方法提取的精度較高,精確率為93%,召回率為92.33%,F1值為92.66%。評價結果表明,該方法能夠有效提取棉花出苗信息,可為后續棉花估產提供良好的基礎。
ExG-ExR、VDVI、NGRDI 和 NGBDI 指數對棉花苗識別精度如表2 所示。由表2 可知,ExG-ExR 指數針對棉花苗的提取在精度和穩定性方面最好,其中 3 塊樣地的平均精確率、平均召回率、平均F1值分別達到了93%、92.33%和 92.66%,明顯優于其他植被指數。VDVI 指數提取效果相對較好,但是在穩定性方面不如ExG-ExR 指數,NGRDI 與NGBDI 指數在精度和穩定性方面表現都相對較差。這些指數對植被識別都具有較好的效果,但對于單株棉花苗的提取識別,研究認為ExG-ExR 指數效果最佳。

圖3 基于無人機影像的棉花苗提取結果Fig.3 Extraction results of cotton seedling based on UAV images

表2 基于不同植被指數的棉花苗提取精度評價Table 2 Evaluation of extraction accuracy of cotton seedling based on different vegetation indices %
棉花生長狀態評級是構建 SEGT 模型的另一關鍵環節。植被生長是一個極其復雜的過程,土壤、水分、葉綠素等成分的差異,都可能會對最終的產量造成影響,因此對棉花進行基于時間序列的監測是十分必要的。試驗首先獲取棉花6 至8 月的無人機多光譜影像,根據天氣情況,每隔7~10 d 采集1 次數據,共計得到研究區內 10 個時期的 NDVI 數據,日期分別為2018-06-10、2018-06-19、2018-06-27、2018-07-08、2018-07-19、2018-07-23、2018-08-04、2018-08-14、2018-08-21、2018-08-28。然后將 NDVI 分別與試驗樣區的最終實際測產結果進行相關性分析以確定各時期NDVI 的權重。最后根據NDVI 權重得到綜合反映棉花生長狀況的CNDVI 指數,對棉花植株進行等級劃分,以獲取棉鈴數。試驗結果表明,根據相關性計算,10個時期 NDVI 與樣區最終實際總產量的相關系數分別為 0.69,0.72,0.75,0.81,0.88,0.87,0.82,0.83,0.75 和0.72??梢钥闯?,棉花鈴期的NDVI 與樣區最終實際產量之間的相關性較大,而蕾期和吐絮期相關性則相對較小。根據相關系數的大小,利用公式(4)對棉花 10 個時期的 NDVI 分別賦予 0.09,0.09,0.10,0.10,0.11,0.11,0.10,0.11,0.10 和 0.09 的權重,構建 CNDVI并進行棉花估產。
利用時間序列NDVI 構建的CNDVI 如圖4 所示。根據CNDVI 計算結果得到,最終CNDVI 取值在0~0.70 之間。采用自然間斷點分級法,選取0.29 和0.54作為分界點,將棉花劃分為3 個等級,分別對應一等苗(0.54<CNDVI≤0.70)、二等苗(0.29<CNDVI≤0.54)和三等苗(0≤CNDVI≤0.29)。從圖中可以看出,研究區內棉花整體生長狀態較好,以一等苗和二等苗為主(圖中綠色和黃色區域),三等苗相對較少,多分布在地塊邊緣處(圖中紅色區域),與實際調研情況相符。

圖4 棉花綜合植被指數分級結果Fig.4 Classification results of cotton Comprehensive Normalized Difference Vegetation Index(CNDVI)
獲取棉花出苗信息和棉鈴數后,根據公式(5)對研究區進行估產。研究區3 個樣地面積分別為17.72、15.35和9.4 hm2,總面積約為42.47 hm2,共計提取出4 364 255株棉花苗。棉花預測單產分別為 6 078.12、6 386.47 和5 900.44 kg/hm2,預估總產量分別為107 704.32、98 032.27和55 464.16 kg,總計約為261 200.75 kg。棉花實際總產量分別為101 542.08、90 389.69 和61 626.85 kg,總計約為 253 558.62 kg。研究區 3 塊樣地的估產精度分別為94.28%、92.2%和90%。
為了進一步驗證估產結果的精度,利用20 個驗證樣區(分布見圖1)的實際產量對預測結果進行驗證,選用決定系數R2、均方根誤差 RMSE、相對誤差 ME作為評價指標檢驗估產模型的精度和可信度。R2越接近于1,說明模型精度越高;RMSE 值越小表明模型預測能力越強,精度高且穩定性好、可信度高。通過模型驗證結果可知(圖 5),估產模型的決定系數R2達到了 0.92,均方根誤差 RMSE 為 0.1,相對誤差 ME 為3.47%,由此可見,利用SEGT 模型進行棉花估產具有較高的精度和可信度。

圖5 棉花預測產量驗證圖Fig.5 Verification diagram of cotton predicted yield
棉花產量預測是一項復雜的工作,既要考慮技術的實用性和可行性,同時又要考慮預測結果的可信度和精度。本文充分發揮無人機空間分辨率高、獲取數據快、操作簡單、成本低的優勢,構建了一種 SEGT 棉花產量估算模型,為無人機遙感在作物估產研究中的應用提供了一種新的思路,但試驗中一些關鍵點仍值得進一步探討:本研究進行了 1 個年度的棉花產量估算,但不同年份的棉花出苗情況以及生長狀態存在較大差異,模型能否在不同年度、不同區域都取得較好的效果,需要在接下來的研究中,在更多區域、更多年度開展試驗工作,驗證并完善模型算法,進一步擴大估產區域,分析多年間產量的時空變化及其原因,提升模型與方法的適用性;棉花的生長狀態較難準確評估,為避免人為主觀因素的影響,本研究采用自然間斷點分級法進行劃分,但該分級方法與影像數據本身關聯性較大,難以針對不同區域劃分統一標準,后續研究中還應加強生長狀態分級和棉鈴數關系的研究,進一步提高量化標準,實現客觀、準確的棉花生長狀態分級和棉鈴數獲取,以提高模型的準確性;本研究通過獲取苗數與每株棉花單產累加的方法得到整個區域的棉花產量,棉鈴數和單鈴質量是模型的2個重要參數,其與棉花品種存在較大關聯性,因此在后續的研究中,需對更多棉花品種進行系統測量和參數修正,以提高模型的穩定性和適用性。
本文針對無人機高分辨率遙感影像,提出了一種基于SEGT(Seedling Emergence and Growth Trend)模型的棉花產量估算方法,主要結論如下:
1)基于無人機高分辨率的可見光影像,針對棉花苗的識別與提取,ExG-ExR 植被指數效果最佳,精度和穩定性較高,精確率達到了93%,召回率達到了92.33%,F1值達到了92.66%,VDVI 指數精度次之。
2)獲取不同時間序列的 NDVI 影像,構建 CNDVI表征棉花生長狀態,并選取0.29 和0.54 作為分界點,估算棉鈴數,是構建SEGT 模型的關鍵環節之一。
3)經驗證,本文所構建的SEGT 模型決定系數達到0.92,具有較高的可行性、可信度和可靠性,是一種切實可行的棉花估產方法。