



摘要:大田作物大多采取露地種植方式。東北地區全年溫度較低,在作物苗期如果出現日照和降雨量大范圍的波動,則十分容易導致農作物出現苗弱苗小、根系長勢弱以及發育不全和生長緩慢等現象。若能對農作物苗期實時監測和管理,及時掌握其生長狀態及其環境情況,便可及早做出決策。本研究于2022年5月9日—2022年6月16日期間,對試驗田內11個氣象站的小麥、玉米和水稻、小麥苗期圖像進行采集,通過整理和篩查后形成的數據量約為2.59 GB,其中可見光RGB 1.48 GB,近紅外光譜 1.11 GB。本數據集可以通過RGB可見光數據和近紅外光譜數據完成對作物的葉齡識別,將提取出的特征(顏色特征、圖像特征、紋理特征、植被指數)帶入機器學習回歸模型中進行分析預測,同時本數據集還適用于構建作物識別或幼苗識別的卷積神經網絡模型,以進一步精準實現作物檢測及插秧后漏苗、補苗等研究。
關鍵詞:黑龍江;苗期數據集;小麥;玉米;水稻;可見光圖像;近紅外光譜圖像
數據摘要:
1""引言
農業在我國一直扮演著舉足輕重的角色。隨著城
鎮化加速和農村勞動力外流,傳統的農業監測手段已經很難適應發展的需求,嚴重制約了我國農業產業的進一步發展。近年來,科技的進步推動農業智能化,包括物聯網、人工智能和大數據分析等技術的應用,顯著提升了生產效率和產品質量。我國的農業研究也向規模化、智能化方向發展,基于RGB圖像數據和多光譜圖像數據的監測技術不斷涌現,為農業發展提供了新思路和可能性。
近年來,農業研究人員利用計算機視覺、人工智能等技術,成功實現了對大田作物幼苗生長的實時監測,為深入了解作物生長情況和地塊相關信息提供了新的途徑和思路。萬路瑤[1]以黃豆為研究對象,用USB工業相機采集了黃豆的RGB圖像數據作為模型輸入數據,通過機器學習模型支持向量機(SVM)完成精確識別種子計數任務,實現種子粘連類型的識別和計數工作。朱登勝[2]通過多光譜成像儀完成了對豆苗與雜草的多光譜圖像數據的采集,以多光譜圖像的近紅外通道為基礎,利用圖像分割和形態學方法將田間作物幼苗與雜草的圖像進行識別判斷。滕佳昆[3]于2015年3月20日至2015年12月13日每天上午6:00至下午6:00,共計拍攝了刺槐268天的RGB數據,通過對數據的提取處理,比較了4個顏色指數在平均值法和最大亮度法兩種分析方法下提取植被生長過程時間節點的效果,實現了對植被生長狀況主要時間節點的自動提取。袁媛[4-5]采用數碼單反相機拍攝構建了7種葡萄病害RGB圖像數據集,數據量為3"622張,為葡萄病害識別研究領域提供寶貴的基礎數據資源。
根據以往的研究,多數數據集僅拍攝了RGB或光譜數據,同時同頻次采集兩種數據的研究較少。另外在使用RGB圖像數據和光譜數據進行研究時,通常需要其生長發育過程中某個生育期的數據。本研究在有關項目的支持下,使用雙目攝像機采集了小麥、玉米、水稻苗期RGB和近紅外圖像數據集,通過數據整合,建立了一個既能夠完成圖像識別還能夠為機器學習建模提供訓練和測試樣本的大田作物苗期圖像數據集。此次公開的數據集包含大量的具有時間特征的水稻、小麥和玉米生長圖像資源,可供在作物苗期生長特性及其長勢研究和圖像識別等研究領域的研究者使用,以逐步提升農業科技水平。
2""數據采集與處理方法
本實驗中作物圖像數據通過氣象監測中搭載的雙目攝像機采集。氣象站安裝高度為2.4米,視場角90°,4.35 mm無畸變鏡頭。雙目圖像模塊采用華為海思主控芯片和索尼800萬像素COMS,外殼使用的是一體化鋁合金CNC加工、陽極氧化表面處理,防水、防塵、耐腐蝕,適用于野外惡劣環境下長期使用。最大分辨率為3"840×2"160,800萬像素,支持自動曝光,自動白平衡,3D降噪等功能。搭配相同視角的RGB可見光和RGN多光譜無畸變鏡頭,可實現同位置、同視場角、高質量、無畸變、多波段圖像數據采集,主要用于植被長勢監測、營養情況監測、物候觀測、植被蓋度計算、NDVI等植被指數計算。
數據采集時,拍攝方式主要是自然光照條件下俯視垂直拍攝。相機拍攝的高度為2.4米,相機數據采集區域長為4.4米,寬為2.5米。在相機拍攝時采用自動曝光模式,該模式能夠對曝光時間和色彩平衡進行調整。采集到的圖像統一存儲格式為JPG,尺寸大小設置為3"840像素×2"160像素。
3""數據內容
本實驗主要對我國黑龍江地區2022年水稻(龍粳31)、小麥(龍麥35)、玉米(鄭單958)苗期的數據采集與整理。水稻播種日期為2022年5月29日,玉米播種時間為2022年5月28日,小麥播種時間為2022年5月9日。數據集由水稻、玉米、小麥3種大田作物種植區內安裝的11個監測點的數據圖像組成,每個日期的監測點數據對應一個文件夾。其中水稻有4個監測點,設備編號分別為789、790、792和793,數據采集日期為2022年5月29日至6月14日;玉米有4個監測點,設備編號為797、798、799和800,數據采集日期為2022年5月28日至6月16日;小麥有3個監測點,設備編號為791、795和796,數據采集日期為2022年5月9日至5月17日。數據采集時間為每日的6:00、8:00、10:00、12:00、14:00、16:00和18:00,按此采集頻率共采集作物苗期圖像1 804張。以設備編號建立數據子集,每個子數據集包含了以時間序列命名的可見光和近紅外光
譜原始JPG文件。
3.1""RGB圖像數據集
大田作物可見光圖像數據中每個品種的圖像均保
存在獨立的文件夾中,每張圖像代表一個作物圖像樣本。文件夾按照“地塊設備號+時間+序號”的方式命名。部分樣本示例如圖1所示。
3.2 "近紅外圖像數據集
大田作物近紅外光譜圖像數據集中每個品種的圖像均保存在獨立的文件夾中,每張圖像代表一個作物圖像樣本。文件夾按照“地塊設備號+時間+序號”的方式命名。部分樣本示例如圖2所示。
4""質量控制與技術驗證
各作物地塊的示范區內基礎設施建設均滿足國家示范標準,數據采集設備的安裝按照標準操作流程規范進行,充分保證了數據來源的質量和可靠性。數據采集使用標準的高清相機,設備按照設定的時間完成
數據采集任務,圖像格式為標準的JPG格式。
在數據整理過程中,主要通過氣象站自帶的服務平臺對數據進行下載,數據下載完成后將作物的品種和氣象站的標號進行分類,同時采用人工核準和儀器檢測結合的方式來控制源數據質量。在人工核準時,如果發現某樣本數據存在畫面模糊或者雜物過多等情況,則認為作物樣本數據可疑。在篩查過程中如果發現不符合要求的文件,進行人工剔除,保證本數據集中作物苗期數據來源的高質量和可靠性。最終各項數據按照“地塊設備號+時間+序號”的方式進行命名整理。
5""數據價值與使用建議
由于不同作物的苗期生長狀況各不相同,因此在使用此數據集時可按照具體的生長時間對各作物生長情況進行分類,分別對各類作物的圖像和光譜信息進行分析研究。
針對近紅外光譜數據可運用圖像處理和深度學習技術實現對作物苗期長勢參數估算,將作物苗期的冠層圖像數據輸入,構建適用于作物苗期長勢參數估算卷積神經網絡的模型,通過機器學習的方式建立作物冠層可見光圖像與長勢參數的關系,進一步實現農田尺度作物苗期冠層葉面積指數(leaf area index,LAI)和地上生物量(above ground biomass,AGB)等各項指數的準確估算。針對RGB可見光數據可進行作物葉齡識別,根據圖像數據內置屬性對顏色、紋理、形狀、植被指數進行特征提取及計算,篩選相關性較大的特征并進行回歸計算,從而構建葉齡識別檢測模型。同時還可對作物幼苗進行計數,基于機器學習和深度學習相關技術,提取作物圖像的植被覆蓋度、光譜以及紋理等信息建立多元線性回歸方程完成幼苗計數和漏苗、補苗檢測等。基于本數據集可構建識別模型,完成對農作物檢測識別,提高農業工作者從事農作物種類識別工作的效率,助推農業科學的發展。
6""數據可用性
中國科技資源標識碼(CSTR):https://cstr.cn/"17058.11.sciencedb.agriculture.0009;
數字對象標識碼(DOI):https://doi.org/"10.57760/sciencedb.agriculture.00092。
限制性獲取。
數據作者分工職責
秦佳樂,數據的整理匯總與論文撰寫。
郭雷風,論文架構設計與論文撰寫指導,提供論
文項目基金支持。
王曉麗,數據整理和論文撰寫指導。
苑江浩,數據采集裝備布局設計與安裝。
宋國柱,數據人工核準。
姚鴻勛,數據核準。
倫理聲明
本文數據不涉及倫理聲明相關的內容。
利益沖突聲明
作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。
參考文獻
[1] 萬路瑤.基于圖像識別的作物種子自動計數方法研究[D].成都:成都大學,2020.
[2] 朱登勝,邵詠妮,潘家志,等.應用多光譜數字圖像識別苗期作物與雜草[J].浙江大學學報(農業與生命科學版),2008(4):418-422.
[3] 滕佳昆,劉宇,丁明濤. 基于RGB圖像的刺槐季節變化監測適用指數研究[J]. 遙感技術與應用, 2018, 33(3): 476-485.
[4] 袁媛,陳雷.IDADP-葡萄病害識別研究圖像數據集[J].中國科學數據(中英文網絡版),2022,7(1):86-90.
[5] 陳雷,袁媛.大田作物病害識別研究圖像數據集[J/OL].中國科學數據,2019,4(4).(2019-06-11).
引用格式:秦佳樂,苑江浩,宋國柱,姚鴻勛,郭雷風,王曉麗.2022年黑龍江小麥、玉米、水稻苗期圖像數據集[J].農業大數據學報,2024,6(4): 558-563. DOI: 10.19788/j.issn.2096-6369.100026.
CITATION:"QIN JiaLe, YUAN JiangHao, SONG GuoZhu, YAO HongXun, GUO LeiFeng,"WANG XiaoLi. Image Dataset of Wheat, Corn, and Rice Seedlings in Heilongjiang Province in 2022[J]. Journal of Agricultural Big Data, 2024,6(4):"558-563."DOI: 10.19788/j.issn.2096-"6369.100026.
Image Dataset of Wheat, Corn, and Rice Seedlings in Heilongjiang Province in 2022
QIN JiaLe1,2, YUAN JiangHao3, SONG GuoZhu1, YAO HongXun4, GUO LeiFeng2*, WANG XiaoLi2,5,6*
1. School of Software, Shanxi Agricultural University, Taigu 030801, Shanxi, China; 2. Institute of Agricultural Informatics, Beijing 100081, China; 3. Academy of National Food and Strategic Reserves Administration, Beijing, 100037, China; 4. Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China; 5. National Agriculture Science Data Center, Beijing 100081, China; 6. National Nanfan Research Institute (Sanya), Chinese Academy of Agricultural Sciences, Sanya 572024, Hainan, China
Abstract:"During the cultivation process, most field crops are typically grown in open fields. The northeastern region of China experiences relatively low temperatures throughout the year. During the seedling stage of crops, significant fluctuations in sunlight and rainfall can easily lead to issues such as weak and stunted seedlings, poorly developed root systems, and slow growth. Timely monitoring and management of crops during the seedling stage can help in understanding their growth status and environmental conditions, enabling prompt decision-making.Experimental data was collected from May 9, 2022, to June 16, 2022. RGB cameras installed at 11 meteorological stations in the experimental fields collected data seven times a day at 6:00, 8:00, 10:00, 12:00, 14:00, 16:00, and 18:00. The images were captured at a height of 2.4 meters with a field of view angle of 90°, covering an area of 4.4 meters in length and 2.5 meters in width. Photography was mainly conducted through natural light conditions with a downward vertical perspective.After organizing and screening, the dataset comprises approximately 2.59 GB of data, including 1.48 GB of visible light RGB data and 1.11 GB of near-infrared spectral data. This dataset enables leaf age identification through visible light RGB data and near-infrared spectral data. Extracted features (color features, image features, texture features, vegetation indices) can be inputted into machine learning regression models for analysis and prediction. Moreover, this dataset is suitable for constructing convolutional neural network models for crop recognition or seedling identification, facilitating precise crop detection and further research on issues such as missed or replanted seedlings after transplanting.
Keywords:"Heilongjiang; seedling stage dataset; wheat; corn; rice; visible light image; near-infrared spectral image
Data summary: