1引言
農業科學數據是支撐國家農業科技創新和農業農村經濟發展的重要基礎性、戰略性資源[1]。隨著人工智能、大數據技術為代表的數字時代的來臨,數據已作為重要生產要素之一,被正式納入國家要素市場化配置之中,蘊含重大意義[2]。同時,數據資源已成為與糧食、能源同等重要的戰略資源[3],數據驅動的研究模式給傳統科學研究領域帶來了新的研究方法與科學研究范式,推動以農業科學數據為重要內核的農業農村大數據科技創新,也為農業農村現代化發展帶來了新的機遇[4。
隨著數據驅動科學研究范式的發展,農業科學數據在科技創新中的作用越來越突出[5],隨之而來的是,農業科學數據分析挖掘和應用的方法與技術研究,以及相關工具軟件的研發,受到了科技界和產業界的高度重視[。國外歐美發達國家在農業領域科學數據挖掘技術和軟件研究與應用上積累雄厚,總體處于領先地位,國內在農業領域科學數據挖掘技術和軟件研究與應用上進步迅速,但總體處于追趕的狀態7。通用數據挖掘分析方法和技術進展迅速[8],例如 SAS、SPSS、Weka、Matlab等數據挖掘分析工具在金融、醫藥、農業等行業得到廣泛引用;領域數據挖掘分析方法與技術也不斷發展[9-10],例如在育種數據和土地數據挖掘軟件上,Agronomix、Genstat、IBP(BMS)、Agrobase等商業軟件也在世界范圍內被廣泛應用。
場景驅動的農業科學數據挖掘方法、技術、系統的研究與應用是當前的熱點,并具有良好的發展前景[11]。一是,從單一尺度到大數據尺度的跨尺度挖掘。隨著技術發展,尤其是隨著基因組、表型組、遙感技術的發展,不同尺度的數據不斷積累,針對不同場景的不同尺度數據,誕生了不同挖掘工具和挖掘方法[12],形成了跨尺度挖掘的發展趨勢。二是,從單模型到多種模型組合的跨模型分析。農業科學數據是多維復雜數據,不同方向具有不同學科背景的模型,單一模型已經不足以滿足數據分析和挖掘的需求[13]。如作物表型數據挖掘中,科學家大多開始使用多種模型相互組合,首先使用圖像檢測模型尋找定位作物表型器官,然后對相應的器官進行圖像識別和計數,通過圖像分割、精準測量、智能評估等多種模型進行處理,這些模型的組合使用,表明農業科學數據的挖掘已經邁入跨模型分析階段。
農業科學數據具有異構性、數據規模大、數據結構復雜、數據標準不統一的特點[14],其中包含著大量模糊、不完整、冗余的信息。圍繞農業科學數據分析挖掘還存在數據語義孤島嚴重,以及數據挖掘工具不全、不配套與場景適應性差等突出問題[15],本文以面向育種、耕地評價、農業綠色發展領域的13個場景智能分析挖掘應用能力提升為目標,研建農業科學數據在線協同分析引擎,集成科學數據自動化分析核心框架、典型挖掘算法工具,以及面向育種的專用挖掘工具,開發農業科學數據分析挖掘平臺,支撐超大規模數據及不同場景分析應用的并發在線交互計算分析,突破\"數據資源—分析工具—應用場景\"銜接不暢的問題,助力提高農業科學研究效率。
2 平臺設計
2.1 平臺構架設計
面向從事農業數據領域工作者的需求,以及大規模用戶使用的需求,設計了農業科學數據在線分析挖掘平臺,整個平臺分為5層結構,自下而上分別是數據層、領域數據分析工具層、自動化挖掘框架層、在線分析引擎層,以及用戶界面層。該平臺針對農業科學數據分析挖掘存在的數據語義孤島嚴重、數據挖掘工具不全、場景適應性差等突出問題,將數據、模型、場景組建在一起,突破\"數據資源—分析工具一應用場景\"銜接不暢的問題,形成集數據資源、分析模型、組件工具、場景分析和標準流程于一體的在線分析挖掘應用環境,支撐從“數據聚合一挖掘分析鏈—在線分析—場景應用\"的農業科學數據在線分析挖掘全過程,示范應用面向育種、土評和農業綠色發展等13個場景的分析挖掘技術,形成農業科學數據挖掘分析關鍵技術典型應用案例。平臺構架設計如圖1所示。

2.2分析挖掘引擎設計
以python作為分析引擎,以python為基礎的模型算子作為封裝對象,建立java與python的通信與調用函數關系,形成以python編譯器為核心的“ Spring+Springboot+SpringCloud+redis+mysql+Oauth2+python”農業科學數據在線分析挖掘引擎。
分析挖掘流程如圖2所示:通過python封裝典型與專業模型算子;使用java與python的通信與調用函數,調用python編譯器執行封裝后模型算子的運行;返回python運行結果給java。
分析挖掘引擎中包含統計分析、機器學習、深度學習三種典型算子,具體專業算子如表1所示。


通過構建農業科學數據在線協同分析引擎,提供數據資源發現與高效加載、數據與分析工具自動匹配、異構分析工具協同、在線編程分析與工作流分析、多分析任務并發調度執行能力,支撐超大規模農業科學數據的在線交互式并發分析。
2.3功能設計
農業科學數據在線分析挖掘平臺以場景智能分析挖掘應用能力提升為自標,開發了數據管理、組件管理、場景管理、挖掘分析4大功能模塊,具備應用場景管理、在線分析、自動化挖掘等功能。平臺功能結構如圖3所示。
數據管理模塊主要用于管理用戶上傳的本地數據、國家農業科學數據中心數據以及網絡數據,支持數據管理,包括數據的增刪查改,以及數據分類查找;組件管理模塊以統計分析類算子組件、機器學習類算子組件、深度學習類算子組件以及其他分類算子組件的管理為主,包括組件的查找、詳情查看以及組件分析跳轉;場景管理模塊包括作物育種類場景、耕地評價類場景以及農業綠色發展類場景的管理,通過構建算法流程,預測各種場景數據;挖掘分析模塊適用于單個組件的數據分析和多個算子組成的場景分享,通過輸入數據到單個組件或建立流程,得到相應數據結果,該模塊主要包括算子分析和場景分析,其中,算子分析通過運行數據集得出相應的運行結果,場景分析從育種、耕地、農業綠色發展3個方面出發,利用機器學習、深度學習等方法建立模擬多個場景,實現育種預測、耕地評價、用水預測等功能。

3 平臺實現
3.1 前端可視化技術
前端基于Vue和Element-ui前端框架開發操作界面,依托后端集成各類數據庫AP1,利用流程圖等可視化組件關聯后端數據庫,通過axios前后端交互技術與后端數據交互,具有數據驅動、組件化、虛擬DOM三大核心特征。
通過關聯后端開發組件構建數據挖掘任務,將任務提交至流程引擎生成后端編程代碼,根據調度周期及其他環境參數設計 HTML(Hyper TextMarkupLanguage,超文本標記語言)提交表單,調整各類參數并提交至后端數據挖掘模型,對新的實時數據進行模型應用,通過可視化界面將設備運行狀態反饋給管理層并調整決策策略。
3.2 后端技術路線
服務端基于SpringBoot構建,采用SpringCloud微服務框架及SpringCloudAlibaba框架的相關組件搭建而成。平臺后端技術路線如圖4所示,持久層:MySQL、Redis、Oss等;數據訪問層:Mybatis、Mybatis-plus等;消息中間件:RabbitMQ等;業務層:SpringIOC、Aop事務控制、SpringTask任務調度、Feign、Ribbon、SpringDataRedis等;控制層:SpringMVC等;微服務治理:Nacos、Hy strix、SpringCloud Config、Spring Security、Oauth2、 JWT等。將系統部署到指定的公有云或私有云上,能夠更容易、更快速以及低成本地實現系統功能的部署,同時也能保證系統運行的高可靠、低成本與高擴展性。
3.3 界面展示
3.3.1主頁
在農業科學數據在線分析挖掘平臺登錄界面輸入賬號、密碼以及驗證碼登錄系統,登錄成功跳轉到主頁,如圖5所示,平臺主頁包括農業數據管理模塊、算子組件管理模塊、應用場景管理模塊和數據挖掘分析四大功能模塊,各模塊的功能說明分別展示在模塊下方。
3.3.2 數據管理模塊
數據管理頁面包括左側兩個篩選條件,篩選條件1為數據來源分類,包括:平臺數據、數據中心數據以及互聯網數據;篩選條件2為所屬場景類型分類,包括:育種場景數據、耕地場景數據、農業綠色發展場景數據以及其他場景數據,右側以列表形式向用戶展示相應數據信息,通過篩選或檢索指定數據,對相應數據進行刪除和下載。數據管理模塊界面如圖6所示。


3.3.3 組件管理模塊
算子組件管理頁面包括左側篩選條件以及組件類別簡介,算子分類為統計分析類算子組件、機器學習類算子組件、深度學習類算子組件以及其他分類算子
組件,右側以列表形式向用戶展示相應組件信息,通過篩選或檢索指定算子組件,能夠查看相應數據詳細信息。組件管理模塊界面如圖7所示。
3.3.4場景管理模塊
場景管理模塊包括作物育種類場景、耕地評價類場景以及農業綠色發展類場景,頁面左側為該類應用場景的介紹,右側則以列表形式向用戶展示場景名稱、類型、時間、概述,用戶可以通過檢索框檢索指定場景,并對相應場景信息進行新增、編輯、刪除。場景管理模塊界面如圖8所示。
3.3.5 挖掘分析模塊
挖掘分析模塊包括算子分析和場景分析,場景分析頁面包括場景選擇、場景簡介以及場景運行和編輯,用戶可以根據頁面上方選擇需要運行的場景,面板根據用戶選擇顯示不同的場景流程。雙擊打開模塊編輯頁面,根據模塊對應的算子選擇參數以及數據文件,運行編輯完成的場景即可得出運行結果。挖掘分析模塊界面如圖9所示。




4挖掘分析測試
4.1算子分析測試
為了驗證農業科學數據在線分析挖掘平臺的功能,在算子分析模塊中,選擇經典的深度學習算子Yolov7。該算子具有速度更快、精度更高等優勢,特別是在育種場景下能夠快速檢測作物表型信息,在作物育種場景中的應用潛力巨大,同時其模型結構復雜,需要配備相應的計算資源,以此算法進行測試,既能夠測試平臺計算資源的承載能力,又能夠測試平臺的計算能力。因此,以Yolov7玉米雄穗數據集為例,對平臺功能進行測試,具體操作步驟與測試結果如圖10所示:圖10A中,點擊左上角添加算子組件,組件類型選擇深度學習算子組件中的Yolov7;圖10B中,從右側本地數據庫中拖拽Yolov7數據集至下方黃色虛線框;圖10C中,點擊運行得出運行結果,并下載所有結果。

4.2 場景分析測試
育種是農業科學研究的重要部分,大量基因型與表型數據的處理是品種選育的難點,平臺設計的挖掘分析模塊能夠快速準確地處理DNA序列數據,減輕育種家的工作量,提高育種效率。因此,為了驗證挖掘分析模塊的場景分析功能,以育種場景的高品質小麥品種選育為測試對象,具體操作步驟與測試結果如圖11所示:圖11A中,在上方選擇需要分析的場景;圖11B中,點擊流程圖中對應的模塊,上傳本地基因型數據;圖11C中,點擊運行按鈕,等待運行結果;圖11D中,下載全部的運行結果。

5 結論與展望
本文通過研建農業科學數據在線協同分析引擎,集成科學數據自動化分析核心框架、典型挖掘算法工具,以及面向育種的專用挖掘工具,針對性地設計了農業科學數據在線分析挖掘平臺。系統具備數據管理、組件管理、場景管理、挖掘分析4大功能,能夠實現“數據聚合一挖掘分析鏈—在線分析—場景應用”的農業科學數據在線分析挖掘全過程,為農業數據的存儲、管理、挖掘及應用提供了有效工具,解決農業數據處理難、有效信息提取難的問題,充分發揮數據驅動農業發展的作用,提高農業科學數據處理效率和利用價值。
在未來,隨著農業科學數據的積累,與此同時農業科學數據分析挖掘技術也發生相應的轉變。首先,在模型方面從機器學習到深度學習轉變、從小模型向大模型轉變、從單模型向多模型轉變;其次,在數據方面從稀疏樣本數據向海量數據轉變、從單一來源數據向多源異構數據轉變;最后,在領域方面,AI與領域相結合越來越深入,各個領域AI分析挖掘模型將會日新月異。
隨著農業智能化的發展,農業數據挖掘技術的發展潛力巨大[,以推動農業生產精準化發展、提高育種效率、實現農業數據存儲管理等為目標,通過分析農業數據特點,設計出更具針對性的數據挖掘算法,形成農業領域的專業數據挖掘技術,將成為農業生產與科研的助推劑,以解決農業領域“數據量大,價值低”的痛點難點,充分發揮農業科學數據的價值,從海量的數據中挖掘有用的信息,形成以農業科學數據為重要內核的農業農村大數據科技創新,引領農業深度數字化、智能化發展。
參考文獻
[1] 溫孚江.農業大數據研究的戰略意義與協同機制.高等農業教育,2013(11):3-6.
[2]孫曉勇,劉子瑋,孫濤,等.大數據在農業研究領域中的應用與發展中國蔬菜,2015 (10):1-5.
[3]張浩然,李中良,鄒騰飛,等.農業大數據綜述.計算機科學,2014,41(S2):387-392.
[4]葉煜,雷靜,任華.數據挖掘在農業信息化中的應用.工業控制計算機,2020,33(7):127-128.
[5]王鵬.基于數據挖掘的智慧農業平臺設計.農業工程,2017,7(6):40-42.
[6]劉春玲,崔凌云,賈冬青,等.數據挖掘技術在農業領域的應用.農機化研究,2010,32(7):201-204.
[7]黎玲萍,毛克彪,付秀麗,等.國內外農業大數據應用研究分析.高技術通訊,2016,26(4):414-422.
[8]李笑巖.大數據分析常用軟件工具綜述.數字技術與應用,2015(11):241.
[9]張白艷.數據挖掘在農業信息化中的應用進展.山西農經,2018(4):44.
[10]SALI GMONACOF,MAZZOCCHI C,et al. Exploring land usescenariosinmetropolitanareas:Food balanceina local agriculturalsystem by using a multi-objective optimization model. Agriculture andAgricultural Science Procedia,20l6(8): 211-212.
[11]PAULJK,VIVEK B.A tutorial on data mining for Bayesiannetworks,withaspecific focuson IoTfor agriculture.Internet ofThings,2023,22.
[12] ZHIWEI R, JIE Y. Data mining and statistics issues of precision andintelligent agriculture basedon big data analysis.Acta AgriculturaeScandinavica, SectionB—Soil Plant Science,2021,71(9):870-883.
[13]SELVI TM, JAISON B.Adaptive Lemuria: A progressive future cropprediction algorithm using data mining. Sustainable Computing:Informatics and Systems,2021,100577.
[14]王儒敬.我國農業信息化發展的瓶頸與應對策略思考.中國科學院院刊,2013,28(3):337-343.
[15]AISHWARYAK,JABBARMA.Datamininganalysisforprecisionagriculture:A comprehensive survey. Electrochemical SocietyTransactions,2022,107(1).
[16]柴苗嶺,黃琳,任運月.重要開放農業科學數據資源建設現狀綜述.農業圖書情報學報,2020,32(10):25-34.
引用格式:李佳樂,林佳,賀子康,王健,張建華,周國民.農業科學數據在線分析挖掘平臺設計與應用[J].農業大數據學報,2025,7(2):183-192.DOI:10.19788/j.issn.2096-6369.000045.
Abstract:Withthedevelopmentofdata-drivenscientificresearchparadigm,theroleofagriculturalsciencedatainscienceand technologyinnovationisbecomingmoreandmoreprominent,andconsequentlythemethodologicalandtechnologicalresearchon the analysis and miningandapplicationofagriculturalsciencedataisalsodeveloping,aroundtheanalysisand mining ofagricultural science data therearestilldatasemanticsilosserious,aswellasthedata mining tolsare incomplete,mismatchedand por adaptabityofthescenarios,suchastheoutstanding problems.In this paper,wedesignedthe platformarchitecture,costructedthe analysisandminingengine,loadedthetypicalandprofesionalanalysisandminingalgorithmtols,formedtheoieanalysisand mining platformforagriculturalscientificdata,includingthedatalayer,thedomaindataanalysistoollayer,theautomatedmining framework layer,theonlineanalysis engine layer,andtheuserinterfacelayer,anddevelopedfourfunctional modules,namely,the data management,thecomponent management,the scenario management,andthe mininganalysis.Theplatformisequipped with application scenario management,online analysis,automated mining andother functions,breaking through the problemof poor conectionof\"dataresources-analysis tools-applicationscenarios\",forminganonlineanalysisandminingappicationenviroment integratingdatasouce,alysisodels,ompoenttols,enarioalysisndsadrdproceespportingtheole ofonlineanalysisand miningofagriculturalscientificdata from\"data aggegation-miningandanalysischain-onlineanalysisscenarioapplication\",andrealizingtheconcuentonlineinteractivecomputationandanalysisofultra-large-scaledataandderet scenario analysisapplications.
Keywords: agricultural science data; online analysis mining ;? platform design; scenario applications