余萬民,范蓓蕾,錢建平
(1.貴州省農業信息中心,貴陽555001;2.中國農業科學院農業信息研究所,北京100081;3.中國農業科學院農業資源與農業區劃研究所,北京100081)
大數據是具有海量、快速、多樣、真實、高價值等特征的信息資產,需要先進的處理技術進行采集、存儲、分發、管理和分析,從而提供更強的決策力和洞察力[1]。大數據現象源于互聯網及信息技術的廣泛應用,大數據概念體系在2014年左右逐漸成形,發展出相關的技術、產品、應用和標準,并逐步形成包括數據資源與API、開源平臺與工具、數據基礎設施、數據分析、數據應用等內容的大數據生態系統[2]。大數據技術已成功地應用于銀行、保險、在線用戶行為理解和個性化以及環境研究等行業,但在農業領域于近幾年才開始,并未得到廣泛應用[3]。農業大數據為現代農業發展帶來巨大機遇。我國農業農村信息化工作經過近十多年的發展,信息化基礎設施已有較大改善,廣播、電視、電話、互聯網等紛紛入村入戶,智能手機、農業物聯網、智能農機具逐漸發展并普及,為農業大數據的發展應用提供了堅實的基礎[4]。以大數據為代表的現代信息技術推動了農業生產方式、流通方式、貿易方式的變革[5-6]。
2020 年“中央一號文件”提出依托現有資源建設農業農村大數據中心,加快物聯網、大數據、區塊鏈、人工智能、第五代移動通信網絡、智慧氣象等現代信息技術在農業領域的應用。近年來,我國在部分地區成功開展了多個農業大數據平臺試點,如全國基層農技推廣信息化平臺[7]、國家農業科技云平臺、渤海糧倉科技示范工程大數據平臺[8]、農業物聯網大數據共享及綜合應用平臺[9],為農業生產和研究提供了不同層面的農業數據支撐和服務。農業物聯網、農業信息系統、農業云服務、農業衛星遙感等軟硬件平臺在農業領域的不斷投入和使用,促進了我國農業數據的爆炸式增長[10]。農業大數據來源廣泛、更新頻繁、內容豐富、結構復雜,從內容上看,既包括農業生態資源、農業生態環境、農業生物資源等數據,又包括農資及農產品的生產、加工、運輸、儲藏、流通、銷售、質量安全等數據;從結構上看,包括結構化數據,非結構化數據以及半結構化數據;從格式上看,既有文本、圖像、視頻、音頻等數據,也有文檔、文件、數據庫等資源數據[11]。
對農業領域來說,組織、分析和解釋各種農業數據非常重要。國內外專家在農業大數據資源管理和應用上進行了大量研究。Perakis 等設計了一種應用于精準農業和精準畜牧業的無縫訪問大量不同類型、不同來源超大規模數據集的平臺,提出一種對大數據發現、處理、組合和可視化服務的大規模高性能計算基礎設施的安全和非中介訪問方案,支持對傳感器數據、環境和氣候歷史數據、衛星和航空圖像等數據的集成和訪問,不僅能為農民提供服務,也能為農業生產鏈條上的其他主體如企業、技術人員等提供服 務[12]。Shrivastava 和Marshall-Colon 提出通過分析各種來源的農業大數據,能夠加速育種計劃,有助于設計適應復雜環境的高產作物類型,從而解決糧食安全問題[13]。Sabarina和Priya 提出一種基于張量的特征約簡模型,用于對農業大數據分析時降低數據維度,從而減少數據分析時間[14]。Huang 等分析整理了現有的遙感數據資源和管理發展,并提出了一種FLTL(Four Layer Twelve Level)遙感數據管理結構,用于管理和應用農業遙感大數據[15]。李艷和劉成龍基于Hadoop框架設計了農業大數據挖掘系統,通過分布式數據組織方式實現了對農業大數據的高效率分析、計算和處理[16]。錢曄等基于農業大數據中心積累的數據成果,通過人工神經網絡算法構建鮮切花價格預測和質量等級識別模型,實現了對農業大數據的智能化應用[17]。
通過對已有研究分析可知,農業大數據應用已取得一定成果,但農業大數據資源分散,不同平臺、部門之間共享困難,而農業大數據資源集成、共享、交換等方面的研究較少。文章針對貴州省農業大數據資源共享管理問題,具體分析農業大數據的來源和內容,從多源數據集成、元數據管理和數據共享交換3個方面開展農業大數據共享服務平臺的研究與設計,為農業大數據的開放共享提供一套切實可行的技術方案,促進農業數據資源的高效利用。
深入調研貴州省農業數據資源基礎以及業務需求情況,從數據基礎和功能需求兩方面梳理分析大數據資源管理平臺的需求。
農業各類數據通常來自各類農業政務服務系統、農業產業服務系統、物聯網、互聯網等。從業務種類區分,農業數據可以分為農業基礎條件數據(農業區劃、農業氣象、土壤、耕地、草地、水域等)、農業資源要素數據(種植、經濟作物、畜牧、漁業水產、高標準農田、農業園區等)、農業經營交易數據(農資、新型經營主體、農產品貿易、農產品價格、農田用途、農村土地確權、流轉等)和農業管理服務數據(水肥管理、病蟲害防治、糧食補貼、三品一標、農產品溯源、農業專家庫、農民培訓等)等。從數據類型來看,農業數據包括關系型數據庫、文檔、圖片、流媒體等多種格式。各類數據資源分散在不同的部門,部署在不同的服務器或云平臺上,對數據進行采集匯聚有多種渠道,主要的方法有以下3種。
(1)數據共享接口:主要適用于農業業務部門內部系統或可以提供數據共享服務的系統平臺。
(2)物聯網數據匯聚:主要適用于物聯網設備產生的數據,可通過物聯網支撐平臺匯聚后發送到大數據平臺上統一匯聚。
(3)爬蟲采集系統:主要適用于互聯網數據的采集匯聚,如互聯網上農業相關的各種輿情信息、農產品價格等。
農業大數據共享服務平臺的目的是將各種農業系統和平臺產生的農業數據進行匯總和集成管理,并向需要數據的用戶提供數據共享和交換服務,其面向的用戶有公眾用戶、政府用戶和企業用戶3種。根據平臺目標,農業大數據共享服務平臺可以劃分為3個主要功能,分別是農業大數據集成管理、農業大數據共享服務和元數據管理。
(1)農業大數據集成管理通過各種技術手段,將不同平臺和數據庫的農業數據資源進行匯聚,并提供對數據清洗、轉換、質量管理等服務。
(2)農業大數據共享服務提供數據共享和交換功能,根據用戶不同,應該提供不同級別的數據共享。
(3)元數據管理則是將集成匯聚的數據進行資源編目,從海量數據中抽取出描述數據內容的元數據,使數據管理更加規范和容易。
在網絡學習環境下,教師一般可以自覺利用一些學習網站進行自主學習。閱讀在線文章和觀摩在線課程等形式的自主式學習均可以達到一定的學習目標。在學習和探究的過程中可以結合自己的教學科研活動,發現、提出和解決新問題。這種學習是以滿足教師個人需求為目的的。
為了與其它已有系統實現無縫銜接,該平臺采用基于云計算的全網絡化B/S系統架構。農業大數據共享服務平臺架構如圖1所示。該平臺采用Hadoop框架進行設計,最底層是數據存儲服務,為了滿足多種結構類型,采用關系型數據庫如Oracle、Mysql、Sql server 等管理結構化數據,采用Hbase和Redis管理非結構化數據,采用HDFS管理分布式文件系統,采用FastDFS管理磁盤文件系統,采用Lucene管理異構索引庫;之后,進入數據共享交換層,通過ETL、WebService、FTP 等技術,將各業務部門的數據進行匯總,編制資源目錄,建立元數據庫;在此基礎上,對匯總數據日云計算服務,包括數據倉庫的構建、數據挖掘等服務;在此基礎上提供應用服務,進行任務調度、數據檢索、緩存服務和分庫分表等,并在此基礎上開發大數據資源管理平臺,將匯總后的農業大數據根據不同級別、不同主體進行開放共享,為各級部門提供更加便利的數據服務。

圖1農業大數據共享服務平臺框架Fig.1 Framework of agricultural big data sharing service platform
根據功能需求分析,將農業大數據管理平臺劃分為3個子系統,分別是農業大數據集成管理子系統、農業大數據共享服務子系統和元數據子系統,如圖2所示。
該子系統實現從各渠道得到的農業基礎、產業、監管、政務數據的整合集成、數據質量控制、更新管理等,主要提供數據整合、數據質控、數據封裝、數據統計、集成規則管理等功能。
(1)數據整合:通過數據分類、數據同步、數據抽取、數據清洗等處理,實現不同來源、類型數據的整合集成。將敏感數據和普通數據進行區分,對數據按照不同安全級別進行分類管理。
(2)數據質控:對匯聚的數據提供質量監控管理,監控匯聚過程、交換接口、服務狀態,定義“正則表達式”和數據字典,對數據質量進行校核,對集成的數據資源進行質量檢驗、異常和沖突處理。

圖2 農業大數據共享服務平臺功能結構Fig.2 Function structure of agricultural big data sharing service platform
(3)數據封裝:對數據按照不同的格式、類型進行轉換,按照不同的結構進行處理,將結構化數據存儲到關系型數據庫中,將非結構化數據存儲在文件服務器上,并記錄文件信息,確保數據的完整性。
(4)數據統計:按部門或單位、數據分類、更新時間、農業要素屬性等對集成的數據以圖表等多種形式進行各類統計匯總和變化分析,包括單要素或多要素時間序列變化分析、區域構成分析、區域對比分析等,通過統計分析實現農業生產條件、資源要素、經營權屬和管理服務情況。
該子系統實現分散、多源、異構農業非空間數據的目錄導航、查詢檢索與共享交換等服務,主要包括數據查詢、數據專題、數據申請、數據審核以及用戶管理等功能,是用戶查詢訪問和使用農業大數據的統一入口。
(1)數據查詢:提供基于關鍵詞的簡單查詢、多條件組合的復雜查詢、全文檢索和關聯圖檢索。對查詢結果提供瀏覽功能,包括屬性表瀏覽、空間數據瀏覽、底圖展示以及元數據回溯等。
(2)數據專題:提供基于不同主題的數據分析和展示服務,如農業生產、農民專業合作社、農產品市場價格等專題的分析圖、分析表格等處理。
(3)數據申請:針對用戶提交的數據申請,提供審核與批復功能,如果審核通過,用戶可以獲得數據查看權限。
(4)數據審核:對數據申請進行審核、開放共享端口等處理。
(5)用戶管理:提供用戶注冊、用戶角色劃分、用戶權限設置等功能,實現對用戶的統一管理。
該子系統提供了對多源大數據的統一描述、發布管理與權限控制,主要包括著錄模板管理、資源目錄管理、統計查詢、元數據編目以及元數據管理等。
(1)著錄模板管理:提供定制元數據模板的功能,也可以將指定元數據保存為元數據模板,對模板進行修改和刪除等管理,各級用戶通過元數據模板利用元數據模板可以實現元數據的快速錄入。
(2)資源目錄管理:包括資源目錄分類、資源名稱、資源屬性、數據提交形式、共享方式、更新途徑、更新周期、資源數量級、責任部門等內容管理。
(3)統計查詢:按責任者、共享類型、數據分類、格式等條件進行元數據查詢,對元數據進行統計匯總。
(4)元數據編目:對元數據編目要素進行管理,按共享類型、開放方式、責任者等進行編目,按指定格式輸出元數據目錄,依據權限訪問關聯的數據。
(5)元數據管理:依據管理權限,對元數據進行修改、刪除、審核、發布等處理。
農業大數據共享服務平臺基于J2EE平臺進行開發,利用Spring boot、Duboo、Zookeeper 搭建的共享服務平臺,用于RESTful、XML/JSON服務的快速開發、注冊、發現、路由等工作;利用Hadoop大數據體系技術,對海量農業數據進行并行計算和分布式處理;支持結構化數據庫系統OracleMysqlSqlserver、利用NoSql數據庫作為前端界面緩存數據庫;同時構建文件庫和異構索引庫存儲非結構化數據信息。
基于該平臺架構和設計思路,在貴州省進行了開發應用,圖3為該平臺進行數據分類的界面,圖4 為平臺子系統農業大數據集成管理中進行數據轉換的界面。該平臺將貴州省不同來源的農業資源數據進行了有效整合,并提供了統一的門戶網站進行共享,提高了數據利用效率。

圖3 貴州省農業大數據共享服務平臺應用界面Fig.3 Application interface of Guizhou agricultural big data sharing service platform

圖4農業大數據集成管理子系統應用界面Fig.4 Application interface of agricultural big data integrated management subsystem
針對農業數據格式多樣、物理分散、不易利用等問題,采用大數據、云計算等技術,以元數據管理為基礎,開發了面向多源異構農業資源數據整合應用的農業資源數據共享服務平臺,打破了不同農業系統、數據庫系統之間的壁壘,實現了數據的有效共享和利用。該平臺在貴州省進行了開發應用,集成了農業部門內外多種數據源,包括各種農產品價格、農業生產、農村生產合作社、農業生產經濟、農業脫貧工作等資源,通過提供專題服務,可以快速將多源數據進行集成,為農業主管部門提供各種資源的統計匯總“一張圖”服務,實現對地區農業產業發展、農業經濟等信息的快速全面掌握,為制定政策和發展計劃提供了良好的數據支撐。
農業資源數據共享服務平臺提供了數據集成、數據共享和元數據服務,平臺功能以構件方式開發實現,有利于在該平臺基礎上進一步拓展開發業務功能。