胡怡文
(四川工商學院,四川 成都 611743)
當前信息化的技術和裝備正逐漸成為社會發展和變革的重要推動力,而互聯網、大數據、人工智能等現代信息技術和裝備讓農業種植工作呈現了欣欣向榮的科技化發展態勢。在農業生產過程中準確獲取有效信息、存儲數據、對數據進行分析和挖掘、應用數據信息對農作物生長需求、自然災害、農業產量做出準確預測。
大數據技術是驅動現代化農業發展的核心動力。農業大數據滿足大數據的五個特性,數據量大(Volume)、處理速度快(Velocity)、數據類型多(Variety)、價值大(Value)、精確性高(Veracity)是融合了農業地域性、季節性、多樣性、周期性等自身特征后產生的來源廣泛、類型多樣、結構復雜、具有潛在價值,并難以應用通常方法處理和分析的數據集合。
我國作為傳統的農業大國,僅靠國內資源卻已經難以保障“中國人的飯碗”。2018年,我國農產品進出口額2168.1億美元,同比增7.7%。其中,出口797.1億美元,增5.5%;進口1371.0億美元,增8.9%;貿易逆差573.8億美元,增14.0%。而隨著城鄉一體化的加快推進,國人對糧食等農產品的需求還將進一步增加。綜合起來分析,目前在管理和處理農業大數據方面存在以下問題:①互聯網農業基礎設施不足、缺乏信息平臺。②農業產品的產量不穩定,經營者靠天吃飯。③海量數據存儲,如何統一管理和統一調度。④農業大數據的價值挖掘和利用方面不夠全面。
云存儲是指通過集群應用、網格技術及分布式文件系統等功能,將網絡中大量不同類型的存儲設備通過應用軟件集群起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。
整個系統架構分由:數據采集層、數據存儲層、數據管理層、數據服務層、用戶訪問層等五個部分組成。搭建Zookeeper+Hadoop+Hbase完全分布式平臺,利用Hadoop分布式數據處理框架,完成對數據的存儲、管理、服務;利用zookeeper存儲配置信息,將文件發給集群中所有主機,發送目標用戶為集群專用用戶admin,實現資源的共享。
大數據智能感知層主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統。
基礎支撐層提供大數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。
相比傳統農業氣象觀測方法,通過傳感器、移動互聯網等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量農作物生長情況相關的數據,例如:光照、空氣濕度、溫度、土壤品質、生長狀況等,實現智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理,一方面提高了農情信息收集效率,同時使利用的數據更加精確,另一方面,可以為分析蔬菜氣象條件利弊、開展災害指標研究等提供可靠的數據支撐。
目前,通過小型電子感受器,追蹤單粒種子的種植、栽培、土壤、灌溉等情況,如果儲存以上追蹤的信息,每株植物需要0.85K的數據存儲,每年每公頃需要26M的數據空間,因此如何讓農業大數據全面、充分的發揮出其潛在價值,一個必要前提就是數據需要被妥善保管在可靠、可信、可管理的平臺中,數據的完整性和可信度需要得到保障,而且可以隨時隨地且方便的存取。
通過完全分布模式的整合平臺中Zookeeper的完全分布模式的安裝,在一個zookeeper集群中,選出一個leader節點,實現廣播即數據同步。
Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。能夠將大量的離線數據進行切片計算分布式處理的軟件框架。具有可靠、高效、可伸縮的特點。充分利用集群的威力高速運算和存儲。對于實時數據采用流式計算。
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,適合于存儲大表數據,表的規模可以達到數十億行以及數百萬列,并且對大表數據的讀、寫訪問可以達到實時級別。以表的形式存儲數據,創建的表可以被拆分為多塊,每個塊稱為一個HRegion。每個HRegion會保存一段表中的連續數據,由Master分配給對應的RegionServer進行管理。
HDFS是一個分布式文件系統,在hadoop體系中數據存儲管理的基礎。有著高容錯性的特點能檢測和應對硬件故障,數據以塊的形式,同時分布存儲在不同的物理機器上,基于流數據模式訪問和處理超大文件的需求,適合那些有著超大數據集的應用程序。
數據挖掘主要過程是根據分析挖掘目標,從數據庫中把數據提取出來,然后采用機器學習、統計、神經網絡和數據庫等方法,經過ETL(Extract-Transform-Load)組織成適合分析挖掘算法使用寬表,實現內容的分發、數據壓縮、數據去冗,對數據進行加密、備份和容災,對關系數據庫進行挖掘,農業大數據的清洗和抽取,進行分門別類地存儲和管理,滿足對數據完整性、準確性、規范性的要求。在農業生產中,結合農業的季節性、多樣性、周期性、生長環境,對采取數據進行分析,確定最優種植品種,選定最佳的施肥方案,預測氣候風險,如干旱或洪澇影響農作物的具體時間,預測病蟲害預測最好收獲的時間。以此提高農業生產率和生產品質。
實現網絡的接入、身份認證、訪問控制、API接口、應用軟件、Web服務等。系統中配置完全分布模式的整合平臺相關的網絡屬性,完成農業生產中實時數據的更新和共享。監控系統檢測到有潛在的病蟲害危險時會發出警報,同時調用病蟲害知識庫,推送出合理有效的防治措施。同時利用互聯網上傳圖片至專家資源庫,若出現新型病例,可以利用內部網絡將相關圖片和文檔上傳至數據庫。
農業工作者通過標準的公共應用接口登錄云存儲系統實現資源共享和數據的更新,加強行業的信息交流以促進整體的發展。
綜上所述,農業大數據帶來了農業科學研究革新的新起點。應用互聯網技術可從科學的角度準確的檢測出數據、存儲數據、分析和挖掘數據,開發了數據的潛能,極大地提高農業生產率和生產品質。