王一鶴,楊 飛,王卷樂,劉麗峰,馬 婭
(1. 山東理工大學,淄博255049;2. 中國科學院地理科學與資源研究所,資源與環境信息系統國家重點實驗室,北京100101;3. 環境保護部環境規劃院,北京100012)
隨著信息技術的發展,全球進入了大數據時代。國外對大數據的研究起步較早,美國著名的未來學家阿爾文 · 托夫勒早在1980年就在《第三次浪潮》中提出了大數據的概念[1];全球著名的信息研究分析公司Gartner的分析員道格 · 萊尼于2001年提出了“3V”的大數據特點,即數量大(volume)、速度快(velocity)與類型多(variety)[2];2008年《Nature》推出“big data”專刊,從互聯網、生物醫學等方面出發開展了大數據的研究;2011年《Science》出版了專刊“Dealing With Data”;2012年,美國公布“大數據研發計劃”,旨在增強從海量數據中獲取信息的能力。我國的大數據研究起步相對較晚,但國內對于大數據研究十分關注。2013年中國計算機學會出版了《中國大數據技術與產業發展白皮書》,2014年出版了《中國大數據技術與產業發展報告》,闡述了大數據時代背景下相關產業的發展[3]。目前,國內大數據的發展已經滲透到了經濟、教育、醫療、農業、社會安全等眾多領域中[4-8],且在數據挖掘應用、大數據可視化分析、大數據平臺構建等方面的研究也取得了一定進展[9-11]。總體來說,我國的大數據技術研究與應用已逐步展開,各行業依托大數據技術也進入了新的發展階段,但相對于發達國家來說,我國的大數據研究還處于一個不成熟的階段[12]。
現代農業在作物生產、畜牧養殖、病災蟲害防治、市場管理等多方面都需要更加科學的指導,因此應用大數據推動農業發展對于建設現代化農業具有重要意義。
目前世界各國都十分重視農業大數據的發展,英國于2013年頒布了《英國農業技術戰略》,強調了大數據對推動農業發展的巨大潛力;8國領導人于2013年在國際論壇上就農業大數據的開放問題進行了討論;2015年美國聯邦農業部長宣布啟動實時土壤數據項目,旨在讓農民能夠獲取到最新的農場數據[13]。眾多學者也提出了自己的研究,J Russo[14]認為大數據將對精準農業的發展產生重要影響;P Srinivasulu等[15]認為大數據的應用會為解決農業問題提供更好的服務;MR Bendre等[16]提出了利用大數據預測天氣,提高作物產量等;Jharna Majumdar等[17]針對農業數據的分析,提出了利用多元線性回歸等數據挖掘技術進行農業數據的利用;ME Sykuta[18]研究了大數據的數據所有權、數據隱私等問題。在生產上,法國政府通過分析農業數據為農民提供生產指導信息;德國利用大數據與云技術實現了高水平的數字農業[19-21];美國孟山都公司通過產量與氣候數據為農民提供種植指導;美國天寶利用3S與數據處理技術為農場提供了一套作業解決方案[22];Climate Corporation公司通過氣象大數據來預測災害,以此來為農民推薦合適的保險[23]。目前國外的農業大數據已形成了規范、精準、智能的應用格局。
我國十分重視農業大數據的發展,國內各地也先后推出了相關的政策引領。農業農村部公布了《農業部關于推進農業農村大數據發展的實施意見》;江蘇省在《江蘇省“十三五”現代農業發展規劃》中提出了推進農業大數據建設的規劃;浙江省在《浙江省現代農業發展“十三五”規劃》大力發展智慧農業與大數據農業;山東省農業廳發布了《山東省推進農業大數據運用實施方案》,明確提出了建設農業大數據體系的各項要求。在學術方面,農業大數據研究也取得了一定進展,牛祿青[24]、林惠蝦[25]闡述了農業大數據對于推動現代農業變革的意義;王強[26]、光峰等[27]分析了大數據在農業領域的應用;秦小立[28]、陸文靜[29]等對區域農業大數據的建設進行了探索;牟少敏[30]、宋長青等[31]對培養農業大數據人才模式進行了研究。在農業大數據產業建設上,2013年,山東成立了全國第一個農業大數據產業技術創新戰略聯盟[32];2016年,全球農業大數據與信息服務聯盟在北京成立[33];2017年,黑龍江省農業大數據管理中心成立,負責全省農業大數據建設的規劃工作[34]。由此可見,我國的農業大數據發展十分迅速。
2.1.1 農業育種
利用大數據能夠使農業育種更高效。農業育種過程中選擇的品質與產量等性狀基于眾多因素,利用農業大數據依據最新的國際高通量數據,能夠輔助相關研究人員通過提取基因組上的遺傳來標記篩選出需要的基因片段。此外通過計算機來展開生物調查,在云端創造分析海量的基因信息流并同時進行假設驗證與試驗規劃,使育種家能夠通過相對較少的作物進行實際大田環境驗證來確定品種的適宜區域和抗性表現,有助于更高效、更低成本、更快地決策[35]。
2.1.2 智慧農業生產管理
農業大數據可以輔助精準農業操作[36]和智慧農業[37]管理。生產上,通過分析土壤溫度、降水等數據[38]幫助農戶了解作物生長環境狀況,同時利用3S、機器學習等技術可以輔助相關人員規劃最優生產區域以提高作物生產力并降低成本[39];在養殖上,通過機器學習等技術分析牲畜歷史信息、生理特征數據等來確定飼料產量關系、識別疾病以及確保牲畜安全和質量等;在農機作業方面,通過將天氣、土壤、溫度等數據上傳到云端,使農業機械共享這些數據,可以指揮農機進行精細作業。此外,通過大數據分析可以減少肥料、殺蟲劑的使用來改善農場環境效益[40]。
2.1.3 農業氣象與病蟲害預警
利用氣象大數據能夠進行更長時間范圍、更準確的農業氣象預測,如利用海量天氣數據預測破壞性的極端天氣并推送給農民,讓農民自己選擇合適的保險進行投保,以此來降低農民的損失;在農業病蟲害方面,將歷史數據與采集的病蟲害數據存儲至大數據中心,結合環境、作物生長等因素,通過機器學習等技術對病蟲害的發生進行預測,以此提前做出防治的措施;此外通過大數據可以進行農場基準測試、建模來預測作物歉收風險,或根據田間位置,土壤類型等數據評估特定農場最可能的風險[41-42]。
2.1.4 優化農業市場
通過共享農業生產、流通等環節的數據可以提高市場透明度,使生產者做出更合理的決策[43],利用農產品銷售數據與市場行情可預測農產品價格走勢、市場飽和量,避免產品滯銷;利用市場數據可以預測市場動向、價格,并結合對不同消費群體的分析輔助相關人員分析品種上市后的表現[44],還能夠幫助相關人員了解不同消費群體對作物品質、價格等方面的需求,做到供需平衡;此外還可以通過作物產量,投入成本變化,市場需求,種植成本,運輸成本和營銷成本數據的分析,預測在發達國家和發展中國家政府對農業產品的支持價格[45]。
2.1.5 農產品質量安全與追溯
對生產過程的數據進行實時監測與分析能有效控制產品的質量,為產品的標準化和規模化提供支持;使用傳感等技術來監測收集產業鏈數據,跟蹤農產品流通過程有利于防止疾病、減少污染;構建農產品質量安全監測信息管理平臺,基于大數據技術能夠對農產品質量安全事件按行業類別、信息來源、涉及范圍、危害程度等內容進行初步識別,實現對重大農產品質量安全事件早預警、早發現;通過建立食品可追溯系統,對田間、養殖、屠宰、處理、運輸等全產業環節數據監控,可以在源頭消除問題產品[46]。
目前國內外學者對建設農業大數據平臺進行了很多探索[47-51]。Farmeron是美國一家農業數據分析公司,其在2011年推出了基于Web端的農場管理平臺,為農民提供跟蹤牲畜飼養情況的功能,為農民提供針對性的生產分析報告,指導農民進行相關生產規劃;VitalFields是愛沙尼亞共和國的一家以農預測氣象、病蟲害、成本投入等預測管理為主的公司,為農民提供農作物種植階段投入的成本、病蟲害風險防治及天氣預測,農民能夠更加高效地管理自己的農場;FarmLogs是美國一家為農民提供移動端app與桌面WEB界面的公司,農民可通過這些媒介來對農作物生產進行管理。湖南省農業農村信息化綜合服務平臺主要由應用服務、基礎服務、業務數據庫、云計算硬件資源等子平臺構成,集成了眾多民生與產業信息服務,通過建設農村綜合信息服務站為農業生產和農戶生活提供了全面的信息技術服務。農業大數據運營平臺是一個側重于現代農業資訊共享以及整合農業生產數據的平臺,平臺涉及農業領域內的綜合新聞信息,包括產品價格變動、熱門種植養殖產物、農業惡劣天氣預報等一系列關乎農業生產經營的訊息,作物生產技術方案、種植操作規程、深加工介紹等科技訊息,種植養殖業、經營管理等農業技能培訓信息。
2.3.1 農業大數據采集
農業大數據來源復雜,很多學者對農業大數據采集進行了研究[52-56]。綜合來看,農業大數據的采集主要包括農業遙感、生產環境采集、網絡數據爬取等方式。農業遙感是指利用各種傳感器與計算機等學科的理論與方法來揭示農業環境、屬性及其時空特征[57],通過遙感技術所獲取的海量數據的背后價值也是現在遙感大數據挖掘研究的熱點。農業生產環境數據依靠傳感網技術獲得,相關研究[58-59]提出了利用終端采集定位、傳感器采集數據的方式來實現對產業環境、流通數據的獲取,隨著技術的進步這種采集方式的應用更加廣泛。網絡爬蟲是從互聯網上進行數據信息的爬取,考慮到我國擁有著龐大的農業網絡數據資源和大量的農業信息網站,采用爬蟲的方式獲取農業數據十分有利于將大量分散的農業數據收集整合到一起。
2.3.2 農業大數據存儲與處理
農業大數據海量、非結構化的特性決定了傳統的關系型數據庫難以滿足對大數據的存儲和高并發訪問需求。NoSQL[60]是目前較為流行的一種非關系型數據庫,其數據存儲結構具有非關系型、分布式的特點,是目前比較主流的大數據管理技術。大數據的處理任務用傳統的單機處理比較困難,而云計算[61]為大數據的處理提供了計算資源整合技術。利用云計算技術可以實現資源動態分配,均衡分配處理負載,極大地提升資源的共享性和重用性,有效地降低運營成本;當前最流行的大數據處理框架為Hadoop[62],其核心包括HDFS與MapReduce。因其吞吐量高、效率高、高容錯性而被廣泛應用,并迅速成長為主流的大數據處理框架。
2.3.3 農業大數據分析技術
機器學習[63]是人工智能[64]的一個核心研究領域。機器學習是一門研究計算機模擬實現人類的學習行為,使之不斷改善自身的性能技術,主要包括監督學習[65]和非監督學習[66]。隨著技術水平的發展,機器學習逐漸應用到農業領域中,比如通過分析農業市場數據變動,做出市場預測等[67]。在大數據分析中,機器通過從環境中獲取數據信息,然后通過自我學習反復更新知識庫,以此來對執行元部分進行指導學習,不斷完善自我學習的內容和模式,在這個過程中,其知識庫的內容持續增長,其智能化程度也隨之越來越高[68]。
深度學習[69]是機器學習的一個特例。傳統的機器學習預測的準確性依賴于數據處理工作的好壞,為了減少這種約束,深度學習的概念就出現了[70]。深度學習也被稱為無監督特征學習,即數據的特征可以通過學習過程得到,無需提前人為提取,深度學習將原始數據中每層表示逐層地轉換為更高層更抽象的表示,以此來發現高維數據中錯綜復雜的結構[71]。目前深度學習在語音識別、圖像識別、自然語言處理與信息檢索[72]等領域得到廣泛的應用。
計算智能[73]是人工智能研究的一個重要分支,一般用于解決大規模的優化問題。計算智能方法具備不需要依賴知識,不需要事先進行精確建模就可以直接對數據進行分析和處理的特點,這使得其十分適于大數據分析。此外,由于大數據海量規模的特性以及問題求解的復雜性,需要耗費較大的計算開銷,而計算智能能夠以模擬人類以及其他生物體的思維方式來解釋問題,可較快地解決某些較難的問題如組合優化等,這為解決復雜的大數據處理問題提供了有效的解決途徑[74]。
目前我國大數據發展存在如下問題:(1)數據共享程度低,數據片面、多而不精;(2)對大數據人才培養力度不夠,阻礙大數據發展工作;(3)缺乏大數據核心技術,一旦國外切斷技術支持,會極大影響國內大數據產業;(4)國內部分大數據公司過于急功近利,沒有提供真正實用的大數據服務;(5)缺乏對大數據保護的相關法律法規,這會為大數據的交互流通帶來隱患。因此,我國農業大數據發展的新任務與方向如下。
數據來源是農業大數據的重要構成之一,針對目前數據來源單薄的現狀[75],首要工作是充分利用現代信息技術如物聯網、移動互聯網設備、云端系統等豐富數據采集渠道,成立專門的數據定制化服務采集團隊,建立成熟的采集體系,讓數據采集變得更高效。其次是盡快建立統一的數據標準,便于信息的流通交互,強化政府、科研機構、企業的數據共享意識,從技術、機制、相關法律保護等方面開展農業大數據的共享工作。
大數據人才的缺乏是目前推進大數據應用的主要阻礙之一,大數據人才的培養可以通過2種途徑:第一加強對相關行業人員技術水平的培訓;第二是在高校設立相關研究方向的專業,以此不斷為農業領域培養大數據人才。利用結合深度分析的大數據分析技術能夠充分挖掘利用海量農業數據的價值,為農業信息化的發展提供重要的數據支撐,在實施上應該進一步加強農業農村的網絡硬軟件建設,消除互聯網“最后一公里”現象的存在[76]。
針對主流大數據平臺Hadoop、Spark等,研究出更加高效科學的算法,是大數據分析工作的重要研究任務;深度學習技術的持續升級也帶來了參數規模持續增長的問題,因此目前一個重要的研究方向是怎樣對深度學習的模型參數進行優化來提升深度學習算法的效率;為了更好地處理海量數據,對深度學習的模型進行改造來降低訓練模型的成本花費也是重點任務[77]。此外要增強大數據底層技術自主研發能力,發展自己的大數據處理框架,減少對國外技術的依賴,這樣大數據技術會有更大的發展空間。
目前多數農業大數據平臺多以數據統計展示為主,數據的利用率不高[78-79],普通農戶缺乏或者不具備相關數據分析經驗,難以從這種服務形式的使用中獲取想要的結果,因此未來的農業大數據平臺應該更多地將機器學習、數據深度分析技術應用到平臺數據分析模塊,使得用戶能夠通過選擇數據后進行自動分析得到相應的文字指導,如種植品種建議等。此外平臺應加入農業生態、文化、旅游等多方面的內容,以滿足其他用戶的需求。
大數據的安全工作可以從2個方面開展,一方面是從互聯網、數據信息、數據備份等角度出發,構建大數據安全架構為大數據的價值安全提供保障;另一方面是從日常的管理上出發,用法規制度來對數據流通媒介的使用進行嚴格管理,形成規范統一的大數據生產流程。考慮到數據資源的特征,首先要結合相關法律規定對數據涉及的范圍、權益等內容進行明確規定,此外應當在產權確權時優先考慮將獲取數據的權屬分配給企業,這樣能夠更好地在企業的數據收益與投入之間做到平衡[80]。