□張宗威
(山西省農業廳 山西 太原030000)
數據是反映事物的符號記錄,包括文字、數字、圖元、電磁狀態等,是信息構成的原始元素。人們借助數據可以了解事物的屬性,發現不同事物間的聯系規律,在信息傳播的施主與受主之間傳遞思想、知識、感情。
信息技術產業在飛速發展,與爆炸性信息相伴的大數據噴涌而來,農業發展必將得益于大數據資源的開發和使用。
信息技術發展之前,生產數據的任務主要由知識分子和有足夠技能的人來完成,古時巖洞中的壁畫不是人人都可以繪出來的,所以稀少;18世紀之前,我國數千年間傳承下來的書籍有萬種左右,成書于18世紀乾隆年間的《四庫全書》涵蓋了當時存世的主要書籍,一共有3503種,79337卷,字數9億左右,18億(1.8G)字節,一個普通硬盤500GB,可以存儲《四庫全書》900部。現在我國每年出版圖書40萬種,如果每種書籍的字數按10萬計算,每年出版書籍的字數在400億(40G)字節左右。現在生產數據的方式不僅是紙質圖書,還有音像出版物、電臺電視臺播出的節目、監控錄像、郵件、QQ聊天、短信、微信、微博、博客、跟帖、手機圖片、搜索關鍵詞等等,這些數據的生產不再是學者儒士的專利,幾乎是全民參與,人人生產。有人計算過2007年全球存儲的數據有300艾字節(260字節),(大數據時代 維克托P11),還有很多數據生產出來因為沒有存儲,隨即消亡。
過去數據的存儲主要媒介是紙質材料、石板、竹簡、金屬、摩崖等,現在光盤、硬盤成為了主要存儲媒介,特別是硬盤,由于其存取速度和容量的優勢,擔當了存儲數據的主要角色。以一個中型圖書館為例,如果館藏文本書籍200萬冊,全部數據化后,數據量約為800G字節(每本書按20萬字計算),一個1T(1000G)容量的硬盤可以將一個中型圖書館所有的文本書籍裝進去,而1T硬盤只有64開書本大小,厚度只有2cm左右,每一個家用臺式電腦都可以標配這樣的硬盤。所有大型網絡公司都有海量的存儲系統。
計算機處理數據的能力每天都在提高,我國的天河2號超級計算機的運算速度達到每秒5億億次,云計算不需要昂貴的超級計算機也可以在瞬間處理巨量信息,Google的云計算平臺中就有上百萬臺服務器在協同運算,處理著來自全球的數據。硬件的速度在提高,算法上的不斷創新,使得處理大數據的能力也越來越強,一部高清電影在沒有進行壓縮計算以前的原始數據量大約500G字節,碼流500Mbit/s,在現有的家用互聯網上沒有辦法觀看 ,采用H.264算法壓縮后,文件大小降為10G字節左右,碼流10M左右,高速家庭網絡可以支持播放,如果進一步壓縮,普通家庭也可以播放,采用H.265的算法壓縮,文件大小只有5G左右,正是由于有這些算法,視頻文件才能在網絡上傳輸。
互聯網使得數據的傳輸可以方便的進行,人們可以在網上看書、看電視電影、聊天、發貼、特別是WIFI技術的普及使用,人們隨時隨地可以上網互傳數據,瀏覽網頁。國務院2013年發布的《“寬帶中國”戰略及實施方案》,要求我國城市家庭寬帶接入能力2015年基本達到20Mbit/s,部分發達城市達到100Mbit/s。2020年發達城市部分家庭用戶要達到1Mbit/s。另外移動通信的4G技術投入使用,傳輸速度可達100Mbit/s;5G技術也已開發成功,5G的傳輸速度可以達到1Gbit/s,傳輸一部高清電影只需要數秒的時間。
信息技術的發展,產生了大數據,人們面對大數據不是束手無策,相伴著大數據的產生,出現了大數據的收集分析整理技術。大數據成了人類的又一個富礦,人們在從沒有接觸過的天文數據面前發現了驚喜的價值。
沒有出現大數據前,人們一般是通過采取小樣本加上統計知識獲得對事物屬性的認識,這種認識往往是不準確的。如,“受涼會感冒”,這是國人的一個普遍認識,這種認識就是基于小樣本得出的結論,但是實際上受涼與感冒并沒有直接的關系。信息技術使人們掌握了大樣本甚至全樣本,這可以使很多事物、人類的行為被更加準確的認識和預知。
信息技術使采樣以及存儲變得非常便利,這里的“采樣”已經不是有意的采樣,大多是無意的采樣,就如人們上網瀏覽網頁產生的痕跡就是數據的富礦,不需要刻意去做,就會產生無限量的樣本。運用大數據算法,可以使人們從龐雜的數據變量中找出相關的一些變量來,使事物的關聯性呈現出來,提升人們對事物的認識水平。
人們對事物的認知,一方面滿足人掌握真理的欲望,一方面來預知事物的發展,通過調整相關變量,使事物的發展可控,趨利避害。人們對臺風的預知,調整出行變量,加固居住設施,防止災害發生。對經濟增長的預知,調整就業政策,與民生利。
通過算法,可以從大數據中揭示出很多事務的相關性來,有的是鮮為人知的一些相關性,在預知事物的發展上是一個重大的突破。谷歌通過對全美國網民在其網頁上的瀏覽、搜索關鍵詞的分析,可以及時預知流感的發生,遠快于疾控中心的預測。一個超市通過對大數據的分析,發現蛋撻的銷售量竟然會與颶風的來臨有關,這是他們原來所沒有想到的,此發現促使他們每在颶風來臨之前,將蛋撻擺放在防颶風災害的工具旁邊,既方便了客戶,又提高了銷量。
歐美很多超市收取貨款幾乎全是銀行卡或信用卡,而這些卡內卻有客戶充分的個人資料,這樣超市就會對每個消費者的購買時間、購買喜好、購買明細了解。一個超市因為掌握了這些數據與客戶建立了非常“親密”的關系,有一個未婚高中生女孩收到了超市寄來的孕婦用品優惠廣告,此事引起女孩父親的極大不滿,可不知是自己的孩子真懷孕了。這個事件的緣由就是大數據功勞,超市通過對每一個客戶進行分析,從中發現消費者的購買記錄,與“懷孕”建立相關性,確認哪些女性懷了孕,為每個懷孕的女性寄去嬰孩用品的廣告,此女孩就是他們從大數據中發現的。
大數據就像大海,里面含有無數的寶藏,雖然龐大無比,但是在強大的算法面前,是能夠把寶貴的東西一一呈現在有心人的面前。
農業數據應包括四方面的數據:一、氣象數據;二、生產技術數據;三、基礎設施數據;四、農資數據;五、銷售數據。
在所有產業中,只有種植業與氣象的關聯性最大。各國在氣象數據的獲得方面都做了大量的工作。我國氣象部門在全國范圍內建立了較為完備的氣象觀測臺站網,全國共有人員值守地面氣象觀測站點2500個左右,自動氣象站26000多個。2014年底我國成功發射了14顆風云系列氣象衛星,還接收利用美國、日本、歐洲等國家和組織的多顆衛星資料。不論是地面采集還是太空遙感,氣象數據全覆蓋,氣壓、云圖、溫度、雨量、風速、日照、草原森林災害、地質災害、污染等等氣象數據,數十年來每天每時都被各級氣象部門和國家氣象數據中心采集保存、上傳分享。
農業生產的數據主要來自土壤、作物類別、種子、水、肥、病蟲危害與防治、耕、種、收、地塊形狀、農機、田間路網狀況……。
每一個農業生產經營主體,都會面臨著不同地土的不同土質,有黑土、黃土、紅土等,不同區域土壤的礦物質、有機質、微生物、水分、結構、重金屬含量等等,是農業種植的基礎數據,幾乎每塊土地的土壤特性都會有大量的數據。
作物類別決定種植結構,不同區域適合不同的作物品種。我省晉北適合土豆的種植,晉南適合小麥,晉東南適合谷子。不同區域海拔不同、地勢不同、土質水質的不同,適宜的品種也不同。臨猗縣坡上石榴品質明顯好于坡下;沁縣檀山村的小米明顯好于周邊鄰村的小米。品種與地理環境的結合,是特色農業的基礎。
種子作為作物生長的內因,對產量、品質都起著決定性的作用,每一個種子都有其最適生長環境,每一輪種植循環,種子都是生產經營者慎重選用的重要農資。
水,有天然的降雨,有人工的澆灌;肥料,有土壤本身的肥力,也有人工增施肥料。水肥是農作物生長的外因,農業生產中,一向被重視。
病蟲害對作物的生長會產生較大的影響,甚至對作物的生長會產生毀滅性的影響。病蟲害與氣候、作物品種、土壤、生長環境等因素都有關系。在病蟲害的防治中,會產生一些副作用,殘留物對環境對人體都有一定的影響,對產品的銷售也會產生影響。
地塊形狀,決定了生產中的機械化程度,決定了生產中的人力投入。耕地有平原、坡地、丘陵梯田之分。
農業機械投入量與使用頻度,衡量著農業生產現代化水平。現在農村的各種大小機械的使用,已將農民從繁重的農業勞動中解放了出來,促進了農村勞動力的就地轉移。
農業生產中的基礎設施主要包括:農田建設、水庫建設、澆灌設施、機械設備、信息網站、倉儲間等,這些設施是農業生產的基礎。這方面的數據比較宏觀,建設過程會產生很多有效的可以數字化的數據。
農業生產中的主要物料投入有:種子、化肥、農膜、農藥等,這在每個生產周期中都會發生。這些數據主要保留在各個農戶或農業企業手中,但是由于農戶的粗放型經營,這些數據難以采集到,所以應該從農資經營部門獲取,或從電商平臺獲取。
農產品主要有糧食、油料、水果、蔬菜、肉、蛋、奶以及各類深加工產品。
水果、蔬菜、肉、蛋、奶各類鮮活農產品,主要通過分布在全國4500多家農產品批發市場進入流通;全國有農民合作社116萬個,組織農民生產并擔負著產品的銷售;全國各類農業產業化龍頭企業超過12萬家,直接承擔農產品的深加工和銷售;自從2004年全面放開糧食市場后,糧油交易也完全市場化,小麥、玉米、大豆、豆油進入期貨交易。
所有這一切農產品流通模式,每天都會有大量的交易地、交易量、價格等交易數據產生。這些數據對于農產品生產經營中的決策會有較大的幫助。
落實好農村寬帶進鄉入村工作,使絕大多數農戶能夠享受到互聯網、4G手機終端、IPAD等各類信息載體中的信息,采取措施,鼓勵農民上網,消費信息。這樣一方面可以使農民在網上學習新技術,了解外面的市場,促使使農民、農村、農業現代化過渡,另一方面 ,在消費信息的過程中,可以產生大數據,形成一個既是數據生產者又是數據享用者的一個新常態,使決策部門和每一個農業生產主體依靠大數據,制定政策,創新生產,拓寬市場,增加收入。
農村有完整的管理組織,村委會具有財務管理、生產管理職能,全省相關部門應該建立網絡平臺,伸展到每一個行政村,每村定時上傳所有生產經營數據,形成大數據,形成全樣本。
通過網絡銷售農產品、購入農業生產資料和農民消費品,與城鎮的電子商務相比較,還有很大的差距,國家目前也注意到了這方面的問題,國務院出臺政策要求促進農村電子商務的發展,在公路建設、物流配送等方面都做了一定的要求,想必農村電商將會有一個較快的發展。農村電商發展的同時,相應會產生大量的農產品銷售與農資購入的網絡痕跡,成為難得的農村生產經營的大數據,相關部門要及時跟進,建立這方面的大數據處理機構,為政府、農戶、農業企業提供決策參考。
全國截止2014年有4500多個鮮活農產品批發市場,但是大多數市場的信息采集與發布系統仍然處于彼此獨立運行狀態,數據封閉不開放,甚至讓數據白白流失。即使已聯網的批發市場所上傳數據有限,僅顯示價格和品種。為了挖掘批發市場的數據資源,形成重要的數據富礦,應該是全國所有的批發市場進入互聯網,同時政府或一些有能力的企業,建立鮮活農產品大數據中心,健全數據采集發布標準。這是一個現成的數據生產部門,而且其數據對農業生產經營,政府決策都有著非常重要的作用。
農民專業合作社是在農村家庭承包經營基礎上,同類農產品的生產經營者或者同類農業生產經營服務的提供者、利用者,自愿聯合、民主管理的互助性經濟組織。農民專業合作社以其成員為主要服務對象,提供農業生產資料的購買,農產品的銷售、加工、運輸、貯藏以及與農業生產經營有關的技術、信息等服務。全國有60萬行政村,110多萬農民專業合作社,平均每個村2個專業合作社,合作社所經營的農產品最能代表本鄉本土的特色,也是當地農業支柱產業,這里有著較為完備的生產經營管理制度,有較為完備的生產經營記錄,有較為先進的信息管理技術,特別是這里聚集著一幫村內的能人,合作社在農村經濟中起著舉足輕重的作用。
農村專業合作社是農業大數據的又一個生產源,為了便于大數據的使用開發,相關部門應該鼓勵他們在信息技術方面投入,規范數據采集上傳標準,鼓勵合作社利用電子商務開展生產經營,這種無意識留痕,最能真實反映經營者生產技術狀況,應引起足夠重視。
全國農業產業化龍頭企業12萬之多,這些企業消耗著大量的農業初始產品。以大豆為例,某特大型豆油加工企業,2014年僅進口大豆800萬t,這一家企業進口大豆量幾乎占全國大豆總產量的80%以上。龍頭企業以農業原初產品為原料,進行深加工,在糧食、油料、肉類這些大宗農產品深加工中,有不少大型企業,這類農產品是經過這些企業的加工后,以食用油、面粉、鮮肉、凍肉的形式走上人們的餐桌,進入終端消費的。另外在鮮活農產品中,諸如水果、蔬菜也有不少的加工企業,經過加工之后形成果汁、果脯、速干菜、咸菜等消費品。
農業產業化龍頭企業與農業有直接關系,具有現代化管理理念、生產設施先進、直面市場、信息設施與時代同步、大量使用電子商務營銷推廣等特點,而且能享受到政府的各項補貼和優惠政策。為了獲得數據資源,政府相關部門應該要求產業化龍頭企業保護經營中的一切數據,遵循一定的標準,在不影響企業經營機密的前提下,與農業大數據開發部門共享數據資源。
隨著物聯網技術的發展,傳感技術的成熟,對農作物生長狀態、蟲害、土壤、環境、溫度都可以做到現場取樣、遠程感知。為此可以參考氣象站點的做法,建立農作物生長信息采集點,全省乃至全國匯集,生成數據。
地頭傳感網的建立,可以采用太陽能24h供電,GPRS通信傳輸數據。
無人機可以低空飛行、近距離感知、大范圍收集、低成本運行,在農業上可以用于收集各類田間信息。
遙感是依托太空衛星,將紅波段和近紅外波段的反射率及其組合與作物的葉面積指數、太陽光合有效輻射、生物量具有較好的相關性這一技術,應用在農業上。農業遙感應用范圍主要有:作物種植面積估算;作物單產遙感估算;耕地質量遙感評估和糧食增產潛力分析;農業干旱遙感監測評估;糧食生產風險評估產品;病蟲害測報等。農業遙感已有數十年的歷史,積累了豐富的遙感數據,但是很多數據原來由于技術的原因,都在塵封之中,現在大數據技術的出現,需要將這些原始數據數字化、生命化。
大數據技術形成之前,人們對龐大的數據束手無策,只能采取抽樣的辦法進行統計分析,往往會流失很多寶貴的數據和不被發現的關聯性,準確性也是大打折扣的。現在大數據技術的出現,人們怕的是沒有數據,在全省乃至全國建立數據中心是完全可能的。
5.1.1 氣象數據。尋找氣象數據與各類農業氣象災害及其病蟲災害的關聯性,早作預報,早作預防。另外在農村流行的一些氣象現象與某種作物的豐產歉收關系的諺語,也是數千年來,農民的一些總結,可以通過大數據技術對這些民間諺語進行確認,以幫助農民每年在哪種經濟作物上的投資。
5.1.2 遙感與無人機數據。這些數據是了解農業資源稟賦的重要數據,土地現狀及利用狀況、土壤類型、種植結構及面積,這些是農業宏觀決策的一些基本數據。
5.1.3 土壤、氣候與品質的關聯性。我們知道,每一個地方都有其特色優質產品,如檀山的沁州黃小米、汾陽核桃、吉縣蘋果等,這些與當地的土壤、當地的特殊的氣候條件、地理條件、水質等都有關系,把這一切相關參量確定下來之后,通過大數據分析在全省尋找一致性的生長環境,確定全省的優質產品地圖,形成有競爭力的產品優勢,甚至可以對同一類的同質產品形成統一的品牌進入市場。
5.1.4 分析農產品彈性系數。通過確認農產品的價格彈性系數可以知道哪類產品產量高相應的收入高,哪類產品產量高反而收入降低,以此作為農民種植結構調整的指導意見。截止現在我國沒有發布過權威的農產品價格彈性系數,原因是數據的不確定性。經過多年的建設,全省乃至全國都建起了完善的農產品市場,信息技術配套到位,交易數據龐大,價格和銷量都會有詳盡的記錄,運用這些數據進行產品價格彈性系數分析,可以做到較為準確。
5.1.5 解決農產品價格震蕩的問題。農產品價格震蕩的問題也是困擾農業生產健康發展的一個難題,大量農產品爛在地頭的現象時有發生,打擊農民生產積極性,造成供求矛盾突出,農村經濟不穩定。借用大數據技術可以建立起農產品中長期供需預測模型,為農民的生產提供參考。這一模型的建立需要有氣象資料、農產品生產規模、災害預測、農資投入、作物生長數據、作物生長周期、產量預估、市場需求預測、國際市場、人口資源狀況、……,這些數據在現有的技術條件下,都可以較為全面、準確、快速的取得。
大數據在農業生產經營層面上,可以在以下幾方面使用:
5.2.1 指導種植結構。農業生產經營戶或農業企業,及時參考政府主管部門發布的指導意見,調整自己的生產品種結構,農民自行調整,避免政府的一刀切調整。
5.2.2 發現商機。在各種變量中尋找與消費數據的關聯性,發現商機,提高收入。
5.2.3 掌握作物生長數據、進行精準生產。利用大數據技術,廣布監測點,精確檢測每個點的土壤、墑情、葉片溫度、色變、生長速率等參數,及時決策采取措施,提高產量、節省成本。
5.2.4 與大數據部門聯合。農業企業以及農民單獨經營戶,對于大數據的采集、分析不具有專業知識,應該與大數據部門聯合,委托大數據部門對自己生產經營中產生的數據進行處理分析,用于生產經營指導。