何歆媛 宋羅娜 侯軍岐
(北京信息科技大學經濟管理學院,北京 100192)
2015 年國務院印發《促進大數據發展行動綱要》,提出建設現代農業大數據工程。2021 年7 月9 日,中央全面深化改革委員會在審議通過《種業振興行動方案》時指出,要推進重大育種項目協同應用一體化,在生產實踐中迭代升級。在數據時代,大數據是推動經濟發展的新型能源,已有文獻資料對于農業及農業生產的信息化作出了豐富研究,提出并實踐了智慧農業、精準農業、設施農業等新型生產方式。種子生產是將優良品種迅速擴大繁殖的過程,大數據等信息技術的綜合利用,可以通過利用生產過程產生的數據規劃生產、規范操作,從而高效高質地進行種子生產繁育工作。
大數據的概念最早由阿爾文·托夫勒在《第三次浪潮》中提出,目前學界沒有明確的表述,但形成了大數據5V 基本特征[1],即規模化(Volume)、多樣性(Variety)、高速率(Velocity)、真實性(Veracity)、有價值(Value)。并且,大數據是一種綜合技術體系,包含對數據的獲取、清洗、存儲和挖掘應用。然而,種子生產作為良種繁育推廣體系的重要組成部分,目前學界將種子生產與信息技術結合的研究不足,缺乏大數據理論和技術在種業方面的應用和實踐[2]。
自《種子法》頒布以來,我國種子生產體系的發展處于市場化階段,形成了以現代種業企業為主體,以基礎性研發與商業化育種相結合的創新育種機制為支撐,以政府扶持、監管為保障,以市場配置資源為主導的新型種子生產體系。當前,我國種子生產方式有企業繁育部門生產和委托基地公司生產兩種生產方式。但是,總體來說,我國種子生產體系還存在以下幾個方面的問題。
1.1 生產品種多、亂、雜,難以綜合化隨著我國品種審定制度的改革,品種多、亂、雜問題日益突出。選育的品種多、突破性品種少,大部分為低水平重復;審定的品種多、大面積種植的品種少;高產品種多,但綜合性狀好、品質高、抗逆性和適應性強的品種少;適合人工勞作的品種多、適合機械化栽培的品種少。由于市場終端數據的缺失,種子企業一味追求生產單一性狀優勢品種,而忽略了不同地區、不同生產條件消費者的栽培環境差異,不能很好地適應我國病蟲多發、異常天氣頻發的現實情況,從而不利于產銷結合。
1.2 育種科技含量不高,難以規模化國外的大型種業集團科研開發投入一般占其銷售收入的 10%左右,有的甚至高達15%~20%。這些發達國家種子公司將現代技術與傳統育種手段相結合,加快品種選育的速度并迅速實現產業化。而我國實行知識產權保護制度較晚,對于品種侵權行為監管不足,致使種子企業不愿在生產繁育環節進行投資。新品種選育和生產方式科技含量不高,現有品種產業化方面缺乏市場競爭力,最終制約種企的技術積累和規模化生產。
1.3 生產方式不統一,難以標準化種子質量是種子生產技術環節的重要組成部分,但由于我國種子企業的規模和經營能力存在較大不同,各類種子的生產過程中生產方式并不統一。生產基地由公司進行技術指導和全程管理,制種農戶進行分散式種植,也有公司委托有制種技術及管理能力的大戶生產。生產方式不統一也造成種企難以在各環節建立統一的質量檢測指標與監管標準,從而難以有效保障種子生產的質量[3]。
政府部門、種業企業、科研院所、互聯網科技公司聯合建設與管理種子生產體系的大數據,能充分實現優勢互補、利益共享、風險共擔,為種子生產注入活力。并且大數據技術的優勢能夠有效整合分散于各參與主體的信息并互通有無,幫助各方作出科學的決策。
2.1 政府部門服務、監督政府部門以種子部門為主導,還包括氣象、環保、國土、植保等涉農口的相關職能部門。其中種子管理部門負責種源管理和新品種試驗、示范、推廣的實施,并且能夠更好地組織協調制種戶的統一行動。政府部門掌握數據并參與管理,能夠兼顧各方面利益從而使整個良種繁育有序地進行。未來,政府部門也將為成立國家級種業大數據共享聯盟提供支持。
2.2 種業企業負責、實施種業企業中,大數據生產體系建設與管理主體離不開生產環節與其上下游部門,研發環節培育的新品種檢驗合格后進入生產環節需要標記信息,生產加工完成后,需要將數據傳遞給銷售與流通環節,以實現種子售后質量追溯與銷售情況的實時數據監控。對種子生產的連續性流水作業進行大數據建設與管理,有助于集約化、規模化進行種子生產[4],使科研育種成果及時轉化為生產力,迅速占領市場,增強種子企業的競爭力,將大型企業加速打造成為龍頭企業。
2.3 科研機構指導、支持建設涉農領域大數據離不開科研機構的支持,科研能為產業化奠定堅實的基礎,產業化也促進了科研的可持續發展。科研院所與互聯網科技公司主要為種子生產的大數據建設提供兩大類技術支持:一是提供農業相關技術理論支持,通過良種篩選與培育、農業經濟與管理等方面的專家確定種子生產過程中哪些數據具有價值并值得獲取;二是提供大數據應用技術功能支持,通過移動互聯網、物聯網、云計算、傳感器等方面的專家確定種子生產過程中如何獲取數據、應用數據等。
3.1 搭建種子生產數據采集融合網絡數據的獲取和采集是數據處理和統計分析的前提,由于種子生產體系是一個典型復雜系統,種子生產過程中產生的數據具有種類多樣、數據量大、非結構化等特征,且數據之間缺乏統一的標準和規范,導致這些數據的獲取和融合十分困難。圍繞種子生產各環節,以確保生產數據完整性為前提,依托數據庫技術、傳感器網絡、物聯網、網絡爬蟲等技術,建立種子生產數據采集系統。基于云計算架構和虛擬化數據融合等技術,對采集到的種子生產數據進行分類整合,制定統一的數據交換使用規范協議,建立種子生產數據融合系統。進一步將種子生產數據采集系統與種子生產數據融合系統結合構建數據采集融合網絡,通過種子生產數據資源虛擬化建設,實現數據的邏輯抽象和一致表示,極大地提高種子生產數據使用效率,是支撐大數據平臺建設的基石。
3.2 構建種子生產大數據信息處理平臺種子生產大數據信息處理平臺包括數據存儲平臺和數據處理平臺,實現種子生產數據的高效存儲管理和批量處理。存儲平臺以云計算架構和開放式中間件應用體系為依托,基于HIVE 數據倉庫、Harbor 等技術構建分布式云存儲平臺,發揮云平臺的動態可擴展、虛擬化、節約硬件資源等優勢,實現對種子生產數據的資源統一接入,實現對圖片、音視頻、文檔等不同格式數據的分類和集中統一管理。數據處理平臺根據種子生產數據的不同模式,實現數據的批量處理、實時處理和關系數據處理等。在技術路線選擇上可以基于MapReduce 模型和Spark 批量處理技術,快速生成種子生產環境監測報告、種子質量監測報告等。
3.3 優化種子生產數據分析評價體系優化基于數據挖掘和數據分析等技術的種子生產數據分析評價體系,主要對種子消費需求、種子生產管理等進行分析[5],對于檢測種子生產體系中的短板弱項、提高種子生產效率、合理調配生產資源等有重要作用。通過對現有的數據挖掘方法和機器學習算法的改進優化,并將其應用到種子生產數據分析中,開發圖嵌入、特異群組挖掘等高效數據挖掘技術,挖掘種子生產結構化數據中的隱性知識,構建數據分析評價指標體系,并且研發種子生產大數據可視化關鍵技術,支持各種結構化信息的表現方式,實現生產經營管理者對種子生產態勢的全局把握。
大數據技術與種子生產體系相結合,可以同時實現“技術先進、經濟合理”的目標,降低成本從而實現良性循環。未來的種子生產體系還要利用大數據技術加速新品種產業化、保持高產穩產性能,并納入對種子經營者、用種者合法權益的保護,進一步擴展大數據、物聯網、云計算等新型技術的應用領域,實現種業加速發展,保障國家糧食安全。