[摘 要] 在大數據時代,測序技術的普及為傳統農業變革創造了新機遇。本文通過闡述生物大數據和貴州省農村產業革命重點特色優勢產業的關系,分析目前貴州省生物大數據的發展現狀和要求,通過構建以產業主題為基礎、以交互為導向的數據共同體促進特色優勢產業快速發展,并實現貴州省農業發展的彎道超車,最終實現農業脫貧致富,達到全面小康。
[關鍵詞] 生物大數據;農村產業革命;特色優勢產業;數據共同體
[中圖分類號] TP399 [文獻標識碼] A [文章編號] 1674-7909(2019)33-30-2
2019年,中共貴州省委十二屆五次全會提出深入推進農村產業革命,堅決奪取脫貧攻堅戰的全面勝利,大力發展茶、食用菌、蔬菜、生態畜牧、石斛、水果、竹、中藥材、刺梨、生態漁業、油茶和辣椒12個重點特色優勢產業。人工智能、大數據等信息技術手段應用于農業領域將會促進精準農業高速發展,有針對性地進行動植物種質資源的保護和改造。精準農業的本質特征之一就是生物組學數據與動植物性狀相結合。貴州省農村產業革命中12個重點特色優勢產業的發展離不開生物大數據的支撐。貴州省發展改革委會同相關部門組織編制并于2016年8月發布了《貴州省大數據產業發展引導目錄(試行)》,共有4個領域、27項、133個條目,其中包括智慧農業,重點支持農業大數據技術研發與應用示范等4個條目。貴州省人民政府辦公廳于2017年9月印發了《貴州省發展農業大數據助推脫貧攻堅三年行動方案》,能充分發揮大數據作用,更好地利用大數據服務農業生產,助力脫貧攻堅,加快促進貴州省農業供給側結構性改革和綠色優質農產品生產。貴州省大數據發展管理局也于2017年9月發布了《智能貴州發展規劃(2017—2020年)》,其中專門提到推進智慧農業發展,整合涉農大數據中心和農業云,開展“三農”數據挖掘。目前,貴州省科技廳和貴州省科技信息中心正在籌備組建生物醫學大數據中心,此中心也必將圍繞這12個重點特色優勢產業來構建數據支撐。在實際工作中,對于如何把這兩者有效地結合起來,以信息化、數據化來促進農村產業革命重點特色優勢產業發展,以產業發展來推動信息化和數據化發展,本文提出形成以產業主題為基礎、以交互為導向的數據共同體,以促進大數據產業與農業特色優勢產業融合。
1 生物大數據存在的問題
早在20世紀八九十年代,美國、歐洲和日本分別建立了以遞交為核心,按照數據屬性進行整合的世界三大生物數據庫GenBank、EMBL-EBI、DDBJ[1],并在國際核苷酸序列數據庫合作(INSDC)框架內實現相互共享。
隨著生命科學的高速發展,特別是高通量測序技術的高速發展,傳統的生物分子序列數據庫里面沉淀的數據呈爆發式增長,雖然三大生物數據庫進行了一定程度的整合。但是,這種整合沒有徹底打破數據壁壘,構建數據緊密的聯系。這使得大量的數據形成信息孤島。
以主題為核心來構建專業生物數據庫成為另一種模式[1]。以主題為核心,就是以物種、研究目的等為中心來構建生物數據庫。這雖然解決了部分數據交匯問題,但是直面產業應用,做到精準農業仍具有很大的局限性。
產業數據,不僅僅是生物分子序列數據,還是氣象、病蟲害、土壤等這些更多更為復雜的數據。這些數據多種類、多層次、高維度,難以以一種標準將其統一標準化。這使得產業數據分析和整合都變得困難,是一般數據庫難以實現的。
2 構建以產業為核心、交互為導向的數據共同體
隨著信息技術與生物技術深入持續的融合發展,傳統的數據庫構建難以滿足智慧農業、精準農業的需求。需要構建以產業主題為基礎、以交互為導向的數據共同體,用以解決生物大數據、農業大數據交互瓶頸,提升農業效益,增加農民收入。數據具有高度開發共享的特性,必須進行數據交互才能產生最大的價值。數據共同體是建立在數據采集、清洗、加工、可視化和共享等基礎上的,是以某一主題為核心和以時間為軸的高維數據聚集。數據共同體更強調跨領域數據的內在聯系、以時間為軸的數據變化規律和數據產權的保護。圍繞貴州省12個重點特色優勢產業的數據共同體具有以下幾個模塊。
2.1 以基因組為主的組學數據模塊
隨著測序技術的發展,形成了基因組、轉錄組、蛋白質組、代謝組等多組學數據?;蚪M是生物生命活動的基礎,是中心法則的起點。狹義上的生物大數據,是以組學數據為主的大數據。以基因組為主體的多組學模塊在整個數據共同體中占據主導地位。這可以推動貴州省優質農業品種種質資源的保護,并且在深入解析其生命特征的過程中,進行物種改良,以更好地為貴州本地的農業生產和農民增收服務。通過構建多組學數據,可以構建農業生物表達調控網絡,以指導農業生產。
2.2 以土壤、氣象等為主的農業生產數據模塊
以無線傳感器網絡為物理基礎,通過采集土壤數據(包括土壤肥力、酸堿度、濕度等類型)、氣象數據(包括降水、日照等類型)、病蟲害監控數據(包括害蟲遷飛數據等類型)、牲畜疾病、體溫、畜舍溫濕度、飼料量和牲畜活動度等多種類型,并結合組學數據信息,進行施肥、農藥噴灑、灌溉、牲畜喂養、疫苗注射和獸藥投喂等農業服務的精準指導,以實現動植物生長全周期的實時動態監測,達到促進農業高產的目的。
2.3 以銷量、價格等為主的農產品流通數據模塊
通過互聯網電商平臺、有關職能部門及當地企業,采集當地農產品的實時動態供需信息。經過數據采集、清洗及加工,最后反饋給生產端,并且根據預測的產量信息數據和政府部門的政策信息數據,制定合理的農產品生產和銷售策略,同時可以有效地支撐農產品深加工產業持續健康發展。
3 構建數據共同體的策略
第一,加快基礎設施建設和新型信息技術應用。分布式環境下,運用大規模的數據存儲技術,并且支持海量的高維數據并行存儲、抽象訪問,最終實現統一管理,提高大規模數據存儲與維護的可靠性和可擴展性,確保各個數據模塊的敏捷性與易用性。運用區塊鏈技術建立農產品溯源系統和組學數據存儲系統,可以有效地進行原產地保護與驗真以及對貴州本地的遺傳資源種質資源的保護[2]。運用人工智能技術能實現數據采集、清洗、加工、集成等操作自動化,并且能提供信息預測。運用5G技術構建無線傳感器網絡能更高效實時地采集數據。運用第二代測序技術和第三代測序技術能提供更精確的組學數據。
第二,加快制定生物大數據的貴州省行業數據標準包括大數據相關術語集、數據標準(包括組學數據標準、農業生產數據標準)等,推動數據質量管理體系的構建,以實現用統一的數據質量控制體系來產生統一的數據,促進數據的互聯共享。
第三,加快推進數權法等相關法律體系的制定,以保護生物大數據促進科學數據的共享與再利用。生物大數據有2個,主要產生于盈利性商業公司的商業活動和政府資金支持的涉農大數據中心和農業云。不同的數據來源進行數據共享涉及商業利益的分割。如何更好地兼顧共享與商業價值兩方面,必須要通過立法進行數據確權,依法保障數據權利。另外,數字化的遺傳資源也需要依法進行知識產權保護。以避免通過組學數據分析,獲得重要性狀的關鍵調控表達基因,以此復制并插入到相關物種,獲得相應的性狀特征。因此,數權的確立有利于持續推動科學數據共享的可持續發展。
第四,制定相應的政策措施促進多方參與。政府、企事業、個體等以各種形式加入到這個數據共同體,增大數據覆蓋面,提高數據利用率,做到數據真正為農業服務。
第五,加快推動數據隱私保護和安全相關的政策法規的制定。在數據共享與使用中,依法依規保護隱私,保障數據安全,促進數據共同體健康有序發展。
4 結語
以產業主題為基礎、以交互為導向的數據共同體的構建與應用,能為貴州省12個重點特色優勢產業的發展提供數據支撐和信息保障。這些大數據將在農業品種改良、農作物種植、牲畜飼養、農產品深加工及農產品營銷等方面帶來前所未有的發展機遇并深度改變傳統農業,促進貴州省農村產業革命,加快農業產業發展,并實現貴州省農業發展的彎道超車,最終實現農業脫貧致富,達到全面小康。
參考文獻
[1]張國慶,李亦學,王澤峰,等.生物醫學大數據發展的新挑戰與趨勢[J].中國科學院院刊,2018(8):853-860.
[2]白禹,陳軍,歐陽柏成,等.基于區塊鏈的科研項目申報系統[J].科學技術創新,2019(3):85-86.