溫維亮 ,郭新宇 ,張穎 ,顧生浩 ,趙春江 *
(1. 北京市農林科學院信息技術研究中心,北京 100097;2. 國家農業信息化工程技術研究中心,北京 100097;3. 數字植物北京市重點實驗室,北京 100097)
作物表型指能夠反映作物細胞、組織、器官、植株、群體結構及功能特征的物理、生理、生化性狀,實質上是作物基因圖譜的時序三維表達、地域分異特征、代際演進規律[1]。隨著作物科學、計算機科學與工程等領域協同研究程度的不斷提高,通過多源傳感、理化分析等方式采集的作物表型數據積累形成了多維度、多尺度的作物表型組大數據。作物表型性狀的復雜程度決定了表型組大數據的獲取、解析、管理、應用是極大的科學系統工程。
當前,作物表型組大數據已成為國際農業科學、生命科學領域的戰略前沿方向[2],也被視為種業科技發展的核心競爭力[3]。在我國,與信息技術、智能裝備深度融合的作物表型組學成為搶占未來農業產業發展制高點的關鍵內容,相關研究發展趨勢鮮明:由新興學科建設轉向學科規?;ㄔO,由單一尺度及關鍵時間點的表型解析轉向綜合化、智能化及全生命周期的連續檢測,表型數據組內關聯轉向多組學協同創新。
近年來,研究者從作物表型獲取技術、表型平臺裝備、表型解析算法、多組學數據挖掘分析等方面著手,分析了作物表型組學的發展歷史、面臨挑戰、未來趨勢[4~10]。然而,立足國情并把握行業發展實際,圍繞我國作物表型組大數據技術及裝備開展的綜合性發展研究依然缺乏。為此,本文立足國內外作物表型組學已有研究成果,結合我國作物表型組大數據技術及裝備的研發現狀和產業發展實際,明晰定位、梳理現狀、剖析問題并形成技術性發展建議,以期為作物表型組學及農業科技發展研究提供基礎參考。
作物表型組大數據技術及裝備正處于快速發展階段,既是我國農業科研和生產的需要,也得益于作物表型產業的牽引。
1. 實現種業科技自立自強的需要
開展種業“卡脖子”技術攻關、打好種業翻身仗、建設種業強國,離不開作物表型組大數據技術及裝備的關鍵支撐。表型數據的檢測貫穿于種業生產的品種繁育、品種測試、示范推廣各個環節,但傳統的表型采集和鑒定方法費時耗力、標準化程度不足,迫切需要表型組大數據技術裝備有力支撐育種決策。現代作物表型組大數據技術及裝備的發展最早是由巴斯夫股份公司、拜爾集團、孟山都公司等全球種業巨頭推動的,旨在通過信息感知、自動控制、智能解析技術提升作物表型檢測的通量、效率和標準化程度。在人工氣候室內設置理想種植條件,通過調節光周期促進植物生長達到加代目的,在一年內得到4~6 代,大幅縮短育種周期[11]。借助作物表型組大數據技術裝備和分子育種輔助技術,有望實現加速育種技術的革命性突破[12]。
2. 推進作物種質資源表型性狀精準化、規?;b定的需要
農作物種質資源是保障國家糧食安全與重要農產品供給的戰略性資源,農業科技原始創新與現代種業發展的物質基礎。作物表型鑒定通過表征作物種質資源的農藝性狀、產量性狀、品質性狀、抗性性狀等特性,旨在發掘具有生產利用價值但未被充分利用的特異性種質及其基因[13]。我國農作物種質資源評價多為單一性狀、單一環境下的鑒定結果,缺乏基因信息和綜合評價,限制了種質資源在育種中的有效利用(《全國農作物種質資源保護與利用中長期發展規劃(2015—2030年)》)。目前,我國農作物種質資源80%以上來自國內,遺傳多樣性不足;在長期保存的52萬份種質資源中,開展基因型和表型精準鑒定的數量不到10%;在現存的2.5萬份玉米、4萬份小麥和8萬份水稻種質資源中,開展深度鑒定的只有5%[14]。此外,作物的抗旱、抗倒、高光效等綜合表型是多基因控制的復雜數量性狀,對表型鑒定提出了較高要求。亟需借助作物表型組大數據技術及裝備,開展表型性狀規?;?、精準化鑒定,以有效推進作物種質資源的保護與利用。
3. 加快突破作物重要性狀形成機制基礎研究的需要
農作物高產、優質、高效及其協同改良是作物科學重要的研究內容。綜合利用遺傳學、基因組學、分子生物學等技術手段,挖掘株型、穗型、種子大小等產量性狀,蛋白質、油分、硬度等品質性狀,養分吸收、轉運、代謝等養分高效利用性狀的關鍵調控基因,闡明高產、優質、高效協同改良的分子調控網絡,對創制產量、品質、資源高效利用均顯著提升的優異新基因資源具有重要意義。然而,傳統的表型測定方法存在通量低、標準不一致、深度不足等問題,限制了重要性狀形成機制的突破進程[12]。借助作物表型組大數據技術裝備,可以從作物近緣種、野生種、地方品種中找到克服各類逆境的性狀,深入開展控制優異性狀的關鍵基因和遺傳網絡解析,進而克隆相關基因[15],為分子設計育種[16]的定向改良提供基因資源。
4. 提升作物智慧生產信息感知技術裝備的需要
制定作物生產中耕、種、管、收等關鍵環節的作業方案,離不開對農田長勢狀況的判定。當前,我國農作物在生產過程中主要依靠人工到田間地頭利用肉眼進行觀測、憑借經驗進行決策,造成農業生產效率不高,還會存在誤判和漏判的風險,直接影響作物產量和農民效益的提升。理論和實踐均表明,作物表型組大數據技術及裝備可應用于糧食、蔬菜、花卉等大多數農作物生產管理環節的長勢診斷,通過移動式或固定式平臺搭載可見光、光譜、激光雷達、紅外熱成像等傳感器,快速分析不同尺度農田作物的長勢、水分、氮營養、病蟲害、產量等信息;結合作物生長模型[17]和知識管理模型,定量估算作物對水、肥、藥的需求量,進而指導農業機械進行精準作業,實現作物產量、品質、資源利用效率的協同提升[18]。
1. 市場規模迅速增長
植物表型市場規模正在經歷快速增長。Coherent Market Insights 公司的研究報告顯示,2021 年全球植物表型市場規模約為1.84億美元,預計2028年為3.87 億美元,復合年增長率為11.2%[19]。該市場的迅速增長主要得益于以下方面:一是全球氣候變化和人口增長,使國際糧食安全面臨嚴峻挑戰,迫切需要通過科技創新提升糧食產能[20];二是信息技術的快速發展,如機器學習、計算機視覺、傳感器網絡、空天遙感的不斷進步,使植物表型檢測和鑒定變得更加自動化、數字化、高通量,提高了評估效率和準確性[9];三是育種基礎性研究需求的持續增加,對作物種質資源表型性狀鑒定提出了多生境、時序性、優質多抗的要求[13];四是政策和資金的支持,為市場主體在技術研發和推廣應用方面創造了良好環境。
2. 產業鏈條逐步延伸
當前,作物表型組大數據技術及裝備主要應用于基因鑒定[21]、種質資源表型鑒定[13]、生物和非生物脅迫的無損檢測等作物科學研究[22]。面對保障國際糧食安全和農產品質量安全、促進農業增產與農民增收等世界各國的共同訴求,作物表型組大數據技術裝備還可應用于農業生產智能化管理、農產品質量無損檢測、農產品智能收獲等多類場景,為不同農業產業市場主體(如家庭農場、植物育種公司、農業科研機構、智慧農業公司、農產品貿易商)提供信息化技術和智能化裝備支撐。
3. 商業模式不斷涌現
全球作物表型產業的業務和產品主要以表型獲取基礎設施平臺的搭建為主,如大田的龍門吊式平臺、溫室的懸掛式軌道平臺、地面移動式平臺、低空無人機平臺等[7]。按照產品品類口徑,2021 年全球植物表型市場中硬件設備占主導,超過軟件和傳感器之和。也要注意到,基于傳感器數據的解析指標主要是形態指標,缺乏對深度表型和綜合性狀的解析,因而提供智能化的表型解析軟件和在線化的表型分析平臺將成為新的商業模式。作物表型平臺是涉及到自動控制、數據傳輸、設備調試、系統集成等環節的復雜系統[23],其運行保障、硬件維護、軟件服務等具有一定的技術門檻,將成為作物表型產業的另一類商業模式。
4. 育種龍頭企業發展的必由途徑
構建以商業化育種流程管理軟件、表型高通量精準鑒定平臺、表型組大數據管理系統等信息技術和智能裝備為核心的商業化育種技術體系,是育種企業數字化轉型升級、實現數字技術賦能企業生產經營的重要內容,具有分段式、流程化、標準化的特點,有助于縮短大規模育種周期、促進企業提質增效。國際種業巨頭如拜耳集團、先鋒公司、巴斯夫股份公司等,高度重視作物表型組學的發展及其產業應用,紛紛部署作物表型高通量獲取平臺及設施并納入商業化育種和發展數字種業的業務流程。作為我國種業龍頭企業的北大荒墾豐種業股份有限公司已于2016年建設運行了高通量表型精準鑒定平臺,華為技術有限公司正在積極探索表型機器人和智慧育種多組學大模型,袁隆平農業高科技股份有限公司、甘肅省敦煌種業集團有限公司等企業也在積極建設相關能力。
作物表型組大數據是一項科學系統工程,以作物育種和栽培的實際需求為導向,依賴傳感器、表型平臺、無線通信、數據庫、大數據分析等現代信息技術和機械裝備,需要農學、植物學、自動化、機械工程、圖形圖像、計算機科學等多學科緊密協作,才能將作物表型組大數據最終轉化為生物學和農學新知識。借鑒大數據知識工程發現模式[24],作物表型組大數據從數據的產生到最后的應用,可分為物理層、傳輸層、數據層、知識層、應用服務層(見圖1)。

圖1 作物表型組大數據技術及裝備從研發到應用路線圖
21 世紀以來,在作物表型數據高通量獲取方面,以各類新型物理、化學和生物(生理)傳感器、圖形圖像技術、人工智能技術、物聯網技術為代表的新一代表型獲取技術體系,正在為作物研究提供海量表型和環境數據源[25]。物理層指利用傳感器、表型平臺等數據獲取手段,獲取作物的圖像、點云、光譜等初始表型數據,重點關注數據的高通量獲??;具體又可分為傳感器、成像單元、表型平臺三方面。
1. 作物表型傳感器
作物表型常用的傳感器有可見光相機、深度相機、多光譜相機、高光譜相機、激光雷達[26]、熱紅外相機、葉綠素熒光傳感器等。目前,可見光相機是應用最為廣泛的傳感器,其次是多光譜相機、高光譜相機、激光雷達等[10]??梢姽庀鄼C滿足多數條件下的作物表型成像需求,具有分辨率高、采集快的特點,但在復雜田間條件下連續采集的穩定性仍待提升。近年來,激光雷達、深度相機、多光譜相機、熱紅外相機等傳感器的分辨率、精度和穩定性顯著提升,成本逐步降低,為作物表型提供了多種選擇方案,但整體而言分辨率和精度仍有較大提升空間。高光譜相機、葉綠素熒光傳感器成本較高且成像范圍有限,在表型研究中的使用率有待提升。
2. 作物表型成像單元
多源表型數據的時空同步獲取是表型信息采集的重要趨勢,有利于提升效率和精度。作物表型成像單元意在整合多傳感器以實現表型數據的時空同步采集,可分為多源成像單元、同源多個傳感器組成的成像單元。典型的多源成像單元如Altum三合一傳感器可以實現多光譜、熱成像、RGB信息的同步采集;PlantEye 可以實現點云、RGB、多光譜數據的同步獲取與實時解析;CropLidar 集成了激光雷達、多光譜、可見光傳感器,可以掛載于無人機或軌道式平臺實現多源數據同步采集。典型的同源成像單元是多目立體視覺系統,成像單元可以掛載于無人機、軌道式、車載式等平臺。高集成度、小型化、同步控制、數據實時融合解析是作物成像單元的難點問題。
3. 作物高通量表型平臺
作物高通量表型平臺系統整合了傳感器或成像單元,通過傳動裝置、系統控制、數據傳輸與計算等實現高通量、自動化的表型數據采集。近年來,室內植物表型平臺、大田植物表型平臺、便攜式表型采集設備、地面及航空機器人采集平臺等多層次表型獲取技術發展迅猛[7,27]。國內作物表型平臺建設及應用發展迅速,但主要依靠進口。中國農業科學院生物技術研究所、中國科學院遺傳與發育生物學研究所、北大荒墾豐種業股份有限公司、上海市農業科學院等分別購置并部署了LemnaTec 高通量表型平臺,實現最多680 盆作物植株的高通量數據采集。南京農業大學作物表型交叉研究中心構建了掛載多個PlantEye 傳感器的田間高通量表型平臺FieldScan、溫室傳送型高通量作物表型平臺PhenoConveyor。在自主研發方面,華中農業大學研制了國內第一套水稻表型自動檢測分析系統[28],陸續發展了室內流水線式作物單株表型平臺、水稻考種機等;南京農業大學自主設計并建造了田間作物表型艙、人工智能氣候艙;北京市農林科學院信息技術研究中心先后研發了溫室軌道式[29]、大田軌道式[23]、室內流水線式、便攜式[30]、無人機和果穗考種[31]等表型平臺。
作物表型傳感器、表型平臺獲取到表型數據后,需要將之傳輸到具有高性能計算能力的服務器進行數據解析。作物表型數據量龐大,數據傳輸受到距離、速度等諸多因素的限制。雖然在采集端基于邊緣計算[32]的作物表型實時解析是降低數據傳輸任務量的解決方案和未來趨勢,但尚未廣泛應用,也在一定程度上降低了高分辨率數據的應用質量。數據上云并在云端解析是表型數據處理的發展方向,故表型數據的傳輸仍是作物表型組大數據鏈條中的重要問題。目前,固定區域的表型平臺可通過網絡傳輸,但多無法達到實時水平。例如,在田間或溫室軌道式表型平臺附近構建控制室,通過有線或無線的方式進行數據傳輸[23];對于小型化的表型平臺,可構建局域網減少控制和數據傳輸所用線纜[33],提升平臺整體性能。對于非固定區域的表型平臺如無人機、便攜式平臺等,多采用人工拷貝的方式下載數據。5G 技術是未來表型平臺數據傳輸的理想解決方案,但需部署基站而增加表型平臺的建設成本。
數據層(又稱信息層)指由獲取的原始數據到含有語義信息、高度結構化表型性狀的過程,具體包括表型解析、數據計算、數據庫構建三部分。
1. 表型解析算法
在作物表型智能解析方面,將初始數據轉化為具有生物學意義的表型性狀至關重要。近年來,各類計算機視覺算法、機器學習和深度學習方法在表型數據解析中得到大規模應用,極大地推動了表型大數據的分類、解析與可視化。通過融合專家先驗知識,從各種結構化和非結構化的數據中實現了作物形態結構[34,35]、顏色紋理[36]、生理生化[37]、生育動態[38]等重要表型性狀的解析。由于圖像數據便于獲取、數據標注方便、面向圖像的深度學習框架較為豐富,基于圖像的作物表型解析算法應用進展良好[39],在實時性和穩定性方面達到較好的效果;而基于點云和光譜等數據的作物表型解析算法研究及應用相對滯后。
2. 數據計算
表型解析的計算效率決定了后續應用的實時性。目前,作物表型數據主要是在采集后通過實驗室中的高性能工作站進行計算解析。在采集端進行實時計算解析以圖像表型和測距為主,多在數據的精度上有所折衷;但這種實時計算在以栽培為應用場景的實時決策中非常重要,需逐步引入邊緣計算以提升數據計算的實時性。此外,由于獲取的初始表型數據體量較大,需在自動化、管道化的表型解析算法基礎上,由部署在云端的算力進行數據的云計算。
3. 表型數據庫構建
作物表型數據庫主要用于系統地整理結構化和半結構化的作物表型大數據[40]。研究者致力于開發表型數據管理系統[41]并建立包含多物種、多品種、多生境、多尺度的作物表型數據庫。受表型數據獲取手段、數據解析算法、作物種質資源等因素的限制,構建的作物表型數據庫多是圍繞單一物種的單一尺度表型組數據庫,如顯微尺度的玉米莖稈維管束表型數據庫[42]、用于分布式植物表型分析的開源信息管理系統——基于物聯網的表型數據分析平臺(CropSight)[43]等。
隨著高通量檢測技術的快速發展,作物生物學數據朝著多組學、多維度的層面快速積累。多組學信息的系統整合將進一步加速作物遺傳研究、改良作物的優異農藝性狀。2020年,華中農業大學成功整合了來自同一玉米群體的基因組、轉錄組、表型組、代謝組、表觀基因組、遺傳變異、遺傳定位結果等多組學數據,構建了玉米定制化多組學數據庫(ZEAMAP)[44];通過多維度生物組學數據的聯合分析,挖掘株型、產量等性狀相關的重要基因和遺傳變異,實現了玉米多組學數據“云端”集成、快速檢索、智能分析,為分子設計育種提供了理論基礎[45]。2022年,北京市農林科學院通過人工和前沿表型組學技術對全球超過1000份生菜種質資源進行表型數據獲取,結合超過1000種生菜品種的重測序數據,構建了綜合生菜數據庫(LettuceGDB)[46]。
知識層旨在從多源海量的作物表型組大數據中挖掘出能用于解決特定領域問題的知識,通過數據知識化實現數據增值[24],主要分為表型精準鑒定、多組學分析兩類。
1. 表型精準鑒定
表型信息的獲取是作物種質資源精準鑒定的重要環節。傳統人工檢測的問題日益突出,必須綜合考量準確性、通量、成本之間的平衡。隨著作物表型技術及裝備的發展完善,表型獲取通量、指標解析精度、效率等得到顯著提升,為種質資源的規?;?、批量化鑒定評價提供了硬件基礎和技術支撐。國內外科研單位、種業優勢企業研發了以“作物表型高通量獲取 - 智能解析 - 模型計算 - 大數據分析 -表型精準鑒定”為主線的技術體系,在高光效[47]、抗倒伏[48]、高水效[49]等綜合性狀表型精準鑒定中得到成熟應用。我國農作物資源豐富,但在種質資源精準鑒定方面與國外相比還有較大差距。隨著高通量表型技術的發展與完善,在完成主要作物基因組精細圖譜繪制、作物種質資源基因組重測序的基礎上,系統且精準地鑒定作物遺傳資源重要農藝性狀(如產量、品質、抗病、耐逆、養分高效等),深入挖掘重要農藝性狀優異等位變異并闡明其形成的分子機制,不僅可為我國作物育種取得新突破、保障農業可持續發展提供優異資源和重要基因,而且可為解析作物馴化與改良的分子機制提供理論依據。
2. 多組學分析
隨著高通量測序技術的發展與完善,單組學研究日趨成熟,而整合多組學數據研究植物生長發育的工作方興未艾。多組學研究在作物重要基因挖掘、全基因組關聯分析、基因表達調控網絡構建、作物全基因組選擇、系統生物學研究等方面發揮著日益重要的作用?;谪S富的多組學數據,差異表達基因識別、復雜表型的轉錄因子識別或代謝物富集等遺傳調控研究進展迅速,代表性工作有:利用顯微電子計算機斷層掃描(CT)表型技術結合全基因組關聯分析(GWAS),鑒定到調控維管束數目、維管束分布密度等性狀的特異候選基因[42];利用高通量表型平臺對玉米進行連續無損檢測,揭示玉米抗旱的遺傳基礎以及潛在抗旱位點[50];基于三維全自動高通量表型分析平臺,通過提取圖像性狀(i-traits)結合全基因組關聯研究(GWAS),解析玉米株高形成的動態遺傳基礎和調控網絡[51];結合表型數據和預測模型,揭示調控玉米節間發育的基因表達模式,發掘一批參與節間數和節間長度形成的候選基因,驗證關鍵候選基因ZmD1調控玉米節間發育的分子機制[52];基于二維圖像根系高通量表型平臺,發掘81個玉米根系構型候選基因,利用轉基因玉米明確其中兩個候選基因(ZmRSA3.1、ZmRSA3.2)的功能[53]。
2020 年,Nature Review Genetics期刊以“遺傳學和基因組學的未來之路”為題刊登述評,將“解碼多因素表型”列為未來重點方向之一。基因調控網絡(GRN)對多個基因表達的調控以及GRN 的變化如何引起特定細胞、組織、器官、植株的反應,將是解碼多因素表型的有效途徑。涵蓋微觀表型與宏觀表型多尺度的作物表型組大數據,將大規模發現基因、表型、環境之間,微觀表型與宏觀表型之間的跨尺度關聯及相互作用,精準解析表型與分子機制之間未發現的聯系,從而構建精準的“基因 - 表型 - 環境”調控網絡[45]。
1. 數字育種
多組學的智能設計育種是新一代育種核心技術。作物智能設計育種在作物基因組學、表型組學等大數據的基礎上,通過機器學習等智能算法構建目標作物品種的性狀預測模型,預測雜交種的各種農藝性狀表現,能夠優化品種選育技術路線、提高精準育種效率、快速實現育種目標[54,55]。孟山都公司在其創建的現代農業育種流程中,利用高通量表型精準鑒定并與基因組數據偶聯對植物進行改良,選育出許多優異種質材料,顯著提高了育種效率。目前,利用高通量表型實現作物育種的應用案例還較少。這是因為,一方面一線育種學家更傾向于圍繞具有直觀生物學意義的表型性狀(breeder-oriented)開展育種研究,另一方面利用圖像、點云、光譜數據解析得到的綜合表型(technology-oriented)所表征的性狀較為復雜,難以直接與育種目標性狀建立關聯,尚未在育種中廣泛應用[56]。
2. 智慧栽培
作物智慧栽培旨在建立覆蓋耕、種、管、收作物生產全程,人、機、物全生產要素互聯互通并可互操作的智能管控平臺,實現良田 - 良種 - 良法、信息 - 農藝 - 農機的有機融合,最終達到作物高產、優質、高效、生態、安全的生產目標[57]。作物智慧栽培對作物的感知即利用作物表型組大數據技術及裝備,對作物生產過程中的作物參量進行實時采集,進而為定量作物生產系統各要素的關系、優化生產技術規程及管理方案提供數據支撐。當前,利用無人機獲取田間作物長相長勢表型信息可指導田間作物病害的防控和管理,利用圖像深度學習方法可實現田間機器人的除草作業,但受表型獲取技術裝備時效性的限制,尚難以將農機與表型技術裝備高效整合。因此,整合農機與表型技術裝備、在田間打通“聯接 - 感知 - 認知 - 管控”通道、實現田間栽培管理的實時感知和決策,是未來作物表型組大數據技術及裝備開展智慧栽培應用的難點和方向。
3. 實用性分析
從應用角度出發,用戶主要關心作物表型大數據技術及裝備的數據獲取自動化水平、數據處理在線化水平、最終得到表型性狀的數據精度水平。然而,這些實用性指標受到諸多因素的影響(見圖2):① 目標作物本身的形態結構復雜性以及栽培 / 部署的一致性,對于表型獲取和解析具有根本性的影響;② 表型數據獲取環節的傳感器、成像單元和表型平臺決定了數據獲取的無人化水平;③ 數據傳輸、數據預處理和表型解析算法的智能化水平決定了表型數據處理的在線化水平。在表型數據“獲取 - 解析 - 應用”整個鏈條中,每個環節都對下一步有著重要影響,會形成誤差累積并逐級放大。因此,提升各環節的數據質量和算法精度,對于整體性提升作物表型組大數據技術及裝備的實用性至關重要。

圖2 作物表型組大數據技術及裝備實用性分析示意圖
作物表型組大數據技術及裝備仍處于快速發展過程之中,我國在作物表型高通量信息獲取與解析方面已有一定積累,但整體上處于跟蹤模仿階段,未能打破表型高通量獲取裝備主要被歐美國家所壟斷的局面;特別是多樣化表型配套設施和低成本表型傳感器及設備的自主研發、表型大數據實時與高效傳輸技術、表型多尺度數據融合與組學大數據挖掘理論方法等,亟待解決或突破。
我國在作物表型組大數據獲取方面整體處于“跟跑”“并跑”階段,主要表現在以下三方面。
1. 傳感器
高分辨率、高精度的傳感器和核心部件主要依靠進口,存在著價格昂貴、軟硬件升級改造受限、關鍵技術無法定制、表型數據安全隱患等問題。自主研發的傳感器光學成像方式單一,在穩定性、數據分辨率方面與國外先進產品仍有差距,尤其是在復雜田間條件下長時間連續獲取數據的傳感器存在嚴重的穩定性問題。
2. 成像單元
由于單項傳感器的研發水平相對滯后,受制于傳感器的集成尺寸、接口協議等因素,國內研發的成像單元與國外先進產品差距顯著,主要表現在質量及尺寸大、系統集成性不高、整體運行穩定性低等方面,尚未見到可以同步獲取點云、圖像、光譜數據,在傳感器層面高度集成的作物表型成像單元。為實現高質量多源數據的同步連續采集,只能進口如PlantEye等成像單元,但成本高、后續表型解析個性化程度低,難以滿足國內大量多源表型數據獲取的實際需求。
3. 高通量表型平臺
國外作物高通量表型平臺和基礎設施發展較早,具有系統集成度高、穩定性好等特點,我國作物高通量表型平臺和基礎設施整體仍以進口為主。進口產品購置、運營和維護成本高,平臺在使用過程中出現問題后反饋周期長,導致部分進口平臺尤其是中大型表型平臺“用不起來”,平臺考慮普適性而難以對特定作物給出高精度、定制化的表型獲取解決方案,硬件控制核心算法和設計“黑盒子化”也難以滿足后續表型數據處理與解析軟件對不同作物的表型獲取需求。近年來,國內高校及科研院所自主研發了多生境的作物高通量表型平臺,雖然在美觀程度、穩定性、自動化水平方面略遜于進口平臺,但因研發者與用戶溝通便捷、反饋周期短、可開展定制化表型解析和軟件開發等諸多優勢,形成了一批真正實用的表型平臺產品,如華中農業大學的軌道式表型平臺[28,50]、北京市農林科學院的軌道式表型平臺[23,58]和玉米果穗流水線考種系統[31]等。
近十年是作物表型組大數據技術裝備快速發展階段,國際表型組學研究與應用仍面臨諸多的問題和挑戰,主要表現在數據傳輸、表型解析算法軟件、表型信息的挖掘與應用等方面。可以認為,國內外在這些方面形成了“并跑”之勢。
1. 表型智能解析
當前,作物表型解析算法多針對主要性狀以少量數據進行測試,雖可以解析到目標性狀,但多需要人工交互,存在普適性差的問題,在處理作物表型組大數據過程中表現得尤為明顯。迫切需要開發無需人工交互、自動化、管道化的表型解析算法,適應作物表型組大數據批量化處理的需求。作物表型解析的研究重點是增加可觀測、可定量化、具有明確生物學含義的作物表型性狀數量,提高可定量化作物表型解析的精度和效率;針對不同作物的形態結構和生理生態功能,研發相關算法開展定制化的表型解析。當前作物表型解析的時效性不足,無法滿足諸如面向農機作業實時決策等智慧栽培的需求。通過多源數據融合提升表型解析精度[58]、通過表型模型融合增強解析過程的可解釋性、通過優化解析算法的魯棒性實現管道化處理,是表型解析未來發展的趨勢。
2. 表型大數據融合分析
當前,國內外作物表型組大數據技術及裝備仍處于研發階段,表型大數據分析、應用與服務能力不足。隨著多生境表型平臺的快速發展,多維度、多尺度、多源表型大數據正在大量累積;如果多尺度、多模態、多生境的表型大數據不進行有效整合,將很難充分發揮大數據的潛在價值。因此,面向表型大數據的融合分析、知識挖掘和應用服務是國內外需要解決的共性難題。
以包括人工智能在內的新一代信息技術為依托,通過表型數據的無人化獲取、在線化解析來實現作物表型組大數據的高通量及精準積累,是發展作物表型組大數據技術及裝備的主導技術路徑。建設作物表型組大數據技術及裝備方面的大科學工程,形成作物表型組大數據“獲取 - 解析 - 利用”技術體系,實現“基因 - 表型 - 環境”多維組大數據整合與分析利用,從而在數字育種、智慧栽培方向提出中國方案。相關目標可分為3 個實施階段:① 積極在傳感器、成像單元、表型平臺、基礎設施建設方面形成標志性產品,努力在多數據融合、表型解析關鍵技術方向取得重要突破,使部分技術與應用達到世界領先水平;② 作物表型組大數據技術及裝備的國產化率高于95%,形成數字育種、智慧栽培的代表性應用案例,使核心技術及裝備處于與國際“并跑”態勢;③ 建成作物表型組大數據技術及裝備的自主創新體系,整體性實現自主產品替代進口,形成面向數字育種、智慧栽培的商業化服務模式并構建作物表型服務新業態,整體上處于“領跑”態勢。針對上述目標,提出我國作物表型組大數據技術及裝備發展的具體建議。
(1)從底層芯片層面突破作物表型傳感器關鍵技術,解決基礎傳感器成本高、整合難、采購受限等“卡脖子”問題;研發能用、好用、用得起的表型技術及裝備產品,形成穩定性好、高度自主化、規模化的成像單元、表型平臺設備及相關基礎設施,實現可快速定制、面向不同作物、多生境、個性化的作物表型高通量獲取解決方案,帶動我國在新一代農業傳感器和表型平臺技術裝備創新從“跟跑”“并跑”轉向“領跑”。
(2)在可控開源的基礎上,融入小樣本學習、預訓練大模型、知識圖譜等人工智能技術,突破多源數據融合、系列作物多維表型性狀智能解析、時序表型解析等關鍵技術,形成自主化的表型解析技術體系;構建作物表型組大數據解析“大腦”,使高通量獲取的作物表型組大數據成為農學家切實可用的數據,促進數據和知識增值賦能。
(3)加強作物表型組大數據技術及裝備的標準體系建設,提升作物表型組大數據結構化水平,降低數據噪聲及獲取和使用成本,提高表型數據可用性;建設國家級和區域尺度的表型組大數據搜索引擎、新型基礎資源服務平臺,提升作物表型組大數據的整合程度和應用安全性。
(4)提出“基因 - 表型 - 環境”多維大數據驅動的數字育種和智慧栽培創新模式,實施組學大數據與表型精準鑒定設施的大科學工程;逐步形成智慧化、無人化、在線化的表型工廠服務模式,構建基于作物表型組大數據的數字育種和智慧栽培協同創新平臺。
(5)建設作物表型組大數據技術及裝備的人才隊伍和協作網絡,形成多學科交叉合作與協同創新機制,培育涵蓋技術裝備研發、表型軟硬件產品應用、設備設施運維管理、數據與知識挖掘、作物育種與栽培應用環節的人才鏈條,力爭在作物表型組大數據技術及裝備領域開創“人無我有、人有我強”的引領式發展格局。
利益沖突聲明
本文作者在此聲明彼此之間不存在任何利益沖突或財務沖突。
Received date:April 21, 2023;Revised date:June 12, 2023
Corresponding author:Zhao Chunjiang is a research fellow from the Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, and a member of the Chinese Academy of Engineering. His major research field is agricultural information technology and intelligent equipment. E-mail: zhaocj@nercita.org.cn
Funding project:National Key R&D Program of China (2022YFD200 2300); Chinese Academy of Engineering projects “Strategic Research on the Digital Development of Biological Breeding” (2021-JJZD-04),“Strategic Research on Smart Agriculture Development in Anhui Province” (2021-DFZ-17)