袁培森 李潤隆 任守綱 顧興健 徐煥良
(南京農業大學信息科學技術學院, 南京 210095)
表示學習是一種將研究對象的內在信息表示為稠密低維實值向量的方法[1],在學習使用特征的同時,也需要學習如何提取特征[2]。表示學習的研究對象主要是文本[3-4]、圖像[5-6]、視頻[7-8]等。應用于文本處理的表示學習模型主要有Word2vec[4]和神經網絡語言模型[9]。應用于圖像處理的表示學習模型有自動編碼器[10]、深度哈希[11]等。應用于視頻處理的表示學習模型包括卷積神經網絡[12]、堆疊自編碼器[13]等。
表示學習可以分為監督特征學習和無監督特征學習。監督特征學習主要包括監督字典學習[14]和神經網絡[15];無監督特征學習主要包括主成分分析[16]、自動編碼器[17]以及概率圖模型[18]。在處理海量高維的植物表型數據任務中,表示學習憑借其自動提取特征的能力,表現出高效性[1],獲得了研究者的關注。
植物表型是近年來植物學領域研究的熱點,其本質是植物基因圖譜的時序三維表達及其地域分異特征和代際演進規律[19]。1911年,丹麥遺傳學家WILHELM將生物體的表型定義為基因型和環境因素相互影響的結果,其中,基因型是表型得以表達的內因,而環境是各類形態特征得以顯現的外部條件[20]。隨著透射、波譜、顯微等檢測技術以及生物信息技術和計算機技術的快速發展,該定義范圍被擴展到了生物化學[21]和行為學[22]等領域。總體而言,植物表型不僅可以反映出植物的理化性質、形狀及內部結構[23],也可以體現基因在分子尺度上的特征,甚至可以反映出病理性質[24]。
傳統的植物表型研究使用人工測量和記錄的方式,這種方法采集到的樣本數據集小,并且僅能夠獲取器官[25]、輪廓[26]、高度[27]等外部表征,效率較低,難以對植物的多種性狀進行綜合分析和研究[28]。
近年來,隨著分子育種技術以及植物功能基因組相關研究的不斷深入,表型數據也擴展到行為特性以及體內和體表的理化和生化特征[29]。植物表型數據類型包括結構化、非結構化的圖像以及文本數據[19],并且具有數據量大[30]、數據多態性[31]以及數據時效性的特點。這對于植物表型的獲取以及處理分析技術提出了很高的要求,需要生命科學、計算機科學以及工程學等多學科知識的交叉融合[32]。
在傳統植物表型分析研究過程中,研究人員需要通過費時、費力的手工標注方式建立特征,再進行相關學習算法的部署,這表明傳統植物表型研究技術無法自動提取數據的特征信息。在這類處理大量復雜或者人為先驗理解有限的數據任務時,表示學習表現出其高效性[1]。
在植物表型研究中,表示學習已經在文本、圖像、三維點云等植物表型數據的分析研究中獲得了廣泛運用[33]。本文對表示學習的相關概念及其模型進行簡述分析,闡述植物表型概念[22,24]及其處理方法,重點對表示學習在植物表型應用中的優勢及問題[34]進行分析,最后對表示學習在植物表型中的應用趨勢進行總結與展望。
表示學習(Representation learning),又稱為學習表示,指的是通過學習產生對觀測樣本有效的表示,使得能夠在建立分類器或者其他預測器時提取更有用的信息[35]。表示學習的目標是通過學習把所需的研究對象的內在信息表示為稠密低維實值向量,解決輸入數據的底層特征和高層語義信息之間的不一致性和差異性的問題。設輸入樣本數據為X=(x1,x2,…,xn),通過表示學習能夠得到一個低維特征表達X′=(x′1,x′2,…,x′m),m?n。當該實體和關系處在知識庫中時,可以通過計算歐氏距離等方法來獲得任意2個對象之間的語義相似度[36]。
表示學習通過解決輸入數據中的底層特征與其高層語義信息間產生的差異性問題,為后續的機器學習模型構建提供良好基礎。表示學習主要有兩個優點。首先它能夠從大量復雜且人為先驗理解有限的數據中自動提取特征。其次,表示學習的向量維度較低,可以根據對象間的語義信息進行更加充分的提取,從而解決數據稀疏問題[37]。
表示學習與深度學習(Deep learning)具有密切的關系,如圖1所示。表示學習屬于深度學習算法中提取特征的一部分,通過自動學習獲得好的特征表示,從而提高深度學習模型的預測準確率。原始數據進行非線性特征轉換的次數被稱為深度。深度是表示學習模型的特點,表示學習模型通過具有深度的模型來提取各層特征,從而獲得好的表示[35]。

圖1 深度學習與表示學習關系Fig.1 Relationship of deep learning and representation learning
深度學習解決的關鍵問題是貢獻度分配問題,從而最終提升預測模型的準確率。如圖1,假如把一個表示學習系統看作是一個有向圖結構,則深度學習覆蓋從輸入節點(原始數據)到輸出節點(預測結果)所經過的最長過程。
表示學習可以分為監督特征學習和無監督特征學習兩種類型,如圖2所示。常用的監督特征學習模型主要包括監督字典學習(Supervised dictionary learning)[14]和有監督神經網絡(Supervised neural network)[15];常用的無監督特征學習模型主要包括主成分分析(Principal component analysis)[16]、自動編碼器(Autoencoders)[17]和概率圖模型(Probability graph model)[18]。

圖2 表示學習模型分類Fig.2 Classification of representation learning model
下面對圖2中的常用表示學習模型進行介紹,并且對其中一些模型在植物表型應用上的優缺點進行對比分析,結果如表1所示。

表1 常用表示學習模型對比Tab.1 Comparison of common representation learning models
1.2.1監督特征學習
1.2.1.1監督字典學習
字典學習是從輸入數據中學習一組代表元素的字典,其中每個數據都可以表示為代表元素的加權和[38]。監督字典學習指將分類信息添加到字典學習中,從而利用輸入數據和標簽的隱含結構來優化字典。
設數據集為X={X1,X2,…,Xc}∈Tp×n,其中c為類別的數量,T是樣本,p是每個樣本對應的維數,n是訓練的總樣本數。訓練字典為D={D1,D2,…,Dc}∈Tp×k,p是字典中原子數量,與樣本維度一致,k是字典中原子數量。初始化字典Di=Xi,Xi指屬于第i個分類的所有訓練數據,字典求解算法使用基于表示的稀疏分類算法[14],為
(1)
式中,xts∈Tp為測試數據集,X為用于訓練字典的數據集,α為用于計算分類殘差的稀疏編碼,分類殘差計算式為
(2)
δi函數用于根據分類來選擇合適的稀疏編碼,ri函數根據測試數據xts計算各個分類的殘差,測試數據所屬的分類即殘差最小的分類[38]。
字典學習在植物種類圖像識別方面得到了廣泛的應用,能夠通過基于紋理[46]或者直接處理原始圖像的方法[38]建立稀疏表示字典,從而完成植物器官圖像分類任務。其優點在于其非線性的結構能夠使得表達能力更強,有效對圖像、三維點云等數據進行降維表示,且計算速度快[14]。缺點是在分類數目較多的情況下算法效果不好。
1.2.1.2有監督神經網絡
有監督神經網絡是通過相互關聯的節點構成多層網絡的有監督學習算法的總稱[47]。有監督的神經網絡包括深度神經網絡[47]、循環神經網絡[48]、遞歸神經網絡[49]和卷積神經網絡[50]。多層神經網絡可以用來進行特征學習,因為它可以獲取隱藏層中的輸出特征。
圖3中的卷積神經網絡是一種經典的使用卷積計算并且擁有深度結構的前饋型有監督神經網絡。通常由卷積層(Convolution)、池化層(Pooling)、全連接層(Fully-connected)等部分組成[51]。卷積層用來分析上一部分特征中間的局部特征之間隱含的信息,而池化層則是分析并且結合具有相似意義的信息,從而可以在上層的特征圖中獲得有用的信息[50]。全連接層中,每層的每一個神經元都和上一層的所有神經元連接并且分析所有信息,將信息降到低維,再把信息傳輸給回歸器、分類器等來獲得最后結果。

圖3 卷積神經網絡經典模型[50]Fig.3 Classic model of convolutional neural network
目前,大量CNN的常用深度學習框架包括TensorFlow[50]、PyTorch[52]、Caffe[53]等,這些框架完成了深度學習的底層架構實現,為研究人員提供了方便進行調用的接口,獲得了廣泛的應用。研究人員通過對有監督神經網絡模型的結構和參數進行調整,使得其在植物種類識別[34,54]、病蟲害分析[55]、產量預測[56]、形態結構表型數據計算[57]等研究中都得到了廣泛應用。卷積神經網絡在處理海量高維植物表型數據任務時獲得了較高的準確度,但是其需要大規模的數據集進行訓練和測試[39]。
1.2.2無監督特征學習
1.2.2.1主成分分析
主成分分析主要用于降維,能夠將多個變量化為少數幾個互相無關的綜合變量[58]。主成分分析的步驟如下:數據預處理;判斷要選擇的主成分數目;選擇主成分;解釋結果;計算主成分得分。
主成分分析能降低植物表型數據的維數,是多維數據的一種有效表示方法,并且可以較好地表示植物表型的信息而不丟失重要特征,從而在雜草識別[40]、葉片分類[59]等表型數據分析任務中獲得較高的準確率。但是主成分分析有幾點局限:主成分分析依賴于原始數據的正交變換;只有在輸入數據向量是互相相關的情況下主成分分析才能很好地降維;并且其無法通過調參等方法對結果進行干預[41]。
1.2.2.2自動編碼器
自動編碼器是一種盡可能將輸入信號進行復現的無監督神經網絡。自動編碼器的目的是基于輸入的無標簽數據X=(x(1),x(2),…,x(n)),通過訓練從而獲得降維之后的特征表達H=(h(1),h(2),…,h(m))[10]。自動編碼器分為編碼器和解碼器,自動編碼器通過學習hw,b(x)≈x來嘗試逼近恒等函數,使得輸出結果接近于輸入x。
最經典的自動編碼器已發展了很多不同的種類,包括稀疏自編碼器[43]、棧式自編碼器[60]、降噪自編碼器[61]。
稀疏自編碼器中的稀疏指的是限制編碼后隱藏層的神經元個數[43],棧式自編碼器指由多層稀疏自動編碼器級聯從而完成特征提取的神經網絡,將前一層自動編碼器的輸出結果作為后一層自動編碼器的輸入結果,并且在逐層訓練結束后進行微調[60]。降噪自動編碼器是在原有的自動編碼器的基礎上要求自動編碼器具有通過學習恢復出原始信號的能力,其泛化能力較強。
降噪自動編碼器通過對輸入添加隨機噪聲,再通過編碼解碼來獲得健壯的結構,從而對原來數據加以恢復[61]。自動編碼器作為一種無監督的神經網絡,能夠憑借其對二維圖像特征較好的保留能力,對根[42]、種子[62]等測量困難的植物表型數據進行快速提取計算。但是其隱藏層的維度較難選擇,確定起來比較困難。
1.2.2.3概率圖模型
從概率的角度來看,表示學習可以解釋為獲取數據集中簡單潛在隨機變量的一種方法,概率圖提供了兩類可能的建模方式:有向圖和無向圖(圖4)。概率圖模型是綜合運用概率論和圖論來描述統計關系的應用模型[35]。有向圖模型主要包含貝葉斯網絡以及隱馬爾可夫模型,無向圖模型主要包括馬爾可夫隨機場以及條件隨機場[63]。

圖4 概率圖模型Fig.4 Probability graph model
圖4中的條件隨機場是給定隨機變量X條件下的隨機變量Y的概率分布無向圖[63]。條件隨機場對于觀測數據沒有獨立性要求,能夠對復雜的上下文關系進行特征的歸一化,對圖像的紋理特征進行有效提取[44]。條件隨機場在農業場景圖像上對植物種類進行了有效識別和區分[45],也能夠對植物圖像數據進行疾病檢測分析,獲得比有監督卷積神經網絡更高的準確度,達到了99.79%[44]。條件隨機場的缺點是復雜度高[45]。
表示學習可以計算在低維空間中實體之間的關系,從而高效解決數據表示的稀疏問題。表示學習可以發現文本之間的內在關系,發現文本之間的語義層級關系。文本的處理方法可以分成獨熱碼表示(One-hot representation)、連續表示或者詞嵌入。本部分對文本的兩種表示學習模型:神經網絡語言模型[9]和Word2vec模型[4]加以闡述。
1.3.1神經網絡語言模型
BENGIO等[9]在訓練語言模型的過程中提出了詞向量的基本模型:神經網絡語言模型(Neural network language model),提出了一個3層神經網絡模型,對語言模型和詞向量同時建模。神經網絡語言模型生成的詞向量能夠很好地根據特征距離計算詞的相似性[64],因此獲得了較好的實際運用,能夠對植物表型信息進行語義挖掘[65]。
1.3.2Word2vec
MIKOLOV等[4]提出了用于詞向量計算的模型Word2vec,該模型能夠將每個詞映射到一個向量。Word2vec通過CBoW(Continuous bag-of-words)或Skip-Gram模型來建立神經詞嵌入。二者的共同點在于對每個單詞都設定一個輸入向量和一個輸出向量,CBoW在給定上下文的情況下預測當前詞,Skip-Gram模型在給定當前詞的情況下預測上下文。Word2vec可以在百萬數量級的詞典和上億的數據集上進行高效訓練。同時,該工具得到的詞向量可以很好地度量詞與詞之間的相似性,能夠通過對大量水稻文獻的訓練來獲取水稻文本中語義距離最近的短語[66]。
圖像處理的關鍵是對于圖像的表示,它是進行計算機視覺的目標識別和分類歸納的重要技術[67],通過特征的學習和提取將特征提取為高層特征,除了傳統的Gist等特征,近年來也產生了很多基于哈希算法以及深度學習的表示方法。
1.4.1Gist特征
Gist特征是一種場景特征描述,該特征通過模擬人的視覺器官獲取圖像中的關鍵上下文信息[68]。圖像的Gist特征由多尺度多方向的Gabor濾波器組對圖像進行濾波處理之后獲得。
一幅尺寸為r×c的灰度圖像f(x,y)用尺度為m和方向為n的Gabor濾波器組進行濾波,即先同nc個通道的濾波器進行卷積,其中nc=mn,再進行級聯卷積得出圖像的Gist特征。
Gist特征可以較好地提取單一場景的特征,從而基于Gist紋理特征對植物葉片進行種類識別[69],但是對于包含多個場景的圖像,這種特征的區分性能大幅降低。
1.4.2尺度不變特征變換特征
尺度不變特征變換特征(Scale invariant feature transform,SIFT)在1999年由LOWE[70]提出,具有尺度不變性,可在圖像中檢測出關鍵點,是一種局部特征描述子。
SIFT特征主要具有以下優勢[71]:圖像的局部特征不受旋轉、縮放、亮度等變化影響,同時對于視角及仿射變化、噪聲的處理也較為穩定;能夠對大量特征的數據集完成快速準確的匹配;多量性,即使樣本數很少也能夠產生大量的SIFT特征。因此,利用SIFT特征提取能夠完成自然光下的植物分類任務[72]。
1.4.3基于哈希算法的圖像處理技術
哈希指把任意長度的輸入通過散列算法來轉換成固定長度的輸出,即獲得散列值。哈希方法主要分為兩大類:以局部敏感哈希為代表的傳統哈希,以及學習型哈希[11]。
傳統哈希算法的代表為局部敏感哈希(Locality sensitive hashing,LSH),其基本思想是使用一組哈希函數把數據散列到多個桶中,使得相近的數據落在同一個哈希桶,越相似的數據分配到同一個桶中的概率越大[73]。局部敏感哈希提供了一種在海量高維數據集中高效查找數據點近似最相鄰的方法,從而可以加快大量數據查找的匹配速度。文獻[74]采用4 100幅不同花型的菊花圖像作為數據集,提出使用多探測局部位置敏感哈希技術對菊花圖像數據的哈希數據結構進行構建,在菊花相似性查詢方面提高了計算效率。
學習型哈??梢越柚疃壬窠浘W絡的優勢,同時學習圖像表示和哈希編碼,更好地表達圖像特征信息,取得比傳統哈希算法更好的結果。LI等[75]提出了深度離散監督哈希,是早期將深層神經網絡與哈希編碼融合的工作之一,它使用兩個階段來學習圖像特征表示和哈希編碼。XIA等[76]提出了基于深度的哈希檢索方法,能夠獲得具備哈希表征的良好的圖像表示。YUAN等[77]提出了一種基于端到端的低維二值嵌入框架的方法,該方法通過深層卷積神經網絡學習緊湊的二進制編碼(Compact binary codes),提高了高通量菊花花卉圖像表型相似性評估的性能和有效性。
1.4.4卷積神經網絡
根據圖像表示的提取流程來進行分類,卷積神經網絡特征提取方法可以分為3類:局部表示聚合[78]、深度卷積特征聚合和多層融合[79]。
局部表示聚合從圖像當中提取局部區域信息,輸入前饋網絡生成部分圖像區域的表示。隨后使用特定聚合方法來聚合圖像數據,形成最后結果,效率相對較高[78]。深度卷積特征聚合將多幅圖像局部區域輸入到前饋網絡來生成局部特征,只進行一次前饋,就可以生成深度卷積特征,并且可以處理任意大小的圖像輸入。多層融合根據層次性特征進行設計,從而使深度神經網絡中不同層面的信息相互補充,獲得特征不變性和更好判別能力[79]。
卷積神經網絡憑借其優勢,完成了植物表型圖像數據的識別以及分類任務[34,54]。文獻[80]采用6 000幅菊花圖像作為數據集,基于端到端的卷積神經網絡技術進行特征學習,實現了菊花種類的準確識別,平均識別率達到0.95。
植物表型數據處理主要包括數據的獲取解析以及管理應用。
2.1.1植物表型數據獲取與解析
目前,生物傳感器、圖像處理、物聯網及人工智能等技術的飛速發展為新一代表型數據快速獲取和處理提供了海量數據集和處理手段[28]。目前,植物表型數據研究者通過構建表型相關基礎設施、研發低成本表型獲取裝置的方式來提高表型數據的通量及分辨率。
植物表型數據獲取是指對植物形態特征進行描述的過程,經典的表型數據獲取方式通過手工觀察和測量,但是這一方式效率低且錯誤率高。李少昆等[25]使用相機及掃描儀采集作物株型數據,使用人工標記的各器官表型數據來擬合出曲線,同時基于圖像處理技術的工作特點,獲得了玉米等作物的株高、葉寬等30種表型數據的信息。方偉等[26]對圖像數據采集系統得到的植株圖像數據進行預處理獲得植株輪廓信息,隨后標定相機進行特征識別,使用多幅二維圖像進行融合獲取植株的三維模型。
近年來,研究人員開發了能夠自動進行植物表型數據獲取的系統。CONSTANTINO等[27]開發了能夠對水稻株高以及分蘗數進行自動測量的系統,首先通過HSV顏色以及空間閾值進行預處理,接著使用Canny邊緣檢測以及Zhang-Suen細化算法來計算高度,最后通過計算ROI區域的像素簇來統計分蘗數。PAPROKI等[81]使用一種新型混合網格分割算法來解決圖像分割任務中的植株形態差異以及葉柄被葉片遮擋等問題,基于主莖、葉柄等表型數據計算了主莖高度、葉寬等參數。
2.1.2植物表型數據管理與應用
植物表型數據除了結構化的數值型或字符串型的數據,還包括了大量的圖像數據。常見的關系數據庫能夠實現結構化的數據存儲檢索等功能,但由于近年來點云、光譜等表型數據的發展,海量的表型數據對于存儲的數據結構和存儲方式提出了新要求。在存儲這些數據時,非結構化植物表型數據管理系統取代了傳統二維表結構的存儲方式[19]。常用的非結構化植物表型數據管理系統有基于關系數據庫系統擴展的非結構化數據管理系統CropSight[82]、基于NoSQL的非結構化數據管理系統SensorDB[39]等。植物表型數據的應用場景包括植物識別、產量預測、病蟲害檢測以及植物改良育種等。研究人員利用圖像數據的灰度[40]、顏色、紋理[41]等特征完成了分類、分割以及識別等任務。
2.2.1植物種類識別
植物種類識別研究對于生態監測任務至關重要,可以有效地檢測生物生長情況,保護生物多樣性。分析一個地區的生物種類分布情況,對于瀕危物種的種群規模進行定期監測,并且分析研究生態環境的變化對于物種分布的影響,這對植物識別的準確性提出了很高的要求。植物種類識別研究不僅是植物學以及生態學的研究重點,而且對于農業生產有指導作用[83]。表示學習運用卷積神經網絡[54]、概率神經網絡[84]、稀疏表示字典[38]等模型完成了多達上萬種的植物圖像分類與識別任務(表2),在測試數據庫和公開植物數據庫中都獲得了較高的準確率。但由于這一類細粒度圖像任務處理時間較長,仍然需要在實時性方面加以改進,以構建適用于多種實際農業環境且具有魯棒性的植物分類系統。
2.2.2病蟲害檢測分析
植物病蟲害自動識別技術可以及時發現作物病害,幫助經驗不足的研究人員以及農民完成植物病害的識別和檢驗。但是自動識別技術面臨的主要困難如下:首先,圖像背景復雜,圖像可能受到其他物體的干擾,比如秸稈、昆蟲等。其次,患病部位和健康部位的特征區分不夠明顯,難以獲取顯著性差異的特征[91]。同時,同一疾病在不同的階段也具有不同的特征,對于特征獲取技術提出了更高的要求。

表2 植物識別系統Tab.2 Plant recognition systems
近年來,基于表示學習的方法已在植物病理學中得到了廣泛使用。
MOHANTY等[55]采用PlantVillage數據庫中14個作物品種以及26種病蟲害圖像數據作為訓練集,使用經典網絡模型AlexNet和GoogleNet[92]對植物葉片圖像進行“作物-病蟲害”類別的分析。BRAHIMI等[93]同樣使用AlexNet和GoogleNet[92], 實現了對包含9種疾病的番茄葉片圖像數據集的分類。
除此之外,AMARA等[94]使用LeNet[92]模型在真實的田地等較為復雜條件(如復雜照明、雜亂背景、不同圖像采集器、大小和方位等)下,實現了對于葉斑病、條紋病的兩種香蕉病害以及健康狀態的分類任務。
與經典的機器學習方法相比,采用表示學習方法來識別植物病蟲害可以大幅度提升結果的準確率,TOO等[95]采用PlantVillage中的14種植物和38類病蟲害作為數據集,使用VGG-16[96]、Inception V4[96]、DenseNets-121和ResNet-50[97]等多種經典網絡進行了小幅度的微調和測試。實驗結果顯示,隨著迭代輪數的不斷提高,DenseNets的精度也較高,達到了99.75%,并且沒有發生過擬合的狀況。LI等[98]采集了包含3種水稻病蟲害的5 320幅圖像以及5段視頻作為數據集,使用Fast-RCNN作為框架,使用圖像來對相對模糊的視頻進行訓練,從而使得訓練得到的模型能夠準確檢測視頻中的病蟲害類別。
除了直接使用經典網絡模型,研究人員也改進了經典網絡或嘗試構建淺層網絡來處理這類任務。LIU等[99]使用包含蘋果病葉的13 689幅圖像作為數據集,使用了微調的AlexNet和GoogleNet網絡模型進行訓練,該模型前端由AlexNet的前5個卷積層改造而成,卷積核較小,解決了病斑面積相對較小的問題。相比經典的AlexNet,該網絡參數較少,收斂速度很快,準確率較高。在對感病葉片圖像分類取得較好效果的基礎上,還有一些研究解決了病斑定位和感染程度判斷的問題。FUENTES等[100]使用韓國農場番茄植物中幾種病蟲害的圖像作為數據集,提出了一種用于識別番茄病蟲害種類和定位感染部位的系統,將VGG[96]和ResNet[97]相結合,解決了圖像環境復雜導致的圖像特征提取困難問題,可以解決復雜的任務,例如判斷感染的狀態以及定位感染的位置。
WANG等[5]采用蘋果黑腹病不同感染程度的圖像作為數據集,提出了使用VGG-16[96]來針對蘋果黑腹病感染程度進行分類的模型。RAMCHARAN等[101]使用薯葉片表面病蟲害癥狀圖像和視頻作為數據集,訓練MobileNet-SSD物體檢測模型用于識別木薯葉片表面病蟲害癥狀。PICON等[102]采用3種歐洲地方性小麥疾病的圖像作為訓練集,使用深度殘差網絡ResNet-50[97]實現了自然條件下的多種病蟲害的自動識別。
研究人員對于VGG-16[96]、ResNet-50[97]、AlexNet和GoogleNet[92]等多種神經網絡進行微調以及改進,數據集也從公開的病蟲害數據集擴展到了真實場景和復雜條件下采集的多種分辨率植物圖像[100],完成的任務也不僅包括病蟲害圖像分類與檢測等,也包含了感染程度判斷及感染部位定位等更加困難的任務,但是植物病蟲害方面的公開數據集較少,深度學習模型仍然需要更大規模的相關數據集進行訓練。
2.2.3產量預測
產量預測對于育種者十分重要,對于作物產量和品質的準確預測和分析能夠增進對作物的研究和認識,表示學習不僅能夠應用于番茄[103]、小麥[104]、玉米[105]、大豆[106]、水果[107]的產量預測(表3),而且能夠根據遙感圖像進行數據分析,從而對全縣乃至全州[106]的作物產量進行預測。

表3 產量預測方法Tab.3 Yield prediction methods
綜上,研究者使用堆疊沙漏網絡以及表面特征直方圖等模型來提取圖像特征,使用Faster-RCNN等網絡模型對作物的產量預測方法進行研究,通過對比不同的訓練集以及測試集來調整模型以及進行準確度的測試,在單植株圖像層面上完成了小麥穗和小穗的定位和計數任務,在多植株層面上完成了對于縣級乃至國家級的玉米以及大豆產量的預測任務。但是由于公開數據集的缺乏,對于水稻等的重要糧食作物產量預測研究較少。
2.2.4基因研究
表示學習,包括深度學習模型等技術已經被廣泛應用到了生物醫學領域,而對植物基因的認識是農業研究的重要組成部分,基因研究的突破有利于增強植物的抗病性,提高植物產量。安高樂[112]采用GENCODE以及LNCipedia中的lncRNA以及編碼蛋白的轉錄本為數據集,使用雙向動態循環神經網絡模型完成了lncRNA的識別任務,研究者將一維的堿基序列轉化為二維的向量來作為雙向動態循環神經網絡的輸入,在測試集中獲得了98%的正確率。
MONTESINOS-LóPEZ等[113]分析了多特征深度學習模型(Multi-trait deep learning)在提高預測基因組選擇的作用。結果顯示,與貝葉斯多特征和多環境模型相比,MTDL模型對于在預測基因組需要較少的計算資源,并且能夠同時預測基因組的多個響應變量。卷積神經網絡能夠有效地表示基因序列的內部原理以及特征,并且這種表示學習模型可以應用到真實的植物基因序列[114]。但表示學習和植物基因的交叉研究剛開始,還需要基因組學領域的相關突破。
2.2.5形態結構表型數據計算
植物的形態結構表型數據的獲取計算是植物表型研究的重要部分,隨著表示學習的研究深入,研究者從植物的組織、器官、植株以及群體等不同尺度,利用表示學習完成形態結構參數測量、二維圖像特征獲取以及三維模型構建等任務,減少了人工測量形態結構表型數據的工作量。
MALAMBO等[57]采集了由無人機獲取的288株玉米以及460株高粱的三維點云數據,使用運動中恢復結構算法來獲取田地間作物的精確高度。吳文華[115]選取了3種油菜品種在苗期和抽薹期的葉片圖像作為數據集,使用基于點分布模型的主動形狀模型算法對破損的油菜花葉片進行復原以及葉片面積計算,在破損面積占總面積的1%~10%之間時,算法求得的油菜葉片重疊度為0.923。
俞雙恩等[116]采用Logistic方程和DMOR模型,對于不同灌排模式和施氮水平下水稻株高和莖蘗的動態變化過程進行模型定量分析,獲得的模擬值和實測值標準化均方根誤差均小于10%,驗證該模型能夠分析不同環境下的水稻株高和莖蘗的植物表型數據。
黃成龍等[117]首先使用直通濾波、超體聚類以及條件歐氏距離算法對40株棉花幼苗點云數據進行葉片的識別分割,隨后通過對分割后的葉片點云完成了三角面片化、隨機采樣一致性和Lab顏色分割的一系列處理,獲取的葉片面積和周長的平均絕對誤差為2.59%和2.85%,準確快速地獲取了葉片面積周長、黃葉占比等參數。
王琦[118]使用高光譜成像獲得的732幅秋葵植株圖像作為數據集,采用基于策略搜索的注意力機制的級聯式實例分割算法完成秋葵植株的快速分割,隨后根據植株干質量與分割像素數的散點圖,得到像素數和干質量的相關系數達到0.774,從而表明利用語義分割技術可以實現秋葵冠層面積數據的快速估測。
張慧春等[119]使用運動中恢復結構算法將光學相機采集的二維圖像轉化為三維點云數據,設計了一種基于彩色標版坐標系標準化方法來提取點云特征,生成用于測量植物形態結構的標準化坐標系,對葉片寬度、長度、主莖長度等數據進行了計算,相比人工測量效率高且速度快。
BAWEJA等[120]提出了StalkNet模型,該模型使用Faster R-CNN進行植物秸稈計數。StalkNet將物體檢測結果輸入到全連接網絡,輸出結果為植物秸稈的像素寬度,隨后通過立體視覺匹配算法能夠將像素寬度轉換成植物秸稈的實際莖寬,莖數和寬度計算方法如圖5所示。使用OpenCV將三維圖像經過輸入訓練從而生成視差圖。該模型能夠準確將采集檢測到的對象區域以及密集語義進行分割,該方法比人工測量速度快30倍。

圖5 莖數和寬度計算方法Fig.5 Calculation method of stem number and width
除了對數據集中的植物表型數據進行特征提取,YASRAB等[121]使用改進的編碼器-解碼器神經網絡模型,在3 630幅小麥幼苗圖像、277幅擬南芥圖像、120幅油菜圖像數據集上分別計算了根的長度、彎曲度等參數,獲得了高準確度。
表示學習相關模型為植物表型數據分析提供了框架,使用要素組合來提取高層特征,從而基于二維圖像、三維點云等數據通過主動形狀模型算法對破損植株進行復原和修補,完成葉長葉寬、面積周長、傾角、卷曲度等形態表型數據的計算,減少了測量表型數據的工作量。但同時由于單種植物的表型數據量較少,形態結構表型數據計算的準確率仍有提高的空間。
表示學習技術在植物表型研究領域得到了成功應用,從底層特征的提取到特征的訓練和輸出,以深度神經網絡、稀疏表示字典為代表的表示學習模型相比傳統植物表型研究方法擁有更優的性能,能夠完成植株分割、分類、計數等表型數據的分析任務。表示學習在植物表型應用中的發展方向為:
(1)開發能夠適用于分析不同種植物表型數據的表示學習模型,實現高整合度、高通用性的目標。近年來,分析植物表型數據的表示學習模型要求訓練集和測試集均來自于同一特征空間,而大部分的表型分析系統只能針對某種植物的某一表型性狀進行分析和研究,測試不同種植物表型數據時都需要重新訓練模型,對于數據集的要求很高。開發分析不同種植物表型數據的表示學習模型可以更好地滿足快速和高通量的研究需求,從而增強表示學習模型在植物研究領域中的應用。
(2)提高表示學習模型的實時性及準確度,以增強其實用性。表示學習模型的特征提取和訓練流程需要較長的時間,在實時性方面難以滿足實際農業環境下的運用需求。此外,研究者使用的測試集和訓練集大多來自公開數據集,其實用性需要在實際環境中進行驗證。
(3)表示學習在植物表型中的研究和應用需要跨學科的團隊共同合作,多模態的表示學習將對多源表型數據構建統一的數據表示,為學科的交叉數據分析研究提供統一的數據視圖。