徐天成,吳 敏,賀冬仙,鄭志安,徐輝煌,包金青
(1.中國農業大學工學院,北京 100083; 2.中國農業大學水利與土木工程學院,北京 100083;3.北京盛陽谷科技有限公司,北京 100083)
我國作為世界上最大的農業國,截止到2020年已實現糧食產量連續17年增收,在保障自身糧食安全的前提下,農產品貿易額達2 400億美元以上。糧食產量持續增收、農業經濟穩定增長得益于不斷推進的農業現代化,主要體現在農機裝備自動化、智能化程度的不斷提高[1]。近年來,我國農業耕種收綜合機械化率穩步提升,糧棉油糖產業基本實現農業機械化,丘陵山區機械化率達55%,且仍在不斷提高,設施農業、畜牧養殖、水產養殖、農產品初加工總體機械化率達到50%左右[2]。2021年中央1號文件指出,必須強化現代科學技術在農業生產過程和農機裝備中的支撐作用,以農業機械智能化改變傳統農業發展方式是未來農業發展的必然趨勢[3]。農機裝備自動化和智能化是轉變農業發展方式、提高農業生產效率的重要基礎,是實施鄉村振興戰略的重要支撐。隨著城鎮化進程的加速,農業從業人員逐步實現由傳統農民向職業農民的轉變,走上集約化發展路徑,從業人員綜合素養的不斷提升,進一步促進了農機裝備自動化和智能化的發展[1]。農機裝備進入全程全面、高質高效發展時期,農機裝備智能化實現途徑包括感知、決策、控制和執行,其中智能感知系統設計是關鍵,機器視覺技術作為人工智能的重要分支,是實現智能感知的核心,是智慧農業發展的必然關鍵技術之一。
機器視覺起始于20世紀50年代二維圖像的統計模式識別,到80年代不斷涌現的新概念、新理論推動機器視覺蓬勃發展,再到現在前沿的人臉識別、無人駕駛技術,機器視覺的快速發展,已經在工業、農業、軍事和航天等諸多領域發揮著不可替代的作用。通過視覺傳感器——機器視覺的“眼睛”采集到目標對象包括像素點分布、灰度值和亮度等圖像信息,計算機將采集到的圖像信息轉變為數字信號,利用后續軟件算法——機器視覺的“大腦”挑選出所需要的特征信息,與預設標準比較做出判斷,發出后續動作指令。簡而言之,機器視覺系統就是利用機器來代替人眼和大腦進行思考和判斷。
機器視覺系統最基本的特點和最大的優勢是具有高度的生產靈活性、自動化程度和效率,目前廣泛應用于現代農業生產的各個環節。一個完整的機器視覺系統主要由圖像采集系統和圖像信息處理系統兩部分組成。
本文將圍繞機器視覺技術在農業工程領域的應用進展進行系統梳理和分析,比較其技術運用特點和適用性,應用在不同工程場景下的技術功能特征,綜述圖像采集和圖像處理兩大系統的有效性、經濟性及未來發展趨勢。
機器視覺獲取圖像信息的主要方式是依靠視覺傳感器,不同的視覺傳感器獲取到的圖像信息各有差異,根據捕捉到圖像的維數,主要分為兩類:包含形態學特征(顏色、形狀和紋理)的二維(2D)圖像傳感器和以獲取三維立體信息、空間坐標為主的三維(3D)圖像傳感器[4]。針對不同的農業生產環節、作業對象和工作環境選擇最合適的視覺傳感器,才能在達到目的效果的同時發揮傳感器的最大優勢。常用的圖像信息獲取傳感器包括單目視覺、立體雙面視覺、激光主動視覺、熱成像和光譜成像等。
單目視覺傳感器作為最早使用在機器視覺中的傳感器,主要應用于采摘機器人目標果實識別,它由一個單目攝像機構成,一般采用CCD(Charged Coupled Device)或CMOS(Complementary Metal Oxide Semiconductor)兩種類型的光學相機[5]。主要通過顏色和紋理特征來識別目標果實,在黑白相機被彩色相機取代后,有顏色的目標果實更容易被識別,如蘋果、柑橘、西紅柿等[4]。此外,基于單目視覺傳感器的測距、抓取、無人機避障和地圖構建等技術應用都趨于成熟[6-11]。
由于只有一個單目攝像頭,單目視覺系統構成相對簡單,經濟性較好,但單目相機只能獲取目標果實的二維圖像信息,不能獲取目標對象的三維空間坐標信息,成像效果也容易受到光照強度和相機拍攝角度等因素的影響。
立體雙目視覺傳感器是為了獲取場景的三維空間坐標和立體圖像信息,在單目視覺的基礎上增加一個相機,分置在同一垂直光軸上,兩個相機利用三角成像原理對同一場景采集不同角度的圖像信息[12]。雙目立體視覺系統能有效獲取到目標的空間位置信息,解決了單目視覺成像效果受光照變化影響問題,豐富的三維空間信息也使目標果實定位識別更加準確。雙目立體視覺提高識別定位成功率的同時,在成簇生長果實、強光下相互粘連目標果實,以及目標果實與枝葉近色系識別難題上發揮出巨大優勢,對簇生西紅柿的識別率可達87.9%,同樣在測距、導航、避障等領域的應用效果優于單目視覺系統[13-14]。
與單目視覺一樣,雙目視覺系統主要依靠顏色和紋理兩大特征來識別目標果實,具有效率高、精度合適、系統結構簡單和成本低等優點,但對傳感器標定精度要求較高,匹配成功率受到相機畸變系數、標定圖像數量、標定靶位置的影響[15]。
激光主動視覺主要由激光發生器和接收器兩部分構成。激光從發生器發出后對被測目標進行掃描,隨后計算機接收到其反射的光線形成圖像,再通過計算機算法對被測目標進行三維形貌構建,從而獲取了場景深度的相關信息[4]。激光主動視覺最大的特點在于可自身發出激光,不依賴于自然光源,立體成像和三維重構不受光線、背景干擾的影響,結合紅外光源和線性結構光源,實驗室環境下對果柄的識別率高達97.5%[16]。對解決非結構化作業環境下目標果實識別難題,精確定位目標果實空間位置和自身大小參數,以及測量采摘機器人末端執行器位置等方面具有巨大優勢。由于激光主動視覺在掃描目標果實的同時也會不可避免地引入背景元素,所以對于采摘機器人的目標果實識別還需要充分利用果實的其他相關形貌特征,如形狀、紋理等。此外,龐大的圖像信息掃描和測量參數對計算機后續處理能力提出更高要求,系統結構過于復雜也限制了激光主動視覺當前的廣泛應用。
熱成像也即紅外成像技術,是利用目標對象與背景物理結構、內部構造特性的不同,產生熱輻射存在較大差異來識別目標對象[17-19]。熱成像對溫度變化尤為敏感,在補充外界光源的條件下,為夜間作業提供了可能[20]。在農業生產中,熱成像方式解決了對被枝葉、樹干遮擋環境中的目標果實的識別難題,同時由于熱輻射所形成的熱像圖也不受顏色的影響,所以在葉片、目標果實同屬近色系的識別中也有較好的表現[21]。
熱成像技術還與其他圖像信息結合應用,研究發現,將可見光圖像與熱像圖融合,對融合后的圖像進行分割處理可以高質量識別出目標果實,其識別率高于單獨使用可見光圖像和熱像圖的識別方法。但由于熱成像波長較長,導致成像結果對比度低、非均勻性大、空間分辨率差[22]。此外,熱成像的溫度傳感器也極易受到外界環境溫度變化的干擾。
光譜成像是一種集光譜探測與成像技術于一體的精密光學傳感器,利用采集到的同一目標在不同窄光譜帶上所輻射的信息得到一系列不同光譜帶的圖像。光譜相機根據分辨率的不同分為多光譜相機和高光譜相機兩種,高光譜可以采集到的光譜波段遠遠高于多光譜相機采集到的光譜波段。隨著光譜成像技術的成熟與發展,多光譜相機作為感知環境的傳感器被越來越多的應用到果蔬采摘機器人上。
高光譜相機采集覆蓋范圍從可見光到近紅外,其豐富的光譜信息可以識別被枝葉、樹干遮擋的目標果實或者與背景、枝葉顏色相近的目標果實,如青柑橘、黃瓜等[23-24]。大量的光譜波段信息獲取會給后期圖像處理帶來巨大的挑戰,對計算機和算法要求較高,處理大量的信息也非常耗時,不適用于實時識別的場景中。
國內外學者對不同視覺傳感器的使用特點、適用范圍和應用場景進行了大量的研究,主要研究成果如表1所示。
圖像處理系統是整個機器視覺系統的核心,視覺傳感器采集到目標對象的圖像信息后經過“大腦”的提取、分析、判斷發出最終動作指令。圖像特征的提取是圖像處理過程中最關鍵的步驟,在復雜的背景中將需要的目標對象分割出來是首要問題。圖像分割是根據圖像中不同元素間的特征差異(如邊緣、顏色、紋理等),它是由圖像處理到圖像分析的關鍵步驟,將圖像分割成若干個特定具有相同特性的不同區域,不同區域間的像素信息存在明顯差異。不同特點的圖像分割技術被廣泛應用在圖像的前期處理中[35-36]。
基于圖像邊緣的圖像分割方法是最簡單、最早的圖像分割方法之一,主要通過邊緣檢測算子尋找圖像邊緣,這些邊緣顯示了圖像在灰度、色彩、紋理等方面不連續的位置,經過后續處理將邊緣閉合為完整的邊緣鏈完成分割[37-38]。邊緣檢測算子提取出待分割場景不同區域的邊界后,對分割邊界內的像素進行連通和標注。目前使用率較高的邊緣檢測算子有Ro-berts算子、Prewitt算子、Sobel算子和Canny算子,各算子原理及特點如表2所示。其中Canny算子被廣泛應用到各種場景中。
基于圖像邊緣的分割算法具有對待分割對象精準定位、計算速度快及算法簡單的優點。邊緣分割方法局限性主要在于對一些低質量的圖像處理時容易產生假邊緣和空白,產生的假邊緣很難被邊緣分割識別和分類;對圖像中的噪聲也較敏感;邊緣檢測在大多數情況下會忽略圖像中的高階部分,這些被忽略的部分依然存在有分析價值的圖像信息。
閾值分割算法是對圖像分割處理的最早研究,具有原理簡單且分割效果好的特點,根據待分割圖像的灰度值確定分割閾值,對于目標和背景相差較大也即圖像信息對比度高的圖像分割中優勢明顯,效果最好。通常根據確定的分割閾值的個數分為單閾值分割法和多閾值分割法,結合智能技術的傳統閾值分割方法可以得到更加優化的分割效果。閾值分割的核心在于最佳閾值的選取,主要解決分割閾值如何選擇問題的辦法分為兩類:確定閾值和自適應閾值[43]。前者常用有全局閾值、大律法(Otsu閾值法)和迭代式分割法,如表3所示。后者一般適用于待分割圖像中有較多雜質和灰度不均勻的情況。
灰度閾值分割算法技術已經成熟穩定,但仍存在分割復雜圖像時計算量大、耗時長等問題?,F有閾值分割算法受制于自身性能和適用范疇,目前尚未有普遍適用性的圖像閾值分割算法。充分考慮在確保分割結果清晰準確的前提下減少分割耗時與算法復雜程度,是未來閾值分割發展和進步的方向。
基于區域的圖像分割方法是通過一定的規則根據顏色、紋理和灰度差異,將待分割圖像中具有相似和相鄰特征進行劃分,劃分結果為若干個互不重疊、交叉的圖像區域。區域圖像分割方法結合像素的相似性及在圖像空間中的緊鄰性兩大特點,解決了其他分割方法導致圖像空間不連續的問題,并且對圖像中出現的噪聲干擾能夠進行有效的去除。
根據事先確定好的規則將一個像素點或部分區域,使周圍區域不斷聚合的過程稱為區域生長,通過生長準則判斷種子點與待生長點是否符合生長條件來擴大區域,直到生長停止。最終圖像分割結果受到種子點的選取、生長條件和停止生長條件的影響,種子點也需要人為選取,增加了計算的復雜度。區域分裂合并算法則是先將整幅待分割圖像分裂成若干個不同的區域,再把屬于前景的區域按照一定準則合并,實現目標前景與背景分割。區域生長與區域分割合并屬于互逆的兩個過程,實際應用中通常兩者結合使用,在進行復雜場景下分割時以獲得更好的分割效果。
2.4.1聚類分割
聚類方法的核心思想是將圖像信息中具有相似特征的數據以一個特定的中心點進行會聚,形成類簇,不同類簇之間存在明顯差異[46]。聚類分析方法適用于灰度圖像、彩色圖像及紋理圖像分割,k-均值聚類是最常見聚類分割方法。
k-均值聚類算法首先隨機從圖像中選取k個初始聚類中心,然后將圖像信息中每個數據分配到與之距離最近的聚類中心形成新的數據簇,再將該數據簇的平均值作為新的聚類中心迭代,直至聚類中心不再發生變化為止。k-均值聚類算法在分割彩色圖像時,具有分割精度高、適應性強的特點。但也同樣存在分割結果受到初始聚類中心的影響、易出現錯分割和過分割等缺陷。李寒等[47]提出了基于SOM-k-均值聚類算法的蕃茄果實識別與定位方法,通過聚類將重疊果實的輪廓分開,分別進行擬合,解決了番茄果實重疊粘連難以識別的難題,與傳統方法相比準確性更高、魯棒性更強。李玉功[48]提出一種基于改進K-means預分割和區域合并策略的彩色圖像分割方法,重點解決分割數目難以確定、存在過分割和錯分割、類簇數目k值難以確定,以及聚類結果過分依賴聚類中心的問題,改進后的分割算法得到優于傳統算法的分割結果。

表3 不同閾值分割特點與應用場景
2.4.2分水嶺算法
分水嶺算法是借助于形態學理論發展起來的一種圖像分割方法,圖像灰度值對應地形圖中的高度值。分水嶺分割是一種多閾值自適應分割算法,該算法對圖像中細微的灰度變化較為敏感,也因此能在邊緣分割時精準定位,并且分割后的區域具有封閉性和連通性。由于分水嶺分割方法十分敏感,圖像噪聲、相關紋理特征和外界干擾等因素會使得結果產生過分割現象。
趙夢琦[49]提出了利用SLIC分割算法預處理來抑制分水嶺算法中過分割現象,圖像冗余和噪聲得到了一定控制和消除。楊家紅等[50]將分水嶺算法與區域生長法結合,針對分水嶺算法在分割彩色圖像時出現的過分割問題做出改進,既能去除圖像噪聲又保證圖像邊緣信息,有效利用圖像自身特征信息。
2.4.3深度學習圖像分割法
隨著深度學習的快速發展,機器視覺領域也因此發生巨大變化,卷積神經網絡(Convolutional Neural Networks,CNN)作為一種特征提取方法被引入到圖像分割領域,與傳統特征提取方法相比具有適應外部條件變化的能力(如識別對象形狀、顏色、光照環境等),能提取到更加抽象的特征。深度學習的快速發展,使其在農業中的應用展現出巨大的優勢,目前已經在葡萄、藍莓、草莓、楊梅、蘋果、獼猴桃等水果識別中成功應用,其中經典深度學習圖像分割模型包括FCN、PSPNet、DeepLab、Mask R-CNN[36,51-53]。針對不同的深度學習方法,黃鵬等[36]采用3個深度學習數據集,對以上4種方法進行了比較分析:DeepLab在所有模型中準確性最高;而Mask R-CNN在數據集的優異性能表現在像素精度可達37.10%。不同圖像分割方法的技術特點如表4所示。
單目視覺和雙目視覺系統構成相對簡單,主要部件僅由相機構成,相機能夠獲得廣闊的視野,因此單目、雙目視覺被廣泛應用在測距、導航、避障和采摘等需要良好視野的場景下。激光主動視覺由于需要外來激光光源,導致系統設備構成較為復雜,但不受自然光照影響,作業條件要求少。熱成像主要利用對溫度輻射差異特性來識別目標對象,溫度變化大是熱成像應用的最大優勢,主要集中應用于養殖業中對活體動物體溫監測。采集光譜信息需要將被采集對象放入黑箱,導致光譜成像只能夠在實驗室或溫室環境中作業,不適于過于復雜的系統,也不適用于實地生產環境。
單目視覺、雙目視覺和激光主動視覺都只能獲取到目標對象的二維信息,形狀、大小、輪廓等,也就限制了其無法對目標對象內部信息進行采集,只能在空間位置、數量大小對目標對象進行作業。熱成像和光譜成像均可以透過目標對象表面,獲取到目標對象內部微觀信息,但熱成像只能測定溫度這個單一指標,因此多用于生產過程中的體溫監測和病蟲害預防。光譜成像在果蔬、農畜產品的無損檢測和品質分析上有著天然的優勢,在不破壞被檢測對象的同時得到可靠準確的檢測結果,根據構建好的數據模型還能完成品質分級,光譜技術在農產品后續深加工生產過程中有著十分廣闊的應用前景。另外,在研究香菇、菊花干燥過程中物料表面實時起皺和收縮特性時,需要監測整個干燥過程中的物料表面變化,在干燥箱內加裝紅外相機是最佳解決方案,實現在線實時監測[54-55]。

表4 不同圖像分割算法特點比較
(1)播種育苗階段。基于機器視覺實現農作物大粒種子精準播種,由于南瓜、大蒜、甘蔗種苗等大粒農作物種子,具有尺寸、質量大且形狀不規則等特點,不適用于一般的精量播種機[56-59]。此外,種苗生長過程中需要保持正確的生長方向,避免枝葉相互遮蔽、影響生長,因此播種機需要將作物種子按照一定的方向放置到土壤中,才能確保秧苗整齊,方便后續生產過程的機械化作業。
(2)作物生長階段?;跈C器視覺監測作物營養狀況和病蟲害防治,近地遙感監測系統能全程提供農作物生長信息,并根據掌握的作物長勢和營養狀態做出診斷,如對玉米不同生長階段的精準施肥、棉花氮素營養狀況監測、樹木病蟲害防治等[60-61]。
(3)采收階段?;跈C器視覺實現果蔬機械化采摘、無損檢測和自動分級,傳統農業生產方式采收后數量巨大的果蔬產品,需要人工進行篩選分級,不僅耗費大量時間和勞動力資源,由于人工篩選分級存在因人為主觀評價標準不同導致產品質量參差不齊的問題,結合機器視覺實現采摘、檢測、分級流水化生產過程將具有重要意義,現已在荔枝、紅棗、蘋果等果蔬上投入使用[62-63]。
對于導航、避障、采摘、分級等不涉及目標對象細節的使用場景,圖像處理算法在識別目標對象時,只需識別出輪廓就可以實現動作指令,可適當簡化分割算法,避免增加計算量、圖像處理耗時,提高即時性;在實現精準采摘、播種時,則需要優化圖像分割效果,達到精準度要求。其具體精度要求和及時性要求如表5所示。根據不同應用場景需求結合不同算法自身特點和優勢,選擇合適分割算法進行圖像處理。
機器視覺技術在農業工程中應用的挑戰仍然主要存在于圖像的采集和處理兩個方面,由于實際作業環境與設施農業溫室大棚存在較大差距,對農作物初期秧苗階段提出較高要求,反而增加了前期準備工作;現有視覺傳感器功能單一,無法做到集多功能于一身;圖像后期處理時需要在分割精度和處理時間兩者之中有所取舍;識別重疊目標和復雜背景的算法過于復雜。
計算機、視覺傳感器技術的飛速發展,促進了機器視覺在農業工程領域的廣泛應用,傳統農業生產中各個環節(如播種、施肥、采收等)都在逐步實現自動化、智能化,機械化作業將進一步解放生產力,提高生產效率,增加產品附加價值。此外,基于機器視覺的無損檢測和品質分級必將成為現代農業中重要的一環,機器視覺在農產品后續加工、運輸、包裝等環節也存在巨大的應用前景。圖像處理算法也隨著農業生產的高質量發展提出了更高的要求,面對復雜、龐大的圖像信息量,如何快速準確地提取出特征信息是后續算法優化的方向,閾值分割作為使用最多、應用最廣的圖像分割算法,結合去噪、腐蝕、膨脹等處理方法,努力達到在不改變分割效果的前提下提高算法的適用性。
本文綜述了機器視覺系統的圖像采集和圖像處理兩大核心構成,針對不同的軟、硬件技術特點和適用性分析比較了在不同生產環節、不同應用場景及不同工作要求的應用研究。闡明了機器視覺是未來農業智能化發展的技術支撐,提出了基于多光譜圖像的無損檢測和品質分析具有十分廣闊的研究前景。總結發現,圖像信息采集主要以獲取目標外部信息和內部深度信息兩類為主,后期圖像處理中,無論何種算法都應以提高分割效果實現目標對象獲取為前提。
未來機器視覺在農業工程中的應用研究還應從如下4方面持續加強。①視覺傳感器在完善所需特征信息采集的同時減少非必要信息的獲取以減少后續圖像處理的信息量。②在進一步優化分割結果的同時降低圖像處理分割算法復雜程度,減少計算機運算量,降低耗時。③提高算法和計算機反應速度,提高即時性,實現手眼協同。④在保證性能效果的前提下簡化視覺系統構成,以更好、更快地應用于生產實踐。