馬兆敏 ,郭家祥
(廣西科技大學(xué)自動(dòng)化學(xué)院,廣西 柳州 545000)
果實(shí)的機(jī)器視覺(jué)定位技術(shù)在果實(shí)的自動(dòng)化采摘中有重要的價(jià)值和意義。果實(shí)采摘在生產(chǎn)種植中占用了40%~50%的勞動(dòng)力且尚未實(shí)現(xiàn)自動(dòng)采摘商業(yè)應(yīng)用[1],而我國(guó)農(nóng)業(yè)卻面臨著人口老齡化和勞動(dòng)生產(chǎn)率低的雙重壓力。大量的實(shí)踐證明,果實(shí)的機(jī)器視覺(jué)定位技術(shù)可以快速、準(zhǔn)確地識(shí)別果實(shí)的位置和大小,從而提高果實(shí)采摘的效率和準(zhǔn)確性,減少人工成本,降低勞動(dòng)強(qiáng)度。特別是對(duì)一些需要高空采摘作業(yè)的果實(shí),可以顯著地保障生產(chǎn)安全。
目前,縱觀我國(guó)果實(shí)視覺(jué)定位的研究現(xiàn)狀,對(duì)番茄[2]、柑橘[3]等經(jīng)濟(jì)價(jià)值較高的果實(shí)的研究較多。果實(shí)定位的難點(diǎn)問(wèn)題主要是重疊[4]、晃動(dòng)[5-6]、綠熟、易損壞[7]、實(shí)時(shí)性[8]、外界光照環(huán)境的影響等,果實(shí)的形態(tài)十分復(fù)雜,不但形狀各異、大小不同,甚至有的需要對(duì)一整串進(jìn)行定位;單目、雙目、深度相機(jī)[9]都是目前主要的定位手段,且深度學(xué)習(xí)也開(kāi)始被運(yùn)用到果實(shí)的檢測(cè)和深度估計(jì)等方面。基于此,本文綜述了果實(shí)三維定位問(wèn)題在目標(biāo)檢測(cè)、相機(jī)標(biāo)定、定位方法等方面的研究現(xiàn)狀。
果實(shí)目標(biāo)檢測(cè)方面的研究,早期主要是根據(jù)果實(shí)顏色與周?chē)h(huán)境有顯著差異的特點(diǎn),通過(guò)基于顏色特征的圖像分割算法分離果實(shí)與周?chē)h(huán)境。為了更加準(zhǔn)確地分割圖像,主要有“限定像素值范圍”和“顏色分量組合”這兩種常用的方法。
限定像素值范圍是一種簡(jiǎn)單而有效的方法。果實(shí)圖像像素在不同顏色空間有不同的分布,將圖像轉(zhuǎn)換到其他顏色空間分割可能會(huì)取得更理想的效果。通常會(huì)將圖像轉(zhuǎn)換到如RGB、HSV[10]、HSI、Lab、YUV[11]、YIQ、LCD 等顏色空間,通過(guò)限定不同顏色通道的閾值范圍,將果實(shí)從背景中分割出來(lái)或采用如K-means等不同的分割算法進(jìn)行分割[12]。
顏色分量組合分割在果實(shí)檢測(cè)中有廣泛的應(yīng)用,通過(guò)對(duì)顏色空間的顏色分量進(jìn)行組合運(yùn)算,增強(qiáng)果實(shí)與背景的顏色差異,凸顯出果實(shí),從而有利于果實(shí)的分割。雖然組合顏色特征通常能夠取得較好的圖像分割效果,但果實(shí)定位農(nóng)田工作環(huán)境的復(fù)雜性,使得如何構(gòu)建有效的顏色特征組合成為一個(gè)重要且困難的問(wèn)題。
對(duì)于存在遮擋和重疊的果實(shí),使用顏色特征分割確定果實(shí)質(zhì)心往往效果欠佳,通常使用如凹凸等形狀特征進(jìn)行檢測(cè)[13-14]。且由于某些果實(shí)易破損,不能直接抓取,需要定位果梗等位置,因此需要使用其他特征進(jìn)行目標(biāo)檢測(cè)[15]。因此在隨后的研究中,對(duì)果實(shí)分割后的輪廓進(jìn)行圓擬合,確定果實(shí)在圖像中的區(qū)域。通常會(huì)使用Hough、RANSAC、最小二乘法[16]等算法對(duì)圓進(jìn)行擬合。同時(shí),對(duì)于綠果或其他顏色與環(huán)境差異較小的果實(shí),往往通過(guò)曲率[17]、紋理等特征綜合起來(lái)識(shí)別果實(shí)。
若僅依靠深度圖像完成識(shí)別和定位,由于沒(méi)有使用到彩色圖像的信息,受顏色特征影響較小[18]。因此可以有效地解決果實(shí)與背景顏色差異不顯著、外界陰暗或強(qiáng)曝光等問(wèn)題。所以有的研究對(duì)整個(gè)圖像進(jìn)行三維重建,獲得整個(gè)拍攝區(qū)域的三維坐標(biāo),再?gòu)娜S場(chǎng)景中識(shí)別出果實(shí)[19]。或是通過(guò)對(duì)深度圖像進(jìn)行閾值分割,提取出果實(shí)區(qū)域求質(zhì)心定位[20]。同時(shí),點(diǎn)云數(shù)據(jù)可以很好地表示三維信息,因此常被用于果實(shí)等農(nóng)產(chǎn)品的識(shí)別與定位[21]。
近年來(lái),隨著深度學(xué)習(xí)的迅猛發(fā)展,以YOLO[22-23]、RCNN、SSD 為代表的目標(biāo)檢測(cè)模型和以Mask-RCNN[24]、U-Net 為代表的語(yǔ)義分割與實(shí)例分割模型等深度學(xué)習(xí)模型逐漸被用于果實(shí)的目標(biāo)檢測(cè)。研究了不同光照下深度學(xué)習(xí)模型的性能[25]。模型只是在COCO、PASCAL VOC、ImageNet 等大規(guī)模數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,使用時(shí)由于檢測(cè)對(duì)象的特殊性,需要建立相應(yīng)的較小的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)。有許多研究者對(duì)深度學(xué)習(xí)模型進(jìn)行了改進(jìn),或針對(duì)特定的研究對(duì)象建立了相應(yīng)的數(shù)據(jù)集用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)[26],如小目標(biāo)難檢測(cè)的龍眼[27]。但深度學(xué)習(xí)模型往往較為巨大,對(duì)硬件設(shè)備的算力有較高要求,部署成本高昂,因此在確保檢測(cè)精度的同時(shí)對(duì)模型進(jìn)行輕量化改進(jìn)也是一個(gè)重要研究方向[28]。
由于相機(jī)鏡頭多為球面,拍攝出來(lái)的圖片普遍存在畸變。如果需要從相機(jī)中獲得真實(shí)世界的位置信息,就必須對(duì)相機(jī)進(jìn)行標(biāo)定,校正圖像畸變。從參數(shù)解算角度可將相機(jī)標(biāo)定分為基于最優(yōu)化算法的標(biāo)定[29]、基于遺傳算法的標(biāo)定[30]、基于變換矩陣的標(biāo)定[31]、基于神經(jīng)網(wǎng)絡(luò)的標(biāo)定等。目前果實(shí)視覺(jué)定位的研究普遍采用了張正友標(biāo)定法。
目前常用的標(biāo)定方法是張正友教授在1998 年提出的張正友標(biāo)定法,該方法精度不如Tasi 算法[32],但求解簡(jiǎn)單、精度高且魯棒性強(qiáng)、實(shí)用性高,適合日常標(biāo)定應(yīng)用及精度需求一般的生產(chǎn)。張正友標(biāo)定法在已知棋盤(pán)格標(biāo)定板形狀尺寸信息的前提下,提取參照物影像角點(diǎn)作為控制點(diǎn),構(gòu)建像素與空間坐標(biāo)對(duì)應(yīng)關(guān)系方程組,再利用優(yōu)化算法計(jì)算參數(shù)。需要注意的是,為了保持旋轉(zhuǎn)不變,在使用棋盤(pán)格時(shí),棋盤(pán)格行列數(shù)必須一奇一偶。隨著技術(shù)的進(jìn)步,后期還發(fā)展出了實(shí)心圓[33]、同心圓環(huán)[34]、ArUco[35]、ChArUco[36-37]等。標(biāo)定板材料通常有兩種,即蘇打玻璃、陶瓷材質(zhì)。目前MATLAB、OpenCV、Kalibr、HALCON、Small Vision System(SVS)[38]都提供了張正友標(biāo)定法的標(biāo)定功能。
目前所采用的果實(shí)定位方法都采用了三角測(cè)量原理。定位算法可分為兩大類(lèi),主動(dòng)式和被動(dòng)式。主動(dòng)式定位算法需要通過(guò)傳感器對(duì)果實(shí)發(fā)射信號(hào),通過(guò)返回的信號(hào)對(duì)果實(shí)進(jìn)行定位。具有代表性的方法有:深度相機(jī)、激光等定位技術(shù)。被動(dòng)式定位算法不需要發(fā)射信號(hào),而是根據(jù)二維圖像信息對(duì)果實(shí)進(jìn)行定位。具有代表性的方法有:雙目視覺(jué)定位、雙目視覺(jué)、深度學(xué)習(xí)等定位技術(shù)。
主動(dòng)式的深度相機(jī)主要有兩種:結(jié)構(gòu)光相機(jī)[39]和TOF 相機(jī)。結(jié)構(gòu)光相機(jī)依靠投影儀將編碼的結(jié)構(gòu)光投射到被拍攝物體上,然后由攝像機(jī)進(jìn)行拍攝,獲取結(jié)構(gòu)光的變化,將其轉(zhuǎn)換為深度信息,進(jìn)而獲取物體輪廓;TOF 相機(jī)通過(guò)向目標(biāo)連續(xù)發(fā)送光脈沖,然后依據(jù)傳感器接收到返回光的時(shí)間或相位差來(lái)計(jì)算與目標(biāo)的距離。這兩種相機(jī)可以較容易實(shí)現(xiàn)果實(shí)定位,算法復(fù)雜度較低,使用這兩種相機(jī)定位的方案往往側(cè)重于研究果實(shí)的檢測(cè)問(wèn)題,如通過(guò)Mask-RCNN 分割出果實(shí)區(qū)域,再用結(jié)構(gòu)光相機(jī)進(jìn)行三維重建[40]。
利用激光設(shè)備輔助視覺(jué)對(duì)果實(shí)進(jìn)行定位也是一個(gè)重要的研究方向[41],甚至有觀點(diǎn)認(rèn)為該方法優(yōu)于單純的視覺(jué)定位方法[42]。其原理與TOF 相機(jī)類(lèi)似,基于相機(jī)拍攝的圖像檢測(cè)果實(shí),將激光點(diǎn)或激光線投射到果實(shí)上,然后用傳感器捕獲其反射。實(shí)際使用中往往將激光測(cè)距儀與相機(jī)結(jié)合。如從單目相機(jī)獲取的圖像中提取蘋(píng)果質(zhì)心,采用舵機(jī)云臺(tái)控制激光測(cè)距傳感器將激光點(diǎn)打在蘋(píng)果質(zhì)心上,測(cè)量蘋(píng)果到激光傳感器的距離。將兩個(gè)方向上的夾角和蘋(píng)果的距離組成的球坐標(biāo)轉(zhuǎn)換為果實(shí)三維坐標(biāo)[43]。使用激光掃描儀平移定時(shí)掃描棉花,根據(jù)掃描儀和運(yùn)動(dòng)信息獲得棉花的三維坐標(biāo)[44]。在許多的研究中,為了確定果實(shí)的實(shí)際位置往往是通過(guò)激光測(cè)距儀進(jìn)行定位的[45]。
單目視覺(jué)定位的主要方法有兩種:基于單幀圖像的定位方法和基于兩幀或多幀圖像的定位方法。單幀圖像定位可分為有人工標(biāo)志和無(wú)人工標(biāo)志兩類(lèi)[46]。前者是通過(guò)圖像中特征及特征線的空間信息與圖像的映射關(guān)系定位[9],后者是利用目標(biāo)的平行、正交等幾何特性定位。基于兩幀或多幀圖像的定位方法有運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM)和多視圖立體視覺(jué)(MVS)這兩種典型的方法。僅用單目RGB 相機(jī)從不同位置對(duì)果實(shí)進(jìn)行拍攝,通過(guò)相機(jī)運(yùn)動(dòng)來(lái)確定果實(shí)的空間和幾何關(guān)系。從相機(jī)的運(yùn)動(dòng)情況中得到不同時(shí)刻的相機(jī)之間的旋轉(zhuǎn)和平移參數(shù)。為了使得旋轉(zhuǎn)和平移參數(shù)更加準(zhǔn)確,會(huì)使得相機(jī)盡量只在一個(gè)自由度上平移[47]。使用慣性傳感器檢測(cè)運(yùn)動(dòng)信息,從而實(shí)現(xiàn)單目視覺(jué)定位也是一種可行的方法[48]。單目視覺(jué)定位的不足是不適合定位受擾動(dòng)狀態(tài)的果實(shí),實(shí)時(shí)性不高,對(duì)于精確定位存在較大的誤差。
雙目視覺(jué)定位基于視差原理,難點(diǎn)是圖像的立體匹配,尋找左右圖像中與實(shí)際場(chǎng)景同一三維點(diǎn)相對(duì)應(yīng)的像素點(diǎn)。立體匹配方法可分為基于特征點(diǎn)的方法[49]和基于區(qū)域的方法[50-51],質(zhì)心匹配是一個(gè)常用且有效的方法,因?yàn)樵S多果實(shí)的形狀與球形較相似,雙目相機(jī)拍攝出來(lái)的左右視圖中同一個(gè)果實(shí)的質(zhì)心在三維世界中十分接近,是非常有效的匹配點(diǎn),同時(shí)其計(jì)算量小,被廣泛運(yùn)用在果實(shí)定位中[52-53]。除了平行雙目相機(jī)方案外,還存在用兩個(gè)相機(jī)呈夾角布置的方案,當(dāng)兩個(gè)相機(jī)都拍到果實(shí)時(shí),采摘漏斗正對(duì)柑橘果實(shí),但是該方案不計(jì)算實(shí)際三維坐標(biāo),應(yīng)用受限[54]。
近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,基于深度學(xué)習(xí)的單目深度估計(jì)得到了廣泛的研究,并取得了良好的精度。根據(jù)不同的訓(xùn)練方式,有代表性的訓(xùn)練方法可分為有監(jiān)督的、無(wú)監(jiān)督的和半監(jiān)督的。各種神經(jīng)網(wǎng)絡(luò)例如卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[55]已經(jīng)證明了它們對(duì)解決單目深度估計(jì)問(wèn)題的有效性。但對(duì)像素進(jìn)行標(biāo)注的有監(jiān)督學(xué)習(xí)是昂貴且困難的[56],而無(wú)監(jiān)督方法的性能與有監(jiān)督方法還有很大差距,因此自監(jiān)督等方法被應(yīng)用到了果實(shí)的深度估計(jì)中,以實(shí)現(xiàn)三維定位[57]。
果實(shí)自動(dòng)采摘技術(shù)有利于解決目前果實(shí)采摘過(guò)程占用大量勞動(dòng)力的問(wèn)題,視覺(jué)定位是其中的關(guān)鍵技術(shù)。目前的果實(shí)定位工作主要面臨著以下幾方面的問(wèn)題:
一是野外作業(yè)環(huán)境復(fù)雜,對(duì)果實(shí)的目標(biāo)檢測(cè)是個(gè)巨大的挑戰(zhàn)。雖然深度學(xué)習(xí)技術(shù)在野外對(duì)果實(shí)的識(shí)別效果泛化性?xún)?yōu)于傳統(tǒng)基于顏色和形狀的方法,但是其落地部署還有很多問(wèn)題尚待研究。二是在建立圖像坐標(biāo)系到世界坐標(biāo)系的映射模型時(shí),映射結(jié)果的誤差也會(huì)影響定位精度。深度相機(jī)在室外的工作效果往往不甚理想,而雙目視覺(jué)特征匹配難度高,因此常常使用質(zhì)心匹配代替。雖然目前使用三維重建從深度信息中分辨果實(shí)目標(biāo)和定位,有不受外界光照、果實(shí)性質(zhì)影響的優(yōu)勢(shì),但定位識(shí)別準(zhǔn)確性有限且對(duì)算力要求高。