李會賓,史 云※,劉懷洋,王文昊,劉萬福,楊 鵬,3
(1. 中國農業科學院農業資源與農業區劃研究所,北京 100081;2. 蘇州大學機電工程學院,江蘇蘇州 215100;3. 河海大學地球科學與工程學院,江蘇南京 211100)
采摘姿態的確定是水果采摘機器人采摘過程中的一個重要環節。通常情況下,人在抓取某一物體時,首先通過視覺感知物體的形狀、位置和放置的姿態等信息,再依據自身位置和抓取習慣選擇較為方便和可靠的抓取方式。與之類似,為實現無損采摘作業,需要視覺系統快速從復雜的果園環境中定位出水果抓取點和該果實的生長方向,這樣有助于實現仿生式果實采摘,降低采摘過程中對果實和樹枝的損傷。
目前,由于生長姿態通常難以通過視覺識別系統輕易獲取。因此,在大部分采摘機器人和視覺識別的現有研究中,一般只考慮了果實目標的位置信息,而對于果柄姿態信息考慮較少。張高陽根據蘋果尾部花萼區域是否可見分析了基于機器視覺的果實姿態信息測量方法,詳細研究了果實姿態信息的粒子濾波估計[1]。宋怡煥等使用灰度共生矩陣和小波變換對蘋果的果梗和果萼進行紋理分析,確定果軸方向[2]。Bac 等開發的甜椒采摘機器人,通過雙目相機確定果實位置,在甜椒預采摘點通過單目相機獲取果柄方位信息,從而確定甜椒生長方向[3]。云雙等對位于傳送帶上的柚子姿態進行了研究,通過搭建雙目視覺測量系統拍攝水果圖像,通過提取位置點與花萼點作為姿態定位特征點,然后求解水果空間幾何參數[4]。趙文旻等對蘋果形狀特征進行了細致的分析與分類,提出了判定蘋果姿態的方法,通過邊緣點與形心點的距離判斷花萼點,從而確定果軸方向[5]。以上4種方法必須保證花萼點或者果梗點的可見性,否則會導致果實姿態檢測失敗。新西蘭工業研究所的Penman等采用藍色條形光源的方法,通過對蘋果表面紋路分析,確定果軸方向[6]。Zhang等同樣從光源入手采用紅外光照射的方法,獲取蘋果表面紋理信息,識別蘋果果萼與果梗位置[7]。但是Penman和Zhang的方法需要特定輔助光源設備,會增加了系統的復雜度。Zhang等利用蘋果輪廓中果梗以及花萼處存在凹陷的輪廓特征,運用近紅外線陣結構光來實現蘋果輪廓的3D重建技術,通過比對重建輪廓與標準球體的差異確定出果梗/花萼的位置[8],但是這種方法在受到葉子和樹枝遮擋的情況下,會造成定向失敗。Yu等對YOLO網絡進行了改進[9],通過在錨點上增加一個旋轉角實現檢測框的旋轉角度,從而提高草莓采摘點的定位精度,但是該方法不太適用于圓形水果。
綜上所述,目前基于視覺對水果姿態估計雖然取得了一定成果,但是還依然存在一定的局限性,如必須保證果萼點和果梗點的可見性,需要特殊光源,或者果實表面不能被遮擋,只有在這些條件下才能實現果實生長姿態的檢測。文章基于上述問題,提出一種基于改進Openpose 模型的果實姿態估計方法[10],在Openpose 模型的基礎上,基于ShuffleNet V2[11]和坐標注意力機制[12]實現主干網絡的替換,并且基于果實的關鍵點數量重新設計了局部親和域的連接方法。最終改進后的模型僅使用RGB果實圖像,就能準確地獲取果園場景下目標果實的生長方向,也不會受到果實表面遮擋的影響。
蘋果數據采集時間為2022年9月,采集地位于陜西省楊陵,拍攝傳感器為RealSense D455,獲取的圖像分辨率為1 280×720,本次采集了順光、逆光、側光和暗光4種光照情況下的圖像,避免光照強度不同對圖像識別的魯棒性造成影響,一共采集圖像2 000張。該文將無遮擋類果實(N類)和僅有葉子遮擋果實(L類)作為采摘目標,所以僅標注這兩類圖像。標注結果如圖1 所示,標注原則如下:①L 類蘋果可見度要大于等于50%;②標注好蘋果的生長方向,即通過連線蘋果的果柄點和果萼點實現標注,無法觀察到蘋果的果柄點和果萼點時,通過人為經驗判斷出果萼點的位置進行連線標注,且順序不可顛倒,標注完成后會生成結果為pose的兩點數據。③由于果園里有大量的果樹,為了重點標注出近距離能夠采摘到的蘋果位置,該文中只標注出了當前果樹上的蘋果,圖像背景會存在一些像素占比較少的小蘋果,文中不再進行標注[13]。

圖1 使用Labelme對圖像進行標注Fig.1 Use Labelme to label images
由于Labelme軟件標注圖像得到的是json文件。Openpose在做訓練實驗的時候,需要用到的是果實方向關鍵點在切片圖中的坐標和原果實切片圖,如圖2所示,最左側為原圖像,第二列為N和L類蘋果的切片圖,第三列為一列數字包含了3類內容,前兩位數字代表了蘋果的果柄點在切片圖中的坐標,后兩位數字代表了蘋果的果萼點在切片圖中的坐標,關鍵點的坐標類型通過文本格式保存。圖像標注后,其中N類總計8 671幅圖像,L類11 813幅圖像,按照7∶3來切分為訓練集和測試集,將N類中2 601幅圖像作為測試集,6 070幅圖像作為訓練集,L類中3 544幅圖像作為測試集,8 269幅圖像作為訓練集。所有測試、訓練集的詳細信息如表1所示。

圖2 N和L類的數據格式轉換Fig.2 Data format conversion of N and L classes

表1 測試集與訓練集信息Table 1 Information of test dataset and training dataset
為了增加圖像訓練集,更好地提取各種光照狀態下圖像的特征,避免模型在訓練過程中的過擬合現象[14]。該文對訓練圖像進行了數據擴增處理。由于圖像采集時光照條件較為復雜,為了提高訓練模型的泛化能力,對原切片圖像進行了亮度增強及減弱、對比增強及減弱和模糊化5種圖像增強處理。同時在數據采集過程中,會存在相機抖動造成圖像模糊的情況,所以增加了模糊化的增強處理。為了使得圖像擴增后,原標注仍然有效,該文中,將圖像的亮度、對比度在原圖的50%以內進行隨機變化。圖像模糊化采用中值濾波的方式。圖像增廣后的結果如圖3所示,其中圖3a是原圖像,其它5 種圖像增強的結果如圖3b~f 所示。圖像增強后共獲得71 695 幅圖像作為訓練集,其中N 類為30 350幅圖像,L類為41 345幅圖像。

圖3 數據集增廣結果。a.N類圖。b.亮度增強的N類。c.亮度減弱的N類。d.模糊的N類。e.對比度增強的N類。f.對比度減弱N類。h.L類原圖。i.亮度增強的L類。j.亮度減弱的L類。k.模糊的L類。l.對比度增強的L類。m.對比度減弱的N類。Fig.3 Dataset augmentation results
Openpose 框架由CMU 實驗室研究學者開發,該模型的提出有效對人體的面部、手部、足部的關節點進行檢測,同時即使在部分遮擋的情況下,也能實現對人體姿態的估計[15]。該方法總體流程如圖4所示。圖4表現了該模型首先使用了VGG19[16]特征提取器作為骨干網絡獲取輸入圖像的特征,接著將特征圖作為多階段輸入,每個階段主要實現對上階段特征的修正和逐漸優化。每一個階段分為兩部分,分支1Branch1)是關鍵點熱力圖計算模塊,用于關鍵點定位;分支2Branch2)是局部親和域檢測模塊,用于尋找關鍵點之間的聯系,輔助連接所有檢測到的關鍵點。Openpose 架構大體結構共分為6 個階段,但是,針對單個蘋果類的目標,過多階段數會耗費更多計算資源,造成計算冗余,對模型最終精度提升的幫助將逐漸減小。

圖4 Openpose網絡模型Fig.4 Openpose network model
在Openpose 中包含了兩個分支,其中上方區域用來預測目標部位置信圖S,ρ 代表用來檢測置信度S 的網絡模型,F 代表VGG-19 提取的特征,t 代表網絡所處的階段。圖中下方區域用來預測目標各個局部的部分親和力字段(Part Affinity Fields,PAF)L,φ 是用來檢測目標部分親和力字段L 的網絡模型。每對S 和L 回歸一次系統完成一次迭代,迭代之后將新特征S、L 和原輸入連接一起,按照迭代機制作為下階段的預測輸入。該機制能夠在不增加計算量的基礎上,對預測結果多次進行優化修正,可以讓模型學習更多的特征信息,提高檢測精度。連續迭代t∈(1,...,n)次,形成Openpose推理結構。在獲得預測結果后,需要計算每個階段的損失函數,第t 階段時候的損失函數為:
式(1)(2)中,代表真實標注關鍵點置信度圖;L*c代表真實標注親和力大小;W(P)是二值掩碼函數,取值為0或1,該掩碼用于避免在訓練期間懲罰真正的正向預測。整體的損失函數為:
為了使得Openpose 模型能夠在單個蘋果關鍵點檢測上更好的發揮自身性能,該文結合單個蘋果的自身特點對模型進行了進一步改進。多張單個蘋果的標注結果如圖5所示,可以看出每個蘋果的二維生長方向通過果柄點和果萼點表示,且果柄點均在果萼點之上。基于該先驗知識,由此可推段出模型的局部親和力檢測模塊的作用會發生下降,可以規定蘋果生長方向是從果柄點指向果萼點,亮點具有默認的親和力。基于此,對Openpose 模型去除了部分親和力計算分支,這樣可以大大減少模型的計算量。

圖5 多張單個蘋果生長方向標注情況Fig.5 Growth direction labels of multiple individual apple
另外針對Openpose主干層采用VGG19作為主干網絡。VGG19網絡雖然成熟且訓練效果較好,但網絡結構較為冗余,復雜的層級使用的是普通的直筒式相連,這會隨著網絡層數的不斷加深帶來負面影響。由于采集的各類蘋果數據均處于多種光照條件下,所以需要升級模型主干的架構,進一步提升主干特征提取的性能。因此該文提出使用改進的ShuffleNet V2-CA 作為VGG19 的替代,使得Openpose 架構更加靈活高效。改進的Openpose 結構如圖6 所示,接下來將對Openpose 框架中重要組成部分VGG19 的改進、PAF的階段修改部分進行原理闡述。

圖6 改進后的Openpose網絡模型Fig.6 Improved Openpose network model
該文首先采用ShuffleNet V2和CA注意力機制的融合作為Openpose的主干網絡,進而替代VGG19的特征提取方式,兩者相結合實現多尺度的特征提取。兩種ShuffleNet V2的基本模塊設計情況如圖7所示。如圖7a所示,在ShuffleNet V2單元1中,首先對輸入的特征進行通道劃分,分成了左右分支,左右分支的通道數相同。左邊分支的特征不進行計算;右邊分支會經過兩個1×1 卷積和一個3×3 深度可分離卷積,3 個卷積的步長均為1,并且使用相同的輸入通道數和輸出通道數。當右側的卷積完成后,左右分支會進行連接操作進行特征融合,主要體現為通道數相加,最后通過通道混合,實現了不同組間的信息交流,使得通道充分融合。如圖7b所示,在ShuffleNet V2單元2中,首先不會對特征的通道進行劃分,而是直接將特征圖輸入到兩個分支中。兩個分支使用的步長不同于單元1,主要是使用步長為2的3×3深度卷積,實現對上一層級的特征圖進行尺寸降維,從而起到減少網絡計算量的作用。接著,兩個分支經過BN層和ReLU層進行計算后,輸出特征后進行特征連接操作,通道數相加后變為原輸入的2倍,該操作增加了網絡通道的寬度,并且起到了在不顯著增加FLOPs的情況下,增加了通道的數量,使網絡提取特征能力更強。最后,通過通道混合實現了不同組間的信息交流。ShuffleNet V2 模型目前發揮了較好的性能,超越了同級別的MobileNet V2、Xception和ShuffleNet V1等模型。主要由于以下原因:①計算過程中,相同的輸入輸出通道可以使得內存訪問成本最小;②分組卷積有助于降低模快的計算復雜度,但分組數不宜太多。

圖7 ShuffleNet V2單元。a.ShuffleNet V2單元1,b.ShuffleNet V2單元2Fig.7 ShuffleNet V2 unit
ShuffleNet V2 通過輕量化的手段對深層語義特征進行了提取,但是容易丟失圖像中蘋果的細節,從而不利于進行關鍵點檢測。為了增加模型對細節特征的捕獲能力,解決 ShuffleNet V2 的對蘋果細節特征提取能力弱的問題,于是將坐標注意力機制Coordinate Attention,CA)引入到ShuffleNet V2中。CA注意力模塊結構如圖8所示,其中X Avg Pool和Y Avg Pool是沿著x軸和y軸做池化操作,分別提取寬度和高度上的特征信息,連接操作是聚合x 軸和y 軸上的特征信息,接著做卷積能夠獲得遠程依賴關系,然后進行歸一化,使用ReLU激活函數,此時能夠得到每個維度的全局信息,之后做沿著寬度和高度進行分割操作,分別進行Conv和ReLU激活,最后進行重新加權Re-weight)操作,從而完成了一個基于空間維度的注意力機制。該文提出的ShuffleNetV2-CA 兩個基本單元以ShuffleNet V2單元結構為基礎進行改進,加入高效通道CA注意力模塊,如圖9所示。該模塊只涉及少量參數,適當的跨通道進行信息交互,可以在保持網絡輕量化的同時也能帶來明顯的性能增益,并顯著降低模型的復雜度。

圖8 CA注意力模塊Fig.8 CA attention module

圖9 ShuffleNet V2-CA 模塊單元Fig.9 ShuffleNet V2-CA model unit
ShuffleNet V2主干網絡結構如圖10所示,輸入切圖大小為3×224×224,然后連續使用2個由 ShuffleNet V2-CA單元2和ShuffleNetV2-CA單元1組成的模塊層,兩個模塊層中單元2與單元1的數量分別為1:3和1:7。為更好融合通道注意力不使用最大池化層,而使用計算量小的通道數為24,卷積核大小為3×3,步長為2的深度分離卷積,提出特征更豐富。

圖10 ShuffleNet V2-CA主干網絡Fig.10 ShuffleNet V2-CA backbone network
局部親和域是由一組流場組成的表示,這些流場能夠對可變數量的目標關鍵點之間的非結構化成對關系進行編碼,用來描述關鍵點在骨架結構中的走向。Openpose可以有效地從PAF中獲得成對分數,而無需額外的增加訓練步驟。PAF就是對有聯系的關鍵點進行標注,是身體每對關鍵點的2D向量,同時保留了關鍵點區域之間的位置信息和方向信息。在Openpose 模型中,存在6 組熱力圖關鍵點定位模塊和6 組PAF 模塊,這種模式主要針對多目標下的多個關鍵點情況而設計,并不完全適用于單蘋果下的兩個關鍵點的模式,主要是因為在6組PAF 模塊內逐步提取兩個關鍵點之間的關系時,會出現冗余計算。于是為了減少不必要的計算消耗,該文中對全部PAF模塊進行了修改工作。該文中去除了前5個PAF模塊,保留了1個PAF模塊,這個過程中大大的降低了原PAF模塊的計算消耗,但也能夠維持了蘋果兩個關鍵點之間的關聯,全PAF修剪后如圖11所示。

圖11 全部PAF模塊修剪后的結果Fig.11 All PAF module trimmed results
該文采用模型評價指標分別是關鍵點相似度OKS,Object Keypoint Similarity)[17],計算得到的平均精度AP,Average Precision)、平均精度均值mAP,mean Average Precision)。mAP 為時獲取的T 個AP 的均值,T 取值為100.50,0.55,…,0.90,0.95),AP50 為T 是0.5 時的平均精度,AP75 是T 為0.75 時的平均精度,mAP-S 為小尺寸蘋果的平均精度均值,mAP-B為大尺寸蘋果平均精度均值,OKS、AP、mAP的計算公式為:
式(4)(5)(6)中,p表示在圖像中某個蘋果,pi表示某個蘋果的第i個關鍵點,d2(pi)表示當前檢測的一組關鍵點中序號為i的關鍵點與標簽關鍵點坐標的歐式距離,表示這個關鍵點的可見性,該文中關鍵點均可見,則表示標簽的尺度因子,w和h為圖像的寬和高,σi表示關鍵點pi的歸一化因子,δ(*)表示如果條件*成立,P為測試集中圖像的個數。
在完成Openpose改進框架搭建后,需要訓練出合適的模型用于實現對蘋果生長方向的檢測。該文將改進后的Openpose框架在Pytorch平臺上進行訓練,訓練平臺的硬件配置包括英特爾至強CPU E5-2678,8GB 內存和1 塊英偉達型號為3050 的GPU。在網絡模型參數初始化設置中,設置動態衰減參數取值0.89,權重系數decay取值0.000 5,初始學習率設置為0.001,另外學習率會根據迭代的次數而逐漸下降,批次大小設置為8,最大迭代次數設置為200,當訓練過程中,當迭代過程中損失逐步下降到穩定的階段就停止訓練。這200次的訓練誤差圖如圖12所示,訓練損失率變化如圖13所示。從圖12中可以看出,在迭代到175次時,訓練誤差總體上在逐步減小并趨于平緩,這說明模型在逐步收斂。如圖13所示,在模型訓練過程中,學習率一直在不斷的減小,促使模型收斂到全局最優處。

圖12 改進的Openpose訓練誤差Fig.12 Improved Openpose training error

圖13 改進的Openpose在訓練過程中學習率變化Fig.13 Learning rate changes in the training process of improved Openpose
改進后的Openpose模型對蘋果生長方向的檢測結果如圖14所示,我們發現改進后的Openpose模型對蘋果生長方向的檢測效果較好。圖14a~e中屬于N類,圖14f~j中屬于L類。兩類蘋果的表面存在光照不均、完整度不一、亮塊、陰影等情況。同時在L類切片圖像中,蘋果存在枝葉遮擋和背景復雜等情況。圖14k~o屬于N類和L類在低光照情況下的情況。首先對于N 類,我們發現圖14a~e中屬于方向不一的蘋果,圖14b存在果萼點和果柄關鍵點都無法直接可見的情況,圖14a~e存在果柄點無法被直接可見的情況,但不可見的關鍵點的位置均被改進的Openpose模型所識別,說明了改進后的Openpose算法對不可見的關鍵點具有較好的預測評估效果。圖14f~j中的蘋果表面上會有不同程度不同位置樹葉的遮擋,主要表現為在多種光照條件下,這些蘋果的果柄位置、側邊等位置會存在樹葉遮擋的情況,會改變蘋果的表面形態特征,如圖14f和圖14i所示。但是基于改進版的Openpose 模型針對無規律樹葉遮擋類蘋果的情況,也實現了生長方向的精準檢測,說明改進后的模型對存在樹葉類遮擋情況下的檢測效果有較強的魯棒性。如圖14k~o所示,這5張切圖中的蘋果均是在光照強度較弱的情況下進行采集的,表現是蘋果表面亮度低,對比度差,色彩失真,但是蘋果的完整度較高,從檢測結果中發現,這5張切圖中蘋果生長方向檢測效果較好,可見改進版的Openpose模型針對場景中存在的低光照的情況下,也能夠完成蘋果生長方向的檢測。

圖14 改進的Openpose網絡模型對蘋果方向檢測結果。圖a到e是強光照下的N類檢測結果,圖f到j是強光照下的L類檢測結果,圖k到o是低光照下L和N類的檢測結果Fig.14 Apple direction results with improved Openpose network model
梯度加權類激活映射Grad-CAM)[18]利用網絡反向傳播的梯度計算出特征圖的每一個通道權重從而得到熱力圖。在該文使用Grad-CAM 對Openpose 模型進行可視化,主要是驗證模型是否實現了對圖像中的重要特征區域的定位情況,實現對模型檢測關鍵點檢測過程的可視化解釋。在Grad-CAM 可視化圖中深黃色區域代表該處的圖像特征是模型進行正確分類的重要依據,這些重要信息主要位于蘋果的果柄、果萼位置以及兩部分的中間連接處,這些區域顏色較亮,證明該位置處的特征對蘋果關鍵點的檢測作用大。圖14中包含了2組熱力圖檢測結果,分別是圖15a~e和f~j每一組包含了5張圖像,分別是蘋果切片原圖、果柄處熱力圖、果萼處熱力圖可視化、關鍵點連接向量場可視化以及最后的檢測結果。其中圖15a~e 屬于L 類熱力圖檢測結果,圖15f~j 屬于N 類熱力圖檢測結果。以圖15a~e所代表的L類為例,蘋果在圖15b和圖15c中的激活區域位于靠近果柄部分和果萼部分的關鍵點周邊區域,圖15d展示了兩個熱力圖區域之間的連接向量場,在圖14e中實現了兩個關鍵點的關聯。綜上所述,從Grad-CAM 可視化圖可以清楚地看出,改進后的Openpose模型能夠準確實現蘋果果萼和果柄處兩個關鍵點的定位以及關鍵點連接向量場的檢測,證明了改進模型在單個蘋果目標關鍵點檢測的有效性。

圖15 蘋果生長方向檢測可視化解釋。圖a和f是原圖,圖b和g為果柄處關鍵點熱力圖,圖c和h為果萼處關鍵點熱力圖,圖d和i是蘋果關鍵點連接向量場熱力圖,圖e和j為原圖蘋果生長方向檢測結果Fig.15 Visual interpretation of apple growth irection detection
為了定性觀察到Openpose 模型改進前后的性能提升情況,該文對部分N類和L類圖像開展了關鍵點檢測結果的對比工作,如圖16所示。其中圖16a~c和g~i屬于N類關鍵點檢測結果對比圖,圖16d~f和j~l屬于L類圖像關鍵點檢測結果對比圖。在每組3張圖像中,第一列圖像為Openpose模型檢測的結果,第二列圖像為人工標定的真值,第三列圖像是改進后Openpose模型檢測的結果。在圖16a~c和g~i這組對比圖中,可以觀察到Openpose模型對這類模糊的蘋果檢測時,關鍵點的特征位置定位會出現隨機性偏差,但是改進后的模型對蘋果方向的檢測效果較好。在圖16d~f 這組對比圖中,可以觀察到Openpose模型對這類葉遮擋的蘋果檢測時,果萼部分的檢測由于受到了樹葉的影響,造成果萼部的關鍵點檢測結果落到了錯誤位置,但是改進后的模型能夠避開這一影響,實現對受遮擋蘋果方向的較好檢測。在圖16j~l這組圖像中,可以觀察到Openpose 模型對這組圖像的關鍵點檢測時,蘋果的關鍵點均被檢測出來,但是其準確性較低,明顯和真值存在差異,而改進后的模型的對這個蘋果的關鍵點檢測結果較好。綜上所述,該文改進版的Openpose蘋果生長方向檢測模型,對存在光線干擾、樹葉干擾等自然情況下,仍能夠有效地對蘋果生長方向進行檢測,且性能更優。

圖16 Openpose改進前后模型對蘋果方向檢測效果圖。圖a和g是基于Openpose的N類的生長方向檢測,b和h為人工標注圖a和g的真值,c和i為基于改進版Openpose的N類蘋果的生長方向檢測,圖d和j是基于Openpose的L類的生長方向檢測,圖e和k為d和j的真值,圖f和l為基于改進版Openpose的N類蘋果的生長方向檢測。Fig.16 Comparison of apple direction detection performance between improved Openpose and original Openpose
為了驗證改進前后Openpose模型的性能變化和不同框架對蘋果方向的檢測性能,本次試驗將改進的Openpose 框架與Openpose 框架、AlphaPose[19]框架和級聯金字塔網絡Cascaded Pyramid Network,CFN)[20]框架相比較。為了保證對比試驗的公平性,所有模型都使用同一套數據集進行訓練,參數保持模型原有的默認參數,最后采用相同測試集對各個模型進行測試,測試結果如表2所示。

表2 不同模型對蘋果生長方向檢測的測試結果Table 2 Test results of apple growth direction detection by different models
從表中可以看出,改進后的Openpose框架在對測試集的關鍵點檢測方面,在各指標上,全面超過Openpose 框架,表中的Ts)代表處理所有測試集合中每個圖的平均速度,單位為秒。改進后的Openpose的運行速度是改進前的6.56倍,從mAP、mAP-s、mAP-b、AP50、AP75 這些參數中,分別增長9.18%,8.50%,11.56%,1.67%,6.35%,證明了改進方法中取出多余的PAF 模塊,引入輕量化的主干模型對Openpose 的性能提升顯著。AlphaPose和CFA的性能上也明顯優于Openpose模型,但是對于改進后的Openpose來說,以上兩種算法的各項指標均被超越,由此證明了該文算法的優越性。綜上所述,改進的Openpose算法根據蘋果的特點在Openpose框架進行了針對性的模型修改,使得模型的關鍵點計算和關聯方式與單個蘋果的關鍵點數量的檢測相適應,并大幅加快了模型運行的時間,也進一步提高了蘋果關鍵點檢測的精度。
該文針對蘋果智能化采摘中蘋果生長方向檢測精度不高、易受遮擋影響的問題,提出了基于Openpose的改進版蘋果生長方向檢測算法。該文對Openpose框架進行了2項主要改進:①提出通過ShuffleNet V2 和CA 注意力機制相融合的方式替換原VGG19 結構,降低主干的參數量,并提升模型主干在多種光照條件下對蘋果特征的檢測能力;②結合單個蘋果的自身關鍵點的特征對該模型去除部分PAF分支的改進,這樣可以大大減少模型的計算量,提高模型的計算效率。改進后的Openpose模型在各個指標上,全面超過了原模型,其運行速度是改進前的6.56 倍,對于mAP、mAP-s、mAP-b、AP50 和AP75 這些參數,分別增長9.18%、8.50%、11.56%、1.67% 和6.35%,證明了改進方法對Openpose 的性能提升顯著。與AlphaPose 和CFA 算法相比,改進后Openpose 的性能也達到了最優,由此證明了該文算法的優越性。