


















摘要:傳統的目標檢測算法僅能得到目標框,無法確定黃花菜的生長姿態。針對這一問題,在現有目標檢測算法的基礎上優化神經網絡(Neural Network)結構,由檢測框預測改為關節點的預測。首先,按照錨點匹配的方式確定黃花菜的生長方向及長度,統計黃花菜目標生長角度和長度,按照統計結果設置多個錨點,實際生長角度和長度與錨點進行比較,獲得目標的相對長度和角度,并將其作為模型預測值進行訓練;其次,在模型中加入熱力圖預測分支,對4個關節點進行預測;最后,利用目標長度和角度信息連接關節點得到黃花菜目標的生長姿態。設計針對線段擬合特點的評估模型方法,在計算精度的過程中引入部分親和度字段。并據此改進非極大值抑制算法(Non-Maximum Suppression)。試驗結果表明:采用熱力圖校準后的模型對采摘目標識別精度達91.02%,定位精度達99.8%。
關鍵詞:黃花菜;采摘機器人;神經網絡;機器視覺;圖像處理;目標檢測
中圖分類號:S644.3; TP183
文獻標識碼:A
文章編號:20955553 (2024) 070228 07
Research on daylily joint detection algorithm based on multiple neural networks
Zhang Yanjun1, 2, Zhao Jianxin1, 2
(1. School of Mechanical Engineering, Taiyuan University of Science and Technology, Taiyuan, 030024, China;
2. Research Center Basic Hydraulic Components and Intelligent Manufacturing Engineering of
Major Equipment, Taiyuan University of Science and Technology, Taiyuan, 030024, China)
Abstract:
The traditional target detection algorithm can only get the target frame, and cannot determine the growth direction of daylily. Aiming at this problem, the neural network structure is optimized on the basis of the existing target detection algorithm, and the prediction of the detection box is changed to the prediction of the key points. Firstly, the growth direction and length of daylily are determined according to the anchor point matching method, and the growth angle and length of the daylily target are counted. Multiple anchor points are set based on the statistical results. The actual growth angle and length are compared with the anchor points to obtain the relative length and angle of the target, which is used as the model prediction value for training. Secondly, the heat map prediction branch is added to the model to predict the four key points. Finally, the growth posture of daylily target is obtained by using the target length and angle information to connect the key points. An evaluation model method for line segment fitting characteristics is designed, Introduction of Partial Affinity Fields in Calculation Accuracy, and the Non-Maximum Suppression algorithm is improved accordingly. Through experimental verification, the accuracy of picking target recognition is 91.02%, the positioning accuracy is 99.8%.
Keywords:
daylily; picking robot; neural network; machine vision; image processing; object detection
0 引言
目前,國內外圍繞采摘機器人的視覺識別算法大體可分為兩類,即傳統的以顏色、梯度、紋理來分割圖像識別目標以及以卷積神經網絡來檢測目標的方法[13]。針對各種果實背景的復雜性,大量研究人員展開相關研究。Gené-Mola等[4]通過激光建立蘋果樹的點云,并以目標與相機之間的距離區分蘋果樹與背景,最后利用表面反射率來識別蘋果。Mao等[5]結合顏色分量選擇、支持向量機(SVM)以及多路卷積神經網絡(MPCNN)等多種方法結合提高黃瓜識別的準確率,并達到了采摘機器人所需的識別精度。Birrell等[6]利用兩個卷積神經網絡進行分類和定位卷心菜在菜園的相對位置。Luo等[7]通過K-means聚類算法得到葡萄串的顏色分類,并采用輪廓分析法分析屬于葡萄的顏色類別中的像素來識別葡萄。上述算法可以解決很多果實采摘的識別的問題,但使用目標框識別果實的方式不能確定果實的生長方向和采摘位置,且異形果實難以使用目標框進行表示。
黃花菜因其味道鮮美,富含營養且具備一定的藥用價值被廣泛種植,我國的黃花菜年產量在500~800 kt[8]。但是,由于黃花菜的采摘環境復雜,目前尚沒有一種有效的視覺處理算法能針對黃花菜進行識別。黃花菜是一種萱草類植物,其結構主要包括細長狀的葉、花莖和黃花菜果實本身,一般于6—8月多雨季節開花[9]。黃花菜的花蕾在開放后會迅速衰老,因此必須在其開花前采摘,黃花菜成熟后會在幾個小時內迅速開花,采摘時間點難以掌握導致人工采摘成本極高,對采摘機器人有較高的要求[10]。但因其種植密集,機器人難以完成自動決策采摘,因此,設計一種視覺識別目標果實的算法是解決黃花菜采摘機器人正確采摘目標果實的前提。
不同品種的黃花菜顏色各異,其識別困難的原因還包括光線不同造成顏色的明暗變化。在識別過程中,花莖和葉片與果實由于顏色相近,在不同光照下增加了識別的難度。為了應對光線變化造成的識別困難,Fu等[11]通過一種能夠識別獼猴桃邊緣的算法來識別獼猴桃,并測試了其在白天和夜間有閃光燈下的識別效果,該方法可以滿足采摘機器人在白天和晚上燈光下進行采摘的需求。Sa等[12]通過紅外相機捕獲甜椒圖片,利用Faster R-CNN進行遷移學習,訓練成功后該模型可以在夜間成功識別到目標水果。謝忠紅[13]通過變異系數賦值法改進K-means算法,選取多種顏色空間中的顏色特征以增加精度,結果表明該改進算法可以識別自然光和背光下的水果圖像。Amatya等[14]通過識別可見分支并將其組合成完整分支來識別與定位櫻桃樹中的震動點,該方法在夜間也能達到93.8%的精度。對于采摘環境的光線問題,使用不同光照條件下的數據集對神經網絡進行訓練,可以提高模型對于不同光線下的圖片的識別精度。
對于黃花菜采摘環境來說,其視覺識別系統除了需要克服上述背景復雜光照強度不同的問題,主要的識別難點在于其形狀為細長狀,與其花莖和葉子形狀相似,導致其障礙物多且圖像噪聲大。
上述研究可以解決采摘機器人果實形狀和顏色與花莖、葉片等相近,不同天氣時間內光照強度不同等問題。但對異形果實的識別尚有欠缺,針對傳統目標檢測方法不能識別生長方向的問題。本文基于repVGG算法設計一種卷積神經網絡結構,通過分析黃花菜的長度和生長角度信息,改進模型損失函數,設計具有生長方向、關節點熱力圖、角度分類信息等多個輸出的模型結構,并進行訓練,通過線段擬合黃花菜的生長姿態,達到同時預測果實的位置以及生長方向的目的,為采摘機器人提供有效的視覺識別手段。
1 數據預處理與模型
1.1 獲取數據集
數據集采集位于山西省陽城縣赤頭村,黃花菜采摘工作一般在早上,采集相機與黃花菜種植方向的角度固定為30°~60°,由上到下進行拍攝。為使數據集符合實際種植情況,限定采集時間,最終數據集包括早上5點到8點共3 h的圖像,共計3 000張。對數據集圖像進行標注,如圖1所示。
對4個關節點進行編號,分別記作P1,P2,P3,P4,將l1,l2,l3與水平線的夾角記為α,β,γ。使用K-means聚類算法對l2和β進行大小分類,并將長度和角度分別設置三個錨點,計算長度與對應長度錨點的比例,記為l2^,β^。按照式(1)計算l1,l3相對l2的長度和α、γ相對β的大小。
l1^=l1/l2
l3^=l3/l2
α^=α/β
γ^=γ/β
(1)
黃花菜目標中第二段(P2,P3)的相對長度和相對角度指的是l2和β相對于該黃花菜長度錨點和角度錨點的比例l2^和β^,其長度錨點和角度錨點通過K-means聚類算法得到,如式(2)所示。
l^2=l2/lkm
β^=β/βkm
(2)
式中:
lkm——長度錨點;
SymbolbA@km——角度錨點。
圖2(a)統計了1 600個黃花菜目標相對長度在各個范圍內的數量,圖2(b)統計了1 600個目標的相對角度在各區間內的數量。從圖2可知,圖像中黃花菜的相對角度和長度的大小大多位于某一較小的區間內,部分標注誤差遠離這一區間。因此,通過預設的長度和角度錨點,只需要預測黃花菜的大小和角度屬于哪個錨點。大致確定其大小和方向后,再與預測的相對比例大小相乘即可得到黃花菜精確的生長角度和大小,并求得四個關鍵節點在圖像中的位置。根據圖2確定模型最終輸出相對長度角度,即可通過控制模型預測結果的范圍有效減小本文模型的誤差。
1.2 輸出模型改進
在YOLOv6算法[15]中,神經網絡模型的輸出層主要包含三個信息,即置信度、檢測框位置大小和類別信息。本文對網絡輸出層進行改進,將原算法中輸出目標預測框的形式改為輸出黃花菜四個關鍵節點的位置,將四個關鍵節點用線段相連,以線段擬合的方式確定目標的大小和生長方向。四個關節點的信息預測原理如圖3所示。其中B表示批處理圖像數,H表示寬度,W表示高度。
本文模型的三個輸出如圖3所示,前兩個主輸出負責預測四個關節點,每個主輸出又包括四個分支輸出。以關節點P2代表中心點,置信度表示預測位置存在黃花菜關節點P2的概率,角度類別是由聚類得到的三個生長角度錨點,相對長度/角度代表其三條線段的相對角度和長度大小,計算如式(1)、式(2)所示。輸出張量可理解為將圖像按照H×W劃分網格,中心節點偏移量表示關節點P2在該預測網格內相對坐標。第三個主輸出為四個關節點的高斯熱力圖,主要負責通過預測關節點的位置對前兩個輸出進行校正。
模型的損失函數包括對關節點位置的誤差、對關節點之間線段角度的預測誤差以及不同生長角度之間的分類誤差、目標的置信度誤差以及高斯熱力圖誤差,如式(3)所示。
Loss=Lobj+Lcls+Lref+Lreg+Lhot
(3)
式中:
Lobj——置信度誤差;
Lcls——角度類別誤差;
Lref——相對大小/角度誤差;
Lreg——中心點偏移量誤差;
Lhot——高斯熱力圖誤差。
1.3 網絡模型細節
1.3.1 總體結構
在參考現有算法[1517]的基礎上進行改進,本文模型為采摘機器人視覺識別神經網絡模型,對小目標的預測能力要求不高,因此,選擇對YOLOv6算法進行改進,并刪除小目標預測的輸出。同時,為了防止網絡的深度影響梯度的前向傳遞,加入殘差網絡[16]。模型結構如圖4所示。
圖4中,以batchsize取1為例,第一次下采樣采用YOLOv5中的Focus層,可以保留更多信息。之后采用repVGG的結構作為主干網絡連續進行三次下采樣,保留每次下采樣的結果作為特征金字塔的一部分。同時,結合實際需求對網絡模型進行輕量化改進,減少神經網絡的深度。主干網絡輸出的最終特征進行一次殘差網絡運算及一次上采樣運算后與三次下采樣的輸出進行特征融合,得到一個新的特征,該特征進行殘差運算后即得到第一個檢測頭(Head-Detect);上述新特征下采樣后與特征金字塔對應特征進行融合得到第二個新特征,之后通過殘差運算后即得到第二個檢測頭;同時,該特征通過4次上采樣與特征融合后,最終得到熱力圖預測結果。
神經網絡的檢測頭將最終結果輸入四個分支中,經過卷積殘差網絡運算后輸出四個結果,即置信度、類別、相對角度/大小和中心點偏移量。Sigmoid函數負責將預測置信度和類別概率的值標準化到0和1之間,方便使用二值交叉熵[1820]計算損失。
在本文模型中,為了降低檢測誤差,期望預測結果與黃花菜關節點的位置輸出一個比例值,介于一定的范圍之間。因此,統計了1 600個目標的期望輸出,得到期望輸出的范圍,并使用Sigmoid激活后進行線性變換作為最終檢測結果以減小誤差。
Opa=K×Sigmoid(a)+b
Opl=K×Sigmoid(l)+b
(4)
式中:
Opa——預測角度輸出;
Opl——預測長度輸出;
K——增益系數;
b——偏置輸出。
1.3.2 部分親和度字段
親和度字段[21]可以判斷目標的關節點是否位于目標上,并有一定的容錯性,為了在驗證模型準確性的時候不受到標注誤差的影響,引入親和度字段。如圖5所示,xp2,k和xp3,k為真實關節點坐標,部分親和字段定義如式(5)所示。
Lc,k(p)=
vp點在目標上
0其他
(5)
式中:
v——
單位向量,方向與黃花菜目標方向一致;
Lc,k(p)——
部分親和字段在p點的向量表示。
通過式(6)判斷p點是否在目標上,如果在目標上,在計算預測誤差時應適當減少權重,以消除模型的標注誤差。
0≤v2·(p-xp2,k)lt;lc,k
v1·(p-xp3,k)≤σl
(6)
式中:
lc,k——目標黃花菜的長度;
σl——目標黃花菜的寬度。
其中,lc,k=‖xp2,k-xp3,k‖2,v1和v2互相垂直。
為了判斷預測的兩點dp2,dp3是否在目標上,使用預測的部分親和字段進行采樣,對沿線進行PAFs線積分,如式(7)所示。
E=∫u=1u=0Lc[p(u)]·dp2-dp3‖dp2-dp3‖2du
(7)
式中:
E——dp2,dp3在目標上的可信度;
Lc——部分親和字段函數;
u——
dp2,dp3兩點沿線各采樣點比例,u∈[0,1]。
其中,p(u)=(1-u)dp2+udp3。
1.3.3 熱力圖校準方法
將熱力圖中大于閾值的結果篩選出來,得到如圖6所示的熱力圖結果。依據黃花菜的寬度設置預測半徑,在預測半徑內取一個像素點作為最終的預測結果,即選取置信度最大的點對預測結果進行校準。
圖6(a)中,xpm,n代表兩個檢測頭通過相對角度和長度預測計算得到的關節點位置,Cm代表高斯熱力圖中預測的關節點位置,計算二者的距離,選擇距離xpm,n最近的點Cm作為模型在該點的預測結果,最終得到左圖中細實線所在的預測結果。圖6(b)中,若xp2,2的一定范圍內不存在C2,即熱力圖未檢測到C2,此時以相鄰的點C3為基準,按照預測角度和長度信息作平行線,得到C2′點的預測位置。當目標多個點沒有在熱力圖中被預測出來時,以預測到的點為起點,按照上述方法依次用平行線校準每個點的位置。
2 試驗方法
試驗需要先標注數據集,本文采用開源的標注軟件對模型進行目標框的標注,得到每個黃花菜目標的位置后,通過編寫的關節點標注程序裁剪目標區域,并標注關節點信息。在訓練過程中,為了增強模型的泛化能力,采用隨機數據增強的方式訓練網絡。使用pytorch進行網絡框架構建,硬件使用Tesla K80顯卡、12GB顯存進行網絡訓練。
2.1 識別精度與定位精度
本文以關節特征點擬合黃花菜的形狀來識別黃花菜,精度評估指標主要包括識別精度AP和特征點的定位精度LP。
LP=1N∑Niexp-∑njdpijlengthi×δ(vpi)
(8)
式中:
N——
一張圖像中神經網絡共預測出目標的個數;
dpij——
第i個目標第j個特征點與數據集真實特征點之間的距離;
lengthi——
第i個目標各線段相加的總長,即目標黃花菜的總長度;
δ(vpi)——判斷該目標預測是否準確。
當預測結果與實際位置偏差太大時,判定預測結果錯誤,此時的δ(vpi)=1,如式(9)所示。該公式可以判斷預測結果中的關節點與真實位置之間的差值,并反映這一目標預測結果與實際位置之間的偏差。
δ(vpi)=0
∑njdpij
lengthilt;T
δ(vpi)=1else
(9)
式中:
T——
預測結果能完全等同于真實結果的閾值。
對T取不同的值分別統計計算結果,以完善模型的精度評估。識別精度計算如式(10)所示。
AP=TPTP+FP×LP
(10)
式中:
TP——預測到的目標數;
FP——沒有預測到的目標的數量;
LP——
所有測試集圖像的平均定位精度。
2.2 總精度計算
上文對模型的識別精度與定位精度計算公式進行了說明,但只對模型的關節點位置預測精度進行了評估,沒有對預測結果的角度進行評估,但在實際檢測過程中,角度對結果精度的影響也有必要計算在內,在關節點位置誤差相同的情況下,判斷目標的角度與真實角度之間的誤差能更加精確的反映模型精度。
對于某一黃花菜目標而言,四個標注點的位置與預測結果中四個點位置的距離可以用于判斷模型的預測精度。因此設計一種新的判斷方法對模型的精度進行評估,如式(11)所示。
ACξ=EξNt×SOA
(11)
式中:
ACξ——測試圖像的識別精度;
SOA——
圖像中某個目標預測值與真實標注之間的相對精度;
Eξ——
圖像中所有點的親和度字段預測可信度E均大于ξ的目標的數量;
ξ——
所有預測點位于目標上的概率,由親合度計算所得;
Nt——圖像所有目標的總數。
SOA計算如式(12)所示。本文還使用SOA代替目標檢測算法中的交并比IOU進行非極大值抑制算法。
SOA=LP×acca
(12)
式中:
acca——
預測結果中黃花菜角度的預測精度。
acca為三條擬合線段中角度與真實值偏差的最大值,計算如式(13)所示。
acca=
0if 5maxi=1,2,3|α^i-αti|gt;1
1-5maxi=1,2,3|α^i-αti|else
(13)
式中:
αi^——
預測結果中黃花菜三條線段上第i條線段的角度值;
αti——
三條黃花菜三條線段上第i條線段的真實角度值。
3 試驗結果與分析
利用訓練集和驗證集損失函數的下降快慢來判斷網絡是否出現欠擬合或過擬合現象,并通過改進網絡結構、優化器選擇、超參數以及學習率衰減方式等來增加模型精度。訓練結束后,通過檢測程序對識別結果進行驗證,如圖7所示。
經過K-means算法對目標大小進行分類,將大中型的目標定義為需要檢測的成熟目標。圖7(a)和圖7(c)中標記的黃花菜數量為29只,需要檢測的成熟目標有13只,最終預測數量為11只;圖7(b)和圖7(d)中標記的黃花菜數量為17只,需要檢測的目標為9只,最終預測數量為8只。從圖7可以得到,本文模型對于大中型目標識別精度較高。圖7(a)和圖7(b)分別是兩張不同照片的未校準預測結果,未經過校準的圖像定位效果較差。圖7(c)和圖7(d)是使用熱力圖對預測結果進行校準的結果,定位精度明顯提高。
另外,對模型最終的識別與定位精度進行驗證,結果如表1所示。
其中無校準的模型預測結果相對較差,其識別精度最高為88.00%,最低為64.75%。而經過熱力圖校準后,定位精度明顯提升,由于計算過程中對允許誤差范圍內的預測結果具有包容性,其定位精度最高為1,說明驗證集中所有識別到的目標的定位誤差均在允許范圍內,識別精度最低為91.02%,最高為91.10%。
對本文模型進行精度評估,計算本文模型的ACξ值,其中ξ取0.5~0.9之間的五個不同數值。由式(9)和表1可得,閾值T越小,模型的識別和定位精度越低,但經過熱力圖校準后,閾值T對精度的影響明顯改善,為了突出ξ對精度的影響,取T=0.9計算模型的總體精度,對其結果分別進行統計,結果如表2所示。
當部分親和度字段判斷目標所有的點均處于該目標上的概率大于0.5時,總精度為89.8%,未經過校準的總精度為88.6%。概率大于0.5經過校準的目標占比為91.1%,未經過校準的目標占比為88.8%。
針對其他目標檢測模型進行相似的改進,即改變目標在輸出中的編碼格式,將輸出模型由檢測框改為相對角度和相對長度的輸出,并在主干網絡上增加熱力圖結構后進行對比試驗,結果如表3所示。
本文模型的總精度最高,但幾個模型識別結果相差不大,Zhu等[22]提出的無錨模塊選擇特征的目標檢測算法識別精度最高,圖像中的目標大部分都能正確識別。Papandreou等[21]提出的人體姿態檢測模型定位精度與本文模型相同,該模型對關節點的定位準確。總體上四個模型的定位精度均保持在90%以上,總精度在80%以上。綜上所述,本文用角度和長度表示目標關節點位置的編碼方式并采用熱力圖對識別結果進行校準的方法可以有效增加定位精度,提高視覺識別算法的準確率,滿足智能采摘機器人對環境感知的識別需求。
4 結論
1) 對目標檢測算法進行改進,采用repVGG主干網絡以及多路神經網絡結構設計黃花菜位置及其姿態檢測模型。提出一種模型編碼格式,考慮相對角度和長度代替目標框的方式進行預測,并加入熱力圖檢測分支,根據熱力圖進行檢測結果的校準。網絡僅需前向傳遞一次便可得到預測結果,實現端到端進行目標檢測。同時根據網絡結構特點,提出根據目標的長度、位置和角度對模型進行評估的方法。
2) 通過對模型預測結果進行評估,分別得到模型的識別精度、定位精度以及總精度。同時對校準前和校準后的模型精度進行對比,經過熱力圖校準后的定位精度增加至1.0,即定位誤差在允許范圍內。網絡的識別精度最高為91.1%,滿足采摘需求。模型的總精度達到89.8%,對其他網絡模型運用本文的模型編碼格式以及熱力圖分支方式進行改進后,總精度均在80%以上,因此本文提出的使用角度和長度進行編碼的方式適用于大多現有模型,并能滿足異形果實位置及姿態的識別需求。
參 考 文 獻
[1]R Shamshiri R, Weltzien C, Hameed I A, et al. Research and development in agricultural robotics: A perspective of digital farming [J]. International Journal of Agricultural and Biological Engineering, 2018, 11(4): 1-14.
[2]Zheng X, Lei Q, Yao R, et al. Image segmentation based on adaptive K-means algorithm [J]. EURASIP Journal on Image and Video Processing, 2018, 2018(1): 1-10.
[3]Qi C, Gao J, Pearson S, et al. Tea chrysanthemum detection under unstructured environments using the TC-YOLO model [J]. Expert Systems with Applications, 2022, 193: 116473.
[4]Gené-Mola J, Gregorio E, Guevara J, et al. Fruit detection in an apple orchard using a mobile terrestrial laser scanner [J]. Biosystems Engineering, 2019, 187: 171-184.
[5]Mao S, Li Y, Ma Y, et al. Automatic cucumber recognition algorithm for harvesting robots in the natural environment using deep learning and multi-feature fusion [J]. Computers and Electronics in Agriculture, 2020, 170: 105254.
[6]Birrell S, Hughes J, Cai J Y, et al. A field-tested robotic harvesting system for iceberg lettuce [J]. Journal of Field Robotics, 2020, 37(2): 225-245.
[7]Luo L, Tang Y, Lu Q, et al. A vision methodology for harvesting robot to detect cutting points on peduncles of double overlapping grape clusters in a vineyard [J]. Computers in Industry, 2018, 99: 130-139.
[8]劉偉, 張群, 李志堅, 等. 不同品種黃花菜游離氨基酸組成的主成分分析及聚類分析[J]. 食品科學, 2019, 40(10): 243-250.
Liu Wei, Zhang Qun, Li Zhijian, et al. Principal component analysis and cluster analysis for evaluating free amino acids of different cultivars of daylily buds [J]. Food Science, 2019, 40(10): 243-250.
[9]余蕾. 大同黃花農產品區域公用品牌傳播策劃案[D]. 杭州: 浙江大學, 2019.
Yu Lei. Branding communication plan of Datong Day Lily regional public brand [D]. Hangzhou: Zhejiang University, 2019.
[10]李可昕, 張超凡, 劉佩冶, 等. 鮮黃花菜衰老機制與采后貯藏保鮮技術研究進展[J]. 食品科學, 2022(17): 398-404.
Li Kexin, Zhang Chaofan, Liu Peizhi, et al. Fresh daylily: Progress in research on its senescence mechanism and review of technologies for its postharvest preservation [J]. Food Science, 2022(17): 398-404.
[11]Fu L, Tola E, Al-Mallahi A, et al. A novel image processing algorithm to separate linearly clustered kiwifruits [J]. Biosystems Engineering, 2019, 183: 184-195.
[12]Sa I, Ge Z, Dayoub F, et al. DeepFruits: A fruit detection system using deep neural networks [J]. Sensors, 2016, 16(8): 1222.
[13]謝忠紅. 采摘機器人圖像處理系統中的關鍵算法研究[D]. 南京: 南京農業大學, 2013.
Xie Zhonghong. Research on key algorithm of image processing system of fruit picking robot [D]. Nanjing: Nanjing Agricultural University, 2013.
[14]Amatya S, Karkee M. Integration of visible branch sections and cherry clusters for detecting cherry tree branches in dense foliage canopies [J]. Biosystems Engineering, 2016, 149: 72-81.
[15]Zhu X, Lü S, Wang X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 2778-2788.
[16]Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model [J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[17]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28: 91-99.
[18]Jiang H, Learned-Miller E. Face detection with the faster R-CNN [C]. 2017 12th IEEE International Conference on Automatic Face amp; Gesture Recognition (FG 2017). IEEE, 2017: 650-657.
[19]張文超. 基于圖神經網絡的人體姿態識別關鍵技術研究[D]. 四川: 電子科技大學, 2022.
Zhang Wenchao. Research on key technologies of human posture recognition based on graph neural network [D]. Sichuan: University of Electronic Science and Technology of China, 2022.
[20]Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. ArXiv Preprint ArXiv: 1804.02767, 2018.
[21]Papandreou G, Zhu T, Chen L C, et al. PersonLab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 269-286.
[22]Zhu C, He Y, Savvides M. Feature selective anchor-free module for single-shot object detection [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 840-849.
[23]Zhou X, Wang D, Krhenbühl P. Objects as points [EB/OL].
https://arxiv.org/pdf/1904.07850.pdf, 2019.