中圖分類號:S24 文獻標識碼:A 文章編號:2095-5553(2025)07-0153-11
Abstract:Fortheneesofinteligent managementof peach pickingtourismorchards,adeep learning-based picking recognitionmethodis proposed.Themethod usesmachine visionand deep learning technologies tointegratea lightweight humanposture estimationalgorithmLightweight OpenPose,atarget detectionalgorithmYOLOv5s,andatarget tracking algorithm DeepSORT to develop a peach picking behavior detection approach.It can be divided into three steps according tothefunctional order:the picking posture determination method basedonthehuman body joint angles,the pickingtargetdeterminationmethodbasedonnearest neighborretrievaland itsoptimization,andthepicking targetdetection failure solution method based onthesetstatus flags.A dataset is established basedonthe actual peach picking videos for performance tests.Comparing the method based on the angle of human joints proposed in thispaper with the traditionalmethodof using bounding boxesenclosinghuman joints,the methodinthispapercanimprove theprecision of determination
rate of hand-raising action by 16% .For the problem of determining the picking target,the nearest neighbor retrieval approach outperforms both thetraditional method basedonthe comparison of distanceand reference size and the method based on the comparison of IoU and thresholds,with an increased P rate by at least 11% . The picking target detection failure solution method basedonsetstatus flags efectivelysolves the influenceof handoclusionon the detection results,substantially improving the P rateby 39% .On this basis,an experimental system is designed to test the proposedmethod under real-world conditions.Theresultsshow that the proposed peach picking recognition method achieves effective and accurate recognition of picking actions in actual orchard environments. Keywords:smart agriculture;agritourism; peach;picking recognition;deep learning; human postures
0 引言
桃子是我國重要的果樹品種,也是農業采摘園中常見的果樹之一[1]。相比于大棚環境下的果樹種植,桃樹通常采取露天栽培方式。在采摘園區內,游客的分布呈現較為分散的特點。游客的采摘行為往往與其采摘興趣等個人偏好密切相關,通過對游客采摘動作的監督與分析,可以間接評估其采摘興趣等。然而,近年來隨著人工成本不斷攀升等因素影響,依靠大量人力對游客行為進行監督分析的策略已變得不切實際。因此,亟須采用新的農業技術對桃子采摘果園進行科學高效管理。
深度學習技術在家禽家畜個體與姿態識別、農作物及雜草識別、農作物病蟲害檢測等農業領域應用廣泛[2,3]。如李菊霞等[4]采用YOLOv4 模型對豬只飲食行為進行檢測,試驗結果表明,該方法在不同視角、不同遮擋程度以及不同光照下均能實時有效地檢測豬只飲食行為。胡志偉等5在特征金字塔網絡FPN中引入融合通道注意力與空間注意力的雙重注意力單元,實現對復雜場景中生豬實例的精確檢測。彭明霞等[6]將特征金字塔網絡FPN融人FasterR—CNN,并選用殘差卷積網絡提取圖像特征,使模型在田間復雜條件下快速、準確識別棉花與雜草。劉莫塵等采用融合帶色彩恢復的多尺度視網膜增強算法對YOLOv4—tiny模型進行改進,實現在復雜實際場景中對玉米苗和雜草的高效準確分類。鮑文霞等8采用基于多路卷積神經網絡的方法,對大田環境下麥穗赤霉病的識別精度高達 100% 。甘雨等引入注意力模塊CA對EfficientNet網絡進行改進,構造出CA—EfficientNet模型。該模型有效提高了作物害蟲的識別準確率,并大幅減少模型參數量,使其易于部署到移動端。Dyrmann等[10]提出了一種基于DetectNet網絡實現復雜環境條件下對麥田中雜草的檢測方法。Amara等[11對LeNet架構進行改進,實現對現實場景中的香蕉樹葉片進行高魯棒性疾病檢測。Veeraballi等12提出了一種改進的ResNet50網絡對木瓜植物的葉片疾病進行識別和分類。上述研究表明,利用深度學習技術可以較好地對農業領域的動、植物等生物對象及其行為進行識別。
具體到果園場景中,深度學習的應用主要集中在對果樹病蟲害識別以及對果樹各個部位的識別(如識別果實,進而進行果實計數、果實自標跟蹤等問題的研究)。彭紅星等[13將經典SSD深度學習模型中的VGG16輸人模型替換為ResNet—101模型,解決了重疊和受遮擋果實的目標檢測問題。穆龍濤等[14]采用改進的AlexNet作為FasterR—CNN的特征提取層,降低了網絡復雜度,減少了計算量,并且具有較高的檢測精度。劉芳等[15]將其設計的含有殘差模塊的DarkNet—20網絡替換YOLO的主干網絡,并融合多尺度檢測模塊,更好地實現特征提取。Rahnemoonfar等[16]提出一種基于改進Inception—ResNet架構的方法獲取多尺度特征,用于實現果實的準確計數以及產量估計,實現了 91% 的準確性,而原始Inception—ResNet的準確性為 76% 。Koirala等[1基于YOLO檢測框架設計了MangoYOLO,該架構比YOLOvl更深,但比YOLOv3更淺,用于芒果果實檢測任務中的內存和速度優化,并且模型對水果遮擋及可變照明條件等問題具有魯棒性。Kestur等[18提出了深度全卷積神經網絡MangoNet來分割圖像中的芒果果實,通過連接對象對圖像中的果實進行計數,該網絡的F1達0.84,較傳統目標檢測網絡有顯著提高。
本文重點研究在觀光采摘果園中識別游客等對象的采摘行為,該采摘行為不僅涉及對人體姿態的檢測,也需要結合對果實空間位置變化的檢測。采摘過程中,人體姿態動態變化,果實位置也會發生較大位移。以往的研究中,對果園情境中人體姿態識別的研究較為不足,多側重于對果實及其位置進行識別與跟蹤的研究工作,目的大多是為了進行產量估計,檢測過程中果實位移量不大。此外,采摘行為的識別還需要對人體與果實接觸情況進行判定,目前關于這方面的研究也有所不足。
考慮到對樹上果實的采摘行為進行識別的任務涉及對人體動作以及果實位置兩個方面的判斷,因此,需要引人人體姿態估計算法和目標檢測算法作為采摘識別任務的基礎算法。由于采摘行為是一個動態過程,因而還需要結合目標跟蹤算法對不同幀之間的果實進行關聯。因此,本文融合基于人體姿態估計算法、目標檢測算法和目標跟蹤算法,針對現實場景中的具體問題對上述算法模型進行優化,構建基于深度學習的果樹采摘識別架構,從而實現對果實采摘結果的準確判定。
1果實采摘行為檢測網絡架構
1.1 網絡架構YOLOv5
YOLOv5是一種單階段目標檢測算法,該算法在前幾代YOLO算法的基礎上進行改進,使其在檢測速度與精度方面得到較大提升[19]。YOLOv5在主干網絡中采用原創的Focus模塊,將信息從寬高維度集中到通道維度,提高每個點的感受野,有效減少參數量和計算量,提升推理速度。并且采用C3模塊替換原來主干網絡中的BottleneckCSP模塊,使模型在性能不下降的情況下精簡網絡結構,減少計算量,降低模型推理時間。此外,將原本SPP模塊中3個并行的最大池化層替換為串行結構的SPPF模塊,大大減少前向計算和反向計算的時間。由于YOLOv5集成了各種高效模塊,使其獲得高精度和高實時性的檢測效果。因此,若將其應用于果實采摘識別任務中,可望實現對果實檢測目標的快速準確定位,為采摘目標判斷以及果實采摘位移過程中跟蹤果實目標提供穩定準確的位置信息。相比于YOLOv5其他版本,YOLOv5s結構最為簡潔,模型小、計算量小、速度快,特別適用于本文的應用情景。
1.2Lightweight OpenPose網絡
Lightweight OpenPose是在OpenPose基礎上提出的一種輕量版[20]。OpenPose網絡可根據輸入圖片生成一個部分置信圖(PCM)和一個部分親和場(PAF)。前者生成用來預測關鍵點位置的熱力圖(Heatmap);后者是在關鍵點之間建立的一個向量場,描述肢體的方向。獲得熱力圖和部分親和場后,使用二分圖最大權匹配算法來對關鍵點進行局部關聯,并用匈牙利算法(HungarianAlgorithm)求得相連關鍵點最優匹配,從而組合成人體骨架,描述人體姿態。LightweightOpenPose的流程與OpenPose基本一致,但在OpenPose的基礎上做了以下改進:將OpenPose的主干網絡VGG19替換為輕量型網絡Mobilevl,大幅減少模型參數量。在此基礎上,把生成keypoints和PAFs的兩個網絡合并成一個,并將 7×7 卷積換成 3×3 和 1×1 的卷積。這些操作共同作用使得LightweightOpenPose在檢測速度方面的性能大幅提升,并且在參數量只有OpenPose的 15% 的情況下,保持較高的檢測精度。因此,若將其應用于采摘識別模型當中,可以使其減少對高性能計算機的依賴,擴大模型的應用范圍,并且可以保持較好的實時性。
1.3 DeepSORT網絡
DeepSORT 的前身是 SORT 算法[21]。SORT算法通過目標檢測器在第一幀檢測到的結果創建對應的軌跡。將卡爾曼濾波的運動變量初始化,通過卡爾曼濾波獲得軌跡在下一幀的預測框。在下一幀中將目標檢測框和軌跡預測框進行IoU匹配,再通過匹配結果計算其代價矩陣。將其輸入匈牙利算法,可以得到3種不同的線性匹配結果。第1種是Tracks(代表軌跡信息)失配,將失配的Tracks刪除;第2種是Detections(代表通過目標檢測算法獲得的檢測框)失配,將其初始化為一個新的Track;第3種是目標檢測框和卡爾曼濾波預測框匹配成功,說明前一幀和后一幀追蹤成功,將其對應的Detections通過卡爾曼濾波更新到對應的Tracks變量。然而SORT算法在物體發生遮擋時,存在容易丟失ID的問題。DeepSORT算法是SORT算法的改進版本,在SORT算法的基礎上增加新軌跡的狀態確認和級聯匹配。
在新軌跡的狀態確認方面,將Tracks分為確認態(Confirmed)和不確認態(Unconfirmed)。新產生的Tracks屬于不確認態;不確認態的Tracks必須和Detections連續匹配一定的次數(默認3次)才可以轉化成確認態。確認態的Tracks必須和Detections連續失配一定次數(默認30次),才會被刪除。在級聯匹配方面,根據卷積神經網絡提取到的目標物體的外觀特征和運動特征對確認態的Tracks與Detections進行級聯匹配。通過計算前后兩幀目標之間的匹配程度,實現軌跡關聯,并為每個追蹤到的目標分配ID。通過DeepSORT,可以高效準確地通過視頻數據追蹤果園場景中的對象,實現對采摘過程中的目標追蹤檢測。
2果實采摘行為檢測方法研究
2.1果實采摘行為檢測方法
對樹上果實的采摘行為定義為舉起手、手接觸果實、摘下果實3個環節的一個過程,因此,將果樹采摘行為的識別等效為對以上3個環節進行判定。若采用深度學習方法對這3個環節進行判定,即涉及自標檢測技術、人體姿態估計技術和目標跟蹤技術的應用。然而直接采用原始算法,難以滿足實際場景的需求,所以在前述算法的基礎上針對采摘識別情景做出3處重要適配改進。算法結構如圖1所示。

2.2基于人體關節角度的采摘姿態判定方法
對采摘舉手的判定涉及人體姿態,而與采摘時的舉手動作最緊密相關的部位是人的前臂。人的前臂是由手肘關節和手腕關節相連,可以通過對手肘關節和手腕關節的位置檢測,分析前臂的活動情況。對于舉起手這個動作,可以通過前臂與水平線之間的夾角 θ 進行判定。如圖2所示,以左手采摘動作為例,分析夾角 θ 與左手肘和左手腕關節點坐標之間的關系。手肘和手腕關節點坐標可以通過LightweightOpenPose模型給出。
通過圖2中對應關系可以得出夾角 θ 的正弦值以及 θ 的角度大小,如式(1)和式(2)所示。
圖2夾角 θ 與手肘和手腕關節點坐標之間的關系 Fig.2 Relationship between the angle θ and the coordinates of the elbow and wrist joint points

由于在采摘場景中還存在許多抬起前臂但并未進行采摘的動作,如圖3所示。因此,不能簡單地根據前臂拾起(即 sinθgt;0 這一條件來判定采摘時的舉手動作,需要進一步區分采摘動作與采摘干擾動作。
圖3干擾動作示例 Fig.3Interference action example

通過對數據集的觀察,發現采摘動作與其他干擾動作前臂抬起的幅度大小有明顯差異。因此,對數據集中不同動作的前臂抬起幅度進行統計。采用sinθ的值來衡量前臂抬起幅度大小。對視頻數據集中不同動作的 sinθ(θgt;0) 進行統計得到表1。
表1數據統計表Tab.1 Statisticaltable of data

注: max(sinθi)(i∈n,n 為一個視頻包含的幀數)表示某一類動作在某一個視頻中的最大 sinθi 值,代表視頻中此類動作的角度正弦峰值。max(max(sinθi)) D
為數據集中此類視頻的數量)與min(maxj(sinθi) )表示在數據集所有視頻中該類動作的角度最大正弦值波動范圍。
由表1可知,可以通過設置閾值為0.6,將采摘舉手動作和干擾動作區分。據此劃分不同區間,并通過設置采摘舉手標志PickPutup對不同區間進行表示。當前臂擺動幅度滿足 sinθgt;0.6 時,視為采摘舉手動作,以此作為采摘舉手的判定條件。此時可以繼續進行后續的采摘相關檢測。而對摘下果實的判定條件為:若在手放下狀態時采摘目標果實的檢測框中心點位置比手腕關節點低,即視為果實被摘下。
2.3基于最近鄰檢索的采摘目標確定方法及其優化
在果實采摘識別的環節中還有一個是對手接觸果實的判定。傳統對人手接觸物體的判定方法有兩種:(1)當手腕關節點與目標物體中心的距離小于預設參照物的尺寸時,判定人手接觸該物體。預設參照物一般取人手的長度,以往多采用前臂長度的1/2代表人手的長度;(2)利用交并比(IoU)算法,以手腕關節點為中心自設矩形框,邊長為手長的2倍。當手腕矩形框與目標物體的交并比值超過設定閾值時可判定人手接觸該物體。
由于對人手是否接觸果實進行判定是為了確定采摘目標,以便在下一步的摘下果實判定環節對相應果實的位置進行比對。說明判定手是否接觸果實問題可以進一步轉化為確定采摘目標問題,但是需要保證結果的唯一性。
關于基于手腕與目標物體之間的距離或交并比這兩種方法,當有多個果實距離人手較近時,滿足條件的果實可能不唯一,如圖4所示,這樣就難以保證確定采摘目標的唯一性。
圖4傳統方法檢測效果示例
Fig.4Example of the effect of traditional methodsofdetection

利用最近鄰檢索方法找出距離手腕關節點最近的果實目標中心點。其對應的果實目標具有唯一性,可用于進行采摘目標的判定。圖5為某一幀中查找距離手腕關節點最近果實的流程。
此處確定的果實目標只是在某一時刻距離手腕最近,顯然不足以被判定為采摘目標。采摘目標對應的果實必然是在一段時間內多次距離手腕關節點最近的果實,那么便需要解決此處時間長短的問題。在視頻中一般用連續的幀數來反映一段時間的長度,因此,問題就轉化為選取合適的檢測幀數。
圖5某一幀中查找距離手腕關節點最近果實的流程圖 Fig.5Flowchart forfinding the closest fruit to awristnodeinagiven frame

為此,在數據集上進行多輪試驗與驗證,發現當取20幀作為連續檢測幀數的范圍時,本方法檢測采摘目標的準確性最高。但是依然存在小部分沒有準確檢測出采摘目標的情況。通過對檢測失敗的視頻進行分析,發現檢測錯誤的情況主要分為兩種:一種是如圖6(a)所示的采摘目標與其他果實到手腕關節點的距離差不多的情況;另一種是如圖6(b)所示,手越過近處果實未采摘而采摘較遠處的果實。
圖6未準確檢測出采摘目標的情況示例 Fig.6Example of a situation where the picking targetwasnotaccuratelydetected

讀取圖6中的采摘目標錯檢情況所對應的20幀數據,結果如表2所示。在圖6所示的情況中,雖然被錯檢為采摘目標是連續20幀中最多次距離手腕關節點最近的果實,但并非是在檢測范圍的最后幾幀中檢測到最近的果實。說明此時手腕關節點已經遠離該果實,該果實不應該被判斷為采摘目標。
由此說明,根據前述條件并不足以確保對采摘目標的準確檢測。因此,需要對確定采摘目標的條件進行優化,對其補充條件進行進一步約束。

通過觀察數據集中的采摘動作,可以發現在手接觸到采摘目標前的一小段時間內,采摘目標一直是距離手腕關節點最近的果實。將其轉化為以下約束條件:對連續20幀這一檢測范圍進行劃分,找出前 n 幀中與手腕關節點距離最近的頻率最高的果實,將其視為潛在采摘目標。在后面的 20-n 幀中,當其連續滿足成為潛在采摘目標的條件,則判定為采摘目標。采摘目標的檢測流程如圖7所示。
表2圖6所示場景的檢測數據 Tab.2Detection data for the scenario shownin figure6

2.4基于設定狀態標志的采摘目標檢測失效解決方法
通過數據集中的視頻數據可以發現,在采摘過程中,當人手觸及果實時往往會對果實造成遮擋,使目標檢測算法無法檢測出采摘目標,如圖8(a)所示,進而導致丟失對采摘目標的跟蹤,如圖8(b)所示。
圖8采摘目標丟失檢測與跟蹤示例
Fig.8Example of picking target loss detection and tracking

如果繼續采用前述算法進行采摘目標的判斷,那此時檢測到的距離手腕關節點最近的果實并非采摘目標,這將導致采摘目標檢測錯誤,并將影響到后續對摘下果實進行判定的準確性。
通過對模型功能需求的分析,發現在后續環節中只需用到采摘目標id這一參數,因此,沒有必要在確定采摘目標后繼續對其進行檢測。針對這一問題,設定不進行采摘目標檢測的標志Nodetect,以避免模型對采摘目標的誤檢測。Nodetect值為O時,表示當前需要對采摘目標id(即pick_id)進行檢測,值為1時則相反。將Nodetect初始值設為O。當檢測出pick_id后,將Nodetect的值置為1,表示在本次采摘動作過程中對pick_id的檢測結束,不再進行檢測。當一次采摘動作結束,則將Nodetect的值置O,恢復到初始狀態,為新一次的采摘動作檢測做準備。圖9為在一次采摘行為過程中Nodetect取值的變化情況。
圖9一次采摘行為過程中Nodetect取值的變化情況 Fig.9Changesin Nodetect valuesduring one pickingbehavior

3試驗結果與分析
3.1 數據集制作
由于果實采摘識別主要涉及對人體動作以及果實位置變化的分析,因此,為滿足模型訓練的需要,不僅需要建立用于采摘動作檢測的游客行為視頻數據集,還需要構建用于果實目標檢測的果實圖像數據集。
試驗果園位于閔行區浦江鎮,以當地廣泛種植的桃子作為研究對象,采集游客在園中進行的采摘等行為活動的視頻數據。在此基礎上截取桃子圖像,制作桃子圖像數據集。
1)采摘園中游客行為視頻數據集。試驗中,在園中選取不同合適位置設立支架,搭載攝像機拍攝以采摘桃子為主的園中游客行為活動的視頻。共拍攝120段視頻,其中包含采摘行為的視頻有78段。每段視頻時長30s左右,視頻幀率為30幀/s,保存為
MP4格式。為彌補場地的單一性對人的行為活動多樣性造成的限制,在網上搜集合適的視頻對數據集進行補充。在網上下載281個在采摘果園環境中的包含游客的視頻。通過人工挑選,篩除鏡頭切換太頻繁導致單一個體出鏡時間太短無法判斷其行為以及個體雙手全被遮擋無法判斷手部活動等情況的視頻。保留符合要求的有效視頻數據89個。此視頻數據集共包含209個視頻,部分視頻示例如圖10所示,其中包含采摘行為的有126個,采摘動作共計278次。其他不包含采摘行為的視頻大致分類及對應數量如下:走路視頻32個,整理東西視頻21個,其他行為視頻30個。
圖10視頻數據集中部分視頻示例 Fig.10Selected video examples from the video dataset

2)桃子圖像數據集。首先,從以上視頻數據集中截取包含桃子的圖像,得到果園環境中桃子圖像1268幅。然后,使用LabelImg軟件對這些圖像中的桃子果實位置進行標注。標注時,對于肉眼無法清楚判斷是否存在果實的模糊像素點不進行標注。標注后得到的xml文件包含桃子果實的中心坐標、寬、高信息。為增加圖像的多樣性,避免模型在訓練時發生過擬合的情況,采用數據增強的方式對圖像進行擴增。采用水平翻轉、旋轉角度、隨機顏色、對比度增強和顏色增強的數據增強方法,效果如圖11所示。
圖11數據集數據增強示例Fig.1l Example of dataset data enhancement

采用數據增強方式擴增后得到7608幅圖像及其對應的 xml 文件。由于YOLO系列算法在訓練時需要txt格式的標注文件,因此,通過python編程將 xml 文件轉化為txt文件。將其與對應的圖像作為本試驗的桃子圖像數據集,并按照 8:2 的比例將其劃分成訓練集與測試集。
3.2試驗平臺與評價指標
試驗硬件環境:CPU為i7一12700H,GPU為NVIDIARTX3060。操作系統為Windows10,基于PyTorch1.7平臺實現對模型的構建與訓練。軟件工具為PyCharm2021,編程語言為Python3.7。并在Anaconda虛擬環境中安裝OpenCV等依賴庫,搭建試驗環境。
對采摘行為識別模型最重要的評價標準是算法識別的準確性,并且針對已有模型的改進方法也是為了提高對采摘行為識別的準確性。因此,在試驗中以算法識別的準確性作為主要評價標準,評估提出方法的有效性。在采摘識別問題中可以用查準率 P 、查全率R 兩個指標來衡量識別結果的準確性。查準率 P 和查全率 R 計算如式(3)和式(4)所示。


式中: TP 一 實際為正樣本且被檢測為正樣本的數量;FP 實際為負樣本但被檢測為正樣本的數量;FN 實際為正樣本但被檢測為負樣本的數量。
提出的方法按照功能順序分別為基于人體關節角度的采摘姿態判定方法(用于采摘姿態識別)、基于最近鄰檢索的采摘目標確定方法及其優化(用于判定采摘目標)、基于設定狀態標志的采摘目標檢測失效解決方法(人手遮擋誤檢測抑制)3個功能步驟。為驗證提出的方法在實際采摘果園應用場景中的使用效果,按照功能步驟。
3.3識別采摘姿態的不同方法比較
試驗對采用不同方法識別采摘姿態的準確性進行對比。傳統上對人體姿態進行識別是根據人體關節點外接矩形框的寬高比值范圍對人體姿態進行判定?;谧灾茢祿瘜Σ烧藨B的人體框寬高比值進行統計,發現對于采摘姿態該值范圍為(0.38,0.45),寬高比算法可以達到最佳效果,因而,在試驗中以此作為寬高比算法采摘姿態的判定條件。提出的方法為采用基于關節點角度的方法對采摘姿態進行判定,當前臂與水平線夾角的正弦值 sinθgt;0.6 時,則判定為采摘姿態。
采用視頻數據集中的全部視頻進行試驗,以查準率 P 和查全率 R 作為衡量不同方法識別準確性的指標。在試驗中將 TP 定義為實際為采摘姿態且被識別為采摘姿態的次數, FP 定義為實際為其他姿態但被識別為采摘姿態的次數, FN 定義為實際為采摘姿態但未被識別為采摘姿態的次數。結果如表3所示。
表3采用不同方法識別采摘姿態的結果Tab.3Results ofusingdifferent methodstoidentify picking gestures

由表3可知,采用人體框寬高比方法識別采摘姿態的查準率 P 顯著低于本文方法。結合式(3)與表3可知,此處查準率 P 較低,主要是由 FP 較高引起的。而FP 較高,說明該方法將許多其他姿態誤識別為采摘姿態。圖12(a)~圖12(c展示了采用人體框寬高比方法而誤將其他姿態判定為采摘姿態的例子。從這3個錯誤示例可以看出,僅根據人體關節點外接矩形的寬高比這一條件不足以界定采摘姿態,因為還有許多其他姿態也可以對應到采摘姿態的人體關節點外接矩形寬高比范圍中。說明該方法的判定條件難以有效區分采摘動作與其他動作。另外,現實情況下往往存在設備未能完整采集到人體圖像的問題,如圖12(c)所示,嚴重干擾到此種方法的檢測結果,說明該方法難以應用到復雜的實際場景中。
圖12不同方法對采摘姿態的識別結果對比 Fig.12 Comparison of the recognition results of different methods for picking gesture

圖12(d)~圖12(f展示本方法在相應視頻上的識別結果。結果顯示,對于采用人體框寬高比方法未能準確判定的姿態,本方法均可正確判定。相比之下,本文基于關節點角度的判定方法與采摘姿態的契合度更強,因而,在查準率和查全率指標上的表現更佳。
3.4判定采摘目標的不同方法比較
試驗對采用不同方法進行采摘目標判定的準確性進行對比。采摘自標的判定問題實質上是判定人手是否接觸物體問題的延伸。以往對人手接觸物體的判定方法主要有基于手腕與目標物體之間的距離與交并比這兩種。將其應用到判定人手是否接觸果實的問題上,以上兩種方法可以進一步描述:前者是當手腕關節點與目標物體中心的距離小于預設參照物的尺寸時,判定人手接觸該物體;后者以手腕關節點為中心自設矩形框,當手腕矩形框與目標物體的交并比值超過設定閾值時,判定人手接觸該物體。所提出的方法是基于最近鄰檢索算法找出距離手腕關節點最近的果實,在此基礎上進行人手接觸果實的判定。
采用兩種傳統方法進行試驗時,需要對其涉及的參數設定合適參數值。采用距離與參照物尺寸進行對比的方法需要選取參照物并確定其尺寸,沿用以往方法中以人手作為參照物并取前臂長度的一半來代表人手長度的做法。采用交并比值與閾值對比方法需要選取自設矩形框的邊長和交并比的閾值,自設矩形框的邊長可沿用以往方法選定為手長的2倍,而交并比的閾值則需要結合實際統計來進行選取。為此,通過在數據集上進行試驗與統計,發現在采摘行為中,以手腕關節點為中心的自設矩形框與目標果實的檢測框二者的交并比值一般大于0.9。因此,選取0.9作為該方法的交并比閾值。
以上討論的是判定手是否接觸果實問題的3種方法,應進一步轉化使其可應用于解決采摘目標判定問題。采用3種方法進行采摘目標判定的具體試驗方案:以發生采摘舉手動作作為采摘行為的開端,在此基礎上進行采摘目標的確定。以發生采摘舉手動作后的連續20幀作為采摘目標檢測范圍,3種方法各自對應采摘目標的判定條件如表4所示。
表4不同方法對采摘目標的判定條件Tab.4Judgment conditions of different methods forpicking targets

由表5可知,采用前兩種方法對采摘目標的判定都存在查全率高而查準率低的問題。通過追溯采用這兩種方法而未被正確判定采摘目標的視頻,對查準率低的原因進行分析。圖13選取試驗采取的不同方法在2個典型場景下的檢測結果進行展示。這2個場景的最大差別在于果實目標大小以及人的手臂長短。在第1個場景中,采用方法1,有兩個果實滿足判定條件,這是因為這兩個果實距離手腕關節點都比較近;而采用方法2和方法3都只確定了1個果實目標。在第2個場景中,采用方法2,有2個果實滿足判定條件,這是由于在此場景中果實目標較小而且人的手臂較長,使交并比的值較大,易達到設定閾值。而采用方法1和方法3都只確定1個果實目標。
表5采用不同方法判定采摘目標的試驗結果 Tab.5Experimental results ofusingdifferent methods to determine picking targets

圖13不同方法在兩種典型場景下的試驗結果 Fig.13Experimental resultsof different methods in two typical scenarios

通過以上分析可知,若采用前兩種方法,無論如何選取參照物與閾值,在真實場景下都可能存在不止1個果實滿足此條件。結合到本文具體問題,這樣就容易將其他果實誤判為采摘目標。說明手接觸果實的判定問題在轉化為采摘目標的確定問題時,還需要考慮檢測結果的唯一性這一因素。相比之下,本文提出的基于最近鄰檢索的方法,使每幀滿足條件的果實對象具有唯一性,有效彌補了前述方法的不足,更有利于準確檢測采摘目標。表5從數據方面驗證本文方法的檢測準確性較高,在查準率和查全率上的表現較好。
3.5模型Nodetect狀態標志對采摘目標檢測的影響設定Nodetect狀態標志是為避免人手遮擋導致模型對采摘目標的誤檢測。為驗證該方法的有效性,在試驗中對Nodetect狀態標志設定與否對模型檢測采摘目標的準確性進行對比。
由于試驗要考察的也是采摘目標檢測的準確性,因此,試驗的視頻范圍、參數定義以及評價指標皆與3.4節中的試驗設定相同。由表6可知,若不設定Nodetect狀態標志,即使模型可以檢測出每個視頻中正確的采摘目標,但也會將許多非采摘對象的果實誤識別為采摘目標。即在一次采摘過程中,模型可能會檢測出多個采摘目標,將嚴重影響到后續果實摘下判定環節的正確執行。
表6設定狀態標志與否對采摘目標檢測的影響 Tab.6Effect of setting status flags or not on pickingtarget detection

圖14展示以上2種方法在采摘目標受遮擋的同一視頻上的試驗結果。圖14(a)反映采用不設定Nodetect狀態標志方法時,當2號采摘目標受到人手遮擋丟失目標檢測與目標跟蹤后,模型將3號果實錯判為采摘目標。圖14(b)反映采用設定Nodetect狀態標志的方法時,當檢測出采摘目標后就不再對其進行檢測,可以有效避免對采摘目標誤判的情況,確保采摘行為識別后續環節可以讀取到正確的采摘目標信息以進行下一步操作。
圖14設定狀態標志與否的試驗結果對比 Fig.14 Comparison of experimental results with and without setting status flags

4系統設計及現場測試
為進一步在真實情境中對上述方法進行實際使用效果測試,并實現對采摘園中的游客采摘行為的智能化監督管理,基于上述采摘識別模型,設計桃子采摘園智慧監管系統。
該系統由螢石監控攝像頭(CS一H5)、螢石云平臺和上位機三部分組成。監控攝像頭負責采集采摘園現場圖像數據,通過Wi-Fi或有線網絡將圖像數據輸送到云平臺;云平臺可以實現攝像頭與上位機端的圖像數據傳輸;上位機端向云端發送請求獲取視頻數據,采用訓練好的采摘識別算法對獲取的視頻圖像進行檢測。本系統的網絡拓撲圖如圖15所示。當系統識別出采摘行為后,將采摘信息(如人數、采摘次數等)與檢測后的視頻圖像展示在系統用戶界面上,并將采摘信息數據存儲到數據庫中,以便管理人員進行數據分析。
圖15系統網絡拓撲圖Fig.15 System network topology diagram

由于現實場景中存在對歷史和實時2種形式視頻文件中采摘行為的檢測需求,因此,該系統在工作流程方面提供2種選擇,如圖16所示。
圖16系統功能實現流程Fig.16Flow chart of system function implementation

選擇一,系統通過運用云平臺的人像告警功能,使上位機端訪問云平臺獲取告警視頻。待用戶需要時可選取相應的歷史告警視頻進行采摘識別檢測。選擇二,如果用戶需要實時監控現場是否發生采摘行為,則上位機系統通過訪問攝像頭在螢石云平臺的直播源地址獲取實時視頻流,通過采摘識別算法對捕獲到的視頻流進行檢測。系統將檢測到的采摘行為信息展示在系統用戶界面上,并連同其他相關信息一同存人數據庫。
在閔行區某桃子采摘園進行系統功能測試。首先,對兩種不同視頻輸入源的系統檢測效果進行測試。當監控區域有人出現時,云平臺向用戶端發送告警信息,并且對該監控區域錄像。而錄像視頻的保存名稱為視頻錄制的起始時間。當用戶收到有人進入監控區域的告警消息后,用戶可根據實際需求,在上位機應用上選擇歷史視頻中相應的視頻文件。然后,選擇模型權重文件,點擊界面的運行按鈕,系統將展示檢測后的視頻圖像、視頻文件信息和檢測結果。圖17為歷史視頻的檢測結果展示。如果用戶想要實時監控現場是否發生采摘行為,則點擊用戶界面上的實時視頻對想要查看的監控區域對應的攝像頭編號進行選擇,其他操作同上。圖18為實時視頻的檢測結果。

對基于果樹采摘行為識別方法的采摘園智慧監管系統的識別準確性進行測試。在攝像頭視場范圍內進行500次隨機動作的果樹果實采摘行為及200次隨機采摘干擾動作(如整理東西、隨意走動等)。測試結果表明,除有3次因為鏡頭被飛蟲等遮擋導致系統未能讀取到清晰完整畫面,因而未能識別采摘行為之外,剩余采摘行為都被成功識別。而200次采摘干擾動作都沒有被誤判為采摘動作。
5結論
1)將深度學習技術引入到農業環境中對人體姿態進行識別,基于深度學習技術的采摘行為識別中存在3個重要的判定環節,分別是采摘姿態判別、采摘目標的判定和果實摘下判定。
2)傳統對人體姿態判別方法的研究主要考慮人體骨架的整體變化情況。對于采摘果園場景中的采摘行為,對采摘姿態的判別應考慮選擇更有針對性的約束條件。針對樹上果實的采摘行為,采摘姿態明顯不同于其他姿態,因此,應找到有效區分采摘姿態與其他姿態的判別方法。通過設定關節角度的方法,對游客不同活動的關節角度變化情況進行分析,提出一種通過關節角度判定采摘姿態的方法。通過與傳統人體姿態判別方法的試驗對比可知,基于人體關節角度的姿態判別方法能夠更準確地識別采摘姿態,查準率提高 16% 。
3)采摘目標的判定實質上是一個對人手與果實位置關系進行考量的問題。傳統對人手與物體接觸情況的研究主要基于手腕與目標物體之間的距離或交并比的方法進行衡量。對于采摘識別場景中的果實目標,采摘目標的確定應著重考慮唯一性,因此,應找到一種可以在每一幀的檢測中匹配到唯一果實的約束條件。針對采摘行為中人手與果實的位置關系,提出一種新型基于手腕與果實之間距離關系的采摘目標確定方法。針對現實場景中的手腕與果實的復雜位置關系,對該方法進行優化。通過與傳統對人手接觸物體對象的判別方法對比可知,優化后基于距離的新型方法能夠更準確地判定采摘目標,查準率提高 11% 。
4)在以上采摘目標的判定環節中,還存在人手遮擋導致采摘目標錯檢的問題,該問題將影響后續果實摘下判定環節的正確判定??紤]通過設定狀態標志的方法,避免由于果實目標檢測失效影響到最后的采摘行為判定結果。試驗結果表明,該狀態標志的設定可有效避免對采摘目標的誤判,查準率提高 39% 。
參考文獻
[1]徐磊,陳超.中國桃產業經濟分析與發展趨勢[J].果樹學報,2023,40(1):133—143.
[2]滕光輝,冀橫溢,莊晏榕,等.深度學習在豬只飼養過程的應用研究進展[J].農業工程學報,2022,38(14):235—249.TengGuanghui,Ji Hengyi,Zhuang Yanrong,etal.Research progress of deep learning in the process of pigfeeding[J].Transactions ofthe Chinese SocietyofAgriculturalEngineering,2022,38(14):235—249.
[3]翟肇裕,曹益飛,徐煥良,等.農作物病蟲害識別關鍵技術研究綜述[J].農業機械學報,2021,52(7):1-18.Zhai Zhaoyu,Cao Yifei,Xu Huanliang,et al. Reviewof key techniques for crop disease and pest detection [J].Transactions of the Chinese Society for AgriculturalMachinery,2021,52(7):1-18.
[4]李菊霞,李艷文,牛帆,等.基于YOLOv4 的豬只飲食行為檢測方法[J].農業機械學報,2021,52(3):251—256.Li Juxia, Li Yanwen, Niu Fan, etal. Pig dietbehavior detection method based on YOLOv4 [J].Transactions of the Chinese Society for AgriculturalMachinery,2021,52(3):251-256.
[5]胡志偉,楊華,婁甜田.采用雙重注意力特征金字塔網絡檢測群養生豬[J].農業工程學報,2021,37(5):166-174.Hu Zhiwei,Yang Hua,Lou Tiantian.Instance detectionof group breeding pigs using a pyramid network withdual attention feature [J]. Transactions of the Chinese Societyof Agricultural Engineering,2021,37(5):166—174.
[6]彭明霞,夏俊芳,彭輝.融合FPN的FasterR—CNN復雜背景下棉田雜草高效識別方法[J].農業工程學報,2019,35(20):202—209.Peng Mingxia,Xia Junfang,Peng Hui. Efficient recognitionofcotton and weed in field based on Faster R—CNN byintegrating FPN [J].Transactions of the Chinese Society ofAgricultural Engineering,2019,35(20):202—209.
[7]劉莫塵,高甜甜,馬宗旭,等.基于MSRCR—YOLOv4一tiny的田間玉米雜草檢測模型[J].農業機械學報,2022,53(2):246—255,335.Liu Mochen, GaoTiantian, Ma Zongxu,etal.Target detection model of corn weeds in field environmentbased on MSRCR algorithm and YOLOv4—tiny [J].Transactions of the Chinese Society for AgriculturalMachinery,2022,53(2):246—255,335.
[8]鮑文霞,孫慶,胡根生,等.基于多路卷積神經網絡的大田小麥赤霉病圖像識別[J].農業工程學報,2020,36(11):174—181.Bao Wenxia,Sun Qing,Hu Gensheng,et al.Imagerecognition of fieldwheat scab based onmulti-wayconvolutional neural network [J]. Transactions of theChinese Society of Agricultural Engineering,2020, 36(11):174—181.
[9]甘雨,郭慶文,王春桃,等.基于改進EfficientNet 模型的作物害蟲識別[J].農業工程學報,2022,38(1):203—211.GanYu,GuoQingwen,WangChuntao,etal.Recognizing crop pestsusing an improvedEfficientNetmodel [J]. Transactions of the Chinese Society of AgriculturalEngineering,2022,38(1):203—211.
[10] Dyrmann M,Jorgensen R N,Midtiby H S. Roboweed support detectionof weed locations in leafoccluded cerealcropsusinga fullyconvolutionalneural network [J]. Advances in Animal Biosciences,2017,8(2): 842-847.
[11] Amara J,Bouaziz B,Algergawy A. A deep learningbased approach for banana leaf diseases classification [C].Datenbanksysteme Iur Business, Technologie und Web(BTW 2Ol7)-Workshopband.Gesellschaft fur InformatikeV,2017:79-88.
[12]VeeraballiRK,Nagugari M S,et al.Deep learningbased approach for classification and detection of papayaleaf diseases [C]. 18th International Conference onIntelligent Systems Design and Applications, 2020.
[13]彭紅星,黃博,邵園園,等.自然環境下多類水果采摘目標識別的通用改進 SSD模型[J].農業工程學報,2018,34(16):155—162.Peng Hongxing,Huang Bo,Shao Yuanyuan,et al.Generalimproved SSD model forpickingobjectrecognition of multiple fruits in natural environment [J].Transactions of the Chinese Society of AgriculturalEngineering,2018,34(16):155-162.
[14]穆龍濤,高宗斌,崔永杰,等.基于改進 AlexNet 的廣域復雜環境下遮擋獼猴桃目標識別[J].農業機械學報,2019,50(10):24—34.MuLongtao,GaoZongbin, CuiYongjie, etal.Kiwifruit detection offar-view and occluded fruit basedon improved AlexNet [J].Transactions of the Chinese Societyfor Agricultural Machinery,2019,50(10):24-34.
[15]劉芳,劉玉坤,林森,等.基于改進型 YOLO的復雜環境下番茄果實快速識別方法[J].農業機械學報,2020,51(6):229-237.LiuFang, Liu Yukun, Lin Sen, etal. Fastrecognitionmethod for tomatoes undercomplexenvironments based on improved YOLO [J].Transactions of the Chinese Society for AgriculturalMachinery,2020,51(6):229-237.
[16] Rahnemoonfar M, Sheppard C. Deep count:Fruitcounting based on deep simulated learning [J]. Sensors,2017,17(4):905.
[17] Koirala A,Walsh K B,Wang Z,et al. Deep learningforreal-time fruit detection and orchard fruit loadestimation:Benchmarking of‘MangoYOLO’[J].Precision Agriculture,2019,20(6):1107—1135.
[18] Kestur R,Meduri A,Narasipura O. MangoNet: Adeep semantic segmentation architecture for a methodto detect and count mangoes in an open orchard [J].Engineering Applications of Artificial Intelligence,2019,77:59-69.
[19] Redmon J, Farhadi A. YOLOv3: An incrementalimprovement [J]. Computer Science,2018,4(1): 1-6
[20] Cao Z,Hidalgo G, Simon T, etal.OpenPose:Realtime multi-person 2D pose estimation using part affinityfields [J]. IEEE Transactions on Pattern AnalysisandMachine Intellgence,2021,43(1):172—186.
[21] Wojke N, Bewley A, Paulus D. Simple online andrealtime tracking with a deep association metric [C].IEEE International Conference on Image Processing,2018:3645-3649.