





摘要:針對小麥收割機在農場無人駕駛作業時無法實現動態障礙的實時避障,無人駕駛技術安全性低等問題,設計一種基于立體視覺與深度學習相結合的無人駕駛立體視覺感知系統。首先使用立體視覺相機采集左右目灰度圖像,通過圖像中像素位置的視差以及立體視覺成像原理,實現對障礙物的距離計算;再將相機采集的RGB圖像通過深度學習進行處理,實現障礙物的檢測識別,最終完成對動態障礙物的感知。結果表明,基于立體視覺與深度學習的無人駕駛感知系統在農場無人駕駛作業中動態障礙物的檢測速率達到30.1 fps,精確率達到98.24%。該方法能夠較好的滿足作業中動態障礙物檢測的識別要求,顯著提升無人駕駛小麥收割機作業時的安全性和可靠性,為智能農機無人駕駛的研制奠定理論與技術基礎。
關鍵詞:小麥收割機;無人駕駛;立體視覺相機;深度學習;目標檢測
中圖分類號: S225; TP391; U489" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2024) 09?0244?06
Stereo visual perception system based on unmanned wheat harvester
Li Bangguo, Wang Hui, Song Yang, Ren Zhiwei, Liu Yuehua, Xu Lecheng
(Weichai LovoL Smart Agricultural Technology Co., Ltd., Weifang, 261000, China)
Abstract: In response to the problems of wheat harvesters being unable to achieve real?time obstacle avoidance of dynamic obstacles during unmanned operation on farms, and the low safety of unmanned driving technology, this paper designs an unmanned stereo vision perception system based on a combination of stereo vision and deep learning. The system first uses a stereo vision camera to collect grayscale images of left and right eyes, and calculates the distance between obstacles through the disparity of pixel positions in the image and the principle of stereo vision imaging; Then, the RGB images collected by the camera are processed through deep learning to achieve obstacle detection and recognition, ultimately completing the perception of dynamic obstacles. The research results indicate that the autonomous driving perception system based on stereo vision and deep learning has a detection rate of 30.1 fps and an accuracy rate of 98.24% for dynamic obstacles in unmanned driving operations on farms. The method proposed in this article can effectively meet the recognition requirements of dynamic obstacle detection during operation, significantly improving the safety and reliability of unmanned wheat harvesters during operation, and laying a theoretical and technical foundation for the development of intelligent unmanned agricultural machinery.
Keywords: wheat harvester; unmanned driving; stereo vision camera; deep learning; target detection
0 引言
由于我國人口老齡化以及城市化進程的加快,勞動力在數量和質量上不斷降低,依靠大量勞動力的傳統農業裝備已經不能適應當今社會和經濟的發展需要,智能化是農業裝備研究的必然趨勢[1]。農機自動駕駛技術可有效提高作業質量,作業效率和降低勞動強度,在全國各地得到了規模化應用[2?4]。
隨著科技水平不斷發展,無人駕駛技術正逐漸向智能化及產業化方向邁進,越來越多的人關注如何在復雜環境下實現精密導航定位,全球衛星導航定位系統(Global Navigation Satellite System, GNSS)、慣性導航系統(Inertial Navigation System, INS)和視覺的組合是其中一種具有潛力的組合方式[5?8]。雖然相關學者對無人駕駛技術進行了研究,但研究領域一般是在道路幾何特征明顯,有明顯車道線的結構化道路上的無人駕駛,針對道路不規則,背景復雜且隨機性較強的農田非結構化道路的無人駕駛技術研發較少。與結構化道路不同的是農田中沒有紅綠燈、交通指示牌和車道線等標志物,而是存在一些噴灌設備、樹木和墳墓等障礙物[9]。
然而針對動態障礙物國內外廠家多使用激光雷達[10, 11]搭配普通單目視覺攝像頭實現避障,但是小麥收割機作業過程中環境惡劣,激光雷達受揚塵、濃霧等環境影響較大且價格昂貴,單目攝像頭存在測距誤差大等問題。
近年來,YOLO(You Only Look Once)系列算法作為目標檢測最快的算法之一,被廣泛用于無人駕駛障礙物檢測[12, 13]。YOLO系列算法首先將圖片進行劃分單元格,在每個單元格里進行候選框的判斷,若目標的中心落在單元格中,則這個單元格就負責預測這個目標。YOLO系列算法通過利用輸入圖像所包含的信息直接得出目標的類別和邊界框,提升了算法的檢測速度與檢測效率[14]。
綜上所述,本文采用深度學習與立體視覺相結合的感知方式,構建一套基于無人駕駛小麥收割機的環境感知系統。該系統首先使用雙目攝像頭搭建立體視覺感知,獲取RGB圖像和左右灰度圖像并計算出深度距離信息,結合YOLOv5s網絡進行目標檢測,完成動態障礙物的實時檢測和避障,實現前進方向的環境情況感知,為農業裝備無人化作業的安全性、可靠性提供重要保障。
1 技術路線
1.1 YOLOv5算法
本文進行目標檢測與識別的深度學習算法是YOLOv5[15, 16]深度學習,根據深度和寬度一次增加可分為YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x。YOLOv5的網絡結構由數據輸入端,BackBone網絡、Neck網絡以及Head網絡四個部分組成,模塊化設計的同時也增強了網絡的學習能力。本文所使用的YOLOv5s具體網絡結構如圖1所示。
YOLOv5的數據輸入端通過使用Mosaic數據增強、自適應錨框計算和自適應圖片縮放等功能實現輸入數據的增強。數據輸入網絡后,將4張或9張圖片進行隨機裁剪、縮放后,再隨機排列拼接形成一張圖片,實現豐富數據集的同時,增加了小樣本目標,提升網絡的訓練速度;同時每次訓練時,自適應的計算不同訓練集中的最佳錨框值,反向更新后迭代到網絡參數中;在YOLOv5的圖片輸入中自適應的按照比例添加最少的黑邊,不再統一規定圖片大小。
BackBone網絡主要由CSP,Dropblock,Mish和SPPF四個部分組成,負責輸入數據的高維特征圖提取,首先通過BackBone網絡提取輸入圖像中的目標障礙物的特征圖,提取特征圖的特征信息;再將包含不同維度特征信息的特征圖傳入Neck網絡中。
Neck網絡主要由FPN和PAN組成,其主要功能為連接Backbone網絡與檢測網絡,并將Backbone網絡提取的高維特征通過上采樣和下采樣等方式進行特征融合,最終將特征提取完全的圖像送至檢測網絡進行檢測。其中FPN模塊負責與Backbone網絡連接進行上采樣,PAN模塊負責與檢測模塊的特征提取的下采樣,最終將兩者的結果進行Concat張量拼接,使得特征融合更加全面。FPN和PAN流程示意圖如圖2所示。
最后由Head網絡輸出向量,輸出向量中包括檢測目標的類別,邊框和置信度等信息。
本文系統中還加入了基于匈牙利匹配的跟蹤算法,實現了前后兩幀圖像通過YOLOv5s識別到的同一個障礙物的最優匹配結果,避免在目標識別檢測過程中因車輛震動、俯仰角變化等原因導致在前后兩幀圖像中同一障礙物檢測丟失的情況發生,確保檢測障礙物目標的穩定性。
1.2 立體視覺檢測
立體視覺檢測模塊由環境感知的立體視覺相機和提供算力的車載域控制器組成。立體視覺相機為OAK-D-PoE相機,該相機搭載三顆板載攝像頭,分別為一顆IMX378 4k/60 fps彩色攝像頭,焦距為4.81,和兩顆OV9282/120 fps全局快門深度攝像頭,焦距為2.35,雙目深度傳感器基線為7.5 cm,且相機出廠時彩色攝像頭和深度攝像頭已完成像素對齊。彩色攝像頭采集到的RGB圖像主要用來目標檢測,深度攝像頭主要采集圖像的深度信息。由于相機算力有限,因此由車載控制器為深度圖和目標檢測提供算力,提高檢測速率。
通過彩色攝像頭獲取到RGB圖像信息,將RGB圖像輸入到YOLOv5s深度學習算法中進行特征提取。利用深度學習算法,在RGB圖像中識別并框選出目標障礙物,并在對應位置生成Bounding Box,記錄障礙物像素位置信息。將RGB圖像按照逐幀方式傳入系統中并與深度圖像進行時間序列對齊,實現由深度攝像頭拍攝轉化的深度圖像與RGB攝像頭拍攝的RGB圖像進行時間戳對齊,計算出檢測框內的深度信息并將深度信息映射到RGB圖像中。深度圖和RGB對應效果如圖3所示。
兩顆深度攝像頭可以實時獲取左右灰度圖像,由于左右攝像頭存在攝像頭間距,因此左右視圖存在像素位置視差,位置視差[d]為同名點在左視圖列坐標[xl]減去右視圖列坐標[xr]的像素單位,如式(1)所示。
隨后通過雙目立體匹配算法SGBM獲取視差圖,根據最終代價選擇最佳視差,并生成視差圖。由視差圖與深度圖的換算公式能夠獲取到三維深度信息,如式(2)所示。
通過生成的深度圖信息,得到每個位置對應該像素點的深度值[z],對圖像能夠進行三維表達,即相機坐標系下的[Z]坐標。如圖4所示。
根據角度和目標障礙物對應的深度距離,確定目標障礙物在立體視覺傳感器對應的相機坐標系下的[X]軸坐標和[Y]軸坐標的坐標位置。[X]軸坐標、[Y]軸坐標和目標障礙物對應的深度距離,確定目標障礙物的中心點在相機坐標系下的目標三維位置。
其中,根據三維深度圖信息,確定目標障礙物在立體視覺傳感器對應的相機坐標系下的深度距離是指計算匹配目標框內深度圖的深度信息并基于三維深度圖信息獲得了目標障礙物的深度距離[z],通過圖像坐標系和實際物體坐標系進行坐標轉換,最終得到被測障礙物體的中心相對相機的角度[θ]。圖像的坐標轉換關系如圖5所示。
在確定了角度后,[θ]可根據所述角度和所述目標障礙物對應的深度距離,確定所述目標障礙物在所述立體視覺傳感器對應的相機坐標系下的X軸坐標和Y軸坐標,具體可根據式(4)計算得
2 試驗分析
設計的立體視覺感知系統的檢測的最遠距離為35 m,水平視場角為±30°,安裝位置距離車輛頂部0.3 m,由于無人小麥收割機自身高度約為3.5 m左右,車身較高,所以為了確保車輛近點無視野盲區,立體視覺傳感器的安裝角度為豎直方向傾斜20°,具體相機安裝位置如圖6所示。
本文訓練模型使用的工作站CPU型號為Xeon GD 6128 3.4 GHz,GPU型號為NVIDIA RTX 4000 8 G,軟件環境為python 3.6.13,Torch 1.9.0。
訓練數據集為河南南陽、江蘇、蘇州以及濰坊高密等地采集戶外實際車輛工作中有效視頻數據,并結合公開的數據集進行針對匯總整理,對全部數據進行篩選、分類和標注。目前基于目標識別的訓練數據集合計為105 320張圖片,分為定義了人和車兩種類別,其中車的類別包含電動車、轎車、三輪車、拖拉機、收獲機、運糧車等多種農田作業環境中常見車輛。數據集訓練過程如圖7所示。
YOLOv5預訓練模型共分為YOLOv5s(Small),YOLOv5m(Medium),YOLOv5l(Large),和YOLOv5x(Extra Large)四種,四種模型的結構基本一樣,不同的是模型深度和模型寬度不同,從而導致訓練速度模型大小和預測速率都會有差距。4種不同的模型對比如表1所示。
分別使用上述4種預訓練模型進行訓練,網絡模型部分參數統一設置如下:訓練輪次為100,批尺寸為16,初始學習率、學習率動量和權重衰減系數均為默認值。
對模型訓練的評價指標從以下三個方面分析。
1) 精確率(Precision):表示所有預測為正的集合中,真正樣本所占的比例。
四種預訓練模型訓練后,YOLOv5x模型到YOLOv5s模型的Precision升高1.02%,Recall提高0.99%,mAP@0.5提高0.97%,mAP@0.5:0.95提高0.85%,但檢測速率降低了12.8 fps,實時檢測效率較低。通過檢測結果可以看出在Precision、Recall和mAP較為接近的情況下,YOLOv5s檢測速率最快,實時性高,因此選擇YOLOv5s預訓練模型為初始訓練模型,以保證模型在實際應用時的安全性。不同預訓練模型的訓練效果如表2所示。
無人駕駛領域常用的深度學習主要分為兩個方向:一類是R-CNN和Fast R-CNN為代表的二階段檢測算法,具有較高精度但檢測速度較慢的特點;另一類是以SSD和YOLO系列為代表的單階段算法,優勢在于檢測速度快,可以更好地適應實時檢測任務。因此本文還將YOLOv5s與Fast R-CNN和SSD進行對比,同時還加入YOLO系列的YOLOv4,將4種不同的深度學習網絡檢測效果進行對比,檢測速率同樣使用車載域控制器進行測試。
圖8為不同訓練模型訓練集損失(Train Loss)對比,可知YOLOv5s的最終損失值最低,最終穩定在0.022左右,Fast R-CNN損失值略高于YOLOv5s,最終穩定在0.025左右,SSD損失值最終穩定在0.031左右,YOLOv4損失值最高,最終穩定在0.032左右。
4種深度學習訓練數據對比如表3所示。在檢測速率接近的情況下YOLOv5s比YOLOv4的Precision高出0.26%;而YOLOv5s在Precision、Recall、mAP@0.5、mAP@0.5:0.95和檢測速率的數值都優于SSD。Fast R-CNN的Precision比YOLOv5s高出1.07%,但是檢測速率僅有14.1 fps,比YOLOv5s的檢測速率低16 fps,不符合實時性的要求,因此選擇Precision和檢測速率綜合效果較好的YOLOv5s作為立體視覺感知系統的深度學習網絡。
為確保系統的實用性,將模型加載到立體視覺感知系統中進行實時性檢測,立體視覺感知系統中的車載域控制器負責深度學習模型的推理。車載域控制器的硬件環境的CPU為 Xeon GD,GPU型號為NVIDIA Jetson AGX Xavier 16 G,軟件環境為python3.6.12,Torch 1.8.0。
最后將模型訓練后放入車載域控制器中進行測試,該系統能夠快速有效的檢測出無人駕駛小麥收割機作業前方的動態障礙物。
本文系統設置分為3個等級,當障礙物距離作業車輛10 m范圍內時停車;當障礙物距離作業車輛20 m范圍內時減速并將障礙物信息反饋,重新規劃路線;當超過20 m時,車輛鳴笛示警,提醒司乘人員和動態障礙物注意作業車輛狀態。經過無人駕駛小麥收割機作業驗證,本文設計的深度學習與立體視覺相結合的立體視覺感知系統可以實現實時、高精度的目標檢測和跟蹤。檢測效果如圖9所示。
3 結論
1) 通過YOLOv5s深度學習算法和立體視覺感知方法,實現對動態障礙物快速有效的檢測識別以及對前進方向的環境情況進行高精度感知。設計一種基于深度學習與立體視覺相結合的立體視覺感知系統,能有效的實現田間動態障礙物的檢測,檢測準確度高(98.24%)、速度快(30.1 fps)且成本較低,可有效避免采用激光雷達和單目視覺帶來的維護困難,價格昂貴和識別效果差等技術問題,為無人化作業的安全性和可靠性提供關鍵保障。
2) 基于深度學習與立體視覺相結合的立體視覺感知系統擁有較強的擴展性和適用性,可以適用于不同農作物和作業場景,并且根據不同的環境和作業條件進行優化,從而保證系統的高效和穩定性。該系統具有更高的精度和更強的適應性,大大提高無人化作業的安全性和效率,為現代化、智能化農機和高端農業裝備的發展奠定一定的基礎。通過無人駕駛系統收割小麥,既提升收割作業的效率,又緩解駕駛人員勞動力緊缺問題,促進農業生產力的發展,是高端農業裝備發展和精細化智能農業發展的重要方向。
參 考 文 獻
[ 1 ] 常君瑞, 馬斌暢, 國芳. 5G通信技術在無人駕駛農機領域的應用研究[J]. 南方農機, 2022, 53(2): 48-50.
Chang Junrui, Ma Binchang, Guo Fang. Research on the application of 5G communication technology in the field of unmanned agricultural machinery [J]. Southern Agricultural Machinery, 2022,53(2): 48-50.
[ 2 ] 羅錫文, 廖娟, 臧英, 等. 我國農業生產的發展方向:從機械化到智慧化[J]. 中國工程科學, 2022, 24(1): 46-54.
Luo Xiwen, Liao Juan, Zang Ying, et al. Developing from mechanized to smart agricultural production in China [J]. Strategic Study of CAE, 2022, 24(1): 46-54.
[ 3 ] 周楠, 楊鵬, 魏春山, 等. 地塊尺度的山區耕地精準提取方法[J]. 農業工程學報, 2021, 37(19): 260-266.
Zhou Nan, Yang Peng, Wei Chunshan, et al. Accurate extraction method for cropland in mountainous areas based on field parcel [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(19): 260-266.
[ 4 ] 羅承銘, 熊陳文, 黃小毛, 等. 四邊形田塊下油菜聯合收獲機全覆蓋作業路徑規劃算法[J]. 農業工程學報, 2021, 37(9): 140-148.
Luo Chengming, Xiong Chenwen, Huang Xiaomao, et al. Coverage operation path planning algorithms for the rape combine harvester in quadrilateral fields [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(9): 140-148.
[ 5 ] 于燕, 李寧. 基于北斗和激光雷達的機器人導航控制方法研究[J]. 中國農機化學報, 2019, 40(8): 165-170.
Yu Yan, Li Ning. Research on navigation control of robot based on Beidou and lidar [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(8): 165-170.
[ 6 ] 張良, 伍濱濤, 謝景鑫, 等. 北斗導航農機作業面積管理系統設計與試驗[J]. 中國農機化學報, 2020, 41(12): 139-146.
Zhang Liang, Wu Bintao, Xie Jingxin, et al. Design and test on agricultural machinery operation area management system of Beidou navigation [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(12): 139-146.
[ 7 ] 張秋昭, 張書畢, 劉志平, 等. 基于雙差偽距/偽距率的GPS/SINS緊組合導航[J]. 武漢大學學報(信息科學版), 2015, 40(12): 1690-1694, 1700.
Zhang Qiuzhao, Zhang Shubi, Liu Zhiping, et al. Tightly?coupled GPS/SINS integrated system measurement model based on double?difference pseudo?range/pseudo?range rate [J]. Geomatics and Information Science of Wuhan University, 2015, 40(12): 1690-1694, 1700.
[ 8 ] 董勝, 袁朝輝, 谷超, 等. 基于多學科技術融合的智能農機控制平臺研究綜述[J]. 農業工程學報, 2017, 33(8): 1-11.
Dong Shen, Yuan Chaohui, Gu Chao, et al. Research on intelligent agricultural machinery control platform based on multi?discipline integration [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(8): 1-11.
[ 9 ] 趙鋮鑰, 馬偉, 蘇道畢力格, 等. 激光雷達與視覺融合的跟隨運輸機器人設計[J]. 中國農機化學報, 2023, 44(6): 176-181.
Zhao Chengyao, Ma Wei, Su Daobilige, et al. Design of a following transport robot based on lidar and vision fusion [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(6): 176-181.
[10] 趙欣, 王萬里, 董靚, 等. 面向無人駕駛農機的高精度農田地圖構建[J]. 農業工程學報, 2022, 38(S1): 1-7.
Zhao Xin, Wang Wanli, Dong Jing, et al. High precision farmland map construction for unmanned agricultural machinery [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(S1): 1-7.
[11] 李清泉, 李必軍, 陳靜. 激光雷達測量技術及其應用研究[J]. 武漢測繪科技大學學報, 2000(5): 387-392.
Li Qingquan, Li Bijun, Chen Jing. Research on Laser range scanning and its application [J]. Geomatics and Information Science of Wuhan University, 2000(5): 387-392.
[12] 王菁, 范曉飛, 趙智慧, 等. 基于YOLO算法的不同品種棗自然環境下成熟度識別[J]. 中國農機化學報, 2022, 43(11): 165-171.
Wang Jing, Fan Xiaofei, Zhao Zhihui, et al. Maturity identification of different jujube varieties under natural environments based on YOLO algorithm [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(11): 165-171.
[13] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real?time object detection [C]. Computer Vision amp; Pattern Recognition. IEEE, 2016: 779-788.
[14] 王新彥, 易政洋. 基于改進YOLOv5的割草機器人工作環境障礙物檢測方法研究[J]. 中國農機化學報, 2023, 44(3):171-176.
Wang Xinyan, Yi Zhengyang. Research on obstacle detection method of mowing robot working environment based on improved YOLOv5 [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(3): 171-176.
[15] 王宇博, 馬廷淮, 陳光明. 基于改進YOLOv5算法的農田雜草檢測[J]. 中國農機化學報, 2023, 44(4): 167-173.
Wang Yubo, Ma Tinghuai, Chen Guangming. Weeds detection in farmland based on a modified YOLOv5 algorithm [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(4): 167-173.
[16] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [J]. IEEE Computer Society, 2014: 580-587.