





摘要:針對農機自動駕駛環境感知在行駛邊緣病態區域存在誤匹配的問題,提出一種基于邊緣檢測和多尺度代價體的立體匹配網絡。首先,在特征提取階段設計邊緣分支網絡和視差分支網絡,利用邊緣分支網絡有效提取細小物體的幾何輪廓信息,并將輪廓作為結構信息嵌入到視差分支網絡中;其次,在構建匹配代價階段設計一種多尺度代價體,不同代價體之間相互約束能夠提高匹配像素與候選像素的相關性,同時融合多個代價體能夠捕獲更多的全局上下文信息進行正則化;最后,在Scene Flow、KITTI 2015以及Middlebury v.3立體數據集進行試驗。結果表明,與EdgeStereo算法相比,提出的網絡模型在Scene Flow、KITTI 2015以及Middlebury v.3數據集的視差精度分別提高45.8%、14.8%和41.2%,為農業自動駕駛環境感知提供技術參考。
關鍵詞:農業自動駕駛;立體匹配;邊緣檢測;多尺度代價體;視差優化
中圖分類號:S24; TM391" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2025) 04?0074?07
Research on stereo matching network based on agricultural automatic driving environment perception
Huang Ying Yang Xiaowei
(1. School of Information Engineering, Guizhou Open University, Guiyang, 550023, China;
2. Guizhou Tea Research Institute, Guiyang, 550006, China; 3. Tea Processing and Mechanical
Function Laboratory, Guizhou Tea Industry Technology System, Guiyang, 550006, China)
Abstract: Aiming at the problem of mismatched disparity estimates around object edges in binocular depth estimation algorithms for agricultural machinery's autonomous driving systems, a binocular depth estimation network based on edge detection and multi?scale cost volume was proposed. In the feature extraction stage, the edge branch network and disparity estimation branch network were designed. The edge branch network extracted image features and embedded learned edge geometric features into the disparity estimation branch network to enhance edge?aware disparity estimation. During the cost volume construction stage, a multi?scale cost volume was designed. By imposing mutual constraints between different cost volumes, the approach improved the correlation between matching pixels and candidate pixels. Additionally, the merging of multiple cost volumes captured richer global context information, thereby enhancing regularization performance. The proposed method was evaluated on standard stereo datasets, including Scene Flow, KITTI 2015 and Middlebury v.3. The experimental results showed that the disparity accuracy of the proposed network in Scene Flow, KITTI 2015 and Middlebury v.3 datasets is improved by 45.8%, 14.8% and 41.2%, respectively, compared to the EdgeStereo algorithm. These results highlight the network's effectiveness and provide a valuable reference for advancing autonomous driving technologiesyin agricultural machinery.
Keywords: agricultural automatic driving; stereo matching; edge detection; multi?scale cost volume; disparity refinement
0 引言
農業自動駕駛主要是結合計算機、傳感器、自動控制、人工智能等技術,兼顧統籌環境感知、定位導航、路徑規劃及決策控制等功能[1]。環境感知是智慧農機在復雜農田環境中安全可靠作業的保障[2],研究精確的環境感知系統對于提高農業自動駕駛具有重要意義。
與毫米波雷達、激光雷達等傳感器相比,雙目視覺具有成本低、圖像信息豐富、便于部署等優點,被廣泛應用于農業無人機領域[3]。張振乾等[4]研究了基于雙目視覺的香蕉園巡檢路徑提取方法??妬唫怺5]使用雙目相機搭建立體視覺系統,利用左右圖像中同一百香果二維坐標點進行立體匹配,并通過視差原理計算出該百香果的三維形心點。生明超[6]采用雙目相機作為機器人傳感器實現糧倉機器人與糧堆的測距和定位。嚴鑫[7]通過搭建雙目立體視覺系統,完成目標圖像的采集和目標果實的定位,然后利用目標識別算法獲取果實的中心點,再通過三維重建原理計算出目標果實的三維空間坐標。魏建勝等[8]提出基于雙目視覺的農業機械障礙物感知系統,提高智能化農業機械在自主導航中的安全可靠性。閆成功等[9]提出基于雙目視覺的葡萄園變量噴霧控制系統,提高了噴霧裝備的精準化和農藥利用率。
隨著計算機視覺和卷積神經網絡的快速發展,相比于傳統算法,基于深度學習的雙目立體匹配算法在推理速度和視差精度方面有很大提升,但在復雜的非結構化農業場景的邊緣區域,仍存在誤匹配,導致視差預測精度低,影響農業機器人作業的可靠性。因此,本文從農業自動駕駛環境感知的立體匹配網絡開展研究,提出利用邊緣檢測和多尺度代價體來提高視差估計精度,為農業自動駕駛環境感知提供理論依據和技術參考。
1 改進網絡方法
RDNet網絡結構如圖1所示。
基本流程為:(1)將左右輸入視圖輸入到邊緣分支網絡和權值共享的視差分支網絡進行特征提取,并將提取的邊緣特征連接到視差分支網絡中。(2)利用特征提取階段的輸出特征構建多尺度代價體。(3)利用分層代價聚合網絡將多個不同尺度代價體進行融合,并通過視差回歸方式得到初始視差。(4)引入左右一致性檢測和不同擴張率卷積進一步優化初始視差。
1.1 特征提取
特征提取網絡分為視差分支網絡和邊緣檢測分支網絡,殘差網絡將輸入信息直接傳輸至輸出端,有效減少信息丟失,避免模型產生梯度爆炸和梯度消失,采用多個殘差塊構建視差分支網絡的主干網絡。由于第1個和第4個殘差塊中的第1個卷積步長為2,其余卷積步長均為1,因此,視差分支特征提取網絡的輸出大小為初始輸入圖像大小的1/4。邊緣檢測網絡各分支的輸入特征均為視差分支網絡中的卷積和不同殘差塊的輸出特征,通過1×1卷積操作降低通道維度為1,再通過反卷積操作將特征大小恢復到原始圖像大?。ú话╥nput0),將各分支輸出特征進行歸一化處理后,將通道維度拼接,利用1×1卷積降低融合特征的通道維度為1,將其作為邊緣分支網絡的輸出。將邊緣檢測網絡的輸出與視差分支網絡中不同殘差塊的輸出在通道維度方向連接,將通道連接后的特征作為RDNet網絡模型特征提取階段的輸出特征。邊緣分支網絡結構如圖2所示。在特征提取階段都是全卷積操作,可以直接進行端到端的網絡訓練和測試。
1.2 多尺度代價體構建
由于不同圖像分辨率中同一像素的匹配代價是一致的,不同尺度代價體之間能夠相互制約提高像素匹配的準確性,因此,將融合的最終低代價體連續使用2個3×3×3進行下采樣,最終構建3種不同尺度的代價體。
1.3 分層代價聚合
在構建代價體降采樣過程中模型會存在信息丟失,但不同分辨率代價體之間能夠覆蓋更多的全局上下文內容,引導模型學習更多的特征信息;同時為減少網絡模型的計算量和復雜度,并沒有直接對不同分辨率的代價體計算視差。首先,設計分層代價聚合網絡,將不同尺度代價體利用不同沙漏結構以及上采樣操作進行特征融合,然后,級聯多個編碼解碼結構對融合代價體進行正則化,其網絡結構如圖3所示。代價聚合網絡有4個輸出特征,首先分別使用2個3×3×3卷積將每個輸入特征通道維度降低為1,然后使用雙線性上采樣將輸出特征尺寸恢復到原始輸入圖像大小,最后使用視差回歸函數計算初始視差。模型引入視差優化階段,因此,在網絡模型的整個訓練和測試過程中,這4個輸出特征只進行中間監督學習。
1.4 視差優化
為進一步提高視差估計精度,將左右一致性檢測引入到視差優化網絡,其網絡結構如圖4所示。
1.5 視差回歸和損失函數
同時將提取的邊緣特征嵌入到視差分支網絡中,為代價體正則化提供先驗的場景信息和細粒度表示。總損失函數還引入二值交叉熵損失函數Le和邊緣平滑損失函數Lsm來計算邊緣分支特征提取網絡的輸出特征,其計算如式(8)所示。
2 試驗與分析
2.1 試驗數據集
采用Scene Flow、KITTI 2015和Middlebury v.3 數據集對提出的模型進行訓練和測試。
Scene Flow[10]是一個人工渲染合成數據集,由3個子數據集Monkaa、FlyingThings3D和Driving構成,總共包含35 454對訓練圖像和4 370對測試圖像,所有立體圖像都具有稠密的視差圖,圖像分辨率大小為540像素×960像素。對于Scene Flow數據集,采用端點錯誤率end?point?error(EPE)來評估。
KITTI 2015[11]是由數據采集平臺獲取的自動駕駛真實的雙目數據集,包含不同光照環境和遮擋條件下的車輛、行人等街景數據,總共200對訓練圖像和200對測試圖像,所有立體圖像對具有稀疏視差圖,圖像分辨率大小為1 240像素×376像素。對于KITTI 2015數據集,采用三像素錯誤率(Three?pixel?error)來評估。
Middlebury v.3[12]是傳統雙目立體匹配使用的立體數據集,是由明德學院收集并提供在線測試網站,包含28對訓練圖像(其中13對是附加的訓練圖像)和15對測試圖像,但是測試圖像并沒有提供真實視差圖。對于Middlebury數據集,采用視差圖錯誤閾值2.0像素進行評估。
2.2 創建邊緣數據
目前沒有同時包含邊緣標簽和視差標簽的公開雙目立體匹配數據集,為能夠同時訓練視差和邊緣檢測,首要任務就是創建邊緣數據集。鑒于RGB圖中含有大量的噪聲,傳統的邊緣檢測算法計算出來的邊緣效果較差,采用canny算法對Scene Flow中的實例分割數據集進行處理,利用OpenCV中的二值化函數將閾值大于0的像素直接作為物體結構的邊緣標簽,檢測效果如圖5所示。
2.3 試驗設置
試驗軟件環境:Ubuntu 16.04、CUDA 10.1、PyTorch 1.2.0和Python 3.7.12;硬件環境:CPU Intel(R) Xeon(R) Gold 5118、GPU PowerEdge T640和RAM 128 G。采用Adam優化器(β1=0.9, β2=0.999)訓練模型,Batch size為16,對數據集進行非對稱遮擋和非對稱彩色增強方法預處理,圖像輸入大小為256像素×512像素。
首先,在Scene Flow數據集對邊緣分支網絡和視差網絡訓練36個epoch,初始學習率為10-3,從17個epoch開始每訓練6個epoch學習率降低1/2;然后,將邊緣檢測分支網絡權重鎖死,在KITTI 2015和Middlebury數據集上對模型進行微調;最后,將微調后的模型分別在不同測試集中進行推理預測,將預測視差圖分別提交到KITTI vision Benchmark Suite和Middlebury評測網站進行在線測試。
2.4 消融試驗
為驗證多尺度代價體和邊緣檢測的有效性,設計不同的網絡結構在相同的軟硬件以及訓練策略進行消融試驗,采用端點錯誤EPE對視差估計進行評價。消融試驗結果如表1所示,其中“√”表示模型使用該模塊。
由表1可知,基礎網絡在Scene Flow測試集中的EPE為0.75像素;模型融合多尺度代價體后,其端點誤差為0.64像素,視差估計精度提高14.7%。在模型特征提取階段,邊緣檢測分支網絡學習到的幾何輪廓信息嵌入到視差分支網絡中,同時提出的模型損失函數中引入邊緣損失函數和邊緣平滑損失函數,試驗結果表明,引入邊緣檢測方法可以有效提高物體邊緣區域的立體匹配精度;在視差優化階段,還引入左右一致性檢測,最終模型在Scene Flow測試集中的端點誤差為0.58像素。
2.5 與其他算法對比
與其他先進的深度估計網絡模型在Scene Flow測試集中進行比較,定量對比結果如表2所示。與利用語義分割來輔助立體匹配SegStereo相比,改進的模型端點誤差降低0.87像素;與利用邊緣檢測來輔助立體匹配EdgeStereo相比,改進的模型端點誤差降低0.16像素;與PSMNet相比,深度估計性能提高45.8%。結果表明,RDNet在立體匹配精度方面具有一定競爭力。
表3為RDNet與其他基于卷積神經網絡的立體匹配算法在KITTI 2015測試集的定量對比結果。可以看出,改進的模型在全部區域和非遮擋區域的平均錯誤率最低,分別為1.75%、1.61%。圖6為改進的模型在KITTI 2015測試集上部分預測視差效果,從預測視差圖中能夠看出,無論是前景區域還是背景區域,改進模型都能預測出精確的立體匹配效果。圖7為與其他先進立體匹配算法的定性對比。所有預測視差圖都來自KITTI評測網站,誤差圖在相應預測視差圖的下方。從誤差圖黃色方框中可以看出,在交通標識、行駛汽車以及立桿等區域,改進的模型引入邊緣檢測和邊緣平滑損失,改善物體邊緣區域的視差效果,視差精度更加準確。
表4為在Middlebury數據集上與其他算法的定量對比,其中標準大小數字表示在非遮擋區域的錯誤率(錯誤閾值為2.0像素)。改進模型取得最低的平均錯誤率和最好的平均算法排名。與PSMNet_2000和EdgeStereo相比,RDNet平均錯誤率分別降低20.8%和8.4%。
圖8為與其他基于卷積神經網絡的立體匹配算法在Middlebury測試集上的定性對比結果。預測視差圖下方標出在非遮擋區域的錯誤率,視差圖錯誤閾值設為2.0像素。與其他算法相比,提出的RDNet模型能夠預測出更多的邊緣結構信息,取得更高的匹配精度。
3 結論
針對農業自動駕駛病態邊緣區域視差估計,提出基于邊緣檢測和多尺度代價體的立體匹配模型,在公共的立體數據集上對該模型進行訓練測試。
1) 在特征提取階段將幾何結構信息嵌入視差估計網絡中,模型預測的視差圖能夠恢復更多的細節信息,在Scene Flow測試集上的端點誤差降低6.3%。
2) 引入多尺度匹配代價體,增大候選像素與匹配像素之間的相關性,在代價聚合階段融合不同分辨率匹配代價體,模型能夠學到更多的全局上下文場景信息。
3) 試驗結果表明,視差優化能夠有效提升復雜環境下的立體匹配的視差準確率,改進后的最終模型在KITTI 2015測試集上全部區域和非遮擋區域的像素誤差率分別為1.75%和1.61%。
目前改進的模型還沒有應用到實際的農業場景中,未來將繼續優化算法并將算法移植到嵌入式硬件平臺上,滿足農業自動駕駛定位和避障的感知算法要求。
參 考 文 獻
[ 1 ] 楊肖委. 自動駕駛場景的雙目深度估計研究[D]. 貴陽: 貴州大學, 2022.
[ 2 ] 徐廣飛, 陳美舟, 金誠謙, 等. 拖拉機自動駕駛關鍵技術綜述[J]. 中國農機化學報, 2022, 43(6): 126-134.
Xu Guangfei, Chen Meizhou, Jin Chengqian, et al. A review of key technology of tractor automatic driving [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(6): 126-134.
[ 3 ] 林中豪, 高曉陽, 邵世祿, 等. 葡萄園田間機器人雙目測距系統設計[J]. 中國農機化學報, 2019, 40(4): 179-183.
Lin Zhonghao, Gao Xiaoyang, Shao Shilu, et al. Design of the binocular ranging system in vineyard robot [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(4): 179-183.
[ 4 ] 張振乾, 李世超, 李晨陽, 等.基于雙目視覺的香蕉園巡檢機器人導航路徑提取方法[J]. 農業工程學報, 2021, 37(21): 9-15.
Zhang Zhenqian, Li Shichao, Li Chenyang, et al. Navigation path detection method for a banana orchard inspection robot based on binocular vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(21): 9-15.
[ 5 ] 繆亞倫. 基于深度學習及雙目視覺的百香果檢測與定位技術研究[D]. 南寧: 廣西大學, 2023.
[ 6 ] 生明超. 基于雙目視覺的螺旋式糧面機器人平糧作業測距與目標識別定位研究[D]. 長春: 吉林農業大學, 2023.
[ 7 ] 嚴鑫. 基于雙目視覺的溫室采摘機器人目標識別[D]. 天津: 天津農學院, 2023.
[ 8 ] 魏建勝, 潘樹國, 田光兆, 等. 農業車輛雙目視覺障礙物感知系統設計與試驗[J]. 農業工程學報, 2021, 37(9): 55-63.
[ 9 ] 閆成功, 徐麗明, 袁全春, 等. 基于雙目視覺的葡萄園變量噴霧控制系統設計與試驗[J]. 農業工程學報, 2021, 37(11): 13-22.
[10] Mayer N, Ilg E, Hausser P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4040-4048.
[11] Menze M, Geiger A. Object scene flow for autonomous vehicles [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3061-3070.
[12] Scharstein D, Szeliski R. A taxonomy and evaluation of dense two?frame stereo correspondence algorithms [J]. International Journal of Computer Vision, 2002, 47(1): 7-42.
[13] Yang G, Zhao H, Shi J, Deng Z, et al. Segstereo: Exploiting semantic information for disparity estimation [C]. Proceedings of the European Conference on Computer Vision, 2018: 636-651.
[14] Song X, Zhao X, Fang L, et al. Edgestereo: An effective multi?task learning network for stereo matching and edge detection [J]. International Journal of Computer Vision, 2020, 128(4): 910-930.
[15] 劉建國, 馮云劍, 紀郭, 等. 一種基于PSMNet改進的立體匹配算法[J]. 華南理工大學學報(自然科學版), 2020, 48(1): 60-69, 83.
[16] Pang J, Sun W, Ren J S, et al. Cascade residual learning: A two?stage convolutional neural network for stereo matching [C]. Proceedings of the IEEE International Conference on Computer Vision Workshops, 2017: 887-895.
[17] Xu H, Zhang J. Aanet: Adaptive aggregation network for efficient stereo matching [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1959-1968.
[18] Wu Z, Wu X, Zhang X, et al. Semantic stereo matching with pyramid cost volumes [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 7484-7493.
[19] Kendall A, Martirosyan H, Dasgupta S, et al. End?to?end learning of geometry and context for deep stereo regression [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 66-75.
[20] 陳舒雅. 基于深度學習的立體匹配技術研究[D]. 杭州: 浙江大學, 2022.
[21] Bao W, Wang W, Xu Y, et al. InStereo2K: A large real dataset for stereo matching in indoor scenes [J]. Science China Information Sciences, 2020, 63(11): 1-11.
[22] Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high?resolution multi?view stereo and stereo matching [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 2495-2504.