999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義分割的非結構化田間道路場景識別

2021-02-19 06:18:22孟慶寬楊曉霞關海鷗
農業工程學報 2021年22期
關鍵詞:語義特征模型

孟慶寬,楊曉霞,張 漫,關海鷗

基于語義分割的非結構化田間道路場景識別

孟慶寬1,楊曉霞1,張 漫2※,關海鷗3

(1. 天津職業技術師范大學自動化與電氣工程學院,天津 300222;2. 中國農業大學現代精細農業系統集成研究教育部重點實驗室,北京 100083;3. 黑龍江八一農墾大學電氣與信息學院,大慶 163319)

機器視覺;語義分割;環境感知;非結構化道路;輕量卷積;注意力機制;特征融合

0 引 言

當前城市化進程不斷推進,農村青壯年勞動力向城鎮轉移,造成農業勞動力資源日益減少,在一定程度上制約了農業生產的質量和效率[1]。提高農業生產過程的機械化、自動化、智能化水平,降低農業生產對農業勞動力的強依賴性,對于促進農業現代化建設、加速農業生產方式供給側結構改革具有重要作用[2]。智能農業裝備系統能夠自主、高效、安全地完成農業作業任務,具有良好的作業精度與效率,已在播種、施肥、除草、收獲等領域得到廣泛應用[3-6]。

環境信息感知是智能農業裝備系統的關鍵技術之一,決定了農業裝備的自主導航能力和作業水平[7]。機器視覺系統具有探測范圍廣、獲取信息豐富等特點,是智能農業裝備進行田間信息獲取的主要傳感設備之一[8-9]。基于視覺的農業田間道路場景識別解析屬于環境信息感知的重要組成單元,主要任務是檢測可通行區域、識別動靜態障礙物類別,為后續的路徑規劃和決策控制提供依據。快速、精準地實現田間道路場景識別對于保證智能農業裝備在非結構化道路環境下安全可靠運行具有重要意義。

在道路場景識別解析研究中,Coombes等提出一種基于顏色特征的機場道路語義分割方法,采用超像素塊對圖像進行分割,訓練基于顏色的貝葉斯分類器對每個分割聚類標注語義類別,將亮度信息與顏色分類器相結合識別飛機跑道上的引導線[10]。Scharwachter等將顏色、紋理、深度等低層級特征進行組合,基于隨機決策森林法實現街區場景像素級語義分割[11]。陶思然等將道路影像轉換到HIS顏色空間分割出道路灰度一致性區域,結合空間梯度信息對分割結果進行細化[12]。上述研究通過人工設計特征方式基于顏色、紋理、形狀等表層特征中的一種或多種的組合進行道路場景識別解析,對結構化道路具有良好的適應性,但缺乏對圖像深層特征和高級語義信息的提取與表達,容易受到道路形態、光照變化、路面干擾物的影響,難以應用于復雜非結構化田間道路場景檢測。

近些年深度卷積神經網絡在圖像分類、目標識別、語義分割等領域表現出優異的性能[13-14]。基于深度學習的語義分割技術是進行復雜圖像場景識別解析的重要方法之一[15]。軒永倉等設計了基于全卷積神經網絡的大田復雜場景語義分割模型,具有較好的分割效果,不過全卷積神經網絡沒有充分考慮像素之間的關系,缺乏空間一致性,對圖像中的細節不敏感,導致分割結果不夠精細[16]。李云伍等構建了基于空洞卷積神經網絡的丘陵山區道路場景語義分割模型,通過在模型前端模塊和上下文模塊中融入空洞卷積并對空洞卷積層進行級聯,提高了對丘陵道路場景預測的準確性,但連續的空洞卷積運算容易產生空間間隙,導致信息丟失[17]。張凱航等基于SegNet深度學習框架,構建編碼-解碼深度卷積結構,針對非結構化道路可行駛區域進行語義分割,實現自動駕駛車輛在非結構道路行駛時的場景理解[18]。上述研究基于深度卷積神經網絡在像素級別進行圖像語義分割,能夠取得較好的效果,但也存在權值參數多、計算復雜度高、推理速度慢等不足,同時未充分考慮圖像上下文信息,對于全局特征利用率低,導致復雜場景的分割精度不高。

本文以非結構化農業田間道路為研究對象,提出一種基于通道注意力結合多尺度特征融合的輕量化語義分割框架,采用輕量卷積神經網絡提取圖像特征,引入混合擴張卷積(Hybrid Dilated Convolution,HDC)和通道注意力模塊(Channel Attention Block,CAB),通過空間金字塔池化模塊(Pyramid Pooling Module,PPM)將多尺度池化特征進行融合,得到完整的全局特征表達,以增強對復雜道路場景識別的準確性。

1 材料與方法

1.1 非結構化田間道路場景特點與對象分類

基于語義分割的道路場景識別解析是對圖像中的每個像素定義對應的語義類別,預測輸出目標元素的形狀、位置和種類等信息,進而實現對場景的完整理解。根據環境感知系統對周圍環境對象的關注類別和建模結構差異,自動導航系統的行駛道路可分為結構化和非結構化2種形式[19]。結構化道路具有邊界規則,車道線清晰、道路寬度一致等特點,通常包括高速公路和城市主干道。非結構化道路是指沒有明顯邊界區域,缺少車道標識線,可通行區域不規則的園區道路、鄉村道路或農業田間道路。

農業田間道路的非結構化特點具體表現為:1)道路邊緣模糊、曲率變化大、形狀不規則;2)路面平整性差,存在陰影噪聲及多種多樣的障礙物;3)不同光照或天氣條件下同一材質的道路在圖像中出現不同的顏色特征與紋理形態。這些復雜特征給農業導航系統進行道路場景識別帶來了困難,需要分割模型具有較強的魯棒性和泛化能力。

本文根據農田道路環境中對象的動、靜態屬性進行類別劃分。動態對象2類,分別是行人,車輛(自行車,農用車,汽車);靜態對象9類,包括建筑物、標識牌、天空、植被(樹木,雜草,作物)、土壤、道路(水泥道路,瀝青道路、硬質化土路)、水域(河流,池塘,路面水洼)、線桿、覆蓋物(落葉、地膜、積雪);上述類別之外的對象設置為背景類,因此田間道路圖像中的對象類別共分為 12 種。動、靜態對象分類可以使導航系統在后續的行駛過程中根據對象屬性制定對應的路徑規劃措施和動態避障策略,進而控制系統安全、高效運行。

1.2 圖像采集與處理

圖像采集于天津、河北、廣東等地,采集時間為2020年1-12月,選用 OKAC120 型相機進行拍攝,圖像分辨率為1 920像素×1 280像素。為提高數據樣本的多樣性,分別在不同天氣條件、不同光照強度、不同環境背景下采集860張有效圖像,可以較好地反映自然環境下田間道路真實特點。在原始圖像基礎上將圖像尺寸縮放為512 像素×512像素,以減小后期網絡模型特征提取時對硬件產生的壓力。圖1為獲取的田間非結構化道路圖像示例。

由于獲取的圖像數據難以完全覆蓋所有場景并且存在不同類別樣本數量分布不均衡的情況,因此本文通過幾何變換(平移、旋轉、縮放)與顏色變換(亮度、飽和度、對比度)進行數據增強。增強后的圖像共23 220 幅,按照8∶1∶1比例劃分為訓練集、驗證集和測試集。訓練集用于訓練深度網絡模型參數權重;驗證集用于訓練過程中對模型的超參數進行調優;測試集用于訓練完成后評估模型在實際應用場景中的泛化能力。

本文田間道路場景語義分割模型屬于全監督學習類型,需要使用人工精細標注的語義圖像作為訓練樣本。采集的圖像本身沒有標簽和語義,利用Lableme工具對圖像中需要訓練的類別進行語義標注,標注后的文件以.jason格式存儲,然后通過批量轉換文件將標注文件轉換為.png格式的標簽圖像。

2 田間道路場景語義分割模型構建

通用的語義分割模型由編碼器和解碼器構成,編碼器利用卷積、池化、線性整流函數等操作構成特征提取網絡,編碼輸入圖像特征和像素位置信息;解碼器利用反卷積或者上池化運算將編碼器輸出的低分辨率特征映射到高分辨率像素空間,得到密集的像素預測分類。本文模型的編碼器單元采用輕量卷積神經網絡獲取圖像特征,引入混合擴張卷積和通道注意力模塊,實現特征提取速度與準確性之間的平衡,同時利用金字塔池化模塊融合不同區域特征,獲取更加有效的全局場景上下文信息,增強模型的分割性能;解碼器單元將空間金字塔池化模塊的輸出特征進行上采樣并與特征提取網絡最后階段特征拼接,經過卷積操作完成特征融合與通道調整,最后通過上采樣和像素分類運算得到預測圖像。圖2為田間道路圖像語義分割模型結構示意圖。

2.1 輕量特征提取網絡

傳統的卷積神經網絡通過擴充網絡深度和廣度,提高網絡模型準確性,但也存在復雜度高,運行速度慢等問題。相比于深度卷積,輕量卷積神經網絡具有結構簡單、計算量低、學習推理速度快等優點。MobileNet系列網絡是由谷歌公司提出的高性能輕量化卷積神經網絡,可以應用于計算能力和內存資源有限的嵌入式系統或移動設備[20-21]。MobileNet V2引入具有線性瓶頸的倒殘差結構,先通過擴展層增加通道維度,在高維空間進行深度可分離卷積操作提取特征,然后利用投影卷積進行降維以減少后續操作計算量,最后為避免網絡層數增加引起的梯度消失采用跨連接層將輸入特征與輸出特征相加,使整個網絡具有較高的準確性和實時性。MobileNet V2是針對圖像分類任務設計的卷積神經網絡,語義分割屬于像素預測問題,采用的特征提取網絡與圖像分類網絡有所不同,需要對MobileNet V2網絡結構進行修改。

本文去掉MobileNet V2網絡的全局平均池化層與特征分類層,采用前5個階段(Stage)卷積神經網絡進行圖像特征信息提取,如圖2所示,輕量特征提取網絡經過4次下采樣,最終輸出特征圖尺寸為輸入圖像的 1/16。其中,Stage5是在Stage4的基礎上僅擴充特征通道數量,沒有進行下采樣操作。

2.2 混合擴張卷積

本文將混合擴張卷積融入到特征提取網絡的Stage4、Stage5中,Stage4中的6個線性瓶頸倒殘差模塊(Inverted residuals and linear bottlenecks block,IRLBB)被分為2組混合擴張卷積運算單元,每個單元組中的深度可分離卷積擴張率設置為1、2、3,Stage5中的4個線性瓶頸倒殘差模塊選擇前3個為1組,擴張率設置為1、2、3。圖3為混合擴張卷積融合特征提取網絡結構示意圖。

注:N為線性瓶頸倒殘差模塊執行次數;IRLBB為線性瓶頸倒殘差模塊;(i=1,2,3)表示卷積核的擴張率依次為1,2,3。

2.3 通道注意力模塊

針對復雜場景或者較大區域進行語義分割時,經常會出現將同一對象的不同區域預測為不同類別的情況,即類內預測的不一致性,這是由于不同尺度特征圖的判別能力不一致導致[24]。特征提取網絡中,不同階段特征圖感受野不同,具有不同的特征判別能力。在低級階段,網絡編碼具有精細的空間信息,但由于感受野較小和缺乏高級抽象特征,導致語義一致性缺乏;在高級階段,特征像素具有較大感受野,語義一致性高,不過由于缺少足夠的空間信息,預測結果較為粗糙。基于以上分析,將不同階段特征進行融合可以有效提高特征利用效率和預測準確性。一些研究采用特征通道相加的方法實現不同階段的特征融合,這種方式忽略了不同階段特征通道的差異性。特征提取網絡的一個階段由若干特征通道構成,常規卷積運算默認各特征通道權重相同,實際上不同特征通道具有不同的重要程度,提升有用特征比例,降低非重要特征比例,可以提高整個階段的判別特征強度。本文采用通道注意力機制將不同階段特征融合,利用高級階段的強語義信息指導低級階段對內部特征通道根據重要程度重新標定,使之產生更優的預測,圖4為通道注意力模塊結構。

注:Global pooling將特征圖壓縮為一維向量;Sigmoid為激活函數。

圖4中淺色模塊代表低級階段特征,深色模塊代表高級階段特征,將高級階段與低級階段進行通道拼接,通過權重學習模塊獲取每個通道重要程度,生成新的權重向量,采用乘法形式對低級階段特征通道權重重新標定,提高重要特征權重,降低非重要特征權重,進而增強整個階段的判別特征。利用通道注意力模塊可以強化各階段判別特征,實現類內一致性預測,提高預測精度。

2.4 金字塔池化模塊

感受野是卷積神經網絡每一層輸出特征圖的像素點在原始圖像上映射的區域大小,其大小表示提取特征所包含信息的多少,可以大致反映模型利用圖像上下文信息的能力,獲取具有全局圖像特征的感受野能夠提高復雜場景下語義分割的準確性。語義分割中出現的一些錯誤,例如類別混淆、分割不連續和不同尺度物體分割精度不均衡等問題都與感受野獲取的上下文信息是否全面有關[25]。文獻[26]采用全局平均池化操作獲取圖像級別上下文信息指導局部信息進行分類,一定程度上提升了分割模型的性能,不過這種方法無法覆蓋場景圖像全部重要信息,因為通過全局平均池化將全部像素融合為1個特征向量會損失像素的空間信息并導致歧義的產生。本文引入金字塔池化模塊,聚合不同尺度子池化特征,獲取更加有效的全局場景上下文信息,提高語義分割模型的性能。

2.5 損失函數設計

3 模型搭建與訓練

3.1 試驗平臺

試驗平臺采用臺式計算機,CPU 型號為 Intel Core i7 8700,16 GB內存,500 G固態硬盤,NVIDA GTX2070顯卡,8 G顯存;基于Windows10操作系統,采用Python語言在Tensor Flow深度學習框架下進行編程,統一計算設備架構選擇CUDA 10,深度神經網絡加速庫版本為CUDNN V10.0。

3.2 模型訓練及參數設置

本文模型訓練分為2個階段,第1階段對MobilnetV2增加混合擴張卷積與通道注意力模塊構成特征提取網絡,部署在ImageNet數據集上進行預訓練。ImageNet數據集包括135萬張圖像,涵蓋1 000個類別對象是圖像分類網絡常采用的訓練集。為提高訓練速度和效率,將數據圖像轉換為TFRecord格式,TFRecord文件的每個字段記錄了圖像名稱、維度、編碼數據和標簽定義等信息。訓練時網絡參數采用均值為0、標準差為0.01的高斯分布進行隨機初始化,權重衰減系數為0.000 5,BatchSize設置為32,初始學習率為0.025,動量因子為0.9。為使模型訓練盡快進入到穩定的學習狀態,訓練開始階段進行學習率熱身,在前1 000個Batch訓練時學習率由0線性增加到0.025,隨后學習率隨著迭代次數的增加采用分段常數方式衰減。

第2階段將預訓練的特征提取網絡去掉平均池化層和分類層,加入金字塔池化網絡與像素預測分類網絡,凍結特征提取網絡前4個階段卷積層,初始化新增加網絡參數。基于道路圖像訓練集采用批量隨機梯度下降法訓練,設置BatchSize為8,動量因子為0.9,學習率為0.001,衰減系數為0.8,訓練周期數為50,每個epoch迭代次數為2 322;迭代完成后解凍特征提取網絡前4個階段,對整個模型進行全部訓練,學習率為0.000 1,衰減系數為0.5,訓練周期數為50。訓練過程中每經過2個epoch衰減一次并保存模型,以避免長時間訓練過程中出現斷電、異常退出等情況導致訓練模型出現損失。模型凍結訓練策略運用了遷移學習的思想,先凍結預訓練網絡部分階段,能夠使模型共享底層結構權值參數,克服不同數據集的差異性;然后解凍剩余階段對整個模型全部訓練,可以使訓練損失收斂于較小的值。圖5為語義分割模型訓練集與驗證集損失曲線。

圖5中前50個周期凍結部分網絡單元,通過較大的學習率對深層網絡訓練,訓練集和驗證集損失迅速下降;后50 個周期解凍剩余特征提取網絡,利用較小學習率訓練整個模型,訓練損失與驗證損失緩慢下降,最后收斂于0.1附近。整個訓練過程中訓練損失與驗證損失同時收斂,沒有出現發散或者停滯的情況,表明模型網絡結構設計的有效性。

3.3 評價指標

2)像素準確率PA(Pixel Accuracy):正確預測像素數量與圖像像素總量的比值,計算公式為

3)平均像素準確率MPA(Mean Pixel Accuracy):每類正確預測像素數量與此類別全部像素數量的比值,然后求取所有類別平均值,計算公式為

4)平均區域重合度MIoU(Mean Intersection over Union):每類預測像素數量與真實像素數量交集與并集比值,然后取所有類別的平均值。平均區域重合度反映了預測結果與圖像真實結果的重合程度,是語義分割模型常采用的準確率度量標準,計算公式為

4 結果與分析

4.1 模型有效性驗證

為測試本文語義分割模型的有效性,設計消融試驗分析各功能模塊對模型性能的影響。構建基礎語義分割模型(由MobileNetV2網絡、常規擴張卷積、上采樣單元構成),在此基礎上逐步加入混合擴張卷積、通道注意力模塊、空間金字塔池化模塊構成擴展模型,通過單類別像素準確率、像素準確率、平均像素準確率、檢測速度、參數數量對模型性能進行分析。表1和表2為測試集在各版本模型上運行結果。

由表1可知,道路、天空、建筑、植被、土壤、水域等對象具有明顯的紋理、顏色、形狀特征,識別準確率較高;車輛、行人屬于動態障礙物,距離遠近、運動方向都會對分割效果產生影響,準確率較前幾類對象偏低;地面覆蓋物在不同季節和不同環境下外觀形態變化較大,特征信息復雜多樣導致準確率較低;線桿在圖像中面積區域較小,經過多次下采樣操作后,特征圖的分辨率不斷降低,部分像素的空間位置信息丟失,通過上采樣法難以完全恢復,容易產生分割不完整或者目標丟失的情況,因此識別準確率最低。

由表2可知,采用HDC代替普通擴張卷積使模型的PA與MAP提升到89.82%、85.68%,表明HDC通過增加感受野并保存更多的像素空間位置,能夠提高像素預測體系結構性能;通道注意力模塊使模型的PA與MAP達到92.46%、88.72%,表明利用高級階段強語義信息指導低級階段獲取有效的判別特征,能夠增強類內預測一致性并提升模型的分割效果;金字塔池化模塊通過聚合不同區域信息使模型擁有獲取全局上下文的能力,從而產生高質量的像素級別預測結果,模型的PA與MAP最終達到94.85%、90.38%。不過,隨著功能模塊的加入,分割模型包含的參數不斷增加,檢測速度逐漸降低。其中,基礎模型的參數數量最小,檢測速度最快,HDC模塊的加入使基礎模型參數量增加5.35%,檢測速度降低10.70%;CAB 模塊的增加使包含HDC模塊的模型參數量增加39.28%,檢測速度降低22.25%;PPM模塊的融合使具有HDC+CAB模塊的模型參數量增加54.48%,運行速度降低31.41%。基于上述數據定性分析,可以得出HDC模塊對模型的運行效率和計算開銷影響最小,CAB模塊次之,PPM模塊影響最大。圖6為模型在不同環境條件下田間道路場景分割效果圖。

表1 不同功能單元配置的語義分割模型單類別像素準確率

表2 不同功能單元配置的語義分割模型性能

由圖6可以看出,硬質化土路圖像中的道路、天空、植被、土壤、河流等類別被有效分割,部分線桿由于距離較遠以及面積較小出現漏分割與分割不連續的情況;瀝青道路圖像中,土壤潮濕且部分區域覆蓋積雪,植被枯萎呈棕褐色與土壤顏色接近,道路曲率變化范圍大,部分道路邊緣與泥土交疊導致邊緣像素顏色模糊,這些復雜環境因素容易對分割造成不良影響,但從語義分割預測結果可以看出各類別對象被準確地分割出來,對象交界邊緣連續,分割效果精細,說明本文模型具有較高的魯棒性;水泥道路圖像中,道路沒有受到散落泥土的影響,路面分割完整,具有較好的抗干擾性;行人道路圖像中行人、自行車、道路、天空、植被、土壤等類別被有效識別,道路盡頭的建筑物(暖棚)分割完整,可以準確反映出建筑物區域。車輛道路圖像中,汽車分割清晰,遠處的綠色苫布被預測為背景而沒有錯誤的分割為植被,說明本文模型具有較好的泛化性能。

4.2 模型性能對比

選擇FCN-8S、SegNet、DeeplabV3+、BiseNet等模型與本文模型進行對比測試,通過平均像素準確率、平均區域重合度、檢測速度、參數數量等指標對模型性能做出評價。上述模型分別基于田間道路訓練集進行訓練,在測試集上計算相關度量指標。表3為不同語義分割模型性能參數對比。

表3 不同網絡模型性能對比

從圖7中看出,本文模型可以完整、精細、準確的對道路場景中的語義對象進行分割解析;FCN-8S由于采用池化層下采樣導致部分細節信息丟失,對小物體分割效果不佳,如圖7第1行場景中“線桿”對象和第3行路面“水洼”對象沒有被分割識別;此外圖7第2行場景中的車輛之間的路面區域被錯誤分類為“車輛”對象。SegNet模型存在對象邊界分割不連續、分割結果粗糙的情況,如圖7第2行場景中“道路”與“土壤”對象交界邊緣不連續,第5行場景中部分被樹木包圍的建筑區域錯誤分割為植被,產生以上情況的原因是SegNet分割過程未能有效考慮圖像上下文信息并且存在類內預測不一致性導致。DeeplabV3+模型具有良好的分割準確性,在效果上與本文模型接近;BiseNet模型由于空間路徑網絡與上下文路徑網絡缺少擴張卷積運算,難以實現特征圖高分辨率與大感受野之間的平衡,導致部分場景分割效果粗糙,如圖7第2行道路和天空的一些區域被誤分割為背景。

5 結 論

1)設計基于編碼器-解碼器結構的語義分割框架模型,編碼器單元由輕量特征提取網絡、混合擴張卷積、通道注意力模塊、金字塔池化模塊構成,用于圖像特征提取與融合;解碼器單元對編碼器輸出信息上采樣,經過卷積運算、像素分類運算得到分割預測圖。

2)采集不同道路場景圖像建立數據集,根據道路環境中對象的動、靜態屬性劃分為12種語義類別。

針對不同環境條件下田間道路圖像進行測試,試驗結果表明模型的像素準確率和平均像素準確率分別為94.85%、90.38%,對道路、植被、建筑、水域、天空、土壤等語義對象的分割準確率達到90%以上,具有準確率高、魯棒性強、泛化性能好的特點。

[1] 王澤尤,嚴鎧,任志雨,等. 農業技術進步和農村勞動力轉移對農民增收的影響[J]. 農業展望,2020,16(9):20-26.

Wang Zeyou, Yan Kai, Ren Zhiyu, et al. Impacts of agricultural technology progress and rural labor force transfer on farmers' income[J]. Agricultural Outlook, 2020, 16(9): 20-26. (in Chinese with English abstract)

[2] 劉成良,林洪振,李彥明,等. 農業裝備智能控制技術研究現狀與發展趨勢分析[J]. 農業機械學報,2020,51(1):1-18.

Liu Chengliang, Lin Hongzhen, Li Yanming, et al. Analysis on status and development trend of intelligent control technology for agricultural equipment[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(1): 1-18. (in Chinese with English abstract)

[3] Chattha H S, Zaman Q U, Chang Y K, et al. Variable rate spreader for real-time spot-application of granular fertilizer in wild blueberry[J]. Computers and Electronics in Agriculture, 2014, 100: 70-78.

[4] Onishi Y, Yoshida T, Kurita H, et al. An automated fruit harvesting robot by using deep learning[C]// Tokyo: The Proceedings of JSME annual Conference on Robotics and Mechatronics (Robomec), 2018: 6-13.

[5] 陳建國,李彥明,覃程錦,等. 小麥播種量電容法檢測系統設計與試驗[J]. 農業工程學報,2018,34(18):51-58.

Chen Jianguo, Li Yanming, Qin Chengjin, et al. Design and test of capacitive detection system for wheat seeding quantity[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(18): 51-58. (in Chinese with English abstract)

[6] 孟慶寬,張漫,楊曉霞,等. 基于輕量卷積結合特征信息融合的玉米幼苗與雜草識別[J]. 農業機械學報,2020,51(12):238-245,303.

Meng Qingkuan, Zhang Man, Yang Xiaoxia, et al. Recognition of maize seedling and weed based on light weight convolution and feature fusion[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(12): 238-245, 303. (in Chinese with English abstract)

[7] 張漫,季宇寒,李世超,等. 農業機械導航技術研究進展[J].農業機械學報,2020,51(4):1-18.

Zhang Man, Ji Yuhan, Li Shichao, et al. Research progress of agricultural machinery navigation technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020,51(4): 1-18. (in Chinese with English abstract)

[8] 王榮本,李琳輝,郭烈,等。基于立體視覺的越野環境感知技術[J]. 吉林大學學報:工學版,2008,38(3):520-524.

Wang Rongben, Li Linhui, Guo Lie, et al. Stereo vision based cross-country environmental perception technique[J]. Journal of Jilin University: Engineering and Technology Edition, 2008, 38(3): 520-524. (in Chinese with English abstract)

[9] 汪博. 基于機器視覺的農業導航系統[D]. 杭州:浙江理工大學,2016.

Wang Bo. The Agricultural Navigation System Based on Machine Vision[D]. Hangzhou: Zhejiang Sci-Tech University, 2016. (in Chinese with English abstract)

[10] Coombes M, Eaton W, Chen W H. Colour based semantic image segmentation and classification for unmanned ground operations[C]// International Conference on Unmanned Aircraft Systems (ICUAS). Arlington, VA USA, 2016: 858-867.

[11] Scharwachter T, Franke U. Low-level fusion of color, texture and depth for robust road scene understanding[C]// 2015 IEEE In Intelligent Vehicles Symposium (IV), 2015, 599–604.

[12] 陶思然. 顧及梯度和彩色信息的高分辨率影像道路分割[J].科學技術與工程,2019,19(31):263-269.

Tao Siran. Road segmentation of high-spatial resolution remote sensing images by considering gradient and color information[J]. Science Technology and Engineering, 2019, 19(31): 263-269. (in Chinese with English abstract)

[13] Duong L T, Nguyen P T, Sipio C D, et al. Automated fruit recognition using EfficientNet and MixNet[J]. Computers and Electronics in Agriculture, 2020, 171: 105326.

[14] Jiang H, Zhang C, Qiao Y, et al. CNN feature based graph convolutional network for weed and crop recognition in smart farming[J]. Computers and Electronics in Agriculture, 2020, 174: 105450.

[15] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[16] 軒永倉. 基于全卷積神經網絡的大田復雜場景圖像的語義分割研究[D]. 楊凌:西北農林科技大學,2017.

Xuan Yongcang. Research on the Semantic Segmentation of Complex Scene Image of Field Based on Fully Convolutional Networks[D]. Yangling: Northwest A&F University, 2017. (in Chinese with English abstract)

[17] 李云伍,徐俊杰,劉得雄,等. 基于改進空洞卷積神經網絡的丘陵山區田間道路場景識別[J]. 農業工程學報,2019,35(7):150-159.

Li Yunwu, Xu Junjie, Liu Dexiong, et al. Field road scene recognition in hilly regions based on improved dilated convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(7): 150-159. (in Chinese with English abstract)

[18] 張凱航,冀杰,蔣駱,等. 基于SegNet的非結構道路可行駛區域語義分割[J]. 重慶大學學報,2020,43(3):79-87.

Zhang Kaihang, Ji Jie, Jiang Luo, et al. The semantic segmentation of driving regions on unstructured road based on signet architecture[J]. Journal of Chongqing University, 2020, 43(3): 79-87. (in Chinese with English abstract)

[19] 劉家銀. 非結構化環境下自主式地面車輛環境感知關鍵技術研究[D]. 南京:南京理工大學,2018.

Liu Jiayin. Research on Key Technologies of Autonomous Land Vehicle Perception in Unstructured Environment[D]. Nanjing: Nanjing University of Science and Technology, 2018. (in Chinese with English abstract)

[20] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[Z]. [2020-07-03], https: //arxiv. org/abs/1704. 04861.

[21] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[22] Chen L, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[23] Wang P, Chen P, Yuan Y, et al. Understanding convolution for semantic segmentation[C]// 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, 2018: 1451-1460.

[24] Yu C, Wang J, Peng C, et al. Learning a discriminative feature network for semantic segmentation[C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake, UT, USA, 2018, 1857-1866

[25] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 6230-6239.

[26] Liu W, Rabinovich A, Berg A C. Parsenet: Looking wider to see better[C]// In International Conference on Learning Representations, 2016.

[27] Jadon S. A survey of loss functions for semantic segmentation[C]//2020 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB), 2020: 1-7.

Recognition of unstructured field road scene based on semantic segmentation model

Meng Qingkuan1, Yang Xiaoxia1, Zhang Man2※, Gan Haiou3

(1.,,300222,;2.,,,10083,; 3.,,163319,)

Environmental information perception has been one of the most important technologies in agricultural automatic navigation tasks, such as plant fertilization, crop disease detection, automatic harvesting, and cultivation. Among them, the complex environment of a field road is characterized by the fuzzy road edge, uneven road surface, and irregular shape. It is necessary to accurately and rapidly identify the passable areas and obstacles when the agricultural machinery makes path planning and decision control. In this study, a lightweight semantic segmentation model was proposed to recognize the unstructured roads in fields using a channel attention mechanism combined with the multi-scale features fusion. Some environmental objects were also classified into 12 categories, including building, person, vehicles, sky, waters, plants, road, soil, pole, sign, coverings, and background, according to the static and dynamic properties. Furthermore, a mobile architecture named MobileNetV2 was adopted to obtain the image feature information, in order to reduce the model parameters for a higher reasoning speed. Specifically, an inverted residual structure with lightweight depth-wise convolutions was utilized to filter the features in the intermediate expansion layer. In addition, the last two stages of the backbone network were combined with the Hybrid Dilated Convolution (HDC), aiming to increase the receptive fields and maintain the resolution of the feature map. The hybrid dilated convolution with the dilation rate of 1, 2, and 3 was used to effectively expand the receptive fields, thereby alleviating the “gridding problem” caused by the standard dilated convolution. A Channel Attention Block (CAB) was also introduced to change the weight of each stage feature, in order to enhance the class consistency.The channel attention block was used to strengthen both the higher and lower level features of each stage for a better prediction. In addition, some errors of semantic segmentation were partially or completely attributed to the contextual relationship. A pyramid pooling module was empirically adopted to fuse three scale feature maps for the global contextual prior. There was the global context information in the first image level, where the feature vector was produced by a global average pooling. The pooled representation was then generated for different locations, where the rest pyramid levels separated the feature maps into different sub-regions. As such, the output of different levels in the pyramid module contained the feature maps with varied sizes, followed by up sampling and concatenation to form the final output. The results showed that the objects in the complex roads were effectively segmented with Pixel Accuracy (PA) and Mean Pixel Accuracy (MPA) of 94.85% and 90.38%, respectively. Furthermore, the single category pixel accuracy of some objects was more than 90%, such as road, plants, building, waters, sky, and soil, indicating a higher accuracy, strong robustness, and excellent generalization. An evaluation was also made to verify the efficiency and superiority of the model, where the mean intersection over union (MIoU), segmentation speed, and parameter scale were adopted as the indexes. The FCN-8S, SegNet, DeeplabV3+ and BiseNet networks were also developed on the same training and test datasets. It was found that the MIoU of the model was 85.51%, indicating a higher accuracy than others. The parameter quantity of the model was 2.41×106, smaller than FCN-8S, SegNet, DeeplabV3+, and BiseNet. In terms of an image with a resolution of 512×512 pixels, the reasoning speed of the model reached 8.19 frames per second, indicating an excellent balance between speed and accuracy. Consequently, the lightweight semantic segmentation model was achieved to accurately and rapidly segment the multiple road scenes in the field environment. The finding can provide a strong technical reference for the safe and reliable operation of intelligent agricultural machinery on unstructured roads.

machine vision; semantic segmentation; environmental perception; unstructured field roads; lightweight convolution; attention mechanism; feature fusion

孟慶寬,楊曉霞,張漫,等. 基于語義分割的非結構化田間道路場景識別[J]. 農業工程學報,2021,37(22):152-160.doi:10.11975/j.issn.1002-6819.2021.22.017 http://www.tcsae.org

Meng Qingkuan, Yang Xiaoxia, Zhang Man, et al. Recognition of unstructured field road scene based on semantic segmentation model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(22): 152-160. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.22.017 http://www.tcsae.org

2021-06-01

2021-09-16

國家自然科學基金項目(31571570、62001329);天津市自然科學基金項目(18JCQNJC04500、19JCQNJC01700);天津職業技術師范大學校級預研項目(KJ2009、KYQD1706)

孟慶寬,博士,講師,研究方向為精細農業和農業信息化技術。Email:373414672@qq.com

張漫,博士,教授,研究方向為農業電氣化與自動化。Email:cauzm@cau.edu.cn

10.11975/j.issn.1002-6819.2021.22.017

TP183

A

1002-6819(2021)-22-0152-09

猜你喜歡
語義特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91黄色在线观看| 久久亚洲中文字幕精品一区| 欧美亚洲综合免费精品高清在线观看| 亚洲男人天堂久久| 欧美激情综合| 狠狠操夜夜爽| 国产区精品高清在线观看| 97国产精品视频人人做人人爱| 毛片网站观看| 国产人成网线在线播放va| 亚洲日韩Av中文字幕无码| 99热国产这里只有精品9九| 久久久久久久久久国产精品| 精品91自产拍在线| 亚洲天堂久久| 午夜性刺激在线观看免费| 国外欧美一区另类中文字幕| 欧美不卡视频在线| 色综合综合网| 久久永久精品免费视频| 亚洲一区第一页| 午夜不卡福利| 波多野结衣视频一区二区 | 亚洲 欧美 日韩综合一区| 久久久久国产精品嫩草影院| 99久久人妻精品免费二区| 全午夜免费一级毛片| 伊人AV天堂| 免费国产高清精品一区在线| 伊人AV天堂| 浮力影院国产第一页| 欧美a级完整在线观看| 国产永久在线观看| 亚洲品质国产精品无码| yjizz国产在线视频网| 97在线免费| 国产免费黄| 免费人成网站在线观看欧美| 日本午夜三级| 五月天天天色| 最新痴汉在线无码AV| 欧美视频二区| 91区国产福利在线观看午夜| 国产极品美女在线播放| 亚洲精品日产精品乱码不卡| 亚洲欧美一级一级a| 精品91自产拍在线| 国产又爽又黄无遮挡免费观看| 五月婷婷亚洲综合| 国产精品午夜福利麻豆| 最新加勒比隔壁人妻| 欧美一级视频免费| 亚洲AⅤ波多系列中文字幕| AV网站中文| 国产女人在线观看| 亚洲国产精品人久久电影| 欧美 亚洲 日韩 国产| 久久亚洲AⅤ无码精品午夜麻豆| 国产理论精品| 精品三级网站| 亚洲无码精品在线播放| 欧美乱妇高清无乱码免费| 日韩在线永久免费播放| 精品国产成人国产在线| 丁香婷婷激情综合激情| 日韩精品免费一线在线观看| 国产综合在线观看视频| 国产丝袜91| 日韩少妇激情一区二区| 内射人妻无码色AV天堂| 国产视频只有无码精品| 亚洲日韩Av中文字幕无码| 亚洲精品第一页不卡| 操国产美女| 欧美日韩国产在线播放| 日本www在线视频| 亚洲日韩在线满18点击进入| 永久免费无码日韩视频| 午夜小视频在线| 久久精品免费国产大片| 波多野结衣一区二区三视频| 国产成人综合亚洲欧洲色就色|