999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Faster R-CNN的地面垃圾分類與檢測

2023-11-29 03:25:22陳廣鋒
東華大學學報(自然科學版) 2023年6期
關鍵詞:特征檢測

程 浩,陳廣鋒

(東華大學 機械工程學院, 上海 201620)

廢紙盒、塑料瓶、煙頭等是街頭隨處可見的地面垃圾。為了創造良好的城市面貌和整潔的地面環境,環衛人員需要投入大量的時間去巡查并撿拾地面垃圾。因此,設計一款能夠代替環衛工人去檢測地面垃圾的系統顯得尤為重要。

早在2012年,芬蘭的ZenRobotics公司就設計研發出一款可以實現工業垃圾分揀的機器人,現已在各地投入使用[1]。此外,Rad等[2]通過安裝在車輛上的圖像采集系統,建立了一套垃圾數據集,并利用深度學習框架,對不同類型的垃圾進行識別。日本軟銀機器人控股公司開發了一款環衛機器人Whiz[3],通過計算機視覺系統、激光測距儀、3D攝像頭、碰撞傳感器等聯合探測障礙物。王興朝等[4]針對家庭垃圾分類的問題,使用YOLOv3目標檢測算法,設計了一款家用智能分類垃圾桶。馬雯等[5]針對垃圾分類人工操作效率低的問題,采用Soft-NMS算法替代Faster R-CNN中的非極大值抑制算法,在自建的垃圾數據集上得到81.77%的綜合識別準確率。錢昱成等[6]將金字塔結構應用到SSD算法中,進行多尺度訓練和預測,取得了75.45%的平均準確率。王明吉等[7]在YOLOv4算法中融入K-means ++聚類算法,對采集的垃圾圖片實現了95.15%的識別準確率。

雖然深度學習模型在垃圾檢測領域取得了良好的效果,但對煙頭、瓶蓋等小目標地面垃圾,以及有遮擋的地面垃圾的識別精度較低。針對以上問題,本文提出一種改進的Faster R-CNN[8]目標識別網絡來檢測不同類別地面垃圾。其中主干網絡采用基于通道注意力機制[9](squeeze-and-excitation networks,SENet)的ResNet-50[10]特征提取網絡,并使用特征金字塔結構[11](feature pyramid network,FPN)提高模型對小目標的檢測效果。在區域建議網絡中重新設計了更加適配地面垃圾數據集錨框,同時使用級聯結構的檢測器,逐級提高模型對地面垃圾的定位精度和檢測準確率。最后,通過與不同的目標識別網絡的對比,驗證本文算法的檢測效果。

1 數據介紹

垃圾種類眾多,分類方法不勝枚舉。研究發現,到目前為止國際上并沒有權威且公開的垃圾數據集,因此選取包含地面上常見的紙團、煙頭、易拉罐等11個類別地面垃圾圖片(共計14 378張)作為本文采集并標注的地面垃圾數據集,并按照8∶2的比例將數據集中的樣本隨機劃分為訓練集和測試集兩部分。數據集類別分布如表1所示。

表1 數據集類別分布Table 1 Dataset category distribution

本文建立的數據集包含大尺寸目標、中等尺寸目標、小尺寸目標等。拍攝場景涉及多種復雜環境,如強光照環境、雨水環境、地面凹坑環境、路面標志線環境、夜晚環境等,拍攝圖片適用于地面垃圾檢測任務,可以二次使用。部分地面垃圾樣本如圖1所示。

圖1 地面垃圾樣本示例Fig.1 Samples of ground waste

2 改進的Faster R-CNN網絡設計

R-CNN[12]算法提出之后陸續出現了Fast R-CNN[13]算法、Faster R-CNN算法、Mask R-CNN[14]算法等。其中,Faster R-CNN算法主要包括4個模塊,分別為特征提取網絡、區域建議網絡[15](region proposal network,RPN)、檢測部分和預測部分。Faster R-CNN算法流程如圖2所示。

圖2 Faster R-CNN算法流程Fig.2 Flowchart of Faster R-CNN algorithm

2.1 改進后的Faster R-CNN網絡

本文改進后的Faster R-CNN網絡的結構圖如圖3所示。改進后網絡結構主要包括主干網絡模塊、區域建議網絡模塊、級聯結構的檢測和預測模塊,以及后處理模塊4個部分。

圖3 改進后的Faster R-CNN網絡結構Fig.3 Improved Faster R-CNN network structure

首先,將圖片輸入改進后的特征提取網絡中得到特征圖;其次,使用優化后的區域建議網絡生成候選框,再將每個特征圖通過RoI Align(region of interest align)縮放成固定尺寸,并且輸入到級聯結構的檢測和預測模塊中;最后,將得到的待測目標類別和回歸參數采用非極大值抑制(non maximum suppression,NMS)等后處理,輸出最終的結果。

2.2 改進主干網絡模塊

2.2.1 基于SENet的ResNet-50特征提取網絡

為了使ResNet-50模型可以根據輸入圖像的特征信息,自適應地重新校準各通道的特征響應,從而提升模型性能,本文在ResNet-50的殘差網絡中添加了SENet模塊。

SENet模塊能通過學習的方式獲取每個特征通道的重要程度,即權重。依照重要程度去提升有用特征并抑制對當前任務無用的特征。具體包括3個步驟:

1)壓縮:將空間維度的特征進行壓縮,生成一個通道描述符。即將原H×W×C大小的特征圖的每個二維特征通道通過全局平均池化變成一個實數,最終得到1×1×C大小的具有全局感受野的特征圖z。計算公式如式(1)所示。

(1)

式中:u(i,j)表示特征向量u中對應(i,j)處的值;H、W、C分別表示輸入圖片的高度、寬度和通道數。

2)激勵:每個通道采用1個基于通道依賴的自選門機制來學習特定樣本的激活,有選擇地強調信息特征,并抑制無用的特征,即將特征圖z通過全連接層和激活函數,以降低模型復雜度并獲得通道間的依賴關系。具體操作為先將輸出的z通過全連接層FC1把C個通道壓縮成了C/r(r為壓縮比例)個通道來降低計算量,再通過ReLU激活函數進行處理,然后通過全連接層FC2恢復C成個通道,最后通過sigmoid激活函數處理,得到由每個通道的權重組成的矩陣s,如式(2)所示。

s=σ(M2δ(M1z))

(2)

式中:M2和M1分別為用來降低維度和升高維度的兩個全連接層的權重;σ為sigmoid激活函數;δ為ReLU激活函數。

激活函數計算公式分別如式(3)和(4)所示。

(3)

δ(x)=max(0,x)

(4)

3)加權重計算:將第二步輸出的權重信息s通過乘法逐通道加權到輸入特征上,將重要的特征增強,不重要的特征減弱,從而使提取的特征指向性更強。

模塊整體結構為殘差模塊、全局平均池化、全連接層、ReLU激活函數、全連接層、sigmoid激活函數、Scale權重處理部分。基于SENet的殘差模塊網絡結構如圖4所示。

圖4 基于SENet的殘差模塊Fig.4 SE-Resnet module

2.2.2 基于特征金字塔結構的多尺度檢測

多尺度檢測可以使特征提取不僅是采用神經網絡的最后一層特征,而且從多個尺度來進行卷積網絡提取。基于此,將基于SENet的ResNet-50的Conv1、Conv2_X、Conv3_X、Conv4_X、Conv5_X均輸出。同時,使用特征金字塔結構對不同的特征層進行融合并且獨立地進行預測,從上到下依次輸出多個包含豐富語義信息的特征圖P5、P4、P3、P2、P1。本文對頂層的輸出P5再進行一次下采樣,得到擁有更大感受野的輸出P6,以提高大目標的檢測精度。由此構建本文改進后的Faster R-CNN的主干網絡結構,如圖5所示。

圖5 改進后的Faster R-CNN的主干網絡結構Fig.5 Improved backbone network of Faster R-CNN

2.3 優化區域建議網絡模塊

區域建議網絡中的錨框大小和寬高比,嚴重影響候選框的質量和最終的檢測精度。本文對地面垃圾數據集進行統計分析后,繪制不同寬高比例的樣本數量統計圖,如圖6所示。根據圖6統計結果可知,27%的被測地面垃圾目標的寬高比例位于1.0和1.5之間,但原Faster R-CNN模型中是以3種寬高比例(0.5,1.0,2.0)和3種面積(128像素×128像素,256像素×256像素,512像素×512像素)組成一組錨框如圖7所示,并沒有1.5的寬高比,無法準確匹配地面垃圾數據集中所有檢測目標。

圖6 數據集樣本不同寬高比分布Fig.6 Aspect ratio distribution of dataset samples

圖7 Faster R-CNN模型錨框Fig.7 Anchor boxes of Faster R-CNN

本文在原Faster R-CNN的錨框生成機制上進行了兩處優化:一是在原始3種寬高比的基礎上增加了一個寬高比1.5,以更好地適應待檢測目標的形狀特征;二是對于改進后的主干網絡所生成的多個特征圖,采用不同的面積尺度以適應不同大小的目標,即對于區域建議網絡輸出的P1部分采用16像素×16像素和32像素×32像素的兩種面積大小的錨框,對于P2部分采用32像素×32像素和64像素×64像素的兩種面積大小的錨框,依此類推。為了方便與原錨框對比,以特征圖P5中的錨框為例,如圖8所示,其中黑色部分是寬高比分別為0.5、1.0、1.5、2.0,面積為512像素×512像素的4個錨框,藍色部分是寬高比分別為0.5、1.0、1.5、2.0,面積為256像素×256像素的4個錨框。

圖8 改進錨框Fig.8 Improved anchor boxes

2.4 優化檢測模塊

2.4.1 RoI Align代替RoI Pooling

RoI Pooling(region of interest pooling)在Fast R-CNN中首次被提出,沿用至Faster R-CNN,目的是將輸入圖片在主干網絡中生成的特征圖轉換為固定的尺寸,減少原圖直接壓縮帶來的信息損失。具體實現過程:首先,在輸入的原圖中得到候選框;其次,根據特征圖和原輸入圖像的縮放關系將候選框映射到原圖的對應位置,并且將映射后的區域按照輸出的寬度和高度要求(7像素×7像素的大小)劃分為相同大小的幾個部分;最后,通過最大池化操作輸出固定寬高尺寸的矩形框。在這一過程中,像素點是離散的,存在兩處誤差:一次誤差為區域建議網絡中生成的候選框映射回原圖時,直接向下取整造成偏差;二次誤差為對特征圖區域均分時,存在無法均分的像素點,只能近似均分,從而造成偏差,如圖9(a)所示。

圖9 RoI Pooling與RoI Align的原理Fig.9 Principles of RoI Pooling and RoI Align

本文的RoI Align使用虛擬像素的方法,即利用雙線性插值法計算非像素坐標點處的像素值,以此來避免RoI Pooling使用過程中產生的誤差,其原理圖如圖9(b)所示。

2.4.2 優化Faster R-CNN的檢測器

Faster R-CNN屬于兩階段的目標檢測網絡,其中區域建議網絡輸出的候選框精度不高,導致無法直接使用高閾值的檢測器。

本文借鑒Cascade R-CNN[16]級聯的思想,通過設置不同的IoU(intersection over union)閾值來進一步優化候選框(其網絡結構見圖3)。將主干網絡輸出的特征圖和區域建議網絡輸出的候選框作為ROI Align的輸入,待其通過第一個低閾值檢測器之后進入預測器中,再將輸出的回歸參數解碼之后得到的預測框坐標的和RoI Align結構的輸出作為下一個高閾值檢測器的輸入,最后通過預測器得到最終的目標類別和回歸參數。綜上,級聯結構可以分階段逐步提高候選框的精度和網絡的學習能力。

3 試驗過程設計和結果分析

3.1 試驗平臺搭建及超參數說明

本試驗硬件平臺為Linux操作系統。CPU的型號為Intel(R) Xeon(R) Gold 6330 CPU,核數為14核。GPU的型號為NVIDIA GeForce RTX 3090,顯存為24 G。采用基于pyTorch實現的目標檢測算法,代碼運行環境為Python 3.8。

訓練過程采用帶動量的隨機梯度優化器,初始學習率設置為0.005,每迭代3個epoch后,學習率縮減為原來的1/3,動量設置為0.9,權值衰減系數設置為0.000 5,Batch sizes設置為6,采用自動混合精度訓練,每個試驗均訓練24個epoch。

3.2 試驗結果及討論

為了驗證改進算法的性能,以地面垃圾數據集為樣本,設計對比試驗對模型進行訓練和測試。

3.2.1 主干網絡的對比試驗

VGG-16[17]、MobileNetV2[18]、ResNet-50、ResNet-101、EffficientNet[19]、本文改進的特征提取網絡共6種不同的卷積神經網絡作為Faster R-CNN的主干網絡,設置6組對比試驗,如表2所示。

表2 不同主干網絡的對比Table 2 Comparison of different backbone

由表2可知,使用改進后的主干網絡搭建的Faster R-CNN網絡,學習能力顯著增強,檢測效果明顯提升,mAP(mean average precision)達到92.0%,與以VGG-16和Resnet-50網絡為主干網絡的Faster R-CNN網絡的mAP相比,分別提升了12.4個百分點和5個百分點。

3.2.2 常用目標檢測網絡的對比試驗

將改進之后的Faster R-CNN算法與SSD300[20]、YOLOv3+SPP[21-22]、原Faster R-CNN(VGG-16)、原Faster R-CNN(ResNet-50)進行對比,設置5組試驗,如表3所示。

表3 不同目標檢測算法的檢測平均準確率的對比Table 3 Comparison of average accuracy of different object detection algorithms %

由表3可知:本文改進后的Faster R-CNN算法的mAP相比原Faster R-CNN(以ResNet-50為主干網絡)算法,提高了9.6個百分點。特別是對于瓶蓋、煙頭、樹葉等小目標,提升效果明顯,均在20個百分點以上,分別為26.81個百分點、38.83個百分點、29.90個百分點。

為了直觀區分本文算法與原算法在地面垃圾數據集上的檢測效果,從測試集中隨機抽取6張圖片在相同試驗環境下進行測試對比,其中檢測框上分別是預測目標類別以及其置信度,檢測效果如圖10所示。

由圖10的對比結果可看出,優化后的Faster R-CNN算法相較于原算法,降低了地面垃圾的漏檢和誤檢,特別是煙頭、瓶蓋等小目標以及有遮擋的目標,提升了檢測的準確率和定位精度,能夠更完整地框選出待檢測目標垃圾。同時,由于小尺寸目標在原圖中占比小,且常見的特征提取網絡中均有多次下采樣的操作,導致小目標的語義信息提取困難,與大尺寸、中等尺寸目標相比,檢測精度仍有所不足,所以關于小目標的檢測精度的提高依舊是一個研究重點。從整體上看,本文算法的檢測效果優于原Faster R-CNN網絡,能夠更好地滿足實際應用要求。

4 結 語

根據地面垃圾檢測的實際需求,研究了基于深度學習的改進Faster R-CNN算法對地面垃圾的識別效果,并取得了96.6%的平均準確率,具有良好的檢測效果。具體結論如下:

(1)在主干網絡部分,使用基于SENet的ResNet-50結構,結合特征提取階段的淺層信息來提高煙頭、瓶蓋等小目標的檢測精度,同時使用特征金字塔結構實現多個輸出特征圖之間的特征融合。

(2)在區域建議網絡部分,對錨框重新定制,增強檢測能力,加快模型收斂。

(3)在檢測部分,用RoI Align代替RoI Pooling,避免量化誤差,同時使用級聯結構的檢測器,分兩次提高IoU的閾值,提升檢測準確率。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 在线观看国产精美视频| 久久黄色毛片| 国产草草影院18成年视频| 日本不卡在线| 午夜天堂视频| 一级黄色片网| 国产美女久久久久不卡| 亚洲欧美日韩久久精品| 亚洲天堂在线视频| 精品久久久久久久久久久| 国产精品福利导航| 国产成人91精品免费网址在线 | 澳门av无码| 无码在线激情片| 爱爱影院18禁免费| 亚洲最新网址| 99性视频| 国产日产欧美精品| 国产美女免费网站| 精品视频一区二区观看| 在线亚洲小视频| 国产主播在线一区| 亚洲国产看片基地久久1024 | 国产va在线观看免费| 成年人久久黄色网站| 日本午夜视频在线观看| 亚洲愉拍一区二区精品| 国产乱人视频免费观看| 天天色综网| 国产情精品嫩草影院88av| 一区二区三区在线不卡免费| 中文字幕亚洲综久久2021| 亚洲欧美一区二区三区麻豆| 久久青青草原亚洲av无码| 一区二区三区四区日韩| 久久久精品国产SM调教网站| 最新日本中文字幕| 亚洲欧美日韩天堂| 国产精品福利尤物youwu| 久久女人网| 亚洲欧洲综合| 一级在线毛片| 亚洲视频无码| 国产成人免费视频精品一区二区 | 久久永久视频| 国产欧美日韩精品综合在线| a毛片免费观看| 67194亚洲无码| 成人久久精品一区二区三区| 干中文字幕| 精品亚洲麻豆1区2区3区| 91精品啪在线观看国产60岁| 黄色a一级视频| 88国产经典欧美一区二区三区| 国产精品视频公开费视频| 日本福利视频网站| 成人自拍视频在线观看| 国产精品无码一区二区桃花视频| 国产嫖妓91东北老熟女久久一| 欧美日本在线| 国产精品永久在线| 日韩高清成人| 午夜无码一区二区三区| 中文字幕在线欧美| 午夜限制老子影院888| 国产精品密蕾丝视频| 欧美精品成人| 欧美在线观看不卡| 国产主播一区二区三区| 专干老肥熟女视频网站| 啦啦啦网站在线观看a毛片| 免费国产好深啊好涨好硬视频| 亚洲a级毛片| 无码中文字幕加勒比高清| 一级毛片无毒不卡直接观看| 国产欧美专区在线观看| 欧美日韩国产在线人| 国内精品视频在线| 亚洲综合色在线| 亚洲人网站| 国产精品永久免费嫩草研究院| 天堂av高清一区二区三区|