999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Mask R-CNN算法的塑料瓶實例分割方法

2023-06-27 08:53:36郭欣欣
現代計算機 2023年9期
關鍵詞:檢測模型

陳 浩,郭欣欣

(1. 南陽農業職業學院信息工程學院,南陽 473000;2. 重慶大學網絡教育學院,重慶 400044)

0 引言

人們現在生活在塑料時代。自20 世紀40 年代塑料大規模生產以來,由于其便攜性和耐用性,塑料瓶被廣泛應用于商業、農業、工業等行業。數據顯示,每分鐘超過一百萬個塑料瓶銷往世界各地,每年有近1300 萬噸塑料垃圾被傾入海洋[1]。塑料瓶使用規模的迅速擴大帶來了資源枯竭和環境惡化等問題。為了緩解這一問題,世界各地都采取了各種措施對塑料瓶進行檢測和分類。塑料瓶檢測和分類可以通過多種方式完成,比如使用一系列手動和自動方法對塑料瓶進行分類。隨著科學研究的不斷進步,人工對塑料瓶進行分類逐漸淡出人們的視線,深度學習中圖像分析技術的改進使得分類效率進一步提高。

對于人類來說,識別和分類復雜場景中的塑料瓶對象是一種簡單行為。然而,對于機器人來說,順利完成塑料瓶識別、分類、抓取等一系列動作并不是一件容易的事情。深度神經網絡的自調整能力可以有效地提高機器人在目標檢測方面的自主性。與語義分割不同,實例分割主要關注實例之間的差異。近年來,實例分割作為人工智能的一項關鍵技術,在醫學、工程等領域得到了廣泛的應用。Xu 等[2]利用卷積神經網絡(mask regions with convolutional neural network features,Mask R-CNN)對乳腺超聲圖像進行分割,用于病灶檢測和良惡性診斷,為乳腺病灶檢測提供了一種無創的方法。另外,為了分析樹木資源,Xu 等[3]采用實例分割的方法從城市場景中分割出樹木,而樹木語義標注的正確率達到0.9 左右。Brabandere 等[4]提出了一個包含兩項的損失函數,通過簇內拉力和簇內推力來確定嵌入像素所屬的實體;該方法利用像素嵌入解決了像素級的語義實例分割問題,促進了自主駕駛技術的發展。這些研究工作表明,實例分割具有為每個對象生成高質量分割模板的能力。

實例分割一般包括兩種方法:基于檢測的方法和基于分割的方法。基于檢測的方法主要是生成建議區域和預測邊界框,然后對預測邊界框中的目標進行掩膜。

Min 等[5]提出了一種基于Mask R-CNN 算法的乳腺X線攝影質量檢測系統,該系統不需要人工干預,可以有效地檢測乳腺X 線攝影質量。Li等[6]提出了一種全卷積的實例分割方法,該方法通過并行執行內部得分圖和外部得分圖,實現兩個子任務的檢測和分割。另一種是基于分割的實例分割方法。與基于檢測的方法相比,基于分割的方法首先從輸入圖像中獲取像素級的分割圖,然后根據得到的分割圖識別目標實例。Dai等[7]實現了基于Mask R-CNN 的前列腺及前列腺內病變的分割,對臨床放射科醫師具有重要的指導意義。Pinheiro 等[8]提出一種稱為Sharp Mask 的方法,首先使用對象建議方法估計對象完全包含在圖像塊中的概率,同時通過給出圖像輸入塊來同時生成分割掩模和相關分數,然后采用路徑增強的方法來增強網絡層之間的信息流,在公共數據集上對改進后的方法進行了驗證,表明實例分割是一種有效的目標檢測方法,可以極大地提高檢測精度。

到目前為止,有關實例分割的相關研究還很少發表,尤其是在塑料瓶檢測領域。塑料瓶的多樣性對檢測過程提出了挑戰,實現塑料瓶自主檢測的關鍵是提高實例分割方法的泛化能力,如在復雜場景下檢測和識別的魯棒性,以及樣本之間的平衡性。本文提出了一種基于改進Mask R-CNN 算法的實例分割方法,用于檢測塑料瓶。

圖1 Mask R-CNN模型結構

1 Mask R-CNN

1.1 Mask R-CNN結構

2017 年,He 等[9]首次提出Mask R-CNN 算法,該算法是Faster R-CNN[10]的擴展,采用兩級檢測器,使用特征金字塔網絡(feature pyramid network,FPN)和區域建議網絡(region proposal network,RPN)進行目標檢測與分割,算法流程如圖1 所示。Mask R-CNN 模型結構由圖像特征提取層、RPN、感興趣區域對齊(region of interest align,RoI Align)層以及輸出層4部分組成。

1.2 骨干網絡

在Mask R-CNN 中將深度殘差網絡(deep residual network,ResNet)[11]和特征金字塔網絡(FPN)[12]這2 個骨干網絡作為特征提取器,具有較高的分割精度。為實現網絡的輕量化,采用MobileNet[13]優化Mask R-CNN 的特征提取網絡,MobileNet 作為輕量級神經網絡的代表,可以在保證精度的前提下縮小模型,減少參數數目,提高模型的檢測速度。

MobileNet的體系結構(見圖2)基于深度可分離卷積,將標準卷積分解為深度卷積和點卷積。深度卷積對每個輸入通道使用單個卷積內核。逐點卷積使用1*1卷積核來線性組合深度卷積的輸出。每個深度卷積和逐點卷積后面是一個批量歸一化層和線性校正單元(ReLU)[14]激活函數。另外,MobileNet 引入了兩個超參數:寬度乘子和分辨率乘子。寬度倍增器用于控制輸入和輸出的通道數,分辨率倍增器用于控制輸入的分辨率。這兩個超參數的使用大大減少了計算量,加快了計算速度。

1.3 RPN

RPN 將圖像作為輸入并輸出一組矩形建議對象,每個建議對象都有一個對象性評分,確定錨點是前景還是背景,并對屬于前景的錨點執行第一次坐標校正。RPN 的結構如圖3 所示。RPN 在共享卷積特征圖上使用滑動窗口生成k個對象框(本文中k=15),每個像素具有預設的縱橫比和比例,稱為錨盒。錨點位于所討論的滑動窗口的中心,并與比例和縱橫比相關聯。在Mask R-CNN 中,反饋給RoI Align 的建議區域數量非常大,一般在100~300 之間。在這種情況下,需要學習的分割圖數量較大,使得掩模分支中的特征提取困難。為解決這一問題,將RPN中的非最大抑制閾值(NMS)從0.5提高到0.7,并將NMS中的聯合交叉(IoU)閾值固定為0.7。

1.4 RoI Align

圖3 RPN結構

感興趣區域池(region of interest pooling,RoI Pooling)用于從共享卷積層中提取特征,并將特征輸入到完全連通層中進行分類。最近鄰插值是一種量化操作,當從共享卷積層提取特征時,RoI Pooling 使用最近鄰插值。由于這種量化操作,每個RoI 對應的特征被轉換成固定的維度,并且RoI Pooling 后輸出特征映射的RoI 與輸入圖像的RoI 不匹配。與RoI Pooling 不同,RoI Align采用雙線性插值代替最近鄰插值來計算每個位置的像素值并消除量化操作。該算法首先遍歷區域方案,將每個區域方案劃分為k×k個單元,不量化每個單元的邊界。然后,計算每個單元的坐標值,并通過雙線性插值計算位置的像素值,最后執行最大池運算。由于消除了量化運算,對小目標的檢測精度更為明顯。雙線性插值原理如下:

式中:P為插值節點,M11(x1,y1)、M12(x1,y2)、M21(x2,y1)、M22(x2,y2) 為P點周圍坐標,N1(x ,y1)、N2(x ,y2)為中間節點坐標,f(·)表示各點處像素值。

1.5 損失函數

由于增加了掩膜分支,Mask R-CNN 的多任務丟失函數可以表示為

其中:LRPN-cls為RPN 中的分類損失函數,LRPN-bbox為RPN 中的位置回歸損失函數,Lcls為分類損失函數,Lbbox為位置回歸損失函數,Lmask為平均二元交叉熵。對于每個RoI輸出維度,新的掩膜分支是k×k×m,其中m×m是掩碼的大小,k表示類的數量,因此總共生成k個掩碼。在得到預測的掩模后,使用逐像素Sigmoid 函數對掩模進行分類,并將所得結果作為Lmask的輸入之一。注意,只有被視為前景的像素才用于計算Lmask。

2 實驗

實現塑料瓶實例分割模型從準備數據集開始。Mask R-CNN 模型是使用Python 3、Tensor-Flow、Keras 和OpenCV 庫,通過改進開源Mask R-CNN[15]中的代碼而構建。將帶標注的自定義數據集和預先訓練的模型權重一起送入由多個階段組成的訓練管道。所有實驗均在配備Intel(R)Core(TM)i9-11900H 處理器、32 GB 內存和NVIDIA GeForce RTX 3060 顯卡的計算機上通過Pycharm、CUDA 10.0和CUDNN實現。

2.1 數據集

數據集由從互聯網上下載的自定義數據集組成。盡管有許多最先進的數據集(如COCO 和PASCAL VOC)具有用于培訓和研究目的的通用圖像,但注意到與塑料瓶類別相關的圖像的可用性是有限的,為了解決這個問題,從互聯網上下載了一組離散的圖像,共300 幅圖像(744×992 像素)構建數據集。該數據集包含具有不同背景的正常和變形特征的單個和多個塑料瓶圖像(見表1)。

表1 遷移學習(TL)框架:漸進式逐級微調

訓練深度學習模型需要巨大的計算資源或使用龐大的數據集,由于自定義數據集塑料瓶數量相對較少,在深度卷積神經網絡的計算過程中容易出現模型的過擬合問題,且難以收斂。本研究采用遷移學習的策略,將COCO 圖像數據集中已經預訓練好的網絡參數遷移到塑料瓶圖像數據集的Mask R-CNN 模型上來,這樣模型就具有一定的特征提取能力,方便模型快速收斂。

2.2 圖像預處理和標注

對每個對象進行圖像標注是一項耗時且繁瑣的工作。然而,對于實例分割任務來說,這是一個重要的初始步驟。為了對目標對象進行分割和掩模生成,需要定義目標對象的像素級真值。與其他對象檢測器不同,Mask R-CNN 模型需要像素級標注進行訓練。有許多公開可用的數據注釋工具,如VIA-VGG和LabelMe。

對于這項工作,按照COCO 數據集格式,像素級多邊形標注圖像進行實例分割訓練。自定義數據集圖像的大小和格式各不相同,使用VIA-VGG 標注工具進行像素多邊形圖形標注,該工具對帶標注的圖像生成json格式的輸出。分割的真值掩模表示每個目標對象的區域方向空間位置和坐標軸。帶標注的數據集還包括兩個無實例圖像和兩個部分標注圖像。圖像的尺寸被調整為1024×1024×3,并且為了保持縱橫比,每個圖像都用零填充以匹配一個尺寸的訓練要求(相同尺寸的正方形格式)。圖像的尺寸范圍從數據集中的150×255 到2448×3264 的小圖像。系統中存儲的所有圖像位于兩個文件夾中,其中一個文件夾存放訓練圖像,另一個文件夾存放json文件,像素標注以及標記信息,作為圖像數組存放在json文件中。

2.3 遷移學習

本研究采用基于MS-COCO 訓練集上預訓練好的權重,在此基礎上進行遷移學習。表示低層特征的初始層中的模型權重將在目標模型中繼續使用。高層特征更加抽象,在目標模型中將對其進行更改和重新訓練。在初始階段,利用主干網ResNet-50 和ResNet-101 對模型進行訓練,利用隨機梯度下降和Adam 優化算法對塑料瓶圖像進行實例分割。ResNet-101和隨機梯度下降的深層網絡性能相對較好,可以在自定義數據集上進行進一步的增量訓練實驗。遷移學習采用預訓練-微調模型,主要包括以下幾個階段:

階段1:凍結ResNet-101 全連接層之前的所有卷積層。

階段2:從最后一個卷積層開始逐層解凍,依次對網絡進行訓練。

階段3:尋找準確率最高的結果作為最終微調模型。

COCO 數據集-預訓練模型。以ResNet-101為骨干架構進行微調;SGD 作為優化器;步數為1000;學習率為0.001。

表1給出了用于訓練塑料瓶分割的遷移學習方案及詳細實驗。階段1:用ResNet101 骨干網初始化頭部層訓練,訓練30個周期。階段2:作為模型微調的一部分,階段2模型使用前一階段模型的學習權重進行訓練。4+層和ALL 層模型訓練了30 個周期,并選擇數據增強。此外,4+層模型L4和L10訓練多達100個周期。作為階段3的一部分,模型接受了額外訓練的20個周期來評估是否提高了性能。在階段3 的所有層訓練中,4+層訓練的模型L4 和L10 最初調優到30 個周期,后來調優到100 個周期。在階段3 中,對4+層和所有層的模型分別訓練了150 和160 個周期。利用COCO 評價指標對訓練后的模型進行評價,并與模型損失進行比較。

2.4 模型評估與優化

模型性能與損失指標進行比較,并使用COCO 評估指標mAP 進行評估[16-17]。圖像分割模型對于交叉驗證方法來說過于復雜,Mask R-CNN基于配置參數進行了超參數調整。

表2 顯示了調優模型L11 超參數檢測最小置信度為0.3(30%)和0.6(60%)。 該調優在mAP_val[0.5:0.05:0.95]上取得了較0.9(90%)檢測最小置信度提高0.45%和0.17%的邊際改進。總的來說,從結果中可以明顯看出,通過精心規劃的微調方法,可以利用模型性能在有限的數據集中獲得更好的結果。

表2 L11微調最終模型

圖4 密集實例分割

mAP[0.5:0.95:0.05]:表示閾值變化范圍為0.5~0.95,步長為0.05的交并比的平均精度均值。

2.5 結果和討論

表3 顯示了根據MS COCO 評估指標AP50、AP75、AP95 和mAP[0.5:0.95:0.5]得出的模型平均精度(mAP)結果。與使用遷移學習框架訓練的所有其他模型相比,階段2 模型L11 表現良好,mAP 達到59.3%。階段2 的4+層增強模型在第100 個周期的mAP 達到53.0%,在階段3 調整20 個周期后逐漸改善,所有層和4+層的mAP 均達到54.0%。在階段2,所有層未增強的調優模型表現較好,M3 模型的mAP 達到55.3%,在階段3,L12 和L14 模型的mAP 分別達到56.2%和56.4%。AP90從階段1的13.90%提高到階段3微調的49.20%。

階段2 和階段3 不進行數據增強訓練的模型表現相對較好。這可能是由于具有微調特征的模型學習與增強在訓練數據中具有較少的多樣性,因為它已經在Head 層訓練中進行了增強訓練。在這個任務中,只使用了水平左右翻轉,如果應用更多樣化的增強,可以在調優的后期顯示出模型性能的改善。

表3 模型的性能度量

此外,需要在每次增量訓練中監測模型行為,因為除了被正確地劃分為正例的個數外,錯誤地被劃分為正例的個數可能會影響輸出的質量。在后期調優階段,模型的性能并沒有得到太大的改善,這可能是由于數據集不足。在訓練所有層時,重要的是根據數據集決定訓練,因為大多數低級特征將發生巨大變化,會影響擴展訓練的輸出,導致過擬合。

模型L11 在階段2 微調中實現了mAP 為59.4%和AP50 為74.6%的精度,用于瓶子圖像的實例分割,包括各種形狀和特征的密集重疊實例,與使用Faster R-CNN 模型所做的研究相比,WAND[18]的研究顯示沒有重疊的物體(包括其他類別物體)的檢測mAP 為60.6%,AP50 為86.4%,旋轉RPN 為90.3%。圖4 為瓶子密集團塊的實例分割,模型分割的實例數隨著檢測最小置信水平的降低而增加。

3 結語

Mask R-CNN 是一種具有開創性意義的體系結構,其在塑料瓶分割中的應用就是一個很好的例子。通過采用遷移學習方案和數據擴充技術,解決了諸如無法獲得綜合數據集和訓練模型所需資源等挑戰。在不同階段進行的實驗表明,在不同的參數設置下對預訓練模型進行微調可以顯著提高性能。模型首先在預先訓練的模型上使用頭層進行訓練,然后使用選擇層訓練進行微調(有增強和無增強)。

在基于Mask R-CNN 的遷移學習算法中,將其應用于塑料瓶圖像實例分割,觀察到以ResNet-101 為骨干網絡的初始頭部層訓練,經過增量微調,AP50 達到了74.6%。另外,以平均精度(mAP)為評價指標,對IoU閾值范圍[0.5:0.95:0.5]進行分割,得到的mAP為59.4%。通過對圖像和視頻數據的測試,取得了較好的分割效果。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 久久精品中文无码资源站| 欧洲熟妇精品视频| 欲色天天综合网| 成人免费黄色小视频| 97se亚洲综合| 亚洲午夜国产片在线观看| 在线欧美日韩国产| 成人中文在线| 黄色网址免费在线| 日韩精品专区免费无码aⅴ| 午夜国产小视频| 国产欧美中文字幕| 美女免费精品高清毛片在线视| 蜜芽一区二区国产精品| 丝袜高跟美脚国产1区| 成年人国产网站| 欧美成人看片一区二区三区| 日本在线视频免费| 国产精品自拍露脸视频| 国产精品福利导航| 日本手机在线视频| 亚洲黄色网站视频| 天天爽免费视频| 久久久久国产一区二区| 97色伦色在线综合视频| 99久久国产精品无码| 美女裸体18禁网站| 日韩高清中文字幕| 久无码久无码av无码| 国产成人精品在线| 中文字幕乱码中文乱码51精品| 亚洲欧洲一区二区三区| 玩两个丰满老熟女久久网| 91福利在线看| 亚洲婷婷六月| 男女男免费视频网站国产| a级免费视频| 免费一级α片在线观看| 小说区 亚洲 自拍 另类| 一区二区三区在线不卡免费| 欧美精品亚洲精品日韩专区va| 国产视频 第一页| 亚洲欧洲日韩国产综合在线二区| 亚洲成A人V欧美综合天堂| 久久超级碰| 欧美在线三级| 久久综合色天堂av| 福利视频一区| 亚洲成人在线播放 | 欧洲欧美人成免费全部视频| 67194亚洲无码| 91丝袜美腿高跟国产极品老师| 亚洲国产精品一区二区高清无码久久| 色天天综合久久久久综合片| 久久伊伊香蕉综合精品| 中文字幕欧美成人免费| 99久久精品国产综合婷婷| 久久精品午夜视频| 亚欧乱色视频网站大全| 污网站免费在线观看| 久久综合亚洲色一区二区三区 | 亚洲国产成人自拍| 美女一级免费毛片| 国产迷奸在线看| 四虎成人精品| 女人18毛片一级毛片在线| 91精品免费久久久| 老司机久久99久久精品播放| 久久99精品久久久久纯品| 久久婷婷国产综合尤物精品| 久草视频中文| 国产第一色| 久久影院一区二区h| 99视频免费观看| 亚洲天堂福利视频| 国产综合网站| 丰满人妻久久中文字幕| 亚洲AV成人一区国产精品| 强乱中文字幕在线播放不卡| 天天躁日日躁狠狠躁中文字幕| 色综合热无码热国产| 国模在线视频一区二区三区|