999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的實例分割邊界框回歸方法研究

2024-05-08 07:41:52劉桂霞吳彥博李文輝王天昊
哈爾濱工程大學學報 2024年3期
關鍵詞:檢測方法模型

劉桂霞, 吳彥博, 李文輝, 王天昊

(1.吉林大學 計算機科學與技術學院,吉林 長春 130012; 2.哈爾濱工程大學 船舶工程學院,黑龍江 哈爾濱 150001)

實例分割是計算機視覺領域中一項應用廣泛而富有挑戰性的任務,是對圖像場景的深入理解。實例分割在語義分割對圖像中所有像素分配標簽的基礎上,進一步區分同一類的所有不同個體。實例分割廣泛應用于自動駕駛、水下視頻監控、醫學圖像處理等領域。獲得一個簡單有效的實例分割框架對于提高圖像處理的精度和速度非常重要。

當前的實例分割框架,主要基于單階段檢測器和兩階段檢測器。單階段檢測器非常快,但不像兩階段檢測器那樣精確。本文使用了一個基于兩階段檢測器的實例分割框架。隨著深度學習的出現,許多基于卷積神經網絡的實例分割框架應運而生,如多任務級聯網絡(muti-task network cascades,MNC)[1]、全卷積實例感知語義分割(fully convolutional in stance-aware semantic, segmentation,FCIS)[2]和FCIS ++[2]。本文的研究是對Mask R-CNN[3]的改進。傳統的Mask R-CNN邊界框回歸損失采用SmoothL1Loss[4]。許多常用于目標檢測和分割的大型數據集,如ImageNet和MS-COCO (common objects in context)都力求準確地定義真值。但在真實的圖像場景中,當目標定位模糊或互相遮擋時,很難定義準確的真值框。SmoothL1Loss沒有考慮到這種情況的影響。

本文的目的是解決邊界框回歸定位不確定性的問題。本文的方法是基于KL loss[5]的改進。KL loss隨位置的變化而估計定位置信度,回歸過程不僅預測邊界框的位置,而且用高斯函數來預測邊界框的概率分布。KL loss定義了真值分布和預測分布的KL散度。然而,本文發現KL loss的4個坐標點是獨立運算的。實際上邊界框坐標之間存在一定的聯系。于是受IoU Loss[6]的啟發,本文對KL loss進行改進,將獨立坐標計算轉換為面積差的形式,將新提出的邊界框回歸損失命名為KL-Area-Loss。在邊界框檢測和實例分割的評估實驗中,平均準確率(average precision,AP)優于基線模型和KL Loss,對大目標和小目標的分割更準確。此外,本文的模型提高了訓練和評估過程的速度。

1 實例分割原理及模型

目標檢測是計算機視覺領域進行數字圖像識別的一種有效方法。目標檢測的任務不僅是對圖像目標進行分類,而且需要確定目標的位置。語義分割就是對每個像素進行標記,將屬于同一類別的對象從其他對象中分離出來。近年來,實例分割圖像識別技術應運而生。實例分割的任務是在不同的類對象中分別標記每個實例。從目標檢測到實例分割[7-11],對目標識別的準確度越來越高,實例分割成為計算機視覺領域的一個前沿且富有挑戰性的任務。

最初實例分割基于自底向上掩碼方案實現[12-13]。隨著深度學習的出現,R-CNN[14]等高效技術取代了前者。Fast R-CNN[15]、Faster R-CNN[16]逐步改進了特征提取問題。如今流行的實例分割方法是先檢測后分割(如HTC、PANet、Mask R-CNN[3]、Mask Scoring R-CNN、MPN和YOLACT)。實現實例分割的方法還有很多,如先標記像素再聚類[17-18]、密集滑動窗口方法(DeepMask、InstanceFCN和TensorMask)。本文是對Mask R-CNN框架的改進,其他方法的原理將不再重復。

1.1 Mask R-CNN網絡

Mask R-CNN[3]是一個經典、簡單且高效的實例分割框架。目標檢測部分基于Faster R-CNN[16]完成,掩碼由經典的語義分割算法——FCN[19]生成。Mask R-CNN的結構是為掩碼生成添加一個并行分支,該分支位于Faster R-CNN[16]框架的分類和回歸分支之下。

將經過預處理的原始圖像輸入預先訓練好的神經網絡,如ResNet-50[20]、ResNet-101[20]和 ResNeXt-101[21],得到相應的特征圖。然后,為特征圖中的每個點設置一個預定的候選框ROI,獲得多個候選ROI。將這些候選ROI輸入區域生成網絡 (region proposal network, RPN)進行二值分類(前景或背景)和邊界框回歸,初步過濾掉一部分ROI。對剩余的ROI進行ROIAlign操作,在N類分類、邊界框回歸、掩碼生成的同時得到最終的ROI。特征金字塔網絡 (feature pyramid network, FPN)[22]用于網絡特征的分段提取,以獲得更好的性能。

除實例分割外,Mask R-CNN[3]還廣泛應用于計算機視覺的其他領域,包括邊界框對象檢測、人體關鍵點檢測等。因為Mask R-CNN的諸多優點及廣泛的應用性,各種基于它的改進算法被提出,進一步提高了Mask R-CNN的性能。

1.2 Smooth L1 Loss損失函數

L1Loss也稱為最小絕對偏差或最小絕對誤差,使目標Yi和估計值f(xi)的絕對差之和最小化,它的特征是強魯棒性和存在不穩定的解(可能有多個解)。L2Loss也稱為最小二乘誤差,使目標Yi和估計值f(xi)差值的平方和最小化,它具有弱魯棒性和穩定解(總是一個解)的特點。L1Loss和L2Loss的優缺點是互補的。SmoothL1Loss結合了L1Loss和L2Loss 2種損失的功能,避免了L1Loss和L2Loss的缺點。它首先被應用于Fast R-CNN[15],在Mask R-CNN模型中得到延用。

2 邊界框回歸優化算法

本節將介紹KL Loss[5]和IoU Loss[6]的原理,以及本文提出改進Mask R-CNN的方法。本文提出了一種邊界框回歸損失,根據其特性命名為KL-Area-Loss(即為本文方法),網絡結構如圖1所示。本文方法的網絡結構用于改善Mask R-CNN的邊界框回歸損失。根據Mask R-CNN的結構,本文方法不改變分類和掩碼部分的損失,用于回歸的損失部分增加了一個概率分布box dis,以增強位置預測的置信度。本文方法提高了整個預測和分割的準確性和速度,并提高了邊界框的定位精度。

圖1 本文方法網絡結構示意Fig.1 Network structure of the method in this paper

2.1 基礎算法

2.1.1 KL Loss算法

為了解決目標本身無法準確定位或物體間遮擋導致定位不準確的問題,KL Loss[5]算法用于學習邊界框回歸和位置不確定性,消除模糊或遮擋樣本對邊界框回歸損失的干擾。該算法預測坐標的偏移,假設預測值與標準值遵循概率分布,損失函數為2個分布之間的KL散度。

2.1.2 IoU Loss算法

Mask R-CNN模型原始采用的邊界框回歸損失是4個坐標點的獨立運算,然后求和得到最終的邊界框,而邊界框中的點實際上是相互關聯的。傳統方法缺乏坐標點間的完整性,在優化過程中,有些變量優化得好,有些則不好,這可能導致最終得到的結果不理想。IoU Loss[6]可以解決這個問題,不同的框可能有相同的SmoothL1Loss[4],但是它們可能有不同的IoU,其中一些有很大的差異。IoU Loss將框的4個點看作整體進行回歸。

對于每個像素(i,j),將xg=(yg1,xg1,yg2,xg2)轉換為真值框坐標xgi,j=(xgtij,xgbij,xglij,xgrij),其中xgt,xgb,xgl,xgr是真值框的上、下、左、右邊緣與當前像素之間的距離。同樣,本文將預測框的坐標x=(y1,x1,y2,x2)改為x=(xt,xb,xl,xr),得到2個框間的IoU。IoU Loss定義為liou=-ln(IoU)。目前有幾種基于IoU Loss開發的改進算法,如2019年提出的GIoU Loss,2020年提出的DIoU Loss和CIoU Loss。

2.2 本文提出的KL-Area-Loss算法

本文方法將邊界框位置的預測轉化為邊界框位置變化概率分布的預測。實際分布可能是更復雜的多元高斯或混合高斯分布。本文假設坐標是獨立的,并使預測分布遵循單變量高斯分布,定義分布預測的結果為坐標4個點的高斯分布之和(遵循SmoothL1Loss的計算方式):

(1)

真值框也可以用高斯分布表示,xg是真值框的位置。當σ→0時,它用狄拉克函數表示為:

PD(x)=δ(x-xg)

(2)

KL Loss提出了多個樣本PD(x)與PB(x)之間KL散度最小化的方法。在本文中使用KL散度作為邊界框回歸的損失函數:

(3)

如果要最小化Lbbox,在估計值不準確時,式(3)需要使σ盡可能大。由于方程中的后2項不影響KL散度的大小,本文將式(3)方程最后2項看為一個常數項λ。由于σ2是除數,小的σ在訓練開始時可能會引起梯度爆炸,所以使ε=log(σ2),原方程變為:

(4)

(5)

圖2 面積差運算原理示意Fig.2 Schematic diagram of area difference operation

wh=rb-lt

(6)

本文方法需得到的是xg和xin之間的面積差:

(7)

(8)

(9)

本文提出的將獨立坐標計算轉化為面積差的方法也可以減少模型的計算量,提高網絡的速度。

3 邊界框檢測及實例分割性能實驗 及分析

本文采用的數據集是MS-COCO(common objects in context),使用train2017進行訓練,使用val2017進行測試。本文實驗的所有程序均由Python語言編寫,基于Keras和Tensorflow框架搭建,網絡骨干為ResNet 101-FPN,Mask R-CNN為基線模型。為了防止權重爆炸,本文將學習率設置為0.001,這與Mask R-CNN原文中設置的0.02不一致,可能是由于Caffe和TensorFlow計算梯度的方式不同。本文的評價指標包括AP、AP50、AP75、APS、APM、APL、AR1、AR10、AR100、ARS、ARM、ARL,分別評估邊界框和分割效果。本文實驗在2個GeForce RTX 2080 Ti GPU上運行。

3.1 邊界框檢測實驗

本文將KL-area-Loss與基線模型和融合KL Loss的基線模型比較,用于MS-COCO數據集邊界框目標檢測。在這部分實驗中,本文訓練了整個Mask R-CNN模型,但只關注邊界框回歸分支的輸出,暫時忽略掩碼分支。Mask R-CNN多任務訓練的優勢可以進一步改善邊界框檢測結果。

表1 使用ResNet 101-FPN骨干的邊界框檢測AP對比Table 1 Bounding box detection AP comparison with ResNet 101-FPN %

表2 使用ResNet 101-FPN骨干的邊界框檢測AR對比Table 2 Bounding box detection AR comparison with ResNet 101-FPN %

在目標檢測過程中,KL-area-loss通過改變邊界框回歸分支的損失函數,基于KL loss進一步改進基線模型Mask R-CNN,達到了較好的效果。

3.2 實例分割實驗

為了研究KL-area-Loss對實例分割的影響,本文將KL-Area-Loss和基線模型Mask R-CNN及融合KL Loss的基線模型對MS-COCO分割的影響進行比較。

對于實例分割,本文也進行了精度對比實驗,如表3所示。KL-Area-Loss的AP比基線模型高0.1%,比KL Loss高0.3%。AP50和AP75比基線模型高0.2%和0.5%。本文方法將APS和APL分別提高了0.6%和0.5%,提升了小目標和大目標的精度。

表3 使用ResNet 101-FPN骨干的分割AP對比Table 3 Segmentation AP comparison with ResNet 101-FPN %

在表4所示的實例分割召回率實驗中,ARS和ARM分別比基線模型高0.8%和0.3%。其他指標與基線模型基本持平。

表4 使用ResNet 101-FPN骨干的分割AR對比Table 4 Segmentation AR comparison with ResNet 101-FPN %

本文方法是基于KL Loss對Mask R-CNN進行改進的。從本文的分割評估來看,融合KL Loss的基線模型結果一般都低于基線Mask R-CNN,這說明KL Loss可以比基線更準確地定位邊界框,但會影響實例分割的準確性。本文方法不僅能準確定位邊界框,而且提升了Mask R-CNN的分割效果,說明算法在目標檢測和實例分割方向都是可行的。本文獲得了實例分割可視化由圖3所示,各列由左至右依次為原圖、Mask R-CNN[3]、Mask R-CNN+KL Loss[3,5]、Mask R-CNN+ KL-Area-Loss在MS-COCO數據集圖像上的測試結果。每一行按照原始圖像、Mask R-CNN、Mask R-CNN +KL Loss、Mask R-CNN+KL-Area-Loss的順序從左到右排列。基于ResNet 101-FPN,這些結果顯示了邊界框、類別(類名)和置信度分數,掩碼以不同的顏色顯示。本文方法分割小目標比基線模型更準確,而融合KL Loss的基線模型表現并不好。此外,本文方法可以對Mask R-CNN無法識別的一些對象進行分割,進一步證明了本文方法在實例分割中的實用性。

3.3 實驗時間對比

本文方法在訓練和評估實驗中,花費時間較其他方法更短。本文在2個GeForce RTX 2080 Ti GPU上使用ResNet 101-FPN骨干,在MS-COCO trainval35k上訓練Mask R-CNN需要31.05 h,訓練融合KL Loss的基線模型需要30.75 h,訓練KL-Area-Loss需要30.45 h。本文在2個GeForce RTX 2080 Ti GPU上使用ResNet 101-FPN對MS-COCO val2017進行評估。限定在500張圖像上,對3個模型運行邊界框和分割的MS-COCO評估,如表5所示(為了防止其他因素的干擾,本文對每個模型進行3次評估,分別選擇其平均值)。結果表明,該方法比其他2方法具有更短的預測時間。

表5 MS-COCO上的測試時間對比Table 5 Prediction time comparison on MS-COCO s

實驗結果如預期的那樣,KL-Area-Loss將4個獨立的坐標計算轉換為面積差運算,可以減少邊界框回歸損失的計算負荷,提高模型訓練和評估的速度。

4 結論

1)本文提出的基于深度學習的實例分割邊界框回歸方法KL-Area-Loss,是為了解決現有目標檢測和分割數據集中,由于對象邊緣模糊或相互遮擋等導致目標定位不準確的問題。本文提出的方法受到KL Loss和IoU Loss的啟發,將簡單的邊界框位置預測轉化為定位置信度隨位置變化的概率分布估計,并將邊界框4個獨立坐標的計算轉化為面積差的計算。KL-Area-Loss的目的是替代檢測器原來的回歸分支損失函數,使邊界框定位更加準確。

2)為了研究本文方法在先檢測后分割的實例分割模型中是否有效,本文的基線模型采用ResNet 101-FPN的Mask R-CNN網絡。本文方法在邊界框檢測、實例分割及運行時間上做了對比試驗,在MS-COCO上均得到了優于其他方法的結果,證實了KL-Area-Loss在Mask R-CNN實例分割模型上的有效性。

3)本文提出的方法是針對邊界框回歸分支損失函數的改進算法。為了進一步提升模型的精度,可以嘗試繼續研究掩碼分支的改進算法,進一步提升實例分割的精度;本文實驗使用的是MS-COCO數據集,接下來可以嘗試使用其他數據集驗證本文方法在各領域上的通用性。

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲有无码中文网| 国产va在线| 欧美乱妇高清无乱码免费| 国产精品入口麻豆| 国产一二三区视频| 国产精品无码AⅤ在线观看播放| 美女无遮挡被啪啪到高潮免费| 热re99久久精品国99热| 欧美a在线视频| 97久久精品人人| 色噜噜久久| 午夜久久影院| 欧美不卡视频在线观看| 国产视频大全| 视频二区国产精品职场同事| 国产日本欧美亚洲精品视| 尤物特级无码毛片免费| 婷婷色中文| 亚洲精品国产综合99| 国产成本人片免费a∨短片| 中文无码精品a∨在线观看| 久久女人网| 激情综合图区| 欧美国产日韩另类| 久青草国产高清在线视频| 日韩麻豆小视频| 久久婷婷综合色一区二区| 热这里只有精品国产热门精品| 欧美亚洲欧美| 成人精品视频一区二区在线| 久久午夜夜伦鲁鲁片无码免费| 成人精品视频一区二区在线| 亚洲国产欧美国产综合久久| 人人91人人澡人人妻人人爽| 米奇精品一区二区三区| 国产第一页免费浮力影院| 国产高潮流白浆视频| 日韩av高清无码一区二区三区| 日本在线亚洲| 精品91视频| 国内精品小视频福利网址| 欧美精品成人一区二区在线观看| 国产精品播放| 国内精品手机在线观看视频| 亚洲最新地址| 国产成人在线无码免费视频| 高清久久精品亚洲日韩Av| 亚洲精品无码av中文字幕| 在线视频亚洲欧美| 成年人国产视频| 麻豆AV网站免费进入| 精品免费在线视频| 一级不卡毛片| 毛片手机在线看| 国产乱子伦一区二区=| 中文字幕有乳无码| 91精品国产麻豆国产自产在线| 欧美在线天堂| 亚洲国产精品国自产拍A| 一级毛片在线免费视频| 一本一道波多野结衣av黑人在线| 在线观看国产精品一区| 久久6免费视频| 欧美视频二区| 日本不卡在线视频| 污视频日本| 永久免费精品视频| 国产成人午夜福利免费无码r| 人人91人人澡人人妻人人爽| 国产精品99久久久久久董美香| 国产精品理论片| 国产午夜人做人免费视频| 2022国产无码在线| 无码av免费不卡在线观看| 国产你懂得| 58av国产精品| 免费午夜无码18禁无码影院| 亚洲制服丝袜第一页| 久久黄色免费电影| 国产99精品视频| 91丝袜乱伦| 日韩中文精品亚洲第三区|