













摘要:
針對現有主流的目標檢測算法存在檢測精確率低、 圖像邊緣區域分割不全等問題, 提出一種基于Mask RCNN模型的感興趣區域池化算法. 首先, 通過Otsu閾值
分割法將感興趣區域特征圖劃分為邊緣區域和非邊緣區域; 其次, 對邊緣區域使用邊緣梯度插值算法進行插值, 對非邊緣區域使用雙線性插值算法進行插值, 從而將離散的特征圖映射到一個連
續空間中; 再次, 將插值后的特征圖均勻分割成k×k個單元; 最后, 對每個單元利用二重積分求均值以完成池化操作. 對比實驗結果表明, 該算法基于Mask RCNN模型在數據集COCO(20
14)上比現有算法的檢測精確率有一定提升, 對圖像邊緣區域的細節分割效果較好.
關鍵詞: Mask RCNN模型; 感興趣區域池化; Otsu閾值分割; 邊緣梯度插值; 雙線性插值
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)03-0643-12
A Region of Interest Pooling Algorithm forEdge Gradient Interpolation
ZHOU Yuejin1,2, DING Jiayi1
(1. School of Mathematics and Big Data, Anhui University of Science and Technology, Huainan 232001,Anhui Province, China;
2. State Key Laboratory of Mining Response and Disaster Preventionand Control in Deep Coal Mines, Huainan 232001, Anhui Province, China)
收稿日期: 2023-06-02.
第一作者簡介:" 周躍進(1977—), 男, 漢族, 博士, 教授, 從事統計機器學習和因果分析的研究, E-mail: yjzhou@aust.edu.cn.
通信作者簡介: 丁家益(1998—), 男, 漢族, 碩士研究生, 從事統計機器學習的研究, E-mail: 2806166640@qq.com.
基金項目:" 國家自然科學基金(批準號: 61703005)和深部煤礦采動響應與災害防控國家重點實驗室基金(批準號: SKLMRDPC22KF03).
Abstract: Aiming at the problems that the existing mainstream target detection algorithms had" low detection accuracy and incomplete segmentation
in the" image edge regions, we proposed a region of interest pooling algorithm based on Mask RCNN model. Firstly, the feature maps of the regions of interest were divided into
edge regions and non-edge regions by the Otsu threshold segmentation method. Secondly, the edge gradient interpolation algorithm was used to interpolate for the edge regions,
and the bilinear interpolation algorithm was used to interpolate for the non-edge regions so that the discrete feature map was mapped into a continuous space.
Thirdly," the interpolated feature maps were evenly divided into k×k units. Finally, the double integral was used to calculate the average value of each unit to complete the pooling operation.
The comparative experimental results show that the proposed algorithm, based on the Mask RCNN model, has a certain improvement in detection accuracy" compared with existing
algorithms on COCO(2014) dataset, and has a good segmentation effect on the details of the image edge regions.
Keywords: Mask RCNN model; region of interest pooling; Otsu threshold segmentation; edge gradient interpolation; bilinear interpolation
目標檢測和圖像分割已廣泛應用于自動駕駛、 視頻監控、 機器人等多個領域[1]. 在實際應用場景中, 目標檢測和圖像分割的精確率常會受背景、 遮擋、 光照等不確定因素的影響. 因此
, 目標檢測和圖像分割是一個具有挑戰性的研究課題[2].
目標檢測模型主要分為兩種: 單階段檢測模型和兩階段檢測模型. 單階段檢測模型檢測速度快, 但檢測精確率相對較低. 單階段檢測模型主要包括YOLO[3]
目標檢測模型和SSD[4]目標檢測模型. 前者是一種端到端的一步檢測模型, 以45幀/s達到了接近實時的目標檢測速度; 后者
引入了特征金字塔和多長寬比多尺度的密集錨點設計, 在數據集VOC上的檢測精確率達到74.3%, 檢測幀率也提高到46幀/s. 兩階段檢測模型檢測精確率
高, 但檢測速度相對較慢, 在對檢測精確率要求高的實際場景中應用更廣泛. 兩階段檢測模型主要包括以下模型: 根據AlexNet[5]在圖像特征提取方面提出的RCNN[6]目標檢測模型, 利用選擇性搜
索算法生成大量候選區域, 再對每個候選區域進行特征提取、 識別, 并使用回歸器修正候選區域的位置; Girshick[7]提出的Fast RCNN目標檢測模型, 首次
引入了感興趣區域RoI(region of interest)池化層, 在數據集VOC上的檢測精確率達到68.4%; 為解決選擇性搜索算法生成候選區域的嚴重耗時問題, Ren等[8]提出了Faster RCNN目
標檢測模型, 應用區域候選網絡RPN(region proposal network)生成候選區域, 進一步提高了目標檢測的精確率和幀率; 為滿足圖像分割的需求, 文獻[9]提出的Mask RCNN目標檢測模
型在Faster RCNN模型的結構上添加了一個用于預測目標掩模的分支, 并具有一個感興趣區域RoI Align池化層, 在數據集COCO上取得了良好的目標檢測和圖像分割效果.
在兩階段檢測模型中, Fast RCNN模型和Faster RCNN模型所使用的RoI池化算法存在兩次量化操作, 導致原圖中的像素與特征圖中的像素不對齊, 候選框位置產生偏差. Mask RCNN
模型所使用的RoI Align池化算法利用雙線性差值算法[10]確定感興趣區域中點的像素值, 易導致圖像邊緣信息丟失以及需要插值點的數目難以自適應的問題.
針對上述問題, 本文提出一種更精確的感興趣區域池化算法, 即MpRoI(more precise region of interest)池化算法. 為評估MpRoI池化算法的性能, 基于Mask RCNN模型使用數據集COCO(2014)與RoI池化算法、 Ro
I Align池化算法進行比較. 對比實驗結果表明, MpRoI池化算法的檢測精確率和穩定性高于另外兩種池化算法, 且具有更低的分類損失和邊界框回歸損失, 明顯改善了邊緣區域圖
像分割的鋸齒現象, 使目標的定位更準確.
1" RoI池化算法
RoI池化層位于區域候選網絡層和全連接層之間, 作用是將不同尺寸的候選特征圖轉化為固定數據輸出. RoI池化算法的輸入由卷積神經網絡輸出的特征圖和區域候選網絡輸出的候
選框兩部分組成. RoI池化算法的輸出為一組向量, 向量個數由區域候選網絡輸出的候選框數量確定, 向量大小為C×W×H, 其中C為通道數, W和H為超參數. RoI池化算法的工作流程如圖1所示.
由圖1可見, RoI池化算法首先將候選區域映射到卷積神經網絡輸出的特征圖上, 由于卷積神經網絡的池化操作, 特征圖的尺寸相比于原圖縮小了n倍, 然后對映射后的特征圖區域進行特征提取, 使
不同尺寸大小的特征圖區域轉化為一個固定維度的輸出向量. 由于RoI池化算法存在兩次量化操作, 從而導致像素的位置產生偏差, 降低了目標檢測的精確率[11].
2" RoI Align池化算法
RoI Align池化算法首先遍歷特征圖上的每個候選區域, 保持浮點數邊界不進行量化操作, 然后將候選區域均勻分割成k×k個單元(bin
), 每個單元的高度和寬度數值也保持浮點數邊界不做量化, 再在每個單元中通過計算確定4個點的坐標(均勻選取4個采樣點),
利用雙線性差值算法計算得出4個點的像素值, 最后對4個點的像素值進行最大池化操作得到每個單元的值. RoI Align池化算法中最重
要的方法是使用了雙線性差值算法計算得出采樣點的像素值[12], 避免了量化操作引入的誤差, 即特征圖中的像素與原圖中的像素完全對齊. 雙線性插值算法的工作流程如圖2所示.
假設將點g設為需要插值的點, 已知4個點a,b,c,d的值, 通過點a和點b做線性插值得到點e, 通過點c和點d做線性插值得到點f, 計算公式如下:
f(f)≈x2-xx2-x1·f(c)+x-x1x2-x1·f(d),
f(e)≈x2-xx2-x1·f(a)+x-x1x2-x1·f(b);(1)
再由點e和點f做線性插值得到點g, 計算公式如下:
f(g)≈y2-yy2-y1·f(f)+y-y1y2-y1·f(e);(2)
最終合并為
f(x,y)≈" f(c)(x2-x1)(y2-y1)·(x2-x)(y2-y)+f(d)(x2-x1)(y2-y1)·(x-x1)(y2-y)+
f(a)(x2-x1)(y2-y1)·(x2-x)(y-y1)+f(b)(x2-x1)(y2-y1)·(x-x1)(y-y1).(3)
相比于RoI池化算法, RoI Align池化算法遍歷的取樣點數量較少, 但性能更好, 這主要是由于其解決了區域不匹配的問題. RoI Align池化算法的工作流程如圖3所示.
3" MpRoI池化算法
為消除RoI池化算法存在兩次量化操作對候選框位置產生的偏差, 解決RoI Align池化算法需要插值點的數目難以自適應的問題及使用雙線性插值算法處理圖像易導致圖像邊緣信
息丟失的問題, 本文提出一種更精確的感興趣區域池化算法, 即MpRoI池化算法. 首先, 通過Otsu閾值分割法[13]將感興趣區域特征圖劃分為邊緣區域和非邊緣區域;
其次, 對邊緣區域使用邊緣梯度插值算法進行插值, 對非邊緣區域使用雙線性插值算法進行插值, 從而將離散的特征圖映射到一個連續空間中, 再將插值后的特征圖均勻分割成k×k
個單元; 最后對每個單元利用二重積分求均值完成池化操作.
3.1" Otsu閾值分割法
Otsu閾值分割法是一種自適應于雙峰情況自動求取閾值的方法, 以圖像的灰度直方圖為依據, 選取閾值是以目標區域與背景區域平均灰度的最大類間方差為基準[14]
. Otsu閾值分割法的基本思想如下: 設圖像中灰度值為i的像素個數為ni, 灰度值的取值范圍為[0,L-1], 記G={0,1,2,…,L-1}, 則像素總數為
N=∑L-1i=0ni.(4)
灰度值為i的像素出現的概率為pi=ni/N.(5)
對于pi, 有∑L-1i=0pi=1.(6)
將圖像中像素用閾值T分為兩類C0和C1, 灰度值取值范圍為[0,T-1]的像素歸為C0類, 取值范圍為[T,L-1]的像素歸為C1類, 則C0類和C1類的概率分別為
p0=∑T-1i=0pi,(7)p1=∑L-1i=Tpi.(8)
C0類和C1類的平均灰度值分別為
u0=1p0∑T-1i=0ipi,(9)u1=1p1∑L-1i=Tipi.(10)
圖像的平均灰度值可表示為
u=∑T-1i=0ipi+∑L-1i=Tipi=p0u0+p1u1.(11)
圖像兩種類別的總方差為
σ2=p0(u0-u)2+p1(u1-u)2=p0p1(u0-u1)2.(12)
當σ2達到最大值時對應的灰度值為最優分割閾值, 即Otsu閾值:
T=argmaxT∈G{σ2}.(13)
圖像非邊緣區域像素的灰度值與其鄰域像素的平均灰度值接近, 而邊緣區域像素的灰度值會在一定程度上高于或者低于其鄰域像素的平均灰度值. 因此, Otsu閾值分割法通過
將待插值像素鄰域的4個已知像素的平均灰度值與最優分割閾值T相比較以確定為非邊緣區域或邊緣區域.
3.2" 邊緣梯度插值算法
傳統的雙線性插值算法具有低通濾波的性質, 易使圖像的高頻分量產生損失、 圖像邊緣在一定程度上變得較模糊[15]. 因此, 本文提出一種邊
緣梯度插值算法對特征圖的邊緣區域進行插值. 本文的插值算法主要有以下幾個步驟.
首先, 對特征圖進行高斯濾波處理以減少噪聲對邊緣檢測的影響, 本文使用一個5×5的濾波窗口對特征圖進行處理, 濾波窗口如下:
115924542491294512151254912942
4542.(14)
其次, 利用如圖4所示的Sobel算子[16]梯度計算模板分別計算高斯濾波后的特征圖中像素點水平方向和垂直方向的梯度分量Gx和Gy.
由于特征圖的梯度方向所在直線與邊緣主導方向所在直線相互垂直, 因此定義邊緣主導方向為其所在直線與水平軸正方向的逆時針夾角θ方向[17]為
θ=arctan∑ni=1Sign(Gxi)·(-Gyi)∑ni
=1Sign(Gxi)·Gxi+π2,(15)
Sign(x)=1,xgt;0,-1,xlt;0,(16)
其中θ的取值范圍為[0,π), n為區域像素點的個數.
最后, 在特征圖的邊緣區域待插值位置沿邊緣主導方向進行插值. 特征圖的邊緣區域插值存在6種可能, 如圖5所示. 圖6為其中一種可能情形的表示.
由圖6可見, 過待插值點g做一條平行于邊緣主導方向的直線, 交于區域邊緣bc和ab于f和e兩點. 點f的像素值可由b,c兩點像素值進行線性插值得到, 同理, 點e的像素值可由a,
b兩點像素值進行線性插值得到. 最后, 待插值點g的像素值可由f,e兩點像素值進行線性插值得到. 圖5中特征圖邊緣區域其他情形的插值操作類似.
3.3" MpRoI池化算法流程
給定一個圖像感興趣區域的特征圖A, 令(i,j)為特征圖上的坐標. 對非邊緣區域, 利用雙線性插值算法將離散的特征圖區域ωi,j映射到一個連續空間中, 映射公式為
f1(x,y)=∑i,jIC(x,y,i,j)×ωi,j,(17)
其中: f1(x,y)表示經過雙線性插值算法插值后連續的特征圖; IC(x,y,i,j)為雙線性插值算法的插值系數, 可表示為
IC(x,y,i,j)=max{0,1-x-i}×max{0,1-y-j}.(18)
將插值后的特征圖均勻分割成k×k個單元, 再對分割后的單元進行二重積分求均值操作, 計算公式為
MpRoI1(bin,A)=∫y2y1∫x2x1f1(x,y)dxdy(x2-x1)×(y2-y1).(19)
對MpRoI1(bin,A)求x1偏導數可得
MpRoI1(bin,A)x1=" ∫y2y1∫x2x1f1(x,y)dxdy/[(x2-x1
)×(y2-y1)]x1=" ∫y2y1∫x2x1f1(x,y)dxdy/x1×(x2-x1)×(y2-y1)[(x2-x1)×(y2-y1)]2
-" ∫y2y1∫x2x1f1(x,y)dxdy×(x2-x1)×(y2-y1)x1[(x2-x1)×(y2-y1)]2=
∫y2y1∫x2x1f1(x,y)dxdy/x1(x2-x1)(y2-y1)-∫y2y1∫x2x1f1(x,y)dxdy×[-1×
(y2-y1)][(x2-x1)×(y2-y1)]2=" MpRoI1(bin,A)(x2-x1)-∫y2y1f
1(x,y)dy(x2-x1)×(y2-y1).(20)
對MpRoI1(bin,A)求x2偏導數類似式(20).
對邊緣區域, 利用邊緣梯度插值算法將離散的特征圖區域ωm,n映射到一個連續空間中, 映射公式為
f2(x,y)=∑m,nID(x,y,m,n)×ωm,n,(21)
其中: f2(x,y)為經過邊緣梯度插值算法插值后連續的特征圖; ID(x,y,m,n)為邊緣梯度插值算法的插值系數, 可表示為
ID(x,y,m,n)=max{0,1-θx-m}×max{0,1-y/θ-n},(22)
式中θ為特征圖的梯度方向所在直線與水平軸正方向的逆時針夾角.
將插值后的特征圖均勻分割成k×k個單元, 再對分割后的單元進行二重積分求均值操作:
MpRoI2(bin,A)=∫y2y1∫x2x1f2(x,y)dxdy(x2-x1)×(y2-y1).(23)
對MpRoI2(bin,A)求x1偏導數可得
MpRoI2(bin,A)x1=" ∫y2y1∫x2x1f2(x,y)dxdy/[(x2-x1)×(y2-y1)]
x1=" ∫y2y1∫x2x1f2(x,y)dxdy/x1×(x2-x1)×(y2-y1)[(x2-x1)×(y2-y1)]2-
∫y2y1∫x2x1f2(x,y)dxdy×(x2-x1)×(y2-y1)/x1[(x2-x1)×(y2-y1)]2=" ∫y2y1∫x2x1f2(x
,y)dxdy/x1(x2-x1)×(y2-y1)-∫y2y1∫x2x1f2(x,y)dxdy×[-1×(y2-y1)]
[(x2-x1)×(y2-y1)]2=" MpRoI2(bin,A)(x2-x1)-∫y2
y1f2(x,y)dy(x2-x1)×(y2-y1).(24)
對MpRoI2(bin,A)求x2偏導數類似式(24).
由式(20),(24)可知, 函數MpRoI1(bin,A)和MpRoI2(bin,A)是連續可微的, 通過雙線性插值算法、 邊緣梯度插值算法和二重積分求均值等操作避免了感興趣區域
池化中的量化, 從而有效降低了量化操作對特征提取帶來的精度損失[18].
算法1" MpRoI池化算法.
1) begin
2) 初始化x←0, y←0, i←0, j←0, m←0, n←0
3) 參數pi,C0,C1,u0,u1,ωi,j,ωm,n,θ //pi為灰度值為i的像素出現的概率, C0為灰度值取值范圍為
[0,T-1]的像素所屬類別, C1為灰度值取值范圍為[T,L-1]的像素所屬類別, u0為C0類像素的平均灰度值, u
1為C1類像素的平均灰度值, ωi,j,ωm,n為特征圖區域, θ為特征圖的梯度方向所在直線與水平軸正方向的逆時針夾角
4) 給定p0=∑T-1i=0pi, p1=∑L-1i=Tpi, u0=1p0∑T-1
i=0ipi, u1=1p1∑L-1i=Tipi
5) u=p0u0+p1u1//圖像的平均灰度值
6) σ2=p0p1(u0-u1)2//圖像兩種類別的總方差
7) Γ=argmaxT∈G{σ2} //最優分割閾值
8) if (局部平均灰度值lt;Γ)
{
f1(x,y)=∑i,jIC(x,y,i,j)×ωi,j//非邊緣區域
IC(x,y,i,j)=max{0,1-x-i}×max{0,1-y-i} //雙線性插值算法的插值系數
}
else
{
f2(x,y)=∑m,nID(x,y,m,n)×ωm,n//邊緣區域
ID(x,y,m,n)=max{0,1-θx-m}×max{0,1-y/θ-n} //邊緣梯度插值算法的插值系數
}
9) 分割成k×k個單元, 二重積分求均值
10) end.
4" 實驗與結果分析
4.1" 實驗數據集
數據集COCO是微軟團隊出資標注的一個可用于目標檢測、 分割和圖像描述的數據集, 主要為從日常復雜場景中選取的自然圖像以及生活中常見的目標圖像. 數據集提供了80類目標, 超
出33萬張圖像, 其中圖像主要以關鍵點檢測、 物體檢測、 實例分割、 全景分割、 圖像標注等5種類型進行標注, 以json文件格式存儲
. 本文實驗使用數據集COCO(2014), 包括82 783張訓練圖像、 40 775張測試圖像及40 504張驗證圖像.
4.2" 模型的訓練
實驗采用的顯卡為AMD RX 6900XT, 顯存為16 GB. 模型的訓練基于Python語言環境下的TensorFlow深度學習框架進行. 實驗參數設置如下: 初始學習率為0.001
, 網絡迭代次數(epoch)為300次, 每個epoch迭代30次, 權重衰減系數為5×10-4, 正則化為1.6×10-3. 一次完整的訓練過程需進行9 000次訓練.
4.3" 評價指標
4.3.1" 精確率
精確率(Precision)又稱為查準率, 其為被分類器正確識別出的樣本個數占總識別出樣本個數的百分數, 計算公式為
p=TPTP+FP×100%,(25)
其中TP表示被正確識別出的樣本個數, FP表示未被正確識別出的樣本個數. 本文以mAP(IoU=0.50∶0.05∶0.95), AP50(IoU=0.50)和AP75(IoU=0.75)3個精確率評價標準分析實驗結果.
4.3.2" 損失函數
損失函數是用來衡量算法輸出的預測值與真實值之間的偏離程度. 本文實驗使用分類損失函數和邊界框回歸損失函數評估算法的性能. 分類損失函數L1計算公式為
L1=1Ncls∑iLcls(pi,p*i),(26)
Lcls=-[p*ilog(pi)+(1-p*i)log(1-pi)],(27)
其中: Ncls表示一個小批量(mini-batch)中所有樣本的數量; pi表示第i個錨框(anchor)預測為真實標簽的概率; 當預測樣本為正樣本時, p*i=1;
當預測樣本為負樣本時, p*i=0. 邊界框回歸損失函數L2的計算公式為
L2=λNreg∑ip*iLreg(ti,t*i),(28)
Lreg(ti,t*i)=∑iSmooth(t*i-ti),(29)
Smooth(x)=0.5x2,xlt;1,x-0.5,其他,(30)
其中λ為平衡系數, Nreg為錨框位置的個數, ti為第i個錨框對應的邊界框回歸參數, t*i為預測的第i個錨框的邊界框回歸參數.
4.3.3" 平均處理時間
平均處理時間能有效評價模型的識別速度, 可作為模型的實時性評價標準[18], 計算公式為
=T*/N*,(31)
其中為平均處理時間, N*為測試圖片數量, T*為測試運行時間.
4.4" 實驗結果及分析
為更好地評估MpRoI池化算法的性能, 本文基于Mask RCNN模型使用數據集COCO(2014)與RoI池
化算法、 RoI Align池化算法進行比較. 圖7和圖8分別為各算法經過300次迭代的精確率(mAP,AP50,AP75)和損失(分類損失、 邊界框回歸損失)變化的比較結果.
由圖7可見: MpRoI池化算法的精確率和穩定性高于RoI池化算法和RoI Align池化算法; RoI池化算法的精確率最低, 且在80lt;epochslt;130時出現了大幅度震蕩; RoI A
lign池化算法的精確率和穩定性雖然明顯高于RoI池化算法, 但相比于MpRoI池化算法略顯不足. 實驗結果表明, MpRoI池化算法在精確率和穩定性方面具有良好的性能.
由圖8可見, MpRoI池化算法具有更低的分類損失和邊界框回歸損失. 在迭代過程中, MpRoI池化算法的分類損失和邊界框回歸損失也一直保持穩定下降的趨勢, 并且以
更少的迭代次數達到最小值. 實驗結果表明, MpRoI池化算法具有良好的魯棒性.
表1列出了各算法300次迭代的精確率平均值, 表2列出了各算法經過300次迭代后最終的分類損失值和邊界框回歸損失值.
由表1可見, MpRoI池化算法的精確率較RoI Align池化算法、 RoI池化算法得到了一定的提升, 與RoI Align池化算法相比, mAP值提高了0.92個百分點, AP50值提高了0.76個百分點, AP75值提高了0.87個百分點.
由表2可見, MpRoI池化算法的分類損失值和邊界框回歸損失值最低, RoI Align池化算法次之, RoI池化算法最高. 從RoI池化算法到RoI Align池化算法, 邊界
框回歸損失值降低的幅度較大, 為0.294, 這是因為RoI Align池化算法使用雙線性差值算法避免了量化操作引入的誤差. 此外, 從RoI Align池化算法到MpRoI池化算法, 分類損失
值和邊界框回歸損失值都有一定程度降低, 表明引入邊緣梯度插值算法和二重積分求均值等操作可進一步避免量化引入的誤差.
時間測試實驗也基于Mask RCNN模型在數據集COCO(2014)上進行, 比較各算法進行目標檢測與圖像分割的參數量和平均耗時, 結果列于表3.
由表3可見, MpRoI池化算法的參數量最高, 這是由于其空間復雜度和計算復雜度提高以及基于Mask RCNN模型添加了圖像分割分支所致. 此外, 在數據集COCO(2014)實
驗中, 相比于RoI池化算法、 RoI Align池化算法, MpRoI池化算法進行目標檢測與圖像分割的平均處理時間分別延長了103 ms和31 ms. 但MpRoI池化算法能以較少的時間花費換取更高
的目標檢測與圖像分割精確率以及更低的分類損失和邊界框回歸損失, 達到滿意的目標檢測與圖像分割效果.
4.4.1" 算法綜合性能定性分析
為更好地說明MpRoI池化算法基于Mask RCNN模型的泛化性和檢測性能, 與其他算法在數據集COCO(2014)上進行檢測對比, 選取部分具有代表性的檢測結果如圖9所示.
由圖9可見, 無論是單目標圖像還是多目標圖像, 本文提出的MpRoI池化算法都能檢測出更多的目標. 對同樣識別出的目標, MpRoI池化算法的得分最高. 對
高度重疊的目標, MpRoI池化算法修正了RoI池化算法和RoI Align池化算法在檢測時出現的目標漏檢問題. 此外, MpRoI池化算法明顯改善了邊緣區域圖像分割的鋸齒現象,
也使目標的定位更準確. 圖10為圖9中部分邊緣區域的細節放大情況.
由圖10可見, 對圖像的邊緣區域, MpRoI池化算法的分割效果最好, 邊界特征更明顯, 結果更準確. RoI池化算法和RoI Align池化算法易出現區域圖像分割
不全, 且區域輪廓的分割質量相對較低. 因此, MpRoI池化算法克服復雜背景的干擾能力更強, 圖像邊緣區域的細節分割更完善, 且能適應圖像邊緣區域的尺度形狀變化,
整體的目標檢測性能得到一定提升.
4.4.2" 算法綜合性能定量分析
為進一步分析MpRoI池化算法基于Mask RCNN模型的目標檢測性能, 選取數據集COCO(2014)中具有代表性的20類檢測目標與RoI池化算法、 RoI Align池化算法進行檢測對比(AP50), 檢測對比結果列于表4.
由表4可見, 在數據集COCO(2014)上的20類檢測目標中, MpRoI池化算法在table,chair,car等多個類別上的檢測精確率高于RoI池化算法和RoI Align池化算法.
綜上所述, 針對現有主流的目標檢測算法存在檢測精確率低、 圖像邊緣區域分割不全等問題, 本文提出了一種基于Mask RCNN模型的感興趣區域池化算法, 其能克服復雜背景的干
擾, 改善邊緣區域圖像分割的鋸齒現象, 適應圖像邊緣區域的尺度形狀變化, 也使目標的定位更準確. 在數據集COCO(2014)上, 將本文算法與RoI池化算法和RoI Align池化算法進
行了對比分析. 結果表明, 相比于另外兩種池化算法, 本文算法的mAP值分別提高了2.96個百分點和0.92個百分點, AP50值分別提高了2.65,0.76個百分點, AP75值分別提高了2.98,0.87個百分點, 分類損失值降低了0.018和
0.006, 邊界框回歸損失值降低了0.302和0.008. 因此, 本文算法在精確率和穩定性方面具有優異的性能, 且具有良好的魯棒性, 能以較少的時間花費換取更高的目標檢測
與圖像分割精確率以及更低的分類損失和邊界框回歸損失, 達到令人滿意的目標檢測與圖像分割效果.
參考文獻
[1]" BORJI A, CHENG M M, JIANG H Z, et al. Salient Object Detection: A Benchmark [
J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706-5722.
[2]" 周炫余, 劉娟, 盧笑," 等. 一種聯合文本和圖像信息的行人檢測方法 [J]. 電子學報, 2017, 45(1): 140-146. (ZHOU X Y, LIU J, LU X, et
al. A Method for Pedestrian Detection by Combining Textual and Visual Information [J]. Acta Electronica Sinica, 2017, 45(1): 140-146.)
[3]" REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look
Once: Unified, Real-Time Object Detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.
[4]" LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot Mu
ltibox Detector [C]//Computer Vision-ECCV. Berlin: Springer, 2016: 21-37.
[5]" KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Clas
sification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012, 25: 1106-1114.
[6]" GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurat
e Object Detection and Semantic Segmentation [C]//Proceedings of the IEEE Confe
rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587.
[7]" GIRSHICK R. Fast RCNN [C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[8]" REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE Trans
actions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[9]" HE K M, GKIOXARI G, DOLLR P, et al. Mask R
-CNN [C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 2961-2969.
[10]" 王森, 楊克儉. 基于雙線性插值的圖像縮放算法的研究與實現 [J]. 自動化技術與應用, 2008, 27(7): 44-45. (WANG S, YANG K J. An Image Scali
ng Algorithm Based on Bilinear Interpolation with VC++ [J]. Techniques of Automation and Applications, 2008, 27(7): 44-45.)
[11]" 陳澤, 葉學義, 錢丁煒, 等. 基于改進Faster R-CNN的小尺度行人檢測 [J]. 計算機工程, 2020, 46(9): 226-232. (CHEN Z, YE X Y, QIAN D W,
et al. Small-Scale Pedestrian Detection Based on Improved Faster R-CNN [J]. Computer Engineering, 2020, 46(9): 226-232.)
[12]" 石杰, 周亞麗, 張奇志. 基于改進Mask RCNN和Kinect的服務機器人物品識別系統 [J]. 儀器儀表學報, 2019, 40(4): 216-228. (SHI J, ZHOU Y L,
ZHANG Q Z. Service Robot Item Recognition System Based on Improved Mask RCNN and Kinect [J]. Chinese Journal of Scientific Instrument, 2019, 40(4): 216-228.)
[13]" OTSU N. A Threshold Selection Method from Gray-Level Histograms [J]. IEEE Tr
ansactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66.
[14]" ZHANG Z. Proficient in Matlab Digital Image Processing and Recognition [M]. Beijing: Posts amp; Telecom Press, 2013: 1-186.
[15]" PANDA J, MEHER S. An Efficient Image Interpolatio Using Edge-Error Based Sh
arpening [C]//2020 IEEE 17th India Council International Conference (INDICON). Piscataway, NJ: IEEE, 2020: 1-6.
[16]" VINCENT O R, FOLORUNSO O. A Descriptive Algorithm f
or Sobel Image Edge Detection [C]//Proceedings of Informing Science amp; IT Education Conference (InSITE). [S.l.]: Informing Science Institute, 2009: 97-107
.[17]" 李躍. 基于邊緣定向的圖像插值算法研究 [D]. 廣州:
廣東工業大學, 2015. (LI Y. Edge-Oriented Image Interpolation [D]. Guangzhou: Guangdong University of Technology, 2015.)
[18]" 李鑫然, 李書琴, 劉斌. 基于改進Faster R_CNN的蘋果葉片病害檢測模型 [J]. 計算機工程, 2021, 47(11): 298-304. (LI X R, LI S Q, LIU B.
Apple Leaf Disease Detection Model Based on Improved Faster R_CNN [J]. Computer Engineering, 2021, 47(11): 298-304.)
(責任編輯:" 韓" 嘯)