改進Mask R-CNN算法在低光道路環(huán)境下行人檢測研究

2021-08-06 06:23:58賴坤城王磊磊

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2021年7期

賴坤城，趙津，王超，張航，王磊磊

（貴州大學(xué) a.機械工程學(xué)院；b.現(xiàn)代制造技術(shù)教育部重點實驗室，貴陽 550025）

行人檢測一直是計算機視覺關(guān)注的重點，該技術(shù)的研究可以應(yīng)用于無人駕駛場景［1］，以及智能視頻監(jiān)控、智能機器人等領(lǐng)域的應(yīng)用［2］。近年來，隨著深度學(xué)習(xí)的快速發(fā)展，其強大的特征表達能力，已使得基于深度學(xué)習(xí)的檢測算法在目標檢測領(lǐng)域占據(jù)了重要地位［3－4］。目前應(yīng)用較多的目標檢測算法框架有R-CNN、Fast R-CNN、Faster RCNN、SSD、YOLOv3以及Mask R-CNN等。盡管在最近的時間內(nèi)，基于深度學(xué)習(xí)的行人檢測模型不斷創(chuàng)新和改進，但是實驗發(fā)現(xiàn)這些行人檢測算法的性能往往在低光環(huán)境下會出現(xiàn)下降［5］。

為了提高低光環(huán)境的駕駛安全性，越來越多的研究人員和學(xué)者開始關(guān)注于夜間與低光環(huán)境下的行人檢測技術(shù)，以提高行人檢測算法的魯棒性。朱聰聰［6］提出了一種新的適合紅外圖像檢測的特征—梯度方向和強度直方圖混合特征（HOGI），降低了夜間行人檢測的漏檢率；宋姚姚［7］設(shè)計并實現(xiàn)了基于SSD框架的多光譜信息前端融合和后端融合結(jié)構(gòu)；Liu等［8］通過對RGB和深度數(shù)據(jù)的集成，提出了一種在動態(tài)環(huán)境中實時行人檢測和跟蹤的新方法；Jingjing等［9］基于Faster RCNN網(wǎng)絡(luò)設(shè)計了4種ConvNet融合結(jié)構(gòu)，將色彩圖像和熱圖像特征進行融合，在KAIST數(shù)據(jù)上比其他網(wǎng)絡(luò)結(jié)果漏檢率降低了3.5%；Wanger等［10］研究了2種深度融合結(jié)構(gòu)并探討了多光譜行人檢測的深層模型的潛力，研究表明經(jīng)過預(yù)訓(xùn)練的后期融合結(jié)構(gòu)明顯優(yōu)于現(xiàn)有的主流解決方案。

以上方法主要存在以下3個問題：①現(xiàn)有檢測網(wǎng)絡(luò)對不同光照下適應(yīng)性不好。②處理過程復(fù)雜且耗費時間，應(yīng)用到檢測網(wǎng)絡(luò)中性能提高不明顯。③這些算法往往都依賴于額外硬件設(shè)備（例如：熱相機、深度攝像機等）。因此針對上述問題，本文在不增加額外設(shè)備的前提下，以Mask R-CNN為基礎(chǔ)，通過在檢測模型中加入圖像融合模塊（MSRCR-IF）以突出不同光照下圖像目標信息，從而保證目標檢測網(wǎng)絡(luò)對光照較好的圖像和光照較差的圖像均有較好的檢測能力。另外，為了更加充分地利用不同特征層的語義信息，改進了特征金字塔網(wǎng)絡(luò)；然后通過調(diào)整區(qū)域提交網(wǎng)絡(luò)和去除實例分割分支的方式，實現(xiàn)了目標檢測速度的提高。改進后的網(wǎng)絡(luò)與原網(wǎng)絡(luò)進行實驗比較，結(jié)果表明改進后的網(wǎng)絡(luò)對于行人檢測精度有明顯提高。

1 Mask R-CNN算法介紹

在2017年，He等［11］提出對象實例分割網(wǎng)絡(luò)框架Mask R-CNN，該目標檢測網(wǎng)絡(luò)是在Faster RCNN的基礎(chǔ)上改進而來，是目前最優(yōu)秀的檢測算法之一。Mask R-CNN算法主要包含5個部分，分別是特征提取網(wǎng)絡(luò)（Resnet101）、特征金字塔網(wǎng)絡(luò)（feature pyramid network，F(xiàn)PN）、區(qū)域提交網(wǎng)絡(luò)（region proposal network，RPN）、感興趣區(qū)域?qū)R網(wǎng)絡(luò)（Region of Interest Align，RoI Align）以及功能性網(wǎng)絡(luò)。

Mask R-CNN的主干網(wǎng)絡(luò)由深度卷積神經(jīng)網(wǎng)絡(luò)Resnet101與特征金字塔網(wǎng)絡(luò)FPN的組合形成。FPN結(jié)構(gòu)中包含自上而下、自下而上和橫向鏈接3個部分。①自下而上的連接路徑可以獲得圖像的特征圖，能夠提取圖像更深層的特征語義信息。②自上而下的連接路徑，是把卷積神經(jīng)網(wǎng)絡(luò)所提取到的更抽象、語義更強的高層特征圖進行上采樣。③橫向連接，將上采樣得到的特征圖與自下而上所得到的相同大小的特征圖進行融合。這3種網(wǎng)絡(luò)結(jié)構(gòu)的組合可以將各個層級的特征進行融合，使其具有很強的語義信息和空間信息，并且避免了處理過程信息中的流失，在特征學(xué)習(xí)過程中起到非常重要的作用。其結(jié)構(gòu)如圖1所示。

圖1 特征金字塔網(wǎng)絡(luò)（FPN）結(jié)構(gòu)示意圖

區(qū)域提交網(wǎng)絡(luò)RPN作用是根據(jù)卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征，以每個像素點為中心生成一系列的候選框，各個框的大小由參數(shù)Scales和Ratio這2個參數(shù)來確定。其中Scales表示框尺寸大小，尺寸大小有5種；Ratio表示框的寬高比大小，比例大小有3種。RPN網(wǎng)絡(luò)也會對每個候選框的中心和寬、高進行修正，從而得到準確度較高的候選框。對于候選框的精確定位，Mask R-CNN網(wǎng)絡(luò)它不同于Faster R-CNN網(wǎng)絡(luò)中使用的RoI Pooling操作而是采取RoI Align，這樣能夠保留候選框位置的小數(shù)，實現(xiàn)更精確地在空間中定位，很好地解決RoI Pooling操作中2次量化而產(chǎn)生的區(qū)域不匹配問題，進而有效地提高了檢測模型的準確性。最后得到精確的檢測框和分類信息，以及生成目標識別的掩碼區(qū)域，實現(xiàn)目標檢測。

2 Mask R-CNN算法改進

本文提出的基于Mask R-CNN的低光道路行人檢測網(wǎng)絡(luò)，在Mask R-CNN基礎(chǔ)上增加圖像融合模塊，并對該檢測網(wǎng)絡(luò)的區(qū)域提交網(wǎng)絡(luò)和實例分割分支模塊進行了改進，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 改進Mask R-CNN檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖

2.1 圖像融合模塊

圖像融合模塊是受Jiang［12－13］等的文章啟發(fā)而提出的，其目的主要是判別輸入圖像的曝光程度，以及幫助解決圖像中曝光的不平衡和圖像特征不突出的問題。其計算過程如式（1）所示。

式中：P為原圖；PM為經(jīng)過MSRCR（multi-scale retinex with color restoration）處理過后的圖片；R是融合后的結(jié)果圖；W1為原圖的權(quán)重；W2為經(jīng)過MSRCR處理過后圖片的權(quán)重，且W1＋W2＝1。整個算法流程如圖3所示。

圖3 融合框架的色彩增強算法流程示意圖

圖像融合模塊通過對W1和W2權(quán)重數(shù)值的調(diào)節(jié)，將給曝光良好的區(qū)域分配較大的權(quán)重值，給曝光不足的區(qū)域分配較小的權(quán)重值，通過這種方式保證了不同光照下圖像的信息保留。其中權(quán)重矩陣W1的計算公式如式（2）所示。

式中：T為場景光照估計；μ為控制增強程度的參數(shù)。而T可以通過最優(yōu)方程得到：

通過找到最優(yōu)解，圖像融合模塊不僅能保證曝光良好的區(qū)域不過度曝光，同時也增加圖片曝光不足區(qū)域的曝光度，實現(xiàn)了圖像曝光度整體的平衡和重要信息的保留。因此在特征金字塔網(wǎng)絡(luò)FPN前加入該模塊，能夠有效幫助特征金字塔網(wǎng)絡(luò)FPN獲取穩(wěn)定的圖像特征和信息，以達到提高網(wǎng)絡(luò)的魯棒性和低光環(huán)境下的行人檢測效果。

2.2 FPN網(wǎng)絡(luò)的改進

特征金字塔網(wǎng)絡(luò)（FPN）在目標檢測中性能表現(xiàn)良好，但側(cè)邊連接方法僅增強了自上而下的路徑中的底層特征的語義表達，而輸入到RPN層的特征映射圖仍是從路徑中選擇出來的單一尺寸。這樣設(shè)計還存在2個問題：①高層級特征和低層級特征之間信息流動路徑很長，增加了訪問準確定位信息的難度。②輸入到RPN的特征映射圖只包含本層和更高層的特征信息，而忽略了更低層的特征信息，容易造成目標檢測精度下降。

為解決上述存在的問題，本文提出了改進的特征金字塔結(jié)構(gòu)，如圖4所示改進后特征金字塔增加了自下而上帶有反向側(cè)邊連接的支路，如圖4（b）所示，其中，P2－P5和N2－N5為FPN的特征映射層。

圖4 改進特征金字塔網(wǎng)絡(luò)（FPN）結(jié)構(gòu)示意圖

具體實現(xiàn)過程如下：首先使用卷積核大小為3×3，步長為2的卷積層對底層特征Ni進行卷積操作，將特征圖的寬和高縮小為原來的一半，得到與Pi＋1尺寸相同的特征圖；然后使用卷積核大小為1×1，步長為1的卷積層對特征層Pi＋1進行卷積，以減少該特征層輸出的特征通道數(shù)，從而與底層特征通道數(shù)匹配；最后將Ni層和Pi＋1層每個元素相加，并將結(jié)果經(jīng)過一個卷積步長為1、卷積核大小為3×3的卷積層，以去除特征混疊，得到新的融合特征Ni＋1。在原有結(jié)構(gòu)上添加側(cè)邊連接的方式，不僅達到了縮短底層到頂層的信息傳輸路徑，而且加強了底層特征信息的利用率。實現(xiàn)步驟如圖4（c）所示。

2.3 RPN網(wǎng)絡(luò)和實例分割分支的改進

為了能夠檢測更多形狀的目標物品，Mask R-CNN目標檢測算法在設(shè)計區(qū)域建議網(wǎng)絡(luò)RPN之初，將候選框的尺度設(shè)定為以下5種：［32×32，64×64，128×128，256×256，512×512］，候選框的寬高比為3種：［1∶2，1∶1，2∶1］。而本文算法主要應(yīng)用于道路場景下的行人檢測，且行人的候選框大多為瘦長型（包含：道路上行走的行人，騎自行車、摩托車的行人等），所以這樣設(shè)置對于行人檢測任務(wù)來說有著明顯的短板。因此，本文對區(qū)域建議網(wǎng)絡(luò)RPN進行了改進。通過增加一組縱向候選框替代橫向候選框，進而使得最終RPN網(wǎng)絡(luò)提供的候選區(qū)域更為準確，并且可以減少計算量以及節(jié)省模型訓(xùn)練時間。圖5（a）和（b）所示分別為候選框比例改進前和改進后示意圖。

圖5 候選框比例大小改進前后示意圖

另外對于目標檢測的任務(wù)，更關(guān)注識別目標物的類別以及位置信息。在Mask R-CNN目標檢測框架中，實例分割分支與分類預(yù)測分支是相互并行的，去掉掩碼分支并不會影響到網(wǎng)絡(luò)其他層的訓(xùn)練和預(yù)測結(jié)果。因此，本文選擇去掉Mask RCNN網(wǎng)絡(luò)中的實例分割分支，使得卷積神經(jīng)網(wǎng)絡(luò)專注于在提取到的特征圖上做分類和定位任務(wù)，通過這種方式可以節(jié)約訓(xùn)練、預(yù)測時間。

3 數(shù)據(jù)集與網(wǎng)絡(luò)訓(xùn)練

1）數(shù)據(jù)集準備

因為針對的是道路場景下的行人檢測，所以此次訓(xùn)練的圖片隨機選自于公開的COCO2017數(shù)據(jù)集，共選擇5 000張圖片作為數(shù)據(jù)集，其中訓(xùn)練集包含圖像4 000張，測試集1 000張。

另外還上網(wǎng)搜集了一些低光道路環(huán)境下的行人圖片，用于構(gòu)建低光道路行人數(shù)據(jù)集，其中包含行走、騎車、遮擋等各異姿態(tài)和背景的行人圖片1 000張。然后利用標注軟件對搜集的圖片進行標定并生成相應(yīng)的json文件。自行構(gòu)建的低光道路行人數(shù)據(jù)更加接近交通真實場景，更加復(fù)雜，對于網(wǎng)絡(luò)性能的檢測更具有挑戰(zhàn)性。

2）網(wǎng)絡(luò)訓(xùn)練

實驗算法基于深度學(xué)習(xí)網(wǎng)絡(luò)框架TensorFlow，代碼運行環(huán)境為Python3.5.2。在搭載NVIDIA RTX-2080 TI GPU的ubuntu16.04操作系統(tǒng)的實驗配置下完成。為加快訓(xùn)練速度并防止過擬合，在訓(xùn)練期間的具體參數(shù)設(shè)置如下：動量（momentum）為0.9，權(quán)值衰減系數(shù)（decay）為0.000 1，批量大小（batch-size）為16，學(xué)習(xí)率（learning rate）為0.001，迭代次數(shù)（iteration）為50 000。

4 實驗結(jié)果與分析

為驗證該改進網(wǎng)絡(luò)對低光環(huán)境下行人檢測的效果，在COCO2017數(shù)據(jù)集和自行構(gòu)建低光道路環(huán)境數(shù)據(jù)集上各選1 000張數(shù)據(jù)進行測試。采用以下2個指標對目標檢測網(wǎng)絡(luò)進行性能評估，其中包含平均檢測精度（average precision，AP），單位為百分比（%）；檢測速度（detection rate，DR），單位秒（s）。而檢測精度（precision，P）定義如式（6）所示。

式中：TP表示模型正確檢測的目標數(shù)量；FP表示模型誤檢的目標數(shù)量。

4.1 改進前后實驗驗證

在COCO 2107測試集下，對Mask R-CNN網(wǎng)絡(luò)改進前后的檢測效果進行對比，以驗證改進網(wǎng)絡(luò)的有效性，結(jié)果如表1所示。

表1 Mask R-CNN改進前后

由表1分析可得：文中通過對特征金字塔網(wǎng)絡(luò)進行改進，行人檢測精度提高到82.97%，比改進前提高2.50%，同時通過改進RPN網(wǎng)絡(luò)和刪除實例的方式使得檢測時間明顯下降，比改進前減少0.014 s。

4.2 圖像融合模塊實驗驗證

對Mask R-CNN網(wǎng)絡(luò)是否添加圖像融合模塊的檢測效果進行對比。同時選取當(dāng)前主流的目標檢測算法SSD、YOLOv3與本文所提的改進前后算法分別在COCO2017數(shù)據(jù)集和自行構(gòu)建的低光道路行人數(shù)據(jù)集上進行測試，結(jié)果如表2和表3所示。

表2 COCO2017測試集結(jié)果

表3 低光道路行人測試集結(jié)果

從表2可以看出：改進前后的算法在COCO2017測試集下均比SSD、YOLOv3算法檢測效果更好。另外Mask R-CNN添加圖像融合模塊，檢測時間大約增加0.02 s，但文章通過改進RPN網(wǎng)絡(luò)和刪除實例的方式使得每張圖片檢測時間僅增加了0.006 s，而檢測精度比未加該模塊的情況下檢測精度提高了1.07%。這說明了該模塊在正常光照環(huán)境下仍然能夠保證目標檢測框架具有較好的檢測效果。

從表3可以發(fā)現(xiàn)：SSD、YOLOv3算法在低光環(huán)境條件下的檢測性能迅速下降，平均檢測精度分別為53.53%和58.25%，檢測效果一般，容易出現(xiàn)漏檢或誤檢的情況。而Mask R-CNN由于其優(yōu)越的算法結(jié)構(gòu)，在該數(shù)據(jù)集下仍然表現(xiàn)較好，達到了70.39%的平均檢測精度。另外，在表3中僅改變Mask R-CNN的基礎(chǔ)網(wǎng)絡(luò)框架，而不添加圖像融合模塊，檢測結(jié)果提高了1.28%，檢測時間基本保持不變，說明通過改進基礎(chǔ)網(wǎng)絡(luò)框架對低光環(huán)境下的行人檢測仍然有一定的效果。而本文提出的方法表現(xiàn)均比其他算法有所提高，實現(xiàn)了75.05%的平均檢測精度，比改進前的算法高出了4.66%。因此本文所提出的圖像融合模塊在低光環(huán)境能有效提高目標檢測效果。

4.3 實驗結(jié)果可視化

為展示對比實驗的可視化結(jié)果，從測試數(shù)據(jù)集中選取幾張圖片進行比較分析。同時為了方便對比結(jié)果的展示，統(tǒng)一將幾個算法檢測的置信度閾值調(diào)整為默認值0.5。各算法結(jié)果對比如圖6所示。從圖6中可以明顯看到SSD算法和YOLOv3算法在低光道路環(huán)境下容易出現(xiàn)漏檢的情況，同時檢測精度也相對較低。而對比圖6（d）（e）可以發(fā)現(xiàn)改進后的算法不僅能檢測一些較小的行人目標，而且檢測精度也比改進前更高、更準確。

圖6 各算法在低光環(huán)境下行人檢測實驗對比結(jié)果

5 實車測試

為測試本文算法的準確性和有效性，采用某品牌線控車作為實驗平臺，在校園內(nèi)進行數(shù)據(jù)采集和試驗，如圖7所示。主要配備有激光雷達Velodyne、單目相機、GPS定位模塊等傳感器。實驗車速控制在25 km／h左右，實驗環(huán)境為雨天且光線較暗，行駛道路環(huán)境簡單。

圖7 實驗平臺車

圖8為實車實驗結(jié)果。左側(cè)為Mask R-CNN原算法檢測結(jié)果，右側(cè)為本文提出的改進后檢測結(jié)果，每一幀的檢測速度大約為0.220 s。從圖8（a）中可以明顯地看到原始算法將遠處的樹木檢測成行人，同時將其中一個環(huán)衛(wèi)路人誤檢成2個人。在圖8（b）中改進算法檢測仍然在光線低的情況下檢測出了在路邊樹下等待的行人，而原始算法并未檢測識別到路邊行人。而在圖8（c）中不難發(fā)現(xiàn)原始算法把道路左側(cè)的橡膠路錐檢測為行人，但是改進后的算法并未出現(xiàn)該誤檢情況。因此驗證了改進后的目標檢測算法對低光道路行人檢測具有更好的檢測效果和魯棒性能。

圖8 實車實驗數(shù)據(jù)對比結(jié)果

6 結(jié)論

針對行人檢測算法在低光環(huán)境下性能下降的問題，以Mask R-CNN目標檢測算法為基礎(chǔ)，在網(wǎng)絡(luò)中增加圖像融合模塊，解決了輸入圖像曝光不平衡的問題。采用改進特征金字塔結(jié)構(gòu)，優(yōu)化特征信息傳播路徑，充分利用各層特征信息，使輸入?yún)^(qū)域建議網(wǎng)絡(luò)的特征映射圖的信息更加準確和豐富；同時針對行人的特點改進了RPN網(wǎng)絡(luò)并且通過刪除實例分割分支，最終實現(xiàn)了目標網(wǎng)絡(luò)行人檢測能力的整體提升。實驗結(jié)果表明：所提出的改進方法在不影響正常光照行人檢測的前提下，能有效提高低光環(huán)境下的行人檢測效果。