徐衛(wèi)峰 王建鵬 高青



摘 要 目標(biāo)對象檢測算法屬于計(jì)算機(jī)視覺領(lǐng)域的重要問題,目前應(yīng)用于無人駕駛、車牌識別、交通違法檢測等領(lǐng)域的應(yīng)用方案已較為成熟。本文介紹了幾種流行的基于深度學(xué)習(xí)的目標(biāo)對象檢測算法研究進(jìn)展,然后探討了將其應(yīng)用于衛(wèi)生監(jiān)督執(zhí)法工作的應(yīng)用場景并對未來趨勢做了展望。
關(guān)鍵詞 目標(biāo)對象檢測算法;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);衛(wèi)生監(jiān)督
Absrtact object detection algorithm is an important problem in the field of computer vision. At present, it has been widely used in driverless, license plate recognition, traffic violation detection and other fields. This paper introduces the research progress of several popular object detection algorithms based on deep learning, and then discusses the application scenarios of applying them to health supervision and law enforcement work, and looks forward to the future trend.
Key words Target object detection algorithm; Deep learning; Convolution neural network; Health supervision
引言
目標(biāo)檢測,也叫目標(biāo)提取,是一種基于目標(biāo)幾何和統(tǒng)計(jì)特征的圖像分割,它將目標(biāo)的分割和識別合二為一,其準(zhǔn)確性和實(shí)時性是整個系統(tǒng)的一項(xiàng)重要能力。尤其是在復(fù)雜場景中,需要對多個目標(biāo)進(jìn)行實(shí)時處理時,目標(biāo)自動提取和識別就顯得特別重要。目標(biāo)對象檢測算法屬于計(jì)算機(jī)視覺領(lǐng)域的重要問題,隨著電子設(shè)備的應(yīng)用在社會生產(chǎn)和人們生活中越來越普遍,數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,每時每刻都在產(chǎn)生海量的圖像數(shù)據(jù)。與此同時,對圖像中的目標(biāo)進(jìn)行精確識別變得越來越重要[1]。我們不僅關(guān)注對圖像的簡單分類,而且希望能夠準(zhǔn)確獲得圖像中存在的感興趣目標(biāo)及其位置[2],并將這些信息應(yīng)用到執(zhí)法監(jiān)督、視頻監(jiān)控、自主駕駛等一系列現(xiàn)實(shí)任務(wù)中,因此目標(biāo)檢測技術(shù)受到了廣泛關(guān)注。
目標(biāo)對象檢測算法在醫(yī)學(xué)、交通、航天等領(lǐng)域越來越顯示出巨大的應(yīng)用場景。目前主要應(yīng)用于醫(yī)學(xué)影像的病灶檢測、行人監(jiān)控與識別、飛機(jī)航拍、衛(wèi)星物體檢測、交通執(zhí)法等。同時,目標(biāo)對象檢測也是視覺處理和分析任務(wù)的重要前提,例如行為分析、事件檢測、場景語義理解等都要求利用圖像處理和模式識別技術(shù),檢測出圖像中存在的目標(biāo),確定這些目標(biāo)對象的語義類型,并且標(biāo)出目標(biāo)對象在圖像中的具體區(qū)域[3]。在新冠肺炎疫情期間目標(biāo)對象檢測算法主要被應(yīng)用于行人檢測、遠(yuǎn)程溫度檢測的前置溫檢區(qū)定位、大數(shù)據(jù)追蹤等。
1目標(biāo)對象檢測算法研究進(jìn)展
應(yīng)用深度學(xué)習(xí)的目標(biāo)對象檢測算法目前主要有目標(biāo)區(qū)域建議 (Region proposal)和基于端到端(End-to-End)兩種解決方案。基于目標(biāo)區(qū)域經(jīng)典算法主要有R-CNN、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN等。基于端到端的算法有YOLO、SSD等。其算法性能在VOC 2012數(shù)據(jù)集上進(jìn)行性能測試結(jié)果如表1所示,該表展示了各種算法的平均準(zhǔn)確率(AP)。
從表中可以看出R-FCN、YOLOv2、SSD算法準(zhǔn)確率較高,但在生產(chǎn)力設(shè)備處理?xiàng)l件能力有限的情況下,SSD和YOLOv2算法處理相較于R-FCN算法更有效率,在筆者電腦上測試表明三種每秒可處理幀數(shù)分別為6、60、58。后兩種算法雖然準(zhǔn)確率稍遜色,但其明顯更具有應(yīng)用前景。下面重點(diǎn)介紹下這兩種算法。
YOLO的全拼是You Only Look Once,顧名思義就是只看一次,進(jìn)一步把目標(biāo)判定和目標(biāo)識別合二為一,所以識別性能有了很大提升,達(dá)到每秒45幀,而在快速版YOLO(Fast YOLO,卷積層更少)中,可以達(dá)到每秒155幀。網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖14所示,針對一張圖片,YOLO的處理步驟為:把輸入圖片縮放到448×448大小;運(yùn)行卷積網(wǎng)絡(luò);對模型置信度卡閾值,得到目標(biāo)位置與類別,如圖1所示。
SSD的全拼是Single Shot MultiBox Detector,沖著YOLO的缺點(diǎn)來的。SSD的框架如圖2所示,圖2(a)表示帶有兩個Ground Truth邊框的輸入圖片,圖2(b)和(c)分別表示8×8網(wǎng)格和4×4網(wǎng)格,顯然前者適合檢測小的目標(biāo),比如圖片中的貓,后者適合檢測大的目標(biāo),比如圖片中的狗。在每個格子上有一系列固定大小的Box(有點(diǎn)類似前面提到的Anchor Box),這些在SSD稱為Default Box,用來框定目標(biāo)物體的位置,在訓(xùn)練的時候Ground Truth會賦予某個固定的Box,比如圖2(b)中的藍(lán)框和圖2(c)中的紅框。
SSD和YOLO的網(wǎng)絡(luò)結(jié)構(gòu)對比如圖3所示。
SSD在保持YOLO高速的同時效果也提升很多,主要是借鑒了Faster R-CNN中的Anchor機(jī)制,同時使用了多尺度。但是從原理依然可以看出,Default Box的形狀以及網(wǎng)格大小是事先固定的,那么對特定的圖片小目標(biāo)的提取會不夠好。YOLO算法目前已有V2、V3版本。YOLO雖然檢測速度很快,但是在檢測精度上卻不如R-CNN系檢測方法,YOLOv1在物體定位方面(localization)不夠準(zhǔn)確,并且召回率(recall)較低。YOLOv2在改進(jìn)中遵循一個原則:保持檢測速度,這也是YOLO模型的一大優(yōu)勢。YOLOv2的改進(jìn)策略如圖4所示,可以看出其在VOC2007數(shù)據(jù)集上平均準(zhǔn)確率(AP)得到了提升。
2應(yīng)用于衛(wèi)生監(jiān)督領(lǐng)域的應(yīng)用探討
目標(biāo)對象檢測算法在衛(wèi)生領(lǐng)域應(yīng)用廣泛。目前目標(biāo)對象檢測算法在醫(yī)學(xué)研究應(yīng)用已較為成熟,其主要集中在對醫(yī)學(xué)圖像處理分析。增加經(jīng)過訓(xùn)練后網(wǎng)絡(luò),可以發(fā)現(xiàn)早期結(jié)節(jié)、病變組織,并可進(jìn)行預(yù)測。在衛(wèi)生監(jiān)督領(lǐng)域,目前應(yīng)用較少,筆者認(rèn)為可以應(yīng)用于監(jiān)督執(zhí)法工作、案件質(zhì)控快速分析工作、考勤等行政工作等。
在實(shí)際監(jiān)督執(zhí)法工作中,可考慮應(yīng)用目標(biāo)對象檢測算法快速發(fā)現(xiàn)違法行為進(jìn)行查處。在現(xiàn)場監(jiān)督中,可應(yīng)用執(zhí)法記錄儀實(shí)時收集分析上傳加密后的執(zhí)法數(shù)據(jù),在后臺可應(yīng)用目標(biāo)對象算法實(shí)時分析,進(jìn)行分類然后在利用其他算法對其進(jìn)行分析發(fā)現(xiàn)問題反饋。在利用攝像頭等遠(yuǎn)程監(jiān)督中,可將實(shí)時傳回的數(shù)據(jù)進(jìn)行分析查找違法線索,智能保留證據(jù),方便后續(xù)執(zhí)法。例如某市有相關(guān)控?zé)煑l例,公共場所禁止吸煙,那么可以在公共場所安裝攝像頭等裝置,利用目標(biāo)檢測算法實(shí)時分析吸煙人員,并將其吸煙證據(jù)實(shí)時保存,方便對違法行為進(jìn)行查處,通過監(jiān)督執(zhí)法提高人們的幸福指數(shù),減少違法行為的發(fā)生。
在案件質(zhì)控方面,可以應(yīng)用目標(biāo)對象檢測算法對執(zhí)法人員全過程執(zhí)法進(jìn)行分析,例如可以分析執(zhí)法人員衣著是否符合規(guī)范、執(zhí)法過程是否符合規(guī)范。另外也可以對相關(guān)執(zhí)法文書進(jìn)行分析,提高案卷質(zhì)量。
另外可將目標(biāo)對象檢測算法應(yīng)用于一些行政工作中。例如在考勤方面可應(yīng)用目標(biāo)對象檢測算法分析上班人員,提高正確率。
參考文獻(xiàn)
[1] Szegedy C,Toshev A,Erhan D.Deep Neural Networks for object detection[C].Advances in Neural Information Processing Systems. 2013:11-16.
[2] Felzenszwalb P F,Girshick R B,Mcallester D,et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9):1627-1645.
[3] Zhang X,Yang Y H,Han Z,et al. Object Class Detection: A Survey[J]. ACM Computing Surveys,2014,46(1):1-53.