趙梓杉,秦玉英,李 剛,衣明悅
(遼寧工業(yè)大學(xué)汽車與交通工程學(xué)院,遼寧 錦州 121001)
如今,計(jì)算機(jī)視覺已然成為了一個(gè)普遍的研究范疇,主要包含以下幾個(gè)方面:圖像數(shù)字化處理、圖像的標(biāo)準(zhǔn)轉(zhuǎn)換、圖像效果增強(qiáng)、恢復(fù)、分割、特征檢測(cè)等[1-2]。
目前,以卷積神經(jīng)網(wǎng)為基礎(chǔ)的目標(biāo)檢測(cè)算法越來越受到學(xué)者們的重視,有許多結(jié)構(gòu)簡(jiǎn)單、運(yùn)行效率高的網(wǎng)絡(luò)模型,可以大規(guī)模應(yīng)用這些算法,但是面對(duì)目標(biāo)檢測(cè)的難點(diǎn),國(guó)內(nèi)外的學(xué)者們提出了很多處理方案并進(jìn)行了大批實(shí)驗(yàn)。比如,Itti等人為了提取圖像中的特征,構(gòu)建了選擇性注意機(jī)制[3];Viola和Jones等提出一種級(jí)聯(lián)檢測(cè)器框架并成功應(yīng)用于檢測(cè)人臉[4];Navneet等人則提出Hog和SVM聯(lián)合使用的思想,Hog被用來進(jìn)行圖像特征提取,用線性SVM作分類器,進(jìn)行行人檢測(cè)[5-6];Felzenszwalb等人提出基于組件的檢測(cè)方法DPM,對(duì)檢測(cè)對(duì)象的變形具備很強(qiáng)的魯棒性[7-9]。經(jīng)過多年的研究和發(fā)展,最先進(jìn)的目標(biāo)檢測(cè)系統(tǒng)已與多種技術(shù)相結(jié)合在了一起,例如多尺度檢測(cè),邊界框回歸、上下文啟動(dòng)等[7]。
本文介紹了常用的數(shù)據(jù)集特點(diǎn)以及關(guān)于目標(biāo)檢測(cè)算法性能評(píng)價(jià)的關(guān)鍵參數(shù),對(duì)基于深度學(xué)習(xí)目前的主流的檢測(cè)算法進(jìn)行了綜述,最后討論了目標(biāo)檢測(cè)領(lǐng)域現(xiàn)存的問題,對(duì)該領(lǐng)域進(jìn)行了展望,并分析了未來的可以繼續(xù)探究的方向。
(1)COCO:數(shù)據(jù)集在是于2015年發(fā)布的一種基于日常復(fù)雜場(chǎng)景的常見目標(biāo)數(shù)據(jù)庫(kù),其中包含小目標(biāo)和多目標(biāo)等特點(diǎn),包含了30多萬(wàn)張完全分割的照片,平均每張圖像含有7個(gè)目標(biāo)實(shí)體,共標(biāo)注出250萬(wàn)個(gè)目標(biāo)對(duì)象,包括91種類別[10]。
(2)TinyPerson:中國(guó)科學(xué)院提交的一種只包含人類數(shù)據(jù)集,其中訓(xùn)練集與測(cè)試集各包含近800張左右的照片[11]。
(3)ImageNet:2010年首次推出,之后增加了目標(biāo)的類別和數(shù)量,提高了目標(biāo)檢測(cè)任務(wù)評(píng)價(jià)標(biāo)準(zhǔn),可用于目標(biāo)定位、場(chǎng)景分類、目標(biāo)檢測(cè)、圖像分類和場(chǎng)景解釋等任務(wù)。目前,該數(shù)據(jù)集中的圖像數(shù)超過1 200萬(wàn)張,類別增加了2.2萬(wàn)個(gè),約103萬(wàn)張照片進(jìn)行了目標(biāo)物體的類別標(biāo)注,對(duì)于目標(biāo)檢測(cè)任務(wù),其包含200個(gè)類別。
(4)UCAS-AOD:是一種遠(yuǎn)程目標(biāo)檢測(cè)數(shù)據(jù)集,只包含車輛、飛機(jī)兩個(gè)類別。其中,共有飛機(jī)小目標(biāo)樣本7 482個(gè),汽車小目標(biāo)樣本7 114個(gè)[12]。
(5)RSOD數(shù)據(jù)集:由武漢大學(xué)發(fā)布的航空遙感圖像, 包括飛機(jī)、操場(chǎng)、橋、油罐4個(gè)類別。橋類有176張,飛機(jī)類圖像有446張,操場(chǎng)類圖像有190張圖像,油罐類圖像有165張[13]。
(6)OICOD數(shù)據(jù)集:基于OpenImageV4的最大公用數(shù)據(jù)集,不同于ILSVRC和MSCOCO目標(biāo)檢測(cè)數(shù)據(jù)集,它包括更多的類別、圖像、邊界框、實(shí)例分割分支和海量的注釋處理,OICOD為目標(biāo)實(shí)例提供了可以手動(dòng)驗(yàn)證標(biāo)簽。
(7)OpenImageV4:使用分類器標(biāo)注圖像標(biāo)簽,通過人工標(biāo)注得到得分很高的標(biāo)簽。
(8)URPC2018:水下物體數(shù)據(jù)集包括d大批的小目標(biāo)該數(shù)據(jù)集共包含訓(xùn)練圖像近2 900幅和測(cè)試圖像近800幅,類別包括海參、海星、海膽和貝類[14]。
1.2.1 IoU(交并比)
等于它們之間的交集和并集的比值,是指由目標(biāo)檢測(cè)算法生成的候選框與實(shí)際的檢測(cè)框之間的重合程度,最理想的情況下IoU=1.0表示完全重合,通常而言IoU0.5認(rèn)為定位合理。
1.2.2 mAP(meanAveragePrecession)
平均精確度均值,是最直觀的表達(dá)方式,mAP值越大,表示該模型的精度越高。
目標(biāo)檢測(cè)可以分為兩類算法,一種是以R-CNN系列為代表的基于候選區(qū)兩階段算法,另一種是以是以YOLO、SSD為代表基于回歸的單階段算法。單階段算法則直接在特征圖上生成候選框。詳細(xì)算法性能介紹如表1所示。

表1 目標(biāo)檢測(cè)算法對(duì)比
目標(biāo)檢測(cè)一直是國(guó)內(nèi)外計(jì)算機(jī)視覺領(lǐng)域研究者們的探討熱點(diǎn),雖然單級(jí)和二級(jí)的目標(biāo)檢測(cè)算法都表現(xiàn)出令人滿意檢測(cè)效果,但是每個(gè)算法都有各自的優(yōu)點(diǎn)和缺點(diǎn),因此單獨(dú)依靠一種算法很難滿足精度和速度的要求,算法之間可以取長(zhǎng)補(bǔ)短,發(fā)揮各自優(yōu)勢(shì),提高檢測(cè)速度和精度,但滿足某些具體場(chǎng)景實(shí)時(shí)性需要,如高速行駛中的智能車輛環(huán)境檢測(cè),還需要較長(zhǎng)時(shí)間才能夠?qū)崿F(xiàn)。
未來目標(biāo)檢測(cè)研究和探索方向包括以下幾個(gè)方面:
(1)因果推理。因果推理是一種是機(jī)器擁有常識(shí),通過常識(shí)進(jìn)行判斷的一種小數(shù)據(jù)驅(qū)動(dòng)大任務(wù)的技術(shù),可以應(yīng)用在圖像分類,視頻問答,場(chǎng)景圖生成,相比于通過大量數(shù)據(jù)訓(xùn)練出來的模型來說,有了內(nèi)因加持的因果性,而不是基于數(shù)據(jù)擬合后的相關(guān)性,減少誤檢的情況,提高檢測(cè)的精度。期待在未來因果推理可以實(shí)現(xiàn)量化應(yīng)用到目標(biāo)檢測(cè)技術(shù)上。
(2)弱監(jiān)督或無監(jiān)督目標(biāo)檢測(cè)。由于目前想要得到良好效果的深度學(xué)習(xí)技術(shù)都離不開大量數(shù)據(jù)標(biāo)注的堆砌,訓(xùn)練后效果好壞與訓(xùn)練時(shí)用的數(shù)據(jù)的好壞成正比,僅使用少量標(biāo)注數(shù)據(jù)標(biāo)注后或者自動(dòng)標(biāo)注技術(shù)的目標(biāo)檢測(cè)技術(shù),可以減少人工標(biāo)注的成本和繁瑣,弱監(jiān)督或無監(jiān)督目標(biāo)檢測(cè)會(huì)成為將來的一個(gè)關(guān)鍵方向。
(3)模型可解釋。神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)時(shí)設(shè)置的參數(shù),如:學(xué)習(xí)率、衰減系數(shù)、卷積核大小。這些參數(shù)設(shè)置多少時(shí)模型可以得到最好的效果,目前并無法解釋,盲目調(diào)參且結(jié)果是未知的,若模型可以解釋,訓(xùn)練數(shù)據(jù)時(shí)會(huì)節(jié)省很多時(shí)間成本而且會(huì)得到效果最好的訓(xùn)練模型。
(4)通用多目標(biāo)檢測(cè)器。針對(duì)區(qū)域的檢測(cè)器往往性能更好,在預(yù)定義的數(shù)據(jù)集上實(shí)現(xiàn)了較高的檢測(cè)精度。設(shè)計(jì)一種沒有任何先驗(yàn)知識(shí)的通用的標(biāo)檢測(cè)器檢測(cè)出多領(lǐng)域的目標(biāo)是未來的基本研究方向。
加之目前計(jì)算機(jī)視覺領(lǐng)域的很多技術(shù)都處于定制化階段,并不能有很好的實(shí)用性,實(shí)際應(yīng)用時(shí)效果非常局限,基于以上種種,目標(biāo)檢測(cè)這一基本任務(wù)仍然是一個(gè)很有挑戰(zhàn)性的課題,有足夠的探索和進(jìn)步空間。