999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學(xué)習(xí)小目標(biāo)檢測算法研究綜述

2022-08-09 05:43:34張明路呂曉玲蔣志宏
計算機工程與應(yīng)用 2022年15期
關(guān)鍵詞:特征檢測信息

張 艷,張明路,呂曉玲,郭 策,蔣志宏

1.河北工業(yè)大學(xué) 機械工程學(xué)院,天津 300401

2.北京理工大學(xué) 機電工程學(xué)院,北京 100081

計算機視覺技術(shù)的蓬勃發(fā)展,使目標(biāo)檢測成為該領(lǐng)域重點研究內(nèi)容之一,也是其他視覺任務(wù)的基石。隨著深度學(xué)習(xí)的深入研究,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法也得到了長足進展,特別是面向大、中目標(biāo)的檢測算法,基本上滿足各種場景下的需求。由于小目標(biāo)在現(xiàn)實生活中也是大量存在并且具有著廣泛的使用前景,例如:在遙感圖像處理[1]、無人機導(dǎo)航[2]、自動駕駛[3]、醫(yī)學(xué)診斷[4],人臉識別[5]等多個應(yīng)用領(lǐng)域中發(fā)揮了巨大作用。小目標(biāo)本身尺度小在圖像中所含信息量較少,容易造成目標(biāo)模糊、細(xì)節(jié)特征不明顯,從而制約著小目標(biāo)檢測性能的進一步發(fā)展。

基于深度學(xué)習(xí)的小目標(biāo)檢測方法,是在雙階和單階算法基礎(chǔ)上加以完善的。雙階段方法將檢測問題分為兩步走,首先生成的是候選區(qū)域(region proposals),隨后對候選區(qū)域分類(通常還需對位置進行細(xì)化),雙階段算法流程圖如圖1所示。從2014年至今以R-CNN[6]算法為開端,在對深度學(xué)習(xí)和計算機視覺的不斷研究下,又涌現(xiàn)出Fast R-CNN[7]、Faster R-CNN[8]、SPPNet[9]等多個雙階算法[10-12],這些雙階算法在前期都被直接用于小目標(biāo)檢測上。由于雙階算法需先篩選出一些可能存在的候選區(qū)域,然后針對每個候選區(qū)域,進行目標(biāo)特征提取,效率相對較低,無法滿足實時性要求。而單階段與雙階段算法目標(biāo)檢測流程有所不同,如圖2所示,可以進行端到端檢測,無候選區(qū)分類,運行速度更快,但是精度略低。常見的單階段目標(biāo)檢測算法包括YOLO(you only look once)系列[13-16]和SSD(single shot multi-box detector)系列[17-21]。因此人們根據(jù)雙階算法和單階段算法的優(yōu)缺點進行了諸多改進,綜合提升小目標(biāo)的檢測性能。例如:Qi等人采用場景縮小技術(shù)并通過目標(biāo)區(qū)域定位和Faster R-CNN網(wǎng)絡(luò)構(gòu)造分層窄化網(wǎng)絡(luò),以減少檢測時的搜索時間[22]。Yin等人通過添加圖像級和實例級域分類器和一致性損失分量,解決訓(xùn)練樣本和實際樣本之間分布不一致導(dǎo)致域偏移問題,并在RPN網(wǎng)絡(luò)中使用多尺度訓(xùn)練方式,以提高模型的性能[23]。Wu等人提出了基于ResNet101主干的修正SC卷積的SCMask R-CNN模型,該模型可以獲得更多的判別性特征信息,并添加一組具有特定大小的膨脹卷積來改善實例分割效果[24]。Hu等人將顯著性映射引入YOLOv3中,獲得更大的IOU值[25]。Wang等人對YOLOV4進行修剪,引入一個擴展卷積層[26]。Gai等人[27]在YOLOv4主干網(wǎng)絡(luò)CSPDarknet53的基礎(chǔ)上增加網(wǎng)絡(luò),并結(jié)合DenseNet層間密度將先驗框改為適合小目標(biāo)果實櫻桃的標(biāo)記框。Wang等人[28]在SSD網(wǎng)絡(luò)架構(gòu)上設(shè)計了一個動態(tài)區(qū)域放大網(wǎng)絡(luò)框架。Jia等人[29]在SSD的基礎(chǔ)上增加了中心損失函數(shù)以更好地解決類內(nèi)差大于類間差異的情況。Bai等人[30]結(jié)合SSD算法中目標(biāo)幀推薦策略和幀回歸算法。以上這些方法無論是在雙階段還是單階段算法的基礎(chǔ)進行完善,都與當(dāng)時相對流行的方法進行了對比,在檢測精度和速度上取得了成效。

圖1 雙階段算法流程Fig.1 Two-stage algorithm flow

圖2 單階段算法流程Fig.2 One-stage algorithm flow

然而目標(biāo)檢測作為計算機視覺領(lǐng)域重要的研究對象之一,近年來也發(fā)表了一些優(yōu)秀的綜述文章。Zhou等人[31]共收錄了近400篇與目標(biāo)檢測相關(guān)的論文,其中檢測器、目標(biāo)檢測數(shù)據(jù)集、指標(biāo)、檢測系統(tǒng)、加速技術(shù)和檢測方法等內(nèi)容具有里程碑意義,并介紹了過去20多年目標(biāo)檢測的主要發(fā)展,但是針對小目標(biāo)檢測的相關(guān)方法甚少。Tong等人[32]從5個方面闡述小目檢測,在常用數(shù)據(jù)集上對當(dāng)前經(jīng)典的檢測方法進行實驗,比較分析檢測算法的優(yōu)缺點。Chen等人[33]和Liu等人[34]都是從4個研究領(lǐng)域?qū)π∧繕?biāo)檢測算法做了總結(jié),并在數(shù)據(jù)集上進行性能測試。也從4個研究領(lǐng)域介紹了基于深度學(xué)習(xí)的小目標(biāo)檢測技術(shù)。文獻[31-34]雖然從多個方面對小目檢測方法進行闡述,且結(jié)合實際情況提出了未來的發(fā)展建議,重點不在小目標(biāo)定義、重難點分析及性能評估等方面。此外,國內(nèi)也有對小目標(biāo)檢測領(lǐng)域的總結(jié)性文獻,并取得一定成效[35-40]。受這些綜述的啟發(fā),在其基礎(chǔ)上進行了系統(tǒng)而深入的分析、總結(jié)。

1 小目標(biāo)定義及重難點

在不同場景下小目標(biāo)定義有著不同的解釋,目前小目標(biāo)定義包括兩種[41]:一種是絕對尺寸定義,從目標(biāo)絕對像素大小對小目標(biāo)定義。以物體檢測范疇的常用數(shù)據(jù)集COCO物體定義為例,圖中目標(biāo)低于32×32像素的物體為絕對小目標(biāo);從目標(biāo)與圖像的相對比對小目標(biāo)進行定義,目標(biāo)物體小于圖像大小的10%甚至更小是相對尺寸小。圖3(a)為絕對尺寸定義下小目標(biāo)示例,圖3(b)為相對尺寸定義下小目標(biāo)示例。

圖3 小目標(biāo)示例Fig.3 Small target example

COCO數(shù)據(jù)集作為評價目標(biāo)檢測性能的常用數(shù)據(jù)集,共有80個類別的物體,超過11萬張圖片,包含大量小目標(biāo)。圖4為目前主流算法在COCO數(shù)據(jù)集上的表現(xiàn)情況,其中APS、APM、APL分別為小、中、大目標(biāo)檢測的精確度。從圖4可以看出,小目標(biāo)檢測的精度相比于中、大目標(biāo)嚴(yán)重不足。這導(dǎo)致小目標(biāo)語義識別、語義分割、目標(biāo)跟蹤等后續(xù)高級任務(wù)面臨諸多困難。因此,小目標(biāo)檢測精度不足是目標(biāo)檢測領(lǐng)域當(dāng)前面臨的關(guān)鍵性挑戰(zhàn)。

圖4 不同尺寸目標(biāo)在COCO數(shù)據(jù)集上的表現(xiàn)Fig.4 Representation of different size targets on COCO datasets

通過以上對小目標(biāo)定義以及不同尺寸目標(biāo)在最通用的COCO數(shù)據(jù)集上的表現(xiàn),可知小目標(biāo)像素在圖像中占比少,存在覆蓋域小、包含信息少等問題。本文對造成這些問題的原因及困難進行分析總結(jié)。

(1)特征信息不足。在圖像中小目標(biāo)相對于大、中目標(biāo)相比都存在分辨率低、圖像模糊等問題。針對這種情況基于深度學(xué)習(xí)的目標(biāo)檢測算法通常會搭建數(shù)十層甚至上百層的網(wǎng)絡(luò),進行大量的下采樣及池化操作,圖片會在原有像素的基礎(chǔ)上被不斷壓縮,使得原圖像中的特征信息被提取得愈加減少。或者是通過淺層網(wǎng)絡(luò)直接進行回歸預(yù)測會導(dǎo)致特征提取不充分,回歸效果差,這兩種方式都無法最大化得到小目標(biāo)特征信息,最終導(dǎo)致難以檢測。

(2)特定數(shù)據(jù)集欠缺。COCO數(shù)據(jù)集被作為小目標(biāo)檢測算法的常用數(shù)據(jù)集,其中有52.3%的照片包含小目標(biāo),大、中目標(biāo)所占比例分別為83.0%和70.7%。大、中目標(biāo)檢測時會關(guān)聯(lián)更多的錨點框,在交并比大于0.5的限制下,訓(xùn)練過程會丟失更多小目標(biāo),同時大、中目標(biāo)數(shù)量較多,且和小目標(biāo)的尺寸差異較大,神經(jīng)網(wǎng)絡(luò)難以適應(yīng)不同的目標(biāo)尺寸,導(dǎo)致小目標(biāo)檢測精度不足。因此,沒有適合小目標(biāo)檢測研究的數(shù)據(jù)集成為難點之一。

(3)小目標(biāo)聚集。有多個小目標(biāo)同時出現(xiàn)在視野中,易發(fā)生扎堆聚集的現(xiàn)象。若是同類別小目標(biāo)聚集,在檢測過程中邊界預(yù)測框會出現(xiàn)多個重疊,也會被過濾掉,導(dǎo)致會被重檢和漏檢;若是多種類別的小目標(biāo)聚集,經(jīng)過神經(jīng)網(wǎng)絡(luò)多次采樣、卷積,導(dǎo)致在特征提取時變成一個點,無法區(qū)分不同的目標(biāo),檢測準(zhǔn)確性急速下降。此外,由于小目標(biāo)的聚合,模型難以收斂由于邊界框的重疊。

(4)損失函數(shù)不平衡。深度學(xué)習(xí)進行目標(biāo)檢測,需利用損失函數(shù)進行梯度回歸對參數(shù)優(yōu)化,而當(dāng)前損失函數(shù)大多是針對大、中目標(biāo)所設(shè)計,采用位置誤差和分類誤差,部分算法增加了交并比誤差。在進行回歸訓(xùn)練時這些誤差并未考慮到小目標(biāo)樣本情況,導(dǎo)致在較多應(yīng)用場景中小目標(biāo)出現(xiàn)檢測困難的情況。

(5)網(wǎng)絡(luò)結(jié)構(gòu)原因。現(xiàn)有的目標(biāo)檢測算法框架都是為了大、中目標(biāo)的檢測性能設(shè)計的。針對小目標(biāo)的設(shè)計少之又少,再加上小目標(biāo)本身的特點,這些原因?qū)е卢F(xiàn)有算法在小目標(biāo)檢測上表現(xiàn)效果低于人們的期望值。網(wǎng)絡(luò)檢測器仍以錨框為主,用來確定在預(yù)設(shè)的子窗口或錨點框內(nèi)是否存在目標(biāo)。但是,上述方法都必然地要求對特定的數(shù)據(jù)集設(shè)計甚至優(yōu)化滑窗或錨點框等超參數(shù),因此增加了訓(xùn)練復(fù)雜度并影響了檢測器的通用性。

(6)通用性欠缺。小目標(biāo)檢測來源于特定應(yīng)用場景,例如遙感圖像中對艦船、無人機對地面人/物、自動駕駛汽車對遠(yuǎn)處行人/車輛、醫(yī)學(xué)影像中對微動脈瘤,人臉識別中對遠(yuǎn)距離人臉、工業(yè)加工中電子零部件等。現(xiàn)有算法大多基于常規(guī)目標(biāo)設(shè)計,對于特定的復(fù)雜多變的場景無法具備良好的遷移能力,通用性不足限制了算法在小目標(biāo)檢測場景中的應(yīng)用。

2 小目標(biāo)檢測算法研究方向

2.1 數(shù)據(jù)增強

數(shù)據(jù)增強是指利用有限的數(shù)據(jù)來實現(xiàn)更多的數(shù)據(jù)的價值。由于現(xiàn)有數(shù)據(jù)集小目標(biāo)數(shù)量很少,所以學(xué)者采用數(shù)據(jù)增強方法增強訓(xùn)練集,以得到適當(dāng)?shù)挠?xùn)練樣本,從而減少模型對參數(shù)的依賴,提升模型泛化能力和魯棒性。數(shù)據(jù)增強一般可分為有監(jiān)督和無監(jiān)督兩種方法。其中有監(jiān)督數(shù)據(jù)增強主要包括單樣本和多樣本數(shù)據(jù)增強方法,無監(jiān)督數(shù)據(jù)增強則可分為生成新數(shù)據(jù)和學(xué)習(xí)增強策略兩個方向,數(shù)據(jù)增強的特點對比如表1[16,42-52]。

表1 相關(guān)數(shù)據(jù)增強方法對比Table 1 Comparison of related data augmentation methods

小目標(biāo)在特征提取時信息過少,相比于大、中目標(biāo),匹配錨點框訓(xùn)練效果甚微,影響小目標(biāo)檢測精度。常規(guī)的幾何變換等單樣本數(shù)據(jù)增強方法,只能提升算法對不同場景的適應(yīng)性,無法改善小目標(biāo)與大、中目標(biāo)檢測不平衡問題。因此,需采用多種數(shù)據(jù)增強方法結(jié)合來改善訓(xùn)練效果,針對性解決模型應(yīng)用問題,提升算法性能。例如利用Mosaic方法可提高模型對小目標(biāo)識別能力;多樣本數(shù)據(jù)增強比單樣本更能提升圖像多樣性和檢測精度。因此多樣本數(shù)據(jù)增強目前還是被研究的重點。同時在無監(jiān)督數(shù)據(jù)增強中,生成新數(shù)據(jù)中GAN網(wǎng)絡(luò)和學(xué)習(xí)增強網(wǎng)絡(luò)也備受關(guān)注。由于是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)不斷博弈過程,使得GAN的處理速度相比有監(jiān)督的要慢,但是生成的圖像質(zhì)量卻很高。AutoAugment方法與GAN面臨相同的問題,對圖像質(zhì)量有保障,但時間較慢,文獻[49-52]都是在保證增強效果與AutoAugment相近,以提高訓(xùn)練、搜索時間。

除了表1中提到的常用的方法,很多學(xué)者也會以這些為基礎(chǔ),提出適用于他們所研究背景下的其他增強方法,如Kisantal等人[53]將難以檢測到的小目標(biāo)在圖像中復(fù)制粘貼并進行姿態(tài)角度變換,采用過采樣(oversampling)方式提高小目標(biāo)檢測精度,完善了小目標(biāo)在圖像中占比較少問題。與MS COCO上的方法相比,在小目標(biāo)檢測上完成了7.1%的精度提升。Chen等人[54]提出了RRNet算法,如圖5所示,用自適應(yīng)增強的策略將無人機捕獲的圖像送入預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò)中,利用侵蝕算法(eroding algorithm)和中值濾波器過濾噪聲,最終抽取一個有效位置來放置被增強物體,以達(dá)到數(shù)據(jù)增強目的。為了根據(jù)訓(xùn)練情況進行自適應(yīng)調(diào)整,Chen等人[55]提出sticher將損失函數(shù)中小目標(biāo)損失的比例作為反饋,小目標(biāo)損失占比過少時,在下一次迭代訓(xùn)練中采用圖片拼接方式提高小目標(biāo)訓(xùn)練效果。Bochkovskiy等人提出YOLOv4算法中的mosaic方法,采用幾個照片拼接進行數(shù)據(jù)增強,區(qū)別在于YOLOv4采用不同尺度照片進行拼接。不同應(yīng)用場景往往需要不同的專用數(shù)據(jù)增強方法,因此谷歌團隊的Zoph等人[56]提出基于學(xué)習(xí)策略的數(shù)據(jù)增強手段。定義一系列子策略集和多個圖像操作變換,將數(shù)據(jù)增強手段的選擇融入訓(xùn)練中,達(dá)到自動調(diào)整適應(yīng)。

圖5 RRNet中自適應(yīng)增強策略Fig.5 Adaptive enhancement strategy in RRNet

數(shù)據(jù)增強方法在一定程度上解決了小目標(biāo)數(shù)據(jù)集小、可定性地增加目標(biāo)信息量等問題,使得模型的泛化能力和魯棒性也得以提升。有監(jiān)督的數(shù)據(jù)增強方法經(jīng)過近幾年的研究相對較完善,特別是多樣本增強方法,將多種增強方法有效結(jié)合起來,以提高模型的泛化能力和檢測性能,是現(xiàn)在數(shù)據(jù)增強的主要方法。而無監(jiān)督數(shù)據(jù)增強方法在現(xiàn)階段仍處于不斷研究的過程。主要是由于有監(jiān)督數(shù)據(jù)增強方法操作簡單,耗時少;而無監(jiān)督數(shù)據(jù)增強網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,在訓(xùn)練過程中卷積次數(shù)多,計算繁瑣,耗時長。這些增強方式的應(yīng)用不當(dāng)除了增加計算量還會加入新的噪聲,給算法應(yīng)用帶來挑戰(zhàn)。

2.2 多尺度特征融合

小目標(biāo)與正常目標(biāo)比可用的像素少,特征不明顯難以提取。隨著網(wǎng)絡(luò)層數(shù)的改變,小目標(biāo)的特征信息與位置信息也在逐層丟失,難以檢測。特征融合是將圖片特征提取過程中的低層條紋、外部輪廓、像素分布等細(xì)節(jié)信息與高層提取到的抽象語義信息相融合,多尺度特征融合是指通過自頂向下的多次上采樣融合,最終形成包含細(xì)粒度表達(dá)和抽象語義表達(dá)的特征圖,提高小目標(biāo)檢測效果。多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

圖6 多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Multi-scale feature fusion network structure

為了減少小目標(biāo)本身特性給算法帶來的負(fù)面影響以獲得更好的特征融合效果,不少研究者在檢測器架構(gòu)上加以優(yōu)化,常用檢測器是利用特征金字塔來檢測不同尺寸的物體,其中FPN就是構(gòu)建特征金字塔最具有代表性的結(jié)構(gòu)構(gòu)件[57]。將不同尺度的特征進行融合作為預(yù)測網(wǎng)絡(luò)的輸入。圖7為FPN結(jié)構(gòu)的示意圖,圖像經(jīng)過自下向上的特征提取之后,再進行自上向下的特征融合結(jié)構(gòu),最后送入預(yù)測模塊輸出結(jié)果。很多學(xué)者對FPN網(wǎng)絡(luò)進行改進,使檢測器取得更好的效果。Guo等人根據(jù)FPN的設(shè)計缺陷導(dǎo)致多尺度特征利用不足,設(shè)計了全新的特征金字塔結(jié)構(gòu)AugFPN,并在RCNN中應(yīng)用,結(jié)果表明平均精度有了提高[58]。Ghiasi等人在一個覆蓋任何交叉尺度連接的可擴展搜索空間中,通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索找到了一種全新的特征金字塔結(jié)構(gòu)NAS-FPN,從頂向下和自下而上的連接組合而成,能夠跨范圍地融合特征,在COCO數(shù)據(jù)集上得到了很好的驗證[59]。Luo等人受亞像素的啟發(fā)利用原始通道信息進行跨尺度輸出,提出CE-FPN結(jié)構(gòu),并在MS COCO得到了比FPS更好的性能[60]。Kim等人提出并行FPN網(wǎng)絡(luò),通過增加網(wǎng)絡(luò)寬度來構(gòu)建,提升小目標(biāo)檢測效果[61]。Zhao等人提出自頂向下和自底向上的特征金字塔網(wǎng)絡(luò)(TDBU-FPN),該網(wǎng)絡(luò)結(jié)合了多尺度特征和多縱橫比錨定生成,在數(shù)據(jù)集上的精度和速度的表現(xiàn)也有了一定提升[62]。

圖7 FPN結(jié)構(gòu)Fig.7 FPN structure

針對小目容易受環(huán)境干擾問題,后續(xù)人們對金字塔網(wǎng)絡(luò)結(jié)構(gòu)的研究主要是與single shot detector(SSD)模型結(jié)合。Li等人[63]將FPN結(jié)構(gòu)與SSD算法相融合,在2017年提出了feature fusion SSD(FSSD)算法,將不同尺度特征重新調(diào)整至相同大小,再按通道拼接,實現(xiàn)不同尺度的特征融合。Fu等人[64]提出了deconvolutional SSD(DSSD)算法,DSSD將SSD的VGG網(wǎng)絡(luò)用殘差網(wǎng)絡(luò)進行了替換,如圖8所示,不同于通道疊加,利用反卷積層和原有特征層相乘的方式實現(xiàn)了特征融合。李文濤等人[65]提出一種基于SSD的多尺度通道注意力融合網(wǎng)絡(luò)的小目標(biāo)檢測算法,針對小目標(biāo)特征不明顯,設(shè)計了基于K領(lǐng)域的局部通道注意力模塊,可重新對每個通道的權(quán)重進行分配以達(dá)到最佳的特征學(xué)習(xí)效果;然后在卷積神經(jīng)網(wǎng)絡(luò)中構(gòu)建Bottleneck模塊,可更有效地把信息融合起來,再利用網(wǎng)絡(luò)的高低層特征進行多尺度檢測,可提高小目標(biāo)檢測的精度。陳欣等人[66]改進了多尺度特征融合SSD方法,除了豐富語義信息,增強小目標(biāo)特征,還引入了注意力模塊減少背景干擾,提升了檢測精度,降低漏檢率。李暉暉等人[67]提出了基于串行修正線性單元和FPN改進的SSD艦船目標(biāo)檢測算法,提升淺層特征的傳遞效率,結(jié)果表明在艦船小目標(biāo)的檢測精度有10%的提升。趙彤等人[68]利用長短記憶(LSTM)網(wǎng)絡(luò)改進FPN架構(gòu),并與SSD融合,建立一種新的特征融合網(wǎng)絡(luò)MSSD(memory SSD),算法在Pascal VOC數(shù)據(jù)集上取得了比較好的實驗結(jié)果。李寶奇等人[69]針對SSD自帶的特征提取網(wǎng)絡(luò)(OAFEN)中的stride操作產(chǎn)生的小目標(biāo)信息損失和串聯(lián)結(jié)構(gòu)帶來的多尺度特征之間冗余度較大的情況,提出使用可分離空洞卷積,同時設(shè)計了一個包含三個獨立子網(wǎng)絡(luò)的并行附加特征提取網(wǎng)絡(luò)(PAFEN),使得在SSD網(wǎng)絡(luò)架構(gòu)內(nèi),PAFEN檢測時間和速度均比OAFEN效果好,也在其他的網(wǎng)絡(luò)架構(gòu)中進行實驗,進一步說明了PAFEN特征提取網(wǎng)絡(luò)比OAFEN在小目標(biāo)檢測上性能更好。梁延禹等人[70]提出一種多尺度非局部注意力網(wǎng)絡(luò)方法,在淺層利用非局部通道注意力模塊將全局信息集成,不僅可以大大提高小目標(biāo)檢測準(zhǔn)確率,還可使模型更具實時性。Meng等人[71]采用FPN的MobileNet-SSD模型以提高檢測精度和速度。Qu等人[72]利用FPN網(wǎng)絡(luò)提出擴張卷積和特征融合的SSD網(wǎng)絡(luò),可以提高小物體檢測精度。Ren等人[73]使用精簡后的FPN網(wǎng)絡(luò)結(jié)構(gòu)和改進的SSD模型,平衡小目標(biāo)檢測的速度和精度。Kong等人[74]在SSD模型上使用新的FPN架構(gòu),能夠在全局和局部的不同空間和尺度上提取目標(biāo)特征,在進行檢測。Zhang等人[75]通過語義分割和全局激活模塊,減弱淺層對小目標(biāo)性能的影響。

圖8 DSSD模塊Fig.8 DSSD module

最近學(xué)者們對特征融合這一方法進行了新的研究,如Xue等人[76]針對小目標(biāo)在多次卷積后信息易丟失,便在F-CNN網(wǎng)絡(luò)結(jié)構(gòu)上提出一種改進的小目標(biāo)檢測方法,不僅增強了多尺度特征還融合了它們之間的上下文語義信息。該算法經(jīng)過一系列的上采樣和融合有效提高了檢測精度。但是訓(xùn)練一個適用于各種尺度物體的模型仍需要進一步研究。Nayan等人[77]也是針對小目標(biāo)信息易丟失,引入了一種實時檢測算法,該算法采用上采樣和跳連接,在學(xué)習(xí)任務(wù)中提取不同卷積級別的多尺度特征,從而在檢測小對象方面取得了顯著的性能。Deng等人[78]提出一種擴展特征金字塔網(wǎng)絡(luò)(DFPN),該網(wǎng)絡(luò)中有一個專門檢測小目標(biāo)的超高分辨率金字塔。設(shè)計了一個新模塊-特征紋理轉(zhuǎn)移(FTT),用于分辨特征,同時獲得更可信的區(qū)域細(xì)節(jié);此外還設(shè)計了平衡損失函數(shù),除了可提升檢測準(zhǔn)確率,還在計算和存儲方面也是高效的。Qi等人[79]先提出一種自適用空間并行卷積模塊(ASPConv),用于提取小目標(biāo)的多尺度局部上下文信息,增強對目標(biāo)的空間信息;其次,設(shè)計一個快速多尺度融合模塊,將該模塊與ASPConv模塊輸出的豐富空間信息有效集成。擁有豐富語義信息的低分辨率特征能夠有效映射到高分辨率空間。通過將多尺度特征地圖融合,可以形成具有豐富空間與語義信息的高分辨率特征地圖,有利于小目標(biāo)檢測。由于該方法在實驗過程中取得良好的效果,可逐漸推廣到搜救、智能駕駛等多種小目標(biāo)檢測場景中。

上述多尺度特征融合方式,不但考慮到了低層條紋、外部輪廓、像素分布等細(xì)節(jié)信息還兼顧了高層獲取到的抽象語義信息,這樣有利于提高小目標(biāo)檢測的性能。在提高性能的同時也增加了額外的工作量尤其是計算量和存儲空間,在特征融合過程中難以避免其他問題干擾,如:噪聲等,而這些問題也造成多尺度架構(gòu)下小目標(biāo)檢測性能下降。

2.3 錨點框設(shè)計

錨框在目標(biāo)檢測中位置舉足輕重,目前大部分目標(biāo)檢測算法是基于錨點框預(yù)測。但錨點框從最初模型設(shè)計都是為了大、中目標(biāo)的檢測,忽視了小目標(biāo)的檢測。因此很多學(xué)者在原有錨點框基礎(chǔ)上進行了研究,Zhu等人[80]發(fā)現(xiàn)目前的錨點設(shè)計無法保證小目標(biāo)與錨點框之間高度重疊,增加了訓(xùn)練難度。針對人臉識別中小人臉的問題,提出了增加移位錨點的方法來提高小目標(biāo)檢測精度。添加額外的支持性錨點框即移位錨點框,而不是以滑動窗口位置為中心。圖9(a)和圖9(b)分別為斜向移位方式和直線移位方式。這些移位的錨點與中心錨點共享相同的特征表示,導(dǎo)致小目標(biāo)檢測的平均交并比(intersection over union,IOU)顯著提高。固定的錨點框大小并不適合多樣性特征的小目標(biāo)檢測任務(wù),因此需反復(fù)設(shè)計錨點框長寬比,延長設(shè)計時間。針對這一現(xiàn)象,Wang等人[81]提出了根據(jù)不同形狀的特征提取模塊生成錨點機制,使錨點框形狀可變且稀疏。這一機制將錨點的生成分解為形狀預(yù)測和位置預(yù)測,可以看成是一個條件分布。這一方法使錨點框的生成通過訓(xùn)練的方式來實現(xiàn)。Li等人[82]提出了Pixel-Anchor框架,通過特征共享和錨級注意機制將語義分割和SSD結(jié)合到一個網(wǎng)絡(luò)中,用于更好地預(yù)測尺度和長寬比變換較大的目標(biāo),有效緩和了目標(biāo)檢測時小目標(biāo)特征太稀疏的問題。王毓瑋等人[83]利用改進的K-Means算法設(shè)計適合艦船目標(biāo)形狀特點的先驗錨點框,優(yōu)化NMS算法以剔除重疊區(qū)域的艦船候選框,改善了艦船距離較近導(dǎo)致的漏檢問題。周慧等人[84]提出自適應(yīng)錨點框來優(yōu)化目標(biāo)檢測網(wǎng)絡(luò)。

圖9 移位錨點框示例Fig.9 Example of shifting anchor box

將錨點框調(diào)整為關(guān)鍵點定位方式也是當(dāng)前的一個重要研究方向。Law等人[85]提出了一種關(guān)鍵點檢測新思路,把檢測目標(biāo)框生成問題處理成左上角點和右下角點的一對關(guān)鍵點的目標(biāo)檢測問題,利用角點池化技術(shù)簡化預(yù)測過程,也可解決之前固定錨點預(yù)測的不靈活性。但該方法易將不是同一個物體的兩個角點看成一個目標(biāo)框,造成誤檢。為克服這一問題,Duan等人[86]發(fā)現(xiàn)目標(biāo)框正確時中心區(qū)域能夠檢測到目標(biāo)中心點的概率會很高,反之亦然。因此提出了Centernet網(wǎng)絡(luò),首先使用左上和右下兩個角點生成初始目標(biāo)框,依次定義中心區(qū)域,如果目標(biāo)框中心區(qū)域包含中心點則保存,反之則刪除。圖10為Centernet的網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過對角點預(yù)測和中心點預(yù)測兩條路徑,最終在COCO數(shù)據(jù)集上獲得47%的精度,其中小目標(biāo)檢測精度為28.9%。

圖10 Centernet網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Centernet structure

在最新研究成果中,Dong等人[87]提出了新的向心偏移角匹配方法,向心力能夠預(yù)測角點和向心移動位置,并匹配移動結(jié)果對齊的角點,同時引入一種能夠更好地預(yù)測向心偏移的交叉星形可變形卷積模塊。在MS COCO上精度提高到了48%,超越了目前最先進的關(guān)鍵點檢測算法。Zhang等人[88]將錨點框檢測和關(guān)鍵點檢測兩種方法進行融合,提出了一種自適應(yīng)訓(xùn)練樣本選擇方法,按照目標(biāo)統(tǒng)計特征自動選擇正樣本和負(fù)樣本。改善錨點和無錨點探測器性能,彌補了兩者之間的差距,較好地檢測出了小目標(biāo)。

通過調(diào)整不同的anchor,使其盡量地覆蓋物體,也可根據(jù)各種任務(wù)設(shè)置不同的anchor尺度范圍;物體的定位都是利用anchor回歸實現(xiàn)的,僅計算偏移量就減少了計算量,降低復(fù)雜度;而anchor需要人為設(shè)定大量的參數(shù),且離散的anchor尺度設(shè)置會使一些物體無法很好地匹配到anchor,進而造成遺漏,因此解決這些問題是繼續(xù)深入研究的內(nèi)容。

2.4 深層次卷積神經(jīng)網(wǎng)絡(luò)

通過級聯(lián)等方式搭建卷積神經(jīng)網(wǎng)絡(luò)可有助于提高網(wǎng)絡(luò)性能,提取到更多小目標(biāo)特征信息。Cai等人[89]提出了級聯(lián)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Cascade RCNN)算法。圖11為Cascade RCNN網(wǎng)絡(luò)示意圖,級聯(lián)幾個卷積神經(jīng)網(wǎng)絡(luò)來更好地獲得圖像的語義信息,其中H表示網(wǎng)絡(luò)輸出,C表示分類,B表示定位框。與普通級聯(lián)不同的是,Cascade RCNN是由一系列的檢測網(wǎng)絡(luò)組成,每個檢測網(wǎng)絡(luò)都由不同IOU閾值的正負(fù)樣本訓(xùn)練得到,將前一檢測網(wǎng)絡(luò)得到的結(jié)果送入到下一檢測網(wǎng)絡(luò),隨著訓(xùn)練的不斷進行,IOU閾值不斷增加,網(wǎng)絡(luò)性能隨之優(yōu)化。通過這一方法在MS COCO數(shù)據(jù)集上獲得較高的小目標(biāo)檢測精度。汪躍東[90]為減輕行人檢測任務(wù)中分類和回歸不平衡的現(xiàn)象,在Cascade RCNN基礎(chǔ)上將級聯(lián)的回歸器擬合的偏移量改進為與類別置信度相關(guān)的動態(tài)偏移量。Han[91]提出一種基于上下文信息的改進型基于級聯(lián)區(qū)域的卷積神經(jīng)網(wǎng)絡(luò),通過內(nèi)部級聯(lián)的多閾值預(yù)測網(wǎng)絡(luò)實現(xiàn)多尺度、多階段的預(yù)測。Shi等人[92]提出了一種基于域自適應(yīng)快反網(wǎng)絡(luò)的方法,稱為自適應(yīng)閾值級聯(lián)快反網(wǎng)絡(luò),級聯(lián)策略提高了邊界質(zhì)量,解決了Faster RCNN的過擬合和不匹配的問題。劉艷萍等人[93]在Cascade RCNN基礎(chǔ)上,為降低復(fù)雜路況下小尺寸行人漏檢率,將淺層特征與深層特征融合,提高深層信息的利用率,為了將淺層信息直接向上進行傳遞,并提高淺層空間的利用率,增加一條淺層到深層的通道;提高算法分類和回歸的邊界框質(zhì)量。李松江等人[94]為了解決車輛目標(biāo)檢測中小目標(biāo)漏檢的問題,也是在Cascade RCNN基礎(chǔ)上,改進特征金字塔將淺層信息加入到深層中,并引入多支路空洞卷積,減少特征丟失,增強目標(biāo)特征。Zhang等人[95]采用加深神經(jīng)網(wǎng)絡(luò)的方法優(yōu)化小目標(biāo)檢測性能,提出了多任務(wù)級聯(lián)的目標(biāo)檢測框架,設(shè)計了三組神經(jīng)網(wǎng)絡(luò)進行級聯(lián),將特征提取網(wǎng)絡(luò)按從簡單到復(fù)雜的順序分成三個階段,利用簡單的特征提取網(wǎng)絡(luò)快速生成候選框,利用復(fù)雜的網(wǎng)絡(luò)來去掉實際不包含人臉的候選框,最終給出五個臉部標(biāo)志點的位置。

圖11 Cascade RCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Cascade RCNN structure

除了級聯(lián)的方式,直接增加網(wǎng)絡(luò)深度也是常見的方式,但是由于網(wǎng)絡(luò)過深,會出現(xiàn)準(zhǔn)確度由上升轉(zhuǎn)為下降的退化現(xiàn)象。微軟研究院的He等人[96]提出Resnet結(jié)構(gòu)解決了這一問題,通過使用殘差單元,成功訓(xùn)練了152層的殘差單元,取得了ILSVRC 2015比賽的冠軍。Resent采用恒等映射將上一層傳來的輸入傳遞到輸出,解決了退化現(xiàn)象的影響。后續(xù)很多目標(biāo)檢測方法[97-99]都將殘差模塊應(yīng)用到自己的網(wǎng)絡(luò)結(jié)構(gòu)中,保證深層網(wǎng)絡(luò)信息傳遞不發(fā)生丟失。但是這種深層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會明顯增加推理時間,Yuan等人[100]提出的HS-ResNet在Resnet基礎(chǔ)上進行了多組卷積分解,將前一組卷積得到的特征圖,部分拼接到下一組特征圖,利用特征圖的復(fù)用降低計算難度。這一方法使得輸出特征內(nèi)小感受野和更多細(xì)節(jié)內(nèi)容產(chǎn)生聯(lián)系,在小目標(biāo)識別中起到了關(guān)鍵作用。

2.5 生成式對抗網(wǎng)絡(luò)

生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)是利用對抗思想預(yù)測生成模型框架,這種框架同時訓(xùn)練兩種模型,生成模型和判別模型。旨在把分辨率較低的小目標(biāo)特征映射為與分辨率高的目標(biāo)等價特征,以便獲得與大、中目標(biāo)類似的檢測效果。通過生成網(wǎng)絡(luò)生成樣本和判別網(wǎng)絡(luò)進行辯論以提高網(wǎng)絡(luò)性能,是無監(jiān)督學(xué)習(xí)中應(yīng)用最廣的,最早由Goodfellow等人[47]提出。小目標(biāo)在圖像中要經(jīng)過放大,再放入特征提取網(wǎng)絡(luò)中,造成了小目標(biāo)圖像分辨率低的問題。針對這一問題,Bai等人[101]提出了超分辨率重構(gòu)的GAN架構(gòu),產(chǎn)生器是一種超分辨率的網(wǎng)絡(luò),它能夠把小的模糊圖像采樣成細(xì)尺度圖像,從而恢復(fù)大量細(xì)節(jié)信息以實現(xiàn)更精準(zhǔn)的檢測。小物體檢測的端到端多任務(wù)生成對抗網(wǎng)絡(luò),能夠與目前的任何檢測器結(jié)合使用。在對抗網(wǎng)絡(luò)中,生成網(wǎng)絡(luò)生成超分辨率圖像,并引入多任務(wù)判別器網(wǎng)絡(luò),能夠區(qū)分真實的高分辨率圖像與偽造圖像,預(yù)測對象類別和細(xì)化邊界框。更關(guān)鍵的是,分類和回歸損失被反向傳播,進一步指導(dǎo)生成器網(wǎng)絡(luò)生成超分辨率圖像,以便更容易分類和更好的定位。Wang等人[102]提出了一種中心化的多任務(wù)生成對抗網(wǎng)絡(luò)(CMTGAN),利用網(wǎng)絡(luò)中生成器實現(xiàn)圖像超分辨率,并利用鑒別器進行對象檢測。在生成器中引入了人工紋理損失,以保留小物體的原始特征,在生成器中使用了一個居中的掩碼,使網(wǎng)絡(luò)專注于圖像的中心部分,與現(xiàn)有的插值方法相比,CMTGAN生成的超分辨率圖像更加明確,包含的信息更多。Courtrai等人[103]也是通過超分辨率來提高圖形空間分辨率,從而解決了在衛(wèi)星或航空遙感圖像中檢測小物體的問題。通過學(xué)習(xí)基于殘余塊的生成對抗網(wǎng)(GAN),將其整合到一個循環(huán)模型中。此外,在框架中加入一個為物體量身定做的檢測輔助網(wǎng)絡(luò),改善超級分辨率架構(gòu)的學(xué)習(xí)和質(zhì)量,提高目標(biāo)檢測性能。Zhao等人[104]針對紅外小目標(biāo)構(gòu)建了GAN模型自動學(xué)習(xí)特征并直接預(yù)測目標(biāo),為提高生成器的數(shù)據(jù)擬合能力,構(gòu)建了五層判別器;同時L2損失被添加到對抗性損失找那個以提高定位能力。Li等人[105]從小目標(biāo)和大目標(biāo)之間的區(qū)別出發(fā)搭建生成式對抗網(wǎng)絡(luò),借鑒傳統(tǒng)生成式對抗網(wǎng)絡(luò)學(xué)習(xí)隨機噪聲到圖片映射的思想,利用網(wǎng)絡(luò)學(xué)習(xí)了小目標(biāo)到大目標(biāo)特征之間的映射。圖12為該網(wǎng)絡(luò)原理圖,引入感知GAN模型來增強對小物體的表征,使其更接近于真實的大物體,從而提高對小物體的檢測性能。最終相比于同期的Faster RCNN算法,較好地提升了小目標(biāo)檢測的精度。Rabbi等人[106]受邊緣增強GAN(EEGAN)[107]和ESRGAN[108]的啟發(fā),提出一個新的邊緣增強超分辨率GAN(EESRGAN)來改善遙感圖像的質(zhì)量。以端到端的方法通過不同的檢測器網(wǎng)絡(luò),檢測器的損失被反向傳播到EESRGAN中,以提高小目標(biāo)檢測性能。

圖12 感知生成式對抗網(wǎng)絡(luò)Fig.12 Perceptual generative adversarial network

基于生成對抗網(wǎng)絡(luò)的檢測模型不僅可以增強小目標(biāo)的細(xì)節(jié)信息,還可提升減少速度和精度。生成對抗網(wǎng)絡(luò)不需要依賴任何先驗假設(shè),用到了反向傳播,只要是可微分函數(shù)都可以構(gòu)建生成器和判別器,更容易將生成對抗網(wǎng)絡(luò)與現(xiàn)有的檢測算法結(jié)合起來。但是它目前仍面臨以下幾個問題:(1)訓(xùn)練時需要達(dá)到納什平衡,但是這個平衡很難獲得;(2)生成模型的分布式?jīng)]有顯式表達(dá),可解釋性較差;(3)訓(xùn)練較困難,在學(xué)習(xí)過程中易發(fā)生崩潰問題。生成器開始逐漸退化,最后總生成相同的圖像,無法繼續(xù)學(xué)習(xí);這就使得判別模型也會生成相似的圖像,訓(xùn)練無法繼續(xù)。

2.6 引入上下文信息

被檢測目標(biāo)與周圍其他物體以及環(huán)境有著密不可分的關(guān)系,在各種環(huán)境中應(yīng)用目標(biāo)檢測算法有很多局限性,尤其是檢測小目標(biāo),因為它們分辨率低,信息有限,因此人們考慮到如何將上下文作為額外信息來幫助檢測小目標(biāo)。為了通過探索上下文信息來提高檢測精度,Yu等人[109]提出了一種用于錨級聯(lián)的上下文金字塔最大化機制。因此,錨級聯(lián)可以訓(xùn)練非常有效的人臉檢測模型,具有很高的檢測精度。Zhu等人[110]提出的CoupleNet,如圖13所示將網(wǎng)絡(luò)分為兩部分,一部分利用全卷積整合局部信息,另一部分采用全局卷積獲得全局信息,最后通過通道拼接在一起,達(dá)到引入上下文信息的效果。此后他們又在CoupleNet基礎(chǔ)上引入注意力機制,將注意力相關(guān)信息和物體的全局及局部信息結(jié)合起來,達(dá)到引入上下文信息,以提高檢測性能。首先設(shè)計了一個級聯(lián)注意力結(jié)構(gòu)來感知圖像的全局場景,并生成與類別有關(guān)的注意力圖。然后,將注意力圖譜編碼到網(wǎng)絡(luò)中,以獲得物體感知的特征。接下來,同時提出一個獨特的全卷積耦合結(jié)構(gòu),將物體的全局結(jié)構(gòu)和局部部分結(jié)合起來,進一步制定一個辨別性的特征表示。為了充分挖掘全局和局部屬性,還設(shè)計了不同的耦合策略和歸一化方式,以充分利用全局和局部信息之間的互補優(yōu)勢,實驗證明了方法的有效性[111]。

圖13 CoupleNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 CoupleNet structure

谷歌團隊Qiao等人[112]提出的DetectoRS網(wǎng)絡(luò)也引入了上下文信息以提高檢測性能,首先設(shè)計了可轉(zhuǎn)換的空洞卷積(switchable atrous convolution,SAC),然后在SAC的主要組件前后連接兩個全局上下文模塊,最后在宏觀層面上,提出遞歸特征金字塔(recursive feature pyramid,RFP),并結(jié)合了從特征金字塔網(wǎng)絡(luò)到自下而上的骨干層的額外反饋連接。最終在COCO數(shù)據(jù)集獲得了54.7%的準(zhǔn)確率。后續(xù)學(xué)者也在其他的網(wǎng)絡(luò)上引入上下文信息以提高檢測性能。孔慧芳等人[113]為提升分割精度,提出一種基于特征上下文編碼的實時語義分割網(wǎng)絡(luò)FCNet。張馨月等人[114]在SSD模型融合特征增強和自注意力,并且深層增強模塊利用路徑深層多尺度特征圖生成的上下文信息增強深層特征信息,有利于提取特征。引入上下文信息在目前的檢測領(lǐng)域也比較常用,一般都是與其他網(wǎng)絡(luò)結(jié)構(gòu)融合在一起,后續(xù)也會應(yīng)用到小目標(biāo)檢測的領(lǐng)域內(nèi),最大限度地發(fā)揮它的優(yōu)勢,提高神經(jīng)網(wǎng)絡(luò)模型的小目標(biāo)檢測性能。除此之外,Yu等人[115]構(gòu)建了一個有效的場景分割前背景。它利用監(jiān)督嵌入上下文先驗層的親和力損失來區(qū)分不同的上下文依賴關(guān)系。為了把上下文優(yōu)先嵌入到網(wǎng)絡(luò)中,提出了一個上下文優(yōu)先網(wǎng)絡(luò)(CPNet),由主干網(wǎng)絡(luò)和上下文優(yōu)先層構(gòu)成。聚合模塊用于聚合用于推理上下文關(guān)系的空間信息,并嵌入到上下文前一層。大量的定量和定性比較表明,與目前最先進的場景分割方法相比,所提出的CPNet具有良好的性能。Lim等人[116]通過融合多尺度特征,利用不同層次的附加特征作為上下文信息;同時還用一種注意力機制的目標(biāo)檢測方法,該方法能夠聚焦圖像中小目標(biāo)的,還能夠包含目標(biāo)層的上下文信息,能夠提高檢測小目標(biāo)的精度。

基于引入上下文信息的方法挖掘利用了圖像中目標(biāo)與目標(biāo)之間的關(guān)系及目標(biāo)與周圍像素之間的關(guān)聯(lián)信息,提高了小目標(biāo)檢測算法的性能。但是也存在小目標(biāo)之間的、小目標(biāo)與周圍環(huán)境之間關(guān)聯(lián)性小,沒有其他可以輔助小目標(biāo)檢測的物體也會給上下文學(xué)習(xí)方法造成難題,同時上下文信息混合使用,隨著圖像之間關(guān)聯(lián)增加,使得檢測模型的計算量增長變大,使模型的可擴展性較差。但是引入上下文信息的應(yīng)用就是致力于模仿人類的認(rèn)知系統(tǒng),還可以應(yīng)用于語音識別等多種對人類感知信息的方式的模仿,可以提高認(rèn)知、檢測的準(zhǔn)確性,推動小目標(biāo)檢測領(lǐng)域向前發(fā)展。

2.7 其他改進方法

除了上述提到的六種方法,小目標(biāo)檢測還有很多優(yōu)秀的算法。根據(jù)應(yīng)用場景對激活函數(shù)進行相應(yīng)的調(diào)整,達(dá)到小目標(biāo)檢測當(dāng)下最佳效果。常用的是非線性激活函數(shù)包括Swish、ReLU、Sigmod等。Ramachandran等人[117]用Swish激活函數(shù)優(yōu)化原有激活函數(shù)飽和的問題;Lin等人[118]提出了一種改進的ReLU分割校正Activate函數(shù),通過改進傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),加入局部響應(yīng)歸一化層,并使用最大堆疊等方法,可改善圖像識別精度。徐浩等人[119]采用h-swish和s-sigmoid激活函數(shù)替換SSD模型中的相應(yīng)的函數(shù),這樣可以降低模型訓(xùn)練時的計算量,提升目標(biāo)車輛的檢測速度。周非等人[120]在CNN中使用sigmoid和softmax兩種激活函數(shù)來計算反饋誤差,相比使用一種激活函數(shù)反饋的誤差更精準(zhǔn),使得檢測時結(jié)果更準(zhǔn)確。

池化層是目標(biāo)檢測的重要處理步驟之一,池化層往往在卷積層后面,通過池化來降低卷積層輸出的特征向量,同時改善結(jié)果,但是也存在一定問題,為此Hu等人[121]改進池化層結(jié)構(gòu)來解決小目標(biāo)池化后失真的問題。劉淼等人[122]提出了一種指數(shù)可學(xué)習(xí)的冪函數(shù)softmax池化層,可提高檢測率。

優(yōu)化損失函數(shù)也是深度學(xué)習(xí)目標(biāo)檢測中不可或缺的一部分,并在小目標(biāo)檢測中也取得了一定的成效。在不同模型中要么使用其他損失函數(shù),要么對原損失函數(shù)進行改善,徐浩等人[119]采用了Focal Loss替換SSD網(wǎng)絡(luò)中的損失函數(shù),可減少易分樣本損失對總損失的影響,提高模型的準(zhǔn)確率。Lu等人[123]采用自適應(yīng)遞歸搜索技術(shù),在損失函數(shù)部分設(shè)置加權(quán)系數(shù)等方法。劉安旭等人[124]在卷積空間傳播網(wǎng)絡(luò)上使用深度誤差對數(shù)、深度信息梯度及表面法線三種損失函加權(quán)組合作為最終的損失函數(shù),增加了目標(biāo)物體的邊緣信息,減少邊界混合。目前很多學(xué)者也在這方面進行更深入的探索,以達(dá)到對小目標(biāo)檢測的最佳效果。

從應(yīng)用角度來說,很多復(fù)雜環(huán)境下不具備高性能的GPU,需要將目標(biāo)檢測部署在低性能CPU或移動端。過大的網(wǎng)絡(luò)模型導(dǎo)致程序運行緩慢或無法運行,難以滿足實時檢測的要求。為了提高小目標(biāo)的檢測性能,開始將模型輕量化處理,如常用的SqueezeNet[125]、MobileNet[126-128]、ShuffleNet[129-130],并且應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò)中,模型的介紹如表2所示。模型輕量化可提高檢測速度,如何提升檢測精度也是重點,在應(yīng)用輕量化的同時,學(xué)者們也提出了與輕量化模型結(jié)合的目標(biāo)檢測算法,如表3所示[131-137]。此外人們常用深度可分離卷積[138]、通道交換[139]、神經(jīng)網(wǎng)絡(luò)搜索技術(shù)[140]等方法來降低計算量以滿足不同應(yīng)用場景。

表2 常用輕量化網(wǎng)絡(luò)模型介紹Table 2 Introduction to commonly used lightweight network models

表3 結(jié)合輕量化策略的目標(biāo)檢測方法Table 3 Object detection methods combined with lightweighting strategies

2.8 小目標(biāo)檢測算法優(yōu)缺點總結(jié)及性能對比

從以上六個主要研究方向入手,對小目標(biāo)檢測算法的優(yōu)缺點進行了整理和總結(jié),并將其放在表4中。此外,還有部分研究學(xué)者發(fā)現(xiàn)的基于深度學(xué)習(xí)的小目標(biāo)檢測算法也放在表4中[141-146],可以看出,小目標(biāo)檢測改進算法在數(shù)據(jù)預(yù)處理、特征增強與豐富等方面進行了改進,仍存在很多不足,需要各位學(xué)者共同研究與發(fā)展。

表4 小目標(biāo)檢測研究方向優(yōu)缺點總結(jié)Table 4 Summary of advantages and disadvantages of research direction of small target detection

3 常用小目標(biāo)檢測數(shù)據(jù)集

數(shù)據(jù)集作為目標(biāo)檢測的關(guān)鍵一環(huán),除了上面提到的COCO數(shù)據(jù)集,還有一些公開的數(shù)據(jù)集,為此對這些數(shù)據(jù)集進行整理。按照類型對數(shù)據(jù)集進行了分類:交通標(biāo)志數(shù)據(jù)集、人臉檢測數(shù)據(jù)集、遙感數(shù)據(jù)集、水下圖像數(shù)據(jù)集、小行人及醫(yī)學(xué)影像數(shù)據(jù)集等,數(shù)據(jù)集雖不止這么多種類,但是小目標(biāo)多存在于上述提到的數(shù)據(jù)集中,將其整理在表5中。

表5 小目標(biāo)檢測數(shù)據(jù)集信息Table 5 Small target detection data set information

4 結(jié)束語

本文回顧了深度學(xué)習(xí)的小目標(biāo)檢測算法,并對已有的算法進行歸納總結(jié)。重點關(guān)注了當(dāng)下檢測相對困難的小目標(biāo)檢測問題,從六個方面分析了近些年來國內(nèi)外小目標(biāo)檢測算法,雖然現(xiàn)有的檢測算法已經(jīng)取得一定成效,但是對于精度和速度來說遠(yuǎn)不如大、中目標(biāo)的檢測效果好。隨著小目標(biāo)場景應(yīng)用廣泛性會對小目檢測性能的要求提高,因此小目標(biāo)性能還值得進一步研究。

(1)多尺度特征融合方面:FPN結(jié)構(gòu)與不同目標(biāo)檢測方法結(jié)合,通過多尺度特征融合獲得更多的特征信息提升小目標(biāo)檢測性能。但FPN本身屬于人工設(shè)計,這種手工設(shè)計的特征金字塔結(jié)構(gòu)具有局限性;為此使用神經(jīng)架構(gòu)搜索等方式對特征金字塔結(jié)構(gòu)進行設(shè)計,通過訓(xùn)練自動生成最優(yōu)的特征金字塔結(jié)構(gòu)將成為研究的重點。

(2)完善訓(xùn)練方式:單一數(shù)據(jù)集包含信息較少,限制網(wǎng)絡(luò)作用發(fā)揮,小目標(biāo)檢測往往需對大量數(shù)據(jù)進行訓(xùn)練才能提升其精度。YOLOv2提出Image和COCO數(shù)據(jù)集,通過樹型結(jié)構(gòu)將兩者進行有機整合,使訓(xùn)練實施成功,因此利用數(shù)據(jù)集聯(lián)合訓(xùn)練方式成為未來研方向之一。如果將包含大量小目標(biāo)信息的遙感衛(wèi)星圖像數(shù)據(jù)集、人臉識別等數(shù)據(jù)集相結(jié)合進行訓(xùn)練,將提升小目標(biāo)檢測的適應(yīng)性。通過不同分辨率的輸入進行多尺度訓(xùn)練可提高網(wǎng)絡(luò)對不同尺度檢測任務(wù)的適應(yīng)性,從而更好地檢測出小目標(biāo),因此多尺度訓(xùn)練方法也是提高小目標(biāo)檢測性能的發(fā)展方向之一。

(3)模型可解釋性:小目標(biāo)檢測的模型改進大多是基于實驗結(jié)果的經(jīng)驗評估或者工程應(yīng)用中的工程經(jīng)驗。很多模型擁有數(shù)千萬甚至更多的參數(shù),但目前從學(xué)術(shù)研究來看只是大量數(shù)值擬合得到的結(jié)果,無法獲得參數(shù)本身分布規(guī)律。而大量卷積堆疊無法清楚了解模型的某一部分究竟從圖像中學(xué)習(xí)到了哪些知識,只有通過不斷提高小目標(biāo)檢測模型的可解釋性等方式,才能更好地理解模型本身,提出更有針對性的小目標(biāo)檢測方法。

(4)完善檢測數(shù)據(jù)集:深度學(xué)習(xí)發(fā)展離不開數(shù)據(jù)集,在文中也提到了小目標(biāo)檢測的重難點之一是由于數(shù)據(jù)集不夠完善造成的。雖然現(xiàn)在已經(jīng)在使用數(shù)據(jù)增強的方式在改善這種情況,但是始終不能從根本上解決問題,因此需要考慮建立一個特定的小目標(biāo)檢測數(shù)據(jù)集,作為訓(xùn)練樣本的方法。

(5)結(jié)合傳統(tǒng)方法。深度學(xué)習(xí)方法雖是近些年的主流檢測方法,但是受小目標(biāo)本身包含信息少的限制,利用深度卷積網(wǎng)絡(luò)多次卷積對特征信息提取不太理想。因此考慮傳統(tǒng)的一些方式提取小目標(biāo)特征,如隨機森林法、特征匹配等,再和深度學(xué)習(xí)結(jié)合,可能會得到相對好一些的效果。

猜你喜歡
特征檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應(yīng)用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 四虎影视无码永久免费观看| 亚洲国产精品不卡在线| 欧美日本激情| 黄色免费在线网址| 青青青草国产| 欧美亚洲综合免费精品高清在线观看 | 国产白浆在线| 日本在线亚洲| 高清无码手机在线观看| 国产第八页| 日本人妻丰满熟妇区| 国产一区在线视频观看| 中文字幕乱码二三区免费| 99re经典视频在线| 亚洲男人天堂网址| 国产H片无码不卡在线视频| 国产精品第一区在线观看| 精品三级在线| 在线亚洲精品自拍| 国产毛片一区| 国产精品不卡永久免费| 激情乱人伦| 亚洲有无码中文网| 亚洲精品第一在线观看视频| 狠狠做深爱婷婷综合一区| 天天摸天天操免费播放小视频| 最新日韩AV网址在线观看| 114级毛片免费观看| 东京热一区二区三区无码视频| 黄色成年视频| 午夜国产在线观看| 亚欧乱色视频网站大全| 欧美日韩国产成人高清视频| 国产成人一二三| 国产精品无码AV片在线观看播放| 99精品国产高清一区二区| 欧美在线网| 国产在线自乱拍播放| 成人午夜视频免费看欧美| 国产精品思思热在线| 91区国产福利在线观看午夜 | 在线观看免费黄色网址| 日韩欧美综合在线制服| 国产一区自拍视频| 97亚洲色综久久精品| 久久永久精品免费视频| 日本成人在线不卡视频| 好吊妞欧美视频免费| 日本不卡视频在线| 欧美精品亚洲日韩a| 亚洲人成在线精品| 欧美一区精品| 人妻丰满熟妇αv无码| 在线看AV天堂| 伊人蕉久影院| 亚洲美女一区| 精品国产福利在线| 永久天堂网Av| 91精品国产麻豆国产自产在线| 色哟哟国产成人精品| 亚洲综合第一页| 亚洲国产一成久久精品国产成人综合| 欧美日韩在线成人| 国产精品久久久久久久久| 久久精品视频一| 国产精品久久国产精麻豆99网站| 婷婷综合色| 久久综合AV免费观看| 911亚洲精品| 另类欧美日韩| 免费播放毛片| 亚洲国产无码有码| 91福利在线看| 综合天天色| 91丝袜在线观看| 午夜福利无码一区二区| 国产麻豆另类AV| 國產尤物AV尤物在線觀看| 狠狠亚洲婷婷综合色香| 精品久久久久久成人AV| 国产精品亚洲欧美日韩久久| 国产高清不卡视频|