999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學(xué)習(xí)典型目標檢測算法的改進綜述

2022-03-22 03:34:10王鑫鵬王曉強李雷孝楊艷艷
計算機工程與應(yīng)用 2022年6期
關(guān)鍵詞:檢測模型

王鑫鵬,王曉強,林 浩,李雷孝,楊艷艷,孟 闖,高 靜

1.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特 010080

2.天津理工大學(xué) 計算機科學(xué)與工程學(xué)院,天津 300384

3.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特 010080

4.內(nèi)蒙古農(nóng)業(yè)大學(xué) 計算機與信息工程學(xué)院,呼和浩特 010011

目標檢測是計算機視覺領(lǐng)域內(nèi)的重要研究內(nèi)容之一,隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的目標檢測算法取得了巨大進步。基于深度學(xué)習(xí)的目標檢測算法在步驟上可分為單階段(one-stage)和雙階段(two-stage)兩種檢測方式。單階段目標檢測是基于回歸的檢測算法,與雙階段相比,其檢測速度快但檢測精度較低,以YOLO[1]系列、SSD[2]系列算法為代表;雙階段目標檢測是基于候選框的檢測算法,與單階段相反,其檢測速度慢但檢測精度高,以R-CNN[3]系列、SPPNet[4]、R-FCN[5]等算法為代表。隨著一些特征提取網(wǎng)絡(luò)的出現(xiàn),基于深度學(xué)習(xí)的目標檢測算法的性能又得到進一步提升。圖1為經(jīng)典算法及主流特征提取網(wǎng)絡(luò)出現(xiàn)的時間。

圖1 經(jīng)典算法及主流特征提取網(wǎng)絡(luò)出現(xiàn)的時間Fig.1 Time of appearance of classic algorithms and mainstream feature extraction networks

近幾年來,基于深度學(xué)習(xí)的目標檢測在交通、軍事、民生等各個領(lǐng)域都起著重要作用,例如車輛違規(guī)檢測[6]、地鐵乘客流量檢測[7]、行人和交通標志檢測[8-9]、海域艦船[10]和遙感衛(wèi)星圖像[11]檢測、養(yǎng)殖個體檢測[12]等。但基于深度學(xué)習(xí)的目標檢測算法在應(yīng)用過程中仍存在檢測目標過小、檢測精度不夠、數(shù)據(jù)量不足等問題,大量學(xué)者在傳統(tǒng)的算法中對此進行了改進。一些學(xué)者通過歸納這些改進方法進而形成綜述,Tong等人[13]就檢測目標過小的問題從多尺度特征、數(shù)據(jù)增強、上下文信息等多個方面對改進方法進行了分析總結(jié),但其忽略了特征提取網(wǎng)絡(luò)對于小目標檢測的性能提升,而且數(shù)據(jù)增強部分只考慮了通過增加數(shù)據(jù)集中小目標的數(shù)量和類型來提高小目標檢測性能,缺乏了多樣性;許德剛等人[14]和南曉虎等人[15]針對基于回歸和基于候選窗口的檢測框架,分別就目標檢測的典型算法進行了重點介紹和歸納分析,但因文中并沒有對算法的優(yōu)化方案做出很好的分類,所以不能清晰地理解改進思想何時何步驟地運用在檢測算法中。

本文在對基于深度學(xué)習(xí)的典型目標檢測算法的改進總結(jié)中,首先提出常用數(shù)據(jù)集及算法的評價指標。其次,依據(jù)目標檢測的流程從數(shù)據(jù)處理、模型構(gòu)建、預(yù)測目標及損失計算3個方面歸納了在算法中提到的改進方法。最后結(jié)合當(dāng)前對改進方法的研究現(xiàn)狀提出未來可進行研究的方向。與上述綜述[13-15]相比,本文主要有以下突破:

(1)總結(jié)出改進深度學(xué)習(xí)的典型目標檢測算法的通用方式。

(2)豐富了相關(guān)數(shù)據(jù)增強技術(shù)。

(3)歸納了通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來增加模型檢測精度的方法。

(4)將檢測算法的步驟進行了劃分,把可改進的方法分別歸納到其所屬步驟中去,便于理解和操作。

1 常用數(shù)據(jù)集及評價指標

1.1 常用數(shù)據(jù)集

在基于深度學(xué)習(xí)的目標檢測中,一個標注信息精確、適用性強的數(shù)據(jù)集能為網(wǎng)絡(luò)訓(xùn)練和性能測試帶來有效的推動作用,并進一步促進相關(guān)領(lǐng)域的進步與發(fā)展。

其中,ImageNet數(shù)據(jù)集在推進計算機視覺和深度學(xué)習(xí)研究方面發(fā)揮著重要作用。2010—2017年舉辦的ILSVRC(ImageNet large scale visual recognition challenge)大賽中,一些網(wǎng)絡(luò)模型的出現(xiàn),如:AlexNet[16]、OverFeat[17]、GoogLeNet[18]、VGG[19]、ResNet[20]、SENet[21]等,更是極大推動了目標檢測的發(fā)展。ImageNet在計算機視覺中甚至被譽為算法性能評估的標桿[22]。與ImageNet數(shù)據(jù)集類似,Microsoft COCO因其豐富的圖片數(shù)量和多樣的任務(wù)種類,如:目標檢測、關(guān)鍵點檢測、實例分割、上下文識別等,在機器視覺領(lǐng)域已經(jīng)成為了重要的性能衡量指標。相關(guān)數(shù)據(jù)集對比如表1[23-31]。

1.2 評價指標

基于深度學(xué)習(xí)的目標檢測算法主要通過3個指標進行評價:交并比(intersection of union,IoU)、檢測速度(frames per second,F(xiàn)PS)、平均精確度均值(mean average precision,mAP)。

交并比指兩個框的重合程度,常常指預(yù)測框和真實框之間的重疊率,用來衡量模型的框回歸能力。FPS為一秒鐘處理圖片的數(shù)量,一秒鐘處理圖片的數(shù)量越多,模型的運算能力越強,體現(xiàn)了模型的運算能力。衡量模型的分類和檢測能力最直觀的就是mAP值,mAP值越大則說明模型性能越好。

求取mAP時會提前設(shè)置好IoU的閾值,當(dāng)IoU值大于閾值時才視為檢測正確,所以mAP在很大程度上能夠同時體現(xiàn)模型的定位和分類能力。實際應(yīng)用中多采用FPS和mAP(或者AP值,當(dāng)檢測目標只有一個類別時,mAP值也就變?yōu)榱薃P值)兩個值來同時評價一個模型的性能[32-33]。

2 基于深度學(xué)習(xí)的典型目標檢測算法的改進

深度學(xué)習(xí)的快速發(fā)展,增加了各經(jīng)典目標檢測算法從多方面進行改進的可行性。該部分以算法的檢測流程為時間線,從數(shù)據(jù)處理、模型構(gòu)建、預(yù)測目標及損失計算幾個方面總結(jié)了目前主要流行的改進方法,并論述其特點,使不同算法針對不同問題都能夠表達出不錯的適應(yīng)性。算法檢測流程所對應(yīng)的改進方案如圖2所示。

圖2 算法檢測流程所對應(yīng)的改進方案Fig.2 Corresponding improvement scheme of algorithm detection flow

2.1 數(shù)據(jù)處理

網(wǎng)絡(luò)模型是基于數(shù)據(jù)來運行的,一個實用性強的數(shù)據(jù)集對于網(wǎng)絡(luò)的測試和訓(xùn)練都起到了不可忽視的作用,在訓(xùn)練網(wǎng)絡(luò)之前對數(shù)據(jù)進行合理操作更是提高了網(wǎng)絡(luò)模型的精準度和泛化能力。對數(shù)據(jù)集的處理可分為兩方面,一是數(shù)據(jù)增強,二是先驗框的選取。數(shù)據(jù)增強技術(shù)很大程度上減小了網(wǎng)絡(luò)過擬合問題,提高了模型的泛化性;對真實框進行聚類獲得的先驗框,因尺寸更加符合檢測目標的大小而增強了模型檢測精度,多見于單階段的目標檢測算法中。

2.1.1 數(shù)據(jù)增強

在基于深度學(xué)習(xí)的目標檢測算法中,數(shù)據(jù)增強技術(shù)分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督的數(shù)據(jù)增強技術(shù)可分為三類:幾何變化、色彩變換、混合變換;無監(jiān)督的數(shù)據(jù)增強技術(shù)可分為兩類:生成新數(shù)據(jù)、學(xué)習(xí)新的增強策略。相關(guān)數(shù)據(jù)增強方法對比如表2所示[34-43]。

表2 相關(guān)數(shù)據(jù)增強方法對比Table 2 Comparison of related data augmentation methods

每種數(shù)據(jù)增強對于模型性能的提升往往是有限的,為了使網(wǎng)絡(luò)模型學(xué)習(xí)到更加豐富的語義特征,對于數(shù)據(jù)增強方式的運用往往是多種形式地結(jié)合[35,44-45],這種結(jié)合形式不僅使數(shù)據(jù)集實現(xiàn)了數(shù)量級上的跨越,還可針對性地解決模型應(yīng)用問題,如利用隨機擦除或隨機裁剪來增強模型對噪聲和遮擋問題的魯棒性,利用Mosaic增強來提高模型對小目標的識別能力等。混合變換在圖片多樣性和檢測難度上要比幾何、色彩變換更加豐富與復(fù)雜,訓(xùn)練出的模型往往也更具健壯性,因此正逐漸被相關(guān)領(lǐng)域的學(xué)者所關(guān)注,圖片經(jīng)混合變換后的結(jié)果如圖3所示。在無監(jiān)督的數(shù)據(jù)增強技術(shù)中,生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)因其具有強大的學(xué)習(xí)和生成能力也受到了研究學(xué)者的熱愛[46-48],但由于網(wǎng)絡(luò)中生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間的交替訓(xùn)練,使得GAN式的數(shù)據(jù)增強相比于有監(jiān)督的數(shù)據(jù)增強方式,如:翻轉(zhuǎn)、隨機擦除等,在圖像的處理速度上要慢很多,因此對于無監(jiān)督方式在數(shù)據(jù)增強上的應(yīng)用也相應(yīng)的要比有監(jiān)督方式少。

圖3 混合變換Fig.3 Hybrid transformation

目前對于有監(jiān)督的數(shù)據(jù)增強策略的研究已經(jīng)趨于完善,把多種數(shù)據(jù)增強技術(shù)結(jié)合起來共同提高模型性能更是成為了主要需求,但對于無監(jiān)督數(shù)據(jù)增強技術(shù)的探索仍然略顯匱乏。主要原因如下:(1)有監(jiān)督數(shù)據(jù)增強方式的廣泛使用,使得無監(jiān)督的數(shù)據(jù)增強方法在一定程度上不受重視。(2)目標檢測算法逐漸向端到端的網(wǎng)絡(luò)發(fā)展,將數(shù)據(jù)增強方式集成到算法中已然成為了一種需求,但無監(jiān)督的數(shù)據(jù)增強方式因其復(fù)雜且計算量大的缺點,在集成方面有一定的困難,應(yīng)用范圍受到了限制。(3)無監(jiān)督數(shù)據(jù)增強方式所需的生成對抗網(wǎng)絡(luò)或強化學(xué)習(xí)相關(guān)技術(shù)繁雜多樣,對于研究人員的探索有了一定阻礙。

2.1.2 先驗框選擇

在目標檢測時,模型會在網(wǎng)絡(luò)中利用先驗框(Anchor)來確定目標大概位置,之后通過預(yù)測的偏移量(offsets)和縮放系數(shù)來進行先驗框的調(diào)整,最終形成預(yù)測框。先驗框設(shè)置得合理與否,極大地影響著最終模型檢測性能的好壞。

先驗框設(shè)置的方法可分為人工設(shè)置和真實框聚類兩種,采用人工設(shè)置的算法有SSD、Faster-RCNN等,但人工設(shè)置的anchor并不能保證它們能夠很好地適應(yīng)數(shù)據(jù)集,從而導(dǎo)致模型的檢測結(jié)果受到影響,而聚類算法的出現(xiàn)解決了手動設(shè)置的不足。目前算法對于真實框的聚類多采用K-means算法,如YOLO v2、YOLO v3算法等,對于該聚類算法的不足,即聚類結(jié)果對初始聚類中心點的選擇具有強依賴性,一些學(xué)者也在相關(guān)算法中對此做出了改進,使得先驗框的聚類效果更好。相關(guān)聚類算法及其改進對比如表3所示[49-56]。

表3 先驗框聚類方案Table 3 Anchor clustering scheme

2.2 模型構(gòu)建

合理地構(gòu)建模型,能夠有效增加模型的運算效率,減少梯度消失和梯度爆炸問題,也能讓網(wǎng)絡(luò)提取到更加豐富、全面的語義特征,提高模型的識別和分類能力。構(gòu)建模型可分為兩部分:重建網(wǎng)絡(luò)結(jié)構(gòu)和更改激活函數(shù)。

2.2.1 改進網(wǎng)絡(luò)結(jié)構(gòu)

通過優(yōu)化網(wǎng)絡(luò)模型的特征提取網(wǎng)絡(luò)來提高模型性能是目前最為常見的一種改進方式。2015年ResNet網(wǎng)絡(luò)中首次提出了殘差模塊(Residual block),使卷積網(wǎng)絡(luò)變得更深的同時不易出現(xiàn)退化現(xiàn)象,COCO數(shù)據(jù)集標準指標(mAP@[0.5,0.95])下相比VGG16獲得6%的提升。作為ResNet網(wǎng)絡(luò)的改進,DenseNet網(wǎng)絡(luò)[57]以建立前面所有層與當(dāng)前層的密集連接來實現(xiàn)特征重用,在參數(shù)量和計算成本更少的情況下可以實現(xiàn)比ResNet網(wǎng)絡(luò)更優(yōu)的性能。GoogLeNet網(wǎng)絡(luò)的核心部分為Inception模塊,該模塊通過不同的卷積核來提取圖像的特征信息,利用1×1的卷積核進行降維,使得計算量明顯減少。特征金字塔網(wǎng)絡(luò)[58](feature pyramid networks,F(xiàn)PN)對于識別小目標有著突出貢獻。PANet網(wǎng)絡(luò)[59]作為FPN網(wǎng)絡(luò)的一種改進,在FPN的基礎(chǔ)上增加了一條自底向上的信息傳遞路徑來彌補底層特征利用不充分的問題,結(jié)構(gòu)如圖4所示。

圖4 PANet模型Fig.4 PANet model

全連接層的存在導(dǎo)致輸入圖片的大小必須統(tǒng)一,而SPPNet[4]的提出解決了這一問題,使得輸入圖像的尺寸不受限制。與SPPNet作用一樣的還有ROI Pooling[60]。ResNeXt[61]作為ResNet與Inception模塊相結(jié)合的一種網(wǎng)絡(luò),主張通過增加基數(shù)(分支數(shù))來提升網(wǎng)絡(luò)的性能,每個分支都具有相同的結(jié)構(gòu),Inceptionv4可以看作該網(wǎng)絡(luò)的一種特殊形式。EfficientNet[62]不在追求某一維度(深度、寬度、圖像分辨率)上的增加來提高模型整體的準確率,而是探索這三個維度之間最好的組合。Tan等人[63]在EfficientNet的基礎(chǔ)上,提出了一組目標檢測框架EfficientDet,針對不同程度的資源限制,都能有不錯的高性能。上述網(wǎng)絡(luò)的對比如表4所示。

通過表4的總結(jié)可知,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)能夠有不同的優(yōu)化方案:

表4 相關(guān)網(wǎng)絡(luò)優(yōu)缺點對比Table 4 Comparison of advantages and disadvantages of related networks

(1)在模型中引入更深層次的網(wǎng)絡(luò)(ResNet、DenseNet)可以提取更加豐富的語義信息,提高模型檢測效率。

(2)FPN、PANet、BiFPN可以把卷積運算后的多個尺度特征進行融合,使不同層次、尺度的特征都能夠充分發(fā)揮自己所具有的信息,促進小目標的檢測。

(3)GoogLeNet網(wǎng)絡(luò)中Inception模塊通過更小的卷積核來替代較大的卷積核,雖然略微增加了參數(shù)量,但大幅減少了計算量。在模型優(yōu)化中引入1×1卷積核來減少計算量是一個不錯的選擇。

(4)引入SPP網(wǎng)絡(luò)可以使模型的輸入不再局限于固定尺寸,使圖像輸入更加靈活;可以提取到豐富的多層次特征。

(5)多維度增強或多結(jié)構(gòu)融合的思想,對于網(wǎng)絡(luò)的性能提升也是極為重要。

一些學(xué)者在相關(guān)模型的網(wǎng)絡(luò)結(jié)構(gòu)改進中為使檢測結(jié)果更加理想而引入了上述的優(yōu)化方案,相關(guān)文獻如表5所示[64-78]。其中GoogLeNet網(wǎng)絡(luò)的相關(guān)文獻為Inception模塊的典型優(yōu)化方法,優(yōu)化過程如圖5所示。

表5 相關(guān)模型對于網(wǎng)絡(luò)結(jié)構(gòu)的部分改進內(nèi)容Table 5 Some improvements of related models for network structure

圖5 Inception模塊Fig.5 Inception modules

為了更好地提高模型檢測精度,現(xiàn)如今的網(wǎng)絡(luò)結(jié)構(gòu)正逐漸向增加網(wǎng)絡(luò)模型的深度(殘差模塊)、寬度(Inception模塊)以及上下文特征提取能力[58-59,79-81]等方向發(fā)展,但這樣所導(dǎo)致的模型復(fù)雜化、冗余化,使得改進后的算法更加難以應(yīng)用在實際生活場景中。優(yōu)化算法時考慮算法的應(yīng)用領(lǐng)域,與輕量型框架相結(jié)合來減少計算量,增加算法實時性的同時提高算法準確性,不失為改進算法中的一種合理方案。MobleNets系列[82-84]作為現(xiàn)模型算法中采用最多的輕量級框架之一,專門針對移動端、嵌入式設(shè)備而提出,極大地減少了參數(shù)量和計算量,但輕量化模型的發(fā)展仍不夠全面,代表性算法還很少。

2.2.2 優(yōu)化激活函數(shù)

非線性的激活函數(shù)能提高網(wǎng)絡(luò)的非線性表達能力,增強對于特征信息的學(xué)習(xí),飽和非線性函數(shù)還可以限定網(wǎng)絡(luò)層的輸出范圍,防止因輸出過大而引起的計算錯誤。常見的非線性激活函數(shù)有:Sigmod、Tanh、ReLU、Leaky ReLU、PReLU、Swish。

2019年Howard等人[82]提出H-Swish函數(shù),該函數(shù)與Swish函數(shù)曲線近似相同,但H-Swish函數(shù)減少了計算量,增加了模型運算速度。與此類似,H-Sigmod函數(shù)作為Sigmod的改進,在函數(shù)曲線上也近似接近Sigmod函數(shù),同時與Sigmod函數(shù)相比增加了運算效率。文獻[85]對SSD算法做出優(yōu)化,引入了注意力機制的殘差模塊,為使其能在嵌入式攝像設(shè)備中能夠有較快的檢測速率,進一步將注意力模塊中的Sigmod激活函數(shù)替換為了H-Sigmod激活函數(shù),ReLU激活函數(shù)替換為H-Swish激活函數(shù),盡可能地減少了參數(shù)運算,經(jīng)實驗表明,在略微增加模型檢測精度的同時比原SSD算法的檢測速率提高了4.8倍。Sigmod函數(shù)與H-Sigmod函數(shù)、Swish函數(shù)與H-Swish函數(shù)圖像對比如圖6所示。

圖6 Sigmod VS.H-Sigmod和Swish VS.H-SwishFig.6 Sigmod VS.H-Sigmod and Swish VS.H-Swish

對各激活函數(shù)進行對比分析,可以比較直觀地發(fā)現(xiàn)各函數(shù)的優(yōu)勢,并可根據(jù)現(xiàn)實的算法需求更好地選擇適合的激活函數(shù),使得算法的表現(xiàn)更加優(yōu)異。表6總結(jié)了相關(guān)激活函數(shù)的優(yōu)缺點。

表6 相關(guān)激活函數(shù)優(yōu)缺點對比Table 6 Comparison of advantages and disadvantages of related activation functions

2.3 預(yù)測目標及損失計算

為防止預(yù)測目標時同一類別目標上產(chǎn)生多個候選框,可采用非極大值抑制(non-maximum suppression,NMS)來進行預(yù)測框的選取,減少候選框之間發(fā)生重疊的幾率。對于目標檢測中的損失值計算,常見的可分為分類損失、邊界框回歸損失、置信度損失(根據(jù)檢測算法應(yīng)用場景不同,也會加入其他方面的損失計算,比如Mask-RCNN算法中加入的mask掩碼損失)。

2.3.1 預(yù)測框選取

預(yù)測框的選取方法可以從兩個方面進行改進,一是提高預(yù)測框選取的精度,二是提升NMS算法的運算效率。提高預(yù)測框選取精度方面,目前主流的改進方法考慮到了NMS算法存在篩選掉必要候選框、候選框包圍目標不準確、擁有高分類分數(shù)的候選框卻有低定位置信度等多種問題,從多方面的改進也促進了NMS算法性能的大幅度提升;運算速率方面,由于NMS算法中IoU的計算方式多為順序執(zhí)行,如YOLO V3[75]、YOLO9000[86]、Fater-RCNN[87]等網(wǎng)絡(luò)中的NMS算法,因此可通過GPU并行加速IoU矩陣運算,提升矩陣的運算效率。表7[88-96]從提升精度和速度兩方面總結(jié)了對于NMS算法的改進。

表7 NMS改進方案Table 7 NMS improvement plans

雖然上述算法都對NMS做出了一定程度上的優(yōu)化,但仍存在以下缺點:

(1)雖然Soft NMS減少了候選框數(shù)量,但對于端到端的網(wǎng)絡(luò),如YOLO、SSD算法,其產(chǎn)生的候選框數(shù)量要遠小于區(qū)域建議網(wǎng)絡(luò)或滑動窗口,使得Soft NMS對端對端的網(wǎng)絡(luò)顯得不是那么高效。

(2)IoU-Guided NMS是基于IoU指標進行評價的,對于預(yù)測框與真實框之間關(guān)系的描述不夠全面。

(3)DIoU NMS是在DIoU的基礎(chǔ)上提出的,所以也會有DIoU存在的問題,如沒有考慮到兩框之間的長寬比關(guān)系、計算較復(fù)雜而降低了運算效率。

(4)雖然SE在端到端網(wǎng)絡(luò)上有效,但相比Soft NMS只對候選框進行抑制的操作,SE抑制和增強的做法顯然計算量更大。

(5)Softer-NMS算法使得模型定位能力得到提升,但其是在KL Loss基礎(chǔ)上進行的,如果想利用此方法對某算法做改進,則也需要改變算法的框回歸損失函數(shù)。

(6)AdaptiveNMS算法由于是通過網(wǎng)絡(luò)預(yù)測目標周邊的密集和稀疏的程度,需要額外添加密度預(yù)測模塊,造成計算開銷。

(7)Fast NMS允許冗余框去抑制其他框,導(dǎo)致其他框被錯誤地抑制,精確值要比NMS差。

(8)Cluster NMS因為是迭代Fast NMS的操作,所以運算速率上比Fast NMS略低。

(9)與Fast NMS具有類似的并行化方法,所以也會和Fast NMS一樣會對框產(chǎn)生過多抑制。

2.3.2 損失計算

目前在目標檢測方向上,損失計算主要針對網(wǎng)絡(luò)模型的分類損失和邊界框回歸損失兩方面進行改進。

在計算分類損失時,由于通過候選框選出來的候選樣本多是容易分類的負樣本,且負樣本的數(shù)量遠遠超出正樣本,這種不平衡性就可能導(dǎo)致網(wǎng)絡(luò)難以收斂,過多的負樣本也會使模型的優(yōu)化方向受到影響。與CE(cross-entropy)loos未考慮正負樣本不平衡和難易樣本不平衡不同,F(xiàn)ocal損失[97]對于這種正負樣本比例失衡問題提供了很好的解決方案,眾多文獻[98-102]更是直接將算法中的分類損失替換為了Focal loss來解決正負樣本不平衡的問題,以此加快網(wǎng)絡(luò)的訓(xùn)練和收斂速度。不同于在線難例挖掘算法[103](online hard example mining,OHEM),F(xiàn)ocal loss并沒有忽略容易分類的樣本,而是減少了易分類樣本的權(quán)重比例,使模型在訓(xùn)練時更加專注于難分類的樣本。與Focal loss類似,AP loss[104]、DR loss[105]也有效地解決了正負樣本不平衡的問題,但與之不同的是,兩者不是通過調(diào)整樣本權(quán)重來調(diào)節(jié)樣本平衡性,而是將樣本分類問題轉(zhuǎn)化為某種方式的排序問題。AP loss以正樣本預(yù)測框盡可能在負樣本之前為目的對預(yù)測框的得分進行排序,以此解決了正負樣本失衡的問題,DP loss則考慮將一個正樣本和一個負樣本作為排序?qū)Γ源私鉀Q正負樣本的不平衡性。經(jīng)實驗表明,對于模型精確值的提升,兩者都要優(yōu)于Focal loss函數(shù)。另一方面,Class balanced loss[106]有效解決了因目標類別之間數(shù)據(jù)量差距較大而導(dǎo)致的分類準確率下降的問題,從新的方向上提高了模型效率。

邊界框回歸損失方面,除了傳統(tǒng)的損失函數(shù)外,如:Smooth L1 loss,IoU系列損失(DIoU[90]、CIoU[90]、GIoU[107]損失)大受學(xué)者們的歡迎,被廣泛應(yīng)用到算法的改進中。

IoUloss的缺點是:(1)當(dāng)真實框和預(yù)測框不相交時不能反應(yīng)兩者的距離情況,可能會出現(xiàn)loss一直不更新的情形;(2)IoU只能反映兩框之間交并比(面積)的關(guān)系,不能反映重合程度。2019年Rezatofighi等人[107]提出新的度量指標GIoU,在IoU的基礎(chǔ)上考慮了重疊面積,當(dāng)預(yù)測框和真實框未相交時,會通過兩框之間的關(guān)系來拉近兩者之間的距離,同時緩解了IoU損失值為1的尷尬,但:(1)當(dāng)真實框完全包含預(yù)測框時,會使GIoU損失退化為IoU損失,從而無法區(qū)分它們的位置關(guān)系;(2)預(yù)測框和真實框未相交時,GIoU損失會存在擴大預(yù)測框來使兩者距離拉近的情況,需要更多次的迭代才能收斂。

為了解決GIoU損失收斂慢和退化問題,DIoU與CIoU進一步加強了loss的收斂速度和模型的回歸精度。DIoU在原有IoU的基礎(chǔ)上考慮了重疊面積和中心點距離,根據(jù)兩框之間的中心點距離作為懲罰,使DIoU損失的收斂速度遠大于GIoU損失;CIoU損失在DIoU損失的基礎(chǔ)上添加了長寬比,并用v衡量長寬比的相似性,將重疊面積、中心點距離、長寬比相結(jié)合來提高框回歸精度,但具有相反的梯度值,導(dǎo)致了CIoU損失不能同時增大或減小預(yù)測框的長與寬,進而收斂速度受到一定影響。DIoU損失很好地解決了GIoU損失的退化問題,DIoU與GIoU的退化問題對比如圖7所示,其中藍色框代表真實框,綠色框代表預(yù)測框。

圖7 DIoU與GIoU的退化問題對比Fig.7 Comparison of degradation problems between DIoU and GIoU

GIoU、DIoU、CIoU除了作為損失函數(shù)外,本質(zhì)上也是對于交并比的一種擴展,所以在算法優(yōu)化上可將其作為損失函數(shù)進行改進,也可將其作為交并比進行改進。GIoU、DIoU、CIoU損失函數(shù)經(jīng)YOLO v3算法在PASCAL VOC 2007上的性能對比如表8所示[90],其中AP=(AP50+AP55+…+AP95)/10,AP75(mAP@0.75),分別采用IoU與GIoU為度量指標。

表8 IoU系列損失函數(shù)性能對比Table 8 Performance comparison of IoU series loss function

由對比可知:(1)通過對IoU損失的不斷改進,目標的檢測精度得到顯著提升,其中CIoU損失使得算法的精度提升最高;(2)GIoU為度量指標時,由于框與框之間的判別標準變得更加苛刻,相比IoU為度量指標時,視為檢測正確的預(yù)測框會有所減少,所以檢測精度也會有所下降。

2.4 其他方面

檢測流程中除了上述基本的改進方法之外,還有一些比較優(yōu)秀的方法,即:注意力機制(attention mechanism)和可變形卷積(deformable convolution)。

注意力機制最早在視覺圖像領(lǐng)域中被提出,由于其能夠忽略低價值信息關(guān)注于感興趣信息而被學(xué)者廣泛關(guān)注。2017年SENet將注意力機制應(yīng)用到了通道維度,提升了模型對于通道的敏感度,作為輕量級的SE模塊能與現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,只需增加極少的運算量就能實現(xiàn)模型性能的提升。同一年,Wang等人[108]將注意力機制和殘差網(wǎng)絡(luò)相結(jié)合,提出了殘差注意力網(wǎng)絡(luò)來實現(xiàn)圖像的分類任務(wù),在增加網(wǎng)絡(luò)模型深度的基礎(chǔ)上,注意力機制可使淺層網(wǎng)絡(luò)集中于背景信息,深層網(wǎng)絡(luò)專注于待分類的目標,從而實現(xiàn)網(wǎng)絡(luò)對于分類能力的提升。Yuan等人[109]在Faster-RCNN的優(yōu)化上,結(jié)合注意力機制提出了一種輕量級網(wǎng)絡(luò)模型,該模型在Faster-RCNN的骨干網(wǎng)絡(luò)中引入特征注意力模塊(convolutional block attention module,CBAM)[110],從通道和空間兩個維度來提取網(wǎng)絡(luò)感興趣的特征圖,促進網(wǎng)絡(luò)識別目標的位置特征。

可變形卷積[111]通過學(xué)習(xí)到的偏移量對卷積核的采樣點進行偏移,使卷積核適應(yīng)檢測目標的形狀變換而加強網(wǎng)絡(luò)對于形變物體的檢測能力,但這樣可能會引入無用的背景區(qū)域來干擾特征的提取,使算法的性能有所降低。2019年Zhu等人[112]提出可變形卷積的V2版本,加入了更多可變形卷積層來提高算法對于幾何形變的適應(yīng)能力,并通過模仿R-CNN的特征解決了無關(guān)上下文的問題,使得該版本不論對于形變的檢測能力還是檢測精度上都得到了顯著提升,在目標檢測和實例分割中產(chǎn)生著重要作用。文獻[113]在R-FCN算法改進中,由于交通標志的形狀不一的問題,將可變形卷積和可變形位置敏感池化(deformable ROI pooling)與模型相結(jié)合,使模型針對不同形狀的交通標志都能有不俗的檢測結(jié)果。Dai等人同時提出了可變形位置敏感池化與可變形卷積,原理都在原有的基礎(chǔ)上增加了一個offsets,能為模型提供很好的適應(yīng)能力。

注意力機制及可變形卷積在目標檢測上的應(yīng)用,極大推動了算法改進思想的浪潮。注意力機制的空間維度、通道維度、空間通道維度,以及注意力機制與殘差模塊相結(jié)合等創(chuàng)新性的構(gòu)思,加上可變形卷積的提出與優(yōu)化,使得改進目標檢測算法的可行性大大提高。

3 總結(jié)與展望

本文系統(tǒng)地闡述了近年來學(xué)者對于深度學(xué)習(xí)的目標檢測算法進行改進的方法,并對當(dāng)下熱門公開數(shù)據(jù)集和算法評價指標進行了總結(jié)分析,同時希望通過算法流程性的歸納為相關(guān)領(lǐng)域的研究人員提供新的科研思路。對所列舉不同改進策略的機制、優(yōu)勢、局限性、適用場景進行提煉分析,對比表如表9所示。

表9 不同改進策略的對比Table 9 Comparison of different improvement strategies

結(jié)合上述知識的分析與總結(jié),提出以下未來研究的方向。

(1)視頻目標檢測。目前深度卷積網(wǎng)絡(luò)對于靜態(tài)圖像的檢測相對于傳統(tǒng)方法有了很大的進步,并逐步在視頻流的目標檢測中發(fā)揮重要作用。但視頻流檢測目標不僅要關(guān)注每一幀的消息,還要考慮幀與幀之間的關(guān)系,除此之外,相鄰幀之間包含的大量冗余特征、幀抖動、幀模糊以及目標之間的擁擠都會造成檢測效率的降低。因此對視頻目標檢測算法做出更多總結(jié)[114],并在此基礎(chǔ)上提升模型對于視頻檢測的泛化性,增強高質(zhì)量語義特征的提取能力,加強相鄰幀關(guān)系的建立等多方面的特性,都將是未來熱門研究方向。

(2)無監(jiān)督方式的數(shù)據(jù)增強方法。基于有監(jiān)督的數(shù)據(jù)增強由于其簡單易操作的特性在目標算法的改進研究中占據(jù)主要地位,但其快速的發(fā)展間接阻礙了無監(jiān)督數(shù)據(jù)增強的進步。經(jīng)無監(jiān)督數(shù)據(jù)增強生成的圖片質(zhì)量高、多樣性強等特點是有監(jiān)督方式難以替代的,未來在保證圖片質(zhì)量的情況下,利用輕量級框架提出一種實現(xiàn)較為簡單且易集成的無監(jiān)督數(shù)據(jù)增強方式將會極大推動目標檢測及圖像處理的發(fā)展。

(3)結(jié)合多維度的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。現(xiàn)有網(wǎng)絡(luò)在深度、寬度、對于高分辨率圖像的處理上都已趨于完善,EfficientNet通過尋找三者之間的最優(yōu)解更是獲得檢測性能的大幅提升。但影響網(wǎng)絡(luò)性能的維度不止于這三種,經(jīng)實驗證明,ResNeXt所提到的基數(shù)維度,相比提高網(wǎng)絡(luò)深度與寬度,其對于網(wǎng)絡(luò)性能的提升往往更加有效。未來利用神經(jīng)網(wǎng)絡(luò)搜索出深度、寬度、圖像分辨率、基數(shù)四個維度之間的最優(yōu)架構(gòu),甚至發(fā)現(xiàn)其他重要維度,都將對于網(wǎng)絡(luò)性能的提升將會有極大促進作用。

4 結(jié)束語

目前對于優(yōu)化基于深度學(xué)習(xí)的目標檢測算法具有很大的研究價值和理論意義,同時也會帶來很多困難與挑戰(zhàn),未來希望通過對目標檢測算法的不斷優(yōu)化,給各個領(lǐng)域帶來不俗的貢獻。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 久无码久无码av无码| 色偷偷一区二区三区| 特级精品毛片免费观看| 色婷婷狠狠干| 午夜毛片福利| 亚洲va精品中文字幕| 国产新AV天堂| 亚洲乱伦视频| 午夜福利视频一区| 精品少妇人妻无码久久| 欧美日韩国产在线人成app| 人妻丰满熟妇啪啪| 日本免费一区视频| 免费毛片视频| 日韩第九页| 无码福利视频| 亚洲制服中文字幕一区二区| 99er这里只有精品| 成人国产精品一级毛片天堂 | 国产亚洲欧美日韩在线一区| 亚洲日韩高清在线亚洲专区| 暴力调教一区二区三区| 国产AV毛片| 精品久久久久无码| 国产精品三级专区| 91 九色视频丝袜| 国产一级小视频| 天天综合网色| 国产人碰人摸人爱免费视频| 亚洲视频免费播放| 亚洲永久精品ww47国产| 动漫精品中文字幕无码| 久久永久精品免费视频| 日韩精品无码一级毛片免费| 91亚洲免费视频| 国产专区综合另类日韩一区| 91久久大香线蕉| 天天综合色天天综合网| 国产成人高清精品免费| 亚洲福利片无码最新在线播放| 国产成人综合日韩精品无码不卡| 国产在线欧美| 亚洲视频一区| 国产精品伦视频观看免费| 91精品专区国产盗摄| 国产精品专区第1页| 中文字幕亚洲综久久2021| 大学生久久香蕉国产线观看| 99久久无色码中文字幕| 美女毛片在线| 四虎精品黑人视频| 一级看片免费视频| 人妖无码第一页| 色妺妺在线视频喷水| 国产无遮挡猛进猛出免费软件| 中文字幕资源站| 乱人伦中文视频在线观看免费| 中国国产高清免费AV片| 一本大道无码日韩精品影视| 欧美一区福利| 精品国产www| 日本精品视频一区二区| 妇女自拍偷自拍亚洲精品| 在线无码九区| 蝴蝶伊人久久中文娱乐网| 福利在线不卡一区| www.狠狠| 成人伊人色一区二区三区| 国产精品伦视频观看免费| 日韩av高清无码一区二区三区| 色丁丁毛片在线观看| 在线欧美日韩国产| 成人国产一区二区三区| 国产精品白浆无码流出在线看| 在线观看欧美国产| 日韩第九页| 国产区人妖精品人妖精品视频| 六月婷婷综合| 亚洲成aⅴ人在线观看| 久久精品电影| 91国内外精品自在线播放| 国产精品熟女亚洲AV麻豆|