








摘要:為了提升SSD(single shot multiBox detector)的檢測精度,提出一種基于Anchor-object匹配的A-SSD(anchor-object SSD)目標檢測算法。在算法的特征提取部分,使用并行卷積和空洞卷積構成感受野模塊,增大特征圖的感受野,獲得多尺度的特征信息;將含有紋理、邊緣等細節信息的淺層特征與含有豐富語義信息的深層特征融合。在算法的檢測器部分,采用Anchor-object匹配方法聯合SSD多層特征圖為每個檢測目標構建相應的Anchor包,通過選擇-抑制優化策略,選擇置信度較高的Anchor去更新模型,為每個Anchor評估得分。通過迭代學習,模型的參數、Anchor的位置坐標與分類置信度不斷優化。在PASCAL VOC數據集上A-SSD算法的mAP達到了80.7,在車間行人數據集上A-SSD算法的漏檢率為3.5%,準確率為91.5%。
關鍵詞:目標檢測;SSD算法;特征提取;檢測器;Anchor-object匹配
DOI:10.15938/j.jhust.2022.03.010
中圖分類號: TP399文獻標志碼: A文章編號: 1007-2683(2022)03-0073-09
Object Detection Algorithm Based on Feature
Enhancement and Anchor-object Matching
LI Cheng-yan,ZHAO Shuai,CHE Zi-xuan
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)
Abstract:In order to improve the detection accuracy of SSD (Single Shot MultiBox Detector), an A-SSD (Anchor-object SSD) object detection algorithm based on Anchor-object matching is proposed. In the feature extraction part of the algorithm, parallel convolution and hole convolution are used to form the receptive field module, which increases the receptive field of the feature map and obtains multi-scale feature information, combining the shallow features containing texture, edge and other detailed information with rich fusion of deep features of semantic information. In the detector part of the algorithm, the Anchor-object matching method combined with the SSD multi-layer feature map is used to construct the corresponding Anchor package for each detection target. Through the selection-suppression optimization strategy, the Anchor with higher confidence is selected to update the model. Anchor evaluation score, in continuous iterative learning, the model parameters, Anchor position coordinates and classification confidence are continuously optimized. The mAP of the A-SSD algorithm on the PASCAL VOC data set reached 80.7, and the missed detection rate of the A-SSD algorithm on the workshop pedestrian data set was 3.5%, and the accuracy rate was 91.5%.
Keywords:object detection; SSD algorithm; feature extraction; detector; anchor-object matching
目標檢測[1-2]是計算機視覺以及圖像處理領域的一個研究問題,其主要目標是在圖像中精確定位出各種目標的類別和位置信息。這項技術廣泛的應用在現實世界中,如工業生產領域利用目標檢測技術定位生產人員的位置以及監測生產人員的姿態;車載導航領域利用目標檢測技術檢測障礙、識別交通信號;數碼攝像領域利用目標檢測技術實現自動定位和人臉聚焦等功能。然而,復雜的目標類別、廣泛的尺度變化以及光照變化等外在環境因素干擾下,目標檢測的難度在不斷增加,為克服這些困難,越來越多的學者投入到該領域的研究。
目標檢測技術分為基于傳統算法和基于深度學習算法兩大類。傳統的目標檢測算法包括HOG特征法[3]、Haar-Like特征法[4]、LBP特征法[5],這些算法依賴手工設計特征,檢測精度較低,計算步驟復雜,檢測速度慢、實時性差。現已被基于深度學習的算法[6-8]取代。在深度學習領域,基于深度卷積神經網絡(convolution neural network,CNN) [9-10]的算法具有特征層次深,檢測準確率高,魯棒性好的優點。文[11]提出的R-CNN首先利用Selective Search技術對輸入圖像提取生成建議框,然后使用AlexNet網絡對建議框特征提取,最后使用SVM分類器確定檢測目標的類別以及使用回歸器確定檢測目標的位置,該算法存在輸入圖片尺寸固定、重復計算、檢測速度慢等缺點。文[12]提出的SPP-Net針對R-CNN的問題做了改進,對整張輸入圖片僅進行一次卷積操作,大大降低了運算量。文[13]提出的以VGG-16為基準網絡的Fast R-CNN借鑒了SPP-Net的思想將SPP層簡化為ROI Pooling單層結構,引入softmax函數和SVD分解,將分類和回歸合并成一個問題,雖然提高了檢測速度和精度,但是也存在檢測效率低的問題。文[14]提出的Faster R-CNN真正實現了網絡模型的端到端訓練,設計了區域生成網絡(RPN)來生成候選區域,提升了檢測效率。R-CNN系列算法是一種首先需要產生候選區域,然后再在候選區域上做分類與回歸,進而得到最終的檢測結果的兩階段目標檢測算法,這種兩階段的目標檢測算法雖然有較高的檢測精度,但是檢測速度不佳。
基于候選區域的兩階段算法不同,基于回歸的單階段目標檢測算法在檢測速度上有明顯的提升。文[15]提出了第一個單階段目標檢測算法YOLO(you only look once),只需要對輸入圖像進行一次卷積處理,即可同時得到檢測目標的位置和類別,檢測速度得到了大大的提升,但是,YOLO算法的劃分策略造成生成的先驗框個數較少,對小目標和密集目標的檢測精度較差,定位誤差也較大。文[16]提出的SSD(single shot multiBox detector)將YOLO的回歸思想和Faster R-CNN中的Anchor機制相結合,利用不同輸出層的特征信息檢測,使其對尺度變化有較好的魯棒性。但是,原始輸入圖像經過SSD基準網絡一系列的卷積池化,在Conv4_3層輸出的檢測特征圖,相較于原始圖像尺寸縮小了1/8,導致檢測目標的邊緣、紋理等細節信息大部分丟失,后續特征圖的特征信息丟失的更多,特別是小目標的特征信息,在網絡訓練階段嚴重影響網絡參數的學習,導致網絡對小目標的檢測精度低、定位不準確。其次,在網絡的訓練階段,Anchor獨立的監督網絡學習,分類和定位之間沒有交互,這可能會導致定位準確,但分類置信度較低的Anchor在NMS(non-maximum suppression)被抑制,影響目標檢測檢測的精度。文[17]提出的一種利用深層和淺層特征融合的算法,通過增加特征圖的通道數來提升目標檢測的精度,但是每一層特征圖的參數量倍增,極大的影響了目標檢測的速度。文[18]以SSD算法為基礎,提出了一種引入空間上下文信息的反卷積模塊,將語義信息豐富的深層特征引入淺層的特征中,提升了小目標的檢測精度,但是沒有充分利用特征圖的邊緣、紋理等細節信息,檢測速度也遠遠不及SSD算法。文[19]受人體視覺系統中感受野結構的啟發,提出了一種利用空洞卷積模擬人眼視覺系統中感受野尺寸和中心的關系,在不丟失分辨率的情況下,增大特征圖的感受野,獲得多尺度的特征信息,提升了目標檢測的精度,但是空洞率設置過大可能會造成遠距離特征信息不相關,影響目標檢測的精度。文[20]以SSD算法為基礎,融合注意力機制,提升了小目標的檢測精度,但是對于密集目標,存在誤檢的情況。文[21]提出了一種反轉注意力機制,該算法沿著特征圖的空間和通道維度進行操作,不需要為注意力估計增加額外的參數,也不會增加推理的計算量,提升了目標的檢測性能。文[22]首次指出樣本類別不平衡,是造成SSD算法的檢測精度低原因,并且使用Focal loss損失函數對模型訓練,提升了算法的檢測精度。文[23]提出GHM策略,通過降低離群值的梯度貢獻進一步改善了Focal loss。文[24]提出的AP損失和文[25]提出的DR損失,將分類任務轉換為排名任務提升了SSD算法的檢測精度。以上改進算法雖然在一定程度上提升了SSD目標的檢測精度,但是并沒有解決定位準確但分類置信度較低的Anchor在NMS操作中被抑制,導致檢測精度低的問題。
為解決SSD算法檢測精度不佳的問題,本文提出了一種基于Anchor-object匹配的SSD的算法—A-SSD(anchor-object single shot multiBox detector)。該算法以SSD網絡結構為基礎,提取更淺層的特征圖,使用空洞卷積、并行卷積構成感受野模塊增大感受野,獲取多尺度特征信息,對深層和淺層特征融合。聯合多層特征圖為每個檢測目標構建相應的Anchor包,通過選擇-抑制優化策略[26],在不斷的迭代學習中,學習模型參數和優化Anchor的定位坐標與置信度。
本文結構如下,第一部分介紹SSD目標檢測網絡,第二部分介紹A-SSD算法設計,第三部分為實驗過程及結果分析,最后給出結論。
1SSD目標檢測網絡
Lin等人提出的SSD算法一種直接預測目標邊界框的坐標和類別的檢測算法。SSD算法借鑒了Faster R-CNN中先驗框(prior boxes)的理念,如圖1所示,每個單元格設置尺度和長寬比不同的Prior boxes,較大的特征圖,負責檢測相對較小的目標,較小的特征圖,負責檢測相對較大的目標。一般情況下每個網格有k個先驗框,每個先驗框預測c個類別的分數和4個位置偏移量。特征圖的大小為m×n,即有m×n個網格,則該特征圖共有 (c+4) ×k×m×n個輸出。在訓練階段,將默認框和真實框匹配,一旦匹配成功,則默認框為正樣本,反之則為負樣本。在預測階段,得到默認框的位置偏移及目標類別對應的置信度。
與YOLO最后采用全連接層不同,SSD算法的骨干網絡結構是VGG16,將VGG16的最后兩個全連接層改為卷積層后又增加了4個卷積層,網絡結構如圖2所示,SSD算法對conv4_3、fc7、conv6_2、conv7_2、conv8_2和conv9_2等6個不同卷積層的特征圖做檢測。其檢測過程:特征圖與兩個3×3的卷積核卷積后得到兩個輸出,分別作為分類時使用的置信度以及回歸時使用的位置信息,將每個輸出層的檢測結果合并后傳遞給損失層,損失層通過非極大值抑制的方法輸出目標的檢測結果。
2A-SSD算法設計
2.1A-SSD特征提取網絡結構
A-SSD網絡結構以原始SSD為基礎,提取SSD網絡更淺層的特征圖,以獲得更多的紋理、邊緣等細節信息;對SSD網絡的深層特征反卷積,與淺層的特征融合,使融合后的特征圖含有更多細節信息的同時兼顧深層特征具有的豐富語義信息;在淺層特征圖增加感受野模塊,采用多分支的空洞卷積結構來獲得更大的感受野和更具表達能力的特征。圖3為A-SSD的特征提取網絡結構,輸入圖像通過A-SSD卷積神經網絡中的各卷積層輸出多尺度的特征圖,在不同尺度的特征圖上做檢測,并將不同層的檢測結果綜合實現目標檢測。
如圖3所示,A-SSD算法通過提取SSD卷積神經網絡中更淺層Conv3_3的特征圖,與Conv4_3、Conv5_3的特征圖通過特征融合模塊(Feature fusion module)得到ConvF3_3特征圖,ConvF3_3特征圖又經感受野模塊(Receptive field module)得到ConvR3_3特征圖。深層Conv8_2、Conv7_2特征圖,分別與Conv6_2、fc7特征圖通過特征融合模塊得到ConvF6_2、fcF7特征圖。A-SSD算法對convR3_3、conv4_3、fcF7、convF6_2、conv7_2、conv8_2和conv9_2等7個不同卷積層的特征圖做檢測。
2.2特征融合網絡結構
SSD網絡的淺層特征分辨率較高,含有更多的邊緣、紋理等細節信息,但是淺層特征經過的卷積次數較少,導致了其語義性更低、特征圖的噪聲更多。相比較淺層特征,SSD網絡的高層特征經過更多的卷積,具有更強的語義信息,但是分辨率較低,對細節的感知能力較差。為了解決這個問題,A-SSD算法把含有更多邊緣、紋理等細節信息的淺層特征與含有豐富語義信息的深層特征融合成一個兼具淺層特征信息與深層特征信息的特征圖。過程如圖4所示,淺層特征圖與深層特征圖經過2×2反卷積、3×3的卷積和ReLU(rectified linear unit)、BN(batch normalization)處理,處理后的兩個特征圖經Concatenate通道拼接,1×1卷積、ReLU處理得到融合之后的特征圖。
感受野模塊是一個多分支的卷積模塊,他的內部結構主要分為兩種:第一種為不同分支應用卷積核大小不同的卷積層構成的并行卷積結構;第二種為卷積層使用不同大小空洞率的卷積核,構成空洞卷積結構。其中,應用并行卷積結構可以得到多尺度的特征信息,應用空洞卷積可以增加感受野,最終通過融合各支路的特征信息,將具有多尺度特征信息和感受野不同的特征圖融合成一個感受野更大、尺度信息更豐富的特征圖。過程如圖5所示,H×W×256的特征圖,經卷積核大小分別為1×1,3×3,5×5的卷積層和空洞率分別為1、3、5,卷積核大小為3×3的卷積層分支得到三個含有不同感受野和不同尺度信息的特征圖,又經Concatenate通道拼接,三個特征圖融合成一個特征圖。融合后的特征圖,通過1×1的卷積層來調整通道深度,與H×W×256的輸入特征圖,經add操作得到最終的特征圖。
2.3基于Anchor-object匹配的檢測器
在SSD算法中,檢測器利用目標實際邊界框(ground truth)與Anchor之間的IOU作為分配Anchor的標準,每個被分配的Anchor獨立的監督網絡學習,分類與定位之間沒有交互。這可能會導致定位精度較高但分類置信度較低的Anchor經過NMS被過濾掉,影響目標檢測的精度。為解決這個問題,在模型的訓練過程中,聯合分類與定位選擇置信度,通過選擇-抑制優化策略,選擇置信度較高的Anchor去更新模型,使用更新后的模型重新為每個Anchor評估得分,在不斷迭代學習中,模型的參數、Anchor的位置坐標與分類置信度不斷優化。同時SSD算法的分類檢測器和定位的檢測器是對每一層特征圖檢測的,這也限制了聯合分類與定位,為此聯合多層特征圖為每個檢測目標構建相應的Anchor包,A-SSD網絡結構如圖6所示,分別聯合ConvR3_3、Conv4_3特征圖,fcF7、ConvF6_2特征圖,Conv7_2、Conv8_2、Conv9_2特征圖構建相應的Anchor包,用于目標檢測網絡。
首先為輸入圖像的第i個目標構建一個Anchor包(Ai),也就是根據Anchor與Ground truth的IOU選出前K個作為正樣本Anchor(positive Anchor)放入Ai中。在網絡參數的學習過程中,模型為Ai中的每個Anchor評估出分類和定位的置信度,利用式(1)中的目標函數選出分數較高的Anchor,利用式(2)、式(3)更新模型參數,重新評估Anchor的分類和定位的置信度,經過一次一次的迭代過程,最終選擇出最優的Anchor,以及計算出最優的模型參數。X為訓練數據集,Y為相應的類別標簽,bi∈B為正樣本中物體的邊界框,bi由類別標簽bclsi和定位標簽bloci組成。分類子網和邊界回歸子網預測的邊界框aj由類別置信度aclsj和定位置信度alocj組成。
ai=argmaxω,aj∈Aifω(aj,bicls)+αgω(aj,biloc)(1)
其中fω和gω分別計算分類和定位的置信度函數,α是正則化因子,最終要選出目標i最優的positive Anchor ai*,同時學習網絡參數ω*,ω*參數的在分類中學習如式(2)所示。
ω=argmaxω(fω(aj+,bclsi)-ρfω(aj-,bclsi))(2)
其中,ρ表示正負樣本的平衡因子。同時,正樣本Anchor aj+用來優化目標定位,如式(3)所示。
ω=argmaxωgω(aj+,bloci)(3)
相應的損失函數如式(4)所示。
Ldet(aj,bi)=argminω,aj∈AiLcls(aj,bicls)+αLreg(aj,biloc)(4)
Lcls表示類別損失,計算類別損失用文[22]提出的Focal Loss損失函數。Lreg表示位置損失,計算位置損失使用Smooth L1 Loss損失函數。
SSD采用隨機梯度下降(stochastic gradient descent,SGD)算法選擇Anchor,這會導致出現次優Anchor的問題。為解決這個問題,使用反向注意力機制改進SSD檢測器,通過反復降低Anchor置信度的對抗方式,在最終收斂的時候最大可能的找到最優Anchor。在SSD網絡的基礎上,添加Anchor 選擇模塊和Anchor 抑制模塊。Anchor選擇模塊找出得分較高的Anchor從而最小化檢測損失,而Anchor抑制模塊通過擾動這些被選擇的Anchor的特征,降低這些Anchor的置信度,再次增大檢測損失,選擇-抑制優化網絡結構如圖7所示。
Anchor抑制模塊使用了注意力機制,注意力機制識別對象最具有代表性的區域,鼓勵區分對象類別。在SSD網絡的訓練階段,通過梯度引導的注意力生成操作,強制注意力收斂到對象的敏感區域,但忽略掉了不敏感的區域。由文[27]梯度引導生成的注意力圖的計算公式如式(5)所示。
M=∑CiwiFi(5)
其中:wi為特征圖全局平局池化生成的權重向量W在i處的元素;C為特征圖的通道;i為特征圖的通道索引;Fi是i通道處的特征圖,經過式(5)得到注意力圖M。為了解決梯度引導注意力忽略對象較不敏感區域的問題,通過反轉注意力機制,使網絡關注對象敏感度較低的區域,給未被選擇的Anchor更多的機會參與訓練。具體而言,通過注意力反轉機制生成一個反向空間注意力圖和一個反向通道注意力圖,然后將它們融合生成最終的反向注意圖。反向空間注意力圖As={asi}的定義如式(6)所示。
asi=0if migt;Ts
1else(6)
其中:asi與mi為As和M在i處的元素;Ts為空間注意力圖的閾值,在空間上反向的注意力圖對具有較小梯度值的樣本區域更加關注。權重向量W用作特征圖通道的靈敏度度量,閾值Tc用于計算通道方向的反向注意力圖Ac={acj}的定義如式(7)所示。
acj=0if wjgt;Tc
1else(7)
最終的反向注意圖A={ai,j}的計算公式如式(8)所示。通過融合空間上反向的注意力圖與通道反向注意力圖,更加關注由于空間注意力機制抑制的較小梯度值的樣本區域和通道注意力機制抑制不重要的特征信息。
ai,j=asiif ajc=0
1else(8)
反向注意力圖M′是將注意力圖M較高的值驟降為0,M′的計算如式(9)所示。
M′=(1-γp)M(9)
其中:γ代表0~1的指標函數;P為具有較高值的位置。最后通過將輸入特征圖與反向注意力圖融合,生成一個既關注對象的敏感區域又關注不敏感的區域的被抑制后的特征圖V,V的計算如式(10)所示。
V=(I+M′)°Fl(10)
其中:I代表單位矩陣;°代表元素乘法。
為了選擇分類與定位綜合置信度最大的Anchor,在訓練過程中通過一種“all to top 1”的不斷學習策略。在學習過程中提取分數較高的Anchor,線性降低Ai中的Anchor數量直到降為1。計算如公式(11)所示,設置λ=t/T,t和T分別當前和總的迭代次數,φ(λ)表示排名前幾位的Anchor的索引,|Ai|表示Ai的個數。
φ(λ)=|Ai|(1-λ)+1(11)
3實驗結果與分析
3.1實驗環境
實驗環境如表1所示。
3.2網絡訓練
網絡模型訓練參數部分設定為:動量參數為0.9,模型訓練100 epoch,前50 輪(epoch)初始學習率(learning_rate)為0.0005,網絡訓練50 epoch之后,learning_rate衰減為0.0001。在訓練過程中,當驗證損失(val_loss)在10 epoch沒有改善時,學習率降低0.5倍,每迭代一次訓練的樣本數為4。如圖8所示,網絡訓練過程中val_loss在前50 epoch的下降趨勢明顯,在后50 epoch逐漸平穩。
3.3在PASCAL VOC數據集上的實驗
實驗使用了PASCAL VOC數據集[28-29],該數據集包含20個類別,即aeroplane、bike、bird、boat、bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、person、plant、sheep、sofa、train、tvmonitor,共27088張圖片。將PASCAL VOC數據集,按8∶1∶1的比例劃分為訓練集、驗證集、測試集,如表2所示。
在目標檢測中,通常采用mAP(mean Average Precision) 來評估模型的檢測精度,以及采用FPS(Frames Per Second),即畫面每秒傳輸幀數評估模型的檢測速率。如表3所示,A-SSD算法相較于YOLO算法[15]、SSD算法[16]、Faster R-CNN算法[14]、DSSD算法[18],mAP分別提升了17.3、6.4、7.5、2.1。
3.4在車間行人數據集上的實驗
為了驗證本文算法在實際生產環境下的應用效果,在車間行人數據集下做了消融實驗。實驗數據集來源于大小為70G的某生產車間監控視頻,截取了不同姿態、不同遮擋程度、不同大小目標的7462張圖片,該數據集包含一個person類別,數據樣本如圖9所示。將車間行人數據集,按8∶1∶1的比例劃分為訓練集、驗證集、測試集,如表4所示。
本組實驗應用漏檢率、準確率來衡量算法的性能,其中漏檢率RM(Miss Rate),如式(12)所示。
RM=FNFN+TP(12)
準確率Rp(Precision Rate),如式(13)所示。
Rp=TPTP+FP(13)
在BBd與BBg匹配的過程中,未匹配到的BBd是誤檢的行人框(1 postitive ,FP),未匹配到的BBg是漏檢的行人框(1 negative,FN),行人統計標準如表5所示。
利用車間行人數據集的訓練集在SSD目標檢測網絡和A-SSD目標檢測網絡上訓練兩個模型,在測試集上測試兩個模型,記錄每張圖像的檢測框并計算檢測框與真實框的IOU值。假設檢測框為BBd,真實框為BBg,若IOU大于閾值時,則BBd與BBg是匹配的。本組實驗的閾值為0.5,IOU的計算如公式(14)所示。
IOU=area(BBd∩BBg)area(BBd∪BBg)(14)
本組實驗分別在測試集上選取100張含有小目標行人(100_small)、100張含有遮擋行人(100_blocked) 以及全部車間行人測試數據集(all)上做了4組消融實驗,結果如表6、表7所示。
通過本組實驗可以看出對SSD提取更淺層Conv3_3特征圖以及應用感受野模塊,漏檢率在三種測試數據集上分別降低了2%、2%、1.7%,準確率分別提高了4.3%、6.4%、3.4%。在此基礎上又相繼添加了特征融合模塊、Anchor-object匹配方法等,漏檢率均有所降低、準確率有所提高。A-SSD算法相較于SSD算法在三種數據集上漏檢率分別降低了7%、7%、3.6%,準確率分別提高了6.7%、8.8%、5.7%。由此可知A-SSD算法提升了實際車間環境下的檢測效果。
圖10是SSD算法和A-SSD算法在車間行人數據集上的可視化檢測結果對比。圖(a)是SSD的檢測結果,圖(b)是A-SSD的檢測結果。對比圖(a)和圖(b),可以看出A-SSD算法對小目標行人的檢測效果更佳。
4結語
本文以SSD算法為基礎,引出更淺層的特征圖,添加感受野模塊增強輕量級主干網絡的特征提取能力,將含有邊緣、紋理等細節信息的淺層特征圖與含有豐富語義信息的深層特征圖融合成一個兼具淺層特征信息與深層特征信息的特征圖,另外Anchor-object匹配方法聯合優化分類與定位學習Anchor,完成對目標檢測研究。實驗結果表明A-SSD算法提升了目標的檢測精度,但是與之帶來的是算法參數量增加,影響模型檢測的速度。下一步將考慮從模型剪枝的角度考略,減少參數量,提升檢測速度。
參 考 文 獻:
[1]LIU Y, SUN P, WERGELES N, et al. A Survey and Performance Evaluation of Deep Learning Methods for Small Object Detection[J]. Expert Systems with Applications, 2021, 172(4):1.
[2]LIU L, OUYANG W, WANG X, et al. Deep Learning for Generic Object Detection: A Survey[J]. International Journal of Computer Vision, 2020, 128(2): 261.
[3]鮑文霞, 解棟文, 朱明,等. 結合聚合通道特征和雙樹復小波變換的手勢識別[J]. 中國圖象圖形學報, 2019, 024(007):1067.
BAO Wenxia, XIE Dongwen, ZHU Ming, et al. Gesture Recognition Based on Aggregation Channel Feature and Dual Tree Complex Wavelet Transform[J]. Chinese Journal of Image and Graphics, 2019, 24(7): 1067.
[4]ADOUANI A, HENIA W, LACHIRI Z. Comparison of Haar-like, HOG and LBP Approaches for Face Detection in Video Sequences[C]// 2019 16th International Multi-Conference on Systems, Signals amp; Devices (SSD). 2019:266.
[5]劉曉虹, 朱玉全, 劉哲,等. 基于改進多尺度LBP算法的肝臟CT圖像特征提取方法[J]. 計算機科學, 2019, 46(3):131.
LIU Xiaohong, ZHU Yuquan, LIU Zhe, et al. Feature Extraction Method of Liver CT Image Based on Improved Multiscale LBP Algorithm[J]. Computer Science, 2019, 46(3): 131.
[6]尹寶才, 王文通, 王立春, 等. 深度學習研究綜述[J]. 北京工業大學學報, 2015, 41(1): 48.
YIN Baocai, WANG Wentong, WANG Lichun, et al.Review of Deep Learning Research[J]. Journal of Beijing University of Technology, 2015, 41(1): 48.
[7]孫志遠, 魯成祥, 史忠植,等. 深度學習研究與進展[J]. 計算機科學, 2016,43(2):7.
SUN Zhiyuan, LU Chengxiang, SHI Zhongzhi, et al. Research and Progress of Deep Learning[J]. Computer Science, 2016,43(2): 7.
[8]張慧, 王坤峰, 王飛躍. 深度學習在目標視覺檢測中的應用進展與展望[J]. 自動化學報, 2017, 43(8):1289.
ZHANG Hui, WANG Kunfeng, WANG Feiyue. Applicationprogress and Prospect of Deep Learning in Targetvision Detection[J]. Acta Automatica Sinica, 2017, 43(8): 1289.
[9]KRIZHEVSKY A, SUTAKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM, 2017, 60(6): 84.
[10]LECUN Y, BOSER B, DENKER J, et al. Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation, 2014, 1(4):541.
[11]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580.
[12]HE K, ZHANG X, REN S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904.
[13]GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440.
[14]REN S, HE K, GIRSHICK R, et al. Faster R-cnn: Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137.
[15]REDMON J, DIWALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-time Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779.
[16]LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single Shot Multibox Detector[C]//European Conference on Computer Vision. Springer, Cham, 2016: 21.
[17]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117.
[18]WANG S, WU L, WU W, et al. Optical Fiber Defect Detection Method Based on DSSD Network[C]// 2019 IEEE International Conference on Smart Internet of Things (SmartIoT). IEEE, 2019: 422.
[19]LIU S, HUANG D. Receptive Field Block Net for Accurate and Fast Object Detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 385.
[20]儲岳中,黃勇,張學鋒,等.基于自注意力的SSD圖像目標檢測算法[J].華中科技大學學報(自然科學版),2020,48(9):70.
CHU Yuezhong, HUANG Yong, ZHANG Xuefeng, et al. SSD Image Target Detection Algorithm Based on Self Attention[J]. Journal of Huazhong University of Science and Technology (NATURAL SCIENCE EDITION), 2020,48(9): 70.
[21]HUANG Z, KE W, HUANG D. Improving Object Detection with Inverted Attention[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2020: 1294.
[22]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980.
[23]LI B, LIU Y, WANG X. Gradient Harmonized Single-stage Detector[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2019: 8577.
[24]CHEN K, LI J, LIN W, et al. Towards Accurate One-stage Object Detection with Ap-loss[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 5119.
[25]QIAN Q, CHEN L, LI H, et al. DR Loss: Improving Object Detection by Distributional Ranking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020:12164.
[26]KE W, ZHANG T, HUANG Z, et al. Multiple Anchor Learning for Visual Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10206.
[27]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam:Visual Explanations from Deep Networks Via Gradient-based Localization[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 618.
[28]WANG Z, LI Q. Information Content Weighting for Perceptual Image Quality Assessment[J]. IEEE Transactions on Image Processing, 2010, 20(5): 1185.
[29]LIU A, LIN W, NARWARIA M. Image Quality Assessment Based on Gradient Similarity[J]. IEEE Transactions on Image Processing, 2011, 21(4): 1500.
(編輯:王萍)