面向航空飛行安全的遙感圖像小目標檢測

2020-07-16 18:27:38李希徐翔李軍

航空兵器 2020年3期

李希　徐翔　李軍

摘要：有人機和無人機等各種新型航空飛行器的發展，給航空飛行安全帶來了極大挑戰，對影響飛行安全的小型目標進行檢測是保障安全飛行的首要條件。本文針對現有基于深度學習的目標檢測方法在遙感圖像小目標檢測時存在的不足，以及檢測目標尺度過小、圖像背景復雜、噪聲干擾等問題，探討了深度學習技術在遙感圖像小目標檢測方面的研究進展，重點分析了特征金字塔網絡、注意力機制、傾斜框檢測等相關技術在遙感圖像小目標檢測上的可行性，提出了一種具有較強泛化能力的目標檢測模型。本文以高分二號遙感圖像的高壓電塔檢測為例進行試驗，結果表明，本文提出的模型在檢測精度和計算開銷上可達到更好的效果。

關鍵詞：深度學習;卷積神經網絡;小目標檢測;特征金字塔;注意力機制 ;人工智能

中圖分類號：TN957.51;TP18 文獻標識碼：A 文章編號： 1673-5048（2020）03-0054-08

0 引言

隨著航空技術的不斷發展，如何保障國家空天安全，成為各國軍事部門研究的重點和熱點問題[1-2]。為了形成良好的航空安全環境，需要對各種潛在的飛行安全威脅進行充分考慮。其中，利用遙感圖像對影響航空飛行安全的小型目標進行精確檢測，是保障飛行的首要條件，起著至關重要的作用。

遙感圖像中的小型目標檢測結合了目標定位和識別，目的是在復雜的遙感圖像背景中找到若干目標，對每一個目標給出一個精確的目標邊框（Bounding Box），并判斷該邊框中目標所屬的類別。對于實際遙感圖像中的小目標檢測，傳統人工設計特征表達算法存在較大的局限性，其檢測器依賴于數據自身特征結構，泛用性較弱。而隨著深度學習[3]技術的出現，推動了目標檢測的快速發展。基于深度學習的目標檢測方法能夠克服傳統方法的缺點，適用于海量數據處理。然而對于圖像中小型目標的檢測，即通常定義為目標長寬小于原圖尺寸的10%或者尺寸小于32×32像素的小目標，傳統深度學習的目標檢測算法仍然存在較大的改進空間。歸納起來，主要存在以下問題：

（1）目標尺度過小，網絡學習中容易被忽略。比如，部分小目標在經過數次下采樣后，在特征圖像上的大小只有個位數像素，目標檢測器難以對其進行分類和定位。這種現象在低分辨率圖像中更加明顯。

（2）遙感圖像分辨率過低，圖像模糊，攜帶的信息少，背景噪聲影響大（云、霧、噪聲等客觀存在），導致小目標本身攜帶的信息過少，特征表達能力弱[4]。

（3）大部分遙感圖像中小目標數量過少。在訓練過程中，傳統的卷積神經網絡更容易學習大目標

的特征，而對小目標的檢測效果較差。

本文研究的深度學習模型框架構建的關鍵點在于實現遙感圖像的小目標檢測，以解決飛行器飛行安全問題，因此特征提取、特征融合[5-6]中所使用的方法，需要針對小型目標的空間信息和語義信息提取，從而最終實現大尺度遙感圖像中的小目標檢測。然而在實際的小型目標檢測中，由于目標本身過小，深層的特征提取網絡中的多次下采樣處理，容易導致尺度較小目標被忽略;并且，由于遙感圖像上存在背景噪聲問題，大規模復雜背景可能會導致更多的誤檢，特別是在低分辨率的圖像上這種現象更加明顯。鑒于現有算法的不足，對小目標檢測算法的改良方向進行分析，擬采用以下多種策略來提高小目標檢測的性能，包括：

（1）特征金字塔網絡。特征金字塔能夠提取待檢測目標的多層特征，構建一種多尺度的深度學習模型，實現多尺度特征的融合。然而利用特征金字塔進行特征提取過程中，存在深層網絡下采樣步長過大導致小目標特征丟失，特征圖像的邊緣信息較少導致目標邊界框回歸精度差等問題。因此，可以通過組合殘差網絡和金字塔網絡來構建特征提取網絡，從而能夠進行淺層特征的提取。而在特征提取階段利用淺層特征金字塔進行多尺度特征學習，能夠避免深層網絡帶來的計算負擔重，從而提升計算速度，并且由于網絡參數減少，有利于進行循環式的特征訓練。

（2）注意力機制。空間注意力機制模型是一種從大量信息中有選擇地篩選出少量重要信息的基礎部件模型。通過學習遙感圖像目標與背景特征，運用權重系數進行加權求和的方法實現特征分離，能夠對遙感圖像中的背景噪聲進行抑制。具體來說，注意力機制模塊能夠獲取顯著圖，將檢測目標與背景分離，利用Softmax函數對特征圖像進行操作，與原始特征圖像進行結合，獲取新的融合特征，達到降噪目的。

（3）傾斜框檢測。目標密集區域如停車場，傳統矩形框難以正確擬合目標，目標檢測結果可能存在大量矩形框重合，導致結果存在大量漏檢。斜框檢測算法用傾斜的矩形框代替傳統的矩形框，能夠更好地擬合遙感圖像中小目標的空間位置，即用水平框+旋轉角度來表示一個傾斜框，從而在遙感圖像中包含大量密集的小目標情況下具有更強的泛用性。

本文主要研究遙感圖像中小目標檢測方法及其深度網絡模型的構建技術。通過對遙感圖像小目標檢測框架結構中使用的特征提取、特征選擇、注意力機制方法進行分析和研究，構建一種新型的小目標檢測網絡模型，該網絡結構包含特征提取模塊、空間注意力模塊、RPN模塊、分類和定位模塊。總體思路是利用特征金字塔對不同尺度的目標特征進行提取，融合特征低層空間信息與高層語義信息，以獲取層間互補信息，提高可擴展性。由于大部分遙感圖像中不可避免存在各種噪聲，模型中還加入了空間位置軟注意力機制（Spatial Attention），將淺層特征提取網絡和空間注意力機制進行結合，構建一種面向遙感圖像的特征提取模型，再利用RPN模塊進行ROI區域獲取，最終通過分類器和檢測器，獲取檢測目標類別信息以及位置信息。

1 基于深度學習的目標檢測發展與局限

目標檢測算法的發展分為基于傳統手工特征的目標檢測和基于深度學習的目標檢測。傳統目標檢測算法（例如，比例不變特征變換[7-8]、定向梯度等）設計特征存在目標表達能力不足、分類錯誤率高、難以應用于多類目標檢測等缺點。深度學習在目標檢測領域中有著巨大的應用潛力，一般采用端到端的方法進行目標檢測，原始圖像輸入神經網絡能夠通過降低維度來減少計算量，并且通過強化深度學習算法能夠使預測結果盡可能接近原始邊界框，從而確保精確的邊界框預測。相比傳統算法，深度學習方法具有更強的泛用性，成為了當前目標檢測的研究與應用熱點。

卷積神經網絡從LeNet[9-10]開始，并從AlexNet [11]網絡出現開始快速發展，誕生了許多經典的網絡。基于深度學習的目標檢測算法分為兩階段目標檢測算法和單階段目標檢測算法。兩階段目標檢測算法又稱基于候選區域（Region Proposal）的算法，其首先尋找目標物體的候選區域，然后進行目標物體分類。經典的兩階段算法包括R-CNN[12-13]、SPP-Net[14]、Fast-RCNN[15]、Faster-RCNN等。R-CNN使用基于選擇性搜索的方法進行窗口搜索，采用了圖像分類網絡，但是存在輸入的圖像需要縮放候選區域的缺陷。He Kaiming等人提出了SPP-Net，在網絡的全連接層之前加入空間金字塔池化層，解決不同尺寸圖像輸入卷積網絡的問題，實現了圖像中任意大小和長寬比區域的特征提取。Fast-RCNN加入ROI Pooling層進行不同維度特征歸一化，并且利用多任務損失函數（Multi-task Loss）進行邊框回歸，提高訓練和檢測效率。Faster-RCNN進一步改進和利用RPN（Region Proposal Network）網絡來完成候選框的選取，實現了一個完全端到端的卷積神經網絡目標檢測模型。

單階段目標檢測算法不產生候選區域，直接利用整張圖片作為網絡的輸入，進行分類和定位。典型的單階段目標檢測算法包括YOLO [16]、SSD [17]等。Joseph和Girshick等人在2015年提出YOLO算法，該算法僅通過一次前向傳播直接得到目標包圍框的位置和目標的類別，極大地提高了檢測速度。Liu Wei等人于2015年提出SSD算法，實現了在不同尺度特征圖像上利用卷積核預測目標類別和位置，吸收了YOLO算法速度快的特點，提高了精度。

常見的兩階段目標檢測和單階段目標檢測方法都有不足之處，前者雖然檢測準確率和定位精度更高，但需要首先生成目標候選區域，因此無法達到實時性的檢測;后者對于每一層的特征圖都要去設置密集的候選框，產生太多的負樣本，雖然速度較快，但是由于傳統卷積網絡在所學特征對方向和尺度變化魯棒性上表現一般，因此對于小物體和重疊物體檢測效果不佳。

2 特征金字塔

2.1 特征金字塔網絡

經典的目標檢測網絡，例如Faster-RCNN進行目標檢測時，ROI區域和獲取往往取決于最后一層特征網絡獲取的特征圖像，然而這種方法僅僅適用于圖像中占有較大像素比例的大型目標檢測，對于小型目標檢測，存在特征提取信息不足、檢測精度較低等問題。由于檢測目標尺寸過小，在特征提取中經過多層的卷積操作后，小目標的語義信息基本已經消失，在ROI區域映射到特征圖像的操作中，經過多層卷積的小目標特征在特征圖像上的映射區域只有很小一部分甚至沒有。所以，為了解決多尺度的特征提取問題，需要引入特征金字塔網絡（FPN）進行語義特征和細節特征學習。

在目標檢測過程中，一般低層特征會保留較多的位置信息，高層特征保留較多的語義信息，FPN通過多層CNN堆疊的金字塔形式進行高層和低層特征組合以實現特征融合。FPN的結構設計特點在于其top-down[18-19]結構，以及不同尺度特征的橫向連接，將高分辨率的淺層特征及高語義信息的深層特征統一到同一尺度進行特征融合，使得最終獲得的融合特征同時具有豐富的空間信息和語義信息。通過單尺度的圖像輸入，利用FPN能夠獲取多尺度信息，降低多層CNN網絡帶來的圖像信息損失。

2.2 特征金字塔網絡的優化

基于CNN的目標檢測一般采用VGG或ResNet作為特征金字塔（FPN）的預訓練模型，這些預訓練模型在ImageNet[20]上進行了預訓練。然而，這些預訓練網絡存在一些局限，模型最初設計用于圖像分類領域，而由于自然圖像和遙感圖像在圖像分辨率、目標占圖像比例等方面存在一定的差異性，所以不一定適用于目標檢測，可能會導致模型結果不理想。此外，預訓練模型網絡過深，在模型訓練過程中會帶來計算冗余等問題。

遙感圖像中的小目標在深層特征提取網絡中會丟失大部分的特征信息，特征圖中較大的采樣步幅也會導致小目標被忽略。相對而言，特征金字塔網絡采用淺層結構，能夠平衡特征位置信息與語義信息，并且淺層網絡的參數遠遠低于前述預訓練的網絡，網絡中下采樣運算較少，避免了微小對象像素映射區域過小的問題，提高了鑒別性能。利用這種輕量級架構，檢測網絡可以從頭開始訓練并進行多步循環訓練。由于其減少了大量冗余參數，在不降低小目標檢測精度的情況下，網絡能夠以較高的速率進行迭代訓練更新，進一步提高了檢測效率。

3 注意力機制

3.1 注意力機制原理

注意力機制（Attention Mechanism）[21]來源于人類視覺。人類視覺處理圖像信息時，通過目視掃描獲取全局圖像，有選擇性地關注獲取圖像的部分信息，忽略大部分多余信息，即人類視覺更關注于重點區域的細節特征，這種機制被稱為注意力機制。注意力機制是一種篩選有價值信息的手段，能夠提升信息處理效率和準確率，進行有效的信息資源分配。比如人類在閱讀報紙時往往先關注報紙標題，這就是注意力機制的體現。

注意力機制在計算機視覺領域應用廣泛，特別是在語義分割、圖像分類、目標檢測等領域。在深度學習方法中，注意力機制模塊主要用于從繁多復雜的視覺信息中篩選出所需的關鍵信息。在網絡的構建中，一般將注意力機制模塊插入卷積神經網絡的中間部分，對不同的視覺信息進行權重分配，作為一種過濾多余信息，抑制圖像噪聲的重要手段。

3.2 注意力機制在目標檢測領域的應用

注意力機制作為一種增加檢測模型廣度的手段，在目標檢測領域的使用越來越廣泛，主要包含以下幾個方面：

（1）空間注意力機制。一般采用Sigmoid函數進行特征圖計算，與原始特征圖像相加、相乘等。Google DeepMind提出STN[22]網絡（Spatial Transformer Network），將空間注意力機制作為一種學習輸入圖像變化量的預處理模塊來使用，一步完成目標仿射變換與定位。Capacity Networks[23]則采用了兩個子網絡，低性能子網絡（coarse model）與高性能子網絡（fine model），前者用于定位ROI區域，后者進行精細化處理，實驗證明其兩步法的結構具有更高的檢測精度。

（2）通道注意力機制。SENet作為2017屆ImageNet分類比賽的冠軍，是經典的基于通道注意力機制模型。SENet以圖像通道為基準進行權重分配，增強或者抑制不同的圖像通道，過濾不重要的通道信息。通道注意力機制在目標檢測領域應用廣泛，比如嵌入SENet的YOLO改進算法等等。

（3）混合注意力機制。將空間注意力機制與通道注意力機制并聯或串聯，同時發揮作用。CBAM[24] （Convolutional Block Attention Module）是混合注意力機制的代表性網絡，以一種串聯的結構將兩種注意力機制結合，并且在ImageNet-1K、MS COCO和VOC 2007等數據集上做了大量實驗，證明增加CBAM模塊后網絡性能得到明顯提升。

（4）其他注意力機制。包括與GAN[25]對抗網絡、RCNN網絡等結合的注意力機制。

由于遙感圖像本身存在大量噪聲（陰影遮擋、邊界模糊、周期性條紋、亮線以及斑點等），在獲取候選框區域的過程中可能受到圖像噪聲影響（背景噪聲、噪點等），使得訓練模型會造成大量誤檢，大大降低準確率和召回率。為了削弱非對象信息對模型訓練的影響，引入注意力機制能夠抑制遙感圖像中各種噪聲的影響。

4 傾斜框檢測

R2CNN[26]（Rotational Region CNN）算法作為一種傾斜框（inclined box）檢測的經典算法，最初提出用來解決旋轉文本的檢測。R2CNN算法主要是在Faster-RCNN算法的基礎上進行修改，設計了多種不同尺寸的目標檢測矩形框，并且利用傾斜的非極大抑制（NMS[27]）來優化目標檢測結果。R2CNN在檢測任意方向的場景文本上取得了良好的效果，其在ICDAR2015和ICDAR2013上取得了相當有競爭力的成果。

由于遙感圖像中小型目標具有方向不確定性，特別是停車場等目標密集的地區，如果采用一般矩形框，會產生大量重疊區域，降低檢測效果。所以在小型目標的檢測上采用R2CNN網絡進行傾斜框的預測有利于更好地確定目標的空間位置。相對于排列緊密的小目標，NMS算法可能會造成目標漏檢，原因是檢測區域的軸對齊框之間的IoU[28]數值一般很高，但傾斜NMS不會漏檢目標，傾斜NMS的IoU值較低，因此使用傾斜框檢測更加適用于遙感圖像上的小目標檢測。

具體來說，R2CNN在檢測框尺寸上進行了新的設計，采用了三種長寬不一致的尺寸應用于ROI Pooling階段，另外設計的兩種尺寸進行水平目標和豎直目標的檢測。R2CNN對提取到的ROI特征進行融合作為后續預測支路的輸入，其預測輸出包含3個支路，第一個支路對檢測框范圍內有無目標進行判斷。第二個支路是一般的水平框（axis-aligned box）預測，第三個支路是算法的核心，即傾斜框（inclined box）的預測，通過進行傾斜NMS非極大值抑制處理得到最終結果。

5 小目標檢測網絡

5.1 總體網絡結構

本文提出了一個新型的卷積神經網絡，以解決在較低分辨率遙感圖像中的小目標檢測問題。主要思路是將裁剪過的圖像輸入空間金字塔進行特征提取，獲取融合特征，隨后引入空間位置軟注意力機制模塊，進一步對融合特征進行處理，以抑制遙感圖像上的背景噪聲，再利用目標檢測子網絡，獲取檢測目標的類別和邊框位置。本節將介紹新型卷積神經網絡的具體網絡結構，并且給出空間位置軟注意力機制，ROI區域提取，及其Loss函數的詳細實現過程。

本文在Fast-RCNN算法的基礎上對特征提取部分以及網絡檢測部分進行了改進，以ResNet-101網絡為基礎結構，構造了一種新的特征金字塔網絡，以提升網絡對多尺度特征的表達能力。具體的網絡結構如圖1所示。首先輸入整張圖片進入特征金字塔進行特征提取，再利用RPN模塊提取檢測目標候選框（ROI）信息。之后通過多個卷積層和池化操作來提取特征圖對應的候選框區域（Region Proposal），再通過ROI Align模塊使生成的候選框映射產生固定大小的特征圖像，以統一特征向量維度，方便輸入后續的全連接層處理。最終每個特征向量被送到一系列全連接層，進入兩個輸出層進行類別和位置計算，即一個層利用Softmax函數對目標檢測類別（包括背景）進行類別概率估計，另一個層輸出每個對象的4個精細邊界框位置數值。

5.2 特征提取網絡

在特征提取網絡模塊中，進行了特征金字塔的構建，將ResNet-101作為特征提取的基礎訓練網絡。由于是基于小目標的目標檢測，深層的網絡結構會導致目標語義信息消失，為了減少網絡參數，以{C2，C3，C4}為基礎層級結構，采用C3、C4層進行特征融合，在C4層主要獲取語義信息，在C3層獲取更多位置信息，然后進行C3、C4層特征融合。輸入遙感圖片首先經過C2層卷積，然后通過C3、C4獲取特征圖像，C3層首先進行上采樣，然后通過一個插入模塊處理，擴展特征圖像的接收域并增強語義信息。插入模塊主要由1×1的卷積核與3×3卷積核組成，1×1的卷積核的主要作用是減少特征圖像通道數，完成通道降維，并不改變特征圖像尺寸。3×3卷積核對所有融合特征進行卷積，減少上采樣產生的混疊效應，并且3×3卷積核相比大尺寸卷積核具有更多的非線性函數，使得判決函數更加可靠。最后將的C3、C4特征圖像調整為統一尺寸，逐個像素進行特征圖像相加，獲取加入注意力機制的融合特征。

具體實驗中將高分二號遙感圖像進行裁剪，輸入圖像為800×800×3的RGB圖像，利用ResNet-101網絡提取出C2、C3、C4不同尺寸的特征圖像，然后將C3與C4的上采樣圖像進行特征融合，得到最終特征圖像F1。特征提取網絡中C2，C3，C4層具體結構如圖2所示。

5.3 背景噪聲抑制

空間軟注意力機制模塊作為特征提取網絡輸出特征圖像的后續輸入網絡，經過平均池化層和最大池化層，在通道維度上進行卷積運算生成顯著性圖，顯著性圖包含檢測區域為前景和背景的分數，能夠區分圖像前景與背景信息。通過在顯著性圖上進行Softmax函數計算，生成空間注意力特征圖，進一步抑制遙感圖像中的背景陰影或者其他噪聲并相對增強對象信息。由于顯著性圖具有連續性，因此并沒有完全去除非對象信息，這種方式有利于保留一定程度的上下文信息并提高魯棒性。

空間變換網絡（Spatial Transformer Network）模塊可作為新的層直接加入到原有的網絡結構中。模型的輸入為

U∈RH×W×C（1）

式中： H和W分別代表上一層特征圖像張量的高度和寬度;C代表圖像張量的通道數量，包括多個卷積核產生的圖像通道信息。之后將特征圖像輸入兩條通道，一條通道是特征圖像信息進入下一層RPN網絡，另一條通道是特征圖像直接進入空間注意力機制模塊。其中上層網絡通過Inception和C4層后進行參數學習，學到的參數能夠作為特征生成器的參數，通過Softmax算法，生成一個新的特征圖像。然后，與原始輸入特征圖像進行相加，最終獲取新的特征融合圖像。

V∈RHt×Wt×C（2）

空間注意力機制模塊中的核函數（kernel）表示如下：

K（x，z）=φ（x）×φ（z）（3）

通過空間位置軟注意力機制模塊獲取新的融合特征圖像，能夠有效抑制目標檢測中的背景噪聲。

5.4 損失函數

對每個ROI候選區域而言，損失函數由三部分

組成：分類損失、回歸損失、分割損失。多任務損失函數定義如下：

L=Lcls+Lbox+Lmask（4）

對于分類損失函數Lcls，采用對數似然損失（Log-likelihood Loss）方法進行計算，也被稱為交叉熵損失（Cross-Entropy Loss），輸出目標屬于每一個類別的概率值，公式如下：

Lcls（Y，P（Y|X））=-logP（Y|X）=

-1N

∑Ni=1∑Mj=1yijlog（pij）

（5）

式中： X，Y為輸入和輸出變量;N，M代表樣本數量、目標檢測類別數量;yij為一個取值為0或1的數，對輸入樣本是否為類別j進行判斷，代表GT標簽是否為此類別;pij為輸入樣本屬于類別j的概率。yij定義如下：

yij=0negative label

1positive label

（6）

對于回歸損失函數Lbox，為了減少計算量，使函數更具魯棒性，采用L1損失函數進行計算，L1損失函數也被稱為最小絕對值偏差（LAD），損失函數Lbox計算公式為

Lbox（w，w*）=smoothL1（w-w*）（7）

smoothL1（x）=0.5x2if |x|<1

|x|-0.5otherwise（8）

式中： w={tx，ty，tw，th}，以向量形式表示檢測框4個頂點的參數化坐標;w*代表與w對應的ground-truth的4個頂點坐標向量。

Lmask函數為平均二值交叉熵損失函數，二值的交叉熵函數定義如下：

對于每個檢測樣本而言，yi表示檢測目標的期望輸出值，y^l表示檢測目標的實際輸出值。mask模塊的ROI區域輸出維度為K×m2，其中m2代表ROI Align輸出的特征圖像尺寸，即檢測網絡中每一個類別都有一個尺寸為m2的二值化mask層，以區分前景與背景。而ROI Align相對于ROI Pooling具有更高的像素對齊精度，相對于ROI Pooling引入了雙線性插值算法，使ROI特征更好地映射到原始圖像。

在計算過程中，mask層通道數目與目標檢測類別相同，每個通道對應一個類別，對每一個類別都采用Sigmoid函數進行計算，判斷所屬類別概率，輸出每一個ROI區域對應的最終類別。在利用Lmask函數進行計算時，僅僅使用所屬類別分支的相對熵誤差進行Loss計算，以避免跨類別競爭，最終取ROI區域全部像素交叉熵結果的平均值為Lmask函數輸出結果。

6 實驗

6.1 數據集

實驗中，利用高分二號圖像進行裁剪制作目標檢測數據集。遙感影像中的高壓電塔作為一種大尺寸影像中的稀疏小目標，是研究小目標檢測的理想對象，因此，以高分二號影像中的高壓電塔作為檢測對象，裁剪出186張包含高壓電塔的800×800圖像，共包含343個高壓電塔目標，目前的像素尺寸范圍為13.44×13.76到93.36×101.64。實驗中利用留出法劃分數據，其中70%為訓練數據集，30%為測試數據集，再進行高壓電塔檢測模型訓練和測試實驗。

在數據集中，每個目標的四邊形邊框表示為（x1，y1），（x2，y2），（x3，y3），（x4，y4），其中（xi，yi）為注釋四邊形的頂點坐標，按順時針排序。由于VOC2007數據集以xml格式注釋，將裁剪后的圖片txt文件轉換為xml文件，利用VOC數據格式進行目標檢測實驗。

6.2 評估指標

目標檢測有三個評估指標。第一個是精確率（precision），用于測量每一類識別出來的圖片中True positives所占的比率。第二個是召回率（recall），用于測量每一類正確識別出來的目標個數與測試集中所有目標個數的比值。第三是平均精度（AP），簡單來說就是對PR曲線上的求均值。

精確率（precision）計算公式如下：

precision=tptp+fp=tpn（10）

式中： n代表True positives + False positives，也就是系統一共識別出來多少圖片。

[10] Chen Y T， Chen T S， Chen J. A LeNet Based Convolution Neural Network for Image Steganalysis on Multiclass Classification[J]. DEStech Transactions on Computer Science and Engineering， 2018， 332： 218-222.

[11] Aswathy P， Siddhartha， Mishra D. Deep GoogLeNet Features for Visual Object Tracking[C]∥ IEEE 13th International Conference on Industrial and Information Systems， 2018： 60-66.

[12] Masita K L， Hasan A N， Paul S. Pedestrian Detection Using R-CNN Object Detector[C]∥ IEEE Latin American Conference on Computational Intelligence， Gudalajara， Mexico， 2018： 1-6.

[13] Taniguchi K， Kuraguchi K， Konishi Y. Task Difficulty Makes ‘NoResponse Different From ‘Yes Response in Detection of Fragmented Object Contours[J]. Perception， 2018， 47（9）： 943-965.

[14] Akbas E， Eckstein M P. Object Detection Through Search with a Foveated Visual System[J]. PLoS Computational Biology， 2017， 13（10）： e1005743.

[15] Shao F M， Wang X Q， Meng F J， et al. Improved Faster R-CNN Traffic Sign Detection Based on a Second Region of Interest and Highly Possible Regions Proposal Network[J]. Sensors， 2019， 19（10）： 2288.

[16] Zhang D P， Shao Y H， Mei Y Y， et al. Using YOLO-Based Pedestrian Detection for Monitoring UAV[C]∥Tenth International Conference on Graphics and Image Processing， 2019： 110693Y.

[17] Li H T， Lin K Z， Bai J X， et al. Small Object Detection Algorithm Based on Feature Pyramid-Enhanced Fusion SSD[J]. Complexity， 2019： 7297960.

[18] Forder L， Taylor O， Mankin H， et al. Colour Terms Affect Detection of Colour and Colour-Associated Objects Suppressed from Visual Awareness[J]. PloS one， 2016， 11（3）： e0152212.

[19] Hua X， Wang X Q， Wang D， et al. Military Object Real-Time Detection Technology Combined with Visual Salience and Psycho-logy[J]. Electronics， 2018， 7（10）： 216.

[20] Holman A C， Girbǎ A E. The Match in Orientation Between Verbal Context and Object Accelerates Change Detection[J]. Psihologija， 2019， 52（1）： 93-105.

[21] Zhang Y， Chen Y M， Huang C， et al. Object Detection Network Based on Feature Fusion and Attention Mechanism[J]. Future Internet， 2019， 11（1）： 9.

[22] Lin C H， Yumer E， Wang O， et al. ST-GAN： Spatial Transformer Generative Adversarial Networks for Image Compositing[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018： 9455-9464.

[23] Guleryuz O G， Kozat U C. Joint Compression， Detection， and Routing in Capacity Contrained Wireless Sensor Networks[C]∥IEEE/SP 13th Workshop on Statistical Signal Processing， Bordeaux， France， 2005： 1026-1031.