999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

協同級聯網絡和對抗網絡的目標檢測

2022-01-18 11:39:14李志欣陳圣嘉馬慧芳
計算機與生活 2022年1期
關鍵詞:特征檢測方法

李志欣,陳圣嘉,周 韜,馬慧芳

1.廣西師范大學 廣西多源信息挖掘與安全重點實驗室,廣西 桂林541004

2.西北師范大學 計算機科學與工程學院,蘭州730070

目標檢測是計算機視覺的基本問題之一,近年來由于深度學習的發展,這一問題在性能上取得了實質性的提高。眾所周知,普遍的目標檢測器是把檢測問題轉化為對候選框進行分類的問題。隨著卷積神經網絡(convolutional neural network,CNN)在圖像識別任務上的廣泛成功,越來越多基于CNN的目標檢測方法被提出。這些結構多樣的方法在一定程度上提高了目標檢測的準確性,其中許多方法實現了在多個基準數據集上的實時性能。然而,圖像通常包含遮擋目標和小目標,當前的目標檢測方法對這些目標并不敏感,因此不可避免地限制了目標檢測的性能。圖1 通過實例展示了這種檢測中存在的缺陷,檢測缺陷已用紅色箭頭標注。在圖1(a)中有幾個可見的結果:(1)從圖中左上角可以清楚看到,完整的公交車能準確檢測出來,而旁邊被遮擋的公交車沒有被檢測出;(2)圖中一個人正在騎自行車,由于自行車被人遮擋,基線檢測器只檢測出人,完全忽略掉自行車;(3)一個距離較遠穿著藍色衣服的人,由于目標很小也被完全忽略。結果(1)和(2)說明檢測器只關注目標的整體特征,而對不完整目標的局部特征不敏感,即對遮擋或變形目標的表征能力較弱,從而會影響檢測器的性能。如果能結合遮擋或變形目標的特征,這些檢測缺失就能避免。結果(3)說明檢測器缺乏對小尺度目標特征的捕獲能力,對小目標檢測性能較弱。在圖1(b)中,最右邊的女人被小孩遮擋住了頭部,而他們都是小尺度目標,檢測器沒能檢測出,說明檢測器沒有捕獲足夠檢測小尺度目標所需的細節特征。但是如果能通過多尺度深度特征融合來增強對小尺度目標特征的捕獲,再提高對檢測遮擋目標的敏感性,就可以在圖像中檢測更多的目標。

圖1 一些典型的Faster R-CNN 檢測缺陷Fig.1 Some typical detection defects of Faster R-CNN

綜上所述,對遮擋目標和小目標的檢測是提高目標檢測性能必須要解決的關鍵問題。一般來說,小目標檢測的相關問題實際上是檢測涉及不同大小尺度目標的問題,這使小目標的檢測變得更具挑戰性。當前的目標檢測方法通過生成不同尺度的特征表示來適應小目標檢測。大量研究表明,多尺度特征圖生成的特征表示能增強對小目標的檢測能力,尤其是大尺度特征圖。因此需要設計一種多尺度特征提取方法并將其集成到模型中,以提高檢測器對小目標的敏感性。而針對增強遮擋目標檢測敏感性的問題,通常是通過在大型數據集中學習覆蓋大量視覺特征的變化來解決。然而,在數據集中捕獲所有可能的遮擋樣本是不可能的,即使在非常大的數據集中,低概率的遮擋目標也不會輕易得到。并且,通過收集更大的數據集來解決這個問題是非常低效的。因此考慮嘗試使用對抗網絡來生成所需要的遮擋目標樣本。

在R-CNN(region-convolutional neural network)系列模型的基礎上,本文提出一種協同級聯網絡和對抗網絡的方法,稱為Collaborative R-CNN。該方法對Faster R-CNN架構進行改進構造級聯網絡,從多標簽數據中提取不同尺度目標的特征,并通過多尺度深度特征融合來增強檢測小目標的能力。同時,設計了一種多尺度池化操作,通過添加多尺度池化來調整網絡對不同大小目標的檢測能力。此外,訓練對抗空間失活網絡(adversarial spatial dropout network,ASDN)生成包含遮擋目標的訓練樣本,可以顯著影響模型的分類能力,提高模型對遮擋目標的魯棒性。在PASCAL VOC 數據集上的實驗結果表明,該方法相比其他幾種先進的方法更有效準確。本文主要的貢獻包括:

(1)對Faster R-CNN 進行改進,提出級聯網絡;

(2)提出多尺度RoIAlign(region of interest align)池化來調整對不同大小目標的檢測能力;

(3)改進ASDN 對抗網絡,生成帶有硬遮擋的樣本來提升模型對遮擋物體的識別能力;

(4)設計協同級聯網絡和對抗網絡的總體架構進行目標檢測。

1 相關工作

當前目標檢測模型通常基于兩種方法:(1)基于候選區域的方法將目標檢測任務劃分為兩個階段,也即兩階段目標檢測方法。在第一階段,將候選區域生成網絡(region proposal network,RPN)連接到一個CNN 上,從候選區域中提取特征,生成高質量的候選框;在第二階段,設計一個區域子網絡對候選框進行分類和邊界框回歸。(2)基于回歸的方法則將目標檢測任務視為一個階段,稱為一階段目標檢測方法,直接對目標進行分類和回歸。

隨著CNN 的興起,兩階段方法如R-CNN、Fast R-CNN、Faster R-CNN等成為目標檢測的主流。R-CNN 采用選擇性搜索方法提取候選區域,采用線性支持向量機作為候選區域的分類器。然而對于R-CNN 來說,生成候選區域的過程在計算上是緩慢的。為了提高候選區域生成過程的計算速度,Fast RCNN 提出了RoIPooling(region of interest pooling),得到固定大小的相應特征圖,方便進行后續操作,極大提高了處理速度。Faster R-CNN 用候選區域網絡代替選擇性搜索方法,進一步提高了候選區域生成的計算速度。同時,卷積層與框架其他部分共享參數,實現了整個網絡的端到端訓練。Faster R-CNN 在PASCAL VOC 2007 數據集上獲得了69.9%的性能,成為當時最具代表性的方法。一階段目標檢測方法如SSD(single shot multibox detector)、YOLO(you only look once)和RON(reverse connection with objectness prior networks)等也得到了很大發展。這些方法直接計算候選目標,不依賴于候選區域,因此計算速度比兩階段方法快。這些方法對顯著的、常規的目標具有較好的檢測性能,但對小目標和遮擋目標的識別準確率不高。此外,一些新的方法也使目標檢測的性能上了新的臺階。

當前目標檢測的效果與大規模數據集的應用密切相關。但對檢測遮擋目標問題,即使在大規模數據集中,一些罕見的遮擋樣本也并不容易找到。然而,通過添加罕見的遮擋目標樣本來擴充數據集的方法低效且成本昂貴。本文方法不是試圖收集罕見的遮擋目標樣本來擴充數據集,而是自主生成罕見的遮擋目標樣本。生成對抗網絡將生成問題視作判別器和生成器這兩個網絡的對抗和博弈:生成器從給定噪聲中生成合成數據,判別器分辨生成器的輸出和真實數據。前者試圖生成更接近真實的數據,相應地,后者試圖更完美地分辨真實數據與生成數據。兩個網絡在對抗中進步,在進步后繼續對抗,由生成對抗網絡得到的數據也就趨于完美,逼近真實數據,從而可以生成想得到的數據,如圖片、序列、視頻等。A-Fast-RCNN(adversary fast R-CNN)提出通過訓練對抗網絡的方法來生成低概率的對抗性樣本,以避免依賴大規模數據集來捕捉所有可能的視覺概念變化,得到了良好的性能。這也啟發了使用對抗網絡的方法來提高模型識別遮擋目標的能力。此外,還有其他方法提出使用級聯網絡來識別遮擋或不可見的關鍵點,采用1×1 卷積層來減少網絡參數的數量,從而加快計算速度。盡管這些方法使目標檢測有了很大進步,但是都不能在識別小目標和遮擋目標的同時,取得良好的性能和速度。

相比之下,本文方法結合了高效的網絡結構、深度特征融合、多尺度池化和更有效的訓練策略,充分利用CNN 進行目標檢測,能在不大幅度降低計算速度的前提下提取不同尺度特征。該方法與對抗網絡相結合,能夠適應多標簽圖像中目標特征的廣泛變化,泛化能力更好,魯棒性更強,從而增強了目標檢測的性能。

2 級聯網絡

2.1 改進的Faster R-CNN 模型

一般來說,CNN 中不同深度的特征對應著不同層次的語義信息。深層網絡提取的特征包含更多的高級語義信息,而淺層網絡提取的特征則包含更多的細節特征。隨著網絡深度的增加,特征圖變得越來越抽象,細節信息所占的比例越小,對小目標的識別效果就越差。目前幾乎所有圖像分類和目標檢測性能較好的方法都采用特征金字塔的方法來解決這一問題。然而,這種方法是計算密集型的,會嚴重影響模型的計算速度,因此需要通過修改網絡結構來提高對多尺度目標的識別能力。

VGG16 模型已證實增加網絡的深度能對網絡產生積極影響。VGG16 模型的卷積層通過采用多個小3×3 卷積核來增加網絡的深度,并同時減少參數的數量,從而減少了模型的計算復雜度。此外,與采用大卷積核的模型AlexNet相比,使用更小的卷積核有利于使用更多的濾波器,進而促進了更多激活函數的使用,進一步增強模型對更復雜的模式和概念的學習能力。然而,針對小目標和數據比較稀疏的情況下,小卷積核只有較小的感受野,只能提供較少的關于目標的尺寸、形狀和位置的信息。并且,在深度網絡的計算過程中,對特征圖填充的邊緣特征進行多次卷積,導致最后的特征圖損失了很多細節特征,從而增加了錯誤的概率。相比之下,較大的卷積核擁有更大的感受野可以捕獲更多的細節特征和空間上下文信息,有助于識別具有更多空間上下文關系的目標和具有不同尺度的目標。雖然增加卷積核數量對提高網絡針對復雜概念特征表示有積極作用,但是卷積核數量的增加會導致網絡參數數量增加。大卷積核擁有大的感受野,也意味著更多的參數,如果卷積層給網絡帶來大量參數,這無疑會限制系統性能。在級聯網絡中,卷積核的數量主要由參數的數量決定,因此在提高性能同時必須控制參數的數量,需要在網絡特征表示的質量和計算性能之間進行最優權衡。

為解決這一問題,設計了基于Faster R-CNN 模型的級聯網絡結構,如圖2 所示。該級聯網絡結構在原有的VGG16 模型基礎上增加了兩個淺層網絡,其中一層包含5 個5×5 卷積核,另一層包含3 個7×7卷積核。此外,在原始VGG16 模型基礎上增加了兩個淺層網絡,使得最終的輸出特征圖大小與VGG16模型相同,但分辨率更高,使得目標的特征信息更加詳細。由于高分辨率的特征圖具有更多的特征信息,使得特征深度融合后的級聯網絡包含更多的目標特征信息,即網絡既包含深度語義信息又包含目標的細節特征信息,而這些細節特征正是檢測小目標所最需要的。每個級聯網絡具有相同數量的池化層,確保用于融合的特征映射在大小上是一致的。拼接層用于拼接特征圖并保持融合后特征圖的大小不變,同時使得模型有更多的特征表示。此外,將批量歸一化添加到每個卷積層后,可以提高訓練速度和分類的效果。綜合級聯網絡和多尺度RoIAlign的改進模型稱為Improved R-CNN 模型。

圖2 Improved R-CNN 模型的網絡結構Fig.2 Network structure of Improved R-CNN model

如圖3 所示,將Faster R-CNN 預訓練模型的參數直接遷移到Improved R-CNN 模型中,可以減少訓練時間。將Faster R-CNN 的參數遷移到Improved RCNN,實際上是對Faster R-CNN 的骨干網絡VGG16模型的參數遷移。在預訓練模型的基礎上進行遷移學習,可以提高系統的精度。這個過程稱為微調,將改善最終結果。具體的,通過調用預訓練模型VGG16 的參數,把VGG16 的參數作為級聯網絡的部分固定參數,采用參數凍結不進行訓練,以加快網絡收斂速度。最后,訓練級聯網絡的活動參數,微調全連接層來實現遷移學習。由于在Improved R-CNN模型中使用多尺度RoIAlign 改變了全連接層第6 層FC6 層的維度,Faster R-CNN 預訓練的參數不對FC6層進行傳遞。參數傳遞之后,對Improved R-CNN 模型進行額外訓練,對參數進行微調。Zhang 等人研究了全連接層在視覺表示遷移中的作用。通過對預訓練模型進行微調,全連接層在實現目標域的高精度方面起著重要作用。全連接層在CNN 中起到將學到的具有高語義信息的特征表示映射到樣本標記空間的作用。不含全連接層的網絡微調后的結果不如含全連接層的網絡,全連接層可以保證網絡表示能力遷移的效果。因此,遷移的FC7 層可以看作保證遷移模型參數表示能力的一種方法。

圖3 Faster R-CNN 參數遷移到Improved R-CNNFig.3 Faster R-CNN parameters transferred to Improved R-CNN

2.2 多尺度RoIAlign

RoIPooling 操作是從RoI中提取小特征圖(例如,7×7 尺寸)的標準操作。首先,RoIPooling 將一個浮點數字的RoI 量化到特征圖的離散粒度,然后將這個量化的RoI 劃分為多個區間,這些區間本身也進行了量化,最后將每個區間的特征值進行聚合(通常通過最大池化操作)。例如,輸入圖像在VGG16 最后一層得到的特征圖的尺寸為/32,RoIPooling 進行第一次量化,使特征圖變為round(/32),round(·)函數表示取整。第二次量化是在池化過程中進行取整。因此,RoIPooling 操作還打破了像素到像素的平移同變性,并且像素間偏移產生的誤差會對小目標的識別能力造成極大的限制。這些量化使特征圖在池化過程中損失掉很多細節特征,并導致了RoI 和提取的特征之間的不匹配問題。雖然這些量化對檢測較大目標的魯棒性影響不大,但嚴重影響了檢測小目標需要達到的像素級精度目標框。因此,本文方法采用了Mask R-CNN中提出的池化操作RoIAlign,消除了RoIPooling 的苛刻的量化,并正確地將提取的特征與輸入對齊。RoIPooling 和RoIAlign 的操作過程如圖4 所示,圖中虛線網格表示特征圖,有色區域表示RoI,池化尺寸為(2×2),4 個點表示每個區間中的采樣點。RoIAlign 根據特征圖上鄰近的網格點,通過雙線性插值計算每個采樣點的值,沒有對RoI 或采樣點中涉及的任何坐標進行量化。RoIAlign 避免了RoI邊界或細分區間的任何量化(例如,它應用/32 而不是round(/32)),采用雙線性插值方法計算每個RoI中4 個規則采樣點的輸入特征值,并利用最大池化操作對特征圖進行聚合。

圖4 RoIPooling 和RoIAlign 的操作過程Fig.4 Operation process of RoIPooling and RoIAlign

Faster R-CNN 在生成特征圖的過程中容易丟失大量的目標局部信息,嚴重影響其小目標檢測的性能。例如,最初64×64 像素大小的目標在卷積層的最后一層只剩下2×2 像素大小。這一問題可通過在候選區域生成網絡中放大特征圖和使用較小尺度的錨(anchor)來解決。Faster R-CNN 框架對RPN 生成的每個RoI 的特征圖應用了池化大小為7×7 的RoIPooling 操作。然而,在使用單一尺度池化時,捕獲不同大小尺度的目標特征非常困難。本文提出的多尺度RoIAlign 相比單尺度RoIPooling 在捕獲不同大小尺度目標特征方法具有較大優勢。多尺度池化可以更好捕獲數據集中多尺度目標的特征信息,更符合客觀世界目標的實際尺度,以及為RPN 獲取復雜的候選區域特征提供更好的輔助作用。池化大小是依據目標在數據集中可能存在的尺度種類以及常規物體的高寬比來進行設置。設置高寬比大于1 的池化大小可隱式地捕獲特征圖中垂直的空間特征信息,高寬比小于1 的池化大小可隱式地捕獲水平的空間特征信息。通過實驗驗證,發現設置池化大小為11×3、3×11 和11×11 模型性能達到最佳。本文方法通過應用11×3 和3×11 這兩種尺度的池化來解決捕獲不同尺度的目標特征困難的問題。11×3 大小的池化旨在捕獲更多的水平特征,即有助于檢測寬度遠遠大于高度的目標。相反,3×11 大小的池化可以捕獲更多的垂直特征,即有助于檢測高度遠遠大于寬度的目標。此外,還增加了一個11×11 大小的池化,以增強所提出模型檢測小尺度目標的魯棒性。

提出的多尺度RoIAlign 操作可以在尺度多變目標的情況下提取特征,從而提高目標檢測的精度。此外,還采用了更小尺度的錨來增強檢測小目標的能力。Faster R-CNN 的RPN 用特征圖進行預測,錨為3種尺度(128,256,512)和3種比例(1∶1,1∶2,2∶1),即特征圖上每個位置設置9 種參考錨,這些大約能覆蓋邊長70~768尺度的目標。但對于更小的目標,現有尺度的錨無法準確定位,雖然極小的目標在PASCAL VOC 數據集中的占比較少,但這也不可避免地限制了模型的性能。在大型數據集中,極小的目標也有較多的數量。因此,本文方法增加了更小尺度的錨來適應小尺度目標,使得每個錨點產生12 種候選區域,覆蓋了更多小尺度的目標。在原有錨的尺度(128,256,512)基礎上增加了更小尺度的錨,使提出的模型使用了(64,128,256,512)的錨尺度,每種尺度3 種比例(1∶1,1∶2,2∶1),在RPN 中每個錨點產生12 個候選區域,用來適應小尺度目標。

2.3 特征過濾

特征過濾的整個過程如圖5 所示。由于使用多尺度RoIAlign 操作導致后續的全連接層獲得了更大的維度,必然增加了目標檢測相關計算的時間消耗。為此,Improved R-CNN 模型也使用卷積層和池化層來減少全連接層的參數冗余。

圖5 特征過濾結構Fig.5 Feature filtering structure

眾所周知,在多尺度RoIAlign 中得到的不同維度的特征不可能直接拼接。然而,正如R2CNN中使用的方法,可以通過過濾層來將池化得到的特征圖(即多維矩陣)轉化為一維向量。本文在使用過濾層之前,通過使用卷積核大小為1×1、步長大小為1 的卷積層來降低模型參數的數量,從而避免了在使用過濾層之前的參數冗余。使用1×1 卷積核的卷積操作能起到降維的作用,降維是指圖像通道的數量(厚度)降低,而圖像的寬度和高度沒有改變。接下來分別減少了4 種池化得到的特征圖維度,7×7 尺寸的池化得到的特征圖維度降低到512,11×11 尺寸的池化得到的特征圖維度降低到128,3×11 和11×3 池化的特征圖維度降低到256。然后利用過濾層將匯聚的特征圖轉化為4 個一維向量,再利用拼接層將4 個向量進行拼接,最后把拼接后的向量傳遞到全連接層。

3 對抗網絡

為訓練對各種情況(如遮擋、變形目標)都具有很高魯棒性的目標檢測器,需要多樣化的樣本。但即使在大規模數據集中,也不可能覆蓋所有潛在的含有遮擋和變形目標的樣本。因此,這里采用了一種替代方法,不是依賴于數據集或篩選數據來尋找識別困難的樣本,而是積極地生成目標檢測器難以識別的樣本。

首先對一個目標檢測器網絡()和對抗網絡()的損失函數進行分析比較,其中是輸入的一組特征矩陣,采用F()和F()來表示類別和預測的邊界框位置輸出。因此,()的損失函數E可以定義如下:

其中,和分別表示的真實類別和邊界框位置。第一項是Softmax 損失,第二項是基于F()和的損失,即邊界框的損失。對抗網絡的目的是學習如何預測那些()無法準確分類的。因此,()為給定的生成新的對抗示例,然后將其添加到訓練樣本中。對抗網絡()的損失函數定義如下:

對于容易被()分類的()生成的例子,會得到一個較低的E損失值,但會得到一個較高的E損失值。相反,對于()生成的例子,如果()很難對()生成的例子進行分類,則會獲得較高的E值和較低的E值,因此這兩個網絡的任務完全相反。

3.1 ASDN

ASDN 用于對前景目標的深度特征進行遮擋。在標準的Faster R-CNN 中,可以在RoIPooing 層之后獲得每個前景候選目標的卷積特征,因此可以使用這些基于區域的特征作為對抗網絡的輸入。給定目標的特征,ASDN 將生成一個掩膜,指示特征的哪些部分要失活,使檢測器無法識別該目標。

本文將分級訓練應用于ASDN,該訓練方法已經在以前的工作中得到了應用。首先在一個多標簽圖像數據集上對ASDN 進行預訓練,以獲得適合ASDN 與Improved R-CNN 對聯合訓練時使用的數據集的初步感知。然后,通過修正所有網絡層來訓練ASDN,其框架如圖6 所示。

圖6 與Improved R-CNN 相結合的ASDN 框架Fig.6 Framework of ASDN combined with Improved R-CNN

ASDN 用于生成難以分類的包含遮擋目標的訓練樣本。ASDN 在卷積層、多尺度RoIAlign 池化層和全連接層上的結構與Improved R-CNN 框架相同。將RoIAlign 池化層之后的每個特征圖的卷積特征作為ASDN 的輸入。給定×大小的特征圖,ASDN通過賦值0 來生成一個掩膜,代表需要遮擋的特征映射部分,這將使Improved R-CNN 獲得更高的E損失值,引入更難分類的被遮擋目標的特征。這是通過應用一個/3×/3 滑動窗口來實現的,該滑動窗口刪除所有通道中遮擋特征對應位置的值,從而生成一組新的特征向量。將以這種方式得到的所有新特征向量都傳遞到Softmax 損失層,計算損失函數,并選擇損失值最大的特征向量。然后,在特征圖中創建一個單一的×掩膜,其中央位置像素為1,其他像素為0。窗口滑動是將窗口映射回圖像通過篩選來選擇硬遮擋樣本,并把其作為訓練ASDN 的真實樣本,如圖7(a)所示。這樣,ASDN 為個特征圖生成空間掩膜,得到個使目標檢測器損失值很大的訓練樣本。ASDN 的訓練利用下面的二元交叉熵損失函數:

圖7 ASDN 訓練中選擇和生成樣本的實例Fig.7 Instances of selecting and generating samples in ASDN training

其中,對抗網絡表示為(),它得到在圖像上計算出的特征,并生成一個新的對抗樣本。為個正樣本候選區域生成空間掩膜,并為對抗失活網絡獲得對訓練樣本{(,),(,),…,(X,M}。A(X表示ASDN 給定的輸入特征圖X在位置(,)處的輸出。M表示掩膜第行第列的值。如果M=1,則刪除特征圖對應空間位置中所有通道的值。

ASDN 使用重要性抽樣法來選擇熱力圖中1/3 的像素,并把這些像素賦值為1,其余的2/3 像素賦值為0。ASDN 網絡的輸出不是一個二值掩膜而是連續的熱力圖。因此,要生成二值掩膜,不是直接閾值化熱力圖,而是通過重要性抽樣法選取閾值來生成二值掩膜。在訓練過程中,抽樣過程結合了樣本的隨機性和多樣性。ASDN 網絡輸出的熱力圖,使對整張圖像越重要的像素熱力區域越突出,例如目標通常會成為圖像中最重要的像素熱力區域。因此,在使用重要性抽樣法來選擇圖像中重要的像素來生成遮擋掩膜的過程中需要控制閾值的大小。如果閾值過大,生成的二值掩膜會覆蓋一部分目標的非重要像素區域;如果閾值過小,目標的一些最重要的像素區域會覆蓋不完全。因此,本文通過實驗驗證和參考ASDN 網絡對重要性抽樣法閾值的設置,來確定閾值的選取。結果顯示當閾值選取1/3 時,得到的二值掩膜效果最好。

圖7(b)展示了ASDN 生成的遮擋掩膜實例,其中黑色區域表示被遮擋的部分,表示對分類最重要的像素。硬遮擋樣本的應用在ASDN 學習過程中產生高的損失值,可以識別出對分類來說最重要的目標的像素部分。在本例中,使用掩膜來遮擋這些部分的像素,使分類更加困難。

3.2 聯合訓練

在聯合模型中,ASDN 與Improved R-CNN 模型共享卷積層和池化層,但各自使用自己獨立的全連接層。當然,這兩個網絡的參數必須根據所面臨的任務進行獨立優化。為了訓練Improved R-CNN 模型,首先在正向傳播訓練階段使用預訓練的ASDN 生成掩膜,在池化層之后生成修改后的特征圖,然后將修改后的特征傳遞給Improved R-CNN 模型,計算損失并進行模型訓練。雖然修改了特征,但是它們的標簽沒有改變。通過這種方式,確保在訓練Improved R-CNN 模型時引入更困難的和更多樣化的樣本,并在對有遮擋的目標進行分類時獲得更高的魯棒性。對于ASDN 的訓練,使用采樣策略將熱力圖轉換為二值掩膜,使得分類損失的計算不可微,因此訓練過程中無法利用分類損失的梯度進行反向傳播。與AFast-RCNN 相同,只有硬示例掩膜被用作真實樣本來訓練對抗網絡,方法是使用與式(3)中描述的相同的損失來計算那些導致檢測器分類分數顯著下降的二值掩膜。

4 實驗

4.1 數據集和評估指標

實驗中使用的PASCAL VOC 2007 和PASCAL VOC 2012 數據集分別包含9 963 幅和22 531 幅圖像,并劃分為訓練集、驗證集和測試集。實驗把PASCAL VOC 2007 數據集劃分為5 011 幅圖像的訓練驗證集和4 952 幅圖像的測試集,把PASCAL VOC 2012 數據集劃分為11 540 幅圖像的訓練驗證集和10 991 幅圖像的測試集。以平均精度(average precision,AP)和平均精度均值(mean average precision,mAP)作為評價指標,符合PASCAL 挑戰賽規定。測試速度和模型收斂速度也是評估模型性能的重要指標,實驗將Collaborative R-CNN 的速度與幾種先進方法進行了比較,包括Faster R-CNN、A-Fast-RCNN、SSD和RON。所有實驗結果都在一臺配置了Intel Core i7 4.20 GHz時鐘頻率的處理器,GTX 1080 Ti GPU 和16 GB 內存的電腦上運行得到。

4.2 模型收斂和聯合模型訓練

本文首先通過PASCAL VOC 2007 訓練集將Collaborative R-CNN 參數初始化并訓練Faster R-CNN。為了適應Collaborative R-CNN 模型中全連接層FC6尺寸的變化,該層由0 均值高斯分布初始化,標準差為0.01,學習率設為0.01,基于0.9 的動量和0.000 5 的權重衰減值,并設置每20 個epoch 學習率降低至當前的10%,共60 個epoch。對于Faster R-CNN 模型和Collaborative R-CNN 模型的訓練包括一系列迭代,設置為60 個epoch,其中每個epoch 包含2 000 次迭代。mAP分數是在模型的迭代過程中計算得到的,訓練模型的mAP分數在40個epoch之前,70 000迭代次數之后開始收斂。在這70 000 迭代次數后,Collaborative R-CNN 模型的mAP 得分為77.5%,而Faster R-CNN訓練模型的mAP 得分為73.2%。這些結果表明,Collaborative R-CNN模型比Faster R-CNN模型具有更快的收斂速度。ASDN 經過12 000 次迭代的預訓練,然后聯合模型進行120 000 次迭代訓練。再次采用了變化的學習率,采用了前一部分使用的動量和權重衰減值,初始學習率為0.001,迭代60 000 后下降到0.000 1。

4.3 消融實驗

消融實驗的目的是評估不同尺度的錨和不同尺度池化等改進方法對訓練模型在PASCAL VOC 2007數據集上目標檢測性能的影響。實驗包括了Faster R-CNN 基線模型和改變了錨尺度的Faster R-CNN;級聯網絡是一個與Improved R-CNN 等效的網絡結構,但采用RoIPooling 操作,而Improved R-CNN 采用的是多尺度RoIAlign 操作;以及綜合所有方法的Collaborative R-CNN。雖然RoIPooling 也能捕捉到目標的不同尺度特征,但與RoIAlign 相比,其模型的準確率較低。RoIAlign 消除了對RoIPooling 的嚴格量化,因而能正確地將提取的特征與感興趣區域對齊。RoIPooling 的量化導致了感興趣區域和提取特征之間產生了不匹配問題。這些量化打破了像素到像素的平移同變性,同時會導致一些特征信息的丟失。雖然這不會對大目標的檢測精度產生較大影響,但對于小目標,量化問題會降低檢測準確率。

消融實驗結果如表1 所示。結果表明,本文增加了更小尺度錨使得性能得到了略微提高,也隱含地說明了本文方法能捕獲更小尺度的目標,提升了模型檢測小目標能力,使得最終的mAP 得到了提升。消融實驗是在PASCAL VOC 2007 數據集上進行的,測試集中極小目標數量較少,在這種情況下也能提升性能說明了本文方法的優越性,也表明了采用更小尺度錨的方法具有很大潛力。此外,更多尺度的錨也意味著更多的候選區域特征信息,為后續操作提供更有意義的目標信息,在整個網絡中起到了承上啟下的作用。采用4 個尺度(3×11,11×3,7×7,11×11)池化的級聯網絡比采用單尺度(7×7)的池化的Faster R-CNN 性能更好,也比采用單尺度(7×7)的池化和3 個尺寸(3×11,11×3,7×7)的池化的級聯網絡性能更好。首先,這些結果證明了所提出的多尺度RoIAlign 操作相對于標準RoIPooling 操作的優勢,因為多尺度RoIAlign 操作增強了提取多變尺度目標特征的能力。其次,這些結果表明,提出的級聯網絡對模型性能的增加有積極影響,并且級聯網絡可以捕獲更多尺度的特征信息,從而能夠檢測更多不同大小目標,即多尺度的目標。隨著網絡深度的增加,特征圖越來越抽象,一些特征信息在通過卷積和池化后逐漸被忽略,特別對于小目標將損失很多特征信息。并且較深的網絡產生的低分辨率特征圖不利于小目標的識別。而提出的級聯網絡結構深度融合多尺度特征信息,提供了小目標檢測所需要的更多的細節特征信息,從而增強了小目標檢測的性能。最后,這些結果證明了使用水平尺度(11×3)池化和垂直尺度(3×11)池化的優勢,說明添加11×11 尺度的池化可以提高級聯網絡的目標檢測性能,也證明了多尺度池化的有效性。表中FT(fine-tuning)表示微調,通過固定部分參數進行訓練,對提高模型性能也有很大貢獻。表中的結果清楚地表明,與Improved R-CNN 模型的結果相比,包含ASDN 的Collaborative R-CNN 增加了2.3 個百分點的性能,反映了ASDN 對抗網絡生成的遮擋樣本對性能提高有顯著影響。

表1 在PASCAL VOC 2007 數據集上的消融實驗結果Table 1 Results of ablation experiments on PASCAL VOC 2007 dataset

4.4 結果分析

表2 和表3 分別列出了在PASCAL VOC 2007 和PASCAL VOC 2012 數據集中Collaborative R-CNN 和各種先進方法獲得的各種圖像種類的AP 值和綜合的mAP 值。實驗結果表明,所提出方法的檢測性能明顯優于Faster R-CNN,且對鳥類(bird)和植物(plant)等小目標的檢測性能有了顯著提高。雖然在PASCAL VOC 2007 數據集上RON 方法得到的mAP值略大于提出的Collaborative R-CNN 方法,但也相當接近。以上實驗結果證明了本文方法的有效性。

表2 在PASCAL VOC 2007 數據集上的目標檢測實驗結果Table 2 Experimental results of object detection on PASCAL VOC 2007 dataset

表3 在PASCAL VOC 2012 數據集上的目標檢測實驗結果Table 3 Experimental results of object detection on PASCAL VOC 2012 dataset %

Collaborative R-CNN 在PASCAL VOC 2007 和PASCAL VOC 2012 數據集的目標檢測定性實驗結果如圖8 所示。這些例子定性地證明了Collaborative R-CNN 能夠檢測具有不同大小和寬高比的物體,并且能夠很好地定位它們的位置,特別是對于飛機、鳥類和人這樣的目標能夠準確檢測出來。實驗結果也證明了提出的方法對遮擋目標的魯棒性,例如圖像中的汽車、植物和人能夠準確檢測。圖9比較了Collaborative RCNN和Faster R-CNN在PASCAL VOC 2007和PASCAL VOC 2012 數據集上的一些目標檢測定性實驗結果。這些例子展示了兩種方法對小目標和被遮擋目標的檢測性能。在每對檢測結果中(頂部與底部),頂部是Faster R-CNN 的檢測結果,底部是Collaborative R-CNN 的檢測結果。

圖8 在PASCAL VOC 2007 和PASCAL VOC 2012 數據集上的實驗結果Fig.8 Experimental results on PASCAL VOC 2007 and PASCAL VOC 2012 datasets

圖9(a)中,被遮擋的公交車、自行車和人被Faster R-CNN 忽略了,而Collaborative R-CNN 正確地把這些模糊的目標進行了標注。圖9(b)中,最右邊的婦女懷里抱著一個小孩,并且小孩遮擋住了婦女上半部分身體,這既是小目標也是被遮擋目標。在這種情況下,Faster R-CNN 在圖像中這個位置沒有檢測出任何目標,而使用提出的方法將這個目標標注為一個人。這些檢測結果使Faster R-CNN 和所提出的方法之間形成鮮明對比。圖9(c)中,一把被遮擋的椅子被Faster R-CNN 忽略了,而提出的方法正確地將這個目標標注為椅子。這些例子說明了Collaborative R-CNN 與Faster R-CNN 相比,在檢測小目標和被遮擋的目標時具有明顯的優勢。

圖9 Faster R-CNN 和Collaborative R-CNN 的實驗結果Fig.9 Experimental results of Faster R-CNN and Collaborative R-CNN

最后,表4 展示了兩階段方法和一階段方法在PASCAL VOC 2012 數據集上的檢測性能和計算時間,比較方法包括Faster R-CNN 和Collaborative RCNN以及SSD和RON。在這個實驗中,獲取每個圖像目標檢測的時間,并平均所有的檢測時間(ms/image)。實驗結果表明,兩階段法的計算準確度較高,但計算速度較低。可以看到,Collaborative R-CNN 的計算速度低于Faster R-CNN,這是因為多尺度RoIAlign 操作比RoIPooling 操作要消耗更多的計算時間。由于兩者之間的計算時間差異較小,Collaborative R-CNN 仍然滿足實時目標檢測的要求。綜合來看,Collaborative R-CNN 與Faster R-CNN 相比,只略微降低了計算速度,但顯著提高了檢測性能。

表4 在PASCAL VOC 2012 數據集上的實驗結果Table 4 Experimental results on PASCAL VOC 2012 dataset

5 結束語

本文提出了Collaborative R-CNN,通過增強對小目標和遮擋目標的檢測能力提升目標檢測性能。利用級聯網絡和多尺度RoIAlign 操作深度融合了多尺度特征,并獲得了語義多尺度特征表示,使模型能適應不同尺寸和寬高比的目標,如人、車和飛機等,顯著提高了對小目標的檢測性能。將ASDN 與提出的級聯網絡相結合,生成能夠明顯提高模型分類能力的被遮擋訓練樣本,提高了模型對遮擋目標的魯棒性。在PASCAL VOC 2007 和PASCAL VOC 2012 數據集上將本文方法與各種先進方法進行了對比,實驗結果表明Collaborative R-CNN 與Faster R-CNN 相比具有更高的檢測準確率,并對小目標和遮擋目標的檢測性能顯著提升,但檢測速度降低不明顯。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产农村精品一级毛片视频| 日本免费新一区视频| 日韩欧美91| 五月丁香在线视频| 欧美成在线视频| 亚洲午夜综合网| 国产精品无码制服丝袜| 91原创视频在线| 国产精品30p| 国产微拍一区二区三区四区| 欧洲av毛片| 麻豆国产精品一二三在线观看| 亚洲美女一级毛片| 久一在线视频| 午夜视频日本| 黄色三级网站免费| 午夜视频日本| 国产乱子伦手机在线| 亚洲国产成人无码AV在线影院L| 亚洲娇小与黑人巨大交| 亚洲国产精品成人久久综合影院| 91av成人日本不卡三区| 3344在线观看无码| 国产精品人成在线播放| 亚洲一区网站| 国产欧美日韩资源在线观看 | 免费国产在线精品一区| 国产91精选在线观看| 麻豆a级片| 天天综合亚洲| 97视频在线精品国自产拍| 国产第一页屁屁影院| 毛片一区二区在线看| 国产成人无码综合亚洲日韩不卡| 日本五区在线不卡精品| 亚洲欧洲日韩国产综合在线二区| 免费又爽又刺激高潮网址 | 99在线观看精品视频| 久久久精品无码一区二区三区| 丁香五月婷婷激情基地| 精品福利一区二区免费视频| 一区二区理伦视频| 国产特一级毛片| 2019国产在线| 在线a视频免费观看| 真实国产乱子伦高清| 沈阳少妇高潮在线| 亚洲一级毛片免费看| 国产丝袜91| 国产午夜一级毛片| 欧美人人干| 欧美日本在线| 国产精品理论片| 麻豆精品视频在线原创| 91无码视频在线观看| 亚洲欧美一级一级a| 五月激情婷婷综合| 毛片免费在线视频| 免费看美女自慰的网站| 97在线国产视频| 99视频在线精品免费观看6| 最新国产午夜精品视频成人| 亚洲人成高清| 亚洲精品国产综合99久久夜夜嗨| 亚洲中文字幕23页在线| 奇米影视狠狠精品7777| 美女国产在线| 亚洲色精品国产一区二区三区| 欧美h在线观看| av大片在线无码免费| 最新国产你懂的在线网址| 幺女国产一级毛片| 亚洲综合色在线| 国产精品区视频中文字幕| 欧美日本中文| 久久精品免费看一| 欧美激情网址| 国产欧美在线观看精品一区污| 澳门av无码| 欧美一级在线看| 国产无套粉嫩白浆| 一级毛片在线播放|