999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的強分辨性零樣本目標檢測方法

2022-12-31 00:00:00宋雨李敏何玉杰茍瑤呂奕龍賀翥禎
計算機應用研究 2022年11期

摘 要:零樣本目標檢測是近年來用于對訓練中未見(unseen)類別目標進行分類和定位的一種技術。由此帶來了目標檢測中的新問題——目標視覺特征與其對應的類別語義信息映射關系不準確,未見類別目標與背景分辨性不強。提出的強分辨算法(adaptive channel with center distance Gaussian distribution loss,ACDG)使用特征圖通道自適應加權機制,能夠根據不同類別目標對特征圖通道自動賦予權值,加強關鍵特征圖的權重,抑制次要特征圖的信息,增強特征提取網絡的表征性,以建立更準確的視覺特征和語義特征之間映射關系。為了解決未見類別目標與背景分辨性不高的問題,提出中心距離高斯分布損失,約束預測邊界框中心點與真實值(groundtruth)中心點位置的距離,進而加快損失函數收斂。為了驗證所提算法的先進性,在MS COCO數據集上完成了大量實驗,召回率和平均精度分別高出原始方法5.9%和4.5%。

關鍵詞:零樣本目標檢測;通道自適應;高斯分布

中圖分類號:TP391 文獻標志碼:A

文章編號:1001-3695(2022)11-045-3475-06

doi:10.19734/j.issn.1001-3695.2022.03.0180

ACDG:adaptive channel weighted in zero-shot object detection with

center distance Gaussian loss

Song Yu1,2,Li Min2,He Yujie2,Gou Yao2,Lyu Yilong2,He Zhuzhen1,2

(1.College of Information amp; Communication,National University of Defense Technology,Wuhan 430030,China;2.College of Operational Support,Rocket Force University of Engineering,Xi’an 710025,China)

Abstract:There are two main problems in zero-shot object detection—the correspondence between the visual features of the object and its corresponding category semantic information is not accurate,and the discrimination between the unseen category object and the background is confused.The proposed ACDG algorithm adopted the adaptive weighting mechanism of feature map channels,which could automatically assign weights to feature map channels according to significance,to establish more accurate visual-semantic correspondence relations.In order to solve the problem of low discrimination between the unseen objects and the background,the method introduced the center distance Gaussian distribution loss to constrain the distance between the center point of the boundary frame and the groundtruth,thus speeding up the convergence of the loss function.In order to verify the superiority of the proposed algorithm,a large number of experiments were performed on MS COCO dataset,and the recall rate and average accuracy are 5.9% and 4.5% higher than the baseline,respectively.The proposed method has positive significance for improving the performance of zero-shot object detection.

Key words:zero-shot object detection;adaptive channel;Gaussian distribution

基金項目:國家自然科學基金資助項目

作者簡介:宋雨(1982-),男,陜西三原人,講師,博士研究生,主要研究方向為圖像處理、目標檢測;李敏(1971-),女(通信作者),陜西西安人,教授,博導,博士,主要研究方向為密碼、圖像處理(proflimin@163.com);何玉杰(1986-),男,陜西漢中人,講師,博士,主要研究方向為圖像處理、機器學習;茍瑤(1997-),男,陜西寶雞人,博士研究生,主要研究方向為深度學習、圖像處理;呂奕龍(1998-),男,江西吉安人,博士研究生,主要研究方向為目標檢測、深度學習;賀翥禎(1988-),男,陜西西安人,講師,博士研究生,主要研究方向為圖像處理、深度學習.

0 引言

目標檢測技術[1~9伴隨著深度神經網絡的發展有了長足進步,在檢測速率、檢測精度等性能方面有了顯著提高。但是,性能的提高主要依賴于大量完備標注信息的數據集,該類算法對數據集有嚴苛的要求,面對不同領域、不同任務標注大量準確實例級別信息的數據集是一項耗費時間和人力的工程。研究者們提出了一種零樣本目標檢測的深度學習模式,可以對訓練時的未知類別目標進行準確檢測,是一種將從已知數據學到的知識遷移到未知數據上,而且還在其中加入了多模態學習的思想。零樣本目標檢測的學習模式如圖1所示。

從圖1中可以看到,零樣本目標檢測的學習模式需要額外的目標類別語義信息(例如詞向量)作為關鍵媒介,在整個訓練過程中扮演重要角色。訓練中,首先確保原始數據與語義空間的語義信息(詞向量)建立映射關系,語義信息再映射至類別空間。測試階段,利用訓練好的模型能夠將原始數據映射至語義信息空間,從而順利預測目標信息。而零樣本目標檢測在目標檢測中由于提取目標視覺特征的表征性不強,或目標類別語義信息(詞向量)固有的噪聲,會影響目標視覺特征與其語義信息之間的映射關系;在測試中,未見類別目標與背景信息分辨性不強,因此零樣本目標檢測更需要增強前景/背景的敏感性。

要對類別作出準確判斷,必須確保目標提取到更有表征性的視覺特征,這樣能夠與其對應語義特征建立更準確的映射關系。而在目前的零樣本目標檢測中使用傳統的主干網絡(backbone)提取特征,其中每個卷積模塊輸出多通道的特征圖,而每個通道對下一層及最終的分類所產生的影響并不一致。一部分通道特征圖起到關鍵作用,而另一部分則是次要信息甚至會產生消極的影響。因此應當加強關鍵特征圖的影響,降低次要特征圖的作用。

在對零樣本目標檢測中的目標位置進行預測時,需要對預測的邊界框是前景或背景更加具備敏感性,增強未見類別和背景的分辨性。關于預測邊界框對應的損失函數常用L1、L2范數。由于這兩種損失函數不利于最終收斂,近年來smooth L1損失被廣泛用于線性回歸算法中。以上損失函數在預測邊界框的數值時認為數值之間相互獨立,而在判斷一個邊界框的質量時是由交并比(intersection over union,IoU)的值來決定優劣,因此越來越多的研究者利用IoU loss來作為回歸運算時的損失函數,但本文認為這樣在零樣本目標檢測中仍不能完全決定邊界框的優劣,增強未見目標/背景的分辨性。

為了解決以上問題,本文提出一種通道自適應中心距離高斯分布的零樣本目標檢測。該算法采用ResNet作為主干網絡,并對于每一個卷積塊不同尺度的特征圖進行通道注意力加權,確保模型能夠根據不同類別的目標特征圖自動對其特征圖通道進行賦權操作,發揮承載關鍵信息特征圖的優勢,抑制次要特征圖通道的作用。為了使預測前景的邊界框置信度更高,訓練階段提出一種新的損失函數,該損失函數在IoU損失基礎上結合中心距離高斯分布損失。其主要思想是預測的邊界框中心點和真實值中心點之間的距離對整體損失產生的影響符合高斯分布,即在IoU相同的條件下,兩點之間的距離越近,對整體損失就越有意義,而在遠離真實值中心點一定范圍后,距離上的差別帶來的影響對整體損失將越來越小。因此本文提出的損失函數更加符合邊界框預測的實際過程。經過加權的特征圖再完成向量化,與語義空間向量對齊,能夠更好地學習到視覺特征與語義特征之間的映射關系。采用新的損失函數,增強邊界框頂點之間的關聯性,加快損失函數穩定收斂,使得預測值更加準確。通過詳實的實驗,本文算法在零樣本目標檢測方面具備一定的先進性。

本文貢獻包括以下幾點:a)提出了一種新的提高零樣本目標檢測性能的算法,該算法促進了視覺特征與語義信息的映射關系,同時加快損失函數收斂,提高邊界框預測的準確性;b)提出卷積模塊輸出的通道特征圖采用自適應機制來分配權重,增強了重要通道特征,抑制次要信息的特征圖,促進了視覺特征信息表征能力,提高了視覺特征與語義特征之間的映射關系;c)提出了一種基于IoU的中心距離高斯分布損失函數,充分體現了預測邊界框中心與真實值中心之間的距離對整體損失帶來的影響,加速了損失函數收斂,優化了網絡模型;d)在相關數據集上做了大量實驗,實驗結果證明本文算法均優于目前經典算法,體現了本文算法的先進性。

1 相關工作

大量具有實例級別標注信息的數據集在實際應用中很難獲取,甚至需要模型檢測訓練時未見類別樣本目標。計算機視覺中的零樣本學習(zero-shot learning,ZSL)是指在訓練數據中不包含某些新類的圖像目標,但可以獲得這些類的自然語言描述或屬性向量等其他信息。如何利用已有的信息,將學習到的知識遷移到未知數據中,是近年來研究者們在零樣本目標檢測方面研究工作的熱點。

1.1 零樣本學習

零樣本學習中將學到的知識從源域遷移到目標域的中間媒介是額外的語義信息,在訓練中,如何學習到將源域中的視覺特征與語義空間中的特征信息對應關系,是零樣本學習的關鍵。文獻[10]定義一個語義輸出代碼分類器(SOC),它將包含目標類別標簽語義屬性的知識庫泛化到對新類別,對其完成分類。文獻[11]提出了一種新的基于學習語義信息的自動編解碼器(SAE),用于解決ZSL模型通常會遇到目標域轉移問題。文獻[12]設計目標函數來保持嵌入空間中目標類別與其語義信息(如屬性)的對應關系,從而將語義引入嵌入空間,增強未知類別與語義信息的對應關系。文獻[13]使用條件變分自編碼器,提出一種新方法可以從給定的屬性信息生成偽樣本,并將生成的偽樣本用于未知類別樣本分類。文獻[10~13]直接利用數據集提供的視覺特征和語義特征,采用不同的方法學習視覺特征與語義特征的對應關系。

文獻[14]提出了一種端到端的自監督領域感知生成網絡(SDGN),將自監督學習集成到無偏GZSL的特征生成模型中。提出的SDGN模型解決了現有方法存在的嚴重的bias問題,即目標域中不可見的實例往往被識別為源域中的可見類。文獻[15]提出了一個生成框架的GZSI,該模型建立在一個基于變分自動編碼器的體系結構上,由一個概率編碼器和一個概率條件解碼器組成,可以根據它們各自的類屬性生成已知或未知類中的新樣本。這些新樣本有助于提高基于GZSI預測分類精度。文獻[16]使用一個已知類和未知類的條件變分自編碼器(CVAE)生成超完備分布(OCD),對生成的OCD使用特定損失函數加強類別之間的可分離性,減少類內的分散程度。文獻[14~16]對數據集中樣本數據進一步挖掘,利用數據概率分布和數據流形的方法提取更加抽象的信息,建立視覺特征與語義特征之間的對應關系。

還有的研究者另辟蹊徑,利用更加新穎的方法建立模型,而且取得了很好的效果。文獻[17]認為目標周圍的上下文信息對檢測目標具有積極的影響,因此提出文本感知的ZSL算法,該方法以一種新的方式利用語義信息,對目標出現在給定上下文中的可能性進行建模,極大地改進了ZSL方法,并且對不平衡類具有魯棒性。文獻[18]提出了一個基于元學習的生成模型,不僅增強了ZSI/GZSI的泛化能力,并且提高了模型的分類精度。

1.2 零樣本目標檢測

零樣本學習在計算機視覺領域多用于目標分類,為了解決現實中出現的目標檢測問題,從2018年開始,基于零樣本目標檢測逐漸成為研究熱點。零樣本目標檢測的目的除了對目標完成分類,還需要進行定位。這就涉及到諸多新的問題,包括對目標的定位、背景和未見類別的分辨性等。文獻[19]首先提出了零樣本檢測(zero-shot detection,ZSD)問題,對視覺和語義領域信息之間的映射關系進行建模。利用元類的概念設計了一個的損失函數,實現了類邊界分離最大化和語義空間聚類簇間最大化的協同作用。該文獻開啟了零樣本目標檢測的先河,后期的大部分研究都是源于該篇文獻。

文獻[20]以YOLOv2為基礎網絡,將候選目標區域的視覺特征映射至詞向量空間,提高了未見目標的召回率。文獻[21]提出了一個端到端深度學習框架,該框架引入一個新的損失函數——polarity loss來增加類別之間的距離,處理類不平衡,并改進視覺特征和語義特征的映射關系,進一步改善零樣本目標檢測性能。文獻[22]使用線性投影方法將候選區的目標特征映射至詞向量,將視覺語義嵌入到ZSD中,并提出了固定背景向量法(fixed background class)和迭代潛在分配法(iterative latent assignments)兩種背景感知方法來提高目標檢測器性能。文獻[23]提出了一個新的深度學習框架,利用文本描述作為額外信息,并采用視覺單元和單詞級別注意力機制,改進視覺—語義特征之間的映射關系,提升目標檢測性能。文獻[24]使用級聯結構來微調視覺—語義特征之間的映射關系,并提出基于背景學習區域建議網絡學習針對背景的語義向量,增強目標與背景的辨別性,提高模型的識別能力。文獻[20~24]均是在視覺特征和語義特征的映射關系上展開研究,采用了不同的方法,包括改進視覺—語義空間的映射方向、改進損失函數、引入外部知識庫等方法。其中關于背景與未見類別目標的分辨性也是研究的熱點。

文獻[25]是一種關于零樣本的語義分割,但在目標檢測方面也取得了很好的性能。本文在檢測結構中融合了一種背景感知和背景特征信息同步機制,提高了未見類別目標檢測性能。文獻[26]利用一個IoU感知生成對抗網絡(IoUGAN),可以生成適當未見類別的目標特征偽樣本用于訓練網絡,最終增強模型的檢測性能。文獻[27]利用生成模型的方式提出了DELO算法,該方法能夠針對未見類別從語義信息中合成視覺特征。文獻[25~27]均是利用生成模型,采用不同方法生成為樣本的視覺特征,增強模型泛化能力,提高未見類別目標的檢測性能。

2 本文方法

visual-semantic特征映射關系的優劣可以直接影響對目標的識別性能。本文從視覺特征表征性角度,改進visual-semantic特征映射關系。在對真實值與未見目標特征的辨識性研究中,引入了文獻[19]的BA-RPN,同時加入了本文設計的中心距離高斯分布損失函數,增強了前景目標判別的正確性,進而提升了背景與未見目標特征的辨識性。

本文算法的網絡結構如圖2所示,分為主干網絡、BA-RPN和零樣本目標檢測器(zero-shot object detector)三部分。主干網絡用于提取圖像中目標視覺特征,為了能夠更好地學習到視覺特征與語義特征之間的映射關系,本文在提取目標視覺特征中對主干網絡各模塊之間和輸出的特征圖逐通道進行加權,增強關鍵特征的權重,抑制次要信息對目標視覺特征表征性的影響。背景感知區域提議網絡(background aware region proposal network,BA-RPN)將視覺語義學習過程引入到原RPN中,從圖像中學習出更合理的背景類詞向量。與文獻[24]類似,零樣本目標檢測器分為分類子模塊和定位子模塊兩個子模塊。在訓練期間,分類子模塊結合已見(seen)類別的語義信息(詞向量),學習到視覺特征和對應類別詞向量的映射關系。在測試過程中,該子模塊結合未見類別的語義信息(詞向量),并利用之前學到的視覺特征與詞向量映射關系對目標進行分類。定位子模塊對目標進行定位回歸計算。

下面對整體算法流程進行系統闡述。在零樣本目標檢測中,將數據集分為Cseen和Cunseen兩類。Cseen表示在訓練時使用的目標類別,并用于構建訓練集Dtrain;Cunseen表示在測試時使用的目標類別,并用于構建測試集Dtest,且Cseen∩Cunseen=?。Dtrain中包括m個類別的樣本xmi(表示第m類中的第i個樣本)及其對應的詞向量,Dtest中包括n個類別的樣本xni(表示第n 類中的第i個樣本)及其對應的詞向量。本文的目的是最終得到一個檢測器Det,表達式為

其中:X表示原始圖像數據;d表示原始數據空間的維度;Y表示圖像目標信息(分類、位置)。在零樣本目標檢測中常用的方法分為兩步進行,首先完成原始數據到視覺語義特征的映射V,表達式為

其中:G表示視覺語義特征;q表示G所在視覺語義特征空間的維度。并且此時q等于語義信息詞向量空間中的維度。接下來借助額外的詞向量完成目標視覺特征向量到目標信息的映射H,表達式為

本文將兩個階段的映射過程最終整合在一個深度神經網絡中完成,實現端到端的訓練過程。本文最終需要學習到參數θ,關于θ的訓練如式(4)所示。

式(4)表示利用樣本xsi和語義向量詞向量wi優化網絡參數θ。

最終目的是在測試中對于給定的未知目標圖像xni,能夠借助未知類別語義向量詞向量wn正確預測目標信息(類別與未知),如式(5)所示。

預測xni的信息。整體訓練流程如算法1所示。

算法1 整體訓練流程

輸入:圖像xmi∈Cseen及其類別對應的語義向量詞向量wm;圖像對應類別標簽y=[y1,…,yCT;位置信息真實值G={gr}Rr=1。

輸出:更新網絡參數。

將圖像xmi輸入主干網絡,通過通道加權機制,生成加權特征圖f;

將特征圖輸入BA-RPN,生成目標區域建議框,并生成背景特征向量vb

結合加權特征圖f與目標區域建議框生成目標區域的視覺特征向量;

將視覺特征向量與背景詞向量輸入至零樣本目標檢測器;

零樣本目標檢測器中的分類子模塊與定位子模塊根據整個損失函數更新網絡參數。

2.1 特征通道強表征性

傳統的主干網絡一般采用卷積神經網絡提取特征圖。雖然利用卷積核學習到了特征圖空間結構的關鍵特征,但是并未學習到通道間的結構特征,這樣不利于在目標視覺特征的充分表示。為了增強目標視覺特征表征性,需要提高關鍵信息對特征表示的貢獻,抑制次要信息表示。圖3展示了一幅普通斑馬圖像經過卷積神經網絡后各通道特征圖示例。可以看到,有一部分特征圖承載著較高價值的信息,而部分特征圖中的信息對目標視覺特征的表示幾乎沒有貢獻。因此為了增強視覺信息的表征性,本文提出使用逐通道加權的方法,提升目標視覺特征表征性。

注意力機制近年來發展迅速,應用于計算機視覺領域越來越廣泛。特別是谷歌團隊提出的Transformer模型之后,自注意力機制越來越得到很多研究者的青睞,但是Transformer模型結構較為復雜。在2018年CVPR收錄的論文中提出了SE-Net(squeeze-and-excitation network),隨后又出現了諸多變體。這些模型重點關注特征圖(通道)之間的相互關系,而且結構簡單,易用于其他卷積網絡。本文借鑒該模型的注意力機制思想,對主干網絡進行改進,使得改進后的網絡提取出更加有價值的特征圖。

通道注意力機制通過一定的方法獲取到每張特征圖重要性的差異,將神經網絡的計算資源更多地投入更重要的任務當中,并利用任務結果反向指導特征圖的權重更新,從而高效快速地完成相應任務。本文算法的特征提取網絡結構如圖4所示。在本文算法中,使用ResNet,并在每一個殘差模塊后引入SE-Net結構。對于任意給定的圖像經過殘差模塊后,生成一個大小為N×N×C的特征圖。該特征圖首先通過一個擠壓(squeeze)操作Fsq(·),在其空間維度N×N上聚合特征圖(全局池化)來生成一個1×1×C尺寸的特征圖——信道描述符。聚合之后是激勵操作Fex(·,W)。激勵操作采用幾種激勵函數組合的形式,以上述信道描述符作為輸入,并產生每個信道調制權值的集合。這些權值被應用于特征圖上,生成賦有權值的特征圖。輸出的逐通道加權的特征圖可以直接運用于后續模塊。

圖5展示的是零樣本目標檢測器的內部結構,更加詳細地描述了零樣本目標檢測的計算過程。經過加權的各通道特征圖得到了候選區域的視覺特征,在本文中使用了自編解碼器的方式得到視覺特征向量組(visual semantic feature)G ,由編碼器En生成的G經過解碼器De解碼得到重構視覺特征,使用LR損失修正En的參數最終生成高質量的G,其維數等于語義信息詞向量維數。在訓練中,將目標的G映射至向量空間,通過投影操作可以預測已見類別得分,如式(6)所示。

其中:σ(·)表示激活函數;p為已見類別目標預測得分。測試時,使用相同的方法,如式(7)所示。

其中:Wu表示未見類別的語義信息詞向量;p為未見類別目標預測得分。

圖6所示為BA-RPN模塊的內部結構細節,首先將通道自適應加權特征圖通過轉換器T將視覺特征變化為目標視覺語義特征,其中B代表批處理的數量,接下來使用包含背景詞向量vb的Wbf作為FC層的權值與目標語義特征進行計算得到前景/背景分類得分Sbf;在每次計算后都會更新一次FC的權值,同時將更新后的vb與Wu和Ws保持同步即時更新。因此得益于整個訓練,可以學到一個更加合理的背景詞向量vb。

2.2 構造損失函數

零樣本目標檢測不僅需要目標特征的強表征性,還需要同樣提高對目標位置的預測性能。在通過BA-RPN模塊之后,為了進一步加強目標與背景的判別性,本文提出了中心距離高斯分布損失。前期的零樣本目標檢測方法中對目標位置回歸運算多使用簡單的L1‖·‖和L2‖·‖?;蛘呤褂胹mooth L1來加速并穩定損失函數的收斂。

2.2.1 smooth L1 loss

其中:x表示兩個樣本點之間的距離;smooth L1的出現主要是為了解決L1‖·‖和L2‖·‖在求導數時不利于損失函數收斂的問題,如下:

上述三個損失函數式(8)~(10)對x的導數分別為

可以從公式中看出L1損失函數對x求導,隨著運算后期兩點之間距離x越來越小,但是其導數恒等于1,損失函數會在穩定值附近波動,不能繼續更好地收斂;L2損失函數對x求導,當處于運算初期,預測值與真實值之間的差距x還比較大,而導數也會較大,不利于訓練初期穩定損失函數。而smooth L1損失函數克服了這兩點缺陷,符合損失函數收斂趨勢。

2.2.2 IoU loss

smooth L1雖然解決了損失函數的收斂問題,但是該類損失函數均將邊界框四個坐標值獨立看待,并未當做整體處理。而判斷一個邊界框的優劣時卻是使用IoU值來確定。IoU即邊界框與真實值交集面積與兩者并集面積之比,因此有研究者提出使用IoU直接作為損失函數:

2.2.3 中心距離高斯分布損失函數

判定邊界框是否是一個合格的邊界框不僅需要考慮IoU的值,還需要考慮邊界框和真實值中心點之間的距離。而且中心點距離差距大于一定范圍后對損失的影響越來越小,因此本文提出了一種中心距離高斯分布損失函數:

其中:LR表示關于目標視覺特征與重構特征的差值的損失。

其中:O和R分別代表原始視覺特征的一個元素和重構視覺特征中的一個元素;F表示視覺特征元素的個數。

Lcenter表示中心點距離損失函數。

其中:d表示預測邊界框中心點位置與真實值中心點之間的位置。關于σ的取值將會在3.4節詳細說明。

3 實驗

3.1 實驗環境和數據集

本文實驗是基于Torch深度學習框架,使用Python實現。所有的實驗都在NVIDIA RTX和Intel Xeon Silver 4210R CUP (2.40 GHz)上運行。

MS COCO 2014數據集包括有82 783個訓練樣本、40 504驗證樣本以及40 775的測試樣本,另外有27萬的分割人像圖和88.6萬的分割物體圖。在零樣本目標檢測對數據集進行了重新梳理,這里棄用分割圖像,使用檢測樣本,并對數據集完成兩種seen/unseen劃分——48/17和65/15劃分模式。48/17模式表示在數據集中選取48個類別的樣本作為訓練集Str,17個類別的樣本作為測試集Ste,并且Str∩Ste=?;65/15模式表示在數據集中選取65個類別的樣本作為訓練集Str,15個類別的樣本作為測試集Ste,并且Str∩Ste=?。對于測試,采用mAP和CorLoc兩個指標評估模型。每個類別的AP是由該類的precision(準確率)和recall(召回率)決定,如式(18)(19)所示。

其中:TP代表正確檢測的樣本數;FP代表將負樣本錯檢為正樣本數;FN代表將正樣本檢測為負樣本數。AP如式(20)所示。

其中:r表示recall;P(r)表示對應r值時precision的取值;AP是指在(0,1)內precision關于recall的積分;mAP代表各類別AP的平均值。

3.2 消融實驗結果分析

為了驗證本文算法的有效性,對比了baseline、Ours-senet和Ours-senet-Gloss三種方法在數據集兩種劃分方式48/17與65/15下,三種不同IoU取值時,recall和mAP的實驗結果。如表1所示,baseline代表原始算法;Ours-senet表示本文算法在原始算法中結合逐通道加權機制;Ours-senet-Gloss表示在Ours-senet方法的基礎上結合中心距離高斯分布損失。表中黑體部分的實驗結果表示結果均優于原始方法,斜體部分數值表示實驗結果在同種數據集劃分方式下結果最佳。當數據集以48/17劃分模式進行實驗時,可以看到本文提出的通道重加權中心距離高斯分布檢測算法在六個指標中均取得了最好值,表明本文算法的先進性。Ours-senet方法大多數有五項指標高于原始算法,但是在IoU為0.6時召回率較低。說明當IoU為0.6時,將更多的正樣本判斷為負樣本,在加入Gloss的約束后,使正確判斷的邊界框增多,召回率出現了提升。當數據集以65/15劃分模式進行實驗時,可以看出本文算法在兩個指標上均高于原算法,當IoU為0.6時召回率增長幅度最大,為6.1%;當IoU為0.4時mAP增長幅度最大,為6.77%。

3.3 與其他經典算法結果比對

表2展示了本文算法與前期算法SB[22、DSES[22、TD[23、PL[21、GTNet[26、DELO[27 和BLC[24的實驗結果。可以看到對于48/17劃分模式,本文算法在recall和mAP兩個指標上均處于領先地位,分別超出了39.09%和11.62%。對于65/15劃分模式,相比于baseline、PL和BLC算法,本文算法在recall和mAP兩個指標上均處于領先地位,分別超出了39.09%和11.62%。

3.4 關鍵參數不同取值結果分析

為了驗證本文提出的中心點距離對平均精度影響,對標準差σ進行多次賦值實驗、訓練模型、驗證模型,σ-mAP對應關系實驗結果如圖7所示。

σ分別取值1、0.7、0.5、0.3、0.25和0.2,對應的mAP均不相同,可以看出當σ為0.25時mAP取最大值12.94%。σ取值較大時(1或者0.75)都對損失函數造成了影響,并沒有使訓練好的模型達到最佳,說明預測邊界框中心點和真實值中心點在一定范圍內其差值才對Gloss有積極的意義。當σ取值較小時(取值為0.2),此時的mAP仍未達到最大值,這是由于σ過小,當訓練剛開始時距離較大,中心距離高斯分布損失不能體現中心點距離對整個損失造成的影響,致使損失函數不能穩定收斂。

3.5 實驗定性結果

圖8展示了本文模型在MS COCO數據集上的若干測試結果,并與ZSI算法檢測結果進行了比對,從上到下分為四行,表示不同類別的未見目標檢測效果。從第一行可以看出本文算法能夠對不同尺度目標(滑板)進行檢測,而ZSI未能成功識別尺寸較大目標;從第二行可以看出ZSI算法未能完整檢測到目標,而本文算法與之相比有較好的檢測效果,并且能夠檢測到被遮擋的目標,雖然檢測邊界框未能覆蓋整個目標;第三、四行中ZSI算法均未能完整檢測目標位置,而且邊界框中心點與整個目標差距較大,但是本文算法能夠較為完整地檢測到目標;第四行邊界框雖不能完整檢測到目標,但與ZSI算法相比仍有較好的位置預測。通過定性展示目標檢測結果,從主觀角度可以觀察到本文模型的優越性。圖9展示了本文算法與PL和BLC算法檢測結果的對比。

圖9中的每一行針對一幅檢測圖像,每一列針對一種算法的檢測結果。從圖9中可以看出第一和四行的圖像中,背景對目標干擾比較大,PL和BLC算法都未能檢測到目標,而本文算法能夠檢測到圖像中的目標。第二與三行目標較為顯著,三種算法均對目標作出了預測,但是圖(a)(b)只對目標的局部顯著特征進行預測,未能對完整目標進行預測,本文算法相比PL和BLC算法都對目標有更完整的預測結果。

4 結束語

本文提出了一種新的通道加權中心距離高斯分布零樣本目標檢測。該網絡的主干網絡加強特征圖通道之間的結構特征,提高了目標特征的表征能力;在此基礎上提出了一種邊界框中心高斯分布損失函數,基于IoU損失函數,加入了關于預測邊界框與真實值中心距離的損失,這樣的損失更加符合邊界框選擇標準。本文通過大量實驗驗證了模型的合理性。關于零樣本目標檢測的研究已經受到越來越多的學者關注,但是其檢測性能還不能與傳統監督方法的檢測方法相比。所以在后期,目標的特征空間與語義空間的相似度如何更好地擬合,如何利用已有信息挖掘更加抽象的表示來泛化模型,仍是零樣本目標檢測進一步研究的方向。

參考文獻:

[1]Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:779-788.

[2]Redmon J,Farhadi A.YOLO9000:better,faster,stronger[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:7263-7271.

[3]Redmon J,Farhadi A.YOLOv3:an incremental improvement[EB/OL].(2018-04-08).https://arxiv.org/abs/1804.02767.

[4]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.

[5]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.2015:1440-1448.

[6]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].Advances in Neural Information Processing Systems,2015,39(6):1137-1149.

[7]王慧敏,霍冠英,周亞琴,等.基于偏振成像和顯著區域自補償的水下顯著目標檢測[J].計算機應用研究,2022,39(7):2210-2216.(Wang Huimin,Huo Guanying,Zhou Yaqin,et al.Underwater salient target detection based on polarization imaging and salient region self-compensation[J].Application Research of Computers,2022,39(7):2210-2216.)

[8]蘇超,王國中.基于改進OpenPose的學生行為識別研究[J].計算機應用研究,2021,38(10):3183-3188.(Su Chao,Wang Guozhong.Research on student behavior recognition based on improved OpenPose[J].Application Research of Computers,2021,38(10):3183-3188.)

[9]余龔斌,劉政怡,趙鵬.一種單幅圖像協同顯著性檢測方法[J].計算機應用研究,2020,37(S2):308-310.(Yu Gongbin,Liu Zhengyi,Zhao Peng.A single image collaborative saliency detection method[J].Application Research of Computers,2020,37(S2):308-310.)

[10]Palatucci M,Pomerleau D,Hinton G E,et al.Zero-shot learning with semantic output codes[C]//Proc of the 22nd International Conference on Neural Information Processing Systems.2009:1410-1418.

[11]Kodirov E,Xiang Tao,Gong Shaogang.Semantic autoencoder for zero-shot learning [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4447-4456.

[12]Biswas S,Annadani Y.Preserving semantic relations for zero-shot learning [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7603-7612.

[13]Mishra A,Reddy S K,Mittal A,et al.A generative model for zero shot learning using conditional variational autoencoders [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2018:2269-22698.

[14]Wu Jiamin,Zhang Tianzhu,Zha Z J,et al.Self-supervised domain-aware generative network for generalized zero-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12764-12773.

[15]Verma V K,Arora G,Mishra A,et al.Generalized zero-shot learning via synthesized examples[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4281-4289.

[16]Keshari R,Singh R,Vatsa M.Generalized zero-shot learning via over-complete distribution [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:13297-13305.

[17]Zablocki E,Bordes P,Soulier L,et al.Context-aware zero-shot lear-ning for object recognition[C]//Proc of the 36th International Confe-rence on Machine Learning.2019:7292-7303.

[18]Verma V K,Brahma D,Rai P.Meta-learning for generalized zero-shot learning[C]//Proc of AAAI Conference on Artificial Intelligence.2020:6062-6069.

[19]Rahman S,Khan S,Porikli F.Zero-shot object detection:learning to simultaneously recognize and localize novel concepts [C]//Proc of Asian Conference on Computer Vision.Berlin:Springer,2018:547-563.

[20]Zhu Pengkai,Wang Hanxiao,Saligrama V.Zero shot detection[J].IEEE Trans on Circuits and Systems for Video Technology,2019,30(4):998-1010.

[21]Rahman S,Khan S,Barnes N.Improved visual-semantic alignment for zero-shot object detection[C]//Proc of AAAI Conference on Artificial Intelligence.2020:11932-11939.

[22]Bansal A,Sikka K,Sharma G,et al.Zero-shot object detection[C]//Proc of European Conference on Computer Vision.2018:384-400.

[23]Li Zhihui,Yao Lina,Zhang Xiaoqin,et al.Zero-shot object detection with textual descriptions[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence.2019:677-791.

[24]Zheng Ye,Huang Ruoran,Han Chuanqi,et al.Background learnable cascade for zero-shot object detection[C]//Proc of Asian Conference on Computer Vision.Berlin:Springer,2020:107-123.

[25]Zheng Ye,Wu Jiahong,Qin Yongqiang,et al.Zero-shot instance segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:2593-2602.

[26]Zhao Shizhen,Gao Changxin,Shao Yuanjie,et al.GTNet:generative transfer network for zero-shot object detection[C]//Proc of AAAI Conference on Artificial Intelligence.2020:12967-12974.

[27]Zhu Pengkai,Wang Hanxiao,Saligrama V.Don’t even look once:synthesizing features for zero-shot detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:11693-11702.

主站蜘蛛池模板: 精品国产免费观看| 五月天综合婷婷| 国产在线一区视频| 日本欧美成人免费| 亚洲午夜天堂| www.精品视频| 国产精品污视频| 久久久久九九精品影院 | 日韩精品免费一线在线观看| 尤物午夜福利视频| 九九九九热精品视频| 99久久精品国产麻豆婷婷| 日韩午夜伦| 国产三级国产精品国产普男人 | 狠狠干综合| 国产欧美综合在线观看第七页| 欧美福利在线观看| 国产天天色| 国产一区二区精品福利| 丁香婷婷激情网| 国产精品人莉莉成在线播放| 精品夜恋影院亚洲欧洲| 国产精品亚洲一区二区三区在线观看| 一本大道香蕉久中文在线播放| 波多野结衣无码AV在线| 亚洲va在线观看| 久久久久久久蜜桃| 亚洲成人精品在线| 国产成人高清在线精品| 69综合网| 国产一区二区免费播放| 天天做天天爱夜夜爽毛片毛片| 免费欧美一级| 国产高清免费午夜在线视频| 色噜噜狠狠色综合网图区| 国产成人精品一区二区秒拍1o| 伦伦影院精品一区| 亚洲娇小与黑人巨大交| 亚洲精品视频免费看| 亚洲欧美一区二区三区蜜芽| 最新国产精品第1页| 欧美视频免费一区二区三区| 国产乱人视频免费观看| 人人91人人澡人人妻人人爽 | 国产亚洲高清视频| 五月天福利视频 | 激情国产精品一区| 四虎影视库国产精品一区| 欧美成人手机在线观看网址| 欧美日韩另类在线| 美美女高清毛片视频免费观看| 亚洲国产天堂久久综合226114| 亚洲视频四区| 国产黄色片在线看| a在线亚洲男人的天堂试看| 亚洲天堂区| 黄色网址手机国内免费在线观看| 在线观看91香蕉国产免费| 亚洲一区网站| 亚洲精品麻豆| 最新精品国偷自产在线| jizz在线观看| 日本草草视频在线观看| 国产精品视频第一专区| 亚洲乱码视频| 欧美精品在线视频观看| 久久大香伊蕉在人线观看热2| 国产精品福利社| 亚洲欧美日韩高清综合678| 欧美成人亚洲综合精品欧美激情| 亚洲天堂免费| 国产黑丝一区| 日韩小视频在线播放| 国产精品福利导航| 国产美女无遮挡免费视频| 亚洲第一成年免费网站| 日韩欧美国产另类| 91青草视频| 人妻丝袜无码视频| 国产成人精品男人的天堂| 在线va视频| 999在线免费视频|