999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于漸進對抗學習的弱監督目標定位

2021-07-28 12:36:58羅漢武李文震潘富城琚小明
計算機工程與應用 2021年14期
關鍵詞:語義分類監督

羅漢武,李文震,潘富城,琚小明

1.國網內蒙古東部電力有限公司,呼和浩特010010

2.華東師范大學 軟件工程學院,上海200062

目標定位是計算機視覺領域中的一個基本組成部分,它旨在確定圖片中感興趣目標的位置。伴隨著深度學習的爆炸式發展,目標定位任務已經取得了突破式的的進展。諸如Faster RCNN[1]、YOLO[2]、SSD[3]、CornerNet[4]等一系列算法利用深度卷積神經網絡結合滑動窗口和關鍵點的思想在定位精度和召回率上都取得了極大進步。然而,目前最先進的目標定位模型都需要大量精細的類別標簽和位置信息(如邊界框注釋和分割掩碼注釋)在全監督的條件下才能訓練。這些耗時耗力的精細標注在實際應用中往往很難獲取,而且標注缺失嚴重,同時還存在數據量短缺的問題。這些問題無疑成為了深度學習大規模應用的阻礙。為了解決這些問題,弱監督目標定位技術已經引起越來越多的研究者關注。

弱監督目標定位一直保持著相當的挑戰由于僅僅使用圖像級的標注。它與全監督學習的巨大鴻溝源于缺少位置注釋所造成的目標定位的隨機性。如何利用弱注釋的數據挖掘潛在的語義信息成為弱監督目標定位的重點所在。目前解決弱監督目標定位的最常見方法是將弱監督目標定位問題描述為多實例學習(Multiple Instances Learning,MIL)。MIL將每個訓練數據看作是一個“包”,將檢測目標看做“包”中的一個個實例,在訓練檢測器時迭代的挑選置信度最高的實例。在MIL中,大量的目標提案(Object proposal)的選取是通過一些傳統的算法,例如selective search[5]、edge boxes[6]等完成的。但是當面對大規模數據時,這些算法選擇會帶來大量訓練噪聲,造成MIL 學習困難,測試結果不理想。另一方面,MIL天然的非凸性質造成這類方法對于模型初始化極其敏感,并且在訓練中容易陷入局部最小值。為了解決這些問題,研究者們在更好的模型初始化方法[7]、優化策略[8]、經驗化正則[9]等方面均取得了一些成果。但是,在如何量化次優解以及有效減少定位隨機性等方面,現有方法仍然沒有完全解決。

最近,類激活映射(Class Activation Mappings,CAM)[10]方法從另一個全新視角描述了弱監督目標定位任務。這種方法直接利用了卷積網絡分類器學習到的具有辨別力的特征進行目標定位。它的關鍵思想是具有較高準確率的分類器應該觀察到了相應目標后才會做出相應的分類決策。換句話說,具有辨別力的特征來自于相應的目標區域。然而,這種方法本質的缺陷是分類器總是傾向于關注少部分最具辨別力的特征以此決定分類的結果,這種缺陷直接導致了定位圖總是僅僅覆蓋目標最具有辨別力的一小部分,從而導致了定位錯誤。為了覆蓋完整目標,對抗擦除技術(Adversarial Erase,AE)[11-15]已經被廣泛應用解決CAM的缺陷。這些技術之間的相似之處在于,它們防止模型僅依賴于最有區別的部分進行分類,而是鼓勵模型也學習較少有區別的部分,從而可以盡可能地定位更精確的目標邊界。

本文將重點放在以CAM 為代表的新興方法上,而不是MIL。多個研究已經表明,通過擦除最具辨別力的部分,對抗擦除技術可以有效捕捉完整的目標。然而,一些缺點也不能忽視,對抗擦除技術對計算資源消耗巨大且過度擦除容易忽略小目標。同時,無論是多實例學習還是對抗擦除學習,目前存在的方法總是直接利用大規模且有噪聲的數據集合中訓練對象檢測器。由于數據集包含許多噪聲,這直接導致獲取正確的定位結果極具挑戰性。無法忽視的是,目前的手工注釋仍然存在很多主觀的偏見,一個典型的例子就是一張圖片的標簽是魚,然而場景中包含人。這些主觀偏見同時也造成訓練的不穩定性。

為了解決上文提及的一些缺陷,本文提出了漸進對抗學習解決弱監督目標定位問題。基于漸進對抗學習,訓練數據首先依據學習協議將數據分為數個不同級別從而反映數據從簡單到復雜的程度,例如簡單背景到復雜背景,單個目標到多個目標等。然后基于多標簽分類網絡進行弱監督訓練。為了提升網絡的魯棒性,提出相應的對抗損失函數適應弱監督目標定位。為了實現定位完整目標,利用金字塔對抗擦除機制逐層處理多個不同尺度的特征。從而在最后的定位圖中定位完整的目標邊界。相較于同類型的對抗擦除學習方法,本文的對抗擦除學習將弱監督定位從單目標拓展到了多目標定位,與同類型方法相比,其網絡結構更加簡潔,消耗資源也相對較小。與其他具有代表性的弱監督定位方法相比,實驗結果充分表明了漸進對抗學習能夠在弱監督學習下完成精確的目標定位,性能相較最先進的算法具有競爭力。

1 相關工作

1.1 對抗擦除學習

最近提出了數個弱監督學習方法利用了對抗擦除學習發現完整的語義目標,以此定位精確的目標邊界。Singh 等人[12]提出HaS(Hide-and-Seek)策略用于將圖片分割為多個網格塊然后隨機擦除某個塊,從而迫使神經網絡可以關注目標的不同部分,實現了弱監督目標定位。但是直接快速地隨機選擇策略導致的隨機性無法有效擦除最具辨別力的特征。與此同時,Wei 等人[13]通過訓練一個額外的分類網絡實現了對抗擦除,通過將已經擦除部分辨別力特征的圖片訓練另一個分支網絡,然后將多個分支的定位圖融合從而定位完整的目標。這種方法的一個不可忽視的缺點就是必須花費更多的訓練時間和計算資源來訓練幾個獨立的網絡以獲得完整的目標區域。考慮到這些問題,Zhang等人[14]提出了一種新穎的對抗互補學習方法(Adversarial Complementary Learning,ACoL)以端到端的弱監督訓練了一個精確的目標定位網絡用于發現完整的語義目標。然而,這種方法仍然需要訓練額外的分類器。為了實現更有效的對抗擦除學習,Choe等人[15]又提出了ADL(Attention-based Dropout Layer)層,一種輕量級但功能強大的方法,該方法利用自我注意機制來擦除對象的最有區別的部分。充分考慮上述方法的優缺點,盡管對抗擦除學習可以幫助網絡不僅僅關注一部分語義目標,然而對抗擦除學習存在過度擦除丟失語義目標的現象,并且現有的對抗擦除方法往往只在一層特征圖上實現擦除,由于一層特征圖的信息有限,使用對抗擦除后往往很難挖掘完整的語義目標。受最近在特征金字塔研究[16-19]突破的啟發,對抗擦除可以不僅僅在同一層進行,而采用多層特征圖逐層擦除的方式,通過有序的在擦除后對于特征進行融合,既可以保證讓網絡不僅僅關注語義目標的一部分,也可以保證語義信息不會被過度擦除,因此可以挖掘更多的語義信息,實現更高精度的目標定位。因此本文提出金字塔對抗擦除機制,通過金字塔層次的對抗擦除方法,實現了擦除和融合兩個互補操作,既保證可以挖掘完整的語義目標也可以保證語義信息不會被過度丟失,實現了端到端的目標定位網絡,有效解決了上述方法的一些缺點。

1.2 漸進自步學習

受認知科學的啟發,Bengio等人[20]首次提出了課程學習(Curriculum Learning,CL)的概念。在CL中,通過從簡單到復雜逐漸將樣本納入訓練中來學習模型。為了更好的解釋性,Kumar 等人[21]將CL 原則表述為稱為自步學習(SPL)的簡明優化模型。最近,在計算機視覺領域已經提出了數個自步學習算法,包括視覺追蹤[22]、圖像搜索[23]、目標檢測[24-25]等。這些方法充分說明了通過將復雜問題分解為更簡單的問題可以在各種計算機視覺任務中獲得更好性能。本文的后續實驗也充分說明了自步學習對于弱監督的對象定位問題也是特別重要的。

2 基于自步對抗學習的弱監督目標定位

2.1 網絡架構

基于漸進對抗學習的弱監督目標定位網絡的架構如圖1所示,考慮到傳統的圖像分類問題總是假設每張圖片僅僅包含一個目標,這種假設導致使用圖像分類網絡僅在圖像級標簽訓練弱監督目標定位網絡存在天然的不適應性。為了緩解這種不適應性,本文將弱監督目標定位問題描述為多標簽分類問題。同時,考慮到現有的多標簽分類網絡總是將每個標簽的分布視為獨立的,這種策略對于多目標分類是不適用的,因為很多目標之間存在內在的上下文關系,例如騎自行車的人,人的空間位置是在自行車之上,這種上下文關系往往成為弱監督定位多目標很重要的因素,因此需要通過一些方式引入多目標的這種上下文關聯應用于目標定位。本文提出對抗標簽損失解決上述問題。對抗標簽損失本質上從正反兩個方面來進行建模,及網絡不僅要預測圖片包含什么,還要預測圖片不包含什么,通過包含與不包含關系的建模,可以巧妙地打破傳統多標簽分類網絡將各個標簽建模為單獨分布的缺陷,更好地適應多目標弱監督定位問題。

具體來說,假設數據集有K類目標以及N張訓練集圖片。本文將訓練集形式化定義為:?={(I(1),L(1)),(I(2),L(2)),…,(I(N),L(N))},這里I表示圖片數據,L表示相應的標簽。L=[l1,l2,…,lK]T形式化為K維向量。每個l用1或者0表示是否相應的目標是否在圖片中出現。本文提出的對抗多標簽損失如下。

如圖1所示,在最后的分類階段,首先添加了一個正常的全連接層(FC layer),對應的標簽為L=[l1,l2,…,lK]T,然后,添加了一個相反的對抗分支(Adversarial FC layer),對應一個對抗標簽,定義如式(1):

圖1 基于漸進對抗學習的弱監督定位框架

這里每個L顯示是否圖片包括相應的目標。同樣的是,每個La表示是否圖片不包含相應的目標。為了計算最后的損失,對于輸入的圖片I,前向計算獲取最后的兩個K維向量輸出P(I)以及Pa(I),兩個輸出均通過sigmoid 函數實現了概率化處理。P(I)為FC layer的輸出,表示每個目標出現的概率,Pa(I)為Adversarial FC layer的輸出,表示每個目標不會出現的概率。對于某一張輸入圖片,對于第i類的損失可以定義為式(2):

總損失通過對所有訓練樣例以及所有類別進行求和平均得到,如式(3)所示:

與可挑選的其他損失函數,例如二元邏輯回歸損失和多分類交叉熵損失等相比,本文提出的對抗多標簽分類損失通過引入對抗分支,其可以充分考慮到不同目標的上下文關系,因此本文的多標簽分類網絡可以更好地適應多目標定位任務,在實際訓練中可以避免大量的訓練噪聲使訓練更穩定。

2.2 金字塔對抗擦除機制

為了解決定位圖總是僅僅覆蓋目標的一部分,無法定位完整目標以及對抗擦除學習總是消耗太多計算資源的問題。受He等人提出的ResNet[26]以及FPN[16]啟發,深度卷積神經網絡通過多個網絡層計算了多層次的特征維度。從低維度到高緯度的語義信息天然構成了金字塔形狀。從感受野的角度,隨著神經網絡越來越深,其感受野也會越來越大,最后一層的感受野可以感受最具有辨別力的特征,這對于單純的圖形分類是有利的,然而遷移到目標定位問題,就會產生無法定位完整目標的問題。多個研究已經表明,通過特征融合可以有效提升多個不同計算機視覺任務。為了解決弱監督目標定位問題,本文提出金字塔對抗擦除機制,通過在不同尺度的網絡層進行對抗擦除并融合相應語義信息,從而鼓勵最后一層的特征圖可以感受不同感受野的語義信息,最后可以定位完整目標。

本文的網絡結構基于ResNet50,不同于以前提出的對抗擦除方法,本文逐步擦除{56×56,28×28,14×14,7×7}四個不同尺度的特征圖。考慮到Resnet 架構中,多個層會產生相同大小的特征圖,本文將這些層稱為AE step。如圖2 所示,金字塔對抗擦除機制作用于AE step{1,2,3,4}。對于每一個AE step,令表示AE step i的第一層,表示AE step i的最后一層。將的每個值歸一化到[0,1]的輸出定義為。那么在中,最具辨別力的部分可以定義為特征圖一系列像素點的值大于給定閾值δ的部分。通過將其像素值置為0,從而擦除中最具辨別力的部分。單純地擦除無法鼓勵網絡發現目標的不同部分,因此,本文使用跳遠連接(skip connection)對擦除前和擦除后的相同大小的層進行特征融合,令表示融合過的層,計算如式(4)所示。對和逐元素求最大值。

圖2 金字塔對抗擦除機制

在測試圖片階段,可以獲取最后一層的融合定位圖,將其調整和原始圖片一樣的大小。為了產生相應的預測回歸框用于定位,通過固定的閾值分割前景和背景。然后尋找覆蓋前景像素中最大連接區域的邊界框,這可以生成對應的回歸框。

2.3 自步學習協議

為了避免大規模數據級內在的大量噪聲影響訓練結果,本文提出了一個自步學習協議對訓練集的圖片進行了由簡單到復雜的排序。訓練數據集包括ILSVRC 2012[27]and Pascal VOC 2007[28],為了從難到易挑選訓練樣本。本文設計的排序協議通過衡量每張圖片視覺搜索的難度進行排序。

準確地說,本文采用了多種圖像屬性綜合排序一張圖片的視覺搜索難度。例如雜亂背景、規模和位置、類別類型、遮擋和其他類型的噪音。不失一般性。本文與文獻[29]采用了一致的評估標準。包括注釋的目標數、目標占整張圖片的比例、不同目標類的數量、目標的截斷、被遮擋目標的數量、已經被標注為檢測困難的目標數量。這些標準通過Kendall’s τ[30]相關系數進行了數字化。Kendall’s τ 是基于兩個變量之間不一致對的數量和一致對的數量之間的差異除以對總數而得出的序數數據的相關性度量。作為一種有效的措施,實際上可以對圖像難度進行良好的度量。更多的細節可以參閱文獻[29]。

值得注意的是,由于ILSVRC 2012 多用于圖像分類任務,因此僅僅包含一個目標,因此ILSVRC 2012與包含多目標的Pascall VOC 2007 使用自步學習協議進行單獨排序。首先訓練單目標的ILSVRC 2012,然后接著訓練多目標的Pascal VOC 2007,這種自步學習過程對于提升訓練穩定性是極為重要的。

3 實驗和結果分析

3.1 實驗設置

本文實驗的訓練和測試數據集是ILSVRC 2012和Pascal VOC2007 數據集,其中ILSVRC 2012 僅選取了與Pascal VOC數據集對應的20類目標。實驗評估指標根據數據集不同而有所不同。對于ILSVRC 2012測試集,本文采取Top1 誤差、Top5 誤差,具體表現為相應的預測第一類的和前五類的分類和定位誤差。對于Pascal VOC 2007數據集,本文采用了弱監督目標定位的通用評估指標CorLoc(Correct Localization,正確定位率)。其中CorLoc計算了測試圖片中預測回歸框與真實值大于等于0.5 IoU(Intersection over Union,交并比)的比例。最后,本文也可視化了部分Pascal VOC2007測試集的定位表現。

3.2 對比實驗分析

本文選取了多個先進的弱監督目標定位算法與本文的自步對抗學習算法進行了對比。在ILSVRC 2012數據集測試中,選取了c-MWP[31]、ACoL[14]、ADL[15]三種算法進行對比。在多目標的Pascal VOC2007數據集測試中,選取了LCL[32]、WSDDN[33]、TS2C[34]、C-WSL[35]進行了對比。為了逐步地比較不同組件對自步對抗學習的影響,本文使用了縮略詞表示自步對抗的每一步:

(l)PAE(Pyramid Adversarial Erase):使用金字塔對抗機制。

(2)AMCL(Adversarial Multi-label Classification Loss):使用多標簽對抗損失。

(3)SPL(Self-Paced Learning):使用自步學習協議。

表1顯示了自步對抗學習與上述三種算法在ILSVRC 2012數據集上的弱監督定位結果,用Top1誤差、Top5誤差表示,其數值越小表示結果越好。

表1 ILSVRC 2012對比實驗 %

正如表1 所示,隨著不同組件的應用,自步對抗學習的Top1、Top5 的位置誤差和分類誤差逐步減少。其中自步學習對于整體的提升有很大貢獻,因為自步學習保證了模型在強噪聲條件下可以平緩地學習挖掘語義目標,與其他三種算法對比,在最優配置下,在Top1 位置誤差上,比ADL 低2.5 個百分點,比ACoL 低5.3 個百分點,比c_MWP低23.6個百分點,體現了自步對抗學習在強噪聲和弱監督下可以實現更有效的目標定位,這得益于自步學習從簡單到復雜的學習,保證了模型學習參數是的穩定性。在Top5 位置誤差上,自步對抗學習仍然優于其他算法,體現了算法在預測多個類別的穩定性。同時,與其他算法在位置誤差和分類誤差的權衡不同,漸進對抗學習在穩步提升定位精度的同時也減少了分類的誤差。

漸進對抗學習在弱監督單目標定位上實現了相當的穩定性和精度。為了驗證算法在多目標定位的效果,本文在VOC 2007 數據集上進行的對比實驗如表2 所示,主要指標為CorLoc,檢測多張不同圖片的多個目標。本文實現了平均61.3%的CorLoc。特別在“bird”“person”兩類上實現了最先進的提升。本文的結果優于LCL、WSDDN、TS2C 三種算法,僅次于C-WSL 算法。但是值得注意的是C-WSL 還使用了其他監督信息用于訓練。C-WSL算法利用每類對象的數目作為監督從一組對象建議中識別正確的高得分對象框,而本文僅僅使用了圖像級別的監督信息。

如表1 和表2 所示,實驗也評估了漸進對抗學習不同組件的作用,從結果上來看,單純地使用PAE 的結果是比較差的,尤其在VOC2007 數據集上,僅僅達到了42.1%,遠低于其他對比的算法。這與訓練中的大量噪聲導致學習的模糊性是分不開的。強噪聲情況下,由于缺乏位置信息,盡管使用PAE 可以盡可能挖掘語義目標,但是由于存在多個語義目標,在網絡訓練時,語義目標挖掘仍然存在較大的隨機性,因為AMCL可以挖掘不同語義目標的關系,同時也能提升學習單一語義目標的效果。因此隨著AMCL的使用,兩個數據集上的評估結果都取得了比較明顯的提升。在VOC2007,CorLOC增加了7個百分點(42.1%到49.9%),SPL已經在其他視覺任務上是一種有效的學習策略,使用SPL 后,CorLoc 實現了巨大的提升。

表2 Pascal VOC 2007對比實驗(CorLoc) %

圖3用可視化的方式顯示了本文算法的定位效果,綠色邊框顯示了算法的定位框,紅色框顯示了真實定位框。可以看出漸進對抗學習可以定位精確的目標邊界,與真實邊框重合度較高。然而在數個類上的表現卻很難得到提升。例如“bottle”和“plant”兩個類的定位精度保持較低的水平。一個主要原因是這些類的大部分被遮擋和重疊,這導致目標定位上的不完整或語義挖掘的不連續,這些導致定位不準確或者只定位到部分,毫無疑問,這些問題導致了更多的進一步改進的空間。

圖3 弱監督目標定位效果圖

4 結束語

為了解決僅在圖像級標簽完成目標定位的問題,提出了一種基于漸進對抗學習的弱監督目標定位算法。算法引入自步學習緩解大規模數據的噪聲影響,同時提出多標簽對抗損失幫助多標簽分類網絡更好地適應弱監督多目標定位任務,最后為了更好地定位完整目標,提出金字塔對抗擦除機制以定位更準確的目標邊界。實驗結果表明該算法能有效提高在弱監督目標定位任務上的性能。然而,算法在密集目標的表現仍然較差,下一步將繼續研究設計改善密集目標和遮擋目標的弱監督目標定位,通過使用自定錨框,增加細化網絡提升密集目標的定位效果。

猜你喜歡
語義分類監督
分類算一算
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲大尺码专区影院| 国产乱人乱偷精品视频a人人澡| 91成人在线免费视频| 欧美人在线一区二区三区| 成人午夜天| 国产九九精品视频| 亚洲六月丁香六月婷婷蜜芽| 欧美天堂在线| 国产青榴视频| 国产一级在线观看www色| 亚洲欧美成人| 亚洲人成电影在线播放| 亚洲免费黄色网| 无码国产偷倩在线播放老年人 | 国产成人禁片在线观看| 乱系列中文字幕在线视频 | 国产国产人成免费视频77777| 尤物成AV人片在线观看| 久夜色精品国产噜噜| 在线观看无码av免费不卡网站| 国产成人调教在线视频| 国产精品分类视频分类一区| 久久精品aⅴ无码中文字幕| 日韩av资源在线| 奇米精品一区二区三区在线观看| 精品无码一区二区三区电影| 日韩精品毛片| 制服无码网站| 亚洲欧美h| 在线视频97| 欧美全免费aaaaaa特黄在线| 嫩草国产在线| 国产在线97| 亚洲色图在线观看| 久久久黄色片| 露脸真实国语乱在线观看| 91亚洲免费| 成人日韩视频| 波多野结衣AV无码久久一区| 亚洲va精品中文字幕| 亚洲开心婷婷中文字幕| 99久久精品久久久久久婷婷| 青青草原国产免费av观看| 黄片一区二区三区| 九九香蕉视频| 欧美日本在线观看| 亚洲丝袜第一页| 国产成人精品2021欧美日韩| 日本欧美午夜| 最近最新中文字幕在线第一页| 国产精品片在线观看手机版| 亚洲无码免费黄色网址| 亚洲人成网址| 日韩在线1| 亚洲黄色网站视频| 欧美人在线一区二区三区| 国产91丝袜| 美女被狂躁www在线观看| 91久久偷偷做嫩草影院精品| 久久99这里精品8国产| 免费国产一级 片内射老| 亚洲成aⅴ人片在线影院八| 91色国产在线| 国产精品偷伦在线观看| 97在线碰| 特级精品毛片免费观看| 精品福利视频网| 黄网站欧美内射| 精品亚洲国产成人AV| 亚洲日韩精品无码专区| 91外围女在线观看| 人与鲁专区| 国产无码网站在线观看| 久久久久青草线综合超碰| 日韩欧美视频第一区在线观看| 四虎精品黑人视频| 乱人伦中文视频在线观看免费| 五月天综合网亚洲综合天堂网| 亚洲欧美一区二区三区图片| 国内精品小视频在线| 奇米精品一区二区三区在线观看| 婷五月综合|