





摘 要 由于實例級類別標注的缺失,弱監(jiān)督目標檢測網(wǎng)絡(luò)在精確預(yù)測目標位置時面臨顯著挑戰(zhàn)。當(dāng)前主流策略傾向于采用分階段學(xué)習(xí),然而這一過程可能導(dǎo)致特定對象類別陷入局部最優(yōu)。為克服此難題,提出一種新的端到端聯(lián)合訓(xùn)練框架,即構(gòu)建了一個集成多實例學(xué)習(xí)與邊界框回歸分支的統(tǒng)一網(wǎng)絡(luò)架構(gòu),兩者共享一個高效的主干網(wǎng)絡(luò)以促進協(xié)同。同時,引入注意力機制于主干,深化特征中的位置信息挖掘。通過在基準數(shù)據(jù)集PASCAL VOC 2007、2012上的廣泛實驗驗證,證實所提方法達到了較高的性能。
關(guān)鍵詞 弱監(jiān)督目標檢測 邊界框回歸 全監(jiān)督檢測 注意力機制
中圖分類號 TP18" "文獻標志碼 A" "文章編號 1000?鄄3932(2025)02019107
在計算機視覺的廣闊領(lǐng)域中,目標檢測占據(jù)著舉足輕重的地位,其核心目的在于識別并精確定位圖像內(nèi)所有實例的邊緣界限框,隨后針對每個邊界框內(nèi)的對象實施分類。近年來,得益于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]技術(shù)的革新與大規(guī)模標注數(shù)據(jù)集的涌現(xiàn),目標檢測技術(shù)取得了顯著進展。盡管如此,針對大規(guī)模數(shù)據(jù)集手動標注精確的對象邊界框仍然是一項既耗時又耗力的工作。鑒于此,學(xué)術(shù)界日益聚焦于弱監(jiān)督目標檢測(Weakly Supervised Object Detection,WSOD)這一方法,它僅需依賴圖像級別的標注進行訓(xùn)練,被視為一種具有實際應(yīng)用潛力的解決方案,近年來備受矚目。
在弱監(jiān)督目標檢測領(lǐng)域,大多數(shù)現(xiàn)有的方法遵循特定的訓(xùn)練流程,這一訓(xùn)練流程通常又涉及多實例學(xué)習(xí)(Multiple Instance Learning,MIL)。這些方法將WSOD問題轉(zhuǎn)化為實例分類問題,并在MIL框架內(nèi)訓(xùn)練分類器,以實現(xiàn)接近傳統(tǒng)目標檢測的性能。不過,這些基于MIL的方法主要集中于特征表示的學(xué)習(xí),特別是分類,而忽視了精確定位建議區(qū)域的重要性。因此,這些方法傾向于將實例定位在其區(qū)分性最強的部分,而非整個物體內(nèi)容。由于缺乏精確的邊界框標注,定位問題在WSOD領(lǐng)域仍然是一種挑戰(zhàn)。為了緩解這一問題,后續(xù)研究采取了策略性調(diào)整,即利用MIL生成的偽真值來二次訓(xùn)練一個完全監(jiān)督的Fast?鄄RCNN檢測器,以此作為弱監(jiān)督目標檢測的一種強化手段。這種方法旨在通過融合弱監(jiān)督學(xué)習(xí)與完全監(jiān)督學(xué)習(xí)的優(yōu)勢,提升WSOD系統(tǒng)在目標定位方面的性能。
筆者提出了一種端到端的聯(lián)合訓(xùn)練策略,將MIL檢測器與邊界框回歸器相結(jié)合。這種策略允許回歸器在MIL檢測器集中關(guān)注物體的小判別部分之前開始調(diào)整預(yù)測框。本研究在現(xiàn)有MIL檢測框架的基礎(chǔ)上進行了深入拓展,構(gòu)建了一個融合全新組件的框架。此框架集成了與Fast?鄄RCNN結(jié)構(gòu)相仿的分支,專門用于處理完全監(jiān)督下的區(qū)域提議(Region of Interest,RoI)分類任務(wù)和邊界框的精準回歸。這一設(shè)計旨在進一步提升檢測系統(tǒng)的綜合性能。文中的MIL檢測器通過分類得分從候選區(qū)域中選擇對象預(yù)測,這些預(yù)測通常由選擇性搜索窗口(SSW)方法生成。隨后,這些選定的建議被用作分類和回歸分支的偽真值(Ground Truth,GT)進行監(jiān)督。為了顯著優(yōu)化網(wǎng)絡(luò)在目標定位任務(wù)上的效能,在主網(wǎng)絡(luò)的核心架構(gòu)中融入了注意力導(dǎo)向模塊。此模塊融合了全局特征的考量,顯著強化了網(wǎng)絡(luò)模型在目標識別中的區(qū)分度與檢測精確性,從而提升了整體性能。
1 相關(guān)工作
1.1 弱監(jiān)督目標檢測
鑒于減少高質(zhì)量標注數(shù)據(jù)收集成本的需求日益凸顯,如何利用有限的數(shù)據(jù)資源高效完成原始任務(wù)成為了研究的熱點。在目標檢測領(lǐng)域內(nèi),一種新興且備受矚目的方法——弱監(jiān)督目標檢測近年來在學(xué)術(shù)界引起了廣泛關(guān)注[2~15]。與全監(jiān)督模型相比,它只需要圖像級的注釋,易于獲得。最近的許多方法將WSOD表述為多實例學(xué)習(xí)問題。這些方法將每個圖像中的目標建議集視為一個包,在MIL約束下訓(xùn)練弱監(jiān)督檢測器來接近目標檢測任務(wù)。弱監(jiān)督深度檢測網(wǎng)絡(luò)(Weakly Supervised Deep Detection Network,WSDDN)是弱監(jiān)督目標檢測最流行的基本結(jié)構(gòu)之一,它將MIL與CNN模型結(jié)合起來完成WSOD任務(wù)。首先,利用選擇性搜索生成數(shù)千個提案,并使用RoI來獲得它們的特征向量。然后,WSDDN將這些向量饋送到兩個分支中,并組合它們的輸出以生成提議級分類分數(shù)。最后,WSDDN對每個類別的所有提案的得分進行求和,得到圖像級得分,并利用交叉熵損失對整個模型進行訓(xùn)練。
1.2 注意力機制
在復(fù)雜的視覺場景中,人類視覺系統(tǒng)能夠迅速定位并聚焦于顯著區(qū)域,以更細致的方式識別,從而提取關(guān)鍵信息。這種選擇性認知過濾機制有效縮減了數(shù)據(jù)處理量,排除了次要信息的干擾,確保了計算資源聚焦于場景的核心要素。受此啟發(fā),研究人員引入了注意力機制,該機制模仿人類視覺系統(tǒng)的工作原理,通過動態(tài)調(diào)節(jié)輸入圖像特征的權(quán)重分配,使系統(tǒng)專注于圖像中的關(guān)鍵區(qū)域,同時抑制非關(guān)鍵信息,從而增強了計算機視覺系統(tǒng)在執(zhí)行諸如圖像分類、目標識別及語義解析等任務(wù)時的效能與精確性[16]。此機制的應(yīng)用已顯著證明了其在提升系統(tǒng)性能方面的優(yōu)勢。注意力機制的實現(xiàn)形式多樣,包括通道注意力、空間注意力和混合注意力,它們分別關(guān)注特征圖的不同通道、空間區(qū)域的特征強化以及兩者的綜合應(yīng)用。筆者采用了卷積塊注意力模塊(Convolutional Block Attention Module,CBAM),一種結(jié)合空間注意力和通道注意力的方法,旨在以對象類別為導(dǎo)向,進一步優(yōu)化視覺注意力的分配。
2 方法
筆者所設(shè)計的弱監(jiān)督目標檢測框架如圖1所示,其核心由三大組件構(gòu)成:多實例檢測分支、CBAM分支和回歸分支。針對輸入的圖像數(shù)據(jù),首先運用CBAM對CNN基礎(chǔ)網(wǎng)絡(luò)提取的特征圖進行強化處理,以增強關(guān)鍵信息的表達。隨后,這些增強后的特征圖被用于生成RoI區(qū)域,其特征隨即被分發(fā)給多實例檢測分支與回歸分支進行并行處理。值得強調(diào)的是,多實例檢測分支所預(yù)估的物體位置坐標與類別判定信息,被轉(zhuǎn)化為回歸分支的偽真實標簽,以此作為指引,促進了對物體位置進行更為細致的校準以及對類別歸屬進行更為精確的分類判斷。
2.1 多實例檢測分支
在本研究中,圖像級標簽僅用于指示對象類別存在與否。為了訓(xùn)練一個能夠進行標準對象檢測的回歸模型,需要探索實例級監(jiān)督信息,例如邊界框注釋。為此,引入了一個多實例學(xué)習(xí)分支,用以初始化偽GT注釋。在選擇實現(xiàn)這一功能的網(wǎng)絡(luò)架構(gòu)時,筆者傾向于采用基于WSDDN的OICR(Online Instance Classifier Refinement)模型,因其具有較高效的性能和支持端到端訓(xùn)練的特性。WSDNN框架,作為一種變體,采用了雙路徑設(shè)計:一條用于分類,另一條用于檢測任務(wù),這兩個數(shù)據(jù)流的聚合允許網(wǎng)絡(luò)進行實例級預(yù)測。
2.2 CBAM分支
注意力機制作為一種模擬人類視覺聚焦行為的先進方法,其核心在于強調(diào)關(guān)鍵特征而抑制次要特征。具體而言,CBAM作為一種高效且輕量的設(shè)計,被引入到卷積神經(jīng)網(wǎng)絡(luò)中,以顯著增強模型性能。該模塊在提升模型效能的同時,僅引入有限的參數(shù)增量與計算負擔(dān),這一特性極大地促進了CBAM在多樣化卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中的集成。
在特征圖的構(gòu)造中,不同維度承載了差異化的信息內(nèi)涵:通道維度聚焦于特征的高級抽象與表征,而空間維度則精細捕捉目標的定位細節(jié)。CBAM創(chuàng)新性地融合了通道注意力機制(Channel Attention Mechanism,CAM)與空間注意力機制(Spatial Attention Mechanism,SAM),通過順序化的級聯(lián)結(jié)構(gòu),首先在通道層面篩選關(guān)鍵特征,隨后在空間層面進一步提煉與強化這些特征圖,實現(xiàn)了對輸入數(shù)據(jù)的深度解析與高效利用。這種序列化的注意力生成過程充分利用了通道間的相互作用,最終生成富含信息的特征圖,這些特征圖能夠更好地指導(dǎo)網(wǎng)絡(luò)的后續(xù)處理階段。
2.3 回歸分支
3 實驗
3.1 實驗設(shè)置
采用兩個廣受認可的PASCAL VOC 2007、2012基準數(shù)據(jù)集[17]來評估筆者方法。在構(gòu)建網(wǎng)絡(luò)架構(gòu)的過程中,選擇由選擇性搜索算法[18]生成的候選目標區(qū)域,并將ImageNet[19]預(yù)訓(xùn)練的VGG16模型[20]作為網(wǎng)絡(luò)的核心框架。為了增強模型的泛化能力,在訓(xùn)練和測試階段均應(yīng)用了5種不同的圖像尺寸(480、576、688、864、1 200像素)以及水平翻轉(zhuǎn)技術(shù)。所有實驗均僅依賴圖像級別的標注信息進行訓(xùn)練,這一特點充分展示了筆者方法的高效性與實用性。采用平均精度(mAP)和正確定位(CorLoc)作為評價指標。當(dāng)真值框與預(yù)測框之間的交集大于0.5時,認為目標被成功檢測。
3.2 消融實驗
在PASCAL VOC 2007數(shù)據(jù)集上執(zhí)行了一系列消融實驗,旨在驗證所提網(wǎng)絡(luò)模型的有效性。作為基線模型,采用了在2.1節(jié)中詳細介紹的不包含CBAM和回歸分支的MIL檢測器,該基線模型與OICR方法相類似。
為了探索不同組件對性能的影響,構(gòu)建了兩個擴展模型:一是將CBAM集成到基線MIL檢測器中的模型,記為MIL+CBAM;二是進一步在MIL+CBAM的基礎(chǔ)上增加回歸分支的模型,即MIL+CBAM+REG。通過上述設(shè)置,能夠系統(tǒng)地分析各組成部分對最終檢測性能的具體貢獻。從表1中可以得出結(jié)論,CBAM確實能幫助檢測器更好地學(xué)習(xí)特征,檢測精度達到了52.0%,定位精度達到了68.9%。
3.3 對比試驗
將筆者所提MIL+CBAM+REG方法的結(jié)果與其他方法進行比較,實驗結(jié)果匯總在表2~4中。針對PASCAL VOC 2007數(shù)據(jù)集,采用了單一的VGG16模型進行測試,結(jié)果顯示,該方法的平均精度均值(mAP)與正確定位(CorLoc)分別達到了52.0%與68.9%,這一性能超越了所有其他僅采用單一模型的對比方法。進一步地,在PASCAL VOC 2012數(shù)據(jù)集上的評估中,MIL+CBAM+REG方法同樣展現(xiàn)出了卓越的性能,其mAP為47.1%,這一數(shù)值在所有單一模型策略中居于領(lǐng)先地位,同時,在CorLoc指標上也取得了69.6%的優(yōu)異表現(xiàn),再次印證了該方法的有效性。
4 結(jié)束語
筆者設(shè)計的方案以端到端的優(yōu)化策略為核心,實現(xiàn)了多實例學(xué)習(xí)檢測與回歸任務(wù)的協(xié)同優(yōu)化,從而增強了整體性能。此外,為了進一步提升特征學(xué)習(xí)的能力,融入了卷積塊注意力模塊,旨在捕獲更為豐富且判別性強的特征表示。通過在PASCAL VOC 2007、2012標準數(shù)據(jù)集上廣泛而深入的實驗驗證,所提方法有了實質(zhì)性的改進。
參 考 文 獻
[1]" "GIRSHICK R.Fast RCNN:Fast Regionbased Convol
utional Networks for object detection[C]//Internation Conference on Computer Vision(ICCV).Piscataway,NJ:IEEE,2015.
[2] BILEN H,VEDALDI A.Weakly supervised deep detection networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2016:2846-2854.
[3] TANG P,WANG X,BAI X,et al.Multiple instance detection network with online instance classifier refinement[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2017:2843-2851.
[4]" "TANG P,WANG X,BAI S,et al.PCL:Proposal cluster learning for weakly supervised object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(1):176-191.
[5]" "SHEN Y,JI R,WANG Y,et al.Cyclic guidance for weakly supervised joint detection and segmentation [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2019:697-707.
[6]" "LI X,KAN M,SHAN S,et al.Weakly supervised object detection with segmentation collaboration[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE,2019:9735-9744.
[7]" "WAN F,LIU C,KE W,et al.CMIL:Continuation mul
tiple instance learning for weakly supervised object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:2199-2208.
[8]" "CHEN Z,F(xiàn)U Z,JIANG R,et al.SLV:Spatial likelihood voting for weakly supervised object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2020:12995-13004.
[9]" "LIN C H,WANG S W,XU D Q,et al.Object instance mining for weakly supervised object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):11482-11489.
[10]" "XU Y Q,ZHOU C L,YU X,et al.Pyramidal multiple instance detection network with mask guided selfcorrection for weakly supervised object detection[J].IEEE Transactions on Image Processing:A Publication of the IEEE Signal Processing Society,2021,30(2):3029-3040.
[11]" "GAO W,WAN F,YUE J,et al.Discrepant multiple instance learning for weakly supervised object detection[J].Pattern Recognition,2022,122:108233.
[12]" "劉洲峰,王凱華,田博,等.基于自適應(yīng)實例優(yōu)化的弱監(jiān)督目標檢測算法[J].計算機工程與應(yīng)用,2023,59(17):132-142.
[13]nbsp; "宋鵬鵬,龔聲蓉,鐘珊,等.基于雙注意力擦除和注意力信息聚合的弱監(jiān)督目標檢測[J].計算機工程,2023,49(3):113-120;127.
[14]" "曹環(huán),陳曾平.基于多層次融合的弱監(jiān)督目標檢測網(wǎng)絡(luò)[J].模式識別與人工智能,2024,37(5):424-434.
[15]" JIE Z Q,WEI Y C,JIN X J,et al.Deep SelfTaught Learning for Weakly Supervised Object Localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2017:1377-1385.
[16]" "張衛(wèi)鋒.跨媒體數(shù)據(jù)語義分析技術(shù)研究[D].杭州:杭州電子科技大學(xué),2019.
[17]" "EVERINGHAM M,VAN GOOL L,WILLIAMS C K I,et al.The pascal visual object classes (VOC) challenge[J].International Journal of Computer Vision,2010,88:303-338.
[18]" "UIJLINGS J R R,VAN DE SANDE K E A,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104:154-171.
[19]" "DENG J, DONG W,SOCHER R, et al. Imagenet:A largescale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[20]" "SIMONYAN K,ZISSERMAN A.Very deep convolut
ional networks for largescale image recognition[J].CoRR,2014,abs/1409.1556.
(收稿日期:2024-09-02,修回日期:2025-02-11)