






摘 "要:現(xiàn)有的開放詞匯目標檢測算法在處理圖像和文本對應關系時容易丟掉多尺度信息,導致對小目標檢測的精度較低。針對這個問題,文中結合Channel Attention機制與特征金字塔網絡構建C-FPN模塊,提出C-Baron算法。在區(qū)域選擇階段,C-Baron采用區(qū)域打包對齊方法處理圖像與文本的對應關系。實驗表明:相對于基線模型,C-Baron在新類別和基礎類別上的識別精度分別提高了2%和6.3%。
關鍵詞:開放詞匯目標檢測;多尺度信息;多模態(tài)處理;圖片文本對齊;C-FPN模塊
中圖分類號: TP389.1 " " " " " " " " " " " " " 文獻標識碼:A 文章編號:1008-5483(2024)03-0077-04
Multi-scale Open Vocabulary Target Detection
Zhu Lan, Zhai Yahong, Xu Longyan, Wang Jie, Zhao Yifan, Ye Ziheng
(School of Electrical amp; Information Engineering, Hubei University of Automotive Technology, Shiyan 442002, China)
Abstract: Existing open vocabulary target detection algorithms tend to discard multi-scale information when dealing with image-text correspondence, resulting in lower accuracy in small target detection. To address this issue, a C-Baron algorithm was proposed by combining the channel attention mechanism with feature pyramid networks to construct the C-FPN module. In the region selection stage, C-Baron adopted a region packing alignment method to handle the image-text correspondence. The experimental results show that compared with the baseline model, C-Baron achieves an improved recognition accuracy of 2% for new categories and 6.3% for base categories.
Key words: open vocabulary target detection; multi-scale information; multi-modal processing; image-text alignment; C-FPN module
現(xiàn)有的目標檢測算法在特定領域如交通標志識別中[1]得到了廣泛的應用。然而,傳統(tǒng)目標檢測算法屬于閉集目標檢測,在訓練階段的識別目標類別是有限的,難以應對實際應用中大量的未知目標類別。閉集目標檢測是指模型在訓練和測試時的所有目標類別都是已知的,開集目標檢測是指模型在測試時可能會遇到訓練階段未知的新目標類別。近年來,開集目標檢測的研究逐漸受到關注,孫旭豪等人提出的環(huán)狀原型空間優(yōu)化的檢測器[2],謝斌紅等人提出的GARO-ORE[3]。開放詞匯目標檢測(open vocabulary object detection,OVD)是開集目標檢測中的子任務,旨在借助語言模型檢測在訓練中未涉及的目標類別。當前學界已存在多種開放目標檢測方法,如OVR-CNN[4]采用區(qū)域文本預訓練,ViLD[5]使用知識蒸餾,Detic[6]通過ImageNet數(shù)據(jù)集[7]平衡訓練,DetPro[8]采用提示建模,BARON[9]提出基于區(qū)域包的對齊方法。但這些方法過于側重圖像和文本的對應關系,忽略了圖片中的多尺度信息,影響了中小目標檢測的精度。針對以上問題,文中構建了C-FPN模塊,增強模型中多尺度特征的表達,并提出了C-Baron算法,通過采用區(qū)域打包對齊方式進行區(qū)域包裹文本框,實現(xiàn)中小目標與大目標的顯著拼接,提升開放詞匯目標檢測在中小目標方面的性能。
1 模型設計
1) Baron 圖1為不同的文本與圖片的對齊方式示意圖。圖1a展示了視覺語言模型(visual language models,VLM)的圖像文本對齊方式,即將整個圖片與整個句子進行匹配。圖1b展示了將每個單獨的選擇區(qū)域與來自權重凍結的VLM的特征進行對齊的過程。圖1c展示了區(qū)域打包的圖片文本對齊方法,即Baron。區(qū)域拼接所對應的詞語被映射至詞嵌入空間,生成對應的偽詞,然后發(fā)送到文本編碼器獲得1組區(qū)域的嵌入,與來自凍結的VLM的相應圖像特征對齊。該過程涉及2個關鍵步驟,一是如何確定需要打包的區(qū)域,二是如何準確描述這些被打包的區(qū)域。
2) 區(qū)域選擇 區(qū)域選擇要求區(qū)域包中的區(qū)域彼此接近且區(qū)域包中的區(qū)域應有相似的大小。Baron的區(qū)域選擇采用簡單的鄰域采樣策略,基于區(qū)域提議網絡預測的區(qū)域提議來形成區(qū)域包。為獲得豐富的區(qū)域包表示,模型對每個區(qū)域采集G組樣本,在每次采樣時,采樣概率會隨機變化。采樣概率計算公式為
[p1=pbminHWα,1, " p2=pbminWHα,1] (1)
式中:[p1]為左右候選者被采樣的概率;[p2]為上下候選者被采樣的概率;H為區(qū)域建議框的高度;W為區(qū)域建議框的寬度;[pb]為基本概率;[α]為縮放因子,默認取3.0。
3) 文本生成 Baron先對候選框特征進行打包,使用線性層將打包后的候選框特征映射到詞嵌入空間,生成對應偽詞。為保留候選框的空間信息,Baron將空間信息編碼為位置信息嵌入到偽詞,并將這些偽詞拼接成句子輸入VLM文本編碼器,完成候選框的嵌入。文本與圖片對齊過程見圖2。
4) C-FPN FPN[10]常用來處理目標檢測中的多尺度問題,其特征處理過程包括自底向上、自頂向下和橫向連接3個階段。自底向上階段將圖片輸入到骨干網絡并提取特征;自頂向下階段將從上層得到的特征圖進行上采樣然后往下層傳遞;橫向連接階段對每個階段輸出的特征圖進行1×1的卷積降維,將降維得到的特征和上層采樣得到特征圖進行融合。FPN在略微增加計算量的情況下,能大幅提高小物體檢測性能,但忽略了各個通道里的語義信息。文中在FPN的基礎上增加了Channel Attention機制,組成C-FPN結構,如圖3所示。在橫向連接處理完每層輸出后,Channel Attention對輸入特征圖進行global pooling操作,減少特征圖的空間維度,只保留通道維度的信息,將每個通道的空間信息壓縮成單一值,增強通道獲取語義信息的能力。全連接(fully connected,F(xiàn)C)層與FRelu[11]作為激活函數(shù)。繼而在網絡結構中加入另一FC層,配合使用sigmoid激活函數(shù),生成1個描述通道重要性的權重向量,用于學習通道間的依賴關系。將權重向量與原始輸入特征圖進行通道維度上的乘法操作,得到最終的輸出特征圖。FRelu表達式:
[FRelu(x)=max(x,T(x))] (2)
式中:x為像素點輸入;T(X)為空間輸入。FReLU不僅能捕捉復雜的空間信息,還增強了模型的多尺度特征獲取能力。
2 實驗驗證
文中采用OV-COCO數(shù)據(jù)集[12]。OV-COCO數(shù)據(jù)集在COCO數(shù)據(jù)集的基礎上擴展了新的目標類別,包括從LVIS數(shù)據(jù)集[13]中選取的120個新目標類別,如蠟燭、貓頭鷹、蜘蛛等,從ImageNet數(shù)據(jù)集中選取的1000個新目標類別,如狐貍、獅子、熊等,從WebLI[14]數(shù)據(jù)集中選取的1000個新目標類別,如飛機、火車、船等。實驗時,框架為Pytorch和Mmdetection,目標檢測部分模型為Faster-RCNN[15],骨干網絡為ResNet-50,視覺語言模型采用CLIP和ViT-B/32,GPU數(shù)量為4。實驗采用全類平均準確率(mean average precision,mAP)作為評估指標,并針對2120個新目標類別、80個基礎目標類別以及2200個所有目標類別進行了mAP的計算,分別用novel、base和all表示。同時,實驗還對新目標類別的大、中、小目標的mAP進行了計算,分別用large,middle,small表示。
2.1 消融實驗
為了驗證改進模塊的有效性,對Baron、C-FPN和FRelu分別進行消融實驗,結果如表1所示。實驗1為基線模型,實驗2只使用了Baron模塊,實驗3使用了C-FPN模塊,實驗4使用了FRelu和C-FPN模塊。從表1中可以看出,在文本與打包后的區(qū)域對齊時,對于新目標類別的檢測效果更為顯著,同時在中小區(qū)域的目標檢測方面也表現(xiàn)出較好的性能。通過采用這種對齊策略,模型對新型目標類別的識別準確度從25.7%提高至33.1%。實驗1和實驗3的對比結果顯示,引入C-FPN的檢測結構能夠顯著提高模型對基類和中小目標的檢測精度,但對新的目標類別影響不大。實驗3和實驗4的對比結果顯示,通過引入FRelu函數(shù)可以增強模型對中小目標的敏感性,模型對小目標識別準確率從5.5%提高到了7.0%。這進一步證實了空間信息的重要性,并表明在模型設計中引入特定的激活函數(shù)可以對特定目標尺度的檢測性能產生積極影響。
2.2 不同模型對比實驗
為了評估C-Baron方法的有效性,將C-Baron與目前幾種主流的開放詞匯目標檢測方法進行比較,不同檢測方法的結構及在新目標類別和基礎目標類別的檢測結果如表2所示。表2中的方法可以按監(jiān)督信號分為基于VLM模型的監(jiān)督信號和基于Caption模型的監(jiān)督信號,VLM均使用CLIP,Caption均使用COCO圖像描述。在novel列中,C-Baron優(yōu)于其他方法,比ViLD高出了7.5%,比OV-DETR高出了5.7%,可見Baron方法能更有效地利用VLM的知識,對新目標類別的預測更準確。與Baron相比,C-Baron可以更好地處理不同尺度的物體和空間信息與語義信息,從而使得C-Baron新目標類別和基礎目標類別準確率要高于其他方法。
傳統(tǒng)目標檢測方法和開放詞匯目標檢測方法的預測結果可視化如圖4所示。通過對比圖4a和圖4b,明顯可以觀察到開放詞匯目標檢測傳統(tǒng)目標檢測能夠檢測到更多的目標,具有更廣泛的目標類別覆蓋和更強的泛化性。值得注意的是,圖4c中檢測框的置信度普遍高于圖4b,表明C-Baron相對于Baron在中小目標物體的識別方面更為優(yōu)越,驗證了模型改進的有效性。此外,圖4d中的引導詞為“a skater boy”,模型應檢測出男孩或者滑板和男孩,但模型僅檢測出滑板,表明現(xiàn)有的VLM模型在理解較為抽象的概念方面存在一定的不足。
3 結論
針對開放詞匯目標檢測中存在的多尺度信息丟失和小目標檢測精度不高的問題,提出了C-Baron算法。該算法通過結合Channel Attention機制和特征金字塔網絡,構建了C-FPN模塊,增強了模型對多尺度特征的表達能力。在區(qū)域選擇階段,C-Baron采用了區(qū)域打包對齊方法,有效地提升了中小目標的檢測性能。C-Baron算法在新類別和基礎類別上的識別精度分別提高了2%和6.3%,同時在新目標類別的識別中也表現(xiàn)出了優(yōu)異的性能。
參考文獻:
[1] "徐鑫,方凱. 基于改進YOLOv5的小目標交通標志檢測算法[J]. 湖北汽車工業(yè)學院學報,2023,37(4):17-21.
[2] "孫旭豪,沈陽,魏秀參,等. 結合環(huán)狀原型空間優(yōu)化的開放集目標檢測[J]. 中國圖象圖形學報,2023,28(9):2719-2732.
[3] "謝斌紅,張鵬舉,張睿. 結合Graph-FPN與穩(wěn)健優(yōu)化的開放世界目標檢測[J]. 計算機科學與探索,2023,17(12):2954-2966.
[4] "Zareian A,Rosa K D,Hu D H,et al. Open-vocabulary object detection using captions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021:14393-14402.
[5] "Gu X Y,Lin T Y,Kuo W C,et al. Open-vocabulary Object Detection via Vision and Language Knowledge Distillation[EB/OL]. 2021:arXiv:2104.13921. http://arxiv.org/abs/2104.13921
[6] "Zhou X Y,Girdhar R,Joulin A,et al. Detecting Twenty-thousand Classes Using Image-level Supervision[C]//Avidan S,Brostow G,Cissé M,et al. European Conference on Computer Vision. Cham:Springer,2022:350-368.
[7] "Deng J,Dong W,Socher R,et al. ImageNet:a Large-scale Hierarchical Image Database[C]//2009 IEEE Conference ·on CVPR. IEEE,2009:248-255.
[8] "Du Y,Wei F Y,Zhang Z H,et al. Learning to Prompt for Open-vocabulary Object Detection with Vision-language Model[C]//2022 IEEE/CVF Conference on CVPR. IEEE,2022:14064-14073.
[9] "Wu S Z,Zhang W W,Jin S,et al. Aligning Bag of Regions for Open-vocabulary Object Detection[EB/OL]. 2023:arXiv:2302.13996. http://arxiv.org/abs/2302.13996
[10] "Lin T Y,Dollár P,Girshick R,et al. Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on CVPR. IEEE,2017:936-944.
[11] "Qiu S,Xu X M,Cai B L. FReLU:Flexible Rectified Linear Units for Improving Convolutional Neural Networks[C]//2018 24th ICPR. IEEE,2018:1223-1228.
[12] "Zang Y H,Li W,Zhou K Y,et al. Open-vocabulary DETR with Conditional Matching[C]//Avidan S,Brostow G,Cissé M,et al. European Conference on Computer Vision. Cham:Springer,2022:106-122.
[13] "Gupta A,Dollár P,Girshick R. LVIS:a Dataset for Large Vocabulary Instance Segmentation[C]//2019 IEEE/CVF Conference on CVPR. IEEE,2019:5351-5359.
[14] "Chen X,Wang X,Changpinyo S,et al. PaLI:a Jointly-scaled Multilingual Language-image Model[EB/OL]. 2022:arXiv:2209.06794. http://arxiv.org/abs/2209.06794
[15] "Ren S Q,He K M,Girshick R,et al. Faster R-CNN:Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.