






收稿日期:2023-11-29
基金項目:太原師范學院研究生教育教學改革研究課題(SYYJSJG-2154)
DOI:10.19850/j.cnki.2096-4706.2024.03.035
摘" 要:隨著視覺語言模型的發展,開放詞匯方法在識別帶注釋的標簽空間之外的類別方面具有廣泛應用。相比于弱監督和零樣本方法,開放詞匯方法被證明更加通用和有效。文章研究的目標是改進面向開放詞匯分割的輕量化模型SAN,即引入基于多尺度通道注意力的特征融合機制AFF來改進該模型,并改進原始SAN結構中的雙分支特征融合方法。然后在多個語義分割基準上評估了該改進算法,結果顯示在幾乎不改變參數量的情況下,模型表現有所提升。這一改進方案有助于簡化未來開放詞匯語義分割的研究。
關鍵詞:開放詞匯;語義分割;SAN;CLIP;多尺度通道注意力
中圖分類號:TP391.4;TP18" 文獻標識碼:A" 文章編號:2096-4706(2024)03-0164-06
An Open Vocabulary Semantic Segmentation Model SAN Integrating Multi Scale Channel Attention
WU Ling, ZHANG Hong
(Taiyuan Normal University, Jinzhong" 030619, China)
Abstract: With the development of visual language models, open vocabulary methods have been widely used in identifying categories outside the annotated label. Compared with the weakly supervised and zero sample method, the open vocabulary method is proved to be more versatile and effective. The goal of this study is to improve the lightweight model SAN for open vocabulary segmentation, which introduces a feature fusion mechanism AFF based on multi scale channel attention to improve the model, and improve the dual branch feature fusion method in the original SAN structure. Then, the improved algorithm is evaluated based on multiple semantic segmentation benchmarks, and the results show that the model performance has certain improvement with almost no change in the number of parameters. This improvement plan will help simplify future research on open vocabulary semantic segmentation.
Keywords: open vocabulary; semantic segmentation; SAN; CLIP; multi scale channel attention
0" 引" 言
識別和分割任何類別的視覺元素是圖像語義分割的追求。近年來,深度神經網絡在圖像分割任務中已經取得了極大的進步。然而,大多數方法都基于閉集假設,這意味著模型只能識別訓練集中存在的預定義類別。現代語義分割方法[1,2]依賴于大量的標記數據,但通常數據集通常僅包含數十到數百個類別,而昂貴的數據收集和注釋限制了我們進一步擴展類別的可能性。最近,以CLIP[3]為代表的大規模視覺語言模型已經實現了圖像級別的任意類別識別,即開放詞匯圖像分類,這一巨大成功鼓勵我們探索它在語義分割中的應用。
1" 相關工作
開放詞匯語義分割是一種新穎的計算機視覺任務,它要求模型根據自然語言描述將圖像分割成不同的語義區域,例如“貓”“草地”“天空”等。這些文本描述可能在訓練過程中沒有出現過,模型需要具有泛化到未知類別的能力。這是一種比傳統的語義分割更具挑戰性的任務,因為它需要模型能夠理解自然語言和視覺內容,并且能夠在開放的詞匯空間中進行分類。
為了解決這個問題,一些研究工作利用了預訓練的多模態模型,來學習從大規?;ヂ摼W數據中提取圖像文本特征表示。CLIP是一種大型視覺語言模型,它通過對比學習的方式,將圖像和文本嵌入到一個共同的語義空間中,從而實現了圖像級別的任意類別識別,即開放詞匯圖像分類。然而,直接將CLIP應用于語義分割是不可行的,因為CLIP學習到的表示缺乏語義分割所需的像素級識別能力。彌補表示粒度差距的一種解決方案[4]是在分割數據集上微調模型。然而,分割數據集的數據量遠小于視覺語言預訓練數據集,因此微調模型在開放詞匯識別上的能力常常受到損害。
將語義分割建模為區域識別問題繞過了上述困難。早期嘗試采用兩階段訓練框架[5]。在第一階段,訓練一個獨立模型來生成一組蒙版圖像作物作為蒙版建議。在第二階段,使用視覺語言預訓練模型(如CLIP)來識別蒙版圖像裁剪的類別。然而,由于掩模預測模型完全獨立于視覺語言預訓練模型,它錯過了利用視覺語言預訓練模型[6,7]強大特征的機會,并且預測的掩模圖像裁剪可能不適合識別,這導致變成笨重、緩慢且性能低下的模型。
SAN[8]是一種將語義分割任務建模為區域識別問題的模型,它利用了預訓練的視覺語言模型CLIP的知識,將圖像分割成一組無類別的掩碼提議,然后利用CLIP的語言編碼器來對這些掩碼區域進行分類。SAN的優點是它不需要在分割數據集上微調CLIP,也不需要額外的掩碼預測模型,從而實現了輕量化和高效的特性。SAN的缺點是它沒有充分利用CLIP的視覺編碼器,也沒有有效地融合視覺和語言特征,從而限制了其在開放詞匯分割上的性能。本文基于上述問題,引入了一種注意力特征融合機制,用于改進原SAN結構中雙分支特征的融合方法。該機制可以有效地融合視覺和語言特征,以提高多模態空間域的表示能力。
2" 融合多尺度通道注意力的SAN模型
2.1" 整體框架
SAN(Side Adaptation Network)是一種將輕量級側網絡附加到預訓練的CLIP模型上的方法,其中凍結的CLIP模型充當分類器。側適配器網絡采用了解耦設計,它包含兩個分支:一個用于生成掩模提議,另一個用于在CLIP的自注意力塊中進行掩模類別識別的注意力偏置預測。整個網絡架構呈雙分支結構,其中包含多個融合層,以重用CLIP的中間預訓練知識,從而使模型能夠取得良好的性能。
在本次改進中,我們意識到SAN模型表現優異的原因之一是它能夠重用CLIP的先驗知識,這使得模型在語義分割任務中具有更好的推理能力和語義理解能力。不過就目前的進展[9-13]而言,我們還需要進一步探索如何最大限度地發揮視覺語言預訓練模型在視覺語義空間中的潛力,以提高開放詞匯分割任務的性能。
原先的SAN模型將來自兩個分支的特征簡單地進行了加和融合,這種簡單的add融合可能無法充分利用特征之間的相互關系。為了解決這個問題,本實驗加入了注意力融合機制AFF機制,并將其融入SAN模型中。通過這個改進,我們的模型能夠更充分地利用CLIP的先驗知識,并更好地挖掘視覺語義空間域的潛力,從而提高了模型的性能和表現。改進后的模型整體框架如圖1所示。在訓練期間,我們通過梯度流來更新網絡參數,虛線表示梯度流的路徑。
2.2" AFF模塊
Add層在進行元素相加時,沒有考慮輸入之間的相互關系和權重。它只是簡單地將輸入相加,會導致一些輸入可能會對最終結果產生較小的貢獻,甚至被掩蓋或忽略。這可能導致一些重要的特征或信息在相加過程中被稀釋或丟失。為了解決這個問題,并充分利用CLIP模型學習的圖文對齊空間域中的豐富語言要素,本文選擇了一種基于MS-CAM[10]改進的AFF(Attention-based Feature Fusion)模塊來改善模型性能。該模塊的主要目標是在融合多模態數據時引入權重,并根據這些權重對特征進行加權融合,以更好地捕捉重要的特征信息。
AFF模塊的工作流程如下:首先,將來自兩個分支網絡的特征張量進行簡單的對齊融合處理,以便進入后續處理。然后,使用融合結果作為引導信息,AFF模塊生成權重,這些權重指導著特征的重要性。最后,利用這些權重對融合后的特征張量進行加權變換,并將加權后的特征作為下一個模塊的輸入。
具體而言,AFF模塊通過卷積操作來獲取局部和全局的特征,并利用注意力機制在空間上融合多尺度的特征。這種設計可以同時捕捉到局部和全局的上下文信息,以更好地理解圖像和文本之間的關系。通過引入注意力權重來指導特征的加權融合,AFF模塊能夠更好地關注對最終結果有重要貢獻的特征。
通過這種改進的AFF模塊,模型能夠更好地利用CLIP模型學習到的圖文對齊空間域,從而提高模型的性能和效果。這種結構的設計能夠更好地融合多模態數據,并更準確地捕捉到重要的特征信息,從而提升模型在開放詞匯語義分割任務中的表現。AFF模塊結構如圖2所示。
圖2" AFF模塊
核心公式計算如下:
Z = M ( X ?Y ) ? X + (1 - M ( X ?Y )) ? Y
3" 實驗結果與分析
3.1" 實驗數據集
本文在6個數據集上進行了實驗,這些數據集包括:
COCO Stuff [6]:COCO Stuff數據集包含16.4萬張圖像和171個注釋類別。它被劃分為訓練集、驗證集和測試集,分別包含11.8萬、0.5萬和4.1萬張圖像。在本文的實驗中,我們使用完整的11.8萬張訓練集作為訓練數據,用于訓練模型。
ADE20K-150[7]:ADE20K-150是一個大規模場景理解數據集,包含2萬張訓練圖像和0.2萬張驗證圖像。該數據集共有150個注釋類別,用于進行語義分割任務。
ADE20K-847[7]:ADE20K-847與ADE20K-150具有相同的圖像集,但具有847個注釋類別,這使得該數據集對于開放詞匯語義分割來說具有挑戰性。
Pascal VOC[8]:Pascal VOC是一個常用的語義分割數據集,包含20個注釋類別。該數據集的訓練集和驗證集分別包含1 464張和1 449張圖像。
Pascal Context-59(PC-59):Pascal Context-59是用于語義理解的數據集,包含0.5萬張訓練圖像和0.5萬張驗證圖像。該數據集共有59個帶注釋的類別,用于進行語義分割任務。
Pascal Context-459(PC-459):Pascal Context-459與Pascal Context-59具有相同的圖像集,但注釋的類別更多(459個類別)。它廣泛用于開放詞匯語義分割任務。
在本實驗中,為了滿足開放詞匯的需求,模型使用COCO Stuff的訓練集進行訓練,并在其他五個數據集上進行評估,以評估其在不同數據集上的泛化性能和適應性。這樣的實驗設計可以更全面地驗證模型的魯棒性和效果。
3.2" 實驗環境與參數設置
本文所提出的模型基于Detectron2深度學習框架和wandb可視化平臺進行搭建、訓練以及測試。具體軟硬件環境如表1所示。
表1" 實驗軟硬件環境
軟硬件名稱 詳細信息
CPU Intel(R) Xeon(R) Silver 4216
GPU NVIDIA GeForce RTX4070
內存大小 96.0 GB
顯存大小 16.0 GB
操作系統 Windows Server 2019
編程語言 Python 3.8.15
CUDA版本 3.9.18
訓練時使用dice損失Lmake_dice和二進制交叉熵損失Lmake_bce來監督掩碼生成,交叉熵損失Lcls來監督掩模識別??倱p失為Lseg = λ1Lmake_dice + λ1Lmake_bce + λ1Lcls,損失權重λ1、λ2和λ3分別為5.0、5.0和2.0。然后用AdamW優化器不斷調整優化網絡參數。批次大小設置為32。
3.3" 評估標準
為了對模型開放詞匯分割性能進行定量分析,本文采用圖像語義分割領域常用的評估指標:平均交并比(MIoU),Dice系數(Dice Coefficient),像素準確率(PACC),頻權交并比(FwIoU)等。上述指標的值都在0和1之間,越接近1表示模型的效果越好。計算方法如式(1)至式(3):
(1)
(2)
(3)
其中,k表示類別數,TP(True Positive)表示被模型預測為正的正樣本,TN(True Negative)表示被模型預測為負的負樣本,FP(False Positive)表示被模型預測為正的負樣本,FN(False Negative)表示被模型預測為負的正樣本。
3.4" 實驗結果與分析
3.4.1" 開放詞匯分割效果展示
利用文本描述作為監督信號進行圖像分割的方法稱為開放詞匯指導圖像分割,它可以提高模型的泛化能力和可擴展性,處理訓練期間未見過的類別。它利用自然語言輸入來指導模型的輸出,實現多種下游任務。通過使用不同的文字,我們可以實現不同粒度的分割結果,滿足特定任務的需求。
開放詞匯指導圖像分割是一種提示學習的方法,利用自然語言描述中的關鍵詞匯或短語來提供關于圖像中目標物體位置和形狀的線索。模型通過學習從文本到圖像分割結果的映射關系,將文本指導轉化為準確的圖像分割輸出。這種方法的優點在于不僅可以處理已知類別的分割任務,還能應對訓練期間未見過的新類別,具有更強的泛化能力。
如圖3所示,展示了同一張圖使用不同的文字指導進行分割的四種結果。第一幅圖中,我們傳入的文本為“apple”,模型返回了原圖,因為圖像中并不包含蘋果。在第二幅圖中,我們沒有指定具體的文本,模型進行了全景分割,將圖像中的各個物體進行了分割,包括自行車、人和狗等。這種全景分割提供了整體的場景理解,但在具體物體的分割上可能不如有針對性的文本指導準確。在第三幅圖和第四幅圖中,我們分別給出了“man”和“dog”這兩個關鍵詞作為文本指導。模型根據這些關鍵詞,成功地將圖像中的人和狗進行了準確的分割。這說明通過給定特定的關鍵詞,模型能夠根據文本指導更加精確地分割出感興趣的對象。
這四幅圖展示了使用不同的文本指導進行圖像分割的效果,清晰地展示了不同文本輸入對分割結果的影響。通過合理選擇和引導文本,我們可以實現對特定目標的精確分割,從而提高圖像分割的準確性和效果。
3.4.2" 改進后的方法的表現
為了驗證改進后模型的有效性,本文與SimSeg[14]、OvSeg[15]和MaskCLIP[16]等采用CLIP-ViT模型和COCO Stuff訓練集的方法進行了比較,并對相同的分割任務進行了定量分析。分割結果如表2所示,其中加粗字體表示最佳性能指標。通過對比可以得出,本文改進后的模型在各個驗證集上都展現出明顯的優勢,整體表現高于其他網絡模型。
值得注意的是,本文方法在PC-459驗證集上的改進效果尤為顯著,相較于改進前提升了2.3%的性能。其次,我們的方法在其他驗證集上也取得了逐步提升,分別為0.5%、0.3%、0.3%,盡管有一組驗證集的表現沒有明顯提升,任能表明本文方法在多個驗證集上都能夠取得具有競爭力的性能。
表2" 不同模型基于COCO訓練集的驗證集的表現mIoU 單位:%
Method Param/百萬 ADE-847 PC-459 ADE-150 PC-59 VOC
SimSeg 61.1 7.0 8.9 20.5 47.7 88.4
OvSeg 147.2 7.1 11.0 24.8 53.5 92.6
MaskCLIP 63.1 8.2 10.0 23.7 45.9 —
SAN 8.4 10.1 12.6 27.5 53.8 94.0
本文方法 8.61 10.4 14.9 28.0 54.1 93.9
此外,我們還與其他方法在可訓練參數方面進行了比較。令人欣慰的是,我們的方法僅增加了21萬的參數量,仍然保持了輕量化的特性,同時表現出優秀的分割性能。這意味著我們的方法在實現高效率和高質量之間取得了良好的平衡,為實際應用提供了更具吸引力的選擇。
3.4.3" 進一步分析
進一步分析數據集之間的關系,如表3所示,可以發現在5個驗證數據集中,Pascal VOC和Pascal Context-59之間的標簽與訓練集COCO Stuff的標簽的相似度最高,約為90%。而Pascal Context-459、ADE20K-150和ADE20K-847與COCO Stuff之間的相似度得分較低,分別為0.75、0.73和0.57,能夠更好地評估跨領域的開放詞匯。本文改進的AFF模塊根據通道注意力劃分權重,重新分配了文本空間域特征的比重。結合實驗結果,可以觀察到表現提升最為明顯的Pascal Context-459和次高的ADE20K-150,其標簽相似度居中。相似度較高的數據集對于方法的性能提升有限,而相似度較低的數據集則用有更大的提升空間。這說明本文的方法在融合文字和圖像特征方面發揮了一定的作用。
表3" 不同驗證集與COCO stuff的標簽相似度
Dataset Labelsim.to COCO stuff
Pascal VOC 0.91
Pascal Context-59 0.86
Pascal Context-459 0.70
ADE20K-150 0.73
ADE20K-847 0.57
未來改進開放詞匯分割方法,可以從文字提示工程方面入手,或者探索更好的多模態域的交互方式。通過進一步優化文字和圖像之間的交互方式,可以提高分割算法在處理開放詞匯時的效果。此外,還可以考慮從工程的角度改進方法,以更好地處理開放詞匯的挑戰。這些探索將有助于進一步推動開放詞匯分割領域的研究和發展。
4" 結" 論
本文提出了的融合多尺度通道注意力的SAN模型改進方法,并與多個基準方法比較,結果顯示,我們的方法在僅增加21萬參數的情況下展現出相對優越的性能,尤其是在Pascal Context-459數據集上表現提升了2.3%,并且模型在參數量上仍然保持輕量化的特點。此外,我們展示了文本指導分割的效果圖,并分析了實驗結果分布與標簽分布之間的關系??傊?,本文的工作是在開放詞匯圖像分割領域的一次有意義的探索,在四個圖像分割數據集上超越了之前的最先進的方法,證明了它的優越性和創新性。本文的工作為圖像分割領域的發展和進步提供了新的視角和啟示,也為未來的研究者和工程師提供了新的思路和方向。我們希望本文的工作能夠激發更多的研究興趣和活力,推動圖像分割領域的發展和創新。
參考文獻:
[1] CHENG B,MISRA S,SCHWING A G,et al. Masked-attention Mask Transformer for Universal Image Segmentation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:1280-1289.
[2] CHEN L C,PAPANDREOU G,KOKKINOS L. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[3] RADFORD A,KIM J W,HALLACY C,et al. Learning Transferable Visual Models From Natural Language Supervision [J/OL].arXiv:2103.00020 [cs.CV].[2023-10-19].https://arxiv.org/abs/2103.00020.
[4] GHIASI G,GU X Y,CUI Y. Scaling Open-Vocabulary Image Segmentation with Image-Level Labels [J/OL].arXiv:2112.12143 [cs.CV].[2023-10-19].https://arxiv.org/abs/2112.12143.
[5] RADFORD A,KIM J W,HALLACY C,et al. Learning Transferable Visual Models From Natural Language Supervision [J/OL].arXiv:2103.00020 [cs.CV].[2023-10-19].https://arxiv.org/abs/2103.00020.
[6] JIA C,YANG Y F,XIA Y,et al. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [J/OL].arXiv:2102.05918 [cs.CV].[2023-10-10].https://arxiv.org/abs/2102.05918.
[7] DING J,XUE N,XIA G S,et al. Decoupling Zero-Shot Semantic Segmentation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:11573-11582.
[8] XU M D,ZHANG Z,WEI F Y,et al. Side Adapter Network for Open-Vocabulary Semantic Segmentation [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver:IEEE,2023:2945-2954.
[9] QI L,KUEN J,GUO W D,et al. High-Quality Entity Segmentation [J/OL].arXiv:2211.05776 [cs.CV].[2023-10-10].https://arxiv.org/abs/2211.05776.
[10] CAESAR H,UIJLINGS J,FERRARI V. COCO-Stuff: Thing and Stuff Classes in Context [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:1209-1218.
[11] DAI Y M,GIESEKE F,OEHMCKE S,et al. Attentional Feature Fusion [C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV).Waikoloa:IEEE,2021:3559-3568.
[12] ZHOU B L,ZHAO H,PUIG X,et al. Scene Parsing through ADE20K Dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5122-5130.
[13] EVERINGHAM M,GOOL L V,WILLIAMS C K I. The PASCAL Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88:303-338.
[14] XU M D,ZHANG Z,WEI F Y,et al. A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model [C]//Computer Vision - ECCV 2022.Tel Aviv:Springer,2022:736-753.
[15] LIANG F,WU B,DAI X L,et al. Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [J/OL].arXiv:2210.04150 [cs.CV].[2023-10-10].https://arxiv.org/abs/2210.04150.
[16] DING Z,WANG J K,TU Z W. Open-Vocabulary Universal Image Segmentation with MaskCLIP" [J/OL].arXiv:2208.08984 [cs.CV].[2023-10-15].https://arxiv.org/abs/2208.08984.
作者簡介:武玲(1992—),女,漢族,四川達州人,碩士研究生在讀,主要研究方向:機器學習、圖像處理;通訊作者:張虹(1977—),女,漢族,山西太原人,副教授,博士,主要研究方向:人工智能、區塊鏈與智能數據。