999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于點擊-邊界雙分支協同引導的交互式圖像分割方法

2025-09-30 00:00:00陸言炎王博宇王喜夏欣
無線互聯科技 2025年16期

中圖分類號:TP391 文獻標志碼:A

0 引言

交互式圖像分割旨在通過最少的用戶操作分割圖像中的指定目標,常用的交互方式有點擊[1]、繪制邊界框[2]和涂鴉[3]。其中,基于點擊的交互式圖像分割的核心原理是用戶提供簡單的點擊輸入來引導模型實現準確的對象分割,得益于這種標注范式獨特的交互性和時效性,它被廣泛應用于醫學圖像分析[4]安全監控5和圖像編輯[6等領域。

經過多年的發展,交互式圖像分割涌現了大量優秀的算法,然而,將用戶交互先驗高效地嵌人算法模型仍然是交互式圖像分割算法的難題。同樣地,隨著近些年深度學習的出現,交互式圖像分割也被分為傳統的非深度交互式圖像分割算法與基于深度學習的交互式圖像分割算法。

傳統的非深度圖像分割算法主要是指利用簡單的顏色空間特征或者其他手工設計的特征來構建圖像分割算法的模型。這類算法在一些簡單的圖像中已經獲得了較好的分割結果,然而這些低級特征對不同場景的圖像缺乏一定的魯棒性,例如光照變化、角度變化、遮擋以及復雜背景等問題。傳統非深度圖像分割算法主要分為基于閾值的分割方法[7]、基于區域的分割方法[8]、基于邊緣檢測的方法[9]、結合特定工具的分割方法[10]等。

近些年,深度學習在計算機視覺領域取得了顯著的效果,同樣也大大促進了基于深度學習的圖像分割算法的發展。2016年, Xu 等2提出了深度交互式目標選擇算法(Deep interactive Object Selection,DOS),是基于深度學習的交互式圖像分割的開山之作。該算法將用戶提供的前景與背景的點擊轉換為歐式距離映射,并與輸入圖像的RGB通道相拼接,作為全卷積神經網絡(FullyConvolutionalNetwork,FCN)[11]的輸入,通過圖割優化算法對分割結果進行精細化處理,奠定了深度交互式圖像分割的基本框架。2017年,Liew等[12]提出了區域交互式圖像分割網絡,該網絡利用用戶提供的種子點附近的信息來捕獲局部區域信息,然后利用多尺度全局上下文信息來提升特征的表達能力。2019年, Hu 等[13]針對融合策略問題提出了雙流融合交互式圖像分割網絡,采用后融合策略增強用戶交互信息對最終分割的影響從而提升網絡的分割性能。2020年,Lin等[14提出首次點擊注意力網絡(FirstClickAttentionNetwork,FCA-Net),通過引入首次點擊注意力模塊,充分挖掘首次點擊蘊含的目標位置與語義信息,實現交互次數與分割精度的優化平衡。2021年,Chen等[15」提出了條件傳遞網絡模型,通過構建關系矩陣并利用交互點為傳遞起點,語義特征為邊界來限制關系矩陣的傳遞范圍,顯著提升了分割結果的準確性。2024年,Lin等[16]提出了一種新的點擊-像素認知融合網絡,包含點擊-像素認知融合模塊和平衡歸一化焦點損失。2025年,Li等[17]提出一種無需預訓練的交互式分割模型適配器,通過引入少量額外參數和計算量,增強交互式分割模型在有限點擊下獲取高質量預測結果的能力。

以上這些算法一定程度上提升了交互式圖像分割的效率,但是交互方式所提供的先驗信息有限,僅為模型提供了模糊的位置信息,缺乏對圖像全局結構(如目標邊界)的明確感知,因此需要較多點擊交互才能獲得更好的分割效果。為了解決這一問題,本文借鑒了人類視覺系統“全局感知-局部細化”的層級處理方式,構建了獨特的邊界提取機制。在認知科學領域,人類視覺系統在觀察圖像時,會先從宏觀層面捕捉場景的整體語義信息,快速建立對圖像的基礎認知,明確物體的類別、位置和大致輪廓。隨后,視覺注意力會聚焦于感興趣區域,對細節進行精細化處理,例如識別物體的紋理、邊緣特征和細微結構。基于這一原理,本文提出基于點擊-邊界雙分支協同引導的交互式圖像分割方法(Click-BoundaryDual-BranchCollaborativeGuidance,CBCIS),旨在融合用戶點擊提供的位置信息先驗與對象邊界特征的顯式約束,提高分割精度,減輕用戶的交互負擔。

1方法設計

CBCIS通過用戶點擊和對象邊界引導相互協作,使模型在分割過程中既能利用用戶感興趣的目標位置信息,又能結合對象邊界細節信息,從而提高分割精度,減輕用戶交互負擔。

1.1 總體架構

CBCIS以用戶點擊信息與對象邊界特征的雙分支協同引導為核心,通過3大模塊的層級協作實現交互式圖像分割精度與交互效率的提升。首先,邊界提取模塊(BoundaryExtractionModule,BEM)負責通過顯式特征與隱式特征的融合策略捕捉對象邊界,顯式特征利用Sobel算子計算直觀可見的邊緣輪廓,隱式特征通過多層卷積挖掘深層語義中的潛在邊界,兩者經逐元素相加和卷積優化后,形成包含多維度結構信息的邊界特征圖。這些特征圖被輸入邊界特征增強模塊(Boundary Feature Enhancement Module,BFEM),該模塊利用動態權重融合不同尺度的邊界特征,顯著提升邊界特征在復雜場景中的表達能力。增強后的邊界特征與用戶點擊提示在點擊-邊界相互引導模塊(Click-Boundary Mutual Guidance Module,CBMG)中通過交叉注意力機制實現跨模態協同,形成“點擊引導目標定位-邊界特征優化分割掩碼”的閉環。整個架構模擬人類視覺“全局感知-局部細化”的認知流程,如圖1所示。

模型以圖像Image、前一輪掩碼 Mν 以及正負點擊磁盤圖Mpos和Mneg為輸人,生成視覺特征F∈R Hwxd和類別標記 g∈R1×d ,其中 d,H 和 W 分別表示視覺特征的通道數、寬度和高度。本文使用ViT作為模型主干來提取圖像特征,如SimpleClick[22]中所述。為了捕捉多尺度信息,還采用特征金字塔網絡將多尺度特征融合到最終的視覺特征中。點擊編碼器旨在將輸入點擊轉換為多個點擊提示,用于捕捉用戶意圖。它僅利用表示感興趣區域的正點擊來初始化點擊提示,同時提取自標邊界信息來引導用戶的點擊,點擊-邊界雙分支協同引導初始化為:

P0=F(MLP(Mpos,BI))

其中, Mpos 為用戶正點擊磁盤圖, Bι 為目標邊界信息,MLP為多層感知機, T 為分割模型

本文進一步引入跨模態注意力融合點擊-邊界雙分支提示和視覺特征,為捕捉提示間的協同關系引入自注意力模塊,前饋網絡增強特征的非線性表達能力,通過多層級特征交互與變換,提升點擊-邊界雙分支對模型分割的引導能力,可以表示如下:

Pcl=fFFN(fSelf(fCross(Pcl-1,F)))

其中, Pcl-1 為第l-1層Transformer塊的點擊-邊界雙分支協同引導提示, F 為視覺特征, 依次為跨注意力層、自注意力層、前饋網絡層。

在BEM一共提取4個不同尺度的特征圖,將這4個特征圖作為邊界特征圖集合 Fbnd ,表示如下:

圖1CBCIS總體架構

Fbnd={F1,F2,F3,F4}

特征 Fbnd 的空間分辨率分別為 H/2n×W/2n(n= 1,2,3,4)

1.2 BEM設計

對于圖像中前景與背景差距明顯的情況,目標邊界相對直觀。可以通過Sobel算子計算圖像梯度并結合非線性變換生成直觀的邊界特征。分別在垂直和水平方向上使用2個參數固定的 3×3 卷積核,能夠捕捉沿這2個方向的空間導數,敏銳感知圖像在不同方向上的灰度變化情況。以步長1進行卷積操作,分別得到水平方向梯度 Gx 和垂直方向梯度 Gy 。水平方向梯度 Gx 為:

垂直方向梯度 Gy 為:

其中, I 代表輸人圖像。通過垂直和水平梯度的平方和平方根運算,得到梯度幅值 G(x,y) :

其中, Gx(x,y) 為 水平方向梯度值, Gy(x,y) 為垂直方向梯度值, G(x,y) 代表坐標 (x,y) 處的梯度幅值,反映了圖像在該點的邊緣強度。該梯度圖反映了圖像中像素值變化的強度和方向,直觀呈現物體的邊緣輪廓。接著,對梯度映射進行Sigmoid歸一化處理,將梯度值歸一化到[0,1,增強邊緣與非邊緣區域的對比度。

最后,將歸一化后的梯度映射與原始輸入特征F(x,y) 相乘,得到顯式邊界特征 Bexplicit(x,y) 。這種顯式邊界特征側重于直觀地展現圖像中物體的邊緣輪廓,為目標的初步定位提供依據。

Bexplicit=σ(expand(G(x,y)))?F(x,y)

F(x,y) 輸入特征圖,expand表示維度擴展操作,通過梯度權重調整原始特征,選擇性地增強邊緣區域的特征表達,抑制非邊緣區域。經過上述步驟后,得到顯式邊界特征。

但是,許多實際圖像中存在目標邊緣非直觀可見的情況。此時須通過卷積等操作,從圖像數據內部挖掘出潛在的邊界特征,即通過卷積層對輸入圖像數據進行多層次的特征提取。卷積操作能夠捕捉圖像中不同尺度和方向的局部特征,隨著卷積層的堆疊,逐漸挖掘出圖像中較為抽象的潛在邊界信息。之后,利用Sigmoid激活函數對卷積得到的特征進行歸一化處理,將特征值映射到[0,1],突出潛在邊界特征,抑制非邊界相關特征,從而得到隱式邊界特征。這種方式能夠深入挖掘圖像中隱藏的、不易直接觀察到的邊界信息,為后續的邊界特征融合提供豐富的細節補充。

Bimplicit=σ(expand(Conv(F(x,y))))

其中, F(x,y) 輸入特征圖,Conv表示卷積操作,expand表示維度擴展操作。

在獲取隱式邊界特征和顯式邊界特征后,將二者進行融合,進一步調整和優化特征表示,增強特征的表達能力,融合方法如下:

其中, Bfeature 為融合后的邊界特征, Bexplicit 為顯式邊界特征, Bimplicit 為隱式邊界特征,Conv 是卷積操作,Add是逐元素相加。

1.3 BFEM設計

該模塊旨在更全面、精準地獲取對象邊界信息,為后續的圖像分割提供豐富且準確的特征,從而提升分割精度,使分割結果更貼合實際物體形態。圖像低層特征來自編碼器淺層,分辨率較高,包含豐富的像素,提供精確空間定位,但缺乏語義理解能力,無法區分真實邊界與噪聲、偽影。高層特征空間分辨率低,無法直接用于精確分割,須依賴低層特征補充細節。為了增強模型邊緣信息的表達能力,本文通過動態權重分配來增強邊緣特征,基于低層特征 F1 和高層特征 F4 輸人特征生成動態權重:

W=σ(MLP(AP(Concat(Bfeature1,Bfeature4))))

其中, Bfeature1 和 Bfeature4 分別為低層特征 F1 和高層特征 F4 經過BEM得到的邊緣特征圖, AP 表示平均池化層, Concat(?,?) 為拼接操作,MLP是多層感知機,Conv是卷積操作, σ 是Sigmoid激活函數。使用生成的權重 W 對低層特征和高層特征進行加權融合:

Ffusion=W?Bfeature1+(1-W)?Bfeature4

低層特征 F1 提供高分辨率梯度信息,用于定位邊界的具體位置;高層特征 F4 提供語義信息,過濾無效邊緣,這種雙邊界的設計理念,打破了傳統單一邊界提取方式的局限,為對象邊界特征的提取提供了更豐富的視角。提取得到的邊界掩碼會作為后續模塊的輸入,為整個交互式圖像分割流程提供重要的邊界信息引導,幫助模型更好地理解圖像中物體的形狀和范圍,從而為準確的分割結果奠定基礎。

1.4 CMBG設計

增強后的邊界特征會被傳遞到CMBG,用于和點擊提示分支的信息進行融合。通過強化邊界特征,能夠在后續的融合過程中,更有效地與點擊提示信息相互協作,從而幫助模型在分割過程中更好地利用邊界細節信息,提升分割的精度。設點擊提示為 P∈ RN×d ,邊界特征為 B∈RH×W×d ,則交叉注意力可統一表示為:

其中,通過點擊提示對邊界特征加權,增強目標區域的邊界響應, QP=PWQ,KB=BWK,VB=BWV 。通過邊界特征動態調整點擊提示的權重,減少模糊區域的誤定位, QB=BWQ,KP=PWK,VP=PWW WQ ,Wκ,Wν,WQ,Wκ,WV 為可學習的線性變換矩陣, 為縮放因子,防止點積數值過大導致梯度不穩定。

1.5損失函數

在交互式分割算法中,損失通常使用二元交叉熵損失(Binary Cross-Entropy Loss,BCE Loss)計算,該損失更關注分割的全局效果。損失函數通過將分割真實標簽 Mi 和最終預測結果 視為2種不同的概率分布來計算。較小的交叉熵意味著這2種概率分布更接近,表明模型訓練收斂。

N 是圖像的總像素數, Mi 分別是第 i 個像素的真實標簽和預測標簽。

鑒于用戶點擊和邊界提示代表來自不同模態的信息,通過對比學習實現標簽文本提示與交互信息語義對齊,計算公式如下:

其中, τ 表示溫度參數,用于調節對比學習中softmax分布的平滑程度. sin(?,?) 表示2個向量的相似度函數。

由于目標邊界的分割對總損失函數影響較大,為了獲得更高質量的邊界分割,本文引人邊界分割損失函數:

其中, yi 分別是第 i 個像素的真實值和預測標簽, ,N 是圖像的總像素數量。

綜上所述,總損失由主要分割損失 Lseg 、邊界損失 Lbnd 和 Lc-b 組成,總損失可表示為:

L=λlseg2Lbnd3Lc-b

其中, λ1…λ2…λ3 分別為控制損失分量權重的因子。

2 實驗與分析

本節評估了本文所提出的CBCIS方法的有效性。實驗旨在證明該方法相較于最先進的現有方法具有更優越的性能并驗證其在不同數據集上的泛化能力。

2.1 評價指標

實驗采用平均交并比(meanIntersection overUnion,mIoU)和平均點擊次數(meanNumberofClicks,mNoC)2項指標來評價交互式圖像分割任務的性能。mIoU通過量化真實分割與預測結果的重疊程度來綜合評估分割質量,數值越高表明分割性能越優。而 ΠmNoC 則用于衡量測試過程中用戶交互的頻繁程度:更少的點擊次數不僅意味著用戶輸入量的減少,還反映了模型高效的交互設計與友好的用戶體驗。其中, mNoC@85 和 指標分別表示達到 85% 和 90% mloU所需的平均點擊次數。

2.2定量實驗

本文在5個常用的圖像分割數據集上進行了實驗:GrabCut[18]、Berkeley[19]、 SBD[20] 、DAVIS[21]、Pascal VOC[22] 。表1展示了各算法在5個自然圖像數據集的測試結果,包含在SBD數據集訓練的模型和在 COCO+LVIS[23-24] 數據集訓練的模型。實驗的算法包括深度交互式目標選擇(DeepInteractiveObjectSelection,DIOS)[2]、基于潛在多樣性的分割(LatentDiversity-based Segmentation,LD)[25]、反向傳播細化方案(Backpropagating Refinement Scheme,BRS)[26]、f-BRS[27] CDNet[28]、RITM[1]、PseudoClick[29]FocalClick[30]、FocusCut[31]、SimpleClick[32]和 MFP[33]

本文提出的方法在所有數據集上均表現出優越性能。該方法在SBD數據集上訓練的CBCIS(ViT-B)模型在Berkeley數據集上的 NoC@90 值為1.77,較SimpleClick(ViT-B)的2.46次減少 30% ,較FocusCut(ResNet-101)的3.01次減少 41% 。這一提升源于BEM對圖像中物體輪廓的多層次表達,既通過顯式邊界快速定位大致形態,又通過隱式邊界補充潛在細節。在包含背景干擾場景的DAVIS數據集中,CBCIS(ViT-L)的 NoC@90 值為4.35,顯著低于RITM(HRNet-18)的5.43和f-BRS(ResNet-101)的7.73,這得益于BFEM通過動態權重融合低層高分辨率梯度信息與高層語義特征,有效過濾背景噪聲并聚焦目標邊界,使模型在復雜動態場景中能更高效地利用用戶點擊信息。此外,在GrabCut數據集上將NoC@90 值從SimpleClick的1.54次降至1.35次,驗證了協同引導機制對用戶意圖提示的有效性。

COCO+LVIS 大數據集訓練的模型中,CBCIS的跨場景泛化能力與交互效率進一步提升。大規模數據為模型提供了豐富的實例多樣性,使其能夠學習更魯棒的邊界特征表示與點擊-邊界映射關系。在PascalVOC數據集(多類別常見物體場景)中,CBCIS(ViT-L)的 NoC@90 值為1.85,低于 SimpleClick(ViT-L)的1.96(降幅 5.6% )和PseudoClick(HRNet-32)的2.25(降幅 17.8% ),體現了BFEM對不同尺度目標邊界的適應性。在DAVIS數據集上,CBCIS(ViT-B)的NoC@90 值為4.75,較FocalClick(SegF-B0)的7.06減少 33% 。以上數據表明,所提出的融合用戶點擊位置信息與對象邊界特征雙分支協同引導框架能夠有效提升分割精度并減輕交互負擔。

表1CBCIS與最先進的交互式分割方法的對比結果

2.3定性實驗

此外,通過可視化大目標、小目標以及模糊邊緣場景下的分割結果進一步分析模型分割性能,如圖2所示。前2列展示的為CBCIS分割大目標的效果,可以很明顯看出在單次點擊交互下,模型的分割準確率達到了 90% 以上,對于前景和背景區分明顯的目標分割準確率達到了 95% 以上;對于邊界較為模糊的大目標,如第1列第2行的狗和第1列第3行的鴨子,CBCIS通過點擊-邊界雙分支協同機制實現全局輪廓的高效捕捉并避免局部細節干擾,達到了比較理想的分割效果。小目標的邊界像素少且易受噪聲影響,傳統模型常因感受野不足導致邊緣模糊或漏分割。BFEM通過動態融合低層高分辨率特征與高層語義特征,實現對小目標的精準定位。例如第3列展示了模型對小自標的分割結果,如雪地中的人和狐貍、草原上的遠處的牛和長頸鹿,模型的分割準確率也達到了 90% 以上。對于目標較小且邊緣模糊或低對比度場景的目標,傳統方法因其缺乏全局邊界引導,須多次點擊修正邊緣偏差,增加用戶的交互負擔,而且分割效果往往不理想。CBCIS通過隱式邊界挖掘與協同引導機制突破這一限制,如第4列第3行巖石中的豹子和第5列第2行巖石中的羊,目標與背景對比度較低,人眼甚至很難區分,CBCIS通過多層卷積從深層特征中挖掘隱式邊界,利用用戶點擊信息先驗生成初步邊緣,通過對比學習強制點擊提示與邊界特征語義對齊,形成“點擊引導目標定位-邊界特征優化分割掩碼”的閉環優化。

圖2模型分割結果可視化

綜上,CBCIS的創新框架通過模擬人類視覺的“全局感知-局部細化”機制,系統地提升了不同場景下的分割效率。其可視化結果充分驗證了點擊-邊界協同引導交互式圖像分割的有效性。

3結語

本文針對傳統基于點擊的交互式圖像分割中用戶提示信息類型單一和對象區域感知不足的問題,提出了一種點擊邊界雙分支協同引導框架CBCIS。通過模擬“全局感知”到人類視覺系統的“局部細化”機制,實現用戶點擊先驗(位置線索)和對象邊界特征(范圍約束)之間的深度協作。核心內容包括:首先,分別通過Sobel算子和多個卷積層融合顯式特征信息和隱式特征信息,有效提取圖像中的對象邊界特征。其次,采用多尺度特征圖融合策略,提高邊界特征的可辨性。再次,設計了一個基于交叉注意力的協同引導模塊,實現點擊先驗和邊界特征提示之間的語義對齊,快速定位目標,捕獲全局形狀,從而提高模型的分割效率。最后,在5個自然圖像數據集的實驗證明了該模型的出色性能。實驗證明,CBCIS通過融合多級邊界特征和點擊先驗,顯著提高了交互效率和分割精度。未來的研究將側重于輕量級設計和視頻分割擴展,以提高在實際應用場景中的適用性。

參考文獻

[1]SOFIIUK K,PETROVIA,KONUSHINA. Proceedings of the 2O22 IEEE International Conference on Image Processing,October 16-19,2022[C]. Piscataway,NJ:IEEE,2022.

[2]XU NING,PRICE B,COHEN S,et al. Proceedings of the 2O16 IEEE Conference on Computer Vision and Pattern Recognition,June 27-30,2016[ C]. Piscataway, NJ:IEEE,2016.

[3]WUJ,ZHAO Y,ZHUJY,et al.Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,June 23-28,2014[C] .Piscataway,NJ: IEEE,2014.

[4]張小瑞,莫云菲,孫偉.基于改良編碼與高斯過程 的交互式醫學圖像分割[J].計算機系統應用,2025 (5):138-150.

[5]魏君雅.基于用戶體驗的交互式信息安全監控系 統設計[J].科技通報,2020(3):63-67.

[6]中國科學院計算機網絡信息中心在數值模擬的 物理參數交互式探索研究中取得新進展[J].信息網 絡安全,2025(4):549. L」丁

方法[J].遙感信息,2024(6):12-20.

[8]甘玲,郭千文,朱林華.一種初始分割和區域合并 的交互式圖像分割方法[J].小型微型計算機系統, 2017(5) :1103-1106.

[9]張健.基于高低閾值Canny 算子的遙感影像水域 邊緣檢測方法[J].北京測繪,2025(4):496-502.

[10]CHEN X, WILLIAMS B M, VALLABHANENI S R, et al.Proceedings of the 2O19 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20, 2019[C] .Piscataway,NJ:IEEE,2019.

[11]LONG J, SHELHAMER E, DARRELLT. Proceedings of the 2O15 IEEE Conference on Computer Vision and Pattern Recognition,June 7-12,2015[C]. Piscataway,NJ: IEEE,2015.

[12]LIEW J,WEI Y,XIONG W,et al. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition,July 23-28,2017[C].Piscataway, NJ:IEEE,2017.

[13]HU Y,SOLTOGGIO A,LOCK R,et al. A fully convolutional two-stream fusion network for interactive image segmentation[J]. Neural Networks,2019(109): 31-42.

[14]LIN Z,ZHANG Z,CHEN L Z,et al. Proceedings of the 202O IEEE Conference on Computer Vision and Pattern Recognition,June 16-19,2020[C] Piscataway,NJ:IEEE,2020.

[15]CHEN X,ZHAO Z,YU F,et al. Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition,June 19-25,2021 [C]. Piscataway,NJ: IEEE,2021.

[16]LIN J,XIAO Z, WEI X,et al. Click-pixel cognition fusion network with balanced cut for interactive image segmentation[J].IEEETransactionsonImage Processing,2023(33) :177-190.

[17]LI S H,CHEN Y Q,XU L,et al. ClickAdapter: integrating details into interactive segmentation model with adapter[J]. IEEE Transactions on Circuits and Systems for Video Technology,2025(4) :2951-2962.

[18]ROTHER C,KOLMOGOROVV,BLAKEA. “ GrabCut” interactiveforegroundextractionusing iciaicu giapn cuisL J」·Giapucs 2004(3) :309-314.

[19]MCGUINNESS K,O' CONNOR N E. A comparative evaluation of interactive segmentation algorithms[J]. Pattern Recognition,2010(2) :434-444.

[20]HARIHARAN B,ARBELAEZ P,BOURDEV L,et al.Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition,June 20-25, 2011[C] .Piscataway,NJ:IEEE,2011.

[ 21]PERAZZI F,PONT-TUSET J,MCWILLIAMS B, et al.Proceedings of the 2O16 IEEE Conferenceon Computer Vision and Pattern Recognition,June 27-30, 2016[C]. Piscataway,NJ:IEEE,2016.

[22]EVERINGHAM M,VAN GOOL L,WILLIAMS C K,et al. The pascal visual object classes (voc) challenge [J]. International Journal of Computer Vision,2010(2) : 303-338.

[23]LIN T Y,MAIRE M,BELONGIE S,etal. Proceedings of the 2O14 European Conferenceon Computer Vision,September 6-12,2014 [C].Berlin : Springer,2014.

[24] GUPTA A,DOLLAR P,GIRSHICK R. Proceedings of the 2O19 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20,2019[C] Piscataway,NJ:IEEE,2019.

[25]LI Z W,CHEN Q F,KOLTUN V. Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition,June 18 - 22,2018[C] Piscataway,NJ:IEEE,2018.

[26]JANG W D,KIM C S. Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20,2019[C] .Piscataway,NJ: IEEE,2019.

[27]SOFIIUK K,PETROV I,BARINOVA O, et al. Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition,June 16-19,2020[C]. Piscataway,NJ: IEEE,2020.

[28]CHEN X,ZHAO Z Y ,YU F W,et al. Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition,June 19- 25,2021[C]. Piscataway,NJ:IEEE,2021. [29]LIU Q,ZHENG M,PLANCHE B,et al.Proceedings of the 2O22 European Conference on Computer Vision, October 23-27,2022[C].Berlin:Springer,2022.

[30]CHEN X,ZHAO Z Y ,ZHANG Y L,et al. Proceedings of the 2O22 IEEE International Conference onImage Processing,October 16-19,2022[C]. Piscataway,NJ:IEEE,2022.

[31]LIN Z,DUAN Z P,ZHANG Z,et al.Proceedings of the 2022 IEEE International Conference on Image Processing,October16-19,2022[C].Piscataway,NJ: IEEE,2022. [32]LIUQ,XU ZL,BERTASIUS G,et al.Proceedings of the 2O23 IEEE International Conference on Image Processing,October8-11,2023[C].Piscataway,NJ: IEEE,2023.

[33]LEE C,LEE S H,KIM C S.Proceedings of the 2024 IEEEInternationalConferenceon Image Processing,October 27-30,2024[C].Piscataway,NJ: IEEE,2024.

(編輯戴啟潤)

Click-Boundary dual-branch collaborative guidance for interactive image segmentation

LU Yanyan1,WANG Boyu2, WANG Xi 3* , XIA Xin4 (1.Soochow University,Suzhou 215006, China;2.Changzhou University,Changzhou 213159,China; 3.Suzhou Vocational Institute of Industrial Technology,Suzhou 215OO6, China; 4.Suzhou Society of Engineers,Suzhou 2150oo,China)

Abstract:This paper presents an interactive image segmentation method from the perspective of click-boundary dualbranch colaborative guidance,aiming toaddress theisseof insuficientuserprior information intraditional clickbased interactive segmentation.The method realizes the mutual enhancement of user prior and object boundary features through a dual-branch collborativemechanism.Concretely,thispaper constructs a dual-path featureextraction network:explicit feature informationand implicit feature informationare fused through the Sobeloperator and multiple convolutional layers respectively to accurately capture object boundaries in images.Also,a multi-scale feature map fusionstrategycoveringlow-leveland high-level featuresisadoptedtoenhance thediscriminabilityofboundary features.Second,this paper designs a collaborative guidance module based on the cross-attention mechanism, enabling themodelto use theuser’sclick location information toaccurately locate the targetandoptimize the click prioranddecoding processwith thehelpof boundary features.To verifythe effctivenessof the method,this paper conductedcomprehensiveexperimentson 5 natural image datasets.Comparative results with existing state-of-the-art methodsacrossall benchmarks show thatthis method hasachieved significant improvements in both first-time segmentation accuracy and interaction eficiency.Especiallyon the Berkeley dataset,the model reduces the average number of clicks by 28% when achieving 90% segmentation accuracy.

Key Words: interactive image segmentation; Vision Transformer; cross attention mechanism; feature fusion

主站蜘蛛池模板: 久久久久亚洲Av片无码观看| 中文字幕欧美日韩| 在线另类稀缺国产呦| 久久99国产精品成人欧美| 欧美成人午夜影院| 秋霞一区二区三区| 狠狠久久综合伊人不卡| 国产91丝袜| 国产99在线观看| 天天色天天综合| 国产在线视频自拍| 91久久偷偷做嫩草影院免费看| 日韩在线永久免费播放| 激情六月丁香婷婷| 成人欧美日韩| 中文字幕人妻av一区二区| 国产精品55夜色66夜色| 日韩毛片视频| 538精品在线观看| 婷婷亚洲最大| 亚洲开心婷婷中文字幕| 亚洲无线一二三四区男男| 91外围女在线观看| 岛国精品一区免费视频在线观看 | 国产麻豆精品久久一二三| 国产日韩欧美一区二区三区在线| 国产精品视频3p| 一本大道AV人久久综合| 欧美一区精品| 欧美精品啪啪| 成人字幕网视频在线观看| 欧美国产精品拍自| 毛片免费观看视频| 日韩成人在线网站| 国产JIZzJIzz视频全部免费| 中国特黄美女一级视频| 国产一级在线观看www色| 午夜国产理论| 亚洲中文在线视频| 欧美日韩综合网| 99久久精品国产精品亚洲| 亚洲黄网视频| 国产在线精品人成导航| 亚洲人成网站在线观看播放不卡| 99这里只有精品6| 亚洲久悠悠色悠在线播放| 国产二级毛片| 国产精品视频观看裸模| 少妇露出福利视频| 亚洲色图欧美在线| 亚洲一区二区约美女探花| 欧美日韩国产精品综合 | 国产精品妖精视频| 九色综合伊人久久富二代| 影音先锋丝袜制服| 欧美一区二区三区不卡免费| 99热这里只有免费国产精品| 九九这里只有精品视频| 色综合五月| 国产成人亚洲无吗淙合青草| 中文字幕资源站| 网友自拍视频精品区| 国模私拍一区二区| 在线精品自拍| 欧美a级完整在线观看| 国产99视频在线| 欧美h在线观看| 真实国产乱子伦视频| 在线视频一区二区三区不卡| 久久久久国色AV免费观看性色| 一级毛片在线直接观看| 青青操国产| h视频在线观看网站| 狠狠色丁香婷婷| 高清无码一本到东京热| 露脸国产精品自产在线播| 亚洲毛片在线看| 在线无码九区| 国产精品视频导航| jizz在线免费播放| 色爽网免费视频| 久久久久青草大香线综合精品|