999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer兩階段策略的古代服飾線圖提取

2025-02-07 00:00:00周蓬勃馮龍武浩東寇宇帆
西北大學學報(自然科學版) 2025年1期

摘要 古代服飾線圖提取旨在精確獲取輪廓與形狀信息,以助于再創作和傳統服飾保護。但現有方法增加網絡以提高泛化性,導致參數量大增。為此,提出了基于Transformer的兩階段邊緣檢測方法,旨在解決圖像局部信息丟失以及模型參數量大的問題。第一階段將圖像分割成16×16粗粒度補丁,利用編碼器進行全局自注意力計算以捕獲補丁間依賴;第二階段采用8×8細粒度無重疊滑動窗口覆蓋圖像,通過局部編碼器計算窗口內注意力有效捕捉細微邊緣且降低成本。設計了輕量特征融合模塊,支持全局與局部特征的高效整合。實驗結果表明,該方法在古代服飾和公共數據集上邊緣輪廓信息提取效果優于現有方法,ODS指標平均提升15.9%。雖然OIS和AP未超過Informative Drawing,但在模型體量和耗時方面具有明顯優勢。

關鍵詞 邊緣檢測; Transformer; 輕量特征融合模塊

中圖分類號:TP391.41" DOI:10.16152/j.cnki.xdxbzr.2025-01-006

Ancient clothing line drawing extraction based on Transformer two-stage strategy

ZHOU Pengbo1, FENG Long2, WU Haodong2, KOU Yufan2

(1.School of Art and Media, Beijing Normal University, Beijing 100032, China;

2.National and Local Joint Engineering Research Center for Cultural Heritage Digitization,Northwest University, Xi’an 710127, China)

Abstract The extraction of ancient costume line drawings aims to precisely obtain contour and shape information to aid in re-creation and traditional preservation. However, existing methods increase network depth to improve generalization, leading to a significant increase in the number of model parameters. Therefore, this paper proposes a two-stage edge detection method based on Transformer, aiming to solve the problems of local information loss in images and large model parameter sizes. The first stage divides the image into 16×16 coarse-grained patches and uses an encoder to perform global self-attention calculations to capture dependencies between patches; the second stage covers the image with an 8×8 fine-grained non-overlapping sliding window and calculates the attention within the window through a local encoder to effectively capture subtle edges and reduce costs. A lightweight feature fusion module is designed to support efficient integration of global and local features. Experimental results show that this method outperforms existing methods in extracting edge contour information on ancient costume and public datasets, with an average improvement of 15.9% in the ODS metric. Although OIS and AP does not surpass Informative Drawing, this method shows obvious advantages in model size and time consumption.

Keywords edge detection; Transformer; lightweight feature fusion module

中國古代服飾文化是優秀傳統文化的重要部分,承載著華夏五千年的文化內涵和符號,既是中華物質文明的載體,也承載了中華精神文明。然而,由于服飾是有機質文物,極易受到光照、溫度和濕度的影響,因此多數情況下,這類文物只能長期珍藏于博物館,難以用于進一步的研究和創作。然而,古代服飾上的紋樣等元素,卻是中華文化的重要組成部分。本文以古代服飾為對象,利用邊緣檢測方法獲取古代服飾的線畫圖,用于二次開發和創作,為實現中華古代傳統服飾文化的數字化保護和傳承奠定深厚的基礎。

邊緣檢測是圖像處理和計算機視覺領域的基礎技術,識別圖像中的物體輪廓和邊界[1]。邊緣指圖像中亮度變化顯著的地方,這些變化往往代表了物體的輪廓、場景分割線或其他重要的視覺特征。邊緣檢測對于物體識別[2]、場景理解、圖像分割和視覺效果增強等都具有重要作用。

傳統的邊緣檢測方法如Canny邊緣檢測器[3]等,具有低錯誤率、單一響應、強邊緣和弱邊緣通過雙閾值劃分等優點。但是對噪聲較為敏感,一些算法(如Canny)[4-6]需要人工設定參數[7](例如閾值高低),可能會導致邊緣模糊或邊緣信息不連續情況下難以定位邊緣結構。

相較于傳統方法,深度學習方法具有更強的細節捕捉能力和抗噪性。近年來,諸多學者基于深度學習方法對二維圖像的邊緣檢測展開研究[8-9]。EDTER[10]使用全局編碼器捕獲粗粒度圖像全局上下文信息,使用局部編碼器挖掘細粒度圖像短距離的局部線索,在BSDS500、NYUDv2等多個邊緣檢測上展示優越的性能[11-12];SwinNet[13]基于Swin Transformer作為骨干網絡,同時結合CNN的局部檢測優勢,類似的還有EGCTNet[14];ECT[15]使用Transformer捕獲全局上下文信息,此外,引入了邊緣聚合和對齊損失確保邊緣一致性;為了捕獲圖像表面反射率、亮度、表面法線和深度信息不連續(RIND)造成的邊緣,SWIN-RIND[16]提出一種基于注意力機制和Swin Transformer的新型邊緣檢測方法[17],能夠對單一輸入圖像進行邊緣檢測。通過自上而下和自下而上的多級特征聚合塊作為解碼器,將不同層次的特征融合成富含上下文信息的共享特征,顯著提高了準確性和視覺性能。古代服飾具有服飾面料柔軟、紋理特征豐富、形狀復雜等特點。Transformer基于自注意力機制能夠捕獲位置之間的長程依賴關系,從而高效提取圖像全局上下文信息。Swin Transformer[17]是一種全新的Transformer架構,涵蓋了包括圖像分類和語義分割等多個領域,可以作為計算機視覺的通用骨干網絡。

DexiNed[18]是一種基于Transformer的端到端邊緣檢測方法[19-20]。其主要目標是通過Transformer的全局感知能力來捕捉圖像中的長距離依賴關系,從而提高邊緣檢測的準確性。LDC[21]旨在通過結合局部和全局上下文信息來提高邊緣檢測的準確性。該方法利用Transformer的多頭注意力機制來捕捉圖像中的多層次特征。MangaLine[22]采用了一種輕量級的Transformer架構,并結合了特定的卷積模塊來處理漫畫圖像中的獨特紋理和色彩特征,在漫畫風格圖像的邊緣檢測任務上取得了優異的成績,特別是在處理線條粗細變化較大的圖像時。Informative Drawing[23]結合了Transformer結構和繪圖知識,旨在增強邊緣檢測的魯棒性和細節保留能力。該方法通過引入繪圖規則和約束,指導Transformer更好地捕捉圖像中的邊緣信息。上述方法在線稿連續的圖像上效果顯著,然而服飾文物的線稿并不連續。

針對上述問題,本文提出基于Transformer兩階段策略的古代服飾線圖提取方法。該方法采用 Swin Transformer 中的移位窗口來替代傳統的非重疊等大圖像補丁窗口,充分提取圖像全局與局部特征,此外,引入了輕量特征融合模塊,用于融合全局和局部特征,解決線稿圖不連續的問題。將本文方法在PASCAL VOC[24]、NYUDv2和古代服飾等多個數據集上進行測試,并與DexiNed、LDC、MangaLine以及Informative Drawing等多個基線方法進行對比。實驗結果表明,該模型在圖像邊緣檢測任務上的性能較好,具有較強的泛化性和有效性。

1 基于Transformer兩階段策略古代服飾邊緣檢測方法

卷積神經網絡存在因下采樣導致的局部信息丟失問題[6]以及隨感受野擴大局部細節逐漸被抑制等問題,因此,本文提出了基于Transformer的邊緣檢測方法,Transformer 可以有效地捕獲圖像的全局信息,并且不受到局部感受野的限制,使其在處理高分辨率的圖像時能更好地理解圖像結構和語義信息,而且在輸入尺寸方面具有極高的靈活性。此外,采用端到端的方式進行學習,能夠實現從原始圖像到邊緣檢測結果的映射。

本文提出一種特征融合模型,旨在有效地學習和整合圖像的全局和局部特征,涵蓋了粗粒度和細粒度的補丁信息。此模型具備針對不同尺度特征操作的能力,能夠捕獲多樣的上下文信息。該方法通過2個階段分別提取全局和局部特征,并在此基礎上進行特征融合。在特征融合階段,引入了輕量特征融合模塊(light feature fusion module,LFFM),用于融合全局和局部線索,以及使用相同的雙向特征聚合解碼器(bi-directional multi-level aggregation,BiMLA)。另外,采用 Swin Transformer 中的移位窗口來替代傳統的非重疊等大圖像補丁窗口。

1.1 網絡結構

假設用A和B分別表示源圖像和預測圖像,例如秦腔服飾原圖和秦腔服飾線圖。使用fg表示全局特征,使用fr表示局部細化特征。本節的目標是通過基于全局特征和局部特征的Transformer方法融合來推斷A和B之間的有效映射,因此,本章的方法共包含2個轉換模型:A→fg、A→fr、fg,fr→B,其中,fg與fr處理過程較為相似,均是使用雙向聚合特征BiMLA解碼器得到,但是在圖像的處理細節及粒度上有區別。其中,由A圖像域轉換到fg的處理過程如圖1中Stage 1所示,主要目標是提取出全局特征,這個過程也可以得到一個較為粗糙的結果線圖。由A圖像域轉換到fr的處理過程如圖1中Stage 2階段LocalRefinement,這個過程將圖像分成64份,每組16份,在進行線性映射之后會嵌入位置信息,然后通過BiMLA解碼器處理特征圖。

對于BiMLA解碼器,采用2條路徑,一個自頂向下,一個自底向上,通過對特征塊進行卷積、反卷積操作,然后將2條路徑特征圖連接后再次進行3次3×3卷積和1×1卷積得到特征f(fg和fr)。其中的LFFM模塊取消了原來的特征自連接,并且通過新的2條路徑得到新的特征圖隨后進行融合,最終得到預測的服飾線圖。

具體來說,首先需要對圖像進行分區處理。將原始圖像使用補丁分割成一系列大小與補丁相等的扁平圖像塊。每個Transformer編碼器包含若干Transformer Block塊,其中又包含多頭自注意操作(MSA)、1個多層感知器(MLP)和2個層規范(LN)。最后并行執行M個自注意力操作,并將其連接輸出進行投影。

該研究所提出方法可處理任意輸入圖像完成邊緣檢測任務,解決了 CNN 中局部信息丟失、依賴大量訓練數據以及過擬合等問題。該方法在預測線圖質量、訓練速度及保留全局和局部細節特征方面表現出良好的平衡性。

1.2 兩階段特征提取

圖像的結構主要依賴于低維特征,而高維特征在維持圖像的紋理和顏色方面起到了關鍵作用。盡管高維特征中蘊含了豐富的細節,但其語義信息相對不足。此外,在深度學習的網絡中,隨著網絡深度的增加,梯度消失問題變得更加突出,導致低維特征難以被充分利用。采用兩階段特征提取方法能夠有效處理低維特征和高維特征。

第一階段,采用全局Transformer編碼器和解碼器來探索粗粒度上下文特征。將圖像分割成大小為16×16像素的粗粒度補丁,隨后生成嵌入輸入,編碼器對全局進行自注意力計算捕獲補丁之間的依賴。具體見公式(1),

Zg={z1g,z2g,z3g,…,zLgg}=GE(z0g)(1)

式中:z1g,z2g,…,zLgg∈RHW256×G表示GE中連續塊地輸出,Lg是GE中Transformer Block的個數。

BiMLA解碼器的設計促進了邊緣感知任務中的注意力計算,它采用可學習的上采樣策略處理注意力。該方法首先將LgTransformer Block劃分成4組,并以每組最后一個的嵌入特征{z6g,z12g,z18g,z24g}作為輸入,重新構造特定尺寸為H16×W16×C的3D特征。在自上而下的路徑中,對重構特征進行相同的操作(包括1個1×1卷積層和1個3×3卷積層),獲得4個輸出特征{t6,t12,t18,t24}。同時,從最低層(z6g)開始,自下而上的路徑逐漸接近最高層(z24g),并在多層特征上附加1個3×3的卷積層,最終產生另外4個輸出特征{b6,b12,b18,b24}。除此之外,BiMLA在將每個聚合特征傳遞至下一層時,運用了反卷積塊[25]。該塊包含2個反卷積層,分別使用4×4和16×16核,隨后是批歸一化和ReLU操作。通過這種方式,BiMLA將雙向路徑采樣得到的8個特征進行連接,形成一個統一的張量。為了增強特征的平滑性,BiMLA還引入了額外的卷積堆棧來處理這些連接特征。

BiMLA解碼器過程見公式(2),

fg=GD(z6g,z12g,z18g,z24g)(2)

式中:fg代表像素級全局特征;GD是全局BiMLA解碼器。

邊緣的精細度對于許多應用領域至關重要,因此探索像素級預測的細粒度上下文特征是十分必要的。然而,考慮到理想的邊緣寬度通常僅1個像素,使用較大的16×16的補丁進行特征提取在捕獲細微邊緣時存在局限性。同時,若直接使用像素大小的補丁會導致計算成本急劇上升,在實際操作中不可取。方法是采用無重疊滑動窗口(H/2×W/2)在圖像X∈RH×W×3上進行覆蓋,將輸入圖像X分解為序列{X1,X2,X3,X4}。

第二階段,以8×8的細粒度補丁為單位,通過共享的局部編碼器RE計算窗口內的注意力,并將所有窗口的注意力特征連接在一起,獲得zr={z1r,…,zLrr}∈RHW/64×C。為了降低計算量,設置局部Transformer編碼器數量為12個。與全局BiMLA類似,采用二階段方法,從zr中均勻選取{z3r,z6r,z9r,z12r}并將其輸入到局部BiMLA中,生成高分辨率局部特征。

1.3 輕量級特征融合模塊

采用改進的輕量特征融合模塊(LFFM)結合2個級別的上下文信息,通過局部決策頭來推斷邊緣結果圖。相較于之前的FFM模塊,LFFM模塊由空間特征塊及2個3×3卷積層構成,并經過批歸一化和ReLU操作,前者實現調制,后者完成平滑工作。值得一提的是,LFFM模塊采用基于FDC[26]結構的設計思路進行實現。

通道空間注意力機制[27](channel-spatial attention mechanism,CSAM)融合通道和空間注意力[28],以更好地捕獲圖像特征之間的通道相關性和空間位置的重要性,從而提高模型性能。首先計算通道權重因子并應用于特征圖的不同通道特征上,對其進行加權累加得到權重特征圖。其次,利用空間注意力對加權特征圖的每個位置進行權重評估,以確定該位置在特征圖中的重要程度。最后,通過將這些權重應用于已加權的特征圖,對各個空間位置的特征進行加權求和,從而生成最終的特征表示。這一過程相當繁瑣,為簡化這一過程,提出了輕量特征融合模塊LFFM。

為了減少網絡訓練過擬合的可能性,進行了對密集卷積的移除操作。在LFFM模塊中,首先對全局特征圖進行2次分支計算,每個分支包括2個3×3的卷積操作。然后,左側分支與右側分支進行加權后連接至右側分支,接著依次進行卷積、歸一化、ReLU、卷積、歸一化等操作。

通過改進的通道注意力機制,有效減少了特征融合時的計算參數,從而提高了訓練速度。同時,引入了自注意力機制,在提取的線圖結果上也取得了良好效果。

1.4 損失函數

總損失由全局損失和局部損失兩部分組成。

給定線圖E,對應源圖像Y,定義總損耗為

l(E,Y)=-∑[DD(X]i,j[DD)](Yi,jαlog(Ei,j)+" (1-Yi,j)(1-α)log(1-Ei,j))(3)

式中:Ei,j和Yi,j分別指代矩陣E和Y的第(i, j)th元素。而α=|Y-||Y-+Y+|則用于表示總樣本中負像素所占的百分比。實際操作中,首先將數據集中的多個標簽歸一化為邊緣概率圖,其取值范圍[0,1]。隨后,應用一個預設的閾值η來篩選像素點,若某像素點的概率值超過η,則將其標記為正樣點,反之,將其標記為負樣點。

在訓練階段1,首先將全局決策頭合并到全局特征映射上,表示為公式(4),

Eg=GH(fg)" (4)

式中:引入一個全局決策頭,用GH表示,它由1×1卷積層和Sigmoid函數構成。

另外,針對全局BiMLA提取的中間特征t6、t12、t18、t24和b6、b12、b18、b24執行相似操作,即使用4×4反卷積層和16×16反卷積層,逐步增強編碼器在邊緣感知注意力。

通過最小化每個邊緣地圖和真實源圖像之間的損失來優化參數,損失函數可以表示為

Lg=LEg+λ1Lsideg=l(Eg,Y)+λ1∑[DD(]8[]k=1[DD)]l(Skg,Y)" (5)

式中:l是損失函數;Y是真實源圖像;Skg是邊緣地圖;λ1是權衡參數。

在第一階段之后,固定第一階段的參數,然后進入第二階段。與一階段訓練相似,對從局部BiMLA解碼器提取的中間特征執行反卷積操作,生成側輸出S1r,S2r,…,S8r。損失函數定義如下(類似階段一),

Lr=LEr+λ2Lsider=l(Er,Y)+λ2∑8[]k=1l(Skr,Y)" (6)

式中: LEr和Lsider是Er和側輸出的損失; 設置λ2為0.4。

2 實驗與結果分析

本文針對邊緣檢測圖像,采用了經典的Canny[29](手動調節閾值)、DexiNed[18]、LDC[21]、MangaLine[22]、Informative Drawing[23]算法為基線,并利用ODS(overall dataset scale)、OIS(optimal dataset scale)和AP(average precision)作為評估邊緣檢測算法性能的標準。其中,ODS反映了整體性能水平,得分越高越好。OIS衡量在最優閾值下的邊緣檢測結果的性能。AP代表算法在計算精度-召回率曲線并計算面積時,用于確定算法在多組數據集下的平均性能表現和穩定性。

2.1 實驗設置

訓練選用Adam[30]優化器,參數β1為0.5,β2為0.99。初始學習率為0.000 2,訓練總階段數為2,批量設置為16。此外,所處理的圖像最大尺寸為512×512,裁剪尺寸統一為256×256。所使用的編碼器補丁采用16×16像素、8×8像素和4×4像素的無重疊移動窗口,在處理中間卷積特征時,引入DropOut層且參數設置為0.2,以優化模型并解決訓練過程中的過擬合問題,提高模型網絡的泛化性能。模型在NVIDIA 3090顯卡下進行訓練。

2.2 數據集

PASCAL VOC作為一種應用于視覺模型分類、檢測、分割等算法設計的數據集,被廣泛應用于挑戰賽中,如 ImageNet Large Scale Visual Recognition Challenge 等,旨在對視覺算法的性能進行全面評估和提升。包含10 103個原圖與批量二值化得到的邊緣檢測圖。

NYUDv2數據集作為廣泛應用于深度估計和圖像分割等視覺任務的標準化數據集,包含家庭、辦公室和實驗室等多種復雜的室內環境。其中包括3 397對原圖與線圖結果及871對測試數據。

古代服飾數據集選取了一部分由個人收集的古代服飾線圖,解決復雜紋理線圖提取問題。

在3個數據集中分別使用100張用于驗證,100張用于測試,而剩余的300張用于訓練。這些圖像均經專業標注,未經處理,可信度高。

2.3 定性實驗結果與分析

為保證實驗結果的準確性與可靠性,本文選用了DexiNed、LDC、MangaLine以及Informative Drawing等模型所提供的官方代碼,并用其對應的代碼環境實驗。其中,DexiNed、LDC 和 Informative Drawing 使用源域和線圖結果一一對應的數據集訓練,而MangaLine僅使用了 BSDS500 數據集的圖像(共 500 張,來源于自然場景,其中 200張用于訓練,100 張用于驗證)。Informative Drawing 和本文方法一致,使用源域和線圖域對齊的數據集進行訓練。

圖2是本文方法在PASCAL與NYUDv2數據集與基線模型的定性對比結果。圖3是在古代服飾數據集上與基線模型的定性對比結果,包括源圖像和提取的線圖結果圖像。Canny 代表使用手動設置閾值的處理結果,DexiNed、LDC 分別是密集網絡、輕量網絡提取出的線圖,MangaLine代表簡單卷積(U-Net 簡化塊數、無跳躍連接)的提取結果,Informative Drawing 是使用 GAN 提取出的線圖。可以發現,本文方法在整體性能上優于DexiNed、LDC、MangaLine和Canny基線方法,部分超越Informative Drawing(其使用完整數據集訓練)。

Canny算子在古代服飾數據集中效果并不理想,存在輪廓不連貫、清晰度不足等問題(見圖3)。DexiNed難以完全捕捉到細微的邊緣細節。可能無法檢測到所有的內部邊緣或者小細節。LDC是一種輕量級的計算架構,采用更小的濾波器和更緊湊的模塊,限制了模型學習復雜特征的能力。在房間局部細節邊緣檢測結果模糊。MangaLine無法完全捕捉到細節豐富的古代服飾的邊緣細節(見圖3)。Informative Drawing引入幾何損失從線條圖像特征中預測深度信息,無法準確定位邊緣,在PASCAL數據集存在邊緣模糊問題。

而為了突出顯示線圖結果,由于源圖像較大,將本文的對比方法單獨列出(見圖 3 中箭頭所指示圖像)??梢园l現上述方法在PASCAL和NYUDv2效果顯著,但在線稿不連續的古代服飾數據集中難以捕獲圖像細節紋理信息。可以看出本文模型方法提取的輪廓線不僅清晰,而且將古代服飾的針線導致的不連續性突出顯示。不同于DexiNed、Informative Drawing 輪廓線較粗的問題,本文解決了針對圖像(高分辨率圖像)輪廓線提取不清晰和線稿不連續的問題。

2.4 定量實驗結果與分析

定量實驗結果如表1所示,基于 ODS、OIS 和 AP 圖像邊緣檢測評價指標,對 Canny、DexiNed、LDC、MangaLine、Informative Drawing 以及本節所提出方法在 PASCAL VOC 和NYUDv2 數據集上的結果進行了詳細的比較和分析。

可以發現,相較于DexiNed、LDC、MangaLine等使用完整數據集進行訓練的CNN 方法,本文使用的方法在圖像邊緣檢測任務上具備更優秀的評價指標表現,這是因為 CNN 方法對訓練數據量的要求較高,導致其泛化性方面不如使用相同數據量進行訓練的 Transformer 方法。因此,本文提出的方法所生成的線圖圖像在質量和泛性上都有較大的提升。本文方法在ODS和OIS評分上表現良好,特別是在PASCAL VOC數據集上,本文模型的ODS得分比第二名高出1.6%,比最低名次高出35.7%。在NYUDv2數據集上,ODS得分比第二名高出約0.5%,同時訓練時間縮短了15倍,比最低名次高出38.8%。這些數據表明,本文方法在學習源圖像和目標圖像分布特征方面非常成功,生成的線圖質量高、完整且邊緣輪廓清晰。

相比于需要大量訓練數據的CNN方法,本文使用的Transformer方法在泛化性方面表現更佳。此外,與GAN方法相比,本文方法在訓練次數和綜合性能上也顯示出競爭力。這些優勢使得本文提出的方法在實際應用中具有潛在的價值,尤其是在需要快速、高效邊緣檢測的場景中。

本文方法在PASCAL VOC和NYUDv2數據集上的綜合效果雖然未超過Informative Drawing,但在模型體量和耗時方面展現了顯著的優勢。具體而言:Canny方法因無法有效處理復雜紋理而表現較差;DexiNed因多尺度特性設計在一定程度上提升了準確性;LDC在復雜背景中魯棒性不足,導致性能下降;MangaLine更適合漫畫風格圖像,與服飾紋理差異較大;Informative Drawing在某些指標上表現優異,但特征提取策略需要優化。而本文的方法基于Transformer的兩階段策略,實現了更輕量級和高效的邊緣檢測模型。這不僅降低了計算資源的消耗,還提高了實際應用中的處理速度。

2.5 模型參數評估

在評估實驗中, 通常會采用默認配置來訓練模型, 并在結果中列出模型的參數總量以及在特定任務上的平均訓練時間, 來驗證本文模型的效率。

圖4列出DexiNed、LDC、MangaLine、Informative Drawing及本文模型的參數總量以及在圖像線圖提取任務上的平均訓練時間。由圖4可見,本文提出的模型在圖像邊緣檢測方面表現優于傳統的基于卷積神經網絡(CNN)和生成對抗網絡(GAN)方法。此外,本文模型的參數量僅僅包含2.5 M,顯著少于一些表現優秀的CNN和常見的GAN模型,這可能意味著模型更加高效,需要更少的計算資源。

此外,相比于GAN方法,本文模型在訓練時間上也有所縮短,這表明本文方法在提高模型收斂速度方面也是有效的。減少模型的參數量和訓練時間對于實際應用來說是非常重要的,因為這可以使模型更快地部署到實際環境中,同時也減少了計算資源的消耗,參數量較少的模型通常需要更少的內存和存儲空間,這使得它們更適合在內存受限的設備上運行,例如移動設備和嵌入式系統等。

2.6 消融實驗

為驗證本文方法中不同模塊的有效性,基于PASCAL VOC、NYUDv2數據集設計了5個消融實驗。(Ⅰ)改變BiMLA解碼器卷積塊為殘差塊;(Ⅱ)去除Transformer中的層歸一化;(Ⅲ)移除位置編碼;(Ⅳ)恢復傳統窗口操作;(Ⅴ)移除輕量特征融合模塊;(Ⅵ)完整模型。

定性結果如圖5所示。當(Ⅰ)改用殘差塊時增加模型復雜度,導致特征利用不當,預測圖像出現噪點和線條不連續;(Ⅱ)刪除Transformer的層歸一化,編碼器無法有效傳遞圖像特征,訓練時間增加;(Ⅲ)去除位置編碼,全局特征信息利用不佳,結果受輸入圖像分辨率影響;(Ⅳ)移除移動窗口機制,模型泛化性下降;(Ⅴ)去除輕量級特征融合模塊后,生成結果仍然存在噪聲,例如生成結果的中心部分。這些消融實驗揭示了各組件對模型性能的影響程度。

定量結果如表2所示,采用3個評價指標 ODS、OIS、AP 計算了本模型的不同消融實驗的定量結果。值得注意的是,所提出的完整模型在3項圖像處理質量和性能最佳的評價指標上均達到了最優,這為本節提供的邊緣檢測方法的有效性提供了實證依據。

3 結語

針對目前方法難以提取紋理復雜的中國古代服飾線圖等問題,提出了一種基于Transformer兩階段策略的邊緣檢測模型。采用較大的補丁窗口對圖像進行劃分,全局編碼器處理線性化操作后的劃分窗口,之后傳入全局BiMLA解碼器。第一階段,應用雙向路徑(包括自頂向下和自底向上)對特征信息進行處理,用來學習圖像的全局語義信息。第二階段,采用更細致的補丁窗口劃分圖像,嵌入位置編碼,有效解決了線條模糊的問題,從而提高了預測圖像的質量。最后,引入了輕量級特征融合模塊,通過采用端到端的訓練方式,加快了網絡收斂速度。

實驗結果表明,本文方法能夠生成具有輪廓清晰、線條連貫和噪聲最少的高質量圖像,且具有強泛化性。在對PASCAL VOC、NYUDv2數據集進行圖像預測時,均顯著優于常規的CNN方法,且可接近于參數量較為龐大的GAN方法,其中ODS平均提高了7.3%,OIS平均提高了4.1%,AP平均提高了12.8%。此外,可以用于提取紋理線條等復雜的古代服飾的線圖,對保護和傳承中華傳統文化至關重要。

該方法可以加快線圖提取,但針對服飾圖像如何選擇最優的補丁窗口仍待進一步研究,因此,在實際應用中提取效果并不理想,無法達到實時性需求。為實現真正的實時圖像邊緣檢測,未來的研究可以探索更高效的算法和網絡結構(如采取動態特征融合策略)以提高訓練和推理的效率,同時也需要考慮如何更好地融合圖像多尺度語義特征,從而實現更準確和可控的邊緣檢測。

參考文獻

[1] SUN R, LEI T, CHEN Q, et al. Survey of image edge detection[J]. Frontiers in Signal Processing, 2022, 2: 826967.

[2] SIVAPRIYA M S, SURESH S. ViT-DexiNet: A vision transformer-based edge detection operator for small object detection in SAR images[J]. International Journal of Remote Sensing, 2023, 44(22): 7057-7084.

[3] AKBARI SEKEHRAVANI E, BABULAK E, MASOODI M. Implementing canny edge detection algorithm for noisy image[J]. Bulletin of Electrical Engineering and Informatics, 2020, 9(4): 1404-1410.

[4] MCILHAGGA W. The canny edge detector revisited[J]. International Journal of Computer Vision, 2011, 91(3): 251-261.

[5] LI Y B, LIU B L. Improved edge detection algorithm for canny operator[C]∥2022 IEEE 10th Joint International Information Technology and Artificial Intelligence Conference. Chongqing, China: IEEE, 2022: 1-5.

[6] UY J N, VILLAVERDE J F. A durian variety identifier using canny edge and CNN[C]∥2021 IEEE 7th International Conference on Control Science and Systems Engineering." Qingdao, China: IEEE, 2021: 293-297.

[7] OJASHWINI R N, GANGADHAR REDDY R, RANI R N, et al. Edge detection canny algorithm using adaptive threshold technique[C]∥Intelligent Data Engineering and Analytics. Singapore: Springer, 2020: 469-477.

[8] 肖揚, 周軍. 圖像邊緣檢測綜述[J]. 計算機工程與應用, 2023, 59(5): 40-54.

XIAO Y, ZHOU J. Overview of image edge detection[J]. Computer Engineering and Applications, 2023, 59(5): 40-54.

[9] YE Y F, YI R J, GAO Z R, et al. Delving into crispness: Guided label refinement for crisp edge detection[J]. IEEE Transactions on Image Processing, 2023, 32: 4199-4211.

[10]PU M Y, HUANG Y P, LIU Y M, et al. EDTER: Edge detection with transformer[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 1392-1402.

[11]RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]∥2021 International Conference on Machine Learning. ICML, 2021: 8748-8763.

[12]ARBELEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.

[13]LIU Z Y, TAN Y C, HE Q, et al. SwinNet: Swin transformer drives edge-aware RGB-D and RGB-T salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(7): 4486-4497.

[14]XIA L G, CHEN J, LUO J C, et al. Building change detection based on an edge-guided convolutional neural network combined with a transformer[J]. Remote Sensing, 2022, 14(18): 4524.

[15]XU S C, CHEN X X, ZHENG Y H, et al. ECT: Fine-grained edge detection with learned cause tokens[J]. Image and Vision Computing, 2024, 143: 104947.

[16]MIAO, L, TAKESHI O, RYOICHI I. SWIN-RIND: Edge detection for reflectance, illumination, normal and depth discontinuity with Swin Transformer[C]∥The 34th British Machine Vision Conference. Aberdeen, UK: BMVA Press, 2023: 1-10.

[17]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]∥2021 IEEE/CVF International Conference on Computer Vision.Montreal, Canada: IEEE, 2021: 9992-10002.

[18]SORIA X, RIBA E, SAPPA A. Dense extreme inception network: Towards a robust CNN model for edge detection[C]∥2020 IEEE Winter Conference on Applications of Computer Vision. Snowmass Village, USA: IEEE, 2020: 1923-1932.

[19]HAN K, WANG Y H, CHEN H T, et al. A survey on vision transformer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 87-110.

[20]SUBAKAN C, RAVANELLI M, CORNELL S, et al. Attention is all you need in speech separation[C]∥2021 IEEE International Conference on Acoustics. Toronto, Canada: IEEE, 2021: 21-25.

[21]SORIA X, POMBOZA-JUNEZ G, SAPPA A D. LDC: Lightweight dense CNN for edge detection[J]. IEEE Access, 2022, 10: 68281-68290.

[22]LI C Z, LIU X T, WONG T T. Deep extraction of manga structural lines[J]. ACM Transactions on Graphics, 2017, 36(4): 1-12.

[23]CHAN C, DURAND F, ISOLA P. Learning to generate line drawings that convey geometry and semantics[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 7905-7915.

[24]EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

[25]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 3431-3440.

[26]YIN Z Y, WANG Z S, FAN C, et al. Edge detection via fusion difference convolution[J]. Sensors, 2023, 23(15): 6883.

[27]LE M, KAYAL S. Revisiting edge detection in convolutional neural networks[C]∥2021 International Joint Conference on Neural Network. Shenzhen, China: IEEE, 2021: 1-9.

[28]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 7132-7141.

[29]XIE S N, TU Z W. Holistically-nested edge detection[C]∥2015 IEEE International Conference on Computer Vision. Santiago, USA: IEEE, 2015: 1395-1403.

[30]KINGMA D P, JIMMY B Adam: A method for stochastic optimization[J]. International Conference on Learning Representations, 2014:6628106.

(編 輯 李 波)

基金項目:國家自然科學基金(62271393);國博文旅部重點實驗室開放課題(1222000812, CRRT2021K01)。

第一作者:周蓬勃,男,博士,高級工程師,從事數字藝術與虛擬現實研究,zhoupengbo@bnu.edu.cn。

主站蜘蛛池模板: 精品一区二区三区视频免费观看| 三上悠亚精品二区在线观看| 91久久夜色精品| 国产一区二区精品福利| 成人欧美在线观看| 亚洲国产成熟视频在线多多| 无码高清专区| 亚洲成年人网| 国产精品午夜电影| 激情综合网址| 国产免费羞羞视频| 四虎永久在线精品国产免费| 国产成人高清在线精品| 欧美一区二区自偷自拍视频| 国产美女无遮挡免费视频| 国产黄色免费看| 九月婷婷亚洲综合在线| 麻豆精选在线| 一本久道久久综合多人| 色天天综合久久久久综合片| 丰满人妻一区二区三区视频| 日韩精品久久久久久久电影蜜臀| 精品国产自在现线看久久| 精品国产三级在线观看| 国产 在线视频无码| 5555国产在线观看| 国内熟女少妇一线天| 国产女同自拍视频| 五月天福利视频| 91精品人妻一区二区| 欧美爱爱网| 亚洲AV一二三区无码AV蜜桃| 国产成人亚洲毛片| 久久一本日韩精品中文字幕屁孩| 国产真实二区一区在线亚洲| 亚洲成人黄色网址| 香蕉视频在线观看www| 欧美一级视频免费| 福利国产在线| 国产成人精品日本亚洲| JIZZ亚洲国产| 波多野结衣二区| 国产精品欧美日本韩免费一区二区三区不卡 | 国产精品制服| 黄片在线永久| 天堂网亚洲综合在线| 中文字幕伦视频| 狠狠操夜夜爽| 久久午夜夜伦鲁鲁片无码免费| 亚洲天堂免费在线视频| 亚洲国产天堂久久九九九| 91毛片网| 欧美国产综合视频| 亚洲国产亚洲综合在线尤物| 成人免费视频一区| 91在线丝袜| 四虎影视8848永久精品| 久久国产精品电影| 秘书高跟黑色丝袜国产91在线| 国产综合欧美| 国产拍揄自揄精品视频网站| 伊人无码视屏| 国产精品黄色片| 又粗又硬又大又爽免费视频播放| 国产精品99在线观看| 伊人天堂网| 国产草草影院18成年视频| 国产一级小视频| 在线观看国产黄色| 国产男人的天堂| 国产精品成人AⅤ在线一二三四 | 婷五月综合| 国产午夜精品一区二区三区软件| 成人91在线| 五月天丁香婷婷综合久久| 国产高清自拍视频| 国产精品欧美日本韩免费一区二区三区不卡 | 四虎亚洲精品| 影音先锋亚洲无码| 在线色综合| 亚洲第一成年人网站| 国产精品视屏|