999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對比學習的三維模型分類

2025-07-14 00:00:00曲中水劉珊高源丁博
哈爾濱理工大學學報 2025年2期
關鍵詞:分類特征模型

關鍵詞:三維模型分類;對比學習;卷積神經網絡;注意力機制;遷移學習DOI:10.15938/j. jhust.2025.02.004中圖分類號:TP391 文獻標志碼:A 文章編號:1007-2683(2025)02-0032-10

Abstract:At present,3Dmodelclasification hasbeenaresearch hotspot.Masive3Dmodels notonlyhavediversityineach class,butalsoavesimilaritisbetweenclases,whichseriouslyafect theclasificationaccuracyof3Dmodels.Weproposea3D modelclassficatiomethodbasedootrastielaingIntstod,thengisdidedintompledisiatioagead aclassifictionstage.Inthestageofsamplediscrimination,3Dmodelsofthesamecategoryaremutuallpositivesamples,and3D modelsofothercategoriesaremutuallyegativesampls.Thecontrastivelossisusedtoconstraintesamplefatures,ndtepositive andnegativesamplesareappedtothesingle-centerunithypersphereinthesamespace toobtainagoodsemanticrepresentationspace of3Dmodellasification.Inaditon,inodertocapturethecorelatinbetweentheviewsandthekeyareasintheviews,amultiheadslf-attentionmoduleandspatialatentionmoduleareintroducedinteaper.Moreover,thechaelatentionisddednthe multi-headself-atentionmoduletoobtainthechanneldimensioninformation.Intheclasificationstage,thenetworkmodelis trasferredtotheclassficationtaskbyfine-uningtenetworkparametrstocompletethe3Dmodelclasification.Theexperiental results show that the classification accuracy of the 3D model respectively reaches 99.4% and 97.5% on the ModelNet1O and ModelNet40 datasets.

Keywords:3Dmodel classification;contrastive learning;convolutionneural network;atention mechanism;transferleaing

0 引言

人類的視覺感知具有三維立體性,并且三維模型相較于文本、圖像等擁有更加豐富的信息,因而三維模型在機器人、工業設計、無人駕駛等新興領域有著舉足輕重的作用。計算機圖形學和硬件技術的不斷進步和發展,使得大規模復雜三維模型的設計更加方便和簡潔。三維模型識別、三維模型檢索以及針對三維模型的姿態估計等研究課題不僅是長久以來學術界研究的熱點,更是現實生活和實際應用中亟待解決的關鍵性技術[1]

得益于深度學習的發展,基于視圖的三維模型分類研究取得了巨大的進步。現有的基于視圖的三維模型分類方法是在深度神經網絡中引入注意力機制,關注三維模型視圖內部的信息差異,然后通過交叉熵損失函數利用樣本標簽的約束完成三維模型的分類。Liu等[2]、Liu等[3]、Liang等[4]進一步將長短時記憶網絡和注意力機制結合,獲取了更具有區分性的三維模型特征描述符。然而,不同的視圖之間的差異性特征提取不夠充分,不同類別的三維模型在某些視圖下具有相似的外觀特征,可能導致錯誤分類。3DRMS通過跨模態蒸餾將圖像知識應用到基于體素和點云的模型上[5]。MMFN 構造點云和視圖多模態融合網絡,充分結合二者的相關信息進行分類[6]。LP-3DCNN從不同視角的3D局部鄰域中提取相位來獲取特征圖,然后通過激活函數進行線性組合[7]。SCFN設計通道注意力和上下文信息融合模塊聚合多視圖特征,以獲取緊湊的3D表示[8]。PVR 利用基于極坐標視圖的方法,將3D點云投影到二維平面,并使用卷積神經網絡進行訓練,能夠有效地捕捉3D形狀的內部結構和關鍵特征[9]。3D2SeqViews通過聚合多個視圖學習3D全局特征[1o]。MVA-CNN先提取多視圖特征,然后對多視圖特征進行聚合[1]。MVCLN 利用序列視圖表示三維模型[12],并設計了多視圖卷積LSTM網絡,該網絡利用LSTM結構提取時間信息,并應用卷積操作提取空間信息。上述基于視圖的方法雖然考慮了不同視圖之間的關系,并通過注意力機制有效提取了視圖特征,但是由于三維模型具有類內多樣性和類間相似性,上述方法仍然不能對不同類別的相似物體進行準確分類。

三維模型不僅具有類內多樣性,也具有類間相似性,對此,研究人員先后提出了Siamese二元度量,Triplet以及TripletCenter三元度量等屬性[13]即對齊和統一。所謂“對齊”,指的是相似樣本,也就是正例,映射到單位超球面后應該有接近的特征,也就是說,在超球面上距離比較近。而“統一”,指的是對比學習系統應該傾向于在特征里保留盡可能多的信息,這等價于映射到單位超球面的特征盡可能均勻地分布在球面上,分布得越均勻,意味著保留的信息越豐富,分布均勻意味著兩兩有差異,也意味著各自保留獨有信息,代表信息保留充分。對此,研究者提出的CPC[14]、AMDIM[15]、BYOL[16]、Sim-CLR[17]、Swav[18]等較為著名的對比學習方法,都取得了不錯的實驗效果。近年來也有學者將這種思想應用到三維模型分類領域,3D-GANs提取三維模型的形狀級別特征,通過自動編碼器學習三維模型的特征信息[19]。PointCapsnet 將膠囊網絡應用到三維點云中,通過重建三維模型的形狀進行訓練[20]。Li等[21]提出一種無監督的聚類方法,用于學習點云特征。基于點云的方法通常對物體的視角變化較敏感,然而基于視圖的方法對物體的姿態和視角變化具有一定的魯棒性。通過在訓練階段使用多個視角的數據,模型可以學習到對物體的不同視角不變性的特征表示,從而在測試階段對不同視角的物體進行準確分類。所以本文采用多視圖表示三維模型,在此基礎上,采用對比學習實現三維模型分類。

傳統的無監督對比學習對于三維模型這種類別間具有相似性、個別類別內具有很大的差異性的數據來說,缺乏了一定的魯棒性,網絡模型的泛化能力不足。在此基礎上,Khosla等[22]提出了一種有監督的對比學習方法,新的對比損失函數不再像無監督時每個錨點只有單個正樣本,該方法允許每個錨點有多個正樣本,將對比學習完全適應于完全監督的環境。本文主要創新如下: ① 訓練時采用有監督的對比學習的方式,以分階段訓練的方式對三維模型進行分類,第1階段利用類別標簽對三維模型進行對比損失約束,增加三維模型類間的區分性,減小三維模型類內的差異性。第2階段凍結第1階段的特征,然后通過微調多層感知機層完成三維模型分類。② 本文在網絡中引入多頭自注意力模塊,捕捉三維模型的二維視圖之間的關聯性。 ③ 在網絡模型內引入通道注意力和空間注意力,進一步對多頭自注意力模塊進行改進,有效的提升了其特征提取能力。

1 本文方法

1. 1 總體方法

本文提出了一種基于對比學習的三維模型分類方法,該方法的網絡訓練分為兩個階段,第1階段是樣本區分性階段,通過對比損失對正負樣本進行約束,增加三維模型類間的區分性,減小三維模型類內的差異性。第2階段是分類階段,為了更好的將網絡模型遷移到分類任務中,第2階段訓練時首先固定第1階段骨干網絡中學習到的特征參數,然后增加多層感知機層微調參數,使用交叉熵損失函數訓練一個線性分類器,完成對三維模型的分類。圖1為本文的整體框架圖。

圖1總體框架Fig.1 General framework

第1階段訓練時,本文借鑒有監督對比學習的思想,通過已知的樣本標簽來構建對比損失中的正負樣本對,將當前類別下三維模型的二維視圖作為正向樣本,將其余類別三維模型的二維視圖作為負向樣本,輸入到同一個深度神經網絡中訓練,每個視圖在網絡中被映射為特征向量,歸一化后的特征映射到空間單中心單位超球體上,基于該空間單中心單位超球體,通過內積計算投影空間中特征的距離,減小三維模型間的類內差異性,增加三維模型的類間差異性,從而得到一個良好的語義表示空間。對比損失的計算表達式如下:

其中: vi 為三維模型的視圖; Fi 為視圖特征; Fj 為 Fi 的正樣本特征; Fk 為 Fi 的負樣本特征; N 為視圖數量; I(???) 為指示函數; 為指數函數,可以將括號內的值映射到一個正數范圍內,并且具有指數增長的特性,這樣的處理可以在公式中引入非線性,幫助模型捕捉特征之間相似性; T 為溫度,對比損失通過調整溫度的大小來調節輸出結果的“平滑程度”, Tgt;1 時會將輸出值大小變得平均,增強負樣本信息對結果的影響,而 Tlt;1 時,會將輸出值間的差別擴大,負樣本對輸出的影響會顯著減小,實驗中為防止實驗結果受到負樣本中噪聲的影響,溫度值一般很小。本文引入對比損失是為了在特征空間中,同類視圖之間更加接近,而不同類視圖之間更加分散。

具體來說,本文第1階段訓練時的骨干網絡如圖2所示。對于一個三維模型來說,數據處理時,首先根據正十二面體的投影方式,將三維模型置于正十二面體的中心位置,正十二面體的20個頂點上都放置一個虛擬相機,將三維模型投影為20張二維視圖。

具體訓練過程見圖2,首先將三維模型的二維視圖序列 S(vi)=(v1,v2,…,v20) , i∈{1,2,…,20} 輸入到ResNet18網絡中得到每個視圖的特征向量Ftr=fcnn(S(vi)), , t,i∈{1,2,…,20} ,然后將特征向量 Ftr 作為多頭注意力模塊、通道注意力模塊以及空間注意力模塊3部分網絡的輸入,通過3部分網絡分別對特征向量 Ftr 進行訓練,提取特征中不同的信息。通過多頭自注意力運算學習視圖間的關聯性信息,然而原始的多頭自注意力運算更多地關注于特征與特征間的關聯性信息,對特征本身通道維度以及空間維度的信息提取能力不足。本文引入通道注意力模塊和空間注意力模塊,提取視圖間的關聯性信息,提升了骨干網絡的特征提取能力。本文采用的骨干網絡是Resnet18,Resnet18提取到的特征維度為 b×20×c×h×w ,其中 b 為batchsize,視圖數量為 20,c 為通道維度, h×w 表示空間維度。為匹配多頭注意力模塊的特征輸人,我們將多頭注意力模塊和通道注意力模塊兩部分特征映射為 b×20×c ,通道注意力模塊運算后將通道權重賦值給多頭注意力模塊,空間注意力模塊部分特征不變,將多頭注意力模塊和空間注意力模塊兩部分特征融合,最終得到具有信息增強性的特征描述符,輸入到后續網絡中訓練。

第2階段訓練時,固定第1階段骨干網絡訓練得到的網絡參數,將網絡參數微調后遷移到分類任務中。具體來說,為了將網絡模型遷移到分類任務中,第2階段訓練時,在第1階段的骨干網絡基礎上增加了最大池化層和多層感知機層對網絡參數進行微調,然后通過交叉熵損失函數進行特征約束,最后通過Softmax得到分類結果。交叉熵損失函數如式(2)所示,最大池化運算如式(3)所示:

圖2 骨干網絡

LΔce=LΔce(Ffinal,l)

Ff=max(Ftb?wt)t∈{1,2,…,20}

其中: Lce 表示交叉熵損失函數; Ff 表示三維模型最終的特征描述符; max(???) 為最大池化層的運算函數; l 為類別標簽; Wι 為多層感知機運算時的權重矩陣; Fιb 為骨干網絡訓練后得到的視圖特征。

1. 2 多頭自注意力模塊

本小節引入多頭注意力模塊,通過多頭自注意力運算學習視圖間的關聯性信息,不同的注意力頭關注輸入中的不同特征,捕捉不同視圖之間的相關性和依賴性,從而提高模型的表達能力。具體來說,若將視圖數據轉換為多頭自注意力運算的輸人,則每個視圖會被編碼為一個向量。ResNet18得到的特征向量通過3個線性層(Linear)生成索引(Que-ries)、鍵(Key)、值(Values)3個矩陣向量,共同作為多頭自注意力的輸入進行特征運算,注意力公式如式(4)所示:

其中: D 為 和 K 的特征維度,Softmax (?) 為特征矩陣歸一化運算。具體來說, D 維度的特征輸入到多頭注意力模塊中,特征按照頭數 h 拆分后執行并行運算,拆分后每一個特征的特征維度為 D/h ,并行訓練后維度的特征重新拼接為 D 維度,輸入到后續的多層感知機網絡中訓練,完成多頭自注意力運算。對于每個索引向量 ,計算其與所有鍵向量 K 之間的注意力分數。使用注意力權重對值向量 V 進行加權求和,以獲得基于關聯性信息加權的表示,從而捕捉視圖之間的關聯性信息。重復上面的方法,但使用不同的索引、鍵、值映射,以獲得多個注意力頭的表示,每個注意力頭會學習不同的關聯性信息,將多個注意力頭的輸出表示進行拼接,得到最終的視圖間關聯性表示。拼接公式如下:

MultiHead(Q,K,V)=Concat(h1,…,h4)Wt (5)其中: Concat(?) 為特征拼接操作; hi 為第 i 頭的注意力運算; Wι 為多層感知機運算的權重矩陣

1.3 通道注意力模塊

圖3為本節骨干網絡中通道注意力模塊的網絡結構圖,與通道注意力網絡(squeezeandexcitationnetworks,SENet)不同[23],原生的SENet對于 h×w ×c 維度的特征,特征壓縮時僅僅使用全局平均池化(AvgPool)得到 1×1×c 維度的特征。本文在其基礎上增加了全局最大池化(MaxPool)分支與SENet中原有的平均池化進行并行的特征壓縮運算,然后將兩部分信息進行融合,獲取通道維度信息等更加豐富的特征

僅使用平均池化對所有特征進行平均化處理可能會導致特征區分性的缺失,而最大池化可以有效的將特征中局部最優值篩選出來,增加特征的區分性信息。所以本文在通道注意力模塊同時采用了這兩種方法,實驗表明,同時使用兩種方法的實驗效果優于單獨使用1種方法。

圖3通道注意力模塊Fig.3Channel attention module

具體來說,Resnet18得到的特征向量輸人到通道注意力模塊后分別經過最大池化以及平均池化兩個分支進行并行運算,訓練后將兩部分特征向量的特征融合(Add)后利用Sigmoid得到通道注意力特征權重矩陣,最后將特征權重矩陣賦值給多頭注意力模塊的Values矩陣,解決多頭自注意力運算無法對特征中通道維度的信息加以區分這一問題,提升了三維模型的分類效果。特征權重矩陣計算公式如下:

Wc=C(Ftr),t∈{1,2,…,20}

Wc=σ(add(avg(Ftr),max(Ftr)))

其中: C(?) 為通道注意力; σ(?) 為激活函數;add(?) 為特征相加; avg(?) 為平均池化; max(?) 為最大池化; Wc 為通道注意力特征矩陣; V 為多頭注意力模塊中的Values特征矩陣; Wv 為多頭注意力模塊中線性層Linear的權重矩陣

1.4 空間注意力模塊

圖4為本文骨干網絡中空間注意力模塊的網絡結構圖,該結構借鑒CVPR2021提出的調和注意力網絡CoordAttention[24]。調和注意力將特征通過兩個并行的一維特征編碼,高效的整合空間坐標信息至特征向量中。具體來說,ResNet18訓練后得到特征向量的特征維度為 b×n×h×w ,其中 b 為batch-size, n 為通道維度,特征圖大小為 h×w 。

圖4空間注意力模塊Fig. 4 Spatial attention module

調和注意力利用兩個一維全局池化操作,將特征向量分解為沿著特征圖水平方向特征維度為 b× n/2×h×1 和垂直方向特征維度為 b×n/2×1×w 的兩部分,得到垂直和水平兩個方向的兩個特征向量,從而獲得特征中 h 和 w 的相關位置信息,對兩部分向量特征編碼后,通過激活函數計算得到其對應的特征權重,最后通過乘法運算整合到輸入的特征向量中,幫助網絡模型更準確的定位到視圖中的關鍵性區域。特征向量計算公式如下:

z=δ(coscat(Fth,Ftw)),t∈{1,…,20}

其中: Fth 為通過全局平均池化特征壓縮后得到的水平方向的特征向量; Ftw 為通過全局平均池化特征壓縮后得到的垂直方向的特征向量; W 為垂直方向的特征維度數量; H 為水平方向的特征維度數量;Con-cat(?) 為特征拼接操作; δ(??ε) 為線性運算。

將特征向量 z 沿著空間維度拆分成兩個獨立的特征向量 zh 和 zw ,利用兩個 1×1 卷積將 zh 和 zw 變化成相同維度的特征向量,輸入到激活函數中得到兩個特征矩陣,與原始特征 Ftr 相乘后得到空間注意力加權后的特征向量,如式(12)~(14)所示:

其中: σ(?) 為激活函數; F(?) 為 1×1 卷積; gh 為水平方向的注意力特征矩陣; gw 為垂直方向的注意力特征矩陣; Fιs 為空間注意力運算后的特征

最后,多頭自注意力模塊以及空間注意力模塊訓練后,將兩部分特征進行特征融合,得到一個特征描述符,然后通過多層感知機將特征歸一化映射到空間單中心單位超球體上,利用對比損失函數,依據提前設置好的正負樣本進行特征約束,減小三維模型間的類內差異,擴大三維模型的類間差異,從而得到一個良好的三維模型特征語義表示空間。

2 實驗結果與分析

實驗利用Pytorch建立三維模型分類網絡框架,在IntelXeon E5-2678v3 + RTX2080的PC機上進行實驗,每個三維模型由包含20個視圖的視圖序列表征。樣本區分性階段訓練輪數為300輪,訓練時學習率設置為0.5,學習衰減率為 10-3 ,優化器中動量為0.9,對比損失函數中溫度為0.1,骨干網絡中多頭自注意力頭數heads為4。分類階段訓練時學習率設置為0.01,學習衰減率為 10-3 ,優化器動量為0.9,訓練輪數為30輪。實驗中采用SGD優化器,訓練時使用學習率預熱策略[25],學習率在第1輪迭代時從0增加到預設值,之后通過余弦函數將學習率從初始值降低到0。

2.1 三維模型分類

為充分證明本文方法的有效性,在ModelNet10和ModelNet40數據集上進行實驗,并與其他三維模型分類方法進行比較。選擇以下方法進行比較,包括基于體素、基于點云和基于視圖的三維模型分類方法。具體來說,基于體素的方法有binVoxNet-Plus[26]和VSL[27],基于點云的方法包括G3DNet[28]、3D-GCN[29]、PointCLIP[30] 和VA-GCN[31],基于視圖的方法有3DRMS、MMFN、LP-3DCNN、SCFN、PVR、3D2SeqViews、MVA-CNN和MVCLN.

實驗結果如表1所示,本文方法在ModelNet10和ModelNet40兩個數據集上的分類準確率明顯優于體素和點云方法,在基于視圖的方法中也達到了最高的分類準確率,充分證明了本文方法的有效性。

表1模型分類準確率對比

同時,本文在ShapeNet數據集上進行了實驗,將本文方法和基于視圖的三種方法3D2SeqViews、SCFN、MMFN進行對比,實驗結果如表2所示。

表2模型分類準確率對比

從表2可以看出,在ShapeNet數據集上本文方法的分類準確率最高,相比于3D2SeqView準確率提高了 16.8% ,相比于SCFN準確率提高了 13.1% ,相比于MMFN準確率提高了 2.9% ,實驗表明了本文方法的有效性。

2.2 消融實驗

本文的三維模型分類網絡訓練時分為兩個階段,第1階段為樣本區分性階段,第2階段為分類階段。其中,樣本區分性階段中骨干網絡由4部分網絡構成,分別為ResNet18、空間注意力模塊(SA)、多頭注意力模塊(MHA)和通道注意力模塊(CA)。

為了驗證骨干網絡中每個模塊的有效性以及分階段訓練的有效性,本文在保證其他實驗條件不變的情況下進行模塊消融性實驗。本文的主干網絡采用 ResNet+MHA+CA+SA+ 分階段,表示訓練網絡包含所有模塊,且訓練時分階段訓練。上述實驗均在ModelNet10和ModelNet40上完成,實驗結果如表3所示,(單)表示一階段訓練,(雙)表示分階段訓練。

表3不同模塊下的分類準確率Tab.3 Classification accuracy rates under different modules

從表3中可以看出,當訓練網絡包含所有網絡模塊且分階段訓練,實驗結果在ModelNet10和ModelNet40上均取得了最高的三維模型分類準確率。可以看出,采用分階段訓練的方式對于分類效果的提升最為明顯,在ModelNet10和ModelNet40上分別提高了 3.4% 和 4.1% 。其次為多頭自注意力模塊,在ModelNet10和ModelNet4O上相比于ResNet18分別提升了 3% 和 3.2% 。引入通道注意力模塊后,分類準確率分別提升了 1.9% 和 2.2% ,引入空間注意力模塊后分類準確率皆提升了 0.9% 。同時,數據表明不同注意力模塊組合效果比單一注意力模塊效果好。

實驗結果證明了本文提出的所有網絡模塊以及訓練策略的有效性。其中,使用有監督對比學習的方法增加三維模型類間的區分性,減小三維模型類內差異性,對三維模型分類有著十分顯著的作用。其次,采用多頭自注意力模塊學習三維模型視圖間的關聯性信息,對于三維模型分類準確率也有著較為明顯的提升。

2.3 特征描述符

學習到一個良好的特征描述符對于三維模型分類有著決定性的作用。本文針對分類階段新增的特征映射網絡展開研究,不同的特征映射網絡生成的分類特征描述符各不相同,直接影響三維模型分類準確率。本文提出了4種特征映射網絡: ① 分類時只使用Linear層(基線),只使用單層的線性網絡進行特征映射; ② 分類時使用多層感知機(MultilayerPerceptron),多層感知機由多層線性層構成; ③ 分類時使用Linear + MaxPooling,利用線性層和全局最大池化層的組合進行特征映射; ④ 分類時使用 MLP+ MaxPooling(本文),利用多層感知機和全局最大池化層的組合進行特征映射,實驗結果如表4所示。

表4不同特征描述符下的分類準確率
從表4中可以看出,在ModelNet10和Model-

Net40上MLP + MaxPooling(本文)取得了最好的實驗效果,在兩個數據集上分類準確率分別為 99.4% 和 97.5% ,Linear + MaxPooling的組合在ModelNet10和ModelNet40上分類準確率分別為 99.0% 和97.0% ,多層感知機在ModelNet10和ModelNet40上分類準確率分別為 96.4% 和 94.8% ,基線在Model-Net10和ModelNet40上分類準確率分別為 95.9% 和94.1% 。

由分析可知,最大池化通過全局最大池化操作有效的篩選出對于三維模型分類更重要的特征信息,過濾了多余的噪聲信息,無論是搭配基線還是多層感知機網絡,分類準確率遠高于使用單一的基線和多層感知機網絡。此外,可以看出使用多層線性層構成的多層感知機網絡分類準確率高于使用基線的分類準確率,因此在特征映射時適當的增加隱藏層的特征映射次數會提高實驗的準確率。本文最終選擇的是實驗效果最好的MLP + MaxPooling組合

2.4 通道注意力模塊

不同于原始的SENet,本文在其基礎上進行改進,表5展示了改進前后的通道注意力網絡模型對實驗效果的影響,為保證實驗中其他條件不變,不進行模塊的刪減以及實驗策略的改變,僅對通道注意力模塊的網絡進行修改替換,且為提升實驗效率,本節實驗均不采用分階段訓練。其中, ResNet+MHA +CA+SA 組合為分類時,使用原始的SENet注意力網絡, ResNet+MHA+CA+SA 為分類時,使用改進后的注意力網絡。

表5不同通道注意力網絡下的分類準確率

從表5中可以看出,當通道注意力模塊選用本文提出的網絡模型時取得了更好的實驗效果,在ModelNet10和ModelNet40上分類準確率分別提高了 0.8% 和 0.6% 。原始的SENet僅使用全局平均池化對所有特征進行平均化處理,可能會導致特征中區分性信息的缺失,而最大池化可以有效的將特征中局部最優值篩選出來,增加特征的區分性信息,兩部分信息相互補充取得了更好的實驗效果。

2.5 空間注意力模塊

表6展示了空間注意力模塊選用不同的網絡模型對于實驗效果的影響。本文選用了4種不同的空間注意力網絡模型,對其代碼完成復現后應用到本文的實驗中,4種網絡分別為: ①CBAM[32] ② EPSA-Net[33] ③EPSANet : ④ CoordAttention[16]。原始的EPSANet網絡由多尺度的網絡構成,網絡模型相對較大,EPSANet'為本文在EPSANet網絡基礎上減少其多尺度分支的簡化版本。實驗選用的基線為ResNet18。

表6不同空間注意力網絡下的分類準確率

從表6可以看出,在相同的實驗條件下調和注意力網絡相比于CBAM、EPSANet和EPSANet'網絡具有更高的三維模型分類準確率,在ModelNet10和ModelNet40上分類準確率分別為 92.5% 和 90.1% 。CBAM在4個網絡中分類準確率最低,在Model-Net10和ModelNet40上分類準確率只有 91.4% 和 88.0% 0

分析可知,調和注意力網絡利用兩個一維全局池化操作將特征沿著特征圖水平方向和垂直方向分解為兩部分,得到水平和垂直兩個方向的兩個特征向量,從而獲得兩個方向的位置信息,將其特征編碼后經過激活函數得到其對應的權重,最后通過乘法整合到輸入的特征向量中,使得模型更準確的定位到視圖中的關鍵性區域,取得了更好的實驗效果。

2.6 對比實驗

不同角度捕捉到的視圖包含三維模型不同的形狀細節和特征,本文探討三維模型的投影視圖數量對分類準確率的影響。在本文的實驗中,使用每個三維模型捕獲的視圖序列中的20個連續視圖來學習全局特征,表7給出了不同視圖數量影響下的分類準確率。

表7不同視圖數量影響下的分類準確率

由表7可見,ModelNet40和ModelNet10下的分類性能都隨著視圖數量的增加而不斷提高,直到視圖數量為20。

為了研究多頭自注意力頭數數量的選擇對分類準確率的影響,本文保證其他條件不變,同時將多頭自注意力頭數從0增加到6。表8展示了不同多頭自注意力頭數的分類準確率。

表8不同多頭自注意力頭數下的分類準確率Tab.8Classification accuracy rates under different number ofmulti-headself-attentionheads

從表8可以看出,增加多頭自注意力頭數并不總是能帶來更好的性能,5個和6個多頭自注意力頭數的準確率都低于4個,所以本文采用4個多頭自注意力頭數進行實驗

3結語

本文提出了一種基于對比學習的三維模型分類方法。一方面,該方法借鑒有監督對比學習的訓練方式,即分階段訓練。樣本區分性階段,相同類別三維模型的視圖作為正樣本,不同類別三維模型的視圖作為負樣本,訓練時將正負樣本特征映射到同一個空間單中心單位超球體上,利用類別標簽對三維模型進行對比損失約束,以增加不同類別之間的區分性,減小同一類別內的差異性。分類階段,固定樣本區分性階段骨干網絡的網絡參數并使用多層感知機進行特征微調,得到最終的特征描述符,完成三維模型的分類任務。另一方面,本文在骨干網絡中引入了多頭自注意力模塊以及空間注意力模塊,有效的捕捉視圖間的關聯性信息和視圖內的關鍵性區域,引入通道注意力有效的解決了多頭自注意力對于通道維度信息獲取能力不足的問題

參考文獻:

[1]王棟.面向三維模型檢索的多視圖特征學習方法研究 [D].哈爾濱:哈爾濱工業大學,2019.

[2]LIU A A,GUO FB,ZHOU H Y,et al. Semantic and Context Information Fusion Network for View-based 3D Model Clasification and Retrieval[J].. IEEE Access, 2020,8:155939.

[3]LIU A A, ZHOU HY,LI M J,et al. 3D Model Retrieval Based on Multi-view Attentional Convolutional Neural Network[J]. Multimedia Tools and Applications,2020, 79(7) : 4699.

[4]LIANGQ,WANG Y,NIE W,et al. MVCLN:Multiview Convolutional LSTM Network for Cross-media 3D Shape Recognition[J]. IEEE Access,2020,8: 139792.

[5]SU JC, MATHEUS G, WANG R, et al. A Deeper Look at 3D Shape Classifiers[C]// Proceedings of the European Conference on Computer Vision(ECCV),2018: 645.

[6]NIE W Z,LIANG Q,WANG Y,et al. MMFN:Multimodal Information Fusion Networks for 3D Model Classification and Retrieval[J]. ACM Transactions on MultimediaComputingCommunicationsandApplications (TOMM),2020,16(4) : 1.

[7]TORRES P, JOSE M. Compact and Effctive Representations for Sketch-based Image Retrieval[ C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,Place Virtually,2021:2115.

[8]LIU A A,GUO F B, ZHOU H Y,et al. Semantic and Context Information Fusion Network for View-based 3D Model Clasification and Retrieval[J]. IEEE Access, 2020,8:155939.

[9]ZHOU Y, ZENG F,QIAN J, et al. 3D Shape Classification and Retrieval Based on Polar View[J]. Information Science,2019,474:205.

[10] HAN Z, LU H, LIU Z, et al. 3D 2SeqViews: Aggregating Sequential Views for 3D Global Feature Learning by CNN with Hierarchical Attention Aggregation[J]. IEEE Transactions on Image Processing,2019,28(3) : 3986.

[11]LIUA A,ZHOU HY,LI MJ,et al.3D Model Retrieval Based on Multi-view Attentional Convolutional Neural view Convolutional LSTM Network for Cross-media 3D Shape Recognition[J]. IEEE Access,2020,8:139792.

[13]WANG T Z, ISOLA P. Understanding Contrastive Representation Learning Through Alignment and Uniformity on the Hypersphere[C]// International Conference on Machine Learning,2020: 9929.

[14]HENAFF O. Data-efficient Image Recognition with Contrastive Predictive Coding[C]// International Conference on Machine Learning,2020:4182.

[15]BACHMAN P,HJELM RD,BUCHWALTER W. Learning Representations by Maximizing Mutual Information Across Views[J]. Advances in Neural Information Processing Systems, 2019: 15535.

[16]HE K,FAN H,WU Y,et al. Momentum Contrast for Unsupervised Visual Representation Learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 9729.

[17] CHEN T,KOMBLITH S,NOROUZ M, et al. A Simple Framework for Contrastive Learning of Visual Representations[C]// International Conference on Machine Learning.PMLR,2020:1597.

[18]GRILL J B,STRUB F,ALTCHE F,et al.Bootstrap Your Own Latent a New Approach to Self-supervised Learning[J]. Advances in Neural Information Processing Systems,2020,33:21271.

[19]WUJ, ZHANG C,XUE T,et al. Learninga Probabilis tic Latent Space of Object Shapes Via 3D Generative Adversarial Modeling[J]. Advances in Neural Information Processing Systems, 2016: 82.

[20] ZHAO Y,BRIRDAL T,DENG H,et al. 3D Point Capsule Networks[ C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019:1009.

[21]LI X,YU L,FU C,et al. Unsupervised Detection of Distinctive Regions on 3D Shapes[J]. ACM Transactions on Graphics(TOG),2020,39(5):1.

[22]KHOSLA P,TETERWAKP,WANG C,et al.Supervised Contrastive Learning[J]. Advances in Neural Information Processing Systems,2020,33: 18661.

[23]JIE H,LI S, GANG S. Squeeze and Excitation Networks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2018:7132.

[24]HOU Q,ZHOU D,FENG J. Coordinate Attention for Efficient Mobile Network Design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,PlaceVirtually,2021:13713.

[25]HE T,ZHANG H,ZHANG Z,et al. Bag of Tricks for Image Classification with Convolutional Neural Networks [C]//Proceedings of Conference on Computer Vision and Pattern Recognition,2019:558.

[26] ZANUTTIGH P,MINTO L. Deep Learning for 3D Shape Classification from Multiple Depth Maps[C]// IEEE International Conference on Image Processing,2O18:3615.

[27]LIU S,GILESL,ORORBIA A. Learning a Hierarchical Latent-variableModelof3DShapes[C]//2O18 International Conference on 3D Vision(3DV),2018:542.

[28]DOMINGUEZ M,DHAMDHERE R,PETKAR A,et al. General-purpose Deep Point Cloud Feature Extractor [C]// IEEE Winter Conference on Applications of ComputerVision(WACV),2018:1972.

[29]LIN ZH,HUANG S Y,WANG YC. Learning of 3D Graph Convolution Networks for Point Cloud Analysis [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(8):4212.

[30]ZHANGR,GUO Z,ZHANG W,et al. Pointclip:Point Cloud Understanding by Clip[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2022:8552.

[31]HUH,WANGF,LE H. VA-GCN:AVector Attention Graph Convolution Network for Learning on Point Clouds [J].arXiv Preprint arXiv:2106.00227,2021.

[32]WOO S,PARKJ,LEE JY,et al. Cbam:Convolutional Block Attention Module[ C]// Proceedings of the European Conference on Computer Vision(ECCV),Munich, Germany,2018:3.

[33]ZHANGH,ZUK,LUJ,etal.EPSANet:An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Etwork[C]// Proceedings of the Asian Conference on Computer Vision,2022:1161. (編輯:溫澤宇)

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产激情无码一区二区APP| 美女被操91视频| 亚洲第一成网站| 亚洲浓毛av| 天天操精品| www精品久久| 91最新精品视频发布页| 国产日韩精品欧美一区灰| 国产精品吹潮在线观看中文| 日韩小视频在线播放| 国产精品亚洲天堂| 亚洲人成影院在线观看| 国产主播喷水| 国产精品综合色区在线观看| 亚洲中文无码av永久伊人| 亚洲成人网在线观看| 这里只有精品在线播放| 欧美一级大片在线观看| 国产欧美日韩综合一区在线播放| 欧美日韩一区二区三区四区在线观看| 91成人精品视频| 精品国产成人三级在线观看| 看你懂的巨臀中文字幕一区二区| v天堂中文在线| 老司国产精品视频91| 国产拍在线| 老司国产精品视频91| 亚欧乱色视频网站大全| 欧美国产在线一区| 免费全部高H视频无码无遮掩| 97久久精品人人| 久精品色妇丰满人妻| 亚洲乱亚洲乱妇24p| 777国产精品永久免费观看| 91在线一9|永久视频在线| 免费亚洲成人| 国产真实乱人视频| 亚洲无码高清免费视频亚洲| 亚洲精品无码AⅤ片青青在线观看| 亚洲 成人国产| 亚洲色图另类| 免费一级毛片完整版在线看| 亚洲AV无码乱码在线观看裸奔| 9966国产精品视频| 亚洲Av综合日韩精品久久久| 熟妇丰满人妻| 91精品小视频| 伊人久久精品无码麻豆精品| 婷婷亚洲视频| 国产精品无码一二三视频| 国产高清国内精品福利| 香蕉在线视频网站| 中文字幕在线日韩91| 国产精品亚洲日韩AⅤ在线观看| A级毛片无码久久精品免费| 热久久综合这里只有精品电影| 就去吻亚洲精品国产欧美| 亚洲综合经典在线一区二区| 亚洲欧洲日韩综合色天使| 色妞永久免费视频| 无码丝袜人妻| 色天天综合| 国产成人久视频免费| 亚洲91精品视频| 尤物特级无码毛片免费| 欧美三级日韩三级| 日韩av无码精品专区| 日韩精品毛片| 国产9191精品免费观看| 亚洲女同欧美在线| 曰韩免费无码AV一区二区| 99热这里只有精品国产99| yjizz国产在线视频网| 97超级碰碰碰碰精品| 国产自视频| 国产专区综合另类日韩一区| 国产毛片网站| 在线观看国产精品一区| 欧美高清三区| 国产不卡国语在线| 亚洲免费福利视频| 日韩专区第一页|