999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙注意力機制的零樣本建筑圖像分類方法

2023-10-21 02:36:30寧園園張素蘭
計算機技術與發展 2023年10期
關鍵詞:語義分類特征

寧園園,張素蘭,陳 飛

(太原科技大學 計算機科學與技術學院,山西 太原 030024)

0 引 言

建筑風格從地理位置、安全因素、建筑材料等方面考慮,每種風格依賴于建筑元素的結構,且都有其獨特的特征表示。例如:玫瑰窗是哥特式風格獨有的特征;巴洛克風格的主要特征是圓頂、圓拱門等。建筑風格分類旨在通過建筑元素以及建筑元素之間的空間關系預測建筑的風格類別,準確的分類對建筑歷史研究、建筑遺產保護和城市建設方面都具有重要意義。

近年來,建筑風格分類已取得一些重要的研究成果。Xu等人[1]提出在多項式潛在邏輯回歸(Multinomial Latent Logistic Regression,MLLR)中引入概率分析,解決25類風格的分類問題。Ren等人[2]設計概率層次圖表示基本元素的結構,從具有一致標簽的3D模型中訓練貝葉斯網絡對中國古建筑基本元素的語義屬性和層次結構進行編碼。Yi等人[3]收集17種建筑類別的圖像及描述信息,并采用卷積神經網絡模型對美國房屋風格進行分類。Yoshi-mura等人[4]訓練深度卷積神經網絡對34個建筑師的多個作品進行分類,通過訓練網絡模型的權重計算建筑的視覺相似性。然而,上述方法都需要收集大量的有標簽樣本,但在建筑風格分類中,不同建筑風格之間存在相似性,同一建筑風格中又存在差異性[1],導致標注更加困難。尤其對于建筑遺產圖像,因為建筑景點需要被保護,不能對外開放,如故宮中的一些殿宇,圖像數據難以獲得,數據集中的標簽樣本根本不足以涵蓋所有類別。因此,在缺少足夠訓練數據的情況下,如何利用已知建筑風格實例對未知建筑圖像風格進行分類成為一個難點。

零樣本分類技術旨在對訓練階段未出現過的樣本類別進行分類,該技術根據已知類和未知類之間的語義相關性,將已知類的知識遷移用于未知類的識別,可有效解決樣本標簽缺乏時的分類問題。目前零樣本學習應用于計算機視覺、自然語言處理等領域。如圖1所示,針對建筑圖像標記數據少甚至某些類別沒有標注數據的情況,在建筑風格分類任務上使用零樣本分類技術,緩解各風格樣本分布不均衡導致的識別率低下的問題,進一步提高建筑圖像分類精度。

圖1 零樣本學習示意圖

零樣本學習技術的關鍵是學習一個嵌入空間,根據嵌入空間的不同主要分為語義空間嵌入、視覺空間嵌入、公共子空間嵌入。語義空間嵌入是將圖像特征映射到語義空間中,度量與語義描述向量的匹配度,匹配度最高的類標簽為測試類輸入圖像的標簽。視覺空間嵌入將語義向量映射到視覺特征空間中來保留更多描述信息,能夠從一定程度上緩解語義空間嵌入的樞紐點問題。但直接學習視覺空間和語義空間之間的映射函數,導致模型泛化能力較弱,影響分類性能。而公共子空間嵌入[5]充分利用視覺和語義兩種模態信息的互補性和一致性,將視覺特征和語義特征映射到公共子空間中,能夠有效緩解域偏移問題。但由于在建筑圖像分類任務中,每種建筑風格外觀特征整體相似,細節元素存在差異,如哥特式建筑從上到下由尖頂、玫瑰窗、飛扶檐、尖拱門組成,而巴洛克由圓拱門、穹頂構成。從空間組成上看每個建筑元素對分類任務的重要程度不同,若采用傳統的卷積神經網絡,以最后一個卷積層的特征作為特征表示,則可能缺乏對建筑結構的針對性,忽略圖像的各個通道和每個空間位置的重要程度,很難提取到魯棒性較高的元素特征。

視覺注意力能夠注意到與任務相關的區域,提取更有鑒別性的視覺特征。常見的注意力機制有通道注意力、空間注意力、時間注意力等。其中,通道注意力學習通道的權值并進行交互,而空間注意力通過嵌入位置信息,學習空間中重要的區域。將通道注意力與空間注意力組成的混合注意力網絡學習圖像特征各個維度的權重,并通過特征加權可捕獲圖片不同物體不同位置的細節特征。因此,針對建筑圖像標簽缺失及局部判別性區域定位不準確的問題,提出一種基于雙注意力機制的零樣本建筑圖像分類方法。通過通道注意網絡自適應學習每個通道權重,選擇圖像中建筑物本身,忽略背景噪聲影響;使用空間注意力對特征圖每個位置生成掩碼并加權輸出,提取與分類任務相關的細節特征。同時,在學習各空間的映射中,采用生成器對映射后的特征重建,緩解空間映射過程中的信息損失問題,以保留更多原始信息,進而提高建筑圖像分類精度。

1 相關工作

1.1 零樣本學習

Larochelle等人[6]在2008年首次為解決字符分類問題提出了零樣本學習。當前,零樣本圖像分類應用于圖像標注、跨模態檢索、目標檢測等領域。根據嵌入空間的不同,零樣本圖像分類可分為語義空間嵌入、視覺空間嵌入、公共子空間嵌入。Ding等人[7]利用邊緣去噪策略和自適應圖訓練潛在語義編碼器生成潛在語義表示,提高視覺-語義映射函數的泛化。但由于語義特征映射的維度較大,容易出現樞紐點問題,使將多個類別原型的近鄰點誤分類。為緩解樞紐點問題,保留更多語義描述信息,提出將語義向量映射到視覺空間。Zhang等人[8]提出視覺空間嵌入,結合多種語義模式進行多模態特征融合并以端到端方式聯合優化。由于零樣本分類中類別的視覺特征和語義特征在空間中的流形分布不同,且空間之間的維度相差較大,直接學習不同空間的映射會導致知識遷移能力較差。若通過學習一個公共子空間,實現視覺特征和語義特征對齊,可增強模型的泛化能力。趙鵬等人[9]根據已知類的視覺特征以及類別語義之間的關系,構建了未知類的視覺特征,學習所有類別的視覺特征和語義特征到子空間的映射,并通過編碼-解碼器重構技術緩解了知識遷移過程中遇到的域偏移和信息丟失問題。

1.2 建筑風格分類

目前的建筑風格分類方法大多采用監督學習方法。Chen等人[10]通過使用一個集成的卷積神經網絡模型作為全局分類器建立了建筑標注圖像數據集(Annotated Image Database of Architecture,AIDA)并生成場景類和建筑類別的預測標簽。Obeso等人[11]提出使用網絡輸入處的稀疏特征以及原色像素值對墨西哥建筑物的圖像進行分類。Shalunts等人[12]使用局部特征的聚類尋找窗戶的梯度方向,從而根據窗戶的幾何規則對不同建筑風格的類型進行分類,但該方法沒有考慮其他建筑元素對建筑風格的影響,而且數據收集具有局限性。為緩解類別數據量不均衡的問題,Zhao等人[13]設計基于GoogleNet的深度神經網絡,對數據集的數量進行增強,提高建筑風格分類性能。Chu等人[14]提出模擬空間配置提取可視化模型,解決目標建筑的縮放、旋轉和變形問題,擴充小類別樣本的數量。總之,這些方法一般需要大量標注樣本,對沒有標記樣本的類別如何分類研究甚少。

1.3 注意力機制

注意力機制能夠從無關的背景區域中提取出具有重要信息的目標區域,目前已成功應用于視頻分類、傳統圖像分類、機器翻譯和場景分割等方面。Hou等人[15]將空間坐標信息整合到生成的通道注意力的特征向量中,避免全局池化造成位置信息損失,精準地定位和識別感興趣的目標。Li等人[16]提出了將通道注意力和空間注意力結合的方法,使模型聚焦于關鍵信息,并利用注意增強技術使模型捕獲特定于類的區域,提高遙感圖像的分類性能。考慮到圖像中不同建筑元素以及元素細節為風格分類任務貢獻的權重不同,導致在提取圖像特征時無法對特征進行區分,該文將通道注意力和空間注意力融合嵌入神經網絡學習中,獲得圖像不同元素中細節位置的權重值,進而定位到判別性區域。

2 文中方法

2.1 定 義

2.2 雙注意力機制的零樣本建筑圖像分類模型(Dual Attention Mechanism for Zero-Shot Learning,DAM-ZSL)

文中分類模型由特征提取、屬性編碼和空間映射與分類模塊組成,主要框架如圖2所示。

圖2 雙注意力機制的零樣本建筑圖像分類模型

2.2.1 特征提取

視覺判別性特征提取由主干網絡、通道注意網絡和空間注意網絡組成。主干網絡(Backbone)提取圖像的全局特征。通道注意網絡(Channel Attention Network,CAN)去除圖像中的天空、人、車等無關建筑的元素,定位圖像中重要的建筑主體。空間注意網絡(Spatial Attention Network,SAN)提取具有空間信息的特征表示,將建筑主體中對分類任務影響更大的建筑元素賦予更高的權重。

該文使用ResNeXt殘差網絡作為圖像特征提取器,ResNeXt作為ResNet的升級版本,使用了ResNet的重復層策略及GoogleNet的分裂轉換合并(split-transform-merge)的思想。在相同的參數數量下,ResNeXt提取的特征有更強的表示能力,使圖像分類的精度更高。ResNeXt-101的每層是由多個Res-NeXt塊組成,如表1所示,在使用ResNeXt-101網絡提取特征時,需要去除最后的全連接層和池化層,只保留特征提取部分。

表1 ResNeXt-101的網絡結構

由于通過ResNeXt-101提取的特征圖有2 048個通道,使得判別特征分散。為了更好地進行建筑主體性特征定位,首先使用1*1卷積壓縮通道Ftmp=conv1×1(fResNeXt),在不改變特征圖中建筑元素空間信息的情況下刪除冗余通道。通道注意網絡如圖2所示,利用全局平均池化(GAP)計算各個通道特征圖的特征值V(公式1),再計算各個通道的注意權值Wchannel(公式2),通過SoftMax使每個權重的和等于1。將通道權值作用于全局特征圖上,得到通道注意圖Fca(公式3)。

V=GAP(Ftmp),V∈R1×1×16

(1)

Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R

(2)

Fca=Ftmp×Wchannel,Fca∈R8×8×16

(3)

建筑圖像中并不是所有的區域都同等重要,只有與屬性標簽相關的建筑元素才是需要關注的,如玫瑰窗、尖拱門等是哥特式風格需要關注的空間區域。空間注意網絡就是尋找建筑圖像空間中重要的區域進行處理。為了突出重要像素,一些研究者使用遞歸神經網絡計算圖像的空間權值,但這種方法會將特征展開為一維向量,破壞建筑元素的空間結構,為避免空間結構的破壞,使用多層卷積組成的空間注意模型來提取像素點的空間權值Wspatial(公式4),將空間權值應用于通道特征圖上計算注意特征圖Fatt(公式5)。

Wspatial=fs_attention(Fca),Wspatial∈R8×8

(4)

Fatt=Fca×Wspatial,Fatt∈R8×8×16

(5)

2.2.2 屬性編碼

語義特征由建筑圖像的語義屬性構成,表示各風格類別之間的關系,是零樣本建筑風格分類的關鍵信息。利用one-hot對所有類別的屬性特征進行編碼,0代表無該屬性,1代表有該屬性。如將哥特式建筑的屬性[rose-windows,narrow-window,glazing,…,Symmetrical, curve,gable]編碼為[1,0,1,…,1,1,0]。

2.2.3 空間映射與分類

視覺特征由雙注意力得到的特征圖構成,保留建筑圖像中與屬性相關的判別性信息。為更好地對齊視覺特征和語義特征,通過全連接層將建筑圖像的視覺注意特征映射到公共子空間中,視覺特征到公共子空間中映射函數為φ(xi)=W1×fatt。在學習視覺特征到子空間的映射時,由于每層的下采樣操作,使得包含未知類別的判別信息損失,因此使用生成器對特征進行重建,從而減少信息的損失。同時將所有類別編碼后的屬性向量也通過全連接層映射到同一子空間中,學習語義映射函數φ(aj)=W2×aj。

在映射的語義向量中利用最近鄰算法尋找與訓練集的視覺特征相匹配的向量,預測樣本的類別標簽,即y(x)=argminD(φ(xi),φ(aj)),D代表距離度量函數,文中使用歐氏距離作為度量函數。

2.3 模型優化

為更好地優化模型,該文使用特征重建損失、中心損失、回歸損失和交叉熵損失來訓練DAM-ZSL模型。

將視覺特征映射到公共子空間時,由于維度差異,導致一些與屬性相關的判別信息在知識遷移過程中丟失,為減少信息損失,提出使用生成器對映射后的特征進行重建,計算重建損失(公式6),φ-1(φ(x))是生成器重建后的視覺特征向量。

(6)

通過最小化重建損失,使重建的視覺特征更接近實際數據,以緩解特征映射過程中的信息損失問題。

在零樣本學習的訓練任務中,視覺嵌入函數將視覺注意特征映射到公共子空間中,學習已知類的類原型特征Ck,即視覺特征的平均向量(公式7),m為每個類別的樣本總數。數據集中存在類內差異大,類間差異小的特點,因此使用中心損失函數縮小類內距離(公式8),將類別相同的樣本更緊湊。

(7)

(8)

為了使嵌入的視覺特征與相應的語義屬性嵌入向量接近,使用回歸損失(公式9)來最小化嵌入向量之間的誤差。

(9)

在分類任務中,常使用交叉熵損失(公式10)計算預測和真實標簽之間的損失值。

c∈ys

(10)

因此,該文總的損失函數為(公式11):

l=lce+lr+lc+lreg

(11)

基于雙注意力機制的零樣本分類的目標函數為(公式12):

(12)

2.4 整體算法

基于雙注意力機制的零樣本建筑圖像分類具體流程如下:

算法1 DAM-ZSL算法

屬性標簽集合A={a1,a2,…,an},迭代次數n為200

輸出:視覺映射矩陣W1,語義映射矩陣W2

Step 2:提取具有通道和空間信息的注意特征圖

fori=1 ton

(1)Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R求通道權值

(2)利用Fca=Ftmp×Wchannel,Fca∈R8×8×16求通道注意圖

(3)利用Wspatial=fs_attention(Fca),Wspatial∈R8×8求空間權重

(4)利用Fatt=Fca×Wspatial,Fatt∈R8×8×16提取包含通道和空間信息的注意特征圖Fatt

//根據公式(6)特征重建損失訓練通道-空間注意網絡

End for

Step 3:利用one-hot對所有類別的屬性特征進行編碼

Step 4:空間映射:初始化W1,W2

fori=1 ton

(1)利用φ(xi)=W1×fatt計算視覺映射矩陣W1

(2)利用φ(aj)=W2×aj計算語義映射矩陣W2

//根據公式(11)的中心損失、回歸損失以及交叉熵損失函數訓練網絡

End for

End

3 實驗分析

3.1 數據集

該文提出的模型在具有代表性的零樣本數據集CUB-200-2011(CUB)[17]以及建筑風格數據集Architecture Style Dataset[1]上作評估。數據集描述如表2。CUB共有11 788張圖片,有312個類級屬性,包括200個鳥類別,其中150個類別作為已知類,50個類別作為未知類。

表2 數據集描述

傳統的建筑風格分類是依據標記的類標簽對圖像進行分類,沒有考慮到風格的語義屬性對分類精度的提高,根據Yi等人[3]提出的美國房屋風格類別的屬性特征以及建筑領域的專業知識,該文在Architecture Style Dataset[1]數據集中增加類別的語義屬性,屬性維度為31維,共有5 000張建筑圖像,包含25個風格類別,其中訓練集20個類別共4 042張圖像,測試集有5個類別共958張圖像,如表2。

3.2 實驗細節

該文使用ResNeXt-101作為圖像特征提取器,將數據集的圖像大小初始化為256×256,因此ResNeXt-101的最后一個卷積特征圖的大小為2 048×8×8。同TransZero[18]一樣,使用SGD優化器(動量為0.9,衰減率為0.000 1)對模型進行優化,設置batch大小為50,迭代200次來訓練模型,并設置學習率為0.000 1。

3.3 基準實驗對比模型

該文采用所有未知類的平均top-1精度,即對所有未知類正確預測的均值(Average Class Accuracy,ACA)(公式13)作為評價分類的標準:

(13)

為更好地將DAM-ZSL與其他先進的模型(如DAP[19],ALE[20],AREN[21],APN[22],LDF[23],TransZero[18],LsrGAN[24]等)作比較,該文分別在零樣本通用數據集和建筑風格數據集上進行實驗。

如表3所示,在通用數據集CUB上,DAM-ZSL模型的平均精度為75%,比TransZero模型提高了1.3百分點,說明DAM-ZSL能夠學習與屬性信息高度相關的視覺特征表示,學習的視覺區域更能表現圖像的主體對象。

表3 不同模型方法在兩個數據集上的比較

在表3中,將零樣本學習用于Architecture Style Dataset上,DAM-ZSL模型的分類精度為39.1%,相比TransZero模型和AREN模型分別提高0.7百分點和0.9百分點,表明將通道和空間注意力應用于零樣本分類模型中能夠聚焦圖像的細節元素區域。同時,將DAM-ZSL與LsrGAN算法進行比較,分類精度提高了0.2百分點,說明雖然LsrGAN算法利用語義正則化損失(Semantic Regularized Loss)使生成的未知類圖像更加接近真實圖像,但由于沒有充分考慮建筑圖像中與語義向量相關的細節元素的視覺特征對分類任務的影響,從而導致其精度略低于DAM-ZSL模型。與APN屬性原型網絡相比,文中模型分類結果稍差,原因在于APN學習屬性原型,將屬性原型定位到視覺區域中,能夠更加有效地減少匹配樣本數量,在數據量小的數據集中影響更大。

圖3展示建筑風格數據集中5個類別的預測值與真實值之間的混淆矩陣。可以看出哥特式風格的準確率較高,原因在于其自身的建筑元素與其他未知類別的建筑元素相差較大,如玫瑰窗是其獨有的,不會導致誤分類。帕拉迪奧式建筑的整體對稱是對已知類中古羅馬和希臘建筑對稱性的傳承,能夠學習到帕拉迪奧式建筑與已知類之間的語義屬性關系,實現語義遷移,但其十字拱與巴洛克建筑的圓拱門存在語義干擾,容易導致其準確率稍差。

圖3 Architecture Style Dataset未知類的混淆矩陣(%)

3.4 消融實驗

為進一步評估雙注意力機制對零樣本分類結果的影響,進行了消融實驗,結果如表4所示。當不使用雙注意力機制時,分類精度明顯小于完整的模型(DAM-ZSL)。在CUB數據集中,精度下降1.2百分點,在Architecture Style Dataset中,下降了2.6百分點。當使用通道注意力時,由于數據集中收集的圖像參差不齊,CUB數據集中圖像的目標主體更清晰,而建筑風格數據集中圖像包含建筑主體及樹、人、車等非建筑元素,因此分類結果對于CUB數據集影響不大,但對建筑風格小數據集上提高1.8百分點,說明通道注意力模型能夠有效地去除背景等非建筑元素的影響,提取到建筑物本身。當使用空間注意力而不使用通道注意力時,提取到的視覺特征是圖像中空間結構性較強的區域,對建筑風格數據集來說,圖像的空間組成較明顯,因此分類精度提高2.1百分點。當結合通道注意力和空間注意力對圖像提取特征時,能提取圖像中與屬性相關的視覺區域,使分類結果更準確。

表4 雙注意力機制對ACA精度的影響 %

為了直觀地表示雙注意力機制在提取局部判別特征的有效性,使用Grad-CAM將DAM-ZSL模型提取出的注意特征圖可視化,如圖4所示。文中模型能夠提取出與建筑風格分類相關的局部細節特征,如哥特式建筑的玫瑰窗,這說明將通道-空間雙注意力網絡引入零樣本分類任務中使學習到的視覺特征更加具有判別性。

4 結束語

為了對訓練集中未知類的建筑圖像進行正確分類,提出了一種基于雙注意力機制的零樣本建筑圖像分類方法,結合通道注意機制和空間注意機制提取了建筑風格圖像中與屬性相關的判別性特征,同時將局部判別性特征和屬性特征映射到同一子空間中,使公共子空間中存在豐富的視覺信息和類別語義屬性之間的關系信息,并使用最近鄰算法實現了對未知建筑風格樣本的有效分類。在之后的工作中將根據語義信息結合圖卷積網絡構建類別之間的關系,進一步提高零樣本建筑風格圖像分類結果。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产美女在线观看| 草草影院国产第一页| 制服丝袜无码每日更新| 国产视频一区二区在线观看| 高清视频一区| 中文字幕在线永久在线视频2020| 在线精品视频成人网| 亚洲成在线观看| 精品1区2区3区| 午夜免费小视频| 精品少妇人妻一区二区| 国产精品亚洲一区二区三区在线观看 | 成人在线观看不卡| 日韩A级毛片一区二区三区| 午夜精品久久久久久久无码软件| 天天躁夜夜躁狠狠躁躁88| 亚洲精品国产乱码不卡| 亚洲第一精品福利| 91久久偷偷做嫩草影院| 在线观看国产精品第一区免费 | 午夜视频日本| av在线无码浏览| 国产精品永久不卡免费视频| 国产午夜无码片在线观看网站 | 男女猛烈无遮挡午夜视频| 国产玖玖玖精品视频| h网站在线播放| 亚洲婷婷六月| 亚洲区欧美区| 视频一区视频二区日韩专区| 老司机午夜精品网站在线观看| 亚洲第一天堂无码专区| 91九色最新地址| 91色爱欧美精品www| 久久99热这里只有精品免费看| 国模私拍一区二区| 伊人无码视屏| 日韩精品成人在线| 国模视频一区二区| 国产精品香蕉在线| 91小视频在线观看免费版高清| 欧美日韩第二页| 国产成人无码综合亚洲日韩不卡| 高清欧美性猛交XXXX黑人猛交| 久久香蕉欧美精品| 91成人在线观看| 手机精品福利在线观看| 国产综合网站| 国产区人妖精品人妖精品视频| 婷婷综合在线观看丁香| 三上悠亚一区二区| 国产成年女人特黄特色毛片免| 日韩人妻精品一区| 91在线国内在线播放老师| 中文字幕天无码久久精品视频免费 | 黄色在线网| 精品一区二区三区水蜜桃| 亚洲VA中文字幕| 日本尹人综合香蕉在线观看| 国产裸舞福利在线视频合集| 亚洲经典在线中文字幕| 国产视频入口| 久久综合伊人 六十路| 日韩欧美一区在线观看| 美女内射视频WWW网站午夜| 欧美亚洲日韩中文| 日韩在线中文| 国产超碰一区二区三区| 第九色区aⅴ天堂久久香| 国模粉嫩小泬视频在线观看| 亚洲精品你懂的| 日本一区中文字幕最新在线| 五月天综合网亚洲综合天堂网| 亚洲无码免费黄色网址| 九九九精品视频| 成人福利在线免费观看| 久久国产精品嫖妓| 欧美成一级| 国产成人8x视频一区二区| 久热中文字幕在线| 青青青国产视频手机| 国产成人永久免费视频|