摘 要:廣義零樣本學習通常利用在ImageNet上預訓練的深度模型來提取相應的視覺特征,然而預訓練模型提取到的視覺特征不可避免地包含和語義無關的信息,這將導致語義—視覺對齊的偏差以及對不可見類的負遷移,從而影響分類結果。為解決上述問題,提出了視覺特征對比解耦的廣義零樣本學習模型(visual feature contrast decoupling for generalized zero-shot learning,VFCD-GZSL),通過解耦出視覺特征中的語義相關表示來降低冗余信息對分類結果的影響。具體來說,首先用條件變分自編碼器生成不可見類的視覺特征。然后通過解耦模塊將視覺特征解耦語義相關和語義無關的潛層表示,同時添加總相關懲罰和對比損失來鼓勵兩者間的相互獨立,并用語義關系匹配模型衡量其語義一致性,從而指導模型學習語義相關表示。最后使用特征細化模塊細化后的特征和語義相關表示聯(lián)合學習一個廣義零樣本學習分類器。在四個數(shù)據(jù)集上的實驗均取得較優(yōu)的結果,證實了所提方法的有效性。
關鍵詞:廣義零樣本學習;解耦表征學習;變分自編碼器;生成模型;特征融合
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2023)06-050-1912-09
doi:10.19734/j.issn.1001-3695.2022.10.0534
Visual feature contrast decoupling for generalized zero-shot learning
Zhang Zhiyuan Yang Guan Liu Xiaoming Liu Yang
(1.Zhongyuan University of Technology,Zhengzhou 450007,China;2.Henan Key Laboratory on Public Opinion Intelligent Analysis,Zhengzhou 450007,China;3.Xidian University,Xi’an 710071,China)
Abstract:Generalized zero-shot learning usually uses the deep model pre-trained on ImageNet to extract corresponding visual features.However,visual features extracted by the pre-trained model inevitably contain semantically irrelevant information,which will lead to the deviation of semantic-visual alignment and negative transfer to unseen classes,thus affecting the classification results.To solve the above problems,this paper proposed a generalized zero-shot learning model for visual feature contrast decoupling,which reduced the impact of redundant information on classification results by decoupling out the semantic-related representation of visual features.Specifically,conditional variational auto-encoder firstly generated the visual features of unseen classes.Then decoupling module decoupled them into semantic-related and semantic-unrelated latent representations.Meanwhile,it appliedtotal correlation penalty and contrastive loss to encourage the mutual independence of the two representations,and used semantic relationship matching model to measure its semantic consistency and thus guiding the model to learn semantic-related representations.Finally,it used features refined by feature refinement module and semantic-related representations to jointly learn a GZSL classifier.The experiments on all four data sets obtain superior results,confirming the effectiveness of the proposed method.
Key words:generalized zero-shot learning;decoupling representation learning;variational auto-encoder;generative model;feature fusion
0 引言
深度學習模型在訓練過程中特別依賴大規(guī)模和強標記的數(shù)據(jù)。然而,隨著新類別的不斷涌現(xiàn),收集大量帶標簽的新類別樣本需要耗費大量的時間和精力[1]。零樣本學習(zero-shot learning,ZSL)[2]的出現(xiàn)有效解決了深度學習模型的局限性,其任務是在訓練階段進行建模和學習,使模型能夠識別在訓練階段未出現(xiàn)過的新類別[3]。零樣本學習任務中訓練集和測試集的類別是不相交的,這明顯區(qū)別于傳統(tǒng)的基于監(jiān)督學習的分類任務[4]。但傳統(tǒng)零樣本學習的設定并不合理,因為它假設測試集只包含不可見類的樣本,不能反映真實的場景。廣義零樣本學習(generalized zero-shot learning,GZSL)[5]是一項更具挑戰(zhàn)性的任務,其測試集是可見類和不可見類的集合,相較于傳統(tǒng)的零樣本學習,這一設定顯然更符合現(xiàn)實世界的需求,因此它比傳統(tǒng)零樣本學習更加復雜和困難。
目前在零樣本學習的研究工作當中,嵌入方法和生成方法是主流的方法。嵌入方法在零樣本學習任務上效果很好,但在廣義零樣本學習任務上效果卻不佳,因為嵌入方法的映射函數(shù)是針對可見類進行訓練的,所以不可見類特征的映射將嚴重偏向于可見類。生成方法能夠利用合成的不可見類假樣本直接訓練一個針對不可見類的分類器,從而將零樣本分類問題轉(zhuǎn)換為經(jīng)典的監(jiān)督學習問題。生成對抗網(wǎng)絡(generative adversarial network,GAN)[6]和變分自編碼器(variational auto-encoder,VAE)[7]是生成方法中的典型,但生成方法仍然存在一些問題。首先,生成的不可見類的視覺特征可能與真實特征有一定差距[8],從而導致分類器分類錯誤;其次,廣義零樣本學習通常利用在ImageNet上預訓練的深度模型來提取相應的視覺特征,然而在模型訓練過程中,原始特征和生成特征在維度上并不是都與預定義屬性在語義上相關,因此預訓練模型提取到的視覺特征將不可避免地包含與語義無關的信息,這種冗余信息將導致語義—視覺對齊的偏差以及對不可見類的負遷移,從而影響分類結果。如圖1所示,這里以AWA2數(shù)據(jù)集為例,盡管動物的耳朵特征(圖中紅框)在識別圖像樣本時具有視覺上的顯著性,但在注釋屬性中卻被忽略了,因此耳朵特征與注釋屬性在語義上無關,從這些語義上無關的視覺特征中學習可能會影響模型泛化到不可見類。理想情況下,如果視覺特征只包含與注釋屬性相對應的信息,那么視覺—語義關系就可以從可見類中適當?shù)貙W習,并進一步轉(zhuǎn)移到不可見類,這將有利于廣義零樣本學習性能的提升。本文認為廣義零樣本學習受益于使用能夠與各自的語義屬性一致的視覺特征,這里將這種類型的視覺特征定義為語義相關表示,從視覺特征中解耦出語義相關表示對于提升廣義零樣本學習的性能至關重要。
同時,由于數(shù)據(jù)在收集過程中受到人為或系統(tǒng)因素的影響,訓練backbone時使用的數(shù)據(jù)集與廣義零樣本學習任務的基準數(shù)據(jù)集之間會產(chǎn)生跨數(shù)據(jù)集偏差[9],從而導致兩個數(shù)據(jù)集之間的分布不匹配。跨數(shù)據(jù)集偏差限制了知識轉(zhuǎn)移,導致提取到的視覺特征中會存在冗余信息。去除原始特征中的冗余信息是提高廣義零樣本學習性能的有效途徑之一。
針對上述問題,這里提出了視覺特征對比解耦的廣義零樣本學習模型(visual feature contrast decoupling for generalized zero-shot learning,VFCD-GZSL),該模型由特征生成模塊、解耦模塊和特征細化模塊組成。特征生成模塊利用條件變分自編碼器來生成不可見類的視覺特征。在解耦模塊中,使用兩個不同的解耦編碼器將視覺特征編碼為潛層信息并解耦為語義相關和語義無關的潛層表示,同時添加總相關懲罰和對比損失來鼓勵兩者間的相互獨立,并用語義關系匹配模型衡量其語義一致性,從而指導模型學習語義相關表示。然后,再將分解過的潛層表示交叉融合,輸入到解碼器重構圖像。解耦模塊被合并到一個條件變分自編碼器中,并以端到端方式進行訓練。除此之外,這里還設計了一個特征細化模塊來去除原始特征中的冗余信息,從而減輕跨數(shù)據(jù)集偏差對分類的影響。最后使用特征細化模塊細化后的特征和語義相關表示聯(lián)合學習一個廣義零樣本學習分類器。
本文的主要貢獻有以下幾點:
a)發(fā)現(xiàn)了預訓練模型提取到的視覺特征包含語義無關的信息,從這些語義上無關的視覺特征中學習語義—視覺關系可能會影響模型泛化到不可見類,從而影響分類結果,并且提出視覺特征對比解耦的方法來提取視覺特征中的語義相關表示。
b)設計了解耦模塊和特征細化模塊,解耦模塊用來解耦出視覺特征中的語義相關表示,然后通過語義關系匹配模型衡量其語義一致性。特征細化模塊用來細化原始特征,從而保留其中的判別信息,該方法有效去除了原始特征中的冗余信息。解耦模塊專注于潛層空間,特征細化模塊專注于原始特征,兩者共同作用來降低冗余信息對廣義零樣本學習的影響。
c)為了驗證所提模型的有效性,分別在四個公開的廣義零樣本數(shù)據(jù)集上進行訓練測試,實驗結果表明VFCD-GZSL模型在廣義零樣本學習任務上取得了不錯的結果,證明了所提的視覺特征對比解耦思想的有效性。
1 相關工作
1.1 零樣本學習
近些年來,很多研究利用生成模型來提高零樣本學習任務的性能。生成模型可以生成服從未知概率分布的視覺特征,利用生成的特征,零樣本學習任務就轉(zhuǎn)換為相對簡單的監(jiān)督分類任務。在零樣本學習任務中,通常使用生成對抗網(wǎng)絡或變分自編碼器生成近似原始數(shù)據(jù)的視覺特征,并將生成的視覺特征與原始特征相結合訓練分類器,以減少分類器的偏差問題。Xian等人[10]提出的f-CLSWGAN將沃森斯坦生成對抗網(wǎng)絡與分類損失配對,從而生成更真實的視覺特征。Schonfeld等人[11]提出的CADA-VAE利用兩個對齊的變分自編碼器來學習不同模態(tài)之間的共享潛層表示。Narayan等人[12]提出的TF-VAEGAN 使用變分自編碼器和生成對抗網(wǎng)絡來確保廣義零樣本學習的語義一致性,并提出了一個反饋模塊來約束生成器的表達,該方法有效減少了類別間的歧義。Han等人[13]提出的混合廣義零樣本學習框架將真實可見類的樣本和合成的不可見的樣本映射到一個新的嵌入空間,并在嵌入空間中執(zhí)行最終的廣義零樣本學習分類。然而大多數(shù)廣義零樣本學習方法沒有關注到由預訓練模型提取到的視覺特征中存在冗余信息,這種冗余信息將會嚴重影響模型分類結果。解耦表征學習可以幫助模型分離數(shù)據(jù)中的關鍵因子,因此這里引入解耦表征學習方法來解耦出視覺特征中的語義相關表示,從而降低冗余信息對分類結果的影響。
1.2 解耦表征學習
傳統(tǒng)的解耦表征學習方法通常使用編碼器—解碼器框架學習相互獨立的潛層因子。通常來說,解耦出的特征的表征力越好,模型的學習能力就越強。隨著生成模型的發(fā)展,人們對解耦表征學習進行了大量的研究。Higgins等人[14]提出的β-VAE通過調(diào)整Kullback-Leibler(KL)項的權值來平衡解耦因子的獨立性和重構性能,從而幫助模型更好地解耦。Kim等人[15]提出了Factor-VAE,它建議使表示的分布成為因式來解耦特征,并通過對原始表示及其跨維度隨機排列表示施加懲罰來實現(xiàn)跨維度的獨立性。零樣本學習任務需要在可見類和不可見類間建立映射,解耦潛層特征有利于生成可解釋性的不可見類特征。目前只有小部分研究工作選擇將解耦表征學習方法應用到零樣本學習任務中,Tong等人[16]提出了一種解耦模型,它對具有層次結構的特征組進行分層分解,從而學習到具有判別性的潛層特征。Li等人[17]提出了一種解耦變分自編碼器算法用來提取類別蒸餾因子和類別分散因子,此外,還引入了一種潛層特征的批量重組策略來指導潛層特征的分解,鼓勵提取出的潛層特征帶有更強的鑒別性。基于上述方法的有效性,這里提出了視覺特征對比解耦的廣義零樣本學習模型。
2 問題定義
3 方法
3.1 本文方法
視覺特征中的冗余信息將嚴重影響廣義零樣本學習分類的性能,本文認為從視覺特征中解耦出語義相關表示對于提升廣義零樣本學習的性能至關重要。為了解耦出視覺特征中的語義相關表示以及減輕跨數(shù)據(jù)集偏差對分類的影響,本文從潛層空間和原始特征兩個角度,提出了視覺特征對比解耦的廣義零樣本學習模型(visual feature contrast decoupling for generalized zero-shot learning,VFCD-GZSL)。首先,在潛層空間利用解耦表征學習方法從視覺特征中解耦出語義相關特征,并將其用于分類。其次,針對跨數(shù)據(jù)集偏差問題,本文設計了一個特征細化模塊來細化原始特征,從而保留其中的判別信息。最后使用特征細化模塊細化后的特征和語義相關表示聯(lián)合學習一個廣義零樣本學習分類器。所提方法有效降低了冗余信息對廣義零樣本學習的影響,從而提高了廣義零樣本學習的性能。
VFCD-GZSL模型架構如圖2所示,模型由特征生成模塊、解耦模塊以及特征細化模塊組成。特征生成模塊主要用來生成不可見類的視覺特征。解耦模塊用來解耦出視覺特征中的語義相關表示。特征細化模塊用來細化原始特征,從而保留其中的判別信息。
下面對模型整體訓練流程進行系統(tǒng)闡述。本文的目的是訓練一個廣義零樣本分類器。在訓練階段,首先,給定數(shù)據(jù)集中利用預訓練模型提取的可見類視覺特征x,將x輸入到特征生成模塊,特征生成模塊用來生成不可見類的視覺特征,它從視覺特征x和語義嵌入a中推斷出一個潛在變量z,然后用z來重構對應的視覺特征。在解耦模塊中,將原始特征x和重構特征分別輸入到解耦編碼器中,編碼器將視覺特征編碼為潛層信息并解耦為語義相關表示zr和語義無關表示zu,同時添加總相關懲罰和對比損失來強調(diào)兩者間的獨立性,并用語義關系匹配模型衡量其語義一致性,迫使zr在語義上相互關聯(lián),從而指導模型學習語義相關表示。然后,再將分解過的潛層表示交叉融合輸入到解碼器重構圖像,從而得到交叉重構特征a和b。通過交叉融合的方式來獲取不同模式之間的相關性,同時增強潛層表示的魯棒性。特征重構保證了兩個潛層表示同時涵蓋語義相關和語義無關的信息。解耦模塊被合并到一個條件變分自編碼器中,并以端到端的方式進行訓練。特征細化模塊通過約束特征間的互信息來細化原始特征x,從而得到細化后的特征v。
解耦模塊專注于潛層空間,特征細化模塊專注于原始特征,兩者共同作用來降低冗余信息對廣義零樣本學習的影響。最后使用特征細化模塊細化后的特征v和語義相關表示zr聯(lián)合學習一個廣義零樣本學習分類器。在測試階段,廣義零樣本學習的測試集是可見類與不可見類的集合,因此這里同時將可見類特征和不可見類特征輸入到分類器進行測試,并計算分類準確率。模型整體算法流程如下:
3.2 特征生成模塊
特征生成模塊主要用來生成不可見類的視覺特征。特征生成模塊利用條件變分自編碼器架構(conditional variational auto-encoder,cVAE)[18]來建立基于語義信息的視覺特征分布模型,條件變分自編碼器架構可以為模型生成視覺特征。廣義零樣本學習的目標是將類別信息從可見類轉(zhuǎn)移到不可見類。因此這里將cVAE中的類別信息表示為語義嵌入a,以實現(xiàn)類之間的參數(shù)共享。因此,cVAE的損失函數(shù)Euclid Math OneLAp
3.3 解耦模塊
3.3.1 特征重構
在解耦和交叉融合的過程中,模型學習到代表組內(nèi)數(shù)據(jù)間特定相關生成因子所對應的潛在變量,通過該方法能夠從特定角度有效完成組內(nèi)數(shù)據(jù)相關因子與不相關因子的解耦表征學習任務,這有利于提高廣義零樣本學習的性能。
3.3.2 語義關系匹配
3.3.3 分離潛層表示
3.4 特征細化模塊
由于數(shù)據(jù)在收集過程中受到人為或系統(tǒng)因素的影響,訓練backbone時使用的數(shù)據(jù)集與廣義零樣本學習任務的基準數(shù)據(jù)集之間會產(chǎn)生跨數(shù)據(jù)集偏差,跨數(shù)據(jù)集偏差限制了知識轉(zhuǎn)移,從而導致原始特征中會存在冗余信息。因此,這里設計了一個特征細化模塊來去除原始特征中的冗余信息,從而保留其中的判別信息。令x為原始特征,v為細化后的特征。特征細化模塊通過約束v和x之間的相關性,強制v忘記x中的冗余信息,從而實現(xiàn)特征的細化。
3.5 整體損失函數(shù)
為了從視覺特征中解耦出用于分類的語義相關表示以及降低原始特征中的冗余信息對分類結果的影響,模型的整體損失函數(shù)可以表示為
4 實驗
4.1 實驗數(shù)據(jù)
所提模型在廣義零樣本學習中廣泛使用的四個基準數(shù)據(jù)集上進行了完整的實驗,即Caltech-UCSD birds-200(CUB)[22],animals with attributes 2(AWA2)[23],SUN attribute(SUN)[24],Oxford flowers(FLO)[25]。AWA2數(shù)據(jù)集是一個較大的粗粒度數(shù)據(jù)集,包含來自50類動物物種的37 322張圖像,其中40類作為訓練類別,10類作為測試類別,每個類別的語義嵌入維度為85。SUN數(shù)據(jù)集是與場景相關的細粒度數(shù)據(jù)集,它包含717個不同的場景類別組成的14 340張圖像,其中645類作為訓練類別,72類作為測試類別,每個場景類別的語義嵌入維度為102。CUB數(shù)據(jù)集為鳥類圖片的細粒度數(shù)據(jù)集,包含了200種鳥類共計11 788張圖片,其中150類作為訓練類別,50類作為測試類別,每個類別的語義嵌入維度為312。FLO包含102個花卉類別,其中82類作為訓練類別,20類作為測試類別,每個類別的語義嵌入維度為1 024。具體的數(shù)據(jù)集統(tǒng)計信息如表1所示。
4.2 評價指標
在廣義零樣本學習中,本文將評估在測試集中可見類和不可見類的準確率。這里用U來表示每個類在不可見類測試圖像上的平均準確率,它代表了對不可見類樣本進行分類的能力。S表示每個類在可見類的測試圖像上的平均準確率,它代表了對可見類樣本進行分類的能力。H表示S和U的調(diào)和平均值,它是用來衡量廣義零樣本學習分類性能的主要指標,可以表示為
4.3 實驗設置
所提方法遵循其他方法的設置[10],利用預先訓練的ResNet-101模型來提取維度為2 048的視覺特征。VFCD-GZSL模型由編碼器、解碼器、鑒別器和特征細化器構成。特征生成模塊中的編碼器采用多層感知機(multilayer perceptron,MLP)實現(xiàn),這里引入最大平滑單元(smooth maximum unit,SMU)[26]作為多層感知機里的激活函數(shù),可以寫為
4.4 對比模型
4.5 實驗結果
為了驗證本文模型的有效性,這里將模型在四個不同粒度的數(shù)據(jù)集上與近兩年比較先進的方法進行對比,結果如表2所示,表中黑體加粗數(shù)字表示最優(yōu)結果,-表示文獻沒有在該數(shù)據(jù)集上進行實驗。S表示可見類的分類準確率,U表示不可見類的分類準確率,H表示可見類與不可見類準確率的調(diào)和平均值。從表中內(nèi)容可以得知,對于衡量模型分類性能的主要指標H來說,本文方法在FLO數(shù)據(jù)集取得了72.8%的準確率,在CUB數(shù)據(jù)集上取得了55.3%的準確率,在AWA2數(shù)據(jù)集上取得了70.1%的準確率,在SUN數(shù)據(jù)集上取得了42.4%的準確率。總體來說,本文方法在FLO、AWA2、SUN三個數(shù)據(jù)集上均領先于對比方法,在CUB數(shù)據(jù)集上取得具有競爭力的結果。
本文方法相對于f-CLSWGAN在FLO數(shù)據(jù)集的U、S、H上分別提高6.5%、8.1%、7.2%,在CUB數(shù)據(jù)集的U、S、H上分別提高7.1%、3%、5.6%,在AWA2數(shù)據(jù)集的U、S、H上分別提高7.6%、12.4%、9.7%,在SUN數(shù)據(jù)集的U、S、H上分別提高6.6%、0.6%、3%。這是因為f-CLSWGAN使用預訓練模型提取的視覺特征進行分類,這些視覺特征包含與語義無關的冗余信息,如背景噪聲和未注釋的特征,這可能會影響語義—視覺關系的學習,從而影響分類結果。本文方法從視覺特征中解耦出語義相關表示,并將其用于分類,有效降低了冗余信息對分類的影響,因此,所提方法的性能比f-CLSWGAN更好。
所提方法與SDGZSL相比,在調(diào)和平均值H上,本文方法在FLO、CUB、AWA2、SUN四個數(shù)據(jù)集上分別提升3%、0.4%、1.3%、1.1%,在可見類的分類準確率S上,本文方法在FLO、CUB、AWA2、SUN四個數(shù)據(jù)集上分別提高2.6%、2%、4.3%、1.1%,在不可見類的分類準確率U上,本文方法在FLO數(shù)據(jù)集和SUN數(shù)據(jù)集上分別比SDGZSL提高3.3%和1%。這是因為SDGZSL忽略了跨數(shù)據(jù)集偏差對廣義零樣本學習的影響,跨數(shù)據(jù)集偏差限制了知識轉(zhuǎn)移,導致原始特征中會存在冗余信息。本文方法能去除原始特征中的冗余信息,降低原始特征中的冗余信息對分類結果的影響,從而降低跨數(shù)據(jù)集偏差對廣義零樣本學習的影響。同時,本文方法通過總相關懲罰和解耦對比損失共同強調(diào)潛層表示間的獨立性,幫助模型更好地解耦出語義相關表示。因此本文方法的性能比SDGZSL更好。
除此之外,F(xiàn)LO、SUN和CUB屬于細粒度數(shù)據(jù)集,不同細粒度物體的圖像往往僅表現(xiàn)出細微的外觀差異,這將嚴重影響廣義零樣本學習的分類準確度。本文方法在細粒度數(shù)據(jù)集上的實驗結果也有明顯提升,進一步說明了本文模型的有效性。實驗證明,本文方法具有良好的分類準確率,有效降低了視覺特征中的冗余信息對分類結果的影響,同時降低了跨數(shù)據(jù)集偏差對廣義零樣本學習的影響,提高了廣義零樣本學習任務的分類精度。
4.6 實驗分析
4.6.1 參數(shù)分析
接下來將分別討論幾個重要的參數(shù)對模型分類精度的影響,為了方便討論,這里以SUN數(shù)據(jù)集為例進行實驗。本文的三個主要參數(shù)分別是語義關系匹配損失Euclid Math OneLAp
4.6.2 消融實驗
為了證明本文模型的有效性,這里在四個數(shù)據(jù)集分別針對所添加模塊以及損失函數(shù)進行消融實驗,模塊消融實驗的結果和損失消融實驗的結果分別如表3和4所示,表中黑體加粗數(shù)字表示最優(yōu)結果。在表3中,feature-refinement表示特征細化模塊,它的目的是去除原始特征中的冗余信息,從而減輕冗余信息對分類結果的影響。decoupling module表示解耦模塊,它的目的是解耦出模型用于分類的語義相關表示。
根據(jù)表3可以得知,所提模型的每種策略都對廣義零樣本學習任務的分類精度有一定的提升,并且在調(diào)和平均值H這個指標上均優(yōu)于baseline。但總體來看,decoupling module對于模型分類的精度影響最大,其結果在FLO、CUB、AWA2、SUN四個數(shù)據(jù)集上對比baseline分別提高2.1%、0.5%、0.8%、0.6%。這是由于此策略可以解耦出語義相關表示,有效降低了冗余信息對分類結果的影響,提高了廣義零樣本學習分類的精度。
4.6.3 可視化分析
為了進一步驗證本文模型的有效性以及模型的分類效果,這里用t-SNE[33]算法可視化了在最終的廣義零樣本分類中使用的不可見類特征。為了便于討論,這里將本文模型的可視化結果和SDGZSL模型的可視化結果在FLO數(shù)據(jù)集上進行對比。這里可視化了FLO數(shù)據(jù)集在分類時使用的20類不可見特征,SDGZSL模型的可視化結果和本文模型的可視化結果分別如圖9(a)和(b)所示。對比圖中結果可以明顯看到本文模型有效減少了不同類別之間的模糊性,展示了更好的聚類效果,圖片結果也更直觀地體現(xiàn)了所提模型的有效性。這是由于模型從視覺特征中解耦出用于分類的語義相關表示,有效減輕了語義無關信息對分類結果的影響。同時,特征細化模塊可以去除原始特征中冗余信息,從而保留其中的判別信息,有效降低了原始特征中的冗余信息對分類結果的影響,從而降低了跨數(shù)據(jù)集偏差對廣義零樣本學習的影響。因此模型可以更好地學習語義—視覺關系,提高了廣義零樣本學習的性能。
此外,為了進一步證明模型解耦的有效性,這里可視化了FLO數(shù)據(jù)集中不可見類的語義相關表示和語義無關表示,如圖9(c)和(d)所示。從圖中可以清楚地看到,語義相關表示的聚類效果明顯優(yōu)于語義無關表示,而語義無關表示的聚類效果顯得十分凌亂,說明語義相關表示比語義無關表示更具鑒別性。直觀上,這里認為語義無關表示會影響視覺—語義關系的學習,從而影響模型分類的準確性,而語義相關表示更具鑒別性和可靠性,因此本文決定使用語義相關表示來訓練分類器。
4.6.4 通用性分析
由于廣義零樣本學習通常利用在ImageNet上預訓練的深度模型來提取相應的視覺特征,為了驗證本文模型的通用性和有效性,這里選擇采用不同的backbone提取的視覺特征進行廣義零樣本分類,并進行實驗對比。為了便于討論,這里以CUB數(shù)據(jù)集為例進行實驗。使用三種不同backbone提取的視覺特征進行對比實驗,分別為GoogLeNet[34]、Visual Geometry Group-16(VGG16)[35]和Vision Transformer(ViT)[36]。實驗結果如表5所示,其中加粗字體為在每個backbone下H的最優(yōu)值。通過表中結果可以看出,本文模型在三個不同backbone下的H指標均比baseline更好,證明了本文模型的通用性和有效性。
4.6.5 模型應用分析
零樣本圖像檢索是零樣本學習的一個重要應用場景,零樣本圖像檢索要求利用已訓練模型來對不可見類的圖像進行檢索。這里通過零樣本圖像檢索和檢索示例來對所提模型的應用性進行分析。具體來說,給定不可見類的語義嵌入,特征生成模塊生成一定數(shù)量的不可見類特征,然后,解耦模塊從生成的不可見類特征中解耦出語義相關表示。在此過程中,對語義相關表示進行平均,以產(chǎn)生每個類的檢索特征,并以此為質(zhì)心點。最后,計算質(zhì)心點與參考特征間的余弦相似度,并根據(jù)相似度對參考特征進行降序排序。這里采用平均精度均值(mean average precision,mAP)來評估零樣本圖像檢索的性能。為了便于討論,采用FLO和CUB數(shù)據(jù)集進行實驗分析,圖10展示了SDGZSL和VFCD-GZSL在零樣本圖像檢索性能上的比較,圖中橫坐標上的100、50、25分別表示檢索到100%、50%和25%的不可見類圖像,縱坐標表示平均精度均值。從圖中可以看出,所提模型可以顯著提高零樣本圖像檢索的性能,從應用場景的角度證明了本文模型的有效性。
圖11展示了使用本文模型在AWA2數(shù)據(jù)集上檢索到的圖像示例。類名在圖片的頂部,綠色框表示前3個預測為真的圖像,紅色框表示前3個預測為假的圖像(見電子版)。從圖中可以看出,所有預測為假的圖像看起來與真實樣本非常相似。例如:檢索到的前3個預測為假的“老鼠”類別樣本都是“蝙蝠”,這是因為本文使用語義相關表示進行零樣本檢索,而這兩個類別有許多共同的視覺模式,在語義上具有相關性。實驗結果表明,合成的語義相關表示更接近于同類的樣本。值得注意的是,本文模型前三個預測為假的類別是一致的,這也證明了本文模型可以從圖像中識別出具有鑒別性的信息,進一步證明了本文模型的應用性和有效性。
5 結束語
本文提出了視覺特征對比解耦的廣義零樣本學習模型。具體來說,使用兩個不同的解耦編碼器將視覺特征編碼為潛層信息并解耦為語義相關和語義無關的潛層表示,同時添加總相關懲罰和對比損失來鼓勵兩者間的相互獨立,并用語義關系匹配模型衡量其語義一致性。然后,再將分解過的潛層表示交叉融合,輸入到解碼器重構圖像,通過交叉融合的方式來獲取不同模式之間的相關性,同時增強潛層表示的魯棒性。除此之外,本文還設計了一個特征細化模塊來去除原始特征中的冗余信息,從而減輕跨數(shù)據(jù)集偏差對分類的影響。最后使用特征細化模塊細化后的特征和語義相關表示聯(lián)合學習一個廣義零樣本學習分類器。解耦模塊專注于潛層空間,特征細化模塊專注于原始特征,兩者共同作用來降低冗余信息對廣義零樣本學習的影響,提高了廣義零樣本學習的性能。在四個數(shù)據(jù)集上進行實驗以及對比其他廣義零樣本模型,結果表明本文方法在廣義零樣本學習任務中取得了更好的結果。
由于廣義零樣本學習實質(zhì)上是一個多模態(tài)任務,它涉及了視覺和語義兩種模態(tài),視覺和語義兩種模態(tài)間的差距是導致領域漂移問題的主要原因。因此,未來的研究可以從兩種模態(tài)入手來減輕領域漂移問題的影響,如何加強視覺—語義關系的學習以及縮小視覺—語義間的差距是值得探索的方向。
參考文獻:
[1]鐘小容,胡曉,丁嘉昱.基于潛層向量對齊的持續(xù)零樣本學習算法[J].模式識別與人工智能,2021,34(12):1152-1159.(Zhong Xiao-rong,Hu Xiao,Ding Jiayu.Continual zero-shot learning algorithm based on latent vectors alignment[J].Pattern Recognition and Artificial Intelligence,2021,34(12):1152-1159.)
[2]Palatucci M,Pomerleau D,Hinton G E,et al.Zero-shot learning with semantic output codes[C]//Advances in Neural Information Proces-sing Systems.2009.
[3]冉瑞生,董殊宏,李進,等.基于低秩堆棧式語義自編碼器的零樣本學習[J].計算機應用研究,2023,40(2)539-543.(Ran Rui-sheng,Dong Shuhong,Li Jin,et al.Zero-shot learning based on stacked semantic auto-encoder with low-rank embedding[J].Application Research of Computer,2023,40(2)539-543.)
[4]張冀,曹藝,王亞茹,等.融合VAE和StackGAN的零樣本圖像分類方法[J].智能系統(tǒng)學報,2022,17(3):593-601.(Zhang Ji,Cao Yi,Wang Yaru,et al.Zero-shot image classification method combining VAE and StackGAN[J].CAAI Trans on Intelligent Systems,2022,17(3):593-601.)
[5]Chao Weilun,Changpinyo S,Gong Boqing,et al.An empirical study and analysis of generalized zero-shot learning for object recognition in the wild[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:52-68.
[6]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Advances in Neural Information Processing Systems.2014.
[7]Kingma D P,Welling M.Auto-encoding variational Bayes[EB/OL].(2013-12-20).https://arxiv.org/abs/1312.6114.
[8]Zhao Xiaojie,Shen Yuming,Wang Shidong,et al.Boosting generative zero-shot learning by synthesizing diverse features with attribute augmentation[C]//Proc of AAAI Conference on Artificial Intelligence.2022:3454-3462.
[9]Torralba A,Efros A A.Unbiased look at dataset bias[C]//Proc of Computer Vision amp; Pattern Recognition.Piscataway,NJ:IEEE Press,2011.
[10]Xian Yongqin,Lorenz T,Schiele B,et al.Feature generating networks for zero-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5542-5551.
[11]Schonfeld E,Ebrahimi S,Sinha S,et al.Generalized zero-and few-shot learning via aligned variational autoencoders[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8247-8255.
[12]Narayan S,Gupta A,Khan F S,et al.Latent embedding feedback and discriminative features for zero-shot classification[C]//Proc of Euro-pean Conference on Computer Vision.Cham:Springer,2020:479-495.
[13]Han Zongyan,F(xiàn)u Zhenyong,Chen Shuo,et al.Contrastive embedding for generalized zero-shot learning[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.2021:2371-2381.
[14]Higgins I,Matthey L,Pal A,et al.β-VAE:learning basic visual concepts with a constrained variational framework[EB/OL].(2016).https://openreview.net/forum?id=Sy2fzU9gl.
[15]Kim H,Mnih A.Disentangling by factorizing[C]//Proc of International Conference on Machine Learning.2018:2649-2658.
[16]Tong Bin,Wang Chao,Klinkigt M,et al.Hierarchical disentanglement of discriminative latent features for zero-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:11467-11476.
[17]Li Xiangyu,Xu Zhe,Wei Kun,et al.Generalized zero-shot learning via disentangled representation[C]//Proc of AAAI Conference on Artificial Intelligence.2021:1966-1974.
[18]Sohn K,Lee H,Yan Xinchen.Learning structured output representation using deep conditional generative models[C]//Advances in Neural Information Processing Systems.2015.
[19]Sung F,Yang Yongxin,Zhang Li,et al.Learning to compare:relation network for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2018:1199-1208.
[20]Chen Zhi,Luo Yadan,Qiu Ruihong,et al.Semantics disentangling for generalized zero-shot learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:8712-8720.
[21]Yeh C H,Hong Chengyao,Hsu Y C,et al.Decoupled contrastive learning[C]//Proc of European Conference on Computer Vision.Cham:Springer,2022:668-684.
[22]Wah C,Branson S,Welinder P,et al.The CalTech-UCSD birds-200-2011 dataset,CNS-TR-2011-001[R].Pasadena,USA:California Institute of Technology Computation amp; Neural Systems,2011.
[23]Xian Yongqing,Lampert C H,Schiele B,et al.Zero-shot learning:a comprehensive evaluation of the good,the bad and the ugly[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(9):2251-2265.
[24]Patterson G,Hays J.Sun attribute database:discovering,annotating,and recognizing scene attributes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2751-2758.
[25]Nilsback M E,Zisserman A.Automated flower classification over a large number of classes[C]//Proc of the 6th Indian Conference on Computer Vision,Graphics amp; Image Processing.Piscataway,NJ:IEEE Press,2008:722-729.
[26]Biswas K,Kumar S,Banerjee S,et al.Smooth maximum unit:smooth activation function for deep networks using smoothing maximum technique[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:794-803.
[27]Li Jingjing,Jing Mengmeng,Lu Ke,et al.Leveraging the invariant side of generative zero-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:7402-7411.
[28]Chen Zhi,Li Jingjing,Luo Yadan,et al.CANZSL:cycle-consistent adversarial networks for zero-shot learning from natural language[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.2020:874-883.
[29]Kim J,Shim K,Shim B.Semantic feature extraction for generalized zero-shot learning[C]//Proc of AAAI Conference on Artificial Intel-ligence.2022:1166-1173.
[30]Feng Yaogong,Huang Xiaowen,Yang Pengbo,et al.Non-generative generalized zero-shot learning via task-correlated disentanglement and controllable samples synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:9346-9355.
[31]Ye Changkun,Barnes N,Petersson L,et al.Efficient Gaussian process model on class-imbalanced datasets for generalized zero-shot learning[C]//Proc of International Conference on Pattern Recognition.2022.
[32]Kwon G,Al Regib G.A gating model for bias calibration in genera-lized zero-shot learning[J/OL].IEEE Trans on Image Processing,(2022-03-08).https://doi.org/10.1109/tip.2022.3153138.
[33]Van Der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.
[34]Szegedy C,Liu Wei,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.
[35]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014).https://arxiv.org/abs/1409.1556.
[36]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[C]//Proc of International Conference on Learning Representations.2021.