999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

零樣本圖像分類綜述

2021-05-14 03:41:54劉靖祎史彩娟涂冬景
計算機與生活 2021年5期
關鍵詞:語義分類特征

劉靖祎,史彩娟+,涂冬景,劉 帥

1.華北理工大學人工智能學院,河北唐山063210

2.深圳大學電子與信息工程學院,廣東深圳518060

深度學習的飛速發展得益于豐富的人工標注數據,監督式學習與深度學習相結合的方法在圖像分類等領域效果突出,許多基于深度學習的監督學習模型被提出,如ResNet[1]、DenseNet[2]、ArcFace[3]等。然而,現實中大量樣本是沒有標簽的,標注訓練樣本需要昂貴的人工成本;有些場景很難獲取樣本,僅有少量訓練樣本甚至沒有訓練樣本。

研究發現人類可以辨識大概30 000 個對象類別的信息[4],同時人類擁有知識遷移能力,在學習新事物時可以將過去學習存儲的知識遷移到新事物。因此,人們提出了零樣本學習(zero-shot learning,ZSL)概念。零樣本,即無訓練樣本,零樣本學習旨在讓深度學習模型能夠識別沒有訓練過的新類別[5]。2008年Larochelle 等人[6]針對字符學習提出了一種零樣本學習方法。2009 年Palatucci 等人[7]正式提出了零樣本學習(ZSL)概念。Lampert 等人[8]提出了基于屬性的類間遷移學習的經典零樣本學習算法和廣泛應用于零樣本學習的AWA(animals with attributes)數據集。Chao 等人[9]認為零樣本學習在測試階段不應當只區分不可見類,應該將訓練過程中學習到的可見類與不可見類一同進行識別,因此,提出了廣義零樣本學習(generalized zero-shot learning,GZSL)。不同于零樣本學習方法,廣義零樣本學習設置了一個更貼近現實的場景,在測試時測試樣本包含了可見類和不可見類。由于可見類和不可見類之間類別不平衡以及零樣本學習模型在分類時存在將不可見類歸為可見類的可能性,廣義零樣本學習為零樣本學習帶來了新的挑戰。

近年,基于零樣本學習的圖像分類得到廣泛研究,有效克服了沒有標注訓練樣本的局限,取得了很好的分類性能。零樣本圖像分類指的是訓練集和測試集互不包含的情況下進行分類[10]。目前,零樣本圖像分類主要包括基于空間嵌入的方法和基于生成模型的方法?;诳臻g嵌入的零樣本圖像分類方法根據嵌入空間的不同又分為基于語義空間嵌入、基于視覺空間嵌入和基于公共空間嵌入三種方法?;谏赡P偷牧銟颖緢D像分類方法利用生成對抗網絡(generative adversarial networks,GAN)、變分自編碼器(variational auto-encoder,VAE)和基于流的生成模型(flow-based generative model)生成不可見類特征,從而將零樣本圖像分類問題轉換為傳統的基于監督學習的圖像分類問題。

1 零樣本學習

零樣本學習依賴于有標簽的可見類別,以及不可見類別與可見類別相關聯的語義信息??梢婎悇e和不可見類別通常在一個高維向量空間(語義空間)中相關,將可見類屬性特征遷移到不可見類中。

零樣本學習中,設可見類為S={(x,y,c(y))|x∈X,y∈YS,c(y)∈C},其中x為視覺特征,y是其對應的標簽,c(y)是對應的類嵌入;U={(u,c(u))|u∈YU,c(u)∈c}表示不可見類,其中u是不可見類標簽,C(U)={(c(u1),c(u2),…,c(uL))}為不可見類的嵌入,且Ys?Yu=?。零樣本學習的目的是fZSL:X→YU,對于廣義零樣本學習,測試時包含訓練樣本,即fGZSL:X→YS?YU。

零樣本學習通過屬性遷移的方式,將可見類學習到的屬性遷移到不可見類上,建立可見類與不可見類的耦合關系,從而實現在沒有學習不可見類標簽樣本的前提下完成對不可見類的分類。零樣本學習框圖如圖1 所示。

由圖1 可知,零樣本學習建立可見類和不可見類的耦合關系依賴于一個嵌入空間。零樣本學習通過提取給定圖像的視覺特征來構造視覺空間,通過提取對應類別的語義向量構造語義空間,然后通過特征-語義之間的映射關系來構造嵌入空間。在訓練階段,首先學習可見類圖像特征和對應標簽,找到圖像特征與對應類別之間的關系,然后利用該關系對不可見類樣本進行分類,即首先利用圖像的視覺特征預測對應的語義特征,然后語義特征匹配所對應類別。

零樣本學習的表達式可以寫成如下形式:

其中,函數f表示將圖像視覺特征x映射到嵌入空間k中,函數g表示通過度量(比如歐氏距離)來確定圖像所對應的標簽。

根據訓練階段是否使用不可見類樣本的無標記數據,零樣本學習可以分為直推式零樣本學習和歸納式零樣本學習兩類。

1.1 直推式零樣本學習

2012 年,Fu 等人[11]提出直推式零樣本學習方法,在訓練階段通過使用不可見類的無標記樣本來提升零樣本學習測試階段圖像分類的精度,這些無標記樣本可以提高函數f在不可見類上的泛化能力和遷移能力。直推式零樣本學習框圖如圖2所示。直推式零樣本學習方法在訓練時會使用不可見類的無標記樣本,導致零樣本學習模型在訓練時具有一定的局限性。

Fig.2 Framework of transductive zero-shot learning圖2 直推式零樣本學習框圖

1.2 歸納式零樣本學習

與直推式零樣本學習方法不同,歸納式零樣本學習方法在訓練階段只訓練可見類樣本,即函數f只學習可見類樣本。在預測階段,函數g以并行的方式對不可見類樣本進行類標簽預測,在此過程中每個標簽的預測是相互獨立的。歸納式零樣本學習方法更加靈活,有較強的可延伸性,是目前零樣本圖像分類中較為常用的方法。歸納式零樣本學習框圖如圖3 所示。

2009 年,Lampert 等人[8]提出了經典的歸納式零樣本學習模型DAP(direct attribute prediction)和IAP(indirect attribute prediction)。DAP 模型是直接預測模型,首先使用訓練數據直接學習圖片特征到屬性特征的映射關系,然后通過對應的屬性特征進行不可見類圖像分類。IAP 模型是間接預測模型,通過學習可見類所對應的標簽間接學習圖片特征到屬性特征的映射關系,首先學習可見類圖片特征到可見類的映射,然后學習公共屬性與對應類別之間的映射,最后利用公共屬性預測不可見類圖像。DAP 和IAP兩個模型的框圖如圖4 所示。

Fig.3 Framework of inductive zero-shot learning圖3 歸納式零樣本學習框圖

Fig.4 DAP model and IAP model圖4 DAP 模型和IAP 模型

2 零樣本圖像分類

現有的零樣本圖像分類方法主要分為兩類:基于空間嵌入的零樣本圖像分類方法和基于生成模型的零樣本圖像分類方法。基于空間嵌入的方法依賴于一個嵌入空間,利用視覺和語義之間的映射關系完成分類,而基于生成模型的方法通過生成不可見類的特征完成分類。

2.1 基于空間嵌入的零樣本圖像分類方法

獲得圖像的視覺特征和語義特征后,通常可以通過兩個步驟解決零樣本圖像分類問題:首先學習一個嵌入空間,然后在嵌入空間中進行最近鄰搜索,將圖像視覺特征與不可見類原型進行匹配。基于空間嵌入的零樣本圖像分類方法利用可見類和不可見類的特征在嵌入空間中的相關性來完成可見類向不可見類的屬性遷移。根據所選擇嵌入空間的不同,基于空間嵌入的零樣本圖像分類方法分為基于語義空間嵌入的方法、基于視覺空間嵌入的方法和基于公共空間嵌入的方法,三種方法的結構框圖如圖5所示。

Fig.5 Framework of zero-shot image classification based on space embedding圖5 基于空間嵌入的零樣本圖像分類框圖

2.1.1 基于語義空間嵌入的零樣本圖像分類

基于語義空間嵌入的零樣本圖像分類方法將圖像的視覺特征嵌入到語義空間中。

早期方法注重視覺特征嵌入到語義空間的方式[12-13]以及語義空間的選取[14],如Akata 等人[12]提出的ALE(attribute label embedding)模型把每個類別的視覺特征都嵌入語義空間中,將零樣本圖像分類問題看作標簽嵌入問題,通過測量輸入和輸出與目標函數之間的兼容性來預測不可見類圖像的類別;Frome等人[13]提出一種深度視覺-語義嵌入模型(deep visual-semantic embedding model,DeViSE),使用標記的圖像數據和未經標注的文本中收集的語義信息訓練模型,從而完成零樣本圖像分類任務;Socher 等人[14]將不可見類圖像的視覺特征映射到一個低維的語義空間(該語義空間由文本中的詞向量構造),利用無監督語義詞向量對其進行分類。但是早期方法視覺特征嵌入的方式和類別比較單一,并且語義空間選取的不同容易導致匹配標簽出現困難,進而影響零樣本圖像分類的準確率。

近年,為了克服以上問題,一些新的基于語義空間嵌入的方法被提出。Xie 等人[15]考慮到將圖像特征直接嵌入到語義空間進行訓練,模型無法很好地學習單個圖像中不同區域間視覺特征的關系,提出了一種區域圖嵌入網絡(region graph embedding network,RGEN),將基于區域的關系推理融入到嵌入空間學習,利用轉移損失和平衡損失來進行零樣本圖像分類模型端到端的訓練。Huynh 等人[16]認為模型經過訓練后,在匹配不可見類標簽時容易忽視一些區域內的標簽,提出一種基于共享多注意機制的多標簽框架MLZSL(multi-label zero-shot learning)識別圖像中的多個不可見標簽,并找到每個標簽的相關區域生成多個注意力特征,利用每個標簽的語義向量選擇最合適特征來計算標簽的預測得分。Song 等人[17]考慮到有些類別間的特征差異十分微妙(如酒店的房間和家里的臥室),常用的語義特征不能描述場景的復雜性,無法將非常相似的類別進行有效分類,因此在語義空間中將相似類別的多個語義特征來源進行整合,得到更具有區分性的語義特征。上述方法使語義特征與視覺特征更好地匹配,但是仍然存在樞紐點問題,影響分類的準確性。

此外,圖卷積神經網絡和知識圖譜為基于語義空間嵌入的方法提供了新思路。Wang 等人[18]利用語義特征構建知識圖譜,將每一條語義特征的嵌入都用一個節點表示,并根據對應關系進行連接,通過圖卷積神經網絡進行訓練,得到不同類別的分類器。但是該方法中由于較遠節點間關聯程度較低,使用較多層圖卷積神經網絡不利于節點嵌入語義特征的分類。為此,Kampffmeyer 等人[19]提出了密集圖傳播模型(dense graph propagation,DGP),在2 層的圖卷積神經網絡中可以讓較遠節點直接相關聯,通過加權的方式學習節點間距離的權重,提升了分類準確性;Liu 等人[20]提出了一種屬性傳播網絡(attribute propagation network,APNet),利用嵌入的語義特征生成相關的知識圖譜,然后利用KNN 最近鄰方法進行預測。與文獻[18]工作相比,DGP 和APNet 提升了模型在零樣本圖像分類中的性能,但是在圖卷積神經網絡的優化以及知識圖譜的構建方面仍需要進一步改進,如在多層圖卷積神經網絡中保持較遠節點的關聯性和如何構建更全面的知識圖譜等。

2.1.2 基于視覺空間嵌入的零樣本圖像分類

基于視覺空間嵌入的零樣本圖像分類方法將視覺空間作為嵌入空間,語義特征被映射到視覺空間中。

早期方法將圖像的全局特征作為視覺特征,然后將不同形式的語義特征嵌入到視覺空間中,利用相似性度量完成分類。如Zhang 等人[21]設計了一種基于多模態融合的神經網絡模型,將用戶定義的屬性和詞向量等語義特征映射到視覺空間中,采用RNN(recurrent neural network)實現對語義表示的端到端學習。Sung 等人[22]提出一個雙分支關系網絡模型,采用MLP(multi-layer perceptron networks)網絡將用戶定義的屬性(語義特征)嵌入到視覺空間中,然后將視覺特征和語義特征進行拼接后輸入到關系網絡中,通過比較圖像視覺特征和語義特征的相似性得分來匹配不可見類圖像的類別。雖然將圖像全局特征作為視覺特征輸入取得了一定的效果,但是圖片中過多的復雜背景導致全局特征中存在太多的冗余和干擾,影響了圖像分類性能。

為此,一些方法將圖片中判別性區域特征作為視覺特征來提升零樣本圖像分類性能。Li 等人[23]提出了一種可自動發現判別性區域的零樣本圖像分類模型(latent discriminative features,LDF),將圖像的全局特征和判別性區域特征進行聯合學習,提升了零樣本圖像分類的準確率;Xie 等人[24]提出一種注意力區域嵌入網絡模型(attentive region embedding network,AREN),在不經過檢測或者注釋的情況下利用注意力機制自動發現目標區域,使分類模型準確區分具有相似特征的類別(如山貓和豹子)。雖然LDF和AREN 考慮了判別性區域特征的重要性,但是判別性區域定位存在不準確的情況,且跨模態映射時在視覺空間進行語義匹配中存在語義一致性問題。

針對語義一致性問題,一些方法提出的模型能夠更好地匹配語義特征。Li 等人[25]將視覺原型學習和稀疏圖學習統一為一個過程,在學習視覺原型的同時,在視覺空間和語義空間之間保持語義一致性,以處理語義不一致問題。Wan 等人[26]提出一種視覺中心自適應(visual center adaptation method,VCAM)方法,在視覺空間中對目標類別進行結構對齊,從而讓模型更好地匹配語義特征,大幅度緩解了語義一致性問題。Demirel 等人[27]將單詞的表示形式轉換為與視覺特征更具有關聯性的語義特征,以端到端的方式學習與視覺特征更一致的詞向量和標簽嵌入模型,有效地將屬性進行遷移。Huynh 等人[28]提出一種屬性嵌入技術,首先使每個屬性集中在最相關的圖像區域,從而獲得基于屬性的視覺特征,然后將基于屬性的視覺特征與其對應的語義向量對齊,最后訓練分類器。

2.1.3 基于公共空間嵌入的零樣本圖像分類

基于公共空間嵌入的零樣本圖像分類方法將圖像視覺特征和語義特征映射到同一公共空間。

早期方法,如Akata 等人[29]提出了一種聯合嵌入模型SJE(structured joint embedding),使用多種輔助信息作為語義表示(如詞向量等),通過公共空間嵌入的方式完成零樣本圖像分類任務。但是早期方法沒有使用深度學習模型,性能較差。

隨著深度學習的發展,許多工作將深度學習與基于公共空間嵌入的方法結合來提升分類性能。Wang 等人[30]提出一種基于多層感知器的方法,在公共空間中直接學習特征原型并優化特征結構,學習更具體的視覺特征;Min 等人[31]考慮到跨模態映射過程中的偏差問題,提出了一種特定的領域嵌入網絡模型(domain-specific embedding network,DSEN),考慮了語義一致性的問題,防止嵌入空間中語義關系被破壞。但是以上方法在嵌入空間中將視覺特征和語義特征相關聯的方式較為單一,且沒有考慮圖像中判別性區域特征的影響。

此外,還有一些基于公共空間嵌入方法的研究,Liu 等人[32]提出了一種標簽激活框架(label activating framework,LAF),將原始標簽空間作為公共空間,將不可見類的標簽看作可見類標簽的線性組合,此時可見類和不可見類的標簽在公共空間中定義且原始標簽具有特定的含義,經過訓練后能達到更好的分類效果。Zhang 等人[33]提出了一個雙分支網絡將圖像的語義描述和視覺表示映射到一個公共空間中,并通過回歸項最小化視覺樣本的嵌入和其對應類級語義描述之間的絕對距離,利用輔助分類器來區分所嵌入語義信息的交叉類別。

基于空間嵌入的方法從2012 年沿用至今,是一種很有競爭力的零樣本圖像分類方法,隨著卷積神經網絡、殘差網絡[1]、密集網絡[2]等神經網絡的提出,基于空間嵌入的零樣本圖像分類性能將可以進一步得到提升。但是,由于可見類和不可見類之間的訓練樣本數量極度不平衡,現有的大多數方法仍存在很大的局限性。

2.2 基于生成模型的零樣本圖像分類方法

基于空間嵌入的零樣本圖像分類依賴于圖像特征空間和類嵌入空間之間的交叉模態映射,泛化能力較差。生成模型的出現為這一問題提供了新的解決思路,基于生成模型的零樣本圖像分類方法利用生成模型直接生成不可見類的特征,將零樣本圖像分類轉化為傳統的基于監督學習的圖像分類問題。目前用于零樣本圖像分類的主要生成模型包括生成對抗網絡GAN、變分自編碼器VAE 和基于流的生成模型FLOW。

2.2.1 基于GAN 的零樣本圖像分類

近年,生成式對抗網絡(GAN)[34]的提出為解決可見類和不可見類之間的訓練樣本數量不平衡問題提供了新思路。GAN 包括判別器和生成器兩部分,生成器利用隨機噪聲生成偽樣本,判別器對生成的樣本進行判別,最后生成新的樣本來滿足對不可見類樣本的需要。

Xian 等人[35]將WGAN(Wasserstein GAN)[36]與一個分類損失配對,生成鑒別性不可見類視覺特征來訓練Softmax 分類器,并綜合了基于類級語義信息的CNN(convolutional neural networks)特征,提供了從類的語義描述直接到類條件特征分布的快捷方式。Sariyildiz 等人[37]為了用WGAN 學習生成更好的數據訓練,提出梯度匹配網絡(gradient matching network,GMN),利用梯度匹配損失作為分類損失的代理,引導生成器最小化綜合實例驅動的分類模型的分類損失。然而,以上基于GAN 的方法不能保證生成樣本的質量,影響了零樣本圖像分類的性能。

因此,為了保證生成樣本的質量,一些工作對Xian 等人[35]和Sariyildiz 等人[37]所提方法進行了改進。Verma 等人[38]利用WGAN,提出了一種基于類屬性條件設置的元學習方法ZSML(zero-shot metalearning),將生成器模塊和帶有分類器的判別器模塊分別同元學習代理相關聯,利用少量可見類樣本的輸入即可訓練模型;Ma 等人[39]提出一種相似度保持損失,使GAN 的生成器減小生成樣本與真實樣本之間的距離,利用相似度消除異常的生成樣本;Liu 等人[40]提出了一種雙流生成式對抗網絡合成具有語義一致性和明顯類間差異的視覺樣本,同時保留用于零樣本學習的類內多樣性。

除此之外,Felix 等人[41]將多模態循環一致約束添加到視覺特征生成的過程,重建原始語義特征,利用多模態循環一致的語義兼容性進行訓練,生成更具有代表性的視覺特征。Li 等人[42]發現將GAN 用于零樣本圖像分類時,生成的不可見類視覺特征容易與可見類特征混淆,因此提出了一種環節特征混淆的生成式對抗網絡AFC-GAN(alleviating feature confusion GAN),并提出特征混淆分數來評估特征混淆,生成更具有區分性特征。

基于GAN 的零樣本圖像分類方法在短短兩年間飛速發展,但是GAN 本身存在生成特征不穩定問題,訓練批次的不同也會影響特征生成效果。另外,學習訓練過程中會出現模式崩塌[43]。

2.2.2 基于VAE 的零樣本圖像分類

相比于基于GAN 的零樣本圖像分類,基于變分自編碼器(VAE)[44]的方法可以克服不穩定和模式崩塌等問題。變分自編碼器為每個樣本構造對應的正態分布,然后采樣變量并進行重構,其結構圖如圖6所示。

2018 年,Mishra 等人[45]訓練一個條件變分自編碼器(conditional variational autoencoders for ZSL,CVAEZSL)來學習基于類嵌入向量的所對應圖像特征的潛在概率分布,生成更穩定的視覺特征。Schonfeld 等人[46]通過VAE 編碼和解碼不同模式的特征,匹配參數化分布和強制跨模態重建標準來學習多個數據模式的共享的跨模態潛在表示,并使用學習到的潛在特征訓練零樣本圖像分類器。雖然變分自編碼器進行編碼和解碼操作后生成的特征較為穩定,但是很難生成高質量的特征。

Fig.6 Framework of VAE model圖6 VAE 模型框圖

為了提高生成視覺特征的質量,許多改進方法[45-47]被提出。Gao 等人[47]提出了一種結合變分自編碼器和生成式對抗網絡的聯合生成模型用于生成高質量的不可見類特征,利用自訓練策略并引入一個對抗性分類網絡增強類級區分能力;Zhang 等人[48]提出了一種跨層自動編碼器(cross-layer autoencoder,CLAE),利用不同的語義映射方式確保重建信息的準確性,并利用正則損失函數保留類別的局部流形,增加了特征生成效果;Yu 等人[49]使用多模態變分自編碼器(multi-modal VAE,MMVAE),并利用期望最大化的方法,使模型生成不可見類特征的同時學習該特征,模型根據每一輪迭代生成的新特征進行網絡權重的更新,并且編碼器可以直接作用于分類,無需其他分類器。

VAE 給出的是生成樣本概率的下界,雖然以上方法[45-47]一定程度上提高了生成特征質量,但是距生成高質量特征仍有一定差距。

2.2.3 基于FLOW 的零樣本圖像分類

研究發現[46,50],零樣本圖像分類的訓練過程中僅涉及可見類樣本,生成模型所生成的不可見類樣本有時具有與可見類相同的分布。為了生成高質量視覺特征,基于FLOW 的零樣本圖像分類方法被提出。FLOW 模型框圖如圖7 所示。

Fig.7 Framework of FLOW model圖7 FLOW 模型框圖

2020 年,受可逆神經網絡(invertible neural networks,INNs)[51]的啟發,Shen 等人[52]提出了一種基于流的生成模型IZF(invertible zero-shot flow)進行零樣本圖像分類,采用相同的參數集和內置網絡進行編碼(正向傳遞)和解碼(反向傳遞)。

Gu 等人[53]將VAE 與FLOW 相結合,提出VAE 條件生成流模型(VAE-conditioned generative flow,VAEcFlow),利用VAE 將語義描述編碼為可處理的潛在分布,然后利用FLOW 優化所觀察到的視覺特征的精確對數似然性,更好地實現了零樣本圖像分類?;贔LOW 的生成模型直接給出了生成樣本概率,使得零樣本圖像分類取得了很好的性能。但是,基于FLOW 的生成模型計算量大,消耗資源多。

表1 給出了現有零樣本圖像分類不同方法的比較,包括機制、優點、缺點及應用場景等。

3 性能評估

3.1 數據集介紹

零樣本圖像分類中常用以下5個數據集:AwA1[8]、AwA2[52]、CUB[54]、SUN[55-56]和aPY[57]。其中CUB 和SUN兩個數據集為細粒度數據集,其余3 個數據集為粗粒度數據集,如表2 所示。

數據集AwA1[8]和AwA2[52](animal with attribute1 and 2)分別包含了50 類30 745 張和37 322 張動物圖片,其中40 類作為訓練類別,10 類作為測試類別,使用85 維的語義屬性特征。

數據集CUB(Caltech-UCSD-Birds-200-2011)[54]為鳥類圖片的細粒度數據集,包含了200 種鳥類共計11 788 張圖片,其中150 類作為訓練類別,50 類作為測試類別,使用312 維的語義特征。

數據集SUN(SUN Attribute Dataset)[54-55]涵蓋了各種環境場景和內部圖像的細粒度數據集,包含了717 類共計14 340 張圖片,其中645 類作為訓練類別,72 類作為測試類別,使用102 維語義特征。

Table 1 Comparison of different types of zero-shot image classification表1 不同類型零樣本圖像分類方法比較

Table 2 Datasets for zero-shot image classification表2 零樣本圖像分類中常用數據集

數據集aPY(aPascal-aYahoo)[57]包含兩部分:一部分由PASCAL VOC 2008 數據集中20 個類別12 695張圖片組成,作為訓練類別;另一部分則包含了Yahoo搜索引擎提供的12 個類別共計2 644 張圖片,作為測試類別,使用64 維語義特征。

3.2 評價方法

在零樣本圖像分類中,采用每個類別top-1 精度的均值作為評價標準,其公式表示為:

其中,Y表示類別標簽,||Y||表示類別總數。

對于廣義零樣本圖像分類:給定樣本特征x∈Xs?Xu,其中Xs為可見類樣本特征,Xu為測試集中不可見類樣本特征,且標簽空間應包含已知類和未知類的全部測試標簽,即Ys?Yu。在廣義零樣本圖像分類中采用調和平均率(harmonic mean)作為評價標準,公式表示為:

其中,Accys和Accyu分別表示測試過程中已知類和未知類的平均top-1 準確率(為了方便書寫,分別用S和U表示),H表示兩者的調和平均率。

3.3 零樣本圖像分類方法性能比較

本文選取了幾個經典零樣本學習模型和現有最新模型分別在零樣本圖像分類和廣義零樣本圖像分類設置下在4 個數據集(AwA1、AwA2、CUB 和SUN)上進行了比較。模型包括早期零樣本圖像分類模型DAP(direct attribute prediction)[8]、基于空間嵌入的模型CMT(cross-modal transfer)[14]、SSE(semantic similarity embedding)[58]、ESZSL(embarrassingly simple zeroshot learning)[59]、SAE(semantic auto encoder)[60]、ALE(attribute label embedding)[61]、RN(relation network)[22]和視覺特征生成模型f-CLSWGAN[35]、LisGAN(leveraging invariant side GAN)[62]、DLFZRL(discriminative latent features for zero-shot learning)[63]和IZF(invertible zero-shot flow)[52]。數據均來源于算法所對應公開發表文章或其他公開文章復現的結果,如表3(零樣本圖像分類)和表4(廣義零樣本圖像分類)所示。

Table 3 Performance comparison of zero-shot image classification(Accy)表3 零樣本圖像分類性能比較(Accy)%

由表3 可以看出,在零樣本圖像分類設置下:(1)相比于早期模型,基于空間嵌入和生成模型的方法取得了更好的效果;(2)基于空間嵌入的方法在零樣本圖像分類任務中具有競爭力,部分模型所獲得的結果相對接近于視覺生成模型;(3)相比較于CUB和SUN 兩個細粒度數據集,表3 中的方法在AwA1 和AwA2 兩個粗粒度數據集上的性能更加突出。

由表4 可以看出,在廣義零樣本圖像分類設置下:(1)大多數零樣本圖像分類方法在廣義零樣本學習設置下得到的結果次于零樣本圖像分類結果,說明零樣本圖像分類設置具有一定的局限性;(2)基于空間嵌入的模型的性能明顯偏向于可見類的識別,對不可見類的識別效果較差?;谏赡P偷姆椒▋炗诨诳臻g嵌入的方法,可以更為準確地識別不可見類,調和平均率提高效果非常明顯。特別的,基于FLOW 的IZF 模型[52]相比較于其他生成模型達到了更好的性能。

綜合表3 和表4 可以看出,由于廣義零樣本學習設置更符合現實生活需求,廣義零樣本圖像分類方法將會得到更多的研究。同時,基于生成模型方法更適用于零樣本圖像分類任務。

4 存在問題及解決方法

盡管零樣本圖像分類得到了廣泛研究,但是現有方法中仍然存在領域漂移問題、樞紐點問題和語義鴻溝問題等。下面對這三個問題進行分析并給出一定的解決思路。

(1)領域漂移問題(domain shift problem)。由于零樣本學習方法在訓練時不能學習不可見類的標簽,當訓練集類別與測試集類別差異很大時,例如訓練集都是鳥類,而測試集全是交通工具,利用鳥類的特征訓練出來的模型很難正確識別交通工具,此時零樣本圖像分類效果會很不理想。為此,Kodirov 等人[60]提出了SAE 模型,在視覺特征向語義特征映射的過程中添加了約束條件,可以保證在映射時保留視覺特征中所包含的信息,很好地緩解了領域漂移問題。

Table 4 Performance comparison of generalized zero-shot image classification表4 廣義零樣本圖像分類性能比較%

(2)樞紐點問題(hubness problem)。在高維空間中,某些點會成為大多數點的最鄰近點,零樣本圖像分類方法通過KNN 算法進行分類時,樞紐點問題會影響最終的分類結果?;谏赡P停╒AE、GAN 和FLOW)的方法將零樣本圖像分類問題轉換成監督學習問題,為解決樞紐點問題提供了新思路。

(3)語義鴻溝問題(semantic gap)。樣本的視覺表示往往采用卷積神經網絡所提取的視覺特征,語義特征的表示與視覺特征表示不同,在視覺-語義特征進行映射的時候由于圖像在視覺空間所構成的流形和語義特征在語義空間的流形不一致導致學習過程有困難。公共空間嵌入的方式緩解語義鴻溝問題,該方式也成為緩解語義鴻溝的主要方法。

5 發展趨勢和研究熱點

本文對現有零樣本圖像分類方法進行了詳細介紹,下面對未來零樣本圖像分類的發展趨勢和研究熱點進行探討,主要包括以下三方面。

(1)定位更準確的判別性區域,提取更具有區分性的特征。利用注意力機制等定位更準確的判別性區域,提取更具有區分性的特征,從而使模型能夠更好地學習視覺特征與語義特征之間的關系,提升零樣本圖像分類準確率。

(2)利用新的生成模型生成高質量的不可見類視覺特征。基于FLOW 的方法進行零樣本圖像分類具有巨大的發展潛力;另外,Zhu 等人[64]提出一種新的生成模型,用于學習從類級語義特征以及遵循高斯噪聲分布的實例級潛在因素到視覺特征的映射;Yu 等人[65]提出一種原型生成網絡用于合成基于語義原型的類級視覺原型,并提出多模態交叉熵損失用于捕獲判別性信息。

(3)廣義零樣本圖像分類。零樣本圖像分類設置下,測試集不包含訓練集,這是一個十分理想的狀態,在現實生活中并不會存在這種情況。因此,測試集包含訓練集的廣義零樣本圖像分類,更貼近于現實,成為未來最有意義的研究熱點。

6 結束語

本文對零樣本圖像分類進行了綜述,詳細介紹了現有的零樣本圖像分類方法,并對典型方法進行了性能比較,對零樣本學習、常用數據庫、評估方法等進行了介紹,同時對零樣本圖像分類存在問題、未來發展趨勢和研究熱點進行了分析。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲最猛黑人xxxx黑人猛交| 国产导航在线| 国产区免费精品视频| 久久中文字幕2021精品| 国产精品无码AV中文| 亚洲视频黄| 国产成人三级| 久久香蕉国产线看精品| 国产污视频在线观看| 久久国产乱子| 日韩成人免费网站| 国产精品亚洲欧美日韩久久| 在线欧美日韩国产| 国产一级小视频| 久久精品欧美一区二区| 免费国产高清视频| 国产在线视频福利资源站| AV网站中文| 激情综合婷婷丁香五月尤物| 亚州AV秘 一区二区三区| 亚洲天堂2014| 国内毛片视频| 在线视频亚洲欧美| 国产亚洲精品无码专| 毛片手机在线看| 国产福利免费视频| 日韩大片免费观看视频播放| 国产一级在线观看www色| 久热中文字幕在线| 18禁黄无遮挡网站| a级毛片免费在线观看| 在线视频精品一区| 免费国产一级 片内射老| 另类欧美日韩| 91福利免费| 国产青榴视频| 精品一区二区三区视频免费观看| 狠狠色丁婷婷综合久久| 五月婷婷丁香综合| 成人自拍视频在线观看| 日韩精品专区免费无码aⅴ| 国产美女一级毛片| www.av男人.com| 久久久久人妻一区精品色奶水 | 26uuu国产精品视频| 国产精品99在线观看| 久久性视频| 国产全黄a一级毛片| 国产一级一级毛片永久| 91免费国产在线观看尤物| 国产91小视频在线观看| 久久黄色毛片| 欧美日韩第二页| 国产精品深爱在线| 青青草国产免费国产| 亚洲Av综合日韩精品久久久| 四虎永久免费地址| 啊嗯不日本网站| 国产乱人乱偷精品视频a人人澡| 国产精品不卡片视频免费观看| 国产在线拍偷自揄拍精品| 在线日本国产成人免费的| 色播五月婷婷| 18禁不卡免费网站| 三级欧美在线| 亚洲欧美另类专区| 国产成人免费高清AⅤ| 四虎永久在线精品影院| 日韩精品无码免费专网站| 精品久久国产综合精麻豆| 亚洲国产91人成在线| 亚洲精品动漫| 欧美亚洲一区二区三区在线| 青青草国产精品久久久久| 国产日韩精品欧美一区喷| 色综合中文| 日本一区高清| 高清码无在线看| 国产一级特黄aa级特黄裸毛片 | 毛片网站观看| 亚洲av无码专区久久蜜芽| 日韩色图区|