摘 要:在圖像分類領域,現有的深度學習等方法在訓練時需要大量有標注的數據樣本,且無法識別在訓練階段未出現的類別。零樣本學習能有效緩解此類問題。本研究基于堆棧式自編碼器和低秩嵌入,提出了一種新的零樣本學習方法,即基于低秩嵌入的堆棧語義自編碼器(low-rank stacked semantic auto-encoder,LSSAE)。該模型基于編碼-解碼機制,編碼器學習到一個具有低秩結構的投影函數,用于將圖像的視覺特征空間、語義描述空間以及標簽進行連接;解碼階段重建原始視覺特征。并通過低秩嵌入,使得學習到的模型在預見未見類別時能共享已見類的語義信息,從而更好地進行分類。本研究在五個常見的數據集上進行實驗,結果表明LSSAE的性能優于已有的零樣本學習方法,是一種有效的零樣本學習方法。
關鍵詞:圖像分類;零樣本學習;堆棧式自編碼器;低秩嵌入
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2023)02-037-0539-05
doi:10.19734/j.issn.1001-3695.2022.06.0302
Zero-shot learning based on stacked semantic auto-encoder with low-rank embedding
Ran Ruisheng,Dong Shuhong,Li Jin,Wang Ning
(College of Computer amp; Information Science,Chongqing Normal University,Chongqing 401331,China)
Abstract:In the field of image classification,existing methods such as deep learning require a large number of annotated samples for training and are unable to identify classes that do not appear in the training phase.Zero-shot learning tasks can effectively alleviate such problems.This study proposed a new zero-shot learning method,namely low-rank stacked semantic auto-encoder(LSSAE) based on stacked auto-encoder and low-rank embedding.The model was based on an encoding-decoding me-chanism where the encoder learned a projection function with a low-rank structure for concatenating the visual feature space,the semantic space and the labels.It reconstructed the original visual features in the decoding stage.And the low-rank embedding enabled the learned model to share the semantic information of the seen classes when anticipating the unseen classes for better classification.Experiments were conducted on five common datasets in this study,and the results show that the proposed LSSAE outperforms existing zero-shot learning methods which is an effective zero-shot learning method.
Key words:image classification;zero-shot learning;stacked auto-encoder;low-rank embedding
0 引言
在圖像識別與分類領域,諸如卷積神經網絡(convolutional neural network,CNN)[1]、深度神經網絡(deep neural network,DNN)[2]等模型都在大規模的圖像識別和分類任務上獲得了良好的表現。然而,這些模型都需要大量的訓練樣本,且只能對訓練樣本中出現過的類別進行分類。而在現實中,一方面收集大量的訓練樣本需要較高的成本,而且對于像長須鯨藍鯨、中華鱘等處于瀕危狀態的動物,甚至都難以收集到樣本;另一方面,由于傳統圖像分類方法無法識別在訓練階段未出現的類別,當有新的類別出現時往往需要重新訓練一個模型。如果新的類別數據不斷增多,每次都訓練一個新模型所付出的代價會非常高。
為了解決上述問題,零樣本學習(zero-shot learning,ZSL)被提出[3],并受到廣泛關注。ZSL的任務是在訓練階段進行建模和學習,使模型能夠識別在訓練階段未出現過的新類別。ZSL的原理來自于人類識別新事物的機制。例如,如果一個小孩見過馬、熊貓和老虎,他就知道馬的外形,熊貓有黑白的毛,老虎有條紋等。這時,即使他沒有見過斑馬,但如果告訴他斑馬的一些特征,如斑馬有馬的外形、有黑白相間的條紋等,當他見到斑馬時,他就能準確地認出斑馬這個新動物。圖1給出了ZSL的任務示意圖。
具體來說,ZSL是一個知識遷移的過程,旨在學習已見類與未見類之間的內在關系。已見類與未見類分別表示訓練與測試的圖像所屬類別,兩者的交集為空。ZSL圖像分類研究可以對訓練數據集中沒有出現的未知類進行預測,它在瀕危動物的識別、故障檢測、物體識別等諸多領域都具有很大的應用價值。
現有的大多數ZSL方法主要通過以下幾種方式實現訓練與測試:
a)通過屬性預測[4]。直接屬性預測(direct attribute prediction,DAP)與間接屬性預測(indirect attribute prediction,IAP),直接或間接學習單個語義屬性的分類器,通過屬性預測實現已見類向未見類的知識遷移。
b)通過學習視覺特征空間到語義空間的映射[5~12]。Akata等人[5]提出屬性標簽嵌入的圖像分類方法(attribute label embedding,ALE),該方法將圖像從視覺特征空間映射到語義空間后學習一個兼容函數,用于衡量該圖像與每個類別語義之間的匹配度,確保每張圖像與所屬的語義向量匹配度最高,測試只需要選中得分最高的類別標簽即可。Frome等人[7]提出一種深度視覺—語義嵌入模型(deep visual-semantic embedding model,DeViSE),首先預訓練兩個神經網絡模型,一個用于語義向量或詞向量,一個用于圖像視覺特征,然后采用上述兩個網絡模型初始化提出來的模型。Zhang等人[8]提出雙重驗證網絡(dual-verification network,DVN)將圖像特征投射到一個正交空間,使其與對應的語義屬性有最大的相關性,并且與所有其他屬性正交,最后計算出語義與標簽之間的關系。Socher等人[10]提出跨模態轉移的零樣本學習(cross-modal transfer,CMT),首先將圖像通過神經網絡模型映射到語義空間,接著將每個新的測試樣本映射到這個語義空間中,確定是否在已見圖像的流形上,如果圖像是新的,即不在流形上,就在無監督的語義空間下進行分類。
c)通過潛在空間進行學習[13~19]。直接將視覺特征空間映射到語義空間,由于兩個不同域之間的語義差距較大,直接嵌入效果仍不夠優秀。部分學者提出增加一個中間的共享空間,稱為潛在空間。Xian等人[14]提出潛在嵌入模型(latent embedding model,LATEM),通過學習多個映射函數,將視覺特征和語義信息映射到一個潛在子空間。其中不同的映射函數學習不同類別的視覺特征,對于不同的類別,模型選擇兼容性最高的一組函數進行分類。Liu等人[17]提出鑒別性雙語義自編碼器(discriminative dual semantic auto-encoder,DDSA),通過學習一個對齊空間構建兩個雙向映射自編碼器,分類則將測試類別的語義投射到視覺空間,最后通過最近鄰算法搜索分類。Wu等人[18]提出視覺—語義聯合優化模型(joint visual and semantic optimization,VSOP),將視覺特征空間與語義空間投射到一個潛在子空間,這樣就可以提取這兩個空間之間的關系進行分類。
然而,在ZSL中存在領域漂移的問題(domain shift)[20],即同一種語義屬性信息在不同類別中也可能具有不同的視覺特征表達。另外,不同類別的視覺特征也可能傳達相同或相近的語義信息,而上述方法都沒有很好地關注到已見類與未見類中共享的某些語義信息。文獻[21]提出的語義自編碼器可以有效減少領域飄移的負面影響,其原因在于,雖然訓練與測試圖像的視覺特征分別來自可見類和未見類,但在解碼階段對視覺特征的重建約束對兩者都有效,從而使得學習到的投影函數不容易受到領域漂移的影響。但是語義自編碼器僅僅只關注到了圖像的視覺特征到語義信息之間的映射關系,并沒有很好地將圖像的標簽信息利用起來,不能建立圖像特征到標簽之間的映射關系。此外,已有研究表明低秩嵌入約束可以轉移已見類與未見類的內在知識或共享特征[22],從而可以將已見類學習到的知識轉移到未見類上。
基于此,本文將低秩嵌入和語義自編碼器相結合,提出基于低秩嵌入的堆棧語義自編碼器的零樣本學習方法(low-rank stacked semantic auto-encoder,LSSAE)。該方法主要貢獻包含以下兩方面:
a)將堆棧式自編碼器的思想用于ZSL。該堆棧式自編碼器的編碼和解碼過程分別含有兩個隱藏層。編碼器的第一層將視覺特征空間映射到語義空間,第二層將語義空間映射到標簽空間。接下來,解碼器通過標簽信息與語義信息連續重建樣本的原始特征信息。這樣,在編碼和解碼過程,使模型學習到視覺特征空間到標簽空間的映射關系。
b)采用低秩嵌入的思想對模型進行約束,即模型嘗試學習到一個有低秩結構的投影矩陣,以轉移已見類別與未見類別的內在知識或共享特征。也就是說,通過這個方式可以為未見類別估算出更好的語義信息。
1 相關工作
本文的方法受到自編碼器和低秩嵌入思想的啟發,下面給出其簡要說明。
1.1 自編碼器(auto-encoder,AE)
自編碼器是一種非監督學習算法,由編碼器、隱藏層、解碼器三部分組成。編碼器將輸入數據編碼并映射到隱藏層,解碼器則通過隱藏層解碼重建原始輸入。堆棧式自編碼器(stacked auto-encoder)由編碼器、多個隱藏層、解碼器組成。輸入數據經過多個隱藏層編碼,逐層實現數據的抽象和特征提取。
語義自編碼器(semantic auto-encoder)[21]是一種將樣本語義和自編碼器相結合的ZSL方法。該方法的編碼器將圖像從視覺特征空間投射到具有較低維度的語義空間,解碼器則將語義空間投射回原始的視覺特征空間,旨在重建原始特征。測試任務則在兩個空間中進行:
a)通過編碼器將新的測試樣本投射到語義空間中,分類則只需要計算估計的語義與未見類的語義之間的距離。
b)通過解碼器將原始語義空間投射到特征空間,分類則計算測試樣本的特征與估計的特征之間的距離。
1.2 低秩嵌入
由ZSL任務可以得知,訓練與測試的數據樣本分別取自已見類與未見類,兩者雖然位于不同分布的特征空間,但它們卻可能有相似的語義信息,當學習模型進行知識遷移時,就需要盡可能得到準確的未見類語義信息。由此Ding等人[22]提出將低秩嵌入(low rank embedding,LRE)的思想用于ZSL中。LRE的思想主要假設未見類的語義信息與已見類的語義信息存在大部分共享,也就是不同類別間的語義信息能共享大部分屬性值,這可在一個具有低秩結構的空間中確定。這樣在對未見類的圖像進行知識轉移中就能更好地估計出潛在的語義信息。
2 提出的方法
3.4 方法有效性分析
為了使分類結果更加直觀,本文以AWA2數據集為例構建了其未見類的混淆矩陣,結果如圖3所示。混淆矩陣的行與列分別代表真實的類別和預測的類別。從圖中可以看出,所提方法可以有效地對未見類進行預測,特別是對“豹子”“座頭鯨”幾乎都可以準確地進行識別。由此可以說明,所提方法在對動物識別等應用場景中將會有很大的優勢。
為了進一步驗證LSSAE方法的有效性,通過訓練完畢的模型,在將未見類測試樣本從視覺空間投射到語義空間后,本文采用了t-SNE[31]算法來可視化AWA2數據集的未見類實例在語義空間中的分布情況,結果如圖4所示。從中可以觀察到,在圖4(a)中,由SAE投射的語義信息各類比較分散,并未很好地聚集在一起,且其類別之間的差距較小。相比之下,在圖4(b)中,本文方法學習的語義信息更容易單獨地聚集在一起,并且幾乎未發生重疊,類之間的差距也更加清晰。這意味著本文模型生成的語義信息的分布比SAE得到的更容易被分類,從而使得最終的分類結果有所提升。
3.5 參數分析
本文的LSSAE方法有兩個參數,分別是λ和β。通過控制變量法,對兩個參數進行了分析。圖5(a)和(b)分別列出了參數λ和β在不同數據集上對模型的影響。對λ進行分析可以看出,在五個數據集上達到最高準確率時都是一個小范圍值,當λ在值為2附近時表現最好。隨著值增大,各個數據集準確率都有不同程度下降,其中CUB受影響程度最大,下降了10%左右,而AWA和AWA2受影響程度最小,在2%之內。當固定λ的值,對β進行分析,可以看出它對模型影響都較小,在五個數據集上的準確率都并未受到太大干擾,受影響的程度整體都不超過1%。這說明在堆棧式自編碼器模型結構下,λ作為平衡編碼器與解碼器的平衡參數,模型對其相對更敏感,而對β不敏感,即性能指標基本穩定。總結分析,經驗上可以將λ設置為1≤λ≤5,而1≤β≤50。
3.6 模型應用分析
前幾節對所提方法進行了實驗結果對比與有效性分析,證明了方法的有效性。下面以瀕危動物識別的應用場景為例對所提方法的應用性進行分析說明,如圖6所示。在訓練階段,本文使用大量常見的動物類別樣本進行模型訓練,求解得到投影矩陣U。注意,由于不容易獲得中華鱘這種瀕危動物的大量樣本,在訓練階段沒有中華鱘。接下來,如果有中華鱘的圖像(假定事先并不認識中華鱘),對其進行特征提取,然后采用訓練階段得到的投影矩陣U,即可進行預測分類。
4 結束語
基于堆棧式自編碼器和低秩嵌入,本文提出了一種新的ZSL方法,名為基于低秩嵌入的堆棧語義自編碼器(low-rank stacked semantic auto-encoder,LSSAE)。該方法的編碼器將圖像視覺特征映射到類別信息,而解碼器則旨在精確地重建原始視覺特征信息。通過編碼—解碼機制,使得學習到的網絡模型更能準確反映視覺特征與類別標簽之間的映射關系。同時,通過低秩嵌入的約束,使得學習到的模型在預見未見類別時能共享已見類的語義信息,從而更好地進行分類。最后在ZSL領域的常見數據集上進行了實驗,實驗結果表明,LSSAE優于其他先進的ZSL方法。另外,對LSSAE進行了有效性分析,驗證了在動物識別場景下的優越性;還對兩個超參數進行了分析,在不同的參數值下,對模型的影響基本都不大,這表明本文的模型具有很強的穩定性。
但是,對于ZSL來說,目前總體準確率都不高,這是因為測試的類別都為未見類,底層視覺特征大多明顯異于訓練類別,訓練階段學習到的投影函數不能完全學習到類別視覺特征與語義信息之間的內在聯系,證明在模型結構上還有更進一步的改進方案。其次,本文的模型要求人為標注不同類別之間的語義描述,存在主觀性,未來的研究可以探索如何通過算法學習到類別語義信息之間更抽象的聯系。最后,ZSL存在的領域漂移等問題仍然存在,如何更有效地解決仍需要探索。
參考文獻:
[1]Gu Jiuxiang,Wang Zhenhua,Kuen J,et al.Recent advances in convolutional neural networks[J].Pattern Recognition,2018,77:354-377.
[2]Liu Weibo,Wang Zidong,Liu Xiaohui,et al.A survey of deep neural network architectures and their applications[J].Neurocomputing,2016,234:11-26.
[3]Palatucci M,Pomerleau D,Hinton G E,et al.Zero-shot learning with semantic output codes[C]//Proc of the 22nd International Conference on Advances in Neural Information Processing Systems.2009:1410-1418.
[4]Lampert C H,Nickisch H,Harmeling S.Attribute-based classification for zero-shot visual object categorization[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,36(3):453-465.
[5]Akata Z,Perronnin F,Harchaoui Z,et al.Label-embedding for image classification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,38(7):1425-1438.
[6]Akata Z,Reed S,Walter D,et al.Evaluation of output embeddings for fine-grained image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:2927-2936.
[7]Frome A,Corrado G S,Shlens J,et al.DeViSE:a deep visual-semantic embedding model[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:2121-2129.
[8]Zhang Haofeng,Long Yang,Yang Wankou,et al.Dual-verification network for zero-shot learning[J].Information Sciences,2019,470:43-57.
[9]Norouzi M,Mikolov T,Bengio S,et al.Zero-shot learning by convex combination of semantic embeddings[EB/OL].(2013).https://arxiv.org/abs/1312.5650.
[10]Socher R,Ganjoo M,Manning C D,et al.Zero-shot learning through cross-modal transfer[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:935-943.
[11]Romera P B,Torr P.An embarrassingly simple approach to zero-shot learning[C]//Proc of International Conference on Machine Learning.2015:2152-2161.
[12]張冀,曹藝,王亞茹,等.融合VAE和StackGAN的零樣本圖像分類方法[J].智能系統學報,2022,17(3):593-601.(Zhang Ji,Cao Yi,Wang Yaru,et al.Zero-shot image classification method combining VAE and StackGAN[J].CAAI Trans on Intelligent Systems,2022,17(3):593-601.)
[13]Zhang Ziming,Saligrama V.Zero-shot learning via semantic similarity embedding[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:4166-4174.
[14]Xian Yongqin,Akata Z,Sharma G,et al.Latent embeddings for zero-shot classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:69-77.
[15]Changpinyo S,Chao Weilun,Gong Boqing,et al.Synthesized classifiers for zero-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5327-5336.
[16]Verma V K,Rai P.A simple exponential family framework for zero-shot learning[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer,2017:792-808.
[17]Liu Yang,Li Jin,Gao Xinbo.A simple discriminative dual semantic auto-encoder for zero-shot classification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2020:940-941.
[18]Wu Hanrui,Yan Yuguang,Chen Sentao,et al.Joint visual and semantic optimization for zero-shot learning[J].Knowledge-Based Systems,2021,215:106773.
[19]鐘小容,胡曉,丁嘉昱.基于潛層向量對齊的持續零樣本學習算法[J].模式識別與人工智能,2021,34(12):1152-1159.(Zhong Xiaorong,Hu Xiao,Ding Jiayu.Continual zero-shot learning algorithm based on latent vectors alignment[J].Pattern Recognition and Artificial Intelligence,2021,34(12):1152-1159.)
[20]Fu Yanwei,Hospedales T M,Xiang Tao,et al.Transductive multi-view zero-shot learning[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(11):2332-2345.
[21]Kodirov E,Xiang Tao,Gong Shaogang.Semantic autoencoder for zero-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3174-3183.
[22]Ding Zhengming,Shao Ming,Fu Yun.Generative zero-shot learning via low-rank embedded semantic dictionary[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(12):2861-2874.
[23]Ranzato M A,Boureau Y L,LeCun Y.Sparse feature learning for deep belief networks[C]//Proc of the 20th International Conference on Neural Information Processing Systems.2007:1185-1192.
[24]Bartels R H,Stewart G W.Solution of the matrix equation AX+XB=C[F4][J].Communications of the ACM,1972,15(9):820-826.
[25]Lampert C H,Nickisch H,Harmeling S.Learning to detect unseen object classes by between-class attribute transfer[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:951-958.
[26]Wah C,Branson S,Welinder P,et al.The Caltech-UCSD Birds-200-2011 dataset,CNS-TR-2011-001[R].Pasadena,USA:California Institute of Technology Computation amp; Neural Systems,2011.
[27]Patterson G,Hays J.Sun attribute database:Discovering,annotating,and recognizing scene attributes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2751-2758.
[28]Patterson G,Xu Chen,Su Hang,et al.The sun attribute database:beyond categories for deeper scene understanding[J].International Journal of Computer Vision,2014,108(1):59-81.
[29]Farhadi A,Endres I,Hoiem D,et al.Describing objects by their attri-butes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:1778-1785.
[30]Xian Yongqing,Lampert C H,Schiele B,et al.Zero-shot learning:a comprehensive evaluation of the good,the bad and the ugly[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(9):2251-2265.
[31]Van Der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,9(86):2579-2605.
收稿日期:2022-06-29;修回日期:2022-08-18 基金項目:教育部人文社科規劃項目(20YJAZH084);重慶市技術創新與應用發展專項面上項目(cstc2020jscx-msxmX0190);重慶市教委科學技術研究重點項目(KJZD-K202100505)
作者簡介:冉瑞生(1976-),男(通信作者),教授,碩導,博士,主要研究方向為機器學習、計算機視覺(rshran@cqnu.edu.com);董殊宏(1996-),男,碩士研究生,主要研究方向為機器學習、圖像分類;李進(1998-),男,碩士研究生,主要研究方向為深度學習、計算機視覺;王寧(1994-),男,碩士,主要研究方向為計算機視覺.