999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Swin Transformer的嵌入式零樣本學習算法

2024-04-22 02:30:38郜佳琪
小型微型計算機系統 2024年4期
關鍵詞:語義分類模型

郜佳琪,魏 巍,2,岳 琴

1(山西大學 計算機科學與信息技術學院,太原 030006) 2(山西大學 計算智能與中文信息處理教育部重點實驗室,太原 030006)

0 引 言

隨著深度學習的快速發展,深度神經網絡模型在有監督圖像分類任務上的精度早已超過了人類水平.但傳統圖像分類訓練方法需要大量有標記樣本,并且不能識別在訓練中從未見過的類.然而隨著新類不斷涌現,要使得訓練好的模型可以對新類進行區分首先要收集大量有標記樣本并重新訓練模型,這需要消耗大量時間.為了解決上述問題,零樣本學習(Zero-Shot Learning,ZSL)應時而生.Larochelle等[1]首次提出了零樣本學習的概念,通過挖掘可見類和未見類之間類別維度的語義聯系,使得模型能夠識別在訓練過程中不可見的未見類.根據測試時測試樣本是否包含可見類,零樣本學習可以分為傳統零樣本學習(conventional ZSL,CZSL)和廣義零樣本學習(generalized ZSL,GZSL).在傳統零樣本學習中,測試集僅包含未見類,而在廣義零樣本學習中,測試集同時包含可見類和未見類,廣義零樣本學習更加符合現實情況同時更具挑戰性[2].

現有零樣本學習算法可分為兩類:生成式零樣本學習算法和嵌入式零樣本學習算法.

生成式算法源于生成式深度神經網絡的發展,如Variational Autoencoders(VAE)[3]、Wasserstein Generative Adversarial Networks(WGAN)[4]以及Flow-based Generative Model(Glow)[5]等,為了解決零樣本學習未見類樣本在訓練階段的缺失問題,這類算法利用未見類的語義信息,通過生成式模型產生對應的圖像特征,在此基礎上再訓練一個全監督分類器用于最終測試.生成式算法的關鍵在于生成樣本的質量好壞,由于訓練生成器的過程中沒有未見類樣本的參與,如何保證生成器生成高質量的未見類樣本是這類算法面臨的重要挑戰.同時現有生成式算法只能生成圖像特征,這種方式使得生成結果無法捕捉可見類與未見類的細節差異.

嵌入式零樣本學習算法首先將圖像特征與類語義信息映射到某個嵌入空間中,在此空間中將兩個模態對齊,測試時通過把測試樣本映射到對齊空間,并與所有類別語義信息進行近鄰搜索確定測試樣本的類別.由于構建映射關系只在可見類上進行,這類在廣義零樣本學習設置下很容易出現嚴重的過擬合,即未見類的預測結果很容易偏向可見類.因此,嵌入式算法關鍵在于如何使模型提取出樣本最具代表性的嵌入表示,同時該表示又具有足夠的判別能力可以將其與其他類別的語義區分開來.

在已有研究中,生成式的算法由于直接使用未見類語義信息生成未見類樣本,可以很自然的利用可見類與未見類之間的語義相似關系,將語義空間的相似性轉移到生成的樣本空間[6,7],而嵌入式算法則難以有效利用可見類和未見類之間語義空間的相似關系.本文提出一種基于語義相似度的多標簽分類損失更好地在嵌入式的零樣本學習算法中利用語義空間的相似關系,極大地緩解了嵌入式零樣本學習算法在廣義零樣本學習設置下對可見類的過擬合問題.

同時,過去大多數算法直接使用基于ImageNet預訓練的深度卷積網絡(Resnet101[8])來提取零樣本學習基準數據集的視覺特征,忽略了ImageNet與零樣本學習基準數據集之間存在的跨數據集偏差問題(cross-dataset bias)[9],在特征提取過程中沒有考慮零樣本學習中的語義信息.Xian等[10]在訓練時微調Resnet101,使得在CUB上的調和平均精度由53.6%提升到68.9%.Chen等[11]在訓練生成網絡的過程中,保存訓練中間狀態值在進行分類時對原始特征進行增強,旨在解決這一跨數據偏移問題.上述算法的良好性能表示直接使用經過預訓練的Resnet101提取的特征不是最適用于零樣本學習任務的,目前零樣本學習需要一個新的骨干網絡來提取特征,并且使其適用于零樣本學習任務.

過去以卷積為主導的神經網絡模型一直主導著視覺領域的各項任務[12-14],然而自Vision Transformer(VIT)[15]出現后,由于其在圖像分類任務上取得的驚人成績,主導視覺任務的骨干架構正逐漸從卷積網絡架構轉移到以Transformer為主的自注意力網絡架構.Transformer更加關注圖像不同區域之間的相互關系,在特征提取上有著更好的表征能力,因此本文提出了一種使用Swin Transformer[16]作為骨干網絡的零樣本學習算法(SwinZSL).主要貢獻如下:

1)提出了一種基于語義相似度的多標簽分類損失,在嵌入式的零樣本學習算法中利用了可見類與未見類之間的語義關系,克服了嵌入式零樣本學習算法在廣義零樣本學習設置下對可見類的過擬合問題;

2)引入Swin Transformer作為新的骨干網絡完成零樣本學習任務,直接使用原始圖片作為輸入進行端到端的訓練,解決了跨數據集偏差問題,通過自注意力機制得到基于語義屬性的圖像特征;

3)通過在零樣本學習3個常用基準數據集上的大量實驗表明在廣義零樣本學習的設置下所提算法的性能優于目前最先進的零樣本學習算法.

1 相關工作

1.1 零樣本學習

因為可見類和未見類的語義信息在訓練時是可見的,如何利用語義信息搭建從可見類到未見類之間的橋梁成為解決零樣本問題的關鍵.零樣本學習發展主要包括3個階段[17,18]:

早期關于零樣本學習的研究把原本基于樣本特征的分類器轉化為基于類別語義屬性的分類器,使得分類器分類能力更廣,具有識別未知類的能力,這些研究中的模型具有較強可解釋性,但是極度依賴類別語義屬性標注的質量,不可靠的類別語義屬性標注會使模型產生較大誤差.

之后出現了許多嵌入式的算法,Kodirov等[19]使用自編碼器把樣本特征映射到語義維度,使用歐氏距離約束投影過程使得映射后的向量和其對應類別語義向量相似,Zhang[20]等利用神經網絡構造了兩個非線性映射,將視覺特征和語義描述投影到一個公共超球面空間中,通過兩個正交約束保證公共空間中類別間的判別性.與本文最相似的工作是Chen等[19]利用Transformer把視覺特征投影到語義空間,在投影過程中使用語義描述的每個詞嵌入向量作為額外的查詢集,以捕獲圖片中與具體屬性最相似的部分,但是其仍然使用預訓練的Resnet101作為骨干網絡并且數據集中使用了額外的信息.嵌入式算法大多只在可見類空間做訓練,很少利用可見類與未見類之間的語義關系,所以對可見類存在較為嚴重的過擬合問題.

最近涌現出許多生成式零樣本學習算法,它們利用生成模型給未見類合成樣本,其關鍵在于利用未見類語義信息合成具有判別性的特征.Xian等[22]借鑒了Conditional GAN[23]的思想,把類別語義信息作為附加條件添加到生成器和判別器.Schonfeld等[24]分別對特征空間和語義空間訓練兩個變分自編碼器,同時讓兩個自編碼器共享嵌入空間,同時添加分布對齊和交叉重構損失,使得構建的對齊空間包含更多跨模態潛在特征.Tang[7]和Xie[25]分別提出了兩種結構對齊的生成式對抗網絡架構,其主要思想都是通過直接對齊未見類語義和生成樣本的流形結構來減輕語義差異以提高分類性能.生成式算法往往需要分兩步進行訓練,即先訓練一個生成模型,再訓練一個分類器,這將削弱神經網絡端到端訓練的優勢,并且當一個新未見類出現時需要重新訓練整個網絡.

1.2 Vision Transformer

Vaswani等[26]提出多頭自注意力模型Transformer后,基于Transformer的模型在自然語言處理領域取得了重大成功,隨后許多工作嘗試把其用于視覺領域.由于圖片的像素點過多,直接把圖像輸入Transformer會導致巨大計算量,Carion等[27]使用Transformer編碼器處理卷積網絡提取的圖像特征以完成目標檢測任務.Dosovitskiy等[15]把圖像分割成不重疊的圖像塊,把每個圖像塊看作一個序列輸入到Transformer編碼器中,使用純Transformer解決傳統圖像分類任務取得了優于以往最先進卷積神經網絡的結果.Liu等[16]提出的Swin Transformer進一步結合了圖像固有的歸納偏置,把自注意力運算限制在固定的窗口內,通過平移窗口以實現不同窗口間的信息交互,這樣可以設置更小的圖像塊,使得模型能處理更精細的視覺任務.Swin Transformer是一種高效的層級Transformer結構,其在圖像分類、目標檢測、語義分割等多種視覺任務上都取得了驚人的效果,使其成為計算機視覺領域一個通用骨干網絡.其網絡結構如圖1(a)所示.

圖1 Swin Transformer的基本結構(Swin-Tiny模型)Fig.1 Basic structure of Swin Transformer(Swin-Tiny model)

圖像輸入模型后首先被切割為大小為4×4的不重疊圖像塊,再經過線性嵌入層映射到維度d,隨后將特征圖劃分為多個不相交的窗口,設一個窗口包含M×M個圖像塊序列,多頭自注意力操作只在每個窗口內進行,即圖1(b)中的窗口多頭自注意力操作(W-MSA).這樣做大幅減少了計算量,但是隔絕了不同窗口之間的信息傳遞,所以需要通過滑動窗口多頭自注意力操作(SW-MSA)把每個窗口分別向下及向左滑動?M/2」個像素,并于滑動后的窗口內再進行一次窗口多頭自注意力操作,通過此方法讓信息在相鄰窗口中進行傳遞.隨后使用類似卷積神經網絡中的層次化構建方法,通過序列融合的方式對特征圖進行降采樣,同時把通道數翻倍.至此完成了Swin Transformer的一個基本階段,根據不同參數設置,可以動態調整Swin Transformer的網絡結構.

然而,將Swin Transformer應用于零樣本學習任務的研究還比較少,因此本文采用Swin Transformer將原始圖片映射到語義維度,以學習基于類語義信息的圖像特性,這可以使零樣本學習受益于多頭自注意力機制.本文利用可見類和未見類之間的語義關系設計了一項多標簽分類損失,可緩解對于可見類的過擬合問題,并且增加了一項三元組損失,以更好地融合圖像與類語義描述兩個模態.

2 模型介紹及優

本節首先介紹本文中所使用的相關符號定義以及模型前向過程,隨后詳細介紹了本文使用的3項損失,最后對測試階段如何計算精確度進行了說明.

2.1 問題符號定義

2.2 網絡結構及前向過程

本文提出的SwinZSL網絡結構如圖2所示,設輸入圖像x∈H×W×C,H,W,C分別為圖像的長、寬、通道數.首先遵循Swin Transformer中的設置將圖像分割為不重疊的圖像塊,然后將這些圖像塊展平得到一個向量序列,如公式(1)所示:

圖2 SwinZSL整體網絡結構Fig.2 Overall network structure of SwinZSL

(1)

通過線性嵌入層將序列映射到維度d,這一過程如公式(2)所示:

z0=P(x)Et

(2)

其中,Et∈P2C×d是一個可學習的線性投影,z0∈N×d.

通過兩個基本的Swin Transformer Block完成自注意力操作,此過程不會改變數據的維度,即:

(3)

(4)

(5)

(6)

上式中LN表示層正則化操作,公式(4)與公式(6)中的多層感知機MLP為兩層全連接網絡,公式(3)和公式(5)中,improvedMSA表示改進多頭自注意力操作.

參照Lee等[28]提出的對Vision Transformer的一系列改進方法,本文對原始自注意力運算進行了修改使得圖片序列之間能產生更多交互進而更適用于小規模數據集上的訓練.在原始多頭自注意力操作中,對于每個頭的自注意力運算如公式(7)所示:

(7)

其中,Qt=UWqt,Kt=UWkt,Vt=UWvt,U∈M2×dh為每個頭進行自注意力操作的矩陣,M2為一個窗口中的序列數.設頭數為h,則dh=d/h,Wqt,Wkt,Wvt為可學習的參數,B∈M2×M2為圖像序列之間的相對位置偏移其計算過程可參考Hu等[29]提出的方法;Qt與Kt中的向量通過內積產生一個注意力分數矩陣,代表每個序列與窗口中其他序列的相關程度,注意力矩陣中的數值按比例縮放后經過softmax函數轉為概率值,之后與Vt相乘產生經過自注意力操作后的輸出.

在公式(7)中,由于Qt和Kt是由同一個輸入經過線性投影變換而來,所以在進行內積產生注意力分數時,一個圖像塊與其自身的注意力分數通常會比其與窗口內其他圖像塊之間的注意力分數高,這種現象阻礙了圖像塊之間的相互交互,不利于模型找出與圖像語義最相關的部分.為此,本文把注意力分數矩陣的對角線元素設置為-∞,屏蔽掉序列與自身的注意力關系,迫使序列之間產生更大的注意力分數.

(8)

(9)

在每個頭完成自注意力的計算操作后,將各個頭的輸出拼接起來完成一次多頭自注意力操作,如公式(10)所示,其中‖表示拼接操作.

(10)

輸入經過最后一個Swin Transformer Block后,通過全局平均池化以及一個全連接層映射到類語義維度m,如公式(11)所示:

ψ(x)=avgPool(zl)W1+b1

(11)

其中,zl∈HW/(8p)2×8d為Swin Transformer最后一個block的輸出,W1∈8d×m與b1分別為全連接層的權值與偏置.

2.3 模型優化

本節介紹本文使用的3項損失來有效的優化整個網絡.

(12)

其中,n表示一個批次輸入的圖像數量.

損失2.基于類別語義相似度的多標簽分類損失,如公式(13)所示.為了解決零樣本學習中對可見類的過擬合問題,提出了一種基于類別語義相似度的多標簽分類損失LSIM.類別語義描述建立了可見類與未見類之間的關系,使零樣本學習成為可能,語義描述相似的類別在視覺特征上也應該是相似的,如老虎和豹子同屬大型貓科動物,所以其有著相似的外形.已有嵌入式零樣本學習算法很少考慮到這一點,Liu[30]等通過最小化信息熵來減少將可見類預測為未見類時的不確定度,但其缺乏明確的語義指導.Guan等[31]利用未見類語義屬性向量對可見類的數據添加擾動,求解了一個由語義空間和樣本特征空間的雙向投影矩陣,但是其只考慮了與當前可見類樣本最相近的未見類.為了緩解嵌入式零樣本學習算法存在的過擬合問題,一些研究人員(Huynh等[32];Chen等[21])直接在訓練過程中強制模型的輸出與所有未見類語義相似,進而使模型在測試時對未見類產生較大的非零概率,這種方法沒有考慮語義上的相似關系,使得模型對可見類的預測性能不佳.在提出的算法中,對于每一個可見類語義向量,首先通過公式(13)計算其和所有未見類語義向量的余弦相似度:

(13)

得到相似度后,通過設置閾值μ得到多標簽分類損失的標簽矩陣Ti,j∈n×q,在矩陣T中,對于每個可見類樣本,在其語義空間與所有未見類語義相似度大于μ的位置設為1作為標簽值,其余位置設置為0,如公式(14)所示:

(14)

最終LSIM的表達式如公式(15)所示:

(15)

其中,σ表示sigmoid函數,Bi,j∈n×q,B=ψ(x)×AU,LSIM在訓練過程中鼓勵模型對未見類產生非零概率,不同于以往的算法,LSIM同時關注了可見類與未見類的語義相似性,在沒有未見類樣本的情況下,通過計算得到語義空間中的類間相似關系,進而在最終的圖片嵌入空間保持相同關系.

損失3.語義回歸三元組損失.同時為了能夠在可見類間學習類內和類間的關系,本文使用一個語義回歸三元組損失LTP,其表達式如公式(16)所示:

(16)

其中,yother表示與當前樣本類別不同的一個隨機選擇的類標簽,通過隨機選擇與當前樣本不同類的方式,增加模型的魯棒性,m為三元組損失的邊界,用來控制樣本經過網絡映射后與其本身對應語義描述和與其他類別語義描述之間的最小距離.

因為引入了三元組損失,提出的模型在鼓勵類內緊湊性的同時,還保證了類間的可分性,使模型能夠從可見類中學到更多的類間語義關系.

通過綜合上述損失,可以得到總體損失函數:

Ltotal=LCE+λSIMLSIM+λTPLTP

(17)

其中,λTP和λSIM為控制各項損失所占權重的超參數.

2.4 模型輸出

(18)

對于廣義零樣本學習任務,測試樣本來自于所有類別,本文遵循Chao等[2]提出的校準方法,在計算得分后于所有可見類的位置減去一個固定的常量,以減少預測結果向可見類的偏移,其計算公式為:

(19)

3 實驗結果及討論

3.1 數據集及評價指標

本文使用3個在零樣本學習中廣泛使用的基準數據集:CUB(CUB-200-2011 Birds),AWA2(Animals with Attributes2)和SUN(SUN Attribute).CUB包含200個鳥類類別,共11788張圖片,其中150類作為可見類,其余50類作為未見類,對于每個類別還包含一個312維的類別描述向量.AWA2包含50個動物類別,共37322張圖片,其中40類作為可見類,其余10類作為未見類.SUN包含717個場景類別,共14340張圖片,其中645類作為可見類,其余72類作為未見類.

實驗中,通過測量Top-1分類精度來評估模型的性能.在傳統零樣本學習(CZSL)中,只需計算所有未見類的分類精度,記為acc.在廣義零樣本學習中(GZSL)中,測試集同時包含可見類和未見類,可見類上的分類精度記為Accs,未見類上的分類精度記為Accu.同時,在GZSL中,調和平均值AccH也是一項評價模型整體性能的重要指標,其計算公式為:

(20)

3.2 實驗設置

為了與其他算法公平的比較,對于可見類與未見類的劃分,本文統一采用Xian等[33]提出的劃分方法.對于CUB和SUN,使用Swin Transformer的small模型作為骨干網絡,相比于圖1的tiny模型,small模型的不同之處在于第3個Swin Transformer Block堆疊18次.對于AWA2使用更小的tiny模型,模型首先加載Swin Transformer在ImageNet-1K上預訓練的參數做初始化.網絡使用AdamW優化器,權重衰減系數為0.05,初始學習率設置為0.0001,且每經過10輪迭代衰減變為原來的0.5倍,批大小設置為128.在3個數據集上超參數λTP統一設置為0.1.對于超參數λSIM,在CUB上設置為0.3,在AWA2上設置為0.5,在SUN上設置為0.05.對于三元組損失邊界m,在所有數據集上統一設置為4.在3個數據集上閾值μ統一設置為0.8.

3.3 算法性能分析

提出算法在訓練時沒有用到任何未見類樣本信息,是一種歸納式的零樣本學習算法,所以將其與目前最先進的歸納式零樣本學習算法進行了比較.文中將所有比較的算法分為生成式算法與嵌入式算法.

表1展示了提出的SwinZSL在不同零樣本學習設置下的top-1分類精度(單位%),表1中加粗字體表示最佳的結果,“-”表示在原文中沒有記錄結果,“*”表示該算法微調了原始Resnet101網絡,“~”表示使用大模型加載在ImageNet-22K上預訓練得到參數進行微調的結果.在傳統零樣本學習設置(CZSL)下,所提算法在3個數據集上都能取得較好的性能,雖然算法SAGAN[7]在粗粒度數據集上取得了最好的結果,但是在細粒度數據集上的精度較差,實驗結果表明提出的SwinZSL適用性更廣.

表1 不同算法的各項分類準確度對比Table 1 Comparison of zero-shot learning classification accuracy of different algorithms

在更為一般的廣義零樣本學習(GZSL)任務中,提出的算法在所有數據集上也都取得了最好的調和平均精度,與以往的一些算法相比,算法TransZero[21]在SUN上未見類分類精度遠大于可見類分類精度,進而導致較低的調和平均值,提出的算法在所有數據集上的未見類與可見類精度都取得相對較高的值同時更加平衡,最終在調和平均值上取得了明顯的優勢,驗證了本文提出的基于類別語義相似度的多標簽分類損失可以使得模型可以更好的將知識從可見類轉移到未見類,緩解模型對可見類的過擬合問題.提出算法在CUB和SUN的可見類精度以及AWA2的未見類精度上都取得了所有算法中最好的精度.同時與一些同樣使用原始圖片微調了Resnet101的算法(如VAEGAN-D2[10]和DVBE[34])相比,提出的算法在3個數據集上的精度都有顯著提升,這表明針對本文提出的3項損失,Swin Transformer更適合作為零樣本學習的骨干網絡.

最后在使用更大的Swin Transformer模型(Swin-Large)進行了實驗分析,實驗中加載了其在大規模數據集(ImageNet-22K)上的預訓練參數,并通過微調得到了相比目前的最先進算法更好的分類精度.Alamri等[35]同樣使用了在ImageNet-22K上預訓練的大模型參數進行了實驗,但其分類精度明顯低于本文提出的模型獲得的分類精度,表明了本文使用的骨干網絡及損失更適用于零樣本學習.

由于模型使用了ImageNet-22K做預訓練可能會產生不公平問題,實驗中并未將作為最終結果,未來的工作中使用計算機視覺任務中提出的大規模模型進行遷移學習來解決零樣本問題仍是一個值得探索的方向.

3.4 消融實驗

為了進一步驗證所提算法的有效性,本文通過消融實驗分析不同模塊對本算法的影響,實驗結果如表2所示.

表2 消融實驗結果Table 2 Table of ablation experiment results

首先去除本文提出的LTP和LSIM兩項損失,只使用交叉熵分類損失LCE優化模型,在CUB和AWA2上的調和平均精度分別下降了6%和7.9%,驗證了本文提出的兩項損失的有效性;隨后從損失中去除LTP,分類精度出現了小幅度的下降,表明基于語義回歸的三元組損失在本文提出的模型中起到一定輔助作用,幫助模型在最終的嵌入空間中保證不同類別樣本特征之間保持判別性;然后從損失中去除LSIM,模型在CUB和AWA2上對未見類的分類精度出現了大幅下降,驗證了提出的LSIM對緩解對可見類的過擬合問題起到了重要的作用,由于LCE和LTP只在可見類上優化模型,引入基于可見類和未見類語義相似度的多標簽分類損失使得模型在訓練過程中可以關注到與當前訓練樣本相似的未見類,最終增強了模型的泛化能力;為了驗證改進自注意力操作的有效性,本文將自注意力操作還原為公式(7)所示的原始版本進行了消融實驗,實驗結果驗證了零樣本學習與改進自注意力操作結合的有效性;最后,本文使用Resnet101作為骨干網絡,并且不改變模型的3項損失和最優的超參數設置,CUB和AWA2的調和平均精度出現了顯著的下降,驗證了使用多頭自注意力操作可以更好的捕捉圖像中的語義信息.

3.5 參數敏感性分析

本節研究不同的參數設置對提出算法性能的影響.對于三元組損失LTP,λTP是用來衡量其重要性的一項超參數,為了評估其占比對模型性能的影響,實驗在細粒度數據集CUB和粗粒度數據集AWA2上選取了較為廣泛的參數范圍λTP={0.01,0.5,0.1,0.3,0.5,1}.實驗結果如圖3所示,當λTP設置的值為1時,模型整體性能有小幅度下降,這是因為當LTP占比過大時會降低其余兩項損失的貢獻導致精度降低,同時在λTP變化時,提出模型的各項精度變化幅度較小,表明本文的算法具有較好的魯棒性.

圖3 參數λTP對分類準確率的影響Fig.3 Effect of parameter λTP on classification accuracy

接下來分析超參數λSIM對提出模型的影響.對于λSIM,實驗選取λTP與相同的范圍,由圖4可以發現,隨著LSIM的占比增加,在廣義零樣本學習中模型對未見類的識別精度逐漸增加,對可見類的識別精度逐漸降低,這一趨勢在粗粒度數據集AWA2更為明顯.這一現象符合本文對損失項LSIM的性能的預期,表明提出的損失LSIM可有效緩解零樣本學習中對可見類的過擬合問題.

圖4 參數λSIM對分類準確率的影響Fig.4 Effect of parameter λSIM on classification accuracy

最后分析在計算LSIM的過程中,不同的閾值μ對廣義零樣本學習設置下各項精度的影響.實驗結果如圖5所示,對于閾值μ本次實驗設置的范圍為μ={0,0.6,0.7,0.8,0.9},其中當μ=0時,損失項LSIM變為不考慮可見類與未見類的語義相似性,強制模型在訓練過程中對所有未見類產生較大概率,這種設置與已有的一些算法(如Huynh等[32];Chen等[21])類似.同時實驗還研究了在計算LSIM時去掉閾值的情況,標簽矩陣Ti,j只在與當前樣本語義相似度最大的位置取1其余位置取0,LSIM變為只選擇與當前可見類語義上最相似的一個未見類做單標簽分類損失,這種設置與Zhang[38]等提出的算法類似,其把Liu[30]等提出的方法擴展成3種策略,經過實驗驗證最佳策略為根據可見類與未見類之間的語義相似度將可見類引導至與其語義相似度最高的未見類.由圖5可以發現,當μ設置為0時,模型對可見類的識別精度大幅降低,同時對未見類的識別也出現下降,表明使用簡單的自校準損失強制模型輸出和所有未見類語義相似并不最適用于零樣本學習,其原因在于通過對所有未見類產生較大非零概率來緩解過擬合,并沒有考慮語義上的相似性;當只考慮語義空間中與可見類最近鄰的一個未見類時,最終結果與設置一個較大的閾值相似,并不能達到最優;當μ值增大時,由于考慮的未見類類別逐漸減少,進而模型對可見類的識別能力逐漸增加,而對未見類的識別精度緩慢增加后下降,表明未見類識別精度與μ并不是負相關,表明了本文采用的為μ設置合理閾值做法的有效性.

圖5 閾值μ對廣義零樣本學習各項精度的影響Fig.5 Effect of threshold μ on each precision of generalized zero-shot learning

3.6 圖像特征可視化

為了定性評估,將圖片映射到嵌入空間后的向量進行可視化展示.使用t-SNE(Maaten等[39])算法將特征縮減到二維進行可視化,t-SNE是一種非線性降維算法,常用于將數據降到三維或者二維空間進行可視化來觀察數據的結構.

實驗對Resnet101提取的特征和經過本文提出模型得到的特征進行了降維可視化,結果如圖6所示,圖中展示了CUB數據集的結果,對于CUB隨機選取15個類別的所有樣本.從圖6中可以看出原始直接使用Resnet101提取的特征類別間存在較大重疊,類邊界模糊,而經過提出模型提取特征后這種問題得到了顯著改善,同類之間更加緊湊,異類之間更加疏遠,類別之間界限也非常清晰.

圖6 在嵌入空間中使用t-SNE對CUB降維可視化Fig.6 t-SNE visualisation in the Embedding space on CUB

4 結 語

本文提出了一種基于Swin Transformer的嵌入式零樣本學習算法,使用改進的多頭自注意力運算得到基于語義屬性的圖像特征進而執行零樣本分類.為了解決嵌入式零樣本學習算法的過擬合問題,本文利用可見類與未見類之間語義空間的相似關系,提出了一種基于語義相似度的多標簽分類損失,以增加模型對未見類的識別精度,把可見類與未見類之間語義空間的相似關系遷移到嵌入空間,在可見類中采用基于語義回歸的三元組損失和交叉熵分類損失,在充分融合樣本與類語義描述的同時保持類間判別性.在未來的研究工作中可以對零樣本學習中語義屬性的多樣性進行探索,提取多種模態或者對現有語義進行增強以實現可見類與未見類之間更好的信息交互.

猜你喜歡
語義分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 欧美一区二区三区国产精品| 欧美色视频网站| 国内精品九九久久久精品| 青青草一区| 亚洲一区二区在线无码| 国产在线专区| 亚洲欧洲日本在线| 四虎永久在线精品影院| 成人年鲁鲁在线观看视频| 综合色在线| 婷婷99视频精品全部在线观看| 欧美a在线| 伊人久久福利中文字幕| 成人av专区精品无码国产| 欧洲成人在线观看| 亚洲精品欧美日本中文字幕| 精品在线免费播放| 波多野结衣的av一区二区三区| 免费国产不卡午夜福在线观看| 国产不卡一级毛片视频| 国产白浆视频| 亚洲香蕉在线| 国产一区二区色淫影院| 国产精品亚洲va在线观看| 毛片视频网| 国产成人精品2021欧美日韩| 欧洲高清无码在线| 真实国产乱子伦视频| 色婷婷久久| 亚洲欧美另类久久久精品播放的| 国产精品2| 一级做a爰片久久毛片毛片| 成人一级免费视频| 99国产精品一区二区| 全免费a级毛片免费看不卡| 亚洲水蜜桃久久综合网站| 欧美第二区| 在线免费a视频| 国产办公室秘书无码精品| 青青青伊人色综合久久| 在线观看av永久| 亚洲一区二区三区在线视频| 国产黄色片在线看| 国产黄视频网站| 嫩草国产在线| 亚洲一区二区视频在线观看| 99色亚洲国产精品11p| 91伊人国产| 亚洲第一视频免费在线| 亚洲国产91人成在线| 黄色污网站在线观看| www.日韩三级| 国产中文一区a级毛片视频| 免费播放毛片| 国产成人综合亚洲网址| 最新国产高清在线| 青青热久免费精品视频6| 国产欧美自拍视频| 凹凸国产熟女精品视频| 国产91精品久久| 亚洲欧美自拍中文| 欧美精品成人一区二区视频一| 欧美日一级片| 伊人大杳蕉中文无码| 亚洲第一中文字幕| 欧美精品高清| 国产精品主播| 好吊妞欧美视频免费| 99re热精品视频国产免费| 久久精品无码国产一区二区三区| 黄色网站不卡无码| 欧美色综合网站| 色噜噜中文网| 日韩高清无码免费| 中文成人在线| 亚洲看片网| 一级毛片免费不卡在线| 国产AV无码专区亚洲精品网站| 一级一毛片a级毛片| 国产一线在线| 国产乱子精品一区二区在线观看| 秋霞一区二区三区|