基于特征分段度量方法的少樣本學習

2023-02-17 01:54:20馮興杰王晨昊

計算機應用與軟件 2023年1期

馮興杰王晨昊

1(中國民航大學計算機科學與技術學院天津 300300) 2(中國民航大學信息網絡中心天津 300300)

0 引言

深度學習在計算機視覺任務上的成功是以大規模標記數據為基礎的，針對不同的類別從海量數據中學習不同的特征進而做出判別。然而在現實生活中，許多任務難以收集到足夠的數據用于訓練，例如醫學圖像識別、稀有動植物識別任務等，即使擁有足夠的數據，這些數據的標記也通常需要領域專家進行手工標注，高昂的成本大幅度限制了傳統深度學習方法的性能。數據的低可用性迫使分類方法發生改變，如何擺脫或減輕深度學習技術對數據量的依賴成為了近年來一個非常重要的研究方向。

在標記數據稀少的情況下，人類相比于傳統的深度學習方法，具有更強的從少量樣本中學習的能力：在看見某物體僅有一次或幾次的情況下，如果再次遇見同類樣本，人類能夠很快地識別出來。受此啟發，人們提出了少樣本學習問題。少樣本學習旨在通過每個類別極少或較少的訓練樣本來學習泛化分類器，使之能夠保持較高的分類精度的同時可以擴展識別新的類別，解決當下數據不足的問題。當每一類可利用的帶標簽樣本個數為K時，我們稱為K-shot學習，其中K一般不超過20。

已有的少樣本學習的方法主要包括以下幾種：遷移學習方法通過在大規模數據集上訓練得到帶參數的分類器，然后在少樣本任務數據上對最后一層的權重進行微調，可以得到好的表現[1]，但這種方法只適用于訓練數據集與少樣本任務數據相似的情況，且仍存在過擬合，但相比于使用L2距離的k近鄰方法效果仍要好很多。除此之外，簡單的旋轉、鏡像等數據增強操作在少樣本問題中的作用十分有限，研究更先進的數據增強方法也是一個可行的研究方向，由此出現了基于GAN的數據增強方法[2]，通過生成對抗網絡學習生成更多的“正樣本”數據幫助模型進行訓練。還有基于度量的學習也是一種常用的少樣本學習方法，該方法通過對樣本間距離分布進行建模，使同類樣本靠近、異類樣本遠離，該方法包括以孿生網絡[3]、匹配網絡[4]、原型網絡[5]和關聯網絡[6]等為代表的經典少樣本學習模型。

在少樣本學習領域，度量學習是主要的少樣本學習方法之一，微調和數據增強作為少樣本學習的輔助方法也起到了一定的作用，但只能緩解過擬合現象，不能解決，因此本文選擇以度量方式作為研究方向。在已有的基于度量方法的模型研究中，少樣本的學習策略都遵循學習如何學習的元學習框架，即N-way K-shot方法，它從基類數據集中抽取少量樣本構建學習任務，優化現有模型以在這些任務上獲得好的表現，已有的多數研究集中于研究如何改進元學習框架。

我們認為，度量方法中的特征提取模塊和分類模塊代表的是兩個不同的學習任務，尤其是在每一類帶標簽樣本僅有一個的極端情況下，直接使用深度學習方法很容易出現過擬合的現象。這可能是由于元學習策略的工作方式雖然有助于下游任務(少樣本分類)效果的提升，但卻損害了模型的通用性(弱化了特征提取模塊的學習能力)。為了解決這個問題并提升分類效果，我們將訓練分解為兩個階段：首先是預訓練階段，我們在基類數據上用傳統的端到端方法訓練分類器以獲得強大的嵌入能力，然后將其遷移到元學習框架下的特征提取模塊；接著在元學習微調階段，我們利用嵌入模塊提取給定樣本所屬類別的平均特征，其次對特征分段進行余弦距離計算并求均值，最后將查詢樣本按照最近質心進行分類。良好的預訓練、強大的特征提取網絡結合分段度量的方法，我們的模型在mini-imagenet數據集上獲得更好的識別效果。

1 相關研究

早期少樣本學習的研究最早追溯到2006年，李飛飛等[7]首次提出單樣本學習方法。近年來隨著深度學習技術的應用及局限性的凸顯，人們又重新興起對少樣本研究的興趣。已有的許多方法使用N-way K-shot元學習策略，從一組輔助任務中提取一些可轉移的知識，通過對已有類別的學習來對新的類別進行預測，這有助于模型在很好地解決目標樣本稀少問題的同時，而不必擔心將深度模型應用在稀疏數據問題上而可能出現的過擬合現象。

預訓練：預訓練作為計算機視覺中的常見做法，與許多視覺任務相關。它通常需要一個在其他數據集(如imagenet)上預先訓練的模型，以幫助另一個模型。Chen等[8]提出了一種被忽視的meta-baseline方法，通過在所有基類上預先訓練分類器并在基于最近質心的少樣本分類算法上進行元學習，從而在很大程度上領先于最新的方法。同時，Zhou等[9]在研究長尾分布的數據中發現，使用類平衡策略雖然可以提升網絡結構中的分類器部分的性能，但卻損害了類表示(特征提取部分)學習的效果，因此提出兩階段的學習策略，將模型的學習過程分為表征學習和分類器學習兩部分，并獲得有益的結果。

度量學習：度量學習方法嘗試學習適當的特征嵌入空間，其中相同類別的圖像相似而不同類別的圖像互不相同。可以通過最近鄰搜索獲得結果。對于少樣本學習，Lake等[10]在2015年提出一個分層貝葉斯模型；Koch等[3]同年提出基于孿生網絡的少樣本學習模型，通過樣本對之間的加權L1距離進行相似度學習；Vinyals等[4]在2016年提出的匹配網絡，通過在訓練期間抽樣小批量數據來模擬測試任務，同時在編碼模塊添加了注意力機制，有效地提高了測試時的泛化表現；2017年Snell等[5]用歐幾里得距離代替余弦距離，并將支持集嵌入向量的均值作為每一類構建的原型表示，將分類問題轉化成嵌入空間中的最近鄰問題，在少樣本學習問題中得到較好的效果；Sung等[6]在2018年提出關聯網絡，它用深度學習度量替換以往的固定度量方法，獲得非常好的測試效果。

基于已有研究，我們提出一種新的雙分支分段度量模型架構。通過在所有基類上預先訓練分類器，并在基于最近質心的少樣本分類算法上進行基于分段度量的元學習，我們的模型能夠獲得更好的嵌入模塊，并減輕過擬合的問題。

2 本文方法

2.1 問題定義

少樣本分類的一種流行解決方案是應用元學習策略，通過將數據集分為不同元任務的子集，以學習如何根據任務變化來適應模型。具體過程如下：給定用于訓練少樣本圖像分類模型的數據集，它包含三個部分：訓練集Dtrain、支持集Dsupport和測試集Dtest。訓練集有一個單獨的類別空間，每個類別都有大量帶標簽的圖像樣本。Dtrain中的這些類別定義為基礎類別Cbase。相反，支持集Dsupport和測試集Dtest具有與訓練集Dtrain不相交的相同類別空間。Dsupport和Dtest中的類別定義為新穎類別Cnovel。如果支持集包含N個新穎類別，并且每個新穎類別都有K個圖像示例，則此少樣本學習問題定義為N-way K-shot學習。少樣本學習的目的是通過使用訓練集和支持集來學習圖像分類模型，該模型能夠在K較小時，對來自新穎類別中的測試圖像準確地進行分類。

2.2 模型結構

圖1展示了本文網絡的總體架構,模型的訓練過程由兩個階段完成。上半部分表示預訓練過程:在基類數據集上訓練帶有一個全連接層的雙線性CNN網絡，訓練完成刪除全連接層得到BCNN編碼器。下半部分展示了5-way 1-shot的任務訓練過程：同時對支持集的5個樣本及查詢樣本進行編碼，得到不同類別的特征表示；分段度量模塊對得到的特征分段進行相似度計算，獲得表示特征段間相似度的距離矩陣，我們對矩陣的特征段維度計算均值得到查詢樣本所屬類別的預測概率，最后應用argmax函數得到預測類別。

圖1 本文模型網絡結構示意圖

(1) 表征學習。我們選擇resnet12作為雙線性卷積神經網絡的兩個分支，它的結構如圖2所示。由4個殘差塊組成，每個殘差塊具有3個卷積層。每個卷積層都有一個3×3的內核，然后是批量歸一化層和Leaky ReLU激活層。四個殘差塊中的卷積層通道數分別為64、128、256、512，在每個殘差塊之后應用2×2的最大池化層。網絡輸入為80×80大小的圖像，最后對得到的512×5×5特征圖執行reshape操作后進行外積計算，得到262 144維特征向量。

圖2 resnet12網絡結構圖

BCNN由兩個特征提取器組成，其輸出在圖像的每個位置使用外積相乘，并合并以獲得圖像表示。假設BCNN的兩個分支分別為A和B，對于輸入圖像I，其輸出分別為fA(I)∈RnA×L和fB(I)∈RnB×L，其中nA、nB表示輸出的維數，L表示空間位置。圖像在位置l的雙線性特征表示bl由式(1)得到，其中bl∈RnA×nB。

bl=fA(l,I)fB(l,I)T

(1)

合并圖像在不同位置的外積結果，得到圖像的最終表示x(I)，如式(2)所示，其中x∈RD×1(D=nA×nB)。

(2)

通過外積計算，雙線性結構能夠融合兩組特征映射，得到包含圖像更豐富信息的特征向量x，我們將其看作是一組nB個子向量xt：

x=[x1;x2;…;xt;…;xnB],?t:xt∈RnA×1

(3)

式中：xt是fA的所有特征映射由fB的第t個特征映射融合得到，這類似于注意機制中的乘法特征相互作用。每個融合后的特征映射傾向于聚焦所表達對象的隱式部分，因此，xt可以被視為該部分的特征描述。預訓練階段的目的是獲得好的特征編碼器，因此在模型的最后一層，我們僅添加了一層全連接幫助學習網絡參數。對于一個N-way K-shot任務中某一類別k的Nk個圖像表示，我們通過將圖像輸入預訓練得到的BCNN編碼器獲得，然后經過式(4)得到所屬類別的特征表示Xk，這里的類別表示為該類別所有樣本的平均表示。

(4)

(2) 分段度量。支持集樣本的每個類別的信息都被編碼成一個特征向量，分段度量模塊的任務是將這些中間類別級的表示映射到它們對應的類別中。我們對得到的類別表示Xk和查詢圖像Xq的特征表示進行分段比較：262 144維特征向量被分為64段，即8個子向量xt為一段；計算每個類別表示的每一段特征xj與查詢圖像Xq對應位置特征qj的余弦相似度，用所有分段的余弦相似度平均值作為查詢圖像與該類別質心的距離。式(5)為分段后類別k的表示，其中j為分段數量，我們設置j為64。

(5)

預測查詢樣本Xq屬于類k的概率為：

(6)

通過在基類數據集Dtrain上預訓練分類器得到特征編碼模塊；元學習階段我們繼續從基類Dtrain的訓練數據中采樣N-way K-shot任務。在每個任務的支持集上計算等式(4)定義的類別質心Xk，然后與查詢樣本的特征表示Xq一同輸入式(6)得到每個類別的預測概率分布。根據p和查詢樣本的標簽計算出每個任務的交叉熵損失。

3 實驗與分析

為了評估模型性能，我們選擇Mini-Imagenet數據集[4]作為基準數據集。所有實驗都圍繞相同的基本任務：N-way K-shot。在元學習階段，每一次的元訓練任務都提供一個元訓練數據集，包含N類沒有訓練過的新類，每類K個標注樣本，然后基于元訓練集預測測試圖像屬于這N類中的某一類。因此，此任務的隨機性能為1/N。我們將已有研究中基于度量方法的少樣本學習模型作為基準模型，與提出的網絡模型進行了比較。本文的實驗環境如表1所示。

表1 實驗環境介紹

3.1 Mini-imagenet數據集

Mini-ImageNet數據集[4]通常用于評估少樣本分類算法，是目前少樣本學習的標準基準。它由從ImageNet隨機采樣的100個類別組成；每個類別包含600張尺寸為84×84像素的圖像。由于匹配網絡[4]在提出該數據集時未提供具體類別，我們使用文獻[18]中的類別版本。其中64個類進行元訓練，16個類進行元驗證，其余20個類進行元測試。

3.2 實驗過程

首先，我們在基類數據集上訓練雙線性特征學習模塊：重設樣本尺寸為80×80像素，應用隨機水平翻轉作為數據增強方法，預訓練階段的優化器選擇SGD優化器，動量為0.9，學習率從0.1開始，衰減因子為0.1。我們在2個GPU上訓練了100個epoch，批處理大小為128，學習率在第90個epoch處下降。

在元學習階段，我們使用SGD優化器，其動量為0.9，固定學習率為0.001。我們在2個GPU上訓練20個epoch，批處理大小為4，即每個訓練批次包含4個少樣本任務以計算平均損失。其中度量模塊將特征向量分為64個特征組，分別進行余弦相似度的計算并將均值作為最終的預測結果。

測試過程我們采樣了800個測試任務以評估性能，每個測試任務均包括每類15個共75個查詢樣本。

3.3 實驗結果

我們的對比模型選擇包括未知模型元學習MAML、匹配網絡、原型網絡以及關聯網絡，還包括近年來多個方法：SNAIL方法通過時序卷積獲取過去信息，把上下文信息當作無序的鍵值對，結合軟注意力模塊幫助模型精確查找定位有用信息[14]；MetaOpNet方法使用線性分類器，將特征分類規劃為凸學習問題，通以少量計算成本地增加獲得了比最近鄰方法更大的收益[15]；MTL方法集合遷移學習和元學習算法實現小樣本任務，通過元學習器訓練得到放縮和平移參數，實現網絡對新類數據集的遷移，同時提出課程學習的訓練方式，由簡到難訓練網絡，提高損失收斂速度[16]；代表特征網絡學習一個線性映射，根據類支持集中樣本的不同明顯程度，給N個類支持向量分配合適的權重，映射得到相對均值更加魯棒的類代表特征[17]；Meta-baseline方法充分利用了預訓練分類器和元學習的優勢，通過在所有基類上預先訓練分類器，并在基于最近質心的少樣本(few-shot)分類算法上進行元學習，實驗結果大大優于目前最先進的方法，為進一步理解用于少樣本學習的元學習框架提供了思路[18]。

與以上方法的對比結果如表2所示，在5-way 1-shot和5-way 5-shot識別任務上，分別達到64.33%和80.11%的準確率，相比于使用Resnet12的Meta-baseline方法分別提高了1.16百分點和0.85百分點的準確率。在與已有方法的對比中，本文模型取得了具有競爭力的結果。

表2 與其他方法對比(%)

3.4 消融實驗

我們對不同嵌入模塊進行了對比，在僅使用Resnet12作為主干網絡的模型上進行訓練，并添加我們的分段度量模塊(分段數為16)，結果在5-way 1-shot和5-way 5-shot上也分別得到0.33百分點和0.1百分點的提升，如表3所示。同時當主干網絡為BCNN時，采用分段度量方法也相比于Meta-baseline模型分別獲得0.32百分點和0.5百分點的改進，進一步證明了分段方法對目標任務的有效性。當主干模型從Resnet12替換到本文提到的BCNN時，兩個少樣本任務分別得到0.84百分點和0.35百分點的明顯提升，這證明了讓模型更好地利用具有更強可傳遞性的預訓練表示在少樣本元學習框架下的重要性。

表3 與不同嵌入模塊效果對比(%)

除此之外，我們在實驗中修改分段個數，查看其對分類結果的影響。由于分段數只能為2的倍數，所以實驗對[2,4,8,16,32,64,128,256]中的不同段數進行了相關實驗，實驗結果如表4所示。

表4 不同分段數對比(%)

當分段數為2和4時，由于表示能力極小，分類準確率沒有任何提升，較小的分段數更接近于未分段狀態；當分段數從4上升至8時，5-way 5-shot任務的測試結果有了較為明顯的變化，得到0.24百分點的提升。繼續提升分段數量，測試結果均有一定提升，當分段數為64時少樣本分類任務的準確率達到最高。但是，隨著分段數繼續成倍增長，分類結果出現了明顯的下降趨勢。因此，64為分段數的最佳選擇，實驗表明合適的分段數有助于分類器從特征空間捕捉更好的分類邊界。

3.5 結果分析

為什么分段度量相比全局度量方法較好？我們分析認為全局度量由于具有較大的表示能力而具有過擬合性；對特征向量進行分段，分段后的每一組都代表了輸入圖像的局部特征，通過對這些局部特征的度量學習，我們可以獲得更有意義的可比性并能夠適當減輕過度擬合。這在視覺環境中有直觀的表現，即一些特征相比其他特征更顯著，這取決于所對比的圖像類別。本文方法中通過特征提取模塊得到的雙線性特征向量被視為一組子向量，每個子向量描述對象的部分特征，分段度量的操作實現了這樣的功能：對比檢查局部特征之間的相似度，測試查詢圖像是否屬于所描述的類別。與以往的全局度量方法不同，分段度量的方法通過對特征空間的不同部分學習不同的余弦距離度量，獲得樣本類別之間正確的分類邊界，幫助模型聚焦于更具區分性的顯著特征，從而獲得更好的辨別能力。實驗結果顯示，分段度量在一定程度上優于全局方法。

4 結語

在本文研究中，我們基于度量學習的方法提出了雙線性分段度量模型，這是一種更適合少樣本學習的深度度量網絡。首先，我們在基類數據上進行分類預訓練，然后使用遷移學習將得到的網絡參數(經驗)應用到元學習的特征提取模塊；在度量模塊，我們對得到的特征向量分段進行余弦距離計算并求均值，這有利于圖像特征的相似性判斷。通過有效的預訓練參數、更強大的特征提取結構和分段度量的方法，我們提出的模型在復雜場景數據集mini-imagenet上獲得更好的分類表現。

預訓練方法已經被證明有助于下游任務的表征學習，而近期研究表明：在預訓練有效的情況下，自訓練比預訓練工作得更好[19]。未來，我們將嘗試使用自訓練方法，以解決少樣本學習問題。