999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種增強自適應性和可解釋性的元學習框架

2025-11-15 00:00:00徐艷琳王茂發文益民顏丙辰楊鳳山
南京信息工程大學學報 2025年5期

中圖分類號TP391.1;TP18文獻標志碼A

0 引言

在傳統的深度學習任務中,模型通常需要大量的標記樣本來進行訓練,以便能夠在未標記的數據上做出準確的預測.然而,在一些現實場景中,獲取大量標記樣本通常是昂貴、耗時或困難的.因此,以元學習[1](Meta-Learming,ML)為代表的少樣本學習變得越來越受歡迎,其目標是在面對非常有限數量的訓練樣本時,模型還能夠有效地進行學習和泛化[2-3].少樣本學習目前面臨的主要挑戰是構建魯棒且泛化性能良好的模型,減輕深度神經網絡在少樣本情況下過度擬合的敏感性,并實現對新示例的泛化.ML能夠生成一個通用的模型來學習各種任務,不需要再從零開始學習訓練模型.基于優化的ML通常分為外循環和內循環兩種方式,其中:外循環通過分析不同任務之間的共同特征,使模型可以更好地泛化新任務,最終實現更好的性能;內循環則是使模型在短時間內適應當前訓練任務.ML算法不僅可以對任務中的數據學習并優化,而且還可以在訓練過程中學習如何調整模型的參數.

目前,與模型無關的元學習[2](Model-AgnosticMeta-Learning,MAML)是應用最廣泛的元學習算法之一.MAML的基本思想是尋找一個更好的初始化參數,最終模型可以以較少的梯度步驟快速學習新任務.但MAML經常面臨泛化能力較低的問題,尤其是在訓練和測試階段任務多種多樣時.最近,許多研究關注學習更好的初始化,主要包括兩個方向:外循環的細化和內循環的增強.一些工作[41]試圖通過調節內循環的學習率來提高學習算法的效率,還有一些工作[3.6-7,12-14]試圖找到更好的內循環更新規則.這些方法在內循環優化中均采用較簡單的損失函數或使用較為復雜的深度學習框架來更新損失函數.Baik等[15]提出一種超參數快速自適應元學習框架(Adap-tiveLearningofHyperparametersforFastAdaptation,ALFA),使用復雜的多層感知器(Multi-LayerPerceptron,MLP)來更新損失函數以提高模型的適應性.但由于MLP的復雜性和非凸性,通常會面臨局部最優解的問題.Wang等[16]則利用邏輯回歸的方法來解決MLP面臨的復雜問題.在邏輯回歸中,優化過程[1]通常是求解一個凸優化問題,找到全局最優解具有可行性.不同于 Wang[16] 等提出的方法,本文將邏輯回歸應用在損失函數上,采用兩個基于邏輯回歸的元網絡來更新損失函數.邏輯回歸不僅可以給出分類判斷,還可以提供結果發生的概率,這使得決策過程變得更加透明和易于理解.因此,使用邏輯回歸能提高模型的可解釋性.

Fukui等[18]認為,關注神經網絡中每個通道的權重可以增強自適應性和可解釋性. Xu 等[19]提出一種視覺注意力方法來對圖像描述任務中特征的重要性進行建模. Hu 等[20]首先對通道執行全局平均池化,然后用全連接層計算每個通道的權重,這表明網絡可以根據輸入數據動態調整其關注的特征.Woo 等[21]提出一種卷積注意力模塊(ConvolutionalBlockAttentionModule,CBAM),該模塊將通道注意力機制和空間注意力機制進行融合,并增強重要特征的表達,同時抑制無關或不重要的信息.受上述工作啟發,本文使用通道注意力機制來動態調整每個特征的權重,其中,權重高的特征對模型更有意義,而權重低的特征表示對模型意義相對較小.動態調整權重的過程,使得模型決策依據更加直觀可見,增加了模型的可解釋性和透明度,提升了結論的可信度.

本文提出一種基于邏輯回歸和通道注意力的新元學習框架(Meta-LearningwithLogisticRegressionandChannelAttention,ML-LRCA).ML-LRCA利用通道注意力機制來增強模型對權重的關注,并使用邏輯回歸更新訓練過程損失函數.通道注意力機制可以突出重要的特征,邏輯回歸則提供了一個透明的決策過程,從而提高準確性和可靠性.

本文主要工作包括:1)引入基于邏輯回歸的兩個元網絡生成適應任務的損失函數和損失函數參數,以此提高模型的準確率和可解釋性;2)引入通道注意力,動態調整特征權重,使模型的決策更加透明.

1 本文方法

1.1 問題描述

元學習旨在發現一種模型,可以在不同任務中表現出快速學習和適應能力.在少樣本分類任務的背景下,算法預期適應的分布任務表示為 p(T) ,元學習框架的任務合集假設為 {Ti}i=1T ,其中,每個任務 Ti 從 p(T) 中提取. Ti 由數據集 Di 的兩個不相交集合組成:支持集 Dis 和查詢集 DiQ .每個集合依次由多對輸入 x 和輸出 y 組成: Dis={(xis,yis)}s=1K 和DiQ={(xiq,yiq)}q=1M. 支持集 Dis 在基礎學習器中用于調整參數 θ ,并利用學習到的算法來學習下一個新任務 Ti ,具體公式如下:

其中: L 是用于評估任務性能的損失函數.因為 Dis 可以用于學習新任務,當每個任務中有 k 個樣本可用,少樣本學習則可以被稱為 k -shot學習( |Dis|= K=k )

通過學習支持集 Dis 得到由 θi 表示的特定于任務的基學習器,然后使用屬于同一任務 Ti 的查詢集DiQ 來評估參數 θ. 因此,元學習算法的目標變成:

1. 2 MAML

MAML的學習過程是在不同任務上進行適應性調整來找到通用的初始化參數.經過少量梯度更新后,面對新任務時模型能夠快速收斂.在內循環中,模型的參數 θ 適應特定于任務的支持集 Dis 通過梯度下降等優化算法進行調整.因此,在初始化 θi,0=θ 后,模型將通過梯度來最小化任務適應的目標(式(1)).第 j 步內循環優化表達為

其中: α 是學習率; ablaθi,j 表示相對于參數的梯度; L 是特定于任務的損失函數.經過 j 步后,基礎學習器的參數 θi 變為 θi,j

在外循環中,基礎學習器利用 θi,0 的泛化性在查詢集 DiQ 中評估初始化參數 θ ,然后利用評估結果來更新參數 θ. 模型在多個任務之間進行迭代學習,然后全局調整參數 θi (即 θi,j )以便更好地適應不同任務.這個調整(如式(2))可以表示為

1.3 ML-LRCA算法

在本節中,首先概述ML-LRCA方法;然后介紹其采用的兩個主要模塊,即通道注意力機制和邏輯回歸,并提出新的損失函數生成網絡;最后闡述ML-LRCA的整體框架

1.3.1 概述

元學習在訓練過程中可以使用有標簽的數據進行監督學習,每個訓練樣本都有相應的標簽或輸出.假設對于給定任務 Ti 存在一個完全監督的設置,其中,支持集 Dis 中的標記樣本被用來找到基礎學習器θi ,然后最小化固定的損失函數 L 本文方法的目標是找到可以適應于任務的損失函數,同時提高框架的可解釋性.注意力模塊在深度學習中常常被用來增強模型對特征的表征能力,它能夠學習并集中注意力于當前任務或數據關鍵的特征管道.為了規范內循環優化過程,實現更好的泛化,從元學習內循環優化損失函數 L?(.) 開始,由一個帶有元學習參數? 的小型神經網絡建模.內循環由式(3)更新為

其中: Ti,j 表示在時間步 j 時 Ti 的任務狀態.在元學習形式(如式(3))中, Ti,j 通常只有支持集 Dis .但是任務之間有著很大的差異,尤其是在跨領域場景中.因此,學習這些任務的自適應過程可能需要不同的正則化和輔助損失函數.如果使用梯度下降的方法使元學習的損失函數具有自適應性,那必然導致龐大的計算成本.如果元學習算法使用高階梯度進行訓練,計算成本必將更加龐大.本文給出的解決方案是使用仿射變換使損失函數適應給定的任務.已有研究[22-25]證明了條件仿射變換在使特征響應適應性方面是有效的,且對元學習初始化適應性也有幫助.利用仿射變換動態地調整損失函數的參數 ? ,公式如下:

?=γ?+β.

其中: γ 和 β 是由元學習器 g(Tj;ψ) 生成的變換參數.

MLP(多層感知器)可以表示大部分多項式曲線擬合過程,并在擬合效果和算法效率之間取得平衡.但是,MLP本質上是為解決大樣本數據的非線性多分類問題而設計的,所以在少樣本學習中還需進一步討論其結構與模型過擬合之間的關系.另外,MLP是一種通過反復試錯測試來優化參數的方法,這可能會減緩基本模型對未知任務的適應速度.

為了訓練元學習框架能夠在不同任務之間實現泛化,本文使用外循環優化參數 θ,? 和 ψ ,特定于任務的學習器 θi 以及查詢集 DiQ 以適應不同任務,公式如下:

完整訓練過程展示在算法1中.

1.3.2損失函數參數生成網絡

下面將詳細介紹所提出框架中的內循環更新過程.本文的目標是設計一種比MLP更簡單、更有效、更具解釋性的新損失函數參數生成網絡結構,以學習如何優化內循環中的損失函數的參數.為此本文提出一種基于邏輯回歸來構建損失函數參數 ? 的生成網絡.邏輯回歸本身是一種廣義的線性模型,其對數優勢比與各參數之間呈線性關系.模型的系數可以直接反映每個輸入特征對最終輸出的影響方向

異運1:ML-LIUA

輸入:任務分布 p(T) 號

輸人:學習率 α,η

輸入:元網絡 g,l, 基礎學習器 f

1) 初始化 θ,?,ψ

2) whilenot donedo

3) 抽取一批任務 {T1,T2,…,TN}

4) for每個任務 Ti do

5) 支持集樣本 form Ti (204號

6) 查詢集樣本 from Ti

7) 初始化 θi,0=θ (20

8) for j 在內循環更新 J 中do

9) 內循環參數更新:

10) 按照算法2調整 θi,j+1←θi,j (204號

11) end for

12) 計算查詢集的損失 L(DiQ,θi,j)=L(f(xiq,θi,j),yiq) (2號

13) end for

14) 使用梯度下降更新權重 中(20 (20

15) endwhile

(正或負)和強度:系數的符號表示影響方向,絕對值大小表示強度.需要注意的是,優勢比本身是系數的指數函數(即非線性關系),但通過對數轉換后,系數與對數優勢比保持可解釋性.因此,在應用邏輯回歸時,可以直接通過模型系數來理解和解釋哪些特征對決策更為重要,以及它們對輸出的影響是增大還是減小.如圖1所示,該熱力圖展示了邏輯回歸模型的權重系數,橫坐標表示輸人神經元,縱坐標表示8個輸出神經元,每個方塊代表了輸入神經元與輸出神經元之間的連接權重.方塊顏色則表示這些權重的值,顏色越深權重越大,

邏輯回歸的基本思想是通過對數似然最小化損失來學習模型參數,使得模型能夠在給定輸人條件下估計事件發生概率,而不需通過枚舉來優化底層網絡中的所有權重,將優化問題轉化為回歸問題.損失函數參數 ? 生成網絡 g 將轉換為以下形式:

在內循環中,為了提高計算效率, Ti,j 被表示為作用于支持集的損失 L(Dis,θi,j) 的均值、跨層基礎學習器的權重 θi,j 的逐層均值和基礎學習器輸出f(xis,θi,j) 的均值的組合.為了減輕計算負擔,本文采用與ALFA[15]相同的方法:考慮將基礎學習器 f 視為一個具有 L 層的神經網絡,產生 N 維輸出(用于N 類分類).因此,任務 Ti,j 具有 1+L+N 個維度,這使得計算負擔保持輕量化.盡管在半監督設置下計算負擔可能略有增加,但可以從基礎學習器 f(xiq ,θi,j (查詢集)對未標記的查詢樣本的響應中獲得額外信息.因此,式(8)中作為多元線性回歸問題的 z 可以假設為

圖1邏輯回歸模型的系數

Fig.1Coefficients of logistic regression model

z=?i,0+?i,1Ti,1+…+?i,jTi,j.

l?(Ti,j) 表示基于線性回歸的邏輯函數,其參數為 Ti,j 和 ? ·在內循環的一次迭代中,給定參數 Ti,j 和? 后,因變量取值為[0,1]的可能性表示如下:

p=P(y=1∣Ti,j)=l?(Ti,j),

1-p=P(y=0∣Ti,j)=1-l?(Ti,j).

在這種情況下, p 是一個 J 維張量.當在步驟 j 處的任務狀態 Ti,j 對內循環中步驟 j+1 的 ?i,j+1 具有最大影響時, y=1. 相反, 1-p 指的是 y=0 的情形.通過整合發生與不發生的概率,事件發生的概率函數表示為

P(y∣Ti,j,?)=[l?(Ti,j)]y×[1-l?(Ti,j)]1-y.

從優化損失函數生成網絡中的權重轉向映射Ti,j ,以確保邏輯回歸模型中由最大似然估計得出的結果與實際情況緊密對齊.利用似然函數構建一個損失函數參數生成網絡的目標函數,用以描述內循環中 J 步迭代的聯合概率.最終確定最優的網絡參數 ? :似然函數的公式如下:

為方便計算,對式(13)取對數:

為了找到目標函數的最優值,使用基于梯度的方法來確定最佳的 ?i,j. 這涉及將原始的最大化問題轉化為最小化問題,可以采用梯度下降進行下一步計算.最終 ?i,j 的修訂公式如下:

用于生成任務自適應損失函數參數的內循環優化過程如算法2所示.

1.3.3通道注意力模塊

通道注意力機制通常應用在CNN中,主要使用標量來表示和評估每個通道的重要性.由于通道注意力模塊是一個輕量級通用模塊,因此可以無縫集成到任何CNN架構中,開銷可以忽略不計,且可以與基礎CNN一起進行端到端訓練.模塊中間的特征圖可以通過通道注意力模塊在每個深度網絡的每個卷積塊上進行自適應細化[21].通常,由于計算開銷有限,通道注意力方法的核心步驟是為每個通道使用一個標量來進行計算[26].假設 X∈RC×H×W 是網絡中的圖像特征張量, c 是通道數, H 是特征高度, W 是特征的寬度.注意力機制可以寫成:

xatt=sigmoid(fc(X)).

其中: xatt∈Rc 是注意力向量 Ic 表示全連接層或一維卷積等映射函數.圖2展示通道注意力模塊與4-Conv中的卷積層集成的過程.圖3描述了通道注意力模塊的計算過程.通道的注意力圖利用特征通道之間的關系生成.特征圖的每個通道都充當一個特定的檢測器[27],注意力模塊會檢查輸人特征的各種

算法2:內循環更新子程序

輸入:基礎學習器 f 的權重 θi,j

輸入:具有參數 ? 的元網絡 和 ξl

輸入:支持集 Dis

輸入:在半監督設置下,無標簽查詢集樣本 {xiq}q=1M

1)使用基礎學習器評估支持集 f(xis=1:K,θi,j)={f(xis,θi,j)}s=1K

2)使用支持集計算損失 L(Dis=1;K,θi,j)=L(f(xis=1;K,θi,j),yis=1;K

3)確定任務狀態:

4)if監督學習then

6)elseif半監督學習then

7) 使用基礎學習器評估查詢集 f(xiq=1:M,θi,j)={f(xiq,θi,j)}q=1M

8) (204號 Ti,j=[L(Dis=1;K,θi,j),θi,j,f(xis=1;K,θi,j),f(xiq=1;M,θi,j)]

9)end if

10)計算仿射變換系數 γi,j,βi,j=g?(Ti,j,ψ)

11)計算損失函數的參數 ?i,ji,j?+βi,j

13)最大化似然并應用對數:

16)計算任務自適應損失 L?i,j(Ti,j

17)使用梯度下降更新

Fig.2Diagram of channel attention module

圖2通道注意力模塊示意

圖3注意力模塊計算過程

Fig.3Computation process of attention module

通道.通道注意力機制通過評估每個通道的重要性來識別完成任務所需的最關鍵特征、內容或圖像部分[28-30].為了高效地計算通道注意力,使用平均池化來減小輸入特征圖的空間維度.此外,還利用最大池化來捕捉與特定對象特征相關的額外關鍵細節,從而幫助更精確的通道級注意力,

通過引入注意力機制,模型能夠在多個特征或輸入數據的不同通道之間分配不同的權重,從而突出對預測結果影響最大的通道.因此,通道注意力機制可以幫助模型自動學習并關注輸入數據中最重要的部分.這樣的機制有助于提高模型的可解釋性,因為它能夠揭示模型在決策過程中所關注的特定特征或數據區域.圖4通過注意力權重展示了模型所關注的特征,從而為模型的決策提供直觀的解釋.

1.3.4 方法架構

本文嘗試將通道注意力模塊加入到元學習框架中.經過實驗證明,在4-Conv和ResNet12中加入通道注意力機制都有助于提高模型的泛化性.4-Conv作為主干網絡時,每個卷積塊包括:一個卷積層(卷積核大小 3×3 ,步長為1,填充設置為1,過濾器數量為48);一個批量歸一化層;一個ReLU非線性激活層和一個 2×2 最大池化層. 3×3 的卷積核可以在視覺任務中表現出良好的特征提取能力,同時保持計算成本可控.過濾器數量設置為48是通過初步試驗和經驗選擇的,以確保模型能夠學習足夠豐富的特征表示而不會過度復雜化.通道注意力模塊放在第三和第四層卷積塊之間,在模型更高層次的特征圖上引入注意力機制,強化重要通道的特征權重,有助于提高模型的泛化能力.ResNet12作為主干網絡時,一共有四個殘差塊,每個殘差塊包括:三個卷積層(卷積核大小為 3×3 ,步長為1,填充設置為1,過濾器數量為48);一個批量歸一化層;一個跳躍連接卷積層;一個跳躍連接歸一化層;一個ReLU非線性激活層和一個 2×2 最大池化層.與4-Conv相同的是,在ResNet12中的第三和第四個殘差塊之間加入通道注意力模塊,以更有效地提高模型對重要特征的識別能力.元優化器是Adam,學習率設置為0.001.在元訓練階段,一共有100個epoch,每個epoch有500次迭代.在每次迭代中對 n 個類進行 n 路分類,每個類采樣 k 個標記示例.在元測試階段使用15個樣本.

在任務自適應損失函數參數生成網絡 l? 中,使用邏輯回歸和多層感知器.生成損失函數元網絡也采用邏輯回歸和多層感知器.兩個元網絡用于生成仿射變換參數 γ 和 β 或者損失函數參數 ? :整體框架如圖5所示.

圖4可視化樣本1中的48個通道的權重Fig.4Visualize theweights of 48 channelsin Sample1

圖5ML-LRCA的整體框架

Fig.5Architecture of the ML-LRCA

2實驗結果分析

ML-LRCA具有可解釋性和自適應性.在少樣本分類、少樣本回歸和跨領域少樣本分類中進行實驗,來驗證ML-LRCA的性能.實驗中使用了標記的支持集和未標記的查詢集.

2.1 少樣本分類

在少樣本分類中,每個任務被定義為 n -way k shot,其中, n 是分類的數量, k 是每個類的樣本(shot)數量.

2.1. 1 數據集

在少樣本學習中使用兩個最常用的數據集mi-niImageNet[31]、tiredImageNet[32]進行實驗.miniIma-geNet通常在少樣本學習的初步研究和評估階段,用于驗證模型在少量樣本下的泛化能力和學習能力.tiredImageNet則由于其更大規模和難度的特性,多用于評估模型在更具挑戰性的條件下的表現,以及測試模型對于視覺相似類別的泛化能力.兩個數據集均由三個不相交的子集(訓練集、驗證集和測試集)組成,每個子集由大小為 84×84 的圖像組成.mi-niImageNet包含較少類別(100個類別),每個類別有600張圖像.tiredImageNet包含更多類別(608個類別),平均每個類別有600張圖像.與miniImageNet不同,tiredImageNet將數據分成多個層級,每個層級包含不同數量的類別,這些類別在視覺上更加相似.miniImageNet的100個類別使用隨機采樣法分類.其中,64個類用于元訓練,16個用于元驗證,20個用于元測試[31].tirediImageNet根據ImageNet[33]類層次結構分成34個類別.其中,20個類用于元訓練,6個類用于元驗證,8個類用于元測試[2].

2.1.2 實驗結果

在miniImageNet和tiredImageNet上,將本文方法與其他MAML變體進行比較,結果如表1所示.評估方法使用兩種典型設置:5-way5-shot和5-way1-shot分類.實驗結果表明,ML-LRCA將 MAML[2] 的性能提升約5個百分點.對于在本地重現的MAML(表中以MAML+的形式體現),其性能也提高約4個百分點.當ML-LRCA與 MAML++[4] 或ALFA[15]結合時,分類任務的準確率最大提高約7個百分點.ML-LRCA與 MAML+L2F[34] 或 MetaOpt[35] 對比時,ML-LRCA分別在1-shot和5-shot展現了優越性.

2.2 少樣本回歸

本文還進行了少樣本回歸實驗,針對MAML和ML-LRCA分別測評它們在 k -shot回歸問題中的均方誤差(Mean-SquareError,MSE)和 95% 的置信區間.在這項工作中,本文遵循Finn等[2]用于評估MAML的一般設置.具體來說:每個任務都涉及了從正弦波的輸入到輸出的回歸,其中正弦波的幅度和相位在任務之間變化.任務分布 p(T) 是連續的,幅度在[0.1,0.5]范圍內變化,相位在 [0,π] 范圍內變化,輸入和輸出的維度均為1.在訓練和測試期間,數據點 x 從[-0.5,0.5]均勻采樣.回歸器是一個基學習器,由3個大小為80的全連接層組成,中間有Re-

注:表示該模型在本地復現.

LU非線性激活函數.最后利用估計輸出值 和真實輸出值 y 之間的MSE來評估性能.

表2展示了MAML和ML-LRCA在5-shot、10shot和20-shot的回歸結果.結果表明,本文提出的ML-LRCA方法具有適用性和靈活性.ML-LRCA在不同的設置下都有不同程度的性能改進,

表2 k -shot回歸的均方誤差和 95% 的置信區間 Table2Mean-square error and 95% confidence intervals for k -shotregression

2.3 跨域少樣本分類

Russakovsky等[33]提出的跨領域少樣本分類解決了更具挑戰性和實用性的少樣本分類場景,其中,模型在一個領域中學習,并在另一個領域中進行分類.設計這種場景的目的是在元訓練和元測試之間創建一個較大的領域差距,從而評估元學習算法對于元級別過擬合的敏感性.

2.3.1 數據集

跨領域少樣本分類場景在miniImageNet上對算法進行元訓練,在CUB[36](CUB-200-2011)數據集上對算法進行元測試并進行評估.CUB包含200種鳥類類別(100個元訓練集、50個元驗證集和50個元測試集),與miniImageNet不同的是,CUB的目標是細粒度分類.

2.3.2 實驗結果

表3展示了MAML[2]、ALFA[15]和ML-LRCA在miniImageNet元訓練集上進行訓練并在CUB元測試集上進行評估時的性能.與表1中少樣本分類的結果類似,即使在更具挑戰性的跨域少樣本分類場景下,ML-LRCA也能極大地提高MAML和MAML + ALFA的泛化能力,準確率最大提升約18個百分點,展現了其較強的跨域學習能力.

表1分類任務的測試準確率

表3跨域少樣本分類的準確率(5-way5-shot)

Table3 Cross-domain few-shot classification

注:+表示該模型在本地復現.

2.4 消融實驗

消融實驗使用MAML作為基線,對ML-LRCA的通道注意力模塊和損失函數參數生成元網絡模塊進行對比.在表4中可以觀察到基于邏輯回歸的損失函數參數生成元網絡和通道注意力模塊對模型具有積極影響.

表4ML-LRCA的消融實驗 Table4AblationstudiesofML-LRCA

%

注:+表示該模型在本地復現.

2.5 可視化

圖6展示了元網絡之一 g 生成的仿射變換系數γ和 β ,這些系數在不同任務的每個內循環步驟中生成.由圖6可以發現 γ 和 β 隨著內循環迭代而變化,這表明ML-LRCA在內循環優化過程中自適應地修改了損失函數,以響應學習狀態的變化.此外,由元網絡生成的參數隨著任務的變化而變化,尤其是在最終的內循環迭代中.仿射變換參數的動態變化驗證了ML-LR-CA能夠使損失函數很好地適應給定的任務.

圖6可視化元網絡 g 生產的仿射變換參數 γ 和 β Fig.6Visualize the afine transformation parameters γ and β generated by the meta-network g

3結語

本文提出一種新穎的元學習框架——ML-LRCA.該框架通過在主干網絡中嵌入通道注意力模塊,顯著提高了圖像對通道的自適應性和模型對圖像的可解釋性.采用邏輯回歸來構建的元網絡,用于生成損失函數的參數,簡化了元學習框架并提升其可解釋性.同時,ML-LRCA還能夠在內循環優化過程中根據當前任務狀態動態調整損失函數,從而更好地適應每個任務的特定需求,進而實現更優的泛化性能.ML-LR-CA的設計不僅適用于不同的MAML變體和應用領域,還支持半監督內循環優化,其中,標記的支持集和未標記的查詢集聯合使用以適應任務,進一步增強了模型的泛化能力.該框架有助于提升在少樣本分類、少樣本回歸以及跨域學習等場景的性能,考慮到其對計算資源和數據較低的要求,未來有望擴展到大規模語言模型和通用人工智能應用領域.

數據可用性申明

本文在Github 提供了開源代碼:https://github.com/wangmaofa/New-ML-Framework.git

參考文獻References

[1]Vilalta R,Drissi Y.A perspective view and survey of meta-learning[J].Artificial IntelligenceReview,2002,18 (2) :77-95

[2」Finn C,Abbeel P,Levine S.Model-agnostic meta-learning for fast adaptation of deep networks[J].arXiv ePrint,2017,arXiv:1703.03400

[3]李凡長,劉洋,吳鵬翔,等.元學習研究綜述[J].計算 機學報,2021,44(2):422-446 LI Fanchang,LIU Yang,WU Pengxiang,et al.A survey on recent advances in meta-learning[J]. Chinese Journal of Computers,2021,44(2) :422-446

[4] Antoniou A,Edwards H,Storkey A. How to train your MAML[J].arXiv e-Print,2017,arXiv:1810.09502

[5] Bernacchia A. Meta-learning with negative learning rates [J].arXiv e-Print,2021,arXiv:2102.00940

[6] Bohdal O,Yang Y X,Hospedales T.EvoGrad: efficient gradient-based meta-learning and hyperparameter optimization[J].arXiv e-Print,2021,arXiv:2106.10575

[7]Li ZG,Zhou FW,Chen F,et al.Meta-SGD:learming to learnquickly for few-shot learning[J].arXiv e-Print, 2017,arXiv:1707.09835

[8] RusuA A,Rao D,Sygnowski J,etal.Meta-learning with latent embedding optimization[J].arXiv e-Print,2018, arXiv: 1807.05960

[9] Starshak T.Negative inner-loop learning rates leam universalfeatures[J].arXive-Print,2022, arXiv:2203.10185

[10] ZouYT,LiuFS,LiQ X. Unraveling model-agnostic meta-learning via the adaptation learning rate[C]//InternationalConference on Learning Representations (ICLR2022).April 25-29,2022,virtual.IMLS,2022: 1-38

[11] Wang MF,Gong Q Z,Chen HL,et al. Optimizing deep transfernetworkswithfruit flyoptimizationforaccurate diagnosis of diabetic retinopathy[J].Applied Soft Computing,2023,147:110782

[12] Behl H S,Baydin A G,Torr P H S.Alpha MAML: adaptive model-agnostic meta-learning[J].arXiv e-Print, 2019,arXiv:1905. 07435

[13] Lee Y,Choi S. Gradient-based meta-learning with learned layerwise metric and subspace[J].arXiv e-Print,2018, arXiv:1801.05558

[14] Leng ZX,Wang MF,WanQ,et al. Meta-learning of feature distribution alignment for enhanced feature sharing [J].Knowledge-Based Systems,2024,296:111875

[15] Baik S,Choi M,ChoiJ,etal.Meta-learning with adaptive hyperparameters[J].Advances in Neural Information Processing Systems,2020,33:20755-20765

[16] WangMF,Gong Q Z,Wan Q,etal.A fastinterpretable adaptive meta-learning enhanced deep learning framework for diagnosis of diabetic retinopathy[J].Expert Systems with Applications,2024,244:123074

[17] 劉堅,李樹林,陳濤.基于優化隨機森林模型的滑坡易 發性評價[J].武漢大學學報(信息科學版),2018,43 (7) :1085-1091 LIU Jian,LI Shulin,CHEN Tao.Landslide susceptibility assesment based on optimized random forest model[J]. Geomatics and Information Science of Wuhan University, 2018,43(7) :1085-1091

[18] FukuiH,Hirakawa T,Yamashita T,etal.Attention branch network:learning of attention mechanism for visual explanation [C」// 2019 IEEE/CVF Conterence on Computer Vision and Pattern Recognition (CVPR). June 15-20,2019,Long Beach,CA,USA.IEEE,2019: 10697-10706

[19] Xu K,Ba JL,Kiros R,et al.Show,attend and tell: neural image caption generation with visual attention[C].32nd International Conference on Machine Learning. July 6- 11,2015,Lille,France.IMLS,2015,3:2048-2057

[20] Hu J,Shen L, Sun G. Squeeze-and-excitation networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141

[21]Woo S,Park J,Lee JY,et al. CBAM:convolutional block attention module[C]//15th European Conferenceon Computer Vision. September 8-14,2018,Munich,Germany.ECAV,2018:3-19

[22] BaikS,ChoiJ,Kim H,etal.Meta-learningwith taskadaptive loss function for few-shot learning[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October10-17,2021,Montreal,QC,Canada. IEEE,2021:9445-9454

[23] JiangX,HavaeiM,Varno F,etal.Learning to learn with conditional class dependencies[C]//International Conference on Learning Representations ( ICLR2019). May 6-9,2019,New Orleans,LA,USA.IMLS,2019:-11

[24]Perez E,Strub F,De Vries H,et al.FiLM:visual reasoning with a general conditioning layer[J].Proceedings of theAAAI Conference on Artificial Intelligence,2018,32 (1) :1-10

[25] Oreshkin B,Rodriguez López P,Lacoste A. Tadam:Task dependent adaptive metric for improved few-shot learning [J].Advances in Neural Information Processing Systems,2018,31:1-11

[26]Qin Z Q, Zhang P Y, Wu F,et al. FcaNet: frequency channel attention networks[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).October10-17,2021,Montreal,QC,Canada.IEEE,2021: 763-772

[27]Zeiler MD,Fergus R.Visualizing and understanding convolutional networks[C]//13th European Conference on Computer Vision.September 6-12,2014,Zurich,Switzerland.ECAV,2014:818-833

[28]王子民,周悅,關挺強,等.基于改進U2-Net網絡的多 裂肌MRI圖像分割算法[J].南京信息工程大學學 報,2024,16(3) :364-373 WANG Zimin,ZHOU Yue,GUAN Tingqiang,et al. Segmentation of multifidus muscle MRI images via improved U2-Net[J]. Jourmal of Nanjing Universityof Information Scienceamp; Technology,2024,16(3):364-373

[29] 黃馳涵,沈肖波.基于融合注意力和特征增強的跨模 態行人重識別[J].南京信息工程大學學報,2024,16 (4) :451-460 HUANG Chihan,SHEN Xiaobo. Cross-modal person reidentification based on fused attention and featureenhancement[J].Journal of Nanjing Universityof Information Scienceamp; Technology,2024,16(4) :451-460

[30]師偉婕,黃靜靜,王茂發.基于兩種U型網絡的鋼鐵圖 像缺陷檢測方法對比[J].北京信息科技大學學報 (自然科學版),2021,36(1):63-68 SHIWeijie,HUANG Jingjing,WANG Maofa.Comparison ofdefectdetectionmethods of steel imagebased ontwoU network models[J].Journal of Beijing Information Scienceamp;TechnologyUniversity,2021,36(1):63-68

[31] Ravi S,Larochelle H.Optimizationas a model for fewshot learning[C]//International Conference on Learning Representations(ICLR2017).April 24-26,2017,Toulon,France.IMLS,2017:1-11

[32] RenM,TriantafillouE,RaviS,etal.Meta-learningfor semi-supervised few-shot classification[J].arXivePrint,2018,arXiv:1803.00676

[33] RussakovskyO,DengJ,SuH,etal.ImageNetlargescale visual recognition challenge[J].International Journal of ComputerVision,2015,115(3):211-252

[34] BaikS,Hong S,Lee K M.Learning to forget for metalearning[C]//2020 IEEE/CVF Conference on Computer Visionand PatternRecognition(CVPR).June13-19, 2020,Seattle,WA,USA.IEEE,2020:2376-2384

[35] LeeK,MajiS,RavichandranA,etal.Meta-learningwith differentiable convex optimization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA. IEEE,2019:10649-10657

[36] ChenWY,LiuYC,KiraZ,etal.Acloserlookatfewshotclassification[J].arXive-Print,2019, arXiv:1904.04232

A framework for enhanced adaptability and interpretability in meta-learning

XU Yanlin1WANG Maofa1WEN Yimin2YAN Bingchen1YANG Fengshan1GUO Wenheng3JIANG Jun 1 1Guangxi KeyLaboratoryof TrustedSoftware,Guilin UniversityofElectronic Technology,Guilin541004,China 2Guangxi Key Laboratory of Image and Graphic Inteligent Processing, Guilin University of Electronic Technology,Guilin 541004,China 3School of Information Engineering,Institute of Disaster Prevention,Langfang O652O1,China

AbstractInfew-shot learning scenarios,Model-Agnostic Meta-Learning(MAML)isrenowned for itsflexibility andapplicability independent of specific base model.However,MAML and its variants lack the capability to adaptivelyadjusttask-specific features,suchas featurechannels,andrelyonglobal initial parameters with fixed innerloop step numbers,resulting in a training process that lacks interpretability.This paper proposes arapid,interpretable,and adaptive framework of Meta-Learning with Logistic Regression and Channel Attention (ML-LRCA).The goal is to enhancetheadaptabilityand interpretabilityof the framework byadaptivelyadjusting task-specificchannel weights and utilizing logistic regresion toswiftly adaptto task-specific adaptiveloss functions.Experimental results on multiple open-source datasets indicate that the proposed ML-LRCA framework achieves significant performance improvements in scenarios such as few-shot classification,few-shot regression,and cross-domain learning. Key wordsmeta-learning(ML);logistic regression;channel attention ;interpretability;adaptability

主站蜘蛛池模板: 国产美女主播一级成人毛片| 97亚洲色综久久精品| 秘书高跟黑色丝袜国产91在线 | 色噜噜在线观看| 91色在线观看| 国产精品自拍露脸视频| 毛片在线播放a| 在线观看精品自拍视频| 人人爱天天做夜夜爽| 亚洲第一在线播放| 亚洲精品国产首次亮相| 日韩免费中文字幕| 2021国产v亚洲v天堂无码| 54pao国产成人免费视频| 国产福利一区在线| 不卡的在线视频免费观看| 又爽又大又黄a级毛片在线视频| 国产a v无码专区亚洲av| 污视频日本| 免费人成网站在线观看欧美| 国产精品高清国产三级囯产AV| 国产精品夜夜嗨视频免费视频| 色精品视频| av无码久久精品| 免费在线国产一区二区三区精品| 手机在线国产精品| 久久精品嫩草研究院| 欧美激情视频一区| 国产拍揄自揄精品视频网站| 免费看的一级毛片| 午夜免费小视频| 亚洲欧美人成电影在线观看| 亚洲欧美人成人让影院| 国产精品久久久精品三级| 特级aaaaaaaaa毛片免费视频| 97色婷婷成人综合在线观看| 国产亚洲精品自在线| 国内精自线i品一区202| 色偷偷av男人的天堂不卡| 国产欧美性爱网| 国产在线91在线电影| 在线免费无码视频| 女人18毛片久久| 亚洲精品免费网站| 国产一区二区影院| 欧美成人精品一级在线观看| 午夜精品区| 久久综合AV免费观看| 这里只有精品在线| 国产精品美人久久久久久AV| 中文字幕人妻av一区二区| 呦系列视频一区二区三区| 国产在线观看第二页| 色婷婷在线影院| 五月婷婷丁香色| 国产麻豆福利av在线播放 | 日本一本在线视频| 香蕉eeww99国产在线观看| 99精品国产自在现线观看| 一区二区在线视频免费观看| 日韩乱码免费一区二区三区| 久久久久夜色精品波多野结衣| 亚洲国产在一区二区三区| 成人日韩精品| AV在线麻免费观看网站| 奇米精品一区二区三区在线观看| 国内视频精品| 国产无人区一区二区三区| 色婷婷亚洲综合五月| 日韩AV无码一区| 日韩中文欧美| 99久久国产综合精品女同| 国产精品久久久久婷婷五月| 亚洲精品无码在线播放网站| 亚洲AV无码乱码在线观看代蜜桃| 久久久黄色片| 国产乱人视频免费观看| 国产成人精品免费av| 人妻中文久热无码丝袜| 美女被躁出白浆视频播放| 高清视频一区| 少妇被粗大的猛烈进出免费视频|