平衡信息與動態(tài)更新的原型表示聯(lián)邦學(xué)習(xí)

2024-01-03 00:00:00徐煒欽肖婷王喆

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年6期

摘要：聯(lián)邦學(xué)習(xí)（FL）是一種分布式機(jī)器學(xué)習(xí)方法，旨在通過訓(xùn)練模型而不共享客戶之間的原始數(shù)據(jù)來解決隱私問題。然而，跨客戶端數(shù)據(jù)的異構(gòu)性會阻礙FL 中的優(yōu)化收斂性和泛化性能。為了解決這個(gè)問題，本文提出了平衡信息與動態(tài)更新的聯(lián)邦原型學(xué)習(xí)（BD-FedProto）框架，它由兩個(gè)組件組成：原型調(diào)度的動態(tài)聚合（DA）和對比原型聚合（CPA）。前者動態(tài)地調(diào)整局部學(xué)習(xí)和全局學(xué)習(xí)之間的比例，以平衡局部知識和全局知識的有效性；后者利用缺失的類作為負(fù)樣本，通過統(tǒng)一的原型集群來學(xué)習(xí)未知的分布。在CIFAR-10 和MNIST 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，BD-FedProto 能有效提高FL 的分類性能和穩(wěn)定性。

關(guān)鍵詞：聯(lián)邦學(xué)習(xí)；特征空間聚合；原型表示；對比學(xué)習(xí)；數(shù)據(jù)異構(gòu)

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A

聯(lián)邦學(xué)習(xí)（FL）框架[1] 是一個(gè)分布式深度學(xué)習(xí)框架，它處理圖像、文本和語音領(lǐng)域的問題，應(yīng)用于遵守某些約束的同時(shí)實(shí)現(xiàn)數(shù)據(jù)交互。數(shù)據(jù)在醫(yī)學(xué)和軍事等領(lǐng)域受到嚴(yán)格控制，而情報(bào)依賴于生產(chǎn)力[2]，F(xiàn)L 是解決這種沖突的合適方法。然而，提供數(shù)據(jù)的客戶端通常不能在數(shù)據(jù)收集階段評估他人分享的數(shù)據(jù)，從而導(dǎo)致跨客戶端的異構(gòu)數(shù)據(jù)[3]。

知識蒸餾（KD）的FL 框架，作為解決數(shù)據(jù)異構(gòu)性挑戰(zhàn)的替代方案，可以解決通信成本高和不靈活的結(jié)構(gòu)問題，如文獻(xiàn)[4] 提出了一種考慮模型可信度的方法，以減輕噪聲和提取知識的影響。然而基于KD 的方法，會受到公共數(shù)據(jù)集之間的偏差和客戶端本地?cái)?shù)據(jù)分布的影響[5]，造成這些問題的根本原因是異構(gòu)聯(lián)邦學(xué)習(xí)的泛化性能要求：首先，是全局模型的泛化能力，在知識遷移的過程中，能否得到一個(gè)泛化的全局模型是至關(guān)重要的；其次，局部模型是否能夠識別偏差，并在學(xué)習(xí)過程中采用定制的調(diào)整策略，決定了其適應(yīng)新場景的能力。

本文提出了一種對比原型聚合（CPA）方法，該方法對正樣本和負(fù)樣本進(jìn)行比較，以減輕不相關(guān)樣本對全局學(xué)習(xí)過程的影響。它將目標(biāo)類別的全局原型標(biāo)簽作為負(fù)樣本，并應(yīng)用于全局學(xué)習(xí)階段的對比損失，使局部原型更接近正樣本類，而遠(yuǎn)離負(fù)樣本類。同時(shí)，提出了一種動態(tài)調(diào)整（DA）策略來平衡全局一致性學(xué)習(xí)和局部監(jiān)督學(xué)習(xí)之間的關(guān)系。在一個(gè)完整的輪次中，DA 策略分別記錄總損失各部分，計(jì)算各部分減少率，最后通過比較損失函數(shù)方法來擬合全局原型的置信度。

本文將CPA 和DA 統(tǒng)一到同一個(gè)框架設(shè)計(jì)了平衡信息與動態(tài)更新的聯(lián)邦原型學(xué)習(xí)（BD-FedProto），解決了全局模型和局部模型之間信息不平衡問題，以及由于收斂效率的差異而導(dǎo)致的局部模型的漂移問題。通過計(jì)算全局聚合階段的損失與局部監(jiān)督學(xué)習(xí)階段的損失，將二者進(jìn)行比較，使全局學(xué)習(xí)與局部學(xué)習(xí)的權(quán)重動態(tài)調(diào)整，令平衡全局信息與局部信息的速率達(dá)到相對平衡。

1 相關(guān)工作

由FedAvg[1] 表示的集中式FL 框架主要分為兩個(gè)步驟：（1）每個(gè)客戶端獲取模型的全局知識，并使用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練；（2）服務(wù)器使用本地模型更新全局知識。由于數(shù)據(jù)分布在本地模型中的偏差，數(shù)據(jù)的異構(gòu)性往往會嚴(yán)重影響服務(wù)器的聚合效應(yīng)。具有聚合參數(shù)的FL 框架在克服異構(gòu)模型的挑戰(zhàn)方面取得了許多突破。文獻(xiàn)[6] 提出添加正則化項(xiàng)來優(yōu)化模型，而文獻(xiàn)[7] 提出添加一個(gè)全局模型，并比較前一個(gè)模型的邏輯輸出來更新局部模型。文獻(xiàn)[8] 提出，服務(wù)器對不同客戶端的不同網(wǎng)絡(luò)層使用不同的權(quán)值來計(jì)算權(quán)值矩陣，并利用權(quán)值矩陣對權(quán)值進(jìn)行聚合和更新，以實(shí)現(xiàn)個(gè)性化處理。這些方法雖然在一定程度上緩解了數(shù)據(jù)異構(gòu)性引起的模型聚合偏差，但也增加了參數(shù)聚合的通信負(fù)載，降低了框架的效率。

解決異質(zhì)性挑戰(zhàn)的一種新穎的方法是通過KD 的FL 框架。文獻(xiàn)[9] 提出使用初始模型和以前的模型進(jìn)行連續(xù)學(xué)習(xí)，以最小化針對不同客戶的公共數(shù)據(jù)集的大型網(wǎng)絡(luò)相關(guān)性矩陣。而文獻(xiàn)[4] 提出了基于反交叉熵來判斷客戶的噪聲比，并定義客戶的可信度，以更好地利用客戶的數(shù)據(jù)。在聯(lián)邦學(xué)習(xí)中，KD 的優(yōu)勢在于它能夠控制邏輯輸出、傳輸全局知識，以及它對模型變化的更高容忍度。然而，KD 需要額外的公共數(shù)據(jù)集，并且為傳輸教師模型產(chǎn)生了很高的通信成本。同時(shí)，文獻(xiàn)[9] 提出了一種聚合任務(wù)原型的方法，該方法具有對模型異構(gòu)性的容忍度高、通信成本低的優(yōu)點(diǎn)。

緩解FL 全局模型缺乏的關(guān)鍵是改進(jìn)全局模型的泛化和個(gè)性化局部模型的學(xué)習(xí)過程。一方面，由于模型和數(shù)據(jù)的異質(zhì)性，異質(zhì)性FL 需要增加對全局模型的泛化。為了解決這一挑戰(zhàn)，域泛化（DG）[10-13]被開發(fā)為域適應(yīng)[14-17] 的擴(kuò)展。文獻(xiàn)[18] 提出，分類器傾向于記憶訓(xùn)練域，而忽略來自其他域的信息，而DANN[19] 則使用對抗性學(xué)習(xí)來使模型域不變。這些方法已被擴(kuò)展到聯(lián)邦學(xué)習(xí)域泛化（FedDG）[20-22]中，通過校正非IID（Independent Identically Distribution）數(shù)據(jù)[23] 引起的漂移來提高全局模型的泛化。文獻(xiàn)[24] 使用一個(gè)生成器從輸入空間中提取知識并將其轉(zhuǎn)移到全局模型中，而文獻(xiàn)[25] 通過連續(xù)譜空間進(jìn)行插值來補(bǔ)充域，得到一個(gè)更廣義的域。在更新中添加正則化約束來糾正漂移。文獻(xiàn)[26] 通過對連續(xù)的頻譜空間進(jìn)行插值來補(bǔ)充該域，從而得到一個(gè)更廣義的域。

相反地，當(dāng)全局模型的泛化能力不足時(shí)，解決問題的方法就會轉(zhuǎn)向解決局部模型和全局模型的差異。提高FL 能力的一種方法是通過個(gè)性化的本地學(xué)習(xí)過程[27-28]，如Per-FedAVG[29] 通過改進(jìn)FL 框架來增強(qiáng)個(gè)性化。

2 基于原型表示的FL

2.1 FL 問題設(shè)置

在真實(shí)的FL 環(huán)境中，每個(gè)客戶端都擁有自己的本地隱私數(shù)據(jù)集，并且每個(gè)客戶端的數(shù)據(jù)分布可能是不同、重疊或不相關(guān)，這種現(xiàn)象被稱為統(tǒng)計(jì)異質(zhì)性。在統(tǒng)計(jì)異質(zhì)性設(shè)置中，第i個(gè)客戶端分布記為Fi （wi），其中w為局部模型的權(quán)重，每個(gè)客戶端的w是不同的。訓(xùn)練階段的優(yōu)化目標(biāo)定義為：

其中，Di和N分別為客戶端的本地?cái)?shù)據(jù)集和所有數(shù)據(jù)的數(shù)量。m是FL 組中的客戶數(shù)量。在異質(zhì)性的情況下，權(quán)重wi不同，因此通信和聚合原型比參數(shù)聚合的FL 更有效。

2.2 整體框架

本文整體框架由服務(wù)器和若干本地模型組成。組成本地模型是標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)，包含兩個(gè)組成部分：（1）編碼器：第i個(gè)客戶端的編碼器fi （φi）由φi參數(shù)化，x的編碼嵌入被表示為f （φ， x）。（2）分類器：通常分類器是一個(gè)標(biāo)記為g（v）的線性層，它生成一個(gè)預(yù)測的邏輯輸出，其分類器權(quán)重為v，模型Fi （φi） · g（v） = Fi （wi）。原型Cj是第j類嵌入f （φ， x）的平均值，φ為特征提取器權(quán)重，F(xiàn)代表全局模型，f 為該模型提取的特征嵌入輸出。

本文算法如圖1 所示，它包括兩個(gè)階段：第1 階段在服務(wù)器上執(zhí)行，將上傳的本地原型進(jìn)行集成，得到全局原型。同時(shí)服務(wù)器負(fù)責(zé)向本地模型傳輸全局信息。第2 個(gè)階段是本地訓(xùn)練階段，先由本地?cái)?shù)據(jù)生成編碼嵌入，分別用于計(jì)算本地原型與生成預(yù)測結(jié)果。由預(yù)測結(jié)果與真實(shí)標(biāo)簽計(jì)算監(jiān)督損失，本地原型則與全局原型計(jì)算對比損失。

訓(xùn)練步驟中的總體損失函數(shù)如式（2）所示：

總體損失包括監(jiān)督損失 LS 和正則化項(xiàng)損失 LR 。監(jiān)督損失LS負(fù)責(zé)指導(dǎo)本地模型學(xué)習(xí)客戶端的數(shù)據(jù)即，而正則化項(xiàng)損失LR負(fù)責(zé)指導(dǎo)局部模型學(xué)習(xí)全局模型的信息。

為了在客戶端之間實(shí)現(xiàn)一致的原型分布，本文方法的正則化項(xiàng)損失為對比損失（LC），其目的是使局部原型分布更接近全局分布，同時(shí)最小化分類誤差。總體損失函數(shù)定義為

L（Di，ωi） = LS （Fi（ωi，"x），"y）+α·λD·LC（Ci，C）（3）

監(jiān)督損失LS采用經(jīng)典的交叉熵?fù)p失，此處的超參數(shù)α固定為1，對比損失LC是全局原型C和本地原型Ci之間的均方損失函數(shù)，是正則化項(xiàng)損失LR的具體形式，負(fù)責(zé)維護(hù)全局分布的一致性。λD是一個(gè)控制全局學(xué)習(xí)效率的動態(tài)參數(shù)。

2.3 動態(tài)調(diào)整的全局表征學(xué)習(xí)

雖然基于KD 的FL 對數(shù)據(jù)異質(zhì)性表現(xiàn)出了很高的容忍度，但它假設(shè)所有客戶端都包含相同數(shù)量的有效信息，并在全局和局部學(xué)習(xí)中使用固定比例的參數(shù)，但當(dāng)局部數(shù)據(jù)集發(fā)生變化時(shí)，這可能會導(dǎo)致學(xué)習(xí)效率的偏差。為了解決這個(gè)問題，本文通過信息熵進(jìn)行了不同階段的信息量評估。

為了評估全局分布與本地分布的信息熵，互信息（MI）可通過式（4）進(jìn)行計(jì)算：

其中，︿pk是本地?cái)?shù)據(jù)集中類k的平均概率，|N|為任務(wù)數(shù)量，|D|為數(shù)據(jù)集規(guī)模。pi，k是一個(gè)樣本xi的類k的概率。

如圖2 所示，隨著訓(xùn)練進(jìn)行，原始FedProto 中的互信息（MI）逐漸增加，全局模型捕獲更有效信息，更好地適合真實(shí)數(shù)據(jù)。然而，隨著學(xué)習(xí)過程的進(jìn)行，MI 的值也會增加，說明所有客戶的全局學(xué)習(xí)效率都有很大方差。

從交叉熵與原型距離的定義可以發(fā)現(xiàn)，交叉熵越低表示局部模型與局部數(shù)據(jù)的擬合較好，而原型距離損失越低表示局部模型與全局模型的擬合較好。

因此，通過對交叉熵與原型距離進(jìn)行對比，可以推導(dǎo)得出全局模型相對與局部模型的置信度。監(jiān)督損失LS表示局部數(shù)據(jù)的學(xué)習(xí)程度，而正樣本LP的距離表示全局?jǐn)?shù)據(jù)的學(xué)習(xí)程度。置信度計(jì)算方法如公式（5）所示：

其中，上標(biāo)prev 代表上一輪的輸出。在上述假設(shè)的基礎(chǔ)上，本文提出了一個(gè)基于模擬退火方法的動態(tài)參數(shù)λD，如公式（6）所示：

其中，Т為溫度參數(shù)，Round 為訓(xùn)練輪次。為了保證最終整體模型的穩(wěn)定性，本文采用模擬退火方法來調(diào)整損失模塊的可接受程度，并動態(tài)調(diào)整損失模塊全局部分的學(xué)習(xí)率。

2.4 三元對比學(xué)習(xí)

在全局學(xué)習(xí)過程中，客戶端中不存在的類別仍然會影響中心服務(wù)器中的聚合，進(jìn)而影響本地模型。為了減少無關(guān)類別的影響，本文提出正、負(fù)樣本聚合的方法，將標(biāo)簽不同的所有原型去掉具體標(biāo)簽后作為正樣本，雖然引入了缺失類，但由于負(fù)樣本抹除了標(biāo)簽，因此對于客戶端是透明的，不存在數(shù)據(jù)安全風(fēng)險(xiǎn)。這種方法補(bǔ)充了嵌入空間中的信息?？傮w對比損失表示為公式（7）：

LC = LP +β·LN （7）

其中， LP 和 LN 分別是正樣本和負(fù)樣本的對比損失。可定義為公式（8）：

其中， d（·）為度量函數(shù)，C 為該類別樣本的原型表示，上標(biāo)表示類別。

2.5 收斂分析

為了驗(yàn)證模型的收斂性，本文引用了以下幾個(gè)假設(shè)來證明推導(dǎo)過程。

定義1：第i個(gè)客戶端的分布可以用子分布j（ j ∈ |Di|）表示，如：

φi = φi，1∩…φi，"j，?"j ∈ |Di| （9）

定義 2：全局分布由k（k∈"|Di|）個(gè)子分布構(gòu)成，如公式（10）：

φi，1 ∩…φi，k，?k ∈"|Di|

φi，1∩φNi，"j = 1 （10）

根據(jù)定義1 和定義2，負(fù)樣本分布定義為公式（11）：

φi，1 ∩…φi，k = φNi，"j，

?k∈"|Di|"，? j ∈"|Di|，"k≠"j （11）

其中，E（·）為期望值函數(shù)，E 為局部學(xué)習(xí)的周期，e 為E 的最小單位，G 為梯度。

當(dāng)一個(gè)新的客戶端加入FL 組時(shí)，只需要客戶端在中心服務(wù)器中下載原型，并初始化其模型，然后調(diào)整其本地模型。與FedProto 相比，本文方法更平衡、偏差較小，并產(chǎn)生了一個(gè)更通用的全局模型。當(dāng)覆蓋一定數(shù)量的全局類時(shí)，下載的數(shù)據(jù)量從本地?cái)?shù)據(jù)集中覆蓋的類的數(shù)量增加到所有類的數(shù)量，在絕大多數(shù)情況下，這是可以接受的。與其他FL 方法相比，本文方法不需要權(quán)重交換，且具有較高的通信效率，同時(shí)在域內(nèi)沒有樣本的情況下，具有忽略信息的好處。此外，本文方法聚合了與現(xiàn)有樣本相似的未知樣本的偏差。由于原型計(jì)算采用平均的方式，當(dāng)客戶的樣本分布不平衡時(shí)，本文方法可能會比聚合參數(shù)的FL 方法具有更大的偏差。此外，當(dāng)每個(gè)客戶端的任務(wù)沒有重疊時(shí)，基于原型的方法會陷入獨(dú)自訓(xùn)練的情況。

3 實(shí)驗(yàn)部分

3.1 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)采用了典型的訓(xùn)練設(shè)置，即中央服務(wù)器傳輸信息，每個(gè)客戶端都擁有自己的私有數(shù)據(jù)，并使用 MNIST[30] 和CIFAR-10[31] 兩個(gè)流行的數(shù)據(jù)集進(jìn)行評估。實(shí)驗(yàn)在非IID 局部任務(wù)分布中應(yīng)用了FedProto的異構(gòu)設(shè)置。為了模擬在現(xiàn)實(shí)中常見的異構(gòu)性，實(shí)驗(yàn)中采取了隨機(jī)采樣的方式，對標(biāo)準(zhǔn)差與平均任務(wù)數(shù)量進(jìn)行固定的設(shè)置。實(shí)驗(yàn)中，每個(gè)客戶端監(jiān)督學(xué)習(xí)的任務(wù)分布采用了小樣本學(xué)習(xí)中的N-way Kshot的概念來定義采樣計(jì)劃，其中N 和K 分別為訓(xùn)練階段的平均任務(wù)數(shù)和每個(gè)任務(wù)的平均樣本數(shù)。為了模擬異質(zhì)性，實(shí)驗(yàn)隨機(jī)調(diào)整了N 和K 的值。具體來說，每個(gè)客戶端利用式（14）得到N 和K：

其中，Nk 為每個(gè)客戶端具體的任務(wù)數(shù)量， N︿為預(yù)設(shè)的平均任務(wù)數(shù)量，Nmaxtask 為最大任務(wù)數(shù)量。

基準(zhǔn)測試是FedProto[9]、FedAvg[1]、FedProx[6] 以及不進(jìn)行通訊的局部訓(xùn)練。

MNIST 的局部模型是一個(gè)2 層的CNN 網(wǎng)絡(luò)，CIFAR-10 中的骨干網(wǎng)絡(luò)是ResNet-18[32]，在PyTorch提供的整個(gè)CIFAR-10 測試數(shù)據(jù)集上，該預(yù)訓(xùn)練模型的初始測試精度為27.55%。在實(shí)驗(yàn)過程中，學(xué)習(xí)率設(shè)置為0.01，客戶端數(shù)量為20 個(gè)。α和β的值都被設(shè)置為0.5。

3.2 實(shí)驗(yàn)結(jié)果

表1 與表2 所示分別為數(shù)據(jù)集MNIST 和CIFAR-10 的對比實(shí)驗(yàn)結(jié)果。結(jié)果表明，BD-FedProto比其他方法具有更高的測試精度，且在大多數(shù)情況下表現(xiàn)最為穩(wěn)定。對于4-way 和5-way 的情況，帶有CPA 模塊的框架通?？梢垣@得更好的性能。

在3 種情況下，帶有CPA 模塊的框架不能在保持良好穩(wěn)定性的同時(shí)保持更高的分類性能。這是因?yàn)樵贑IFAR-10 數(shù)據(jù)集上隨機(jī)采樣N 類，因此異質(zhì)性隨著類別數(shù)量的增加而減小。因此，當(dāng)異質(zhì)性較高時(shí)，信息越平衡，框架的整體穩(wěn)定性就越高，但整體分類性能越低。隨著異構(gòu)性的減少和信息的補(bǔ)充，框架的整體性能也有所提高，這可能是當(dāng)補(bǔ)充信息空間時(shí)，分類更傾向于更關(guān)注重疊率較高的類別，而忽略了一些孤立的類別。

然而，在異質(zhì)性較高的情況下，大部分分類任務(wù)屬于低重疊率類別，導(dǎo)致整體性能下降。相比之下，在異質(zhì)性較低的情況下，主要分類任務(wù)轉(zhuǎn)變?yōu)榫哂休^高重疊率的任務(wù)，其性能改進(jìn)是決定模型整體性能的主要因素。在MNIST 數(shù)據(jù)集的實(shí)驗(yàn)中，任務(wù)難度相對較低，模型深度不高，優(yōu)化難度較低。因此，參數(shù)聚合方法大大緩解收斂緩慢的缺點(diǎn)，針對異構(gòu)場景的FedProx 在某些場景中取得了優(yōu)異的性能，與其他框架相比，BD-FedProto 仍然具有一定的優(yōu)勢。

表3 和表4 分別示出了使用全局原型在MNIST 數(shù)據(jù)集和CIFAR-10 數(shù)據(jù)集上進(jìn)行分類性能的實(shí)驗(yàn)結(jié)果。結(jié)果表明，該方法在大多數(shù)情況下都優(yōu)于基線模型，證明了該方法在提高原型聚合的泛化性能方面的有效性。在使用全局模型進(jìn)行分類的實(shí)驗(yàn)中，本文的全局模型在合并CPA 模塊時(shí)表現(xiàn)良好，通過CPA 模塊來增強(qiáng)負(fù)樣本，導(dǎo)致了局部模型可訪問的信息池的顯著放大。因此，局部模型的特征提取器傾向于收斂統(tǒng)一的原型進(jìn)行分類。

同樣，在全局模型分類任務(wù)中，當(dāng)場景中的異質(zhì)性降低時(shí)， CPA 模塊分類性能優(yōu)異。相比之下，DA 模塊在不與CPA 模塊配對時(shí)，會動態(tài)調(diào)整其速率，增加局部模型的個(gè)性化，導(dǎo)致全局模型和局部模型之間的差異更大，最終降低分類性能。

3.3 消融實(shí)驗(yàn)

本文對不同模塊進(jìn)行了消融實(shí)驗(yàn)，并使用TSNE[33] 給出了結(jié)果，圖3 顯示了不同模塊影響下的T-SNE 分布，不同的類別用不同的顏色標(biāo)記，全局原型用方塊標(biāo)記。從圖中來看，CPA 的加入令FedProto中的原型分布更加均勻。

本文對DA 模塊的動態(tài)參數(shù)λD進(jìn)行了實(shí)驗(yàn)，結(jié)果如圖4 所示。由圖可得，在收斂階段，λD有顯著的波動，這表明有必要加入一個(gè)溫度參數(shù)Τ 。

圖5 示出了不同方法對MI 的影響，CPA 方法提高了全局模型的穩(wěn)定性和平衡客戶，而DA 方法顯著提高了全局模型的收斂效率。

3.4 超參數(shù)

本文在CIFAR-10 中設(shè)置N=5 和K=100，測試α和β對精度的影響，結(jié)果如圖6 所示。可以看出，當(dāng)α和β超過0.5 時(shí)，總體精度顯著下降，這有可能是在全局原型的學(xué)習(xí)率過大，從而導(dǎo)致學(xué)習(xí)效率較低。因此本文最優(yōu)取值為0.5。

4 結(jié)束語

BD-FedProto 同時(shí)包含了CPA 和DA，是專門為解決FL 中的異質(zhì)性和不平衡信息問題而設(shè)計(jì)的。在BDFedProto 中，CPA 解決了由信息不平衡引起的局部模型中的漂移問題，它引入了缺失的類作為負(fù)樣本來彌補(bǔ)樣本空間信息缺失的問題；同時(shí)，DA 采用了一種新的調(diào)度器來動態(tài)調(diào)整局部學(xué)習(xí)和全局學(xué)習(xí)的比例。這種方法解決了在不同的局部模型中學(xué)習(xí)率不平衡的問題，本文可以調(diào)整簇在樣本空間中的分布，使其更加均勻。實(shí)驗(yàn)結(jié)果表明，與最近的方法相比，本文方法在異質(zhì)性場景方面取得了更好的準(zhǔn)確性和穩(wěn)定性。

雖然BD-FedProto 在分類性能和穩(wěn)定性方面取得了改進(jìn)，但本文存在一定的局限性和假設(shè)。首先，全局模型假設(shè)了一個(gè)廣義和統(tǒng)一的原型，而局部模型可能有不同的應(yīng)用場景和焦點(diǎn)區(qū)域，并且在局部模型中嵌入全局原型的網(wǎng)絡(luò)是否能提高性能尚不清楚。此外，原型網(wǎng)絡(luò)本身是一種聚類模型，使用線性分類器可能會降低其性能。這些限制和假設(shè)需要在未來的研究中得到進(jìn)一步的探索和解決。

參考文獻(xiàn)：

[ 1 ]MCMAHAN B， MOORE E， RAMAGE D， et al.Communication-efficient learning of deep networks fromdecentralized data[C]// In Artificial Intelligence and Statistics.New York： PMLR， 2017， 50： 1273-1282.

[ 2 ]LONG G， TAN Y， JIANG J， et al. Federated learning foropen banking[M]//Federated Learning. [s.l.]： Springer，2020： 240-254.

[ 3 ]MENDIETA M， YANG T， WANG P， et al. Local learningmatters： Rethinking data heterogeneity in federated learning[C]// In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. New York：IEEE， 2022： 8397-8406.

[ 4 ]FANG X， YE M. Robust federated learning with noisy andheterogeneous clients[C]// In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.New York： IEEE， 2022： 10072-10081.

[ 5 ]LIN T， KONG L， STICH S U， et al. Ensemble distillationfor robust model fusion in federated learning[C]//NIP'20：Proceedings of the 34th International Conference on NeuralInformation Processing Systems. Vancouver： Neural InformationProcessing Systems Foundation， 2020： 2351-2363.

[ 6 ]LI T， SAHU A K， ZAHEER M， et al. Federated optimizationin heterogeneous networks[EB/OL]. （2020-07-16）[2021-08-09]. https：//proceedings.mlsys.org/paper_files//paper2020/file/1f5fe83998a09396ebe6477d9475ba0c-Paper.pdf.

[ 7 ]LI Q， HE B， SONG D. Model-contrastive federated learning[C]//IEEE/CVF Conference on Computer Vision andPattern Recognition. New York： IEEE， 2021： 10713-10722.

[ 8 ]MA X， ZHANG J， GUO S， et al. Layer-wised modelaggregation for personalized federated learning[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York： IEEE， 2022： 10092-10101.

[ 9 ]TAN Y， LONG G， LIU L， et al. Fedproto： Federated prototypelearning across heterogeneous clients[C]//AAAI Conferenceon Artificial Intelligence. Menlo Park： AAAI Press，2022， 1： 3.

[10]ZHOU K， LIU Z， QIAO Y， et al. Domain generalization： Asurvey[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence， 2022， 45： 4396-4415.

[11]LI D， YANG Y， SONG Y Z， et al. Deeper， broader and artierdomain generalization[C]//IEEE International Conferenceon Computer Vision. New York： IEEE， 2017： 5542-5550.

[12]MUANDET K， BALDUZZI D， SCH?LKOPF B.Domain generalization via invariant feature representation[C]//International Conference on Machine Learning. NewYork： PMLR， 2013： 10-18.

[13]LI H， PAN S J， WANG S， et al. Domain generalizationwith adversarial feature learning[C]//IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork： IEEE， 2018， 5400-5409.

[14]YOU K， LONG M， CAO Z， et al. Universal domain adaptation[C]//IEEE/CVF Conference on Computer Vision andPattern Recognition. New York： IEEE， 2019： 2720-2729.

[15]GANIN Y， LEMPITSKY V. Unsupervised domain adaptationby backpropagation[C]//International Conference onMachine Learning. New York： PMLR， 2015， 37： 1180-1189.

[16]BEN-DAVID S， BLITZER J， CRAMMER K， et al. Analysisof representations for domain adaptation[C]// Advancesin Neural Information Processing Systems. Vancouver，Canada： Neural Information Processing Systems Foundation，2006： 137-144.

[17]TZENG E， HOFFMAN J， SAENKO K， et al. Adversarialdiscriminative domain adaptation[C]//IEEE Conference onComputer Vision and Pattern Recognition. New York：IEEE， 2017： 7167-7176.

[18]CHU X， JIN Y， ZHU W， et al. Dna： Domain generalizationwith diversified neural averaging[C]//International Conferenceon Machine Learning. New York： PMLR， 2022： 4010-4034.

[19]RANGWANI H， AITHAL S K， MISHRA M， et al. Acloser look at smoothness in domain adversarialtraining[C]//International Conference on Machine Learning.New York： PMLR， 2022： 18378-18399.

[20]WANG R， HUANG W， SHI M， et al. Federated adversarialdomain generalization network： A novel machinery faultdiagnosis method with data privacy[J]. Knowledge BasedSystems， 2022， 256： 109880.

[21]NGUYEN A T， TORR P， LIM S N. Fedsr： A simple andeffective domain generalization method for federatedlearning[C]//Advances in Neural Information ProcessingSystems. New Orleans： Neural Information ProcessingSystems Foundation， 2022： 38831-38843.

[22]QU L， ZHOU Y， LIANG P P， et al. Rethinking architecturedesign for tackling data heterogeneity in federatedlearning[C]// In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. New York：IEEE， 2022： 10061-10071.

[23]KARIMIREDDY S P， KALE S， MOHRI M， et al. Scaffold：Stochastic controlled averaging for federated learning[C]//International Conference on Machine Learning. New York：PMLR， 2020： 5132-5143.

[24]ZHANG L， SHEN L， DING L， et al. Finetuning globalmodel via data-free knowledge distillation for non-iid federatedlearning[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork： IEEE， 2022： 10174-10183.

[25]CHENG A， WANG P， ZHANG X S， et al. Differentiallyprivate federated learning with local regularization andsparsification[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork： IEEE， 2022： 10122-10131.

[26]LIU Q， CHEN C， QIN J， et al. Feddg： Federated domaingeneralization on medical image segmentation via episodiclearning in continuous frequency space[C]//IEEE/CVFConference on Computer Vision and Pattern Recognition.New York： IEEE， 2021： 1013-1023.

[27]TAN A Z， YU H， CUI L， et al. Towards personalized federatedlearning[J]. IEEE Transactions on Neural Networksand Learning Systems， 2022， 34： 9587-9603.

[28]T DINH C， TRAN N， NGUYEN J. Personalized federatedlearning with moreau envelopes[C]// Advances in NeuralInformation Processing Systems. Vancouver， Canada：Neural Information Processing Systems Foundation， 2020：21394-21405.

[29]FALLAH A， MOKHTARI A， OZDAGLAR A.Personalized federated learning with theoretical guarantees：A model-agnostic meta-learning approach[C]// Advances inNeural Information Processing Systems. Vancouver，Canada： Neural Information Processing Systems Foundation，2020： 3557-3568.

[30]YANN L. The mnist database of handwrittendigits[EB/OL]. （1998-06-18） [1998-09-26]. http：//yann.lecun.com/exdb/mnist/.

[31]KRIZHEVSKY A， HINTON G. Learning multiple layers offeatures from tiny images [EB/OL]. （2009-01-28） [2009-07-19]. http：//www.cs.toronto.edu/～kriz/learning-features-2009-TR.pdf.

[32]HE K， ZHANG X， REN S， et al. Deep residual learning forimage recognition[C]//IEEE Conference on Computer Visionand Pattern Recognition. New York： IEEE， 2016： 770-778.

[33]VAN DER MAATEN L， HINTON G. Visualizing datausing t-SNE[J]. Journal of Machine Learning Research，2008， 9： 2579-2605.

（責(zé)任編輯：王曉麗）

基金項(xiàng)目：國家自然科學(xué)基金（62076094）；上海市科技計(jì)劃項(xiàng)目‘聯(lián)邦框架下跨域/跨任務(wù)增量學(xué)習(xí)方法研究’（21511100800）

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年6期

華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 基于數(shù)據(jù)庫方法的離子輻照用小沖桿試驗(yàn)的尺寸效應(yīng)研究; 基于改進(jìn)注意力機(jī)制的CNN 的齒輪箱故障診斷; 基于組稀疏優(yōu)化的強(qiáng)化學(xué)習(xí)稀疏表征; 基于局部和全局特征提取及多級特征聚合的中文方言識別模型; 一種基于StyleGAN 生成器的自監(jiān)督人臉正面化模型; 基于物理信息深度學(xué)習(xí)算法的Flame D 熱流場重構(gòu)研究