







摘 要:提出了一種名為注意力機制驅動的個性化聯邦學習特征分離方法(attention-driven feature separation method for personalized federated learning,FedAM),旨在解決傳統聯邦學習在高度異構數據環境下模型收斂性差和缺乏個性化解決方案的問題。FedAM通過將模型分解為特征提取層和模型頭部,加入注意力模塊以分別提取全局和個性化信息,從而實現全局與個性化特征的自適應動態分離。此外,FedAM 引入相關性對齊損失來平衡個性化與泛化能力。實驗結果表明,FedAM 展現出卓越的性能,不僅在客戶端頻繁掉線的情況下保持穩健表現,還通過靈活應對異構數據環境,顯著提升了個性化和泛化效果。FedAM 有效提升了聯邦學習模型的整體性能和適應性,為復雜的聯邦學習場景提供了有力支持。
關鍵詞:數據異構;注意力機制;參數分離;個性化聯邦學習
中圖分類號:TP181"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-018-1102-06
doi: 10.19734/j.issn.1001-3695.2024.09.0325
Attention-driven feature separation method for personalized federated learning
Zhang Xiaoqin1,2, Jin Xixing1, Lu Yanjun1, Cao Zeyu1
(1. School of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China; 2. Chongqing Communication Design Institute Co., Ltd., Chongqing 400041, China)
Abstract:This paper proposed an FedAM to address the challenges of poor model convergence and the lack of personalized solutions in highly heterogeneous data environments faced by traditional federated learning. FedAM achieved adaptive, dyna-mic separation of global and personalized features by decomposing the model into a feature extraction layer and a model head, with an added attention module to extract global and personalized information separately. Additionally, FedAM incorporated correlation alignment loss to balance personalization and generalization capabilities. Experimental results demonstrate that FedAM exhibits outstanding performance, maintaining robust results even with frequent client dropouts, and flexibly adapting to heterogeneous data environments, thereby significantly enhancing both personalization and generalization. FedAM effectively improves the overall performance and adaptability of federated learning models, providing strong support for complex federated learning scenarios.
Key words:data heterogeneity; attention mechanism; parameter separation; personalized federated learning
0 引言
在當今競爭激烈且隱私敏感的環境中,數據共享帶來了顯著的安全風險,為了解決各個機構或企業數據不能進行共享而引發的“數據孤島”問題,聯邦學習被提出。聯邦學習利用各個客戶端的本地資源(計算能力和數據)來協調構建高效模型,并且無須共享客戶端的隱私信息,文獻[1]提出的聯邦學習優化算法,可以調整數據可用性與隱私保護之間的關系,實現聯邦學習全局模型有效性、通信成本和隱私性的均衡。該過程由中央服務器協調,通過聚合來自客戶端的本地模型參數,生成新的全局參數,然后重新廣播至各個客戶端,并且不涉及客戶端數據傳輸。文獻[2~4]指出,數據的稀疏性使得傳統的聯邦學習方法難以為每個分布式客戶端的任務獨立訓練出有效的模型。
在實際應用中,如在醫療診斷中,各個醫療機構的數據通常是非獨立同分布的(non-independent identically distributed, Non-IID),不同的醫院有不同的患者群體和醫療設備,因此每個機構的數據特征都存在異構性。通過聯邦學習技術,多個醫療機構可以在不共享患者數據的情況下協同訓練診斷模型,從而保證患者隱私不被泄露。然而,傳統的聯邦學習方法通常采用單一的全局模型,難以適應各醫院的特定診斷需求,且不平衡。在處理高度異質數據時,傳統的聯邦學習方法難以充分適應每個客戶端的本地數據并取得高性能[5,6]。當前聯邦學習方法面臨著重大挑戰,包括在處理高度異質數據時收斂性差和缺乏個性化解決方案兩個主要問題[7]。
為了解決這些問題并滿足客戶端的個性化需求,個性化聯邦學習(personalized federated learning, PFL)[8]被提出。與傳統方法不同,PFL專注于為每個客戶端創建定制的模型,而不是單一的全局模型。大多數PFL技術通過將客戶端數據上訓練的本地個性化模型與全局模型進行聚合,來增強其本地個性化能力,即利用全局模型的全局信息來豐富客戶端本地的個性化模型。一般個性化聯邦學習的處理方法像這樣停留在一個完整的模型層面上。也有個性化聯邦學習方法對模型進行更加深層次的研究處理,將一個完整的模型分為全局和個性化兩部分,即將聯邦模型進行解耦,例如,FedPer[8]、FedRoD[9]和FedRep[10]等方法通過對模型解耦,將模型分為個性化模型和全局模型兩部分,通過服務器共享全局模型,保留個性化模型在客戶端本地的方法,使聯邦學習模型同時具有個性化能力和全局泛化能力。然而,這些只對模型進行分離的方法在處理客戶端的全局信息和個性化信息方面仍然存在不足。盡管模型參數是基于數據生成的,但由于模型參數是對原始數據的高度概括和壓縮,所以它們難以完整地保留和反映數據中的具體信息。這導致了全局信息和個性化信息在客戶端數據中的嵌入性無法被充分利用,在分離這些信息時存在局限性。
為了分離數據中的全局信息和個性化信息,本文提出一種注意力機制驅動的個性化聯邦學習特征分離方法(FedAM)。FedAM在對模型進行解耦的基礎上,同時對客戶端的數據特征進行全局信息和個性化信息的分離。由于客戶端中的原始數據維度較高,為提高處理效率,FedAM不直接對原始數據進行信息分離,而是對原始數據進行降維處理。具體而言,在每個客戶端中,利用本地模型的特征提取器對原始數據進行特征提取,并生成特征向量,從而將高維數據轉換為低維特征向量。之后,每個客戶端利用注意力模塊對特征向量進行處理,根據數據特征生成兩個不同的特征分離權重矩陣,通過這兩個不同的特征分離權重矩陣達到分離全局信息和個性化信息的效果。FedAM的詳細過程將在第2章中進行描述。
本文在廣泛使用的Non-IID場景[11]下對FedAM進行了全面實驗評估。在這些實驗中,FedAM持續優于先前研究者提出的算法。本文主要的貢獻包括:
a)提出了將聯邦學習模型參數解耦,并利用注意力機制驅動的個性化聯邦學習特征分離方法。在聯邦學習中利用注意力機制實現動態樣本特定特征信息的個性化分離,與現有聯邦學習方法中的模型參數解耦方法相比,該方法提供了更細粒度的處理。
b)為了平衡個性化聯邦學習模型的個性化和泛化能力,創新性地引入了相關性對齊損失用于特征對齊。
c)在計算機視覺領域進行了廣泛的實驗,展示了FedAM的有效性。FedAM顯著增強了跨客戶端的聯邦學習模型的個性化能力,同時不降低模型的全局泛化性能。
1 相關研究
1.1 個性化聯邦學習
聯邦學習(FL)能夠在分散的數據孤島中進行協作模型訓練,保護數據隱私。然而,在Non-IID場景下,傳統的聯邦學習算法,如FedAvg[12],容易出現客戶端偏移(client drift)的現象[13]。如圖1所示,設x*為f(x)的全局最優解,x*i為每個客戶端的損失函數fi(x)的最優解,即使所有客戶端都從同一個點x出發,每個yi仍會朝著其對應的最優解x*i移動。由于每個客戶端最優解更新的方向不一樣,唯一的全局最優解無法有效地在每個客戶端上收斂。
為了解決傳統聯邦學習中在處理高度異質數據時的收斂性差和每個客戶端缺乏個性化解決方案兩個主要問題,現如今已經有大量關于個性化聯邦學習的研究。基于元學習的方法,例如Per-FedAvg[14],從共享模型出發,該模型作為全局模型,適應每個客戶端的學習模式。基于正則化的方法,如pFedMe[15],通過Moreau包絡在本地為每個客戶端開發個性化模型。FedCL[16]則從持續學習中引入彈性權重鞏固(EWC)[17],在本地損失函數中突出參數的重要性。Li等人[18]提出了Ditto,通過一個可學習的全局模型來正則化本地模型。李可等人[19]提出FedMTO,在本地更新時結合正則化多任務學習策略,關注任務之間的相關性,減小不同本地任務間的差異,從而保證聯邦學習過程的公平性,同時也使用模型參數解耦的思想實現個性化聯邦學習。基于模型解耦的方法,FedPer[8]訓練了一個全局特征提取器和客戶端特定的頭部,并使用提取器在本地微調頭部。FedRep[10]將骨干網絡分為全局模型和客戶端特定的頭部,并在本地微調頭部以實現個性化。Chen等人[20]引入了結構化聯邦學習(SFL)框架,通過客戶端之間基于圖的結構信息來增強PFL中的知識共享。Yi等人[21]提出FedGH,通過在聯邦學習服務器上使用異構模型的提取器訓練一個共享的全局預測頭,從而提高了通信和計算效率,并將學習到的全局知識傳遞給客戶端替換其本地預測頭部。
以上這些PFL方法主要關注從模型結構中提取全局和個性化信息,而不是在根本層面上研究客戶端數據的內在差異。最近也有研究者從客戶端數據層面進行全局信息和個性化信息的分離研究,例如FedCP[22]通過為每個客戶端數據樣本生成一個條件策略,利用條件策略將全局信息和個性化信息分離,然后利用全局頭和個性化頭分別處理這些信息。文獻指出,從數據層面對客戶端個性化信息和全局信息處理相比在模型層面進行處理能夠達到更好的個性化聯邦學習效果,但是FedCP在全局信息和個性化信息的分離和平衡方面仍然有缺陷。
本文提出FedAM算法,通過注意力機制模塊分離全局信息和個性化信息,并利用相關性對齊損失對全局信息和個性化信息進行平衡,在相關實驗中,FedAM能夠達到更好的個性化聯邦學習效果。
1.2 注意力機制的應用
注意力機制是現代深度學習模型中的關鍵組件,在計算機視覺任務中,注意力機制被用于區分和提取圖像中的全局特征和個性化特征,進而提高模型的精度和適應性。在自然語言處理領域,注意力機制則幫助模型在處理分布差異較大的文本數據時,兼顧全局信息傳遞和個性化需求。它已廣泛應用于計算機視覺、自然語言處理等多個領域。這些應用為本文提出的注意力機制驅動的個性化聯邦學習特征分離方法(Fed AM)奠定了理論基礎。
傳統的聯邦學習方法在處理非獨立同分布(Non-IID)數據時,往往難以兼顧全局模型的泛化能力和每個客戶端模型的個性化需求,注意力機制為解決客戶端模型的個性化需求提供了有效途徑。注意力機制通過對輸入數據中的不同部分賦予不同權重,使模型能夠動態調整對全局信息和個性化信息的關注度,從而有效地分離這些信息,提升模型在不同客戶端之間的協同能力。
本文提出FedAM,將注意力模塊整合到聯邦學習方法中,并利用注意力模塊對客戶端全局和個性化特征信息進行分離,在MNIST、CIFAR-10、CIFER-100、Tiny-ImageNet數據集上進行的實驗顯示,FedAM相比于先前提出的聯邦學習方法的性能有顯著提升。
2 本文方法
2.1 聯邦學習概述
聯邦學習通常涉及多個不同的客戶端協作構建模型,而無須共享彼此的數據。設每個客戶端用于訓練模型的權重為w, Dk表示每個客戶端擁有的數據,其中包含樣本集合(xi,yi),L(xi,yi;w)表示模型的損失值,每個客戶端的本地優化函數為
fk(w)=1Dk∑iL(xi,yi;w)
(1)
則全局優化問題可由式(2)表示。
min F(w)=∑Kk=1DkDfk(w)
(2)
其中:D=∪kDk是所有客戶端數據的總和。
2.2 FedAM 概述
本文FedAM是一種注意力機制驅動的個性化聯邦學習特征分離方法,模型解耦處理方法,類似于FedPer、FedRep和FedRoD等采用模型參數分解的方法,同樣將骨干網絡最后一個全連接層(FC)指定為頭部(head),其余層則作為特征提取器(feature extractor)。其中特征提取器負責將輸入樣本映射到低維特征空間,即將數據轉換為特征向量;頭部則負責將低維特征空間映射到標簽空間,得到圖片分類結果。但是FedAM方法在模型參數解耦和處理全局與個性化信息方面相比之前的方法都具有更細粒度的處理。首先是在模型參數解耦方面,FedAM將模型解耦為全局特征提取器(Wfe)、全局頭部(Whd)、個性化特征提取器(Wfei)、個性化頭部(Whdi)以及注意力機制模塊(Att(Θi))五部分,如圖2(a)所示,相比之前的模型,解耦方法更加細致;其次還通過注意力機制對從客戶端數據中提取的特征向量進行處理,從數據層面對個性化信息和全局信息進行分離,而先前的模型只停留在對模型層的處理方面。
在每次迭代開始,服務器將下發全局模型參數(包括特征提取器、頭部和注意力機制模塊)至客戶端,如圖2(b)所示,使用服務器端Wfe和Whd分別初始化客戶端的Wfe、Wfei和Whd,同時凍結Wfe和Whd參數,保持全局模型參數不受影響,即在本地訓練過程中,這部分模型參數不會改變,達到保留全局泛化性信息的目的。而在客戶端的本地學習過程中,Wfei和Whdi參數會隨著模型在本地數據上的訓練而更新,是為了從客戶端原始數得到更符合客戶端特性的個性化信息。然而,通過Wfei生成的個性化特征即使在經過Att(Θi)處理,進行特征分離之后,仍然與凍結的Whd預期的特征分布差異過大,影響模型在最終分類任務中的性能。因此,通過相關性對齊損失(corral loss)[23]將Wfei輸出的特征hi與全局Wfe生成的特征h′i進行特征對齊,以平衡聯邦學習模型處理個性化信息和全局信息的能力。經過客戶端本地的多輪訓練迭代,Wfei、Whdi以及Att(Θi)得到更新,各個客戶端的Wfei,Att(Θi)直接上傳至中心服務器分別進行聚合,初始化下一周期訓練的Wfe和Att(Θi),Whdi則與Whd進行加權平均后上傳至服務器進行聚合,初始化下一周期訓練的Whd,全局模型參數經過中心服務器聚合得到更新。每次全局模型的更新都是基于客戶端的個性化學習反饋,這樣可以確保全局模型在不同客戶端的數據上能夠表現穩定。
圖2中的實線表示用于推理的個性化模型,包括個性化特征提取器Wfei、全局頭部Whd、個性化頭部Whdi和注意力機制模塊Att(Θi)。在模型測試過程中,凍結的特征提取器Wfe保持不活躍,僅在訓練期間用于本地學習。
2.3 FedAM 算法
FedAM通過將模型解耦為全局特征提取器和個性化特征提取器,結合注意力機制,實現全局信息與個性化信息的動態分離。全局特征提取器的參數在訓練過程中保持凍結,確保其在所有客戶端上提供一致的全局知識,避免在個別客戶端數據上過擬合。個性化特征提取器和頭部則根據本地數據進行動態優化,以確保每個客戶端的個性化需求得到滿足。通過相關性對齊損失,FedAM能夠在全局信息和個性化信息之間找到平衡,使得各客戶端的個性化模型既能充分利用全局知識,又能滿足本地優化需求。具體來說,客戶端數據首先通過特征提取器生成包含個性化和全局特征的特征向量。然后,本文引入了注意力機制模塊,動態關注與當前任務最相關的輸入部分,從特征向量中分離出個性化信息和全局信息。在分離過程中,通過相關性分析來平衡損失,以實現個性化與全局泛化能力的調和。最終得到具有個性化能力的聯邦學習模型。FedAM算法的偽代碼如算法1所示。
算法1 FedAM算法
輸入:客戶端數量N;初始化的全局特征提取器Wfe,0;初始化的全局頭部Whd,0;初始化全局注意力模塊Θ0;客戶端本地模型學習率η;客戶端參與率ρ;總迭代訓練次數T。
輸出:客戶端個性化學習模型W1,…,WN,全局模型WT。
//服務器執行
服務器下發Wfe,0、Whd,0、Θ0,初始化客戶端全局特征提取器Wfe,個性化特征提取器Wfei,客戶端全局頭部Whd,注意力模塊Θi,i∈[N]。
for iteration t = 0,…,T do
服務器根據ρ隨機選取It個參與訓練的客戶端
服務器下發Wfe,t、Whd,t和Θt至選取的客戶端
for client i∈It in parallel do
/*客戶端i初始化模型:使用Wfe,t覆蓋Wfe、Wfei,同時凍結Wfe;使用Whd,t覆蓋Whd,同時凍結Whd;使用Θt覆蓋Θi;生成新的具有客戶端樣本特征的向量vi。*/
//客戶端訓練,客戶端,同時更新Wfei、Whdi、Θi
Wfei←Wfei-ηSymbolQC@Wfeifloss;
Whdi←Whdi-ηSymbolQC@Whdfloss
Θi←Θi-ηSymbolQC@Θifloss
客戶端i由式(7)獲得hdi
客戶端i上傳Wfei、hdi、Θi至服務器
end for
//服務器聚合
服務器計算nt=∑i∈Itni,并且得到:
Wfe,t+1=1nt∑i∈ItniWfei;
Whd,t+1=1nt∑i∈Itnihdi;
Θt+1=1nt∑i∈ItniΘi;
Wt+1←{Wfe,t+1,Whd,t+1,Θt+1}
end for
return W1,…,WN(客戶端個性化學習模型),WT(全局模型)
2.3.1 注意力驅動的特征信息分離方法
本文在聯邦學習模型設計中增加Att(Θi)模塊,該模塊由兩個線性層、ReLU層和softmax層組成。在每個參與聯邦學習的客戶端中,使用式(3)生成樣本特定的特征信息分離矩陣:
{ri,si}=Att(Ci;Θi)
(3)
表示通過注意力機制處理上下文信息Ci,獲得用于分離個性化信息和全局信息的兩個不同的權重矩陣ri和si,并且rki+ski=1,k∈[K],其中Ci由特征向量hi經過處理后得到。Att(Θi)模塊輸入Ci和輸出(ri,si)的具體獲取細節如下:
Ci是從數據樣本的特征hi中引入了客戶端特定的個性化信息的上下文信息。接下來主要描述如何引入客戶端特定的個性化信息。首先,個性化頭部Whdi中的權重參數自然蘊涵客戶端的特定信息,并且Whdi為模型的最后一層全連接層,那么Whdi的第k列對應著hi中的第k個特征。在本文中,將Whdi矩陣向量化,通過式(4)縮減Whdi維度轉換為向量vi,方便與hi進行操作。
vi=∑Cc=1wTc
(4)
其中:wc是Whdi的第c行,通過這種變換,得到一個與hi具有相同形狀和相同特征語義的客戶端特定向量vi,然后通過式(5)結合樣本特定的hi得到上下文參數矩陣:
Ci=(vi/‖vi‖2)⊙hi
(5)
其中:‖vi‖2表示vi的L2范數;⊙表示Hadamard積。在每次客戶端本地迭代訓練前獲取vi,在迭代訓練過程中vi不更新參數,在推理的過程中獲取最新的vi。
通過將注意力權重矩陣ri、si分別與hi相乘,得到全局特征信息ri⊙hi和個性化特征信息si⊙hi,其中rki∈(0,1)和ski∈(0,1)。利用注意力機制聚焦于客戶端更重要的特征,使用該注意力機制處理Ci生成權重矩陣si,并且在FedAM算法中,Att(Θi)模塊最后一層為softmax,則令ri=1-si。因此,對于所有k∈[K], rki∈(0,1), ski∈(0,1), rki+ski=1。
在得到全局信息ri⊙hi 和個性化si⊙hi 后,分別將其投入Whd和Whdi進行處理,得到全局頭輸出outri=g(ri⊙hi;Whd)和個性化頭的輸出outsi=g(si⊙hi;Whdi)。模型的最終輸出在本文定義為 outi:=outri+outsi。接著,客戶端模型損失表示為
FedAM算法中對于每個客戶端樣本,上傳服務器的特征提取器(hdi)由參數Whd和Whdi進行加權求和得到,如式(7)所示。
hdi=λWhdi+(1-λ)Whd
(7)
其中:0≤λ≤1,在本文實驗中λ=0.6,在每次迭代后,系統將 {Wfei,hdi,Θi} 上傳到服務器,如圖2(b)所示。
2.3.2 相關性對齊損失
個性化特征提取器輸出的特征hi最終要經過凍結的全局頭部,然而,由于個性化特征提取器在不斷利用客戶端數據進行訓練和參數更新,這可能導致其輸出的特征與全局頭部預期的特征產生較大偏差。本文提出利用相關性對齊損失,用于將個性化特征提取器輸出的特征hi與全局特征提取器輸出的特征h′i對齊,從而平衡全局特征信息與客戶端個性化特征信息之間的差異。具體的相關性對齊損失定義如式(8)所示。
(8)
其中:f(xi;Whdi)和f(xi;Whd)分別是輸入xi在模型 Whdi和Whd下的特征輸出;cov(f(xi;Whdi),f(xi;Whd))是特征f(xi;Whdi)和f(xi;Whd)的協方差;σ(f(xi;Whdi))、σ(f(xi;Whd))是特征f(xi;Whdi)和f(xi;Whd)的標準差;N是樣本數量;M是特征數量。最終可以得到客戶端本地損失為floss=εi+εcor。
3 實驗分析
3.1 實驗設定
本文通過多個圖像分類任務評估了FedAM的性能,所使用的數據集包括四個廣為人知的基準數據集MNIST[24]、CIFAR-10[25]、CIFAR-100[26]和Tiny-ImageNet[27],其中Tiny-ImageNet包含100 000張圖像,涵蓋200個類別。在這些實驗中,模型采用了4層卷積神經網絡(CNN)[28]。此外,本文還在Tiny-ImageNet上測試了ResNet-18,以評估FedAM在更復雜的骨干網絡上的表現。在實驗中,對于4層CNN模型,客戶端的本地學習率設定為η=0.005,而對于ResNet-18模型,學習率設定為η=0.1。為了模擬現實世界中的Non-IID數據分布[29],本文采用了狄利克雷分布Dir(β)來控制數據集的分布,通過調整參數 β來控制數據的Non-IID特性,從而模擬不同客戶端之間的數據分布差異。具體而言,根據Dir(β)將數據樣本分配給各個客戶端。在默認情況下,β設為0.1,圖3展示了在這一設定下20個客戶端上,MNIST數據集的分布情況。
每個客戶端的數據被分為訓練數據集(75%)和測試數據集(25%),初始默認設置本地批次大小為10,本地學習周期為1,所有任務均進行2 000次迭代直至收斂,客戶端數量設置為20,并將客戶端聯邦學習參與率設定為ρ=1,即全部正常參與聯邦學習。
3.2 主要實驗結果與分析
表1顯示了FedAM在使用4層CNN基礎模型對MNIST、CIFAR-10、CIFAR-100和Tiny-ImageNet數據集進行訓練時的表現,以及在使用ResNet-18基礎模型對Tiny-ImageNet數據集進行訓練時的結果。從表1可以看出,FedAM在所有任務中的表現均優于其他基線方法。產生更優實驗結果的分析如下:FedAvg算法的表現較差,這是因為它僅訓練了一個單一的全局模型,無法充分適應各客戶端的本地數據。FedAvg直接將各客戶端的特征傳遞到中心服務器進行加權平均,而未考慮個性化信息,這限制了它的性能。相較之下,FedAM能夠有效區分并分別處理全局信息和個性化信息,從而顯著提升了模型的表現。雖然FedPer和FedRep對模型進行了部分解耦,僅共享特征提取器,但由于它們忽略了處理模型頭部參數的信息,導致在性能上不如FedAM。FedRoD試圖通過學習兩個具有不同目標的頭部來彌合傳統聯邦學習(FL)和個性化聯邦學習(PFL)之間的差距。然而,由于這兩個頭部的目標相互競爭,FedRoD未能有效解決這個問題,所以其表現遜于FedAM。盡管FedCP和FedAM都關注特征提取器和頭部信息,FedAM在個性化信息的分離和全局與個性化信息的平衡方面,方法更為先進,因此在性能上表現更優。
3.3 計算通信開銷對比
在本次實驗中,對每種方法在訓練過程中達到收斂所需的總時間和迭代次數進行了統計,并計算了每次迭代的平均時間消耗,結果如表2 所示。盡管 FedRep、FedCP和FedAM 方法由于個性化模型的額外訓練,整體計算開銷有所增加,但實驗結果表明,FedAM 每次迭代的時間消耗低于最新的基線方法 FedRep 和 FedCP。尤其是在使用 ResNet-18 進行訓練時,FedAM 的通信開銷僅增加了 1.35%,而其準確率卻顯著提高了 16.21%。這一結果表明,FedAM 能在提升模型精度的同時,保持較低的時間開銷,展現了其在個性化聯邦學習中的高效性與優越性。
3.4 客戶數量的可擴展性
在其他條件不變的非獨立同分布(Non-IID)場景下,本文額外進行了四組實驗(N=10,N=30,N=50,N=100),以研究FedAM的可擴展性。由于 CIFAR-100 數據集的總量固定,隨著客戶端數量的增加,單個客戶端的本地數據量平均減少,導致部分客戶端的數據變得稀疏,使得模型擬合變得更加困難,增加了訓練的復雜性。
在這種情況下,一些PFL(如 FedPer 和 FedRoD)的性能在客戶端數量 N=100 時,較 N=10時顯著下降,因為數據的高度分散阻礙了模型的有效訓練。然而,正如表3 所示,盡管客戶端數量的增加導致了數據稀疏,FedAM 仍然在所有基線方法中表現最佳,相對于先前最先進的算法,在N=10、N=30、N=50和N=100的四種情況下分別提升了3.30%、4.16%、6.85%和3.32%,展示了其出色的擴展性。這表明,FedAM 能夠在應對數據不均衡和稀疏性時,保持優異的性能,并適應大規模客戶端環境下的個性化需求。
為模擬現實世界場景,在聯邦學習訓練過程中可能出現客戶端丟失的情況。本文基于CIFAR-100(β=0.1,ρ=1,N=50|50)設置,進行了三組實驗:分別從現有的50個客戶端中隨機選擇10個或30個客戶端,形成CIFAR-100(β=0.1,ρ=1,N=10|50)和CIFAR-100(β=0.1,ρ=1,N=30|50)的兩組實驗數據。從表4 中可以看出,隨著客戶端數量的增加,更多的數據被用于訓練全局共享模型,這有助于加強客戶端之間的信息傳遞,從而提升整體模型的性能。具體而言,FedAM 的準確率隨著客戶端數量的增加呈現穩步提升,從 48.35% 增長至 58.02%,并最終達到 62.49%。這一結果表明,更多客戶端的參與使得全局模型能夠更好地捕捉跨客戶端的共享信息,從而提高了個性化聯邦學習的整體表現。
當僅從50個客戶端中隨機選取10個客戶端參與訓練時,雖然FedAM的性能略遜于FedCP,但仍明顯優于其他基線方法。在其他兩個場景下,FedAM表現最佳,展示了其在處理客戶端數據分散問題上的優越性。
3.5 較大的本地訓練周期
通過增加每輪本地訓練的次數,可以減少通信迭代的總次數。在本次實驗中,在本地訓練次數分別為5、10、20和40次的情況下,對各個算法在 CIFAR-10 上的分類性能進行了對比,結果如表5 所示。即使在本地訓練次數為5和10的情況下,FedAM仍然保持了其顯著的優勢。大多數方法在更大本地訓練次數下表現不佳,主要原因是大量的本地訓練加劇了客戶端模型之間的差異,從而影響了服務器的聚合效果。例如,當本地訓練次數從5增加到40時,FedRoD 的準確率下降了2.2百分點,FedAM 的準確率下降了4.14百分點,但是FedAM 的準確率仍然高于大多數算法。實驗結論表明,FedAM 在較少的本地訓練次數時能夠更好地發揮其性能優勢,證明了其在增加本地訓練周期的情況下,仍能保持優異的分類效果。
4 結束語
為了解決聯邦學習中由于數據異構性導致的收斂性差以及缺乏有效的個性化聯邦學習(PFL)解決方案的問題,本文提出了一種基于注意力機制驅動的個性化聯邦學習特征分離方法(FedAM)。通過利用注意力機制聚焦于重要的客戶特征,FedAM將這些特征分為全局特征信息和個性化特征信息,并分別由全局頭部和個性化頭部進行處理。此方法實現了聯邦學習模型的個性化處理,同時平衡了全局信息與個性化信息之間的關系,并通過相關性對齊損失進行優化。因此,FedAM在數據分布差異較大的非獨立同分布(Non-IID)場景中表現出色。在MNIST、CIFAR-10、CIFAR-100和Tiny數據集上的大量實驗表明,FedAM在大多數情況下優于現有的PFL方法。個性化聯邦學習的一個重要應用領域是醫療診斷系統。FedAM通過將全局信息與個性化信息分離,使得各醫院可以共享全局診斷知識,同時針對本地數據進行個性化優化,提升醫療系統的整體診斷準確率和各醫院的個性化診斷能力。然而,本文的工作仍然存在一些不足。首先,本文僅在客戶端模型和數據方向上考慮了個性化處理,而未在服務器端處理各個客戶端模型之間的差異,這可能會限制模型在高度異構的數據環境下的適應性。其次,FedAM雖然在本地訓練次數較少時表現優異,但在增加本地訓練次數后,其性能可能會有所下降,如何在不同本地訓練次數下保持穩定的性能仍需進一步研究。因此,未來的改進方向可以考慮在服務器端實現對各個客戶端模型之間差異信息的處理和聚合,以進一步提高FedAM在更廣泛場景下的適用性和魯棒性。此外,還可以探索如何在不同的本地訓練設置下保持算法的穩定性,以提升模型的整體表現。
參考文獻:
[1]胡智勇, 于千城, 王之賜, 等. 基于多目標優化的聯邦學習進化算法 [J]. 計算機應用研究, 2024, 41(2): 415-420, 437. (Hu Zhiyong, Yu Qiancheng, Wang Zhici, et al. Federated learning evolutionary algorithm based on multi-objective optimization [J]. Application Research of Computers, 2024, 41(2): 415-420, 437.)
[2]Kairouz P, McMahan H B, Avent B,et al. Advances and open problems in federated learning [J]. Foundations and Trends in Machine Learning, 2021, 14(1-2): 1-210.
[3]Li Tian, Sahu A K, Talwalkar A, et al. Federated learning: challenges, methods, and future directions [J]. IEEE Signal Processing Magazine, 2020, 37(3): 50-60.
[4]Tan A Z, Yu Han, Cui Lizhen,et al. Towards personalized federated learning [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(12): 9587-9603.
[5]Huang Yutao, Chu Lingyang, Zhou Zirui,et al. Personalized cross-silo federated learning on non-IID data[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2021: 7865-7873.
[6]Dinh C T, Tran N H, Nguyen T D. Personalized federated learning with Moreau envelopes [EB/OL]. (2020-06-16). https://arxiv.org/abs/2006.08848.
[7]Li Xinchun, Zhan Dechuan, ShaoYunfeng, et al. FedPHP: federated personalization with inherited private models[C]// Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer, 2021: 587-602.
[8]Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers [EB/OL]. (2019-12-02). https://arxiv.org/abs/1912.00818.
[9]Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C]// Proc of International Conference on Machine Learning.[S.l.]: PMLR, 2021: 2089-2099.
[10]Chen Hongyou, Chao Weilun. On bridging generic and personalized federated learning for image classification[C]//Proc of International Conference on Learning Representations. 2022.
[11]Li Qinbin, He Bingsheng, Song D. Model-contrastive federated lear-ning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 10708-10717.
[12]McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data [EB/OL]. (2016-02-17). https://arxiv.org/abs/1602.05629.
[13]Karimireddy S P, Kale S, Mohri M,et al. SCAFFOLD: stochastic controlled averaging for federated learning [EB/OL]. (2019-10-14). https://arxiv.org/abs/1910.06378.
[14]Martínez Beltrán E T, Pérez M Q, Sánchez P M S, et al. Decentra-lized federated learning: fundamentals, state of the art, frameworks, trends, and challenges [J]. IEEE Communications Surveys amp; Tutorials, 2023, 25(4): 2983-3013.
[15]Fallah A, Mokhtari A, Ozdaglar A, et al. Personalized federated learning with theoretical guarantees[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 3557-3568.
[16]Yao Xin, Sun Lifeng. Continual local training for better initialization of federated models[C]//Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press, 2020: 1736-1740.
[17]Kirkpatrick J, Pascanu R, Rabinowitz N,et al. Overcoming catastrophic forgetting in neural networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526.
[18]Li Tian, Hu Shengyuan, Beirami A,et al. Ditto: fair and robust fe-derated learning through personalization [EB/OL]. (2020-12-08). https://arxiv.org/abs/2012.04221.
[19]李可, 王曉峰, 王虎. 面向異構數據的個性化聯邦多任務學習優化方法 [J]. 計算機應用研究, 2024, 41(9): 2641-2648. (Li Ke, Wang Xiaofeng, Wang Hu. Personalized federated multi-task learning optimization method for heterogeneous data [J]. Application Research of Computers, 2024, 41(9): 2641-2648. )
[20]Chen Fengwen, Long Guodong, Wu Zonghan,et al. Personalized fe-derated learning with graph [EB/OL]. (2022-04-30). https://arxiv.org/abs/2203.00829.
[21]Yi Liping, Wang Gang, Liu Xiaoguang,et al. FedGH: heterogeneous federated learning with generalized global header[C]//Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 8686-8696.
[22]Zhang Jianqing, Hua Yang, Wang Hao,et al. FedCP: separating feature information for personalized federated learning via conditional po-licy[C]//Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2023: 3249-3261.
[23]SunBaochen, Saenko K. Deep CORAL: correlation alignment for deep domain adaptation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 443-450.
[24]LeCun Y, Bottou L, Bengio Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 2002, 86(11): 2278-2324.
[25]Krizhevsky A. Learning multiple layers of features from tiny images [EB/OL].(2024-12-02). https://doi.org/10.57702/zp44cu3g.
[26]Chrabaszcz P, Loshchilov I, Hutter F. A downsampled variant of ImageNet as an alternative to the CIFAR datasets [EB/OL]. (2017-07-27). https://arxiv.org/abs/1707.08819.
[27]Geiping J, Bauermeister H, Drge H,et al. Inverting gradients- how easy is it to break privacy in federated learning?[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 16937-16947.
[28]Luo Mi, Chen Fei, Hu Dapeng,et al. No fear of heterogeneity: classifier calibration for federated learning with non-IID data [EB/OL]. (2021-06-09). https://arxiv.org/abs/2106.05001.
[29]Lin Tao, Kong Lingjing, Stich S U,et al. Ensemble distillation for robust model fusion in federated learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 2351-2363.