基于DBSCAN聚類的聯(lián)邦學習算法優(yōu)化

2025-07-06 00:00:00王國明李苗苗

安徽理工大學學報·自然科學版 2025年2期

關(guān)鍵詞：模型

引文格式：，.基于DBSCAN聚類的聯(lián)邦學習算法優(yōu)化[J].理工大學學報（自然科學版），2025，45（2）：92-99.DOI：10. 3969/j. issn.1672-1098. 2025.02.012

中圖分類號：TP391 文獻標志碼：A 文章編號：1672-1098（2025）02-0092-08

Federated Learning Algorithm Optimization Based on DBSCAN Clustering WANG Guoming，LI Miaomiao

（School ofComputerScienceandEngineering，Anhui UniversityofScienceand Technology，HuainanAnhui 232Ool，China） Abstract：Objective In federated learning，each node generates its own local data independently，resulting in heterogeneity between the data.During the training，heterogeneity can cause a gradient drift in the local model generated by federated learning，whichdecreases the accuracy and convergence speed of the federated learning model. Methods To address this isse，a federated learning optimization algorithm were introduced based on DBSCAN clustering，denoted as FLDC，which utilized the DBSCAN algorithm for clustering and grouping local clients.The client data distribution within the layer was similar.Additionally，it utilized a hierarchical sampling method to select clients from each layer and created a subset of clients，improving the diversity of training dataand ensuring thatthe clientdata samples in the subset reflected the global data distribution characteristics.Results Experiments on MNIST and CIFAR-1O showed that FLDC achieved 0.29% to 8.38% higheraccuracyand faster convergencecompared to the benchmark algorithm.Conclusion FLDC efectively reduces the impact of heterogeneous data on model performance in heterogeneous scenarios.

Key Words ： machine learning; federated learning; data heterogeneity； clustering

為了應(yīng)對集中式機器學習中必須要求用戶數(shù)據(jù)共享的挑戰(zhàn)，Google提出了聯(lián)邦學習（FederatedLearning，F(xiàn)L）[1]。FL能夠保證各參與方在不共享數(shù)據(jù)的前提下，進行隱私保護下的聯(lián)邦建模[2]然而，由于物聯(lián)網(wǎng)設(shè)備的處理能力和架構(gòu)不同，以及用戶的使用習慣和個人愛好不同，這導致了數(shù)據(jù)的非獨立同分布（NonIndependentandIdenticallyDistribution，Non-IID）性質(zhì)，即數(shù)據(jù)異構(gòu)性。數(shù)據(jù)異構(gòu)場景下的算法優(yōu)化成為FL研究的重要方向之一。在數(shù)據(jù)異構(gòu)環(huán)境下，F(xiàn)L面臨著一系列挑戰(zhàn)，包括客戶端數(shù)據(jù)差異性大、模型不可復用等問題。文獻[3]提出在中央服務(wù)器上創(chuàng)建一個與總體分布相同的共享數(shù)據(jù)集，以減輕數(shù)據(jù)異構(gòu)的影響。然而，該方法違背了FL初衷，且存在潛在的用戶隱私泄露風險。文獻「4-6利用全局模型與本地模型的差異性來指導本地模型的更新方向，并且通過控制模型參數(shù)的更新來提高模型準確度

在FL訓練過程中，客戶端的選擇是一個關(guān)鍵的階段。優(yōu)秀的客戶端意味著他們擁有高質(zhì)量的數(shù)據(jù)樣本，對全局模型的訓練產(chǎn)生更大的貢獻，從而加速模型的收斂速度。因此，越來越多的研究人員開始選擇對FL的客戶端選擇進行優(yōu)化。文獻[7]提出一種基于客戶端信息更新量的客戶端選擇策略，在通信受限的情況下選擇具有顯著權(quán)重更新的客戶端子集，保證模型精度的同時，減少不必要的通信；文獻[8-9]通過制定一種標準來篩選能夠執(zhí)行FL任務(wù)的客戶端;文獻[10]提出一種基于多標準的客戶端選擇方法FedMCCS，評估所有客戶端的CPU、內(nèi)存、能耗和時間資源；文獻［11-12]提出個性化處理方法，為客戶端設(shè)備生成多個全局模型，然而該方法并不適用于只需要單個模型的場景；文獻[13-14]提出通過對客戶端節(jié)點聚類的方式將各節(jié)點劃分到不同的簇中，提升簇內(nèi)數(shù)據(jù)的相似度，為每個聚簇訓練一個模型，減輕了數(shù)據(jù)不同分布帶來的影響；文獻［15]提出使用K-Means方法進行聚類分簇的客戶端選擇方法，然而使用K-Means聚類方法無法排除離群點的干擾，可能受到惡意節(jié)點的攻擊。

因此，提出一種基于DBSCAN聚類的聯(lián)邦學習算法優(yōu)化（federated learning algorithm optimiza-tion based on DBSCAN clustering，F(xiàn)LDC），依據(jù)客戶端的數(shù)據(jù)分布特征將所有客戶端劃分到不同的邏輯層，并從每個層中選取一定比例的客戶端參加訓練。這種方法可以更精確地反應(yīng)全局數(shù)據(jù)的分布情況，使參與訓練的客戶端數(shù)據(jù)分布更加均勻和多樣化，提高全局模型的效果并加快收斂速度。

基于聚類分層的聯(lián)邦學習算法

1.1 DBSCAN聚類算法

DBSCAN[16]（Density - Based Spatial ClusteringofApplicationswithNoise）是一種常用的基于密度的聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇，能夠在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀和大小的簇，并且能夠識別和標記離群點

定義1（Eps 鄰域） q 為給定空間中的兩點， p 的Eps 鄰域點集表示為 N_Eps（p）。

（1）式中， D 為樣本數(shù)據(jù)集， dist（p，q）為 p 與 q 之間的距離。

定義2（密度閾值 MinPtsΩ）一個點的鄰域中必須包含的最少數(shù)據(jù)點數(shù)量為 MinPts 。

定義3（核心點和邊界點）如果 p 在其Eps 鄰域內(nèi)所包含的點個數(shù)大于密度閾值 MinPts ，即 N_Eps （p）?MinPts ，則稱 p 為核心點;如果 N_Eps（p）lt; MinPts ，但 p 在某個核心點的 Eps 鄰域內(nèi)，則稱 p 為邊界點。在圖1中，若 MinPts=6 ，Eps為 r，p 就是核心點， q 就是邊界點。

Eps和MinPts兩個參數(shù)的選擇對DBSCAN算法的聚類效果至關(guān)重要。因此，為了確保實驗的準確性和一致性，為達到最佳聚類效果，將MinPts統(tǒng)一設(shè)定為4。Eps參數(shù)則是通過繪制 k -dist圖來確定。k-dist圖是一種用于可視化數(shù)據(jù)集中數(shù)據(jù)點之間距離關(guān)系的圖形表示方法。具體來說，可以計算出每個點到距其第 k 近的點的距離，然后將這些距離按降序或升序排序后繪制變化曲線圖，拐點處對應(yīng)的距離即為Eps的值（見圖2）。

如圖2所示，將MNIST數(shù)據(jù)集分配給100個客戶端，并進行了一次本地訓練。隨后，整理了包含本地數(shù)據(jù)特征的100個局部模型參數(shù)，并繪制出對應(yīng)的 k -dist圖。圖2中橫坐標表示距離的序號，縱坐標表示距離的值。通過觀察圖中的拐點，確定其對應(yīng)的縱坐標Eps值是1.59。

K-means聚類方法相比，DBSCAN算法無需預(yù)先設(shè)定簇的數(shù)量，并且具備識別噪聲數(shù)據(jù)的能力，相較于層次聚類，DBSCAN的計算復雜度更低，且其參數(shù)設(shè)置更為直觀，易于理解和調(diào)整。因此，結(jié)合FLDC算法的研究場景，選擇DBSCAN算法作為聚類方法。

1. 2 聯(lián)邦學習框架

聯(lián)邦學習的計算環(huán)境通常包括中央服務(wù)器（Server）、參與方（Client）和所屬的本地數(shù)據(jù)（Da-ta）。聯(lián)邦學習的基本框架圖如圖3所示，其執(zhí)行過程可概括為：

1）模型初始化中央服務(wù)器初始化全局模型，并下發(fā)給所有參與方；2）局部模型更新參與方接收中央服務(wù)器共享的全局模型參數(shù)，利用本地數(shù)據(jù)進行訓練，更新局部模型;

3）局部模型上傳參與方將更新后的局部模型參數(shù)上傳給中央服務(wù)器，等待下一步的聚合操作；

4）全局模型聚合中央服務(wù)器收集所有上傳的局部模型信息，加權(quán)求和更新全局模型，將新的全局模型參數(shù)分發(fā)給下一輪參與訓練的參與方。重復此過程，直至訓練出符合要求的全局模型

在這個過程中，每個參與方根據(jù)各自擁有的本地數(shù)據(jù)獨立訓練，互不干擾。除了接受來自中央服務(wù)器下發(fā)的全局參數(shù)，參與方之間不能共享數(shù)據(jù)信息，在一定程度上保護了參與方數(shù)據(jù)的隱私安全。

1.3基于聚類分層的客戶端選擇

傳統(tǒng)的聯(lián)邦學習算法通過隨機選擇獲得的客戶端數(shù)據(jù)無法準確地反映整體數(shù)據(jù)的分布特性，進而影響了聯(lián)邦學習訓練的質(zhì)量。為了實現(xiàn)客戶端采樣的均衡性，提出采用DBSCAN算法進行聚類，并結(jié)合分層選擇策略來進一步優(yōu)化客戶端的篩選流程。

首先，所有參與方在獲得初始化模型后，根據(jù)各自擁有的數(shù)據(jù)進行一次訓練，得到含有本地數(shù)據(jù)特征的局部模型，并將模型參數(shù)信息上傳至中央服務(wù)器。隨后，服務(wù)器采用DBCSCAN算法執(zhí)行聚類分層，得到所有參與方的層標簽列表，并根據(jù)這些標簽將所有參與方劃分為不同的層。在每個通信輪次內(nèi)，每個層按照一定比例隨機選擇一部分客戶端，形成參與訓練的客戶端子集。最后，服務(wù)器采用加權(quán)聚合的方法更新全局模型（見圖4）。

整個流程如算法1所示。

算法1FLDC算法

輸入客戶端集合 s ，客戶端本地數(shù)據(jù) X ，通信輪次 C ，本地訓練輪次 E ，客戶端參與比例 r ，初始化全局模型 w⁰ 。

輸出全局模型 w_t 服務(wù)器端*／

1.for each client k∈S in parallel do 2. w^k← ClientUpata （X_k，w⁰） //客戶端更新本

地模型 3.

//DBSCAN聚類分層 4.while C-1gt;0 do//每個通信輪次，按層隨

機選擇 5.for each T_i∈T do//T為層集合 6. nums max（r?T_i，1）（204 7. S_t← random subset of nums clients in T_i//S_t

為參與訓練的客戶端子集 8.for each client k∈S_t in parallel do 9.

10. /加權(quán)聚合全局模型， n 為總數(shù)據(jù)量， n_k 為客戶端 k 的數(shù)據(jù)量

/*客戶端*/

11.ClientUpdata （X_k，w） //執(zhí)行本地更新

12. β← （ split X_k into batches of size B ）

13.for each local epoch e from 1 to E do

14.for batch b∈β do

15. ww-η?L（w;b） //

16. Return w to server

步驟 1～步驟10是在服務(wù)器端執(zhí)行的操作；步驟1、2是服務(wù)器下發(fā)初始化模型，客戶端收到初始化模型后，根據(jù)本地數(shù)據(jù)執(zhí)行一次局部模型更新，并將更新后的模型參數(shù)上傳到服務(wù)器；步驟3中服務(wù)器采用DBSCAN算法執(zhí)行聚類操作，將客戶端劃分到不同的邏輯層中；步驟4＼～步驟7，在每個層中按照比例 r 隨機選擇客戶端，組成客戶端子集；步驟8＼～步驟10中服務(wù)器接收來自客戶端子集的模型更新參數(shù)，并采用加權(quán)平均的方式聚合成為全局模型，步驟 11～步驟16是在客戶端執(zhí)行的操作。被選中參與訓練的客戶端根據(jù)各自的本地數(shù)據(jù)進行多輪迭代學習和訓練，并將更新后的模型參數(shù)發(fā)送回服務(wù)器

2 實驗結(jié)果及分析

2.1 數(shù)據(jù)集和模型

1）MNIST數(shù)據(jù)集包含10個類別，共計70000個樣本，每個類別包含7000個樣本，其中6000個用于訓練，1000個用于測試。每個樣本都是一張28×28 像素的黑底白字的手寫數(shù)字圖片。在MNIST數(shù)據(jù)集上，采用由1個卷積層、1個最大池化層和3個全連接層組成的神經(jīng)網(wǎng)絡(luò)模型。

2）CIFAR-10數(shù)據(jù)集包含10個類別，共計60000個樣本，每個類別包含6000個樣本，其中5000個用于訓練，1000個用于測試。每個樣本都是一張 32×32 像素的RGB圖像。在CIFAR-10數(shù)據(jù)集上，采用由2個卷積層、2個平均池化層和2個全連接層組成的神經(jīng)網(wǎng)絡(luò)模型。

2.2 實驗設(shè)置

為了驗證所提算法在異構(gòu)環(huán)境下的有效性，實驗選擇FedAvg[17]、FedProx、IFCA[18]作為對比算法。其中，F(xiàn)edAvg算法是經(jīng)典的聯(lián)邦學習算法，采用隨機選擇客戶端的方式進行聯(lián)邦訓練；FedProx算法是一個基于FedAvg的優(yōu)化框架，在本地增加了一個近端項，用來強制減少局部模型和全局模型之間的模型差異；IFCA算法是一個迭代式聯(lián)邦聚類算法。

為了模擬實驗所需的客戶端數(shù)據(jù)異構(gòu)分布，采用狄利克雷分布（Dirichletdistribution）對數(shù)據(jù)集進行劃分。在狄利克雷分布中，參數(shù) ∝ 的取值會影響概率密度函數(shù)的形狀。在實驗中，當 α 接近1時，數(shù)據(jù)分布越趨向于均勻分布，當 α 接近0時，則趨向于非獨立同分布。實驗設(shè)置了3個不同的 α 值 α=1，α=0.7 和 α=0.3 以評估算法在同構(gòu)數(shù)據(jù)和不同程度異構(gòu)數(shù)據(jù)上的性能表現(xiàn)

參數(shù)設(shè)置如下：實驗中共涉及100個客戶端，每輪參與訓練的客戶端比例為0.2，batchsize設(shè)定為64，epochs設(shè)定為5，學習率設(shè)為0.01。對比實驗中，在MNIST數(shù)據(jù)集上的通信輪次為50，CI-FAR-10數(shù)據(jù)集上的通信輪次為100。

2.3 實驗結(jié)果及分析

數(shù)據(jù)異構(gòu)環(huán)境下，聯(lián)邦學習中的客戶端各自擁有本地數(shù)據(jù)，基于本地數(shù)據(jù)的局部模型在迭代過程中會朝著不同的更新方向移動，導致聚合后的全局模型準確率降低。在本實驗中，針對兩個不同的數(shù)據(jù)集，分別模擬了3種不同的數(shù)據(jù)分布場景。通過實施多輪迭代訓練，收集了4種算法在全局模型訓練上的性能表現(xiàn)，結(jié)果如表1和表2所示。由表1MNIST數(shù)據(jù)集上4種算法的全局模型測試精度隨著 α 的增加而減小。同時，由表2CIFAR-10數(shù)據(jù)集上4種算法的全局模型測試精度也會隨著 α 的增加而減小。與MNIST數(shù)據(jù)集不同的是，由于CI-FAR-10數(shù)據(jù)集噪聲更大，因此其分類準確率較低。在MNIST數(shù)據(jù)集上， α 從1減少到0.3時，F(xiàn)edAvg、FedProx、IFCA算法的模型精度分別下降了 6.56%.5.05%.4.28% ，F(xiàn)LDC僅下降了 3.55% ：在CIFAR-10數(shù)據(jù)集上， α 從1減少到0.3時，F(xiàn)edAvg、FedProx、IFCA算法的模型精度分別下降了4.22%.4.96%.4.54% ，F(xiàn)LDC僅下降了 3.35% 。

綜合實驗結(jié)果，與其他3種算法相比，F(xiàn)LDC在2種數(shù)據(jù)集上的分類準確度都取得了最高值，證明了提出算法的有效性。這是因為FLDC采用DBSCAN算法聚類分層后，并不是為每層訓練一個模型，而是從每層選擇客戶端，利用所有被選擇客戶端的數(shù)據(jù)訓練一個全局模型。這種方式確保了訓練數(shù)據(jù)的分布特征具有全局代表性，豐富的數(shù)據(jù)能夠有效提升訓練模型的泛化性，減少異構(gòu)數(shù)據(jù)帶來的影響，從而提高FLDC的模型效果。

α=0.3 時，4種算法在MNIST數(shù)據(jù)集上的全局模型準確度隨通信輪次的變化趨勢見圖5， α= 0.3時，4種算法在CIFAR-10數(shù)據(jù)集上的全局模型準確度隨通信輪次的變化趨勢見圖6。可以看出，與FedAvg、FedProx、IFCA算法相比，F(xiàn)LDC擁有更高的穩(wěn)定性和更快的收斂速度。相較于MNIST數(shù)據(jù)集，4種算法在CIFAR-10數(shù)據(jù)集上的波動幅度更為顯著，這是因為在噪聲較多的情況下，模型的參數(shù)更新會出現(xiàn)較大的波動，導致模型準確度隨通信輪次的變化波動增大。相較于其他3種算法，F(xiàn)LDC使用的DBSCAN算法在聚類分層過程中會將數(shù)據(jù)質(zhì)量較差的客戶端標記為噪聲點，在選擇客戶端時不予考慮。這一機制確保了每次局部更新時，訓練輪次中的客戶端子集都擁有均勻多樣且高質(zhì)量的數(shù)據(jù)樣本，從而有效提升了全局模型的穩(wěn)定性和收斂速度。

在進行模型的算法開銷分析時，考察了Fe-dAvg、FedProx、IFCA和FLDC4種算法在達到特定目標準確度時所需的通信輪數(shù)。表3展示了這些算法在MNIST數(shù)據(jù)集上達到 84% 準確度以及在CIFAR-10數(shù)據(jù)集上達到 42% 準確度時的通信輪數(shù)需求。結(jié)果表明，F(xiàn)LDC算法在MNIST數(shù)據(jù)集上僅需12輪通信即可實現(xiàn) 84% 的準確度，而在CI-FAR-10數(shù)據(jù)集上，F(xiàn)LDC同樣展現(xiàn)出較低的通信輪數(shù)需求。

相比之下，F(xiàn)edAvg和FedProx算法沒有特別針對異構(gòu)環(huán)境進行優(yōu)化，所以需要更多的通信輪次來達到相同的準確度。IFCA算法需要在每輪迭代中進行模型聚類和選擇，這會導致更多的通信和計算資源消耗。FLDC算法的主要優(yōu)勢在于只需要進行一次聚類分層，有效減少了不必要的通信和計算開銷。在CIFAR-1O數(shù)據(jù)集上FLDC算法達到42% 模型精度所需的通信輪數(shù)僅比IFCA算法少一輪。這表明，在處理更復雜的數(shù)據(jù)集時，其計算效率仍有待提高。

2.4 消融實驗

1）最優(yōu)聚類算法DBSCAN 算法與K-means算法是2種常用的聚類方法，通過對這兩種算法的聚類效果進行深入分析，以確定最適合本課題研究需求的聚類方法。圖7呈現(xiàn)了在 α 值分別設(shè)定為0.7和0.3的條件下，CIFAR-10數(shù)據(jù)集被分配給100個客戶端后，前20個客戶端的數(shù)據(jù)分布情況。可以看出，隨著數(shù)據(jù)異構(gòu)性的增強，客戶端之間的數(shù)據(jù)分布呈現(xiàn)出更加顯著的不均勻性。

圖7不同異構(gòu)設(shè)置下的前20個客戶端的數(shù)據(jù)標簽分布

圖8DBSCAN算法和K-means算法在CIFAR-10數(shù)據(jù)集上的聚類結(jié)果統(tǒng)計（ α=0.7 ）

之后，分別應(yīng)用DBSCAN算法和 K- means算法對100個客戶端進行聚類分層。圖8的子圖（a）和圖8（b）分別呈現(xiàn)了 α=0.7 時DBSCAN算法和K-means算法的聚類結(jié)果統(tǒng)計。

圖8（a）中DBSCAN算法將100個客戶端劃分為“0”“1”、“2”、“3”4個不同的類別，標記為“-1”的類別代表異常數(shù)據(jù)點。類別“2”的客戶端數(shù)據(jù)點表現(xiàn)出較高的密度，這是因為在 α=0.7 時，狄利克雷分布導致的客戶端數(shù)據(jù)傾向于均勻分布。這種分布特性導致大部分客戶端的數(shù)據(jù)具有相似的特征，DBSCAN算法在聚類過程中會把它們歸為同一類別。依據(jù)DBSCAN算法的聚類結(jié)果，將K-means算法簇的數(shù)量（ K 值）設(shè)置為4，圖8（b）中展示了聚類后的客戶端類別統(tǒng)計。相比之下，K-means算法雖然能夠?qū)?shù)據(jù)點分配到不同的簇中，但它缺乏對噪聲點的識別和標記功能。此外，K-means算法要求用戶預(yù)先設(shè)定簇的數(shù)量，并且往往需要通過多次試驗來調(diào)整 K 值，以達到最佳的聚類效果，這一過程可能會消耗大量的計算資源

為了量化評估兩種算法的聚類效果，采用輪廓系數(shù)作為評價指標。如表4所示，在兩種不同的數(shù)據(jù)異構(gòu)條件下，DBSCAN算法的平均輪廓系數(shù)分別為0.65和0.62，均比K-means算法的0.62和0.61更接近于1。綜合考慮聚類效果和計算效率，選擇DBSCAN算法作為本課題的聚類方法

2）最優(yōu)Eps參數(shù)值DBSCAN 算法無需預(yù)先指定聚類數(shù)量，簇的數(shù)量直接由算法運行后的結(jié)果確定。而DBSCAN算法的聚類效果在很大程度上依賴于兩個關(guān)鍵參數(shù)：Eps（鄰域半徑）和MinPts（最小點數(shù)）。為了驗證通過繪制 k -dist圖計算的Eps值最佳，采用輪廓系數(shù)評估不同Eps值設(shè)置下DBSCAN算法的聚類效果。

實驗基于CIFAR-10數(shù)據(jù)集進行。在 α=0.7 時，通過k-dist圖得到的Eps值為1.49，人為設(shè)置了4個不同的Eps值（1.29，1.39，1.59，1.69）進行對比實驗。同樣，在 α=0.3 的條件下， k-dist 圖得到的Eps值為1.59，也設(shè)置了4個Eps值（1.39，1.49，1.69，1.79）作為對比。實驗結(jié)果的平均輪廓系數(shù)分別記錄在表5中。實驗數(shù)據(jù)表明，兩種異構(gòu)條件下，Eps的值分別為1.49和1.59時，計算出的平均輪廓系數(shù)最接近理想值1。這說明通過繪制 k -dist圖計算Eps參數(shù)值是合理的，能夠確保DBSCAN算法在不同數(shù)據(jù)分布條件下均能獲得最佳的聚類效果。

3 總結(jié)與展望

針對聯(lián)邦學習在異構(gòu)環(huán)境中模型精度下降的問題，提出了一種基于DBSCAN聚類的聯(lián)邦學習優(yōu)化算法FLDC。在聯(lián)邦學習的客戶端選擇階段，該算法采用DBSCAN算法對客戶端節(jié)點聚類分層，通過分層抽樣提高訓練中客戶端數(shù)據(jù)的多樣性，減少異構(gòu)數(shù)據(jù)對模型性能的影響。實驗結(jié)果表明，F(xiàn)LDC算法具有較高的模型精度，并且擁有更高的穩(wěn)定性和收斂速度。

然而，隨著大數(shù)據(jù)時代的發(fā)展，聯(lián)邦學習面臨的數(shù)據(jù)環(huán)境會更加多變，在未來的工作中，將關(guān)注如何在聯(lián)邦學習的全局模型聚合階段縮小局部模型的更新梯度差異，以及權(quán)重合理分配的問題，從多方面優(yōu)化聯(lián)邦學習算法的性能

參考文獻：

[1] 肖雄，唐卓，肖斌，等.聯(lián)邦學習的隱私保護與安全防御研究綜述[J].計算機學報，2023，46（5）：1019-1044.

[2] 王健宗，孔令煒，黃章成，等.聯(lián)邦學習隱私保護研究進展[J].大數(shù)據(jù)，2021，7（3）：130-149.

[3] ZHAO Y，LI M，LAI L，et al.Federated learning with non-iid data[J/OL].arXiv.org，2022.[2022-7-21]. https：//arxiv. org/abs/1806.00582.

[4] LI T，SAHU A K，ZAHEER M，etal. Federated optimization in heterogeneous networks[J/OL].arXiv. org，2022.[2020- 4-21]. https：//arxiv. org/abs/1812.06127.

[5] KARIMIREDDY S，KALE S，MOHRI M，et al. SCAFFOLD：stochastic controlled averaging for federated learning[C]//Proceedings of the 37th International Conference on Machine Learning. New York： ACM， 2020：5 132-5143.

[6] 陸曉.一種提高聯(lián)邦學習準確度的算法[J].信息技術(shù)與信息化，2023（8）：180-183.

[7] RIBEROM，VIKALOH.Communication-efficientfederated learning via optimal client sampling[J/OL]. arXiv. org，2022.[2020-7-13]. https：//arxiv.org/abs/2007. 15197.

[8] ZHENG C，AHSAN A，SYED Z，et. al. TiFL：a tierbased federated learning system[C]//Proceedings of the 29th International Symposium on High-Performance Parallel and Distributed Computing. New York： ACM， 2020：125-136.

[9]NISHIO T，YONETANI R. Client selection for federated learning with heterogeneous resources in mobile edge [C]// 2019 IEEE International Conference on Communications. Singapore： IEEE，2019：1-7.

[10]ABDULRAHMAN S，TOUT H，MOURAD A，et al. FedMCCS：multicriteria client selection model for optimal IoT federated learning[J].IEEE Internet of Things Journal，2021，8（6）：4 723-4 735.

［11］夏雨，崔文泉.基于Reptile的個性化聯(lián)邦學習算法 [J].計算機系統(tǒng)應(yīng)用，2022，31（12）：294-300.

[12] 倪宣明，沈鑫圓，張海.面向異構(gòu)數(shù)據(jù)的自適應(yīng)個性化聯(lián) 邦學習- 一種基于參數(shù)分解和持續(xù)學習的方法[J]. 中國科學：信息科學，2022，52（12）：2306-2 320.

[13］魯晨陽，鄧蘇，馬武彬，等.基于DBSCAN聚類的集群聯(lián)邦學習方法[J].計算機科學，2022，49（S1）： 232-237.

［14］常黎明，劉顏紅，徐恕貞.基于數(shù)據(jù)分布的聚類聯(lián)邦學習[J].計算機應(yīng)用研究，2023，40（6）：1697-1701.

[15]MUHAMMAD K，WANG Q，TRAGOS E，et al. FedFast： going beyond average for faster training of federated recommender systems[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Virtual：ACM SIGKDD， 2020：1 234-1 242.

[16]陳葉旺，曹海露，陳誼，等.面向大規(guī)模數(shù)據(jù)的DBSCAN加速算法綜述［J].計算機研究與發(fā)展，2023， 60（9）：2 028-2 047.

[17]BRENDAN M H，MOORE E，RAMAGE D，et al. Communication-efficient learning of deep networks from decentralized data[C]//Proceedings of the 2Oth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale：JMLR，2017：1 273-1 282.

[18]GHOSH A，CHUNG J，YIN D，et al. An efficient framework for clustered federated learning[J]. IEEE Transactions on Information Theory，2022，68（12）：8 076-8 091.

（責任編輯：李麗）