基于匹配的模型卸載邊緣聯邦學習方法

2025-03-09 00:00:00顧永跟張呂基吳小紅陶杰

計算機應用研究 2025年1期

摘要：針對邊緣計算環境下聯邦學習中因資源異質性導致的“滯后者”效應等問題，提出基于匹配的模型卸載邊緣聯邦學習方法（Fed-MBMO）。該方法通過收集邊緣設備的性能分析結果，將設備分別劃分為強、弱客戶端，考慮了模型訓練的四個階段時間占比，弱客戶端通過凍結部分模型以節省在特征層上反向傳播的時間，并將模型卸載至“強客戶端”進行額外的訓練，最后將強客戶端模型的特征層與弱客戶端的全連接層進行模型重構。為提高模型卸載效率，綜合考慮模型特征層的相似度與任務完成時間構建了卸載成本矩陣，并將問題轉換為迭代求解基于二部圖的最優匹配問題，提出基于Kuhn-Munkres（KM）的模型卸載算法并進一步分析了Fed-MBMO算法的時間復雜度。實驗結果表明，在資源與數據極端異質的情況下，該方法能夠加速模型收斂，模型訓練時間與FedAvg、FedUE和Aergia相比分別平均減少46.65%、12.66%、38.07%。實驗結果證明了所提的Fed-MBMO算法能夠有效解決“滯后者”效應問題并顯著提高聯邦學習效率。

關鍵詞：聯邦學習；滯后者效應；模型卸載；強弱匹配；資源異質性；模型重構；邊緣計算

中圖分類號：TP393"" 文獻標志碼：A

文章編號：1001-3695（2025）01-020-0139-10

doi： 10.19734/j.issn.1001-3695.2024.06.0199

Match-based model offloading for edge federated learning

Abstract：Aiming at problems such as the “straggler effect” caused by resource heterogeneity in federated learning in edge computing environments， this paper proposed a match-based model offloading for edge federated learning （Fed-MBMO） . This method collected performance analysis results of edge devices， divided devices into strong and weak clients， and considered the time proportion of the four phases of model training， weak clients saved the time of backpropagation on the feature layers by freezing part of the model， and offload the model to the strong client for additional training， finally， the strong clients’ feature layers were then reconstructed with the weak clients’ fully connected layers. In order to improve the efficiency of model offloading， the offloading cost matrix is constructed by comprehensively considering the similarity of model feature layers and task completion time， and transform the problem into an iterative solution of the optimal matching problem based on bipartite graph， the proposed approach used a KM-based model offloading algorithm and further analyzed the time complexity of the Fed-MBMO algorithm. Experimental results show that in the case of extremely heterogeneous resources and datasets， this method can accelerate model convergence， and the model training time can be reduced by an average of 46.65 percent， 12.66 percent and 38.07 percent compared to FedAvg， FedUE and Aergia， respectively. The experimental results show that the Fed-MBMO algorithm can effectively solve the “straggler effect ”problem and significantly improve the efficiency of federated learning.

Key words：federated learning; stragglers’ effect; model offloading; strong and weak matching; resource heterogeneity; model reconstruction; edge computing

0 引言

在如今的5G時代下，數億的物聯網（IoT）設備（如傳感器、攝像頭、智能手機）從環境中收集原始數據，并將數據上傳至云端處理，再通過互聯網進行傳輸[1]。根據華為在2020年發布的《全球聯接指數白皮書》中指出的數據，到2025年終端設備的連接數量將會達到一千億之多，而物聯網帶來的經濟附加值也會多達11.1 萬億美元[2]。然而，集中式的云計算架構如今面臨著巨大的挑戰，2025年物聯網設備將會產生79.4 ZB的數據，如此驚人的數據量需要大量的帶寬和計算資源，而邊緣計算能夠在更靠近數據產生源頭的網絡邊緣提供IT服務和云計算能力，用戶也可以享受超低延遲和高帶寬帶來的高質量服務[3]。

物聯網的快速發展導致網絡邊緣生成的數據呈指數級增長，集中式地處理數據在物聯網時代仍面臨極高的通信和存儲開銷，也更加容易引發隱私泄露問題，帶來數據安全隱患[4]。為應對這一問題，歐盟在2018年出臺了通用數據保護條例（GDPR）[5]，中國則于2021年通過了《個人信息保護法》。面對政策和法規的監管，Google在2016年提出的聯邦學習（federated learning）則成為解決數據孤島和隱私問題的最佳方案[6]。具體而言，它允許各參與方在不共享數據的前提下進行合作建模，每個客戶端在本地訓練模型，僅上傳模型參數至中央服務器，服務器加權聚合后生成全局模型，因此既保護隱私，又符合數據安全法規。

邊緣聯邦學習（edge federated learning）作為邊緣智能的一個分支，它將邊緣計算與聯邦學習相結合，能夠在大規模網絡和異構設備中使用AI技術并進行通信，是一種能夠在多個邊緣設備中訓練機器學習模型的有效方法[7，8]。隨著邊緣設備傳感能力和計算能力的顯著提高，許多物聯網設備可以在網絡邊緣中對數據進行預測和分類，聯邦學習這一技術則可以使客戶端在不交換原始數據的條件下完成訓練，例如在智能醫療保健中涉及敏感數據，對于可穿戴設備用戶例如智能手表，他們需要在設備上訓練模型，用于預測心臟病發作等情況[9]。或者一架無人機可以觀察來往車輛進行訓練，通過聯邦學習的方法，其他無人機無須觀察車輛即可學習到相關的特征[10]。

然而，物聯網設備的異構特性降低了模型訓練的效率[11]。連接到聯邦學習中央服務器的物聯網設備可能具有不同的計算能力，這些因計算能力較弱需要長時間進行訓練的設備，稱為“滯后者”（stragglers）[11～17]。目前，大多數聯邦學習的實現依賴于同步訓練來確保良好的收斂性能，同步訓練要求服務器在所有設備都完成訓練后才能將客戶端的模型加權聚合。因此，中央服務器必須等待最慢的設備完成訓練，在這種情況下，隨著計算能力差異和集群規模的增加，總訓練時間的延遲將逐漸擴大。減少訓練時間在邊緣聯邦學習領域意義重大。例如在車載智能設備中，邊緣智能設備中的聯邦學習模型可以用于識別道路上的障礙物、行人和其他車輛等信息。通過減少訓練時間，模型可以更快地適應新的交通狀況，從而提高實時響應速度，降低事故風險[18]。在可穿戴設備中，健康檢測設備可以更快地檢測健康風險，并及時提供醫療建議[9]。另一方面，由于物聯網設備的功能和采樣頻率存在差異，這些設備間的數據通常是非獨立同分布的（non-independent and identically distri-buted，Non-IID）[19，20]。這種Non-IID帶來的統計異質性挑戰會顯著影響邊緣聯邦學習的準確性。

減少滯后者的訓練時間對于提高訓練效率，增強用戶體驗，提升實時應用的可擴展性至關重要。因此，為了加速在資源和數據異構的物聯網下的聯邦學習訓練過程，本文提出了一種基于匹配的模型卸載邊緣聯邦學習方法（Fed-MBMO）。首先，通過在不同CNN上注冊Hook回調計時函數，本文分析了神經網絡模型在不同階段的耗時比例，基于此分析，提出凍結弱客戶端的特征層以節省反向傳播的時間。此外，提出簡單高效的滯后者鑒別方法，該方法根據模型訓練速度將客戶端劃分為強客戶端和弱客戶端，并基于此為每個客戶端制定模型卸載策略。最后，將模型卸載問題建模為基于二部圖的強弱匹配問題，以提高異構物聯網環境下的聯邦學習訓練效率，本文具體貢獻如下：

a）提出模型卸載策略以減輕“滯后者”效應。指出計算能力較弱的邊緣設備是邊緣聯邦學習訓練效率的瓶頸。通過分析模型訓練的四個階段，采用凍結模型的方法省去反向傳播特征層階段，從而減少“滯后者”的訓練時間，顯著提高聯邦系統訓練的效率。

b）設計基于二部圖的強弱匹配算法。通過運行性能分析程序，將客戶端劃分為強客戶端和弱客戶端，并將問題建模為基于二部圖的最優匹配問題。根據任務完成時間與模型特征層相似度構建成本矩陣，尋找最優匹配，并減少極弱客戶端的訓練量。該算法能夠綜合考慮預期完成時間與全局模型精度，優化訓練過程。

c）通過模擬實驗驗證算法的有效性。采用Docker容器化技術和分布式并行訓練框架對邊緣聯邦學習進行模擬實驗。對比分析了權重參數與CPU設置對算法性能的影響。實驗結果表明，所提方法在保證精度的前提下，有效減少“滯后者”訓練時間，基于KM算法的迭代匹配算法能夠平衡預期完成時間與全局模型精度的要求，并在Non-IID條件下有不錯表現。

1 相關工作

現代物聯網設備的傳感器每天會實時監測并產生大量的數據。例如自動駕駛汽車需要構建交通模型以確保安全運行。用于預測心臟病發作等健康風險的可穿戴設備[9]，隨著人們對個性化建模和保護用戶隱私需求的增加，McMahan等人[6]提出了聯邦學習這一方法，而分布式網絡設備的計算和存儲能力的增長，為聯邦學習的實施提供了支持。

然而，將聯邦學習應用到實際的邊緣設備上訓練時會出現一個嚴重的問題，即“滯后者”效應（如圖1所示）。當服務器將相同結構的模型和相同的工作負載部署到異構設備時，由于這些設備的計算資源（例如CPU/GPU頻率、內存大小等）不同，在計算能力較弱的設備上進行局部訓練將花費更長時間。雖然單純地將“滯后者”排除出訓練可以在一定程度上緩解這一問題，但“滯后者”往往保留著不同的數據集，這些數據集中可能包含獨特和關鍵的特征，直接丟棄會損壞全局模型性能[21]，因此，通過減少“滯后者”效應，全局模型性能也會受益[22]。

針對此問題，現有研究提出了多種解決方案。Ji等人[23]提出邊緣輔助聯邦學習（EAFL），提出將“滯后者”部分計算卸載到邊緣服務器并利用其強大的計算能力輔助訓練。“滯后者”通過上傳一定量的數據來減少模型更新延遲。服務器首先分析客戶端的信道狀態信息（CSI），并將其建模為基于閾值的延遲最小化問題。隨后，作者將非凸問題解耦為凸問題并求解以確定客戶端應上傳的數據量。EAFL在一定程度上緩解了“滯后者”效應，但作者假設完美信道狀態信息并不現實，且卸載策略的求解時間過長，上傳數據量的做法也違背了聯邦學習保護數據隱私的初衷。Chai等人[24]提出基于層的聯邦學習（TIFL），通過自適應地選擇每輪訓練時間相似的客戶端，根據分析的訓練時間對設備進行分組，基于TIFL的自適應客戶端選擇算法從同一層中隨機選擇客戶端。雖然TIFL通過選擇具有相似訓練時間的客戶端，減輕了資源異質性的問題，但是采用隨機選擇的策略，無視了組內客戶端之間數據分布的差異，影響了全局模型的精度。

通過分析發現滯后者效應的本質是時間發散問題，減少每一輪中客戶端的時間發散就會減輕滯后者效應，Zang等人[15]提出了一種基于用戶設備物理屬性的分組方法，并抽取同組內的客戶端，但是此方法會導致客戶端等待時間不穩定。而Zeng等人[14]提出深度強化學習方法來學習網絡條件和客戶端的能力，并為訓練強度較低（較高）的客戶端分配較少（更多）的本地訓練輪次。同樣作為減少訓練量的做法，Guo等人[13]提出FedCore，以分布式的方式直接在每個客戶端上創建核心集，并把將核心集優化問題轉為更易處理的K-medoids聚類問題。

Cox等人[25]提出凍結慢客戶端模型并將其傳遞給計算資源更豐富的客戶端進行訓練的方法（Aergia）。但是作者僅考慮數據集的標簽分布之間的EMD距離來衡量數據集間的相似度，忽略了其他的Non-IID類型，如特征分布偏斜、數量偏斜等[26]。Aergia上傳數據集標簽分布至Intel SGX飛地，但是此項技術難以大規模應用，且數據集分布在一定程度上仍然會泄露隱私。許多研究通過異步聚合減輕“滯后者”效應[12，27]，客戶端可以獨立異步地進行通信和模型更新，其中Zhang等人[27]提出異步并行聯邦學習機制（Asynchronous PFL），指出訓練效率低下的原因在于服務器依賴所有客戶端上傳的本地更新，以及客戶端依賴服務器全局聚合后的模型，為了提高訓練效率，邊緣設備的本地訓練過程和中心服務器的聚合應同時進行。然而“滯后者”過長的本地訓練時間才是降低訓練效率的主要原因。雖然異步訓練確實減輕了“滯后者”效應，但是也會造成全局模型的僵化，并導致全局模型向更新頻率更高的邊緣設備偏斜[13，14，28]。

基于上述研究，本文設計了一種基于匹配的模型卸載邊緣聯邦學習方法，針對邊緣計算環境下聯邦學習中出現的“滯后者”效應問題，提出了一種高效鑒別“滯后者”的方法。該方法將所有設備劃分為強、弱客戶端，并建立一個基于二部圖的強、弱匹配問題，構建任務完成時間及特征層相似度的成本矩陣，結合二分查找和KM算法迭代求解最優匹配，制定相應的卸載策略，在資源與數據極端異質的環境下提高聯邦系統訓練效率的同時保證了全局模型精度。

2 系統模型

在傳統聯邦學習架構中，如圖1所示，多個客戶端連接到一個中央服務器。服務器首先將模型廣播至邊緣設備，然而由于不同邊緣設備具有不同的底層硬件架構和軟件實現，所以完成相同任務量的模型訓練所需要的時間也有所不同。有研究表明，解決“滯后者”效應的瓶頸已從通信階段轉到移動設備的計算能力上[29]。因此，本文假設客戶端之間能夠相互通信，其帶寬和通信延遲保持穩定，并且客戶端都是誠實的。

2.1 邊緣聯邦學習框架

聯邦學習的目標是在邊緣設備上的數據集學習一個全局模型，通過與中央服務器定期通信更新全局模型，目標通常是最小化目標函數：

但是由于系統中會存在許多計算能力較弱的慢速設備（以下稱為弱客戶端）。當所有客戶端執行相同小批量的訓練后，其性能分析結果會發送至服務器，服務器根據其性能分析結果將所有客戶端劃分為強客戶端和弱客戶端。設C=C1，C2，…，Cn為所有參與聯邦學習的邊緣設備的集合，n為客戶端總數。客戶端被劃分為強、弱客戶端S=Cs1，Cs2，…，CsS和W=Cw1，Cw2，…，CwW，其中S∩W=。

2.2 模型訓練階段

本文模型采用卷積神經網絡（CNN），卷積神經網絡由提取特征的卷積層與起“分類器”作用的全連接層構成。每當小批量的數據集進入網絡訓練時，需要經過以下四個階段：a）前向傳播卷積層（FF）；b）前向傳播全連接層（FC）；c）反向傳播全連接層（BC）；d）反向傳播卷積層（BF）。如圖2所示。

前向傳播是指數據輸入通過網絡的各層逐層傳遞，經過權重和激活函數的計算，最終產生輸出結果的過程。反向傳播則是一種通過逆向計算梯度信息以更新網絡參數的優化算法，目的是最小化預測值與實際值之間的差距。通過在不同數據集上的CNN注冊捕獲時間的Hook計時函數，測量四個階段耗費的時間，發現第四階段反向傳播卷積層是最為耗時的，占總訓練時間的比例高達52.02%～59.56%，如圖3所示。

2.3 問題建模

設客戶端k的待執行訓練的小批量數目為SRBk，對一個小批量數據完成一次訓練的四個階段耗時為

tk=tFFk+tFCk+tBCk+tBFk（2）

弱客戶端省去耗時最長的BF階段，其耗時變化為t′k=tk－tBFk。則凍結模型后的弱客戶端w的一輪本地訓練總時間為Tw=tw·sd+t′w·ss，其中sd為弱客戶端w在本地完整訓練的小批量數，ss為模型凍結后僅訓練前三個階段的小批量數。輔助弱客戶端w訓練的強客戶端s的本地訓練時間為Ts=ts·SRBs+ts·re，其中ts·SRBs為強客戶端本地訓練的時間， ts·re為接收到弱客戶端w卸載的模型后進行額外訓練的時間。為減少訓練時間的同時保證客戶端訓練量以提高模型精度，設匹配運行時間Tmedianw，s為相互匹配的強、弱客戶端原運行時間的中值：

為提高訓練效果，強弱客戶端都應在指定運行終止時間內“盡力而為”，弱客戶端應在完成所有批次數據訓練的條件下盡可能多地完成完整的訓練，強客戶端盡可能幫助弱客戶端在本地數據集上進行模型訓練。在提高訓練效率的同時保證模型的訓練效果，因此弱客戶端w需要調整sd與ss的比例以達到Tmedianw，s時間限制要求，而強客戶端s需要輔助w額外執行re數目的小批量訓練。因此，一對強弱客戶端（w，s）的模型卸載策略（sd，ss，re）可表示成以下問題：

s∈S）}，M為所有可行匹配的集合，為最小化一輪訓練的時間，需要尋找一個匹配使得最小化最遲完成時間，即：

問題式（9）需要在一個可行匹配的集合M中尋找一個最優匹配m使得一輪的聯邦學習時間最短，則問題式（9）轉換為在最小化最大任務完成時間的同時，最小化相互匹配的客戶端之間的模型相似度差異，問題目標為

其中：α∈［0，1］；Scale為最大最小歸一化函數。

問題的難點在于最小化最大完成時間的同時，最小化匹配客戶端之間模型特征層相似度的差異。由于完成時間項不是一個累加值，無法用已有的算法直接進行最優匹配求解。

為解決上述問題，接下來將回答以下關鍵問題：

a）如何鑒別系統中的滯后者以及合理地劃分強、弱客戶端？

b）弱客戶端模型卸載的具體流程是什么，強客戶端如何協助弱客戶端進行額外訓練？

c）如何尋找最少的任務完成時間和與其相應最小的成本之和的匹配，并分析Fed-MBMO算法的時間復雜度？

3 客戶端劃分和模型卸載策略

為了鑒別“滯后者”，本文提出一種性能分析方法。邊緣設備通過執行相同任務量的訓練，并統計完成時間。服務器收集到完成時間后能夠了解各個邊緣設備的計算能力，從而識別拖慢整個聯邦學習過程的“滯后者”。

具體地，服務器隨機選擇邊緣設備加入邊緣聯邦學習，并將全局模型發送至邊緣設備。首先邊緣設備需在本地模型上注冊Hook回調計時函數，每當客戶端對最后一層卷積層求導和前向傳播時第一層全連接層時，都會進行計時。在執行固定數量的小批量訓練（本文中設定為100次mini-batches）后，邊緣設備可以分別統計FF，FC，BC，BF階段平均耗時，并將性能分析結果包含模型參數發送至服務器進行分析，以便作出決策。

服務器在獲取所有被選邊緣設備的性能分析結果后，計算其預期剩余運行時間，并由此得出中值運算時間（median compute time，MCT）。預期剩余運行時間小于等于MCT的客戶端為強客戶端，而預期運行時間大于MCT的客戶端則被定義為弱客戶端，即“滯后者”。Aergia[25]將平均運算時間當作目標完成時間容易造成弱客戶端遺漏，中值在邊緣設備計算能力分布偏斜的情況下更能反映大多數邊緣設備的典型計算能力。因此，本文將MCT當作劃分強、弱客戶端的標準。

根據式（4）可得出，強弱客戶端都需接近其匹配運行時間Tmedianw，s，弱客戶端需要凍結模型特征層并停止反向傳播階段（BF階段），以此節省訓練時間，并將模型卸載至強客戶端。強客戶端在收到卸載的模型后，繼續在此模型上進行額外的訓練。然而本文在實驗中發現，即使某些弱客戶端在接收到服務器指令后立即凍結模型特征層，它們仍然會拖慢整個訓練進程，即某些弱客戶端節省所有剩余待執行訓練的小批量的BF階段后仍然會成為整個系統的效率短板，因此將這種弱客戶端定義為極弱客戶端。

算法1 臨近卸載點算法（approach offloading point algorithm）

如算法1第4行所示，弱客戶端需要逐步增加凍結模型的訓練次數、減少模型完整訓練的部分，直至弱客戶端預期訓練時間小于匹配運行時間Tmedianw，s，以滿足時間限制的要求。如圖4所示，弱客戶端B若要卸載模型到強客戶端C時，需要在運行sd個小批量的完整訓練后，凍結模型以達到TmedianB，C時間限制。盡管模型凍結的方法加快了弱客戶端的訓練速度，節約了弱客戶端的計算資源和成本，但這會對其本地模型造成損傷，最終導致降低全局模型精度。因此，弱客戶端的模型需要在凍結后卸載至強客戶端進行額外訓練，如圖4強客戶端C所示，需協助B執行額外的訓練。并且強客戶端的額外訓練時間也需受到Tmedianw，s的限制，如算法第10～14行所示，強客戶端需要逐步迭代得出額外的訓練次數。值得注意的是，極弱客戶端即使凍結剩余的全部訓練，仍然會拖慢效率，因此需要縮減訓練量，而縮減比例shrink為Tmedianw，s與其預期運行時間之比，以此減少任務量，所以shrinklt;1。

最后返回預期運行時間、凍結批量數、額外訓練批量數等信息。

4 基于最優匹配的模型卸載方法

針對式（11）完成時間項不是個累計值，因此無法用已有算法直接求解的問題，本章提出了一種基于KM算法的迭代匹配算法，在最小化最大完成時間的同時，最小化匹配客戶端之間模型特征層相似度的差異。

4.1 基于KM算法的迭代匹配算法

為解決問題式（11），引入KM算法尋找最優匹配，引入基于二分查找的迭代解決最小化任務完成時間的問題。

在最大最小歸一化完成之后，所有的任務完成時間與余弦相似度均歸一到0～1內。因此，需構建最大任務完成時間與總相似度加權之和的卸載成本函數：

Cost（w，s）=α·z+（1－α）·Scale（Simw，s）（17）

其中：0≤z≤1，根據輔助變量z構建式（18）的成本矩陣COST，求解最優匹配m，判斷匹配m中所有客戶端的預期訓練時間是否都符合Tm≤z·Tmmax－Tmmin+Tmmin。盡管有研究指出客戶端數據集的標簽分布之間的EMD距離與全局模型的測試精度成反比[19]，Aergia也因此將其作為平衡模型精度與計算時間的參考因素，但是模型的重構則會打破這一規則，全局模型的測試精度也會受到一定程度的影響。因此二分查找需在逐漸逼近最短運行時間的同時，最大化模型特征層之間的相似度。

則基于匹配的模型卸載問題可以轉為基于二分查找的最優匹配問題。

算法2 二分搜索成本構建算法（binary-search construct cost algorithm，BSCC）

輸入：預期運行時間矩陣CT；模型特征層相似度矩陣SIM；時間輔助變量z;收斂參數ε。

輸出：匹配m。

4.2 基于KM算法的匹配

若頂點V可分割為兩個互不相交的子集，并且圖中的每條邊依附的兩個頂點分屬于這兩個互不相交的子集，則此無向圖為二部圖。在本文中，弱客戶端在收到服務器的卸載指令后需要執行sd數量的小批量訓練，再將模型特征層進行凍結，以節省本地訓練時在特征層中反向傳播的時間，極弱客戶端還需進一步減少訓練量。在凍結的同時，弱客戶端還需直接與強客戶端建立通信，將模型卸載至強客戶端進行re數量小批量的額外訓練。因此，模型卸載只發生在弱客戶端與強客戶端之間，并且W∩S=，所以可以將客戶端及其卸載模型的行為建模為帶權二部圖的形式。

服務器的主要目標就是通過正確匹配強弱客戶端以提高訓練效率，從而在保證訓練效率的同時最大限度地減少客戶端數據集之間的異質性。具體流程如算法3所示。

算法3 KM-匹配算法（KM-match algotrithm）

定義1 可行頂標。給集合W，S中的每個弱、強客戶端分別分配一個權值uw、vs，對于所有的邊都滿足Cost（w，s）≤uw+vs。

定義2 相等子圖。在一組可行頂標下原圖的生成子圖，包含所有的點但只包含滿足Cost（w，s）=uw+vs的邊。

定義3 頂點覆蓋。圖的一個頂點覆蓋是由一些頂點構成的集合，它使得圖中的每條邊上至少有一個頂點屬于這個集合。

定義4 最大匹配。匹配是一組兩兩沒有公共點的邊集，最大匹配是指匹配邊數量最多的匹配。

該算法首先對傳入的成本矩陣COST中的可行頂標進行初始化，規則是對每個弱客戶端頂標置為與其相連的所有邊的權重中的最大值，強客戶端頂標全部置為0，并初始化原圖的相等子圖為G，直至G的最大匹配為完美匹配時，迭代停止。在權值均為有理數的情況下，迭代有限次數的KM算法必然能停止。本文中需要尋找一個匹配m使得其成本之和最小，為方便處理，需要對COST矩陣進行reverse處理。具體地，找到矩陣中最大的元素，并用其對每個元素進行相減。

完成初始化后，弱、強客戶端W和S分別為矩陣的行和列，其中成本矩陣COST中弱客戶端w與強客戶端s的成本為Cost（w，s），兩頂標之和與其成本相減uw+vs－Cost（w，s）得到的差額DM（w，s），所有差額構成差額矩陣DM。其中，相等子圖中的邊對應的是差額矩陣中的0元素。標記出差額矩陣的0元素，并畫出對應的相等子圖G，找出相等子圖G中的頂點覆蓋Q，Q中屬于弱客戶端的頂點覆蓋為Euclid Math OneRAp，屬于強客戶端的頂點覆蓋為Euclid Math OneTAp。在相等子圖G中標記分屬于Euclid Math OneRAp和Euclid Math OneTAp的頂點，計算未被覆蓋的行或列中的最小差額中的最小值ε，并將不屬于Euclid Math OneTAp的行標簽uw減去ε和屬于Euclid Math OneTAp的列標簽vs加上ε。一直迭代直到相等子圖G有一個原圖的完美匹配，停止迭代，返回匹配結果m。

服務器完成最優匹配后，得到了在最少任務完成時間下所有弱客戶端卸載模型至強客戶端后成本最小的匹配。最后，服務器需要將匹配結束后的指令發送回各個邊緣設備。根據臨近卸載點算法的結果，邊緣設備中的“滯后者”則需在執行完sd輪小批量數的完整階段的模型更新后，將模型發送至服務器指定的強客戶端，并把模型凍結，執行簡化后的本地訓練。此外，若被服務器判斷為極弱客戶端，則需縮減本地訓練量到shrink倍。而邊緣設備中的強客戶端在接收到“滯后者”發送的模型后，需協助“滯后者”執行額外的re輪小批量訓練，訓練完畢后需將額外的訓練模型返送至對應的弱客戶端，弱客戶端將額外訓練的模型中的特征層與自身本地模型中的全連接層進行重構，得到弱客戶端的模型，最后進行聯邦平均，完成一輪完整的全局訓練。

4.3 基于匹配的模型卸載算法

結合上述的三個算法，算法4完整地展示了基于模型卸載的強弱匹配算法。

算法4 基于匹配的模型卸載算法（KM-based model offloading algorithm，MBMO）

輸入：消息封裝message；權重α；時間輔助變量z；收斂參數ε。

1 //服務器執行：

2 for each client∈C in parallel do

3 ""接收客戶端client性能分析結果的消息封裝message

4 end for

5 初始化SIM，CT矩陣

6 for each weak w∈W do

7 ""for each strong s∈S do

8 """"ct，sd，ss，re，shrink=ApproachOffloadingPoint（message）

9 """"計算w與s模型特征層余弦相似度Sim（w，s）

10 ""end for

11 end for

12 生成SIM，CT矩陣

13 匹配集合m=BSCC（CT，SIM，z，ε）

14 發送匹配結果m，sd，shrink至弱客戶端for client∈W

15 發送匹配結果m，re ，shrink至強客戶端for client∈S

16 //客戶端執行：

17 執行性能分析程序，并將分析結果message發送至服務器

18 接收匹配結果m，sd，re，shrink

19 if client∈W

20 ""for i=1 to all_minibatches do

21 """"if sd==0 and i==all_minibatches*shrink

22 """"""then 停止訓練 end if

23 """"if ilt;sd

24 """"""then 完整的本地批次訓練

25 """"else if i==sd then凍結模型特征層，發送模型至匹配m中指定的強客戶端s

26 nbsp;"""else 執行簡化后的本地批次訓練 end if

27 ""end for

28 end if

29 //等待強客戶端s接收模型

30 從強客戶端s接收模型，模型重構

31 if client∈S

32 ""for i=1 to all_minibatches do

33 """"完整的本地批次訓練

34 ""end for

35 "nbsp;//準備接收弱客戶端卸載的模型

36 ""接收匹配m中指定的弱客戶端w的模型

37 ""幫助w執行額外的re輪本地批次訓練

38 ""發送額外訓練完畢的模型至弱客戶端w

39 end if

如算法4所示，每個客戶端執行性能分析程序，并將分析結果報告給服務器。如第3行所示，服務器并行接收客戶端的消息封裝message，其中包含算法1中的各個輸入參數和本地模型。算法第8～12行展示了服務器依次計算每個弱客戶端與強客戶端之間的模型特征層相似度與預期運行時間，隨后將其初始化為SIM和CT矩陣，通過二分搜索成本構建算法迭代生成矩陣COST，并運用算法3的基于KM的匹配算法求解最優匹配m。然后將匹配結果m與算法1求出的強弱客戶端的凍結、額外小批量數等信息一起發送給一對客戶端。如果客戶端被判斷為“滯后者”，則需要在執行sd輪的小批量訓練后將模型凍結，并與指定的強客戶端建立直接的通信聯系后，將模型卸載。而強客戶端則需在本地訓練完成后，繼續執行額外的訓練，并將額外訓練的模型返回至服務器指定的“滯后者”。“滯后者”在收到模型后，將該模型的特征層與自身簡化訓練的全連接層進行重構，得到自己的本地模型。圖5為Fed-MBMO框架。

4.4 Fed-MBMO時間復雜度分析

本節將分析二分搜索成本構建算法的時間復雜度，并進一步分析基于模型卸載的聯邦學習框架（Fed-MBMO）的時間復雜度。首先將介紹以下定理：

定理1 KM算法找到一個最大權值匹配和最小代價覆蓋[31]。

定理2 對于加權二部圖G的一個完美匹配和加權覆蓋（u，v），∑ui+∑vj≥w（M）。且∑ui+∑vj=w（M）當且僅當M是由滿足∑ui+∑vj=w（M）的邊xiyj組成的。此時，M是（u，v）最優的[32]。

在Fed-MBMO算法運用MCT劃分強弱客戶端時，所有客戶端均可相互建立通信，原問題二部圖是一個完全二部圖，生成COST矩陣為方陣，所以服務器在運行KM-匹配算法時，以原問題二部圖的相等子圖G中的頂點覆蓋Q開始，算法直至相等子圖G中存在完美匹配M時結束。

從第一個頂點覆蓋Q開始，大小為|Q|的匹配由|Euclid Math OneRAp|條從Euclid Math OneRAp到S－Euclid Math OneTAp的邊和|Euclid Math OneTAp|條從Euclid Math OneTAp到W－Euclid Math OneRAp的邊組成。為了在相等子圖G中尋找更大的匹配，根據定理2的要求，需要在保持匹配m中所有邊上相等關系成立的情況下，引進從到S－Euclid Math OneTAp的一條邊來對覆蓋（u，v）進行修改，但是G中并不存在這樣一條邊，并且其差額為正，另這些最小差額為ε，對w∈W－Euclid Math OneRAp， uw－ε，但是為了保持Euclid Math OneIAp到W－Euclid Math OneRAp的覆蓋條件仍然成立，需要s∈Euclid Math OneTAp，vs+ε，此時，相等子圖增加一條邊。若該算法需要權值為實數的情況下可行，在尋找相等子圖G中的頂點覆蓋Q中需至多迭代n2次。而相等子圖中的最大匹配M最多增加n次，因此該算法在O（n3）的時間復雜度內尋找到了原問題二部圖的最小覆蓋∑uw+∑vs=Cost（M），根據定理1，m為最優匹配。

5 實驗分析

為驗證Fed-MBMO在訓練時間、模型收斂時間及全局模型精度上的效果，以及Non-IID對該算法的影響，分別在四個圖像數據集上進行分類任務實驗，其中包括MNIST、Fashion MNIST（FMNIST）、CIFAR10、EMNIST-Balanced（EMNIST-B），并在時間、精度方面與現有算法FedUE[15]、Aergia[25]、FedAvg[6]比較。

5.1 實驗設置與環境

實驗環境：本文實驗的硬件環境，處理器為Intel Xeon CPU E5-2697 v3×2，內存為2133 MHz Reg ECC 16 GB×2。在本文實驗中，所有的客戶端相互獨立，并為每個客戶端分配一個單獨的CPU核心。

本文的軟件環境如下，實驗在Windows環境下進行，采用Docker容器虛擬化技術來隔離不同CPU核心上的容器，容器中的客戶端相互隔離并且互不影響，Docker Desktop版本為4.26.1。采用PyTorch分布式訓練框架提供P2P通信和張量（Tensor）傳遞，以實現分布式并行訓練場景，每個客戶端僅能通過通信來實現消息傳遞。

a）資源異構設置：為模擬物聯網環境下不同邊緣設備具有不同計算資源的這種異質性，本文將為每個容器分配0.1～1.0個CPU來模擬現實中的所有設備計算能力之間的差異。本文為18個客戶端分別分配0.1～1.0和0.1～0.8個CPU，并為每個客戶端創建獨立的Docker容器使其相互隔離，最后隨機抽取8個客戶端參與訓練。由于不同客戶端擁有0.1 CPU與1.0 CPU計算能力相差巨大，所以在運行不同算法時需要固定抽取客戶端的隨機數種子，以保證不同的算法在相同的全局輪次抽取到完全相同的客戶端。

b）數據集與網絡：MNIST和FMNIST數據集都包含60 000個訓練樣本和10 000個測試樣本，共10個類別，數據集由大小為28×28像素的灰度圖像組成。前者包含0～9的手寫數字圖像，后者包含10個不同類別的時尚產品。CIFAR10數據集的每個示例都是一張32×32像素的RGB圖像，數據集包含10不同類別的50 000個訓練樣本和10 000個測試樣本。EMNIST-B數據集包含112 800個訓練樣本和18 800個測試樣本，共47個類別，每張示例都是一張28×28像素的灰度圖像。

前三個數據集的神經網絡結構與Aergia實驗中使用的模型結構相同。其中，MNIST CNN包括兩個卷積層（5×5卷積核，分別有10和20個通道），每個卷積層后面都有ReLU激活函數和2×2最大池化層，第二個卷積層后有一個dropout層，最后是兩個全連接層。EMNIST-B CNN結構僅與MNIST CNN在dropout概率和輸出層不同，其余結構一致。具體結構如圖6所示。FMNIST CNN包括兩個卷積層和一個全連接層，每個卷積層都有ReLU激活函數、批歸一化層和2×2最大池化層。CIFAR10 CNN由6個卷積層與兩個共138個神經元的全連接層構成。

為驗證算法在IID和Non-IID條件下的有效性，實驗還模擬了現實中不同的數據分布。本實驗采用分布參數β=0.5的Dirichlet分布來模擬Non-IID環境[32]。

c）超參數設置。權重參數α=0.5，全局輪次為50，本地訓練輪次為5輪，本地批次大小為16，學習率固定為0.01，性能分析小批量數（profiling）為100，隨機數種子為2 023。其中，Non-IID的實驗條件為分布參數為β=0.5的Dirichlet分布[33]。優化器為動量等于0.1的SGD優化器。

5.2 實驗結果

本文實驗在不同數據分布、資源異構設置的條件下，與Aergia、FedAvg、FedUE基線算法進行了比較。

圖7展示了在數據分布IID和Non-IID的條件下，不同數據集在CNN模型下的全局模型的訓練時間-精度圖。

由圖7可以看出，即使在18個客戶端計算資源極端異質并且在其數據IID和Non-IID的情況下，Fed-MBMO仍然能夠達到收斂。從圖7（b）（e）可以看出，在Dirichlet分布參數β=0.5的數據極端異質分布下，收斂速度仍快于FedUE，在IID條件下，Fed-MBMO算法在收斂速度和訓練效率上顯示出明顯的優勢。

這得益于Fed-MBMO的滯后者模型卸載匹配機制，避免了因弱客戶端計算資源不足而凍結模型導致的訓練效果不佳的問題，并且達到相同精度的收斂速度比Aergia、FedAvg和FedUE快。因此Fed-MBMO算法在IID、Non-IID條件下且計算能力差異巨大的情況下能夠達到目前主流算法的水平。

然而，如表1所示，在EMNIST-B 的β=0.5的Dirichlet分布下，Fed-MBMO算法有1.37～2.36百分點的下降，這是因為EMNIST-B有47個類別，因此，模型特征層在面對更多類別的樣本并不能很好地表征數據集的特征，所以匹配后的強客戶端的額外訓練模型的全連接層并不能很好地適應弱客戶端的特征層。相反，在對應的IID環境下，平均精度高于其他三個算法，表明了本文的匹配機制更加適合IID分布的情況。因此在面對擁有更多類別且Non-IID分布的數據集條件下，滯后者停止更新卷積層將會對全局模型造成較大傷害，將式（11）中的特征層相似度替換為其他方法則更加合適，例如基于數據集標簽分布的EMD距離等。總體來說，Fed-MBMO算法在達到相同精度的條件下，訓練效率全面優于FedAvg、Aergia和FedUE。

圖8分別展示了Fed-MBMO算法在訓練時間上的優越性，各算法在不同數據集下的訓練時間如表2所示。在18個客戶端計算資源極端異質且保證精度的條件下，本文算法具體訓練時間提升幅度如表3所示，比FedUE平均快12.66%，比Aergia和FedAvg平均快38.07%和46.65%。Aergia和FedUE算法在處理極弱的“滯后者”時存在不足。其中Aergia仍會因為極弱客戶端簡化后的本地訓練量而拖延了訓練時長，而FedUE則通過聚類將計算能力類似的客戶端分在同一組，雖然減少了客戶端等待時間的差異，但仍然無法消除極弱客戶端的影響。在這一方面，Fed-MBMO很好地削減了極弱客戶端的無效訓練。并且該算法通過合理的強弱匹配機制保證了弱客戶端在不同全局輪次中卸載目的地的多樣性，這種合理的匹配和訓練任務分配確保弱客戶端凍結部分模型節約訓練時長的同時不會顯著影響模型的精度，在處理了制約訓練時長的短板的同時，保證了全局模型的泛化能力，因此該方法能夠加速全局模型收斂，減少“滯后者”效應帶來的影響。

收斂時間和訓練時間的減少對醫療物聯網設備與智能駕駛領域中的聯邦學習應用十分重要，減少收斂所需時間能夠使相關的邊緣設備作出更快速且精準的反應，從而更加準確快速地預測和判斷各類健康疾病和交通事故等。

本研究使用Fed-MBMO算法在IID和Non-IID（使用Dirichlet分布，β=0.5）下的各個數據集上進行了實驗對比，其平均精度結果如表1所示。表1凸顯了本文方法在精度方面的魯棒性。同時，表2展示了本文在縮短訓練時間方面取得的顯著成果，而表3則詳細統計了訓練時間減少的百分比。

圖9展示了所有客戶端在不同數據集和劃分的情況下，每輪客戶端的平均等待時間（mean wait time，MWT）的數據分布與密度。由圖9可知，FedAvg的MWT向上聚集，并且小提琴上寬下窄，進而導致MWT的中位數也偏上，說明制約聯邦學習訓練效率的是小提琴下半部分的少數計算能力較低的滯后者，所以導致剩余的多數客戶端等待時間過長。而Aergia降低了小提琴的高度，如圖9（c）所示，極大地減少了訓練時間，但是仍受到極弱客戶端的制約，圖（c）中的小提琴仍然上寬下窄，所以Aergia并沒有解決大多數客戶端等待時間過長的問題。

FedUE減少了訓練時間，并且降低了客戶端的等待時間，但與此相比，Fed-MBMO中位數更小，并且四分位差更短且密集，說明了本文算法客戶端的MWT并不會像FedUE一樣分散，更長的四分位差會導致客戶端的等待時間有很強的不確定性，FedUE的MWT因此也存在多個峰值。

5.3 影響算法性能的因素

根據式（17）的卸載成本函數可得，當權重參數α不同時，則基于卸載成本函數構成的卸載成本矩陣COST（式（18））所得到的迭代匹配算法結果也會有不同。另一方面，客戶端之間計算能力的差異也會對實驗結果產生影響。因此，本節將用實驗驗證權重參數α和不同客戶端CPU計算能力的差異對本文算法的影響。

圖10為客戶端計算能力完全相同的情況下，MNIST 數據集在IID分布條件下，不同權重α對算法性能的影響。其中左側為訓練時間（小時），右側為全局模型精度百分比。圖中可以看到，當α=1.0時，訓練時間最短，而α=0時，訓練時間則會更長。這是因為當α=1.0時卸載成本函數值權重全部偏向輔助變量z，導致迭代匹配算法在構成的COST矩陣中得到的KM-匹配結果更傾向時間最短的匹配。相反，α=0時間則最長，精度則趨于穩定，一方面是因為MNIST IID任務相對簡單，另一方面，除了合理的強弱匹配之外，強客戶端輔助弱客戶端訓練也起到了一定的作用。

圖11展示了客戶端在不同計算能力差異的情況下，對于算法性能的影響。本實驗分別研究了客戶端擁有CPU的方差和擁有CPU個數對算法的影響，前者代表了聯邦學習中所有客戶端算力之和相等的情況下，客戶端計算能力差異對算法的影響，后者代表了客戶端算力之和對算法的影響。圖11（b）線-柱圖橫坐標符號含義如表4所示。

首先，顯而易見的是系統中的算力越多，訓練時間越快（圖11（b）中的a和c），但是達到相同精度的收斂輪次并沒有大幅減少（圖11（a）），對全局模型的貢獻也并不突出。

其次，在圖11（a）中可以看出，在所有客戶端算力之和相等的情況下，隨著方差逐漸升高，達到收斂精度的輪次也在提前，平均精度也會更高（圖11（b）折線圖）。這代表了在算力相等的情況下，客戶端之間算力差異越大，全局模型性能更優。但代價是訓練時間也會隨之增加，這與上述時間復雜度分析相一致。這是因為弱客戶端在大方差的情況下會經歷更多的完整訓練，增加了計算負擔，所以拖慢了訓練速度，但提升了全局模型性能。因此，可以設置合理的權重參數α來平衡訓練時間和模型精度以滿足不同場合的業務需求。

5.4 算法應用與展望

弱客戶端凍結模型和極弱客戶端縮減訓練量的方法能夠顯著減少計算能力弱的設備在聯邦學習中的計算負擔，同時有效減少訓練和收斂所需的時間，因此算法應用廣泛。例如，在醫療物聯網領域，更多的設備能夠參與到聯邦學習中，從而提高模型的整體性能和準確性。這不僅有助于實現更精確的患者監測和預測，還能為醫療機構提供更高效的醫療解決方案。在智能駕駛領域，各類車載傳感器和計算設備構成了一個復雜的物聯網系統，因計算能力的異質性帶來了應用挑戰。Fed-MBMO通過模型卸載與強弱匹配，能夠實現弱車機設備與強車機設備之間的平衡，從而提高智能駕駛系統的整體性能和安全性。

未來的研究可以進一步探索該算法在其他領域和應用場景中的潛力，如工業物聯網、智能家居和軍事應用等。同時，隨著邊緣計算和物聯網技術的不斷進步，如何進一步提高算法復雜通信環境下的魯棒性和模型精度，以滿足復雜和多變的實際需求，將是一個值得關注和研究的重要方向。

6 結束語

本文基于邊緣計算的環境下，針對“滯后者”效應等困擾聯邦學習訓練效率的一系列問題，提出了客戶端劃分方法和模型卸載策略。通過客戶端執行性能分析程序并將結果報告給服務器，服務器綜合考慮模型特征層相似度與預期運行時間，并將問題建模為基于匹配的模型卸載問題，通過基于KM的迭代匹配算法求解。此外，本文進一步分析了Fed-MBMO算法的性質，表明該算法能夠在多項式的時間復雜度內完成，為解決聯邦學習“滯后者”效應提出了新的解決方案。實驗采用P2P通信、分布式框架、虛擬化容器等技術模擬聯邦學習并行訓練場景，實驗結果展示了在減少訓練時間和收斂時間等方面均有不錯的效果，有效解決“滯后者”效應。

參考文獻：

[1]Wen Jie， Zhang Jingbo， Zhang Zhixia， et al. Resource-aware multi-criteria vehicle participation for federated learning in Internet of Vehicles [J]. Information Sciences， 2024， 664： 120344.

[2]崔云龍. EC-IoT [R/OL]. （2021-11-23）. https：//support. huawei. com/enterprise/zh/doc/EDOC1100195298.（Cui Yunlong.EC-IoT [R/OL]. （2021-11-23）. https：//support. huawei. com/enterprise/zh/doc/EDOC1100195298.）

[3]Sun Baoshan， Huang Hao， Chai Zhengyi， et al. Multi-objective optimization algorithm for multi-workflow computation offloading in resource-limited IIoT [J]. Swarm and Evolutionary Computation， 2024， 89： 101646.

[4]Gecer M， Garbinato B. Federated learning for mobility applications [J]. ACM Computing Surveys， 2024， 56 （5）： 1-28.

[5]Sánchez P M S， Celdrán A H， Xie Ning， et al. Federatedtrust： a solution for trustworthy federated learning [J]. Future Generation Computer Systems， 2024， 152： 83-98.

[6]McMahan B， Moore E， Ramage D， et al. Communication-efficient learning of deep networks from decentralized data [C]//Proc of Artificial Intelligence and Statistics.New York：PMLR， 2017： 1273-1282.

[7]何常樂，袁培燕. 邊緣聯邦學習的客戶端選擇機制 [J]. 計算機應用， 2023， 43 （S1）： 147-153. （He Changle， Yuan Peiyan. Client selection mechanism of federated learning in edge computing. [J]. Journal of Computer Applications， 2023， 43 （S1）： 147-153.）

[8]Sultana K， Ahmed K， Gu B， et al. Elastic optimization for stragglers in edge federated learning [J]. Big Data Mining and Analytics， 2023， 6 （4）： 404-420.

[9]Gupta A， Misra S， Pathak N， et al. Fedcare： federated learning for resource-constrained healthcare devices in IoMT system [J]. IEEE Trans on Computational Social Systems， 2023， 10 （4）： 1587-1596.

[10]Imteaj A， Mamun Ahmed K， Thakker U， et al. Federated learning for resource-constrained IoT devices： panoramas and state of the art [J]. Federated and Transfer Learning， 2022： 7-27.

[11]Wu Di， Ullah R， Harvey P， et al. Fedadapt： adaptive offloading for IoT devices in federated learning [J]. IEEE Internet of Things Journal， 2022， 9 （21）： 20889-20901.

[12]Lu Renhao， Zhang Weizhe， Li Qiong， et al. Adaptive asynchronous federated learning [J]. Future Generation Computer Systems， 2024， 152： 193-206.

[13]Guo Hongpeng， Gu Haotian， Wang Xiaoyang， et al. FedCore： straggler-free federated learning with distributed coresets [EB/OL]." （2024-01-31）.https：//arxiv.org/abs/2402.00219.

[14]Zeng Manying， Wang Xiumin， Pan Weijian， et al. Heterogeneous training intensity for federated learning： a deep reinforcement learning approach [J]. IEEE Trans on Network Science and Enginee-ring， 2022， 10 （2）： 990-1002.

[15]Zang Tianming， Zheng Ce， Ma Shiyao， et al. A general solution for straggler effect and unreliable communication in federated learning [C]// Proc of IEEE International Conference on Communications. Piscataway，NJ：IEEE Press， 2023： 1194-1199.

[16]Liu Yijing， Feng Gang， Du Hongyang， et al. Adaptive clustering based straggler-aware federated learning in wireless edge networks [J]. IEEE Trans on Communications， 2024：3412763.

[17]Liu Yutao， Zhang Xiaoning， Zhao Yangming， et al. Chronos： acce-lerating federated learning with resource aware training volume tuning at network edges [J]. IEEE Trans on Vehicular Technology， 2022， 72 （3）： 3889-3903.

[18]Zhan Wenhan， Luo Chunbo， Wang Jin， et al. Deep-reinforcement-learning-based offloading scheduling for vehicular edge computing [J]. IEEE Internet of Things Journal， 2020， 7 （6）： 5449-5465.

[19]Zhao Yue， Li Meng， Lai Liangzhen， et al. Federated learning with Non-IIDdata [EB/OL]. （2018-06-02）. https：//arxiv.org/abs/ 1806. 00582.

[20]Zawad S， Ali A， Chen Pinyu， et al. Curse or redemption？How data heterogeneity affects the robustness of federated learning [C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2021： 10807-10814.

[21]Xu Zirui， Yu Fuxun， Xiong Jinjun， et al. Helios： heterogeneity-aware federated learning with dynamically balanced collaboration [C]// Proc of 58th ACM/IEEE Design Automation Conference. Piscataway，NJ：IEEE Press， 2021： 997-1002.

[22]Li Li， Liu Duo， Duan Moning， et al. Federated learning with workload-aware client scheduling in heterogeneous systems [J]. Neural Networks， 2022， 154： 560-573.

[23]Ji Zhongming， Chen Li， Zhao Nan， et al. Computation offloading for edge-assisted federated learning [J]. IEEE Trans on Vehicular Technology， 2021， 70 （9）： 9330-9344.

[24]Chai Zheng， Ali A， Zawad S， et al. TiFL： a tier-based federated learning system [C]// Proc of the 29th International Symposium on High-Performance Parallel and Distributed Computing. New York：ACM Press，2020： 125-136.

[25]Cox B， Chen L Y， Decouchant J. Aergia： leveraging heterogeneity in federated learning systems [C]// Proc of the 23rd ACM/IFIP International Middleware Conference. New York：ACM Press，2022： 107-120.

[26]Li Qinbin， Diao Yiqun， Chen Quan， et al. Federated learning on Non-IID data silos： an experimental study [C]// Proc of the 38th IEEE International Conference on Data Engineering . Piscataway，NJ：IEEE Press， 2022： 965-978.

[27]Zhang Feilong， Liu Xianming， Lin Shiyi， et al. No one idles： efficient heterogeneous federated learning with parallel edge and server computation [C]// Proc of International Conference on Machine Learning.New York：PMLR，2023： 41399-41413.

[28]馬千飄，賈慶民，劉建春，等. 異構邊緣計算環境下異步聯邦學習的節點分組與分時調度策略 [J]. 通信學報， 2023， 44 （11）： 79-93. （Ma Qianpiao， Jia Qingmin， Liu Jianchun， et al. Client grouping and time-sharing scheduling for asynchronous federated learning in heterogeneous edge computing environment [J]. Journal on Communications， 2023， 44 （11）： 79-93.）

[29]Wang Cong， Yang Yuanyuan， Zhou Pengzhan. Towards efficient scheduling of federated mobile devices under computational and statistical heterogeneity [J]. IEEE Trans on Parallel and Distributed Systems， 2020， 32 （2）： 394-410.

[30]Du Xiangtong， Liu Zhidong， Feng Zunlei， et al. DataMap： dataset transferability map for medical image classification [J]. Pattern Recognition， 2024， 146： 110044.

[31]Munkres J. Algorithms for the assignment and transportation problems [J]. Society for Industrial and Applied Mathematics， 1962， 15： 196-210.

[32]West D B. Introduction to graph theory [M]. Upper Saddle River： Prentice Hall， 2001.

[33]Hsu T M H， Qi Hang， Brown M. Measuring the effects of non-identical data distribution for federated visual classification [EB/OL]. （2019-09-13）. https：//arxiv.org/abs/1909. 06335.

計算機應用研究2025年1期

計算機應用研究的其它文章: 小數據集上基于語義的局部注意視覺Transformer方法; 一種基于旋轉-平移解耦優化的在線稠密重建算法; 單目RGB穿衣人體的手部精細化重建; 基于視角統一的手姿態估計優化方法; 基于互相關和旋轉約束的視覺慣性里程計在線時間校準算法; 適用于智能醫療的匿名基于身份的認證密鑰協商協議