









摘" 要:在聯(lián)邦學(xué)習(xí)應(yīng)用場(chǎng)景下,若客戶端設(shè)備之間的數(shù)據(jù)呈現(xiàn)非獨(dú)立同分布特征,甚至出現(xiàn)類不平衡的情況時(shí),客戶端本地模型的優(yōu)化目標(biāo)將偏離全局優(yōu)化目標(biāo),從而給全局模型的性能帶來巨大挑戰(zhàn)。為解決這種數(shù)據(jù)異質(zhì)性帶來的挑戰(zhàn),通過積極選擇合適的客戶端子集以平衡數(shù)據(jù)分布將有助于提高模型的性能。因此,設(shè)計(jì)了一種面向不平衡類的聯(lián)邦學(xué)習(xí)客戶端智能選擇算法—FedSIMT。該算法不借助任何輔助數(shù)據(jù)集,在保證客戶端本地?cái)?shù)據(jù)對(duì)服務(wù)器端不可見的隱私前提下,使用Tanimoto系數(shù)度量本地?cái)?shù)據(jù)分布與目標(biāo)分布之間的差異,采用強(qiáng)化學(xué)習(xí)領(lǐng)域中的組合多臂老虎機(jī)模型平衡客戶端設(shè)備選擇的開發(fā)和探索,在不同數(shù)據(jù)異質(zhì)性類型下提高了全局模型的準(zhǔn)確率和收斂速度。實(shí)驗(yàn)結(jié)果表明,該算法具有有效性。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí);類不平衡;客戶端選擇算法;多臂老虎機(jī)
DOI:10.15938/j.jhust.2024.02.005
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)02-0033-10
An Intelligent Client Selection Algorithm of Federated
Learning for Class-imbalance
ZHU Suxia1,2," WANG Yunmeng1,2," YAN Peisen1,2," SUN Guanglu1,2
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.Research Center of Information Security and Intelligent Technology, Harbin University of Science and Technology,
Harbin 150080, China)
Abstract:In the federated learning application scenario, if the data among the client devices shows the characteristics of non-independence identically distribution, or even class-imbalance, the optimization goal of the client local model will deviate from the global optimization goal, which brings great challenges to the performance of the global model. In order to solve the challenges brought by this kind of data heterogeneity, it will help to improve the performance of the model by actively selecting appropriate customer terminal sets to balance the data distribution. Therefore, this paper designs a federated learning client online intelligent selection algorithm for unbalanced class FedSIMT. This algorithm does not use any auxiliary data set. Under the premise of ensuring the privacy of the client′s local data invisible to the server, it uses the Tanimoto coefficient to measure the difference between the local data distribution and the target distribution. It uses the combined Multi-armed Bandit in the field of reinforcement learning to balance the development and exploration of client devices selection, and improves the accuracy and the convergence rate of the global model under different data heterogeneity types. The experimental results show that the algorithm is effective.
Keywords:federated learning; class-imbalance; client selection algorithm; multi-armed bandit
收稿日期: 2022-12-06
基金項(xiàng)目: 黑龍江省自然科學(xué)基金(LH2021F032);黑龍江省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2022ZX01A34).
作者簡(jiǎn)介:
王云夢(mèng)(1998—),女,碩士研究生;
顏培森(1996—),男,碩士研究生.
通信作者:
朱素霞(1978—),女,博士,副教授,博士研究生導(dǎo)師,E-mail:zhusuxia@hrbust.edu.cn.
0" 引" 言
作為機(jī)器學(xué)習(xí)的新興范式,聯(lián)邦學(xué)習(xí)由McMahan 等人率先提出[1],它為用戶數(shù)據(jù)共享提供了新穎的解決方案,使得用戶隱私數(shù)據(jù)在不出本地的前提下便可以得到一個(gè)可用模型,做到“數(shù)據(jù)不動(dòng)模型動(dòng)”。在保證用戶數(shù)據(jù)隱私安全的前提下,打破數(shù)據(jù)孤島,充分挖掘數(shù)據(jù)中的潛在價(jià)值。目前聯(lián)邦學(xué)習(xí)已經(jīng)初步應(yīng)用于醫(yī)療[2-3]、智能終端[4]以及計(jì)算機(jī)視覺[5]等領(lǐng)域。
在聯(lián)邦學(xué)習(xí)過程中,服務(wù)器端首先初始化一個(gè)全局的模型參數(shù),并將初始化的模型參數(shù)下發(fā)至參與訓(xùn)練的客戶端,客戶端加載模型并基于本地?cái)?shù)據(jù)迭代訓(xùn)練模型,之后將更新的模型參數(shù)回傳給服務(wù)器端。服務(wù)器對(duì)各個(gè)客戶端返回的模型參數(shù)進(jìn)行聚合更新,得到新的全局模型,再將新的全局模型發(fā)送給每個(gè)客戶端,重復(fù)上述過程直至模型收斂。每個(gè)客戶端都擁有相同且獨(dú)立的模型,客戶端之間不直接通訊,模型訓(xùn)練的過程中也保持獨(dú)立,可以看做是基于樣本的分布式模型訓(xùn)練。
聯(lián)邦學(xué)習(xí)解決了由于數(shù)據(jù)孤島導(dǎo)致模型無法訓(xùn)練的問題,然而,數(shù)據(jù)孤島的產(chǎn)生也有其現(xiàn)實(shí)意義,每個(gè)數(shù)據(jù)孤島都是獨(dú)立的個(gè)體并擁有其獨(dú)特的特點(diǎn)。在實(shí)際問題中表現(xiàn)為不同客戶端產(chǎn)生代表本地特征的數(shù)據(jù),這樣就導(dǎo)致每個(gè)客戶端的數(shù)據(jù)是非獨(dú)立同分布的,這被稱為數(shù)據(jù)異質(zhì)性。傳統(tǒng)聯(lián)邦學(xué)習(xí)旨在訓(xùn)練一個(gè)公共模型而擬合所有的數(shù)據(jù)孤島,數(shù)據(jù)異質(zhì)性將會(huì)帶來無保證的收斂和模型參數(shù)發(fā)散的挑戰(zhàn)。當(dāng)使用類不平衡的數(shù)據(jù)集訓(xùn)練一個(gè)模型時(shí),多數(shù)類的樣本在整個(gè)訓(xùn)練數(shù)據(jù)中占比大,而少數(shù)類的樣本占比小,這將直接導(dǎo)致模型對(duì)少數(shù)類的分類精度降低,但是在一些現(xiàn)實(shí)情況下,少數(shù)類也具有重要的現(xiàn)實(shí)意義。為了解決上述問題,文[6]首次將強(qiáng)化學(xué)習(xí)的方法應(yīng)用至聯(lián)邦學(xué)習(xí)領(lǐng)域,利用強(qiáng)化學(xué)習(xí)算法進(jìn)行客戶端選擇,以更少的通訊輪次達(dá)到目標(biāo)精度。但是文[6]中的算法需要大量的離線訓(xùn)練,并且在訓(xùn)練過程中每個(gè)設(shè)備上的數(shù)據(jù)必須保持不變,這將給算法帶來一定的局限性。文[7]借助共享的輔助數(shù)據(jù)集實(shí)現(xiàn)了一種揭示類分布的方案,并提出一種減少類不平衡的聯(lián)邦學(xué)習(xí)算法。這個(gè)思路雖然可以達(dá)到一定效果,但是實(shí)現(xiàn)的前提總是將數(shù)據(jù)從本地共享出去,這違反了聯(lián)邦學(xué)習(xí)的隱私假設(shè),增加了數(shù)據(jù)泄露的風(fēng)險(xiǎn),另外將數(shù)據(jù)放在網(wǎng)絡(luò)中傳輸,也會(huì)給網(wǎng)絡(luò)帶寬造成不可避免的負(fù)擔(dān)。
基于上述背景,本文設(shè)計(jì)了一種不借助任何輔助數(shù)據(jù)集的客戶端在線智能選擇算法,簡(jiǎn)稱FedSIMT。它保證了客戶端本地?cái)?shù)據(jù)對(duì)服務(wù)器端不可見的隱私前提,避免數(shù)據(jù)共享帶來的風(fēng)險(xiǎn)和性能消耗,使用Tanimoto系數(shù)[8]度量本地?cái)?shù)據(jù)分布與目標(biāo)分布之間的差異,并采用組合多臂老虎機(jī)模型平衡客戶端設(shè)備選擇的開發(fā)和探索,從而應(yīng)對(duì)數(shù)據(jù)異質(zhì)性給模型帶來的收斂問題,提高了全局模型的準(zhǔn)確率和收斂速度。
1" 相關(guān)工作
在聯(lián)邦學(xué)習(xí)領(lǐng)域,McMahan首先提出了經(jīng)典的FedAvg框架[1],奠定了聯(lián)邦學(xué)習(xí)框架的基礎(chǔ)。實(shí)驗(yàn)證明FedAvg在非獨(dú)立同分布數(shù)據(jù)集下需要更多的通訊輪次作為代價(jià)[9-11]。由于通訊輪次同樣是聯(lián)邦學(xué)習(xí)需要重點(diǎn)考量的因素之一,以更高的通訊代價(jià)實(shí)現(xiàn)模型收斂顯然是不明智的。而在類不平衡上數(shù)據(jù)集下,F(xiàn)edAvg將難以應(yīng)對(duì)這種數(shù)據(jù)極端情況,表現(xiàn)出模型收斂精度大幅度下降的缺點(diǎn)。
針對(duì)非獨(dú)立同分布數(shù)據(jù)問題,Zhao等[12]提出搬土距離(earth mover′s distance, EMD)衡量客戶端的數(shù)據(jù)分布與總體數(shù)據(jù)分布的距離,這在一定程度上表示了數(shù)據(jù)異構(gòu)的程度。為了應(yīng)對(duì)這種數(shù)據(jù)異質(zhì)性挑戰(zhàn),基礎(chǔ)策略就是對(duì)全局模型進(jìn)行微調(diào)或者對(duì)目標(biāo)分布進(jìn)行建模,強(qiáng)迫數(shù)據(jù)適應(yīng)分布。Hsu等[13]提議的FedAvgM框架是在FedAvg的基礎(chǔ)上更新全局模型時(shí)增加動(dòng)量,以減少非同分布數(shù)據(jù)經(jīng)過幾輪隨機(jī)梯度下降后平均局部模型可能帶來的有害振蕩。Jiang等[14]提出一種基于共識(shí)方案的分布式動(dòng)量SGD方法,同時(shí)提高了并行性和分布式計(jì)算能力。Koskela等[15]提出一種使用矩量會(huì)計(jì)技術(shù)的學(xué)習(xí)率適應(yīng)機(jī)制,試圖使全局模型對(duì)于每個(gè)客戶的本地?cái)?shù)據(jù)都是最佳的。Li等[16]提出的FedProx允許參與聯(lián)邦的客戶端根據(jù)本地的計(jì)算能力調(diào)整本地訓(xùn)練的回合數(shù),并且在本地訓(xùn)練的局部目標(biāo)中添加一個(gè)近端項(xiàng),用來約束更新的模型參數(shù)不能偏離服務(wù)器端的模型參數(shù)太多。另一個(gè)常用的方法是在所有客戶端之間共享一小部分?jǐn)?shù)據(jù),共享的數(shù)據(jù)集具有所有客戶端的全局?jǐn)?shù)據(jù)的分布。文[12]在提出搬土距離的工作基礎(chǔ)上,證明了每個(gè)客戶端只需貢獻(xiàn)出本地5%的數(shù)據(jù)量就可以在數(shù)據(jù)高度非獨(dú)立同分布的情況下獲得良好的模型表現(xiàn)。與文[12]將共享數(shù)據(jù)分發(fā)至其余客戶端的方式不同,Ozdayi等[17]建議將客戶端共享的數(shù)據(jù)匯總在服務(wù)器端,而不向下分發(fā),在服務(wù)器端聚合模型更新后再基于共享的全局?jǐn)?shù)據(jù)進(jìn)行幾輪訓(xùn)練以平衡全局分布,這樣節(jié)省了從服務(wù)器端向客戶端分發(fā)全局共享數(shù)據(jù)所需要的網(wǎng)絡(luò)帶寬,并且在可信第三方的前提下,避免聯(lián)邦中出現(xiàn)的惡意客戶端接觸到全局?jǐn)?shù)據(jù)。Jeong等[18]提出每個(gè)設(shè)備向服務(wù)器報(bào)告其數(shù)據(jù)集中丟失的標(biāo)簽,并上傳這些標(biāo)簽的一些種子數(shù)據(jù)樣本,服務(wù)器訓(xùn)練GAN對(duì)上傳的樣本進(jìn)行抽樣,并將其發(fā)送給每個(gè)客戶端以補(bǔ)充缺失的標(biāo)簽。
而針對(duì)類不平衡問題,文[19]設(shè)計(jì)了一種自平衡的聯(lián)邦學(xué)習(xí)框架Astraea,它能夠發(fā)現(xiàn)全局?jǐn)?shù)據(jù)的類不平衡問題,但系統(tǒng)的實(shí)現(xiàn)需要大量中介服務(wù)器輔助完成,增加了系統(tǒng)的復(fù)雜度和開銷。文[20]使用改進(jìn)的損失函數(shù)來降低分類效果良好的樣本的損失,使得模型在預(yù)測(cè)精度較高時(shí)對(duì)多數(shù)類不敏感,對(duì)少數(shù)類敏感,從而提升少數(shù)類在全局中的重要性。文[21]設(shè)計(jì)了一個(gè)基于監(jiān)視器的方案來估計(jì)本地?cái)?shù)據(jù)的類不平衡,該方案檢測(cè)每輪聯(lián)邦訓(xùn)練中的數(shù)據(jù)組成比例,并引入一個(gè)損失函數(shù)來增強(qiáng)少數(shù)類對(duì)全局模型的影響。文[6]旨在訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)智能體,幫助服務(wù)器在每輪聯(lián)邦選擇過程中挑選合適的客戶端參與聯(lián)邦訓(xùn)練。文[7]通過構(gòu)造共享的全局?jǐn)?shù)據(jù)集發(fā)現(xiàn)數(shù)據(jù)不平衡程度,借此平衡客戶端選擇。
盡管上述工作取得一定成效,但沒有一種方法可以兼顧隱私保護(hù)和通訊代價(jià),并在不同數(shù)據(jù)異質(zhì)性類型下表現(xiàn)出良好的效果。與這些方法相比,本文的方法兼顧了隱私保護(hù)和算法的有效性,同時(shí)沒有引入過多的通訊和存儲(chǔ)開銷。
2" FedAvg算法及其收斂性分析
在C個(gè)類別的分類問題背景下引入FedAvg進(jìn)行深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)訓(xùn)練,定義特征空間X和標(biāo)簽空間Y=[C],其中[C]={1,2,…,C};(x,y)表示數(shù)據(jù)集中的一個(gè)樣本,f∶X→S表示預(yù)測(cè)函數(shù),即函數(shù)f為每個(gè)樣本計(jì)算一個(gè)概率向量,fi表示預(yù)測(cè)樣本屬于第i類的概率,其中S={z|∑Ci=1zi=1,zi≥0,i∈[C]}。w表示模型權(quán)重,定義分類問題的交叉熵?fù)p失函數(shù)為
(w)=Ex,y~p[∑Ci=11y=ilogfi(x,w)]=
∑Ci=1p(y=i)Ex|y=i[logfi(x,w)](1)
其中:E表示期望運(yùn)算;1表示指標(biāo)矩陣。FedAvg的優(yōu)化目標(biāo)如下:
min∑Ci=1p(y=i)Ex|y=i[logfi(x,w)](2)
在聯(lián)邦學(xué)習(xí)中,假設(shè)有N個(gè)客戶端設(shè)備,第k個(gè)設(shè)備有mk個(gè)數(shù)據(jù)樣本,遵循數(shù)據(jù)分布pk。在第t輪聯(lián)邦訓(xùn)練中,隨機(jī)選取K個(gè)客戶端設(shè)備,被選中的客戶端設(shè)備下載當(dāng)前全局模型權(quán)重wt-1,并基于本地?cái)?shù)據(jù)集進(jìn)行以下隨機(jī)梯度下降訓(xùn)練:
wkt=wkt-1-ηkt(wkt-1)(3)
其中:ηkt為第t輪設(shè)備k的學(xué)習(xí)率;wkt為一個(gè)或多個(gè)迭代周期的隨機(jī)梯度下降結(jié)果。客戶端設(shè)備向服務(wù)器回傳本地訓(xùn)練前后的模型權(quán)重的差值Δkt,定義為
Δkt=wkt-wkt-1(4)
相比于客戶端設(shè)備直接回傳wkt,選擇回傳Δkt的好處是利于壓縮通訊成本[22]。服務(wù)器端收集參與當(dāng)前輪次聯(lián)邦訓(xùn)練的模型更新權(quán)重,然后執(zhí)行聯(lián)邦平均算法更新全局模型:
Δt=∑Kk=1mkΔkt/∑Kk=1mk(5)
wgt=wgt-1+Δt(6)
其中:wgt表示聯(lián)邦學(xué)習(xí)進(jìn)行到第t輪時(shí)服務(wù)器端的全局模型權(quán)重。
FedAvg算法中本地執(zhí)行隨機(jī)梯度下降訓(xùn)練的目標(biāo)是優(yōu)化mk個(gè)本地?cái)?shù)據(jù)樣本的損失值,而全局目標(biāo)是優(yōu)化∑Kk=1mk個(gè)全局?jǐn)?shù)據(jù)樣本的總體損失值。當(dāng)客戶端設(shè)備的數(shù)據(jù)和標(biāo)簽分布是獨(dú)立同分布時(shí),F(xiàn)edAvg可以達(dá)到近似于傳統(tǒng)中心化訓(xùn)練的效果。如圖1(a)所示,客戶端i、客戶端j與全局模型的優(yōu)化方向大致相同,經(jīng)過多輪聯(lián)邦訓(xùn)練后FedAvg的優(yōu)化方向依舊接近全局模型的優(yōu)化方向。但如果不同客戶端設(shè)備收集到的數(shù)據(jù)隱含了用戶的偏好信息,數(shù)據(jù)將呈現(xiàn)非獨(dú)立同分布特征。如圖1(b)所示,客戶端i、客戶端j與全局模型的優(yōu)化方向相差較大,隨著聯(lián)邦輪次的進(jìn)行,異構(gòu)特征數(shù)據(jù)產(chǎn)生的損失偏差不斷累計(jì),逐漸偏離全局模型的優(yōu)化方向,從而降低模型的收斂性能[9, 11]。
基于上述分析,在選擇參與聯(lián)邦訓(xùn)練的客戶端子集時(shí),若使子集所產(chǎn)生的數(shù)據(jù)分布盡可能的接近全局?jǐn)?shù)據(jù)分布,那么FedAvg的優(yōu)化方向也將盡可能的接近全局模型的優(yōu)化方向,從而抵消數(shù)據(jù)異質(zhì)性帶來的偏差。基于這個(gè)出發(fā)點(diǎn),本文提出了基于客戶端選擇的平衡數(shù)據(jù)分布的聯(lián)邦學(xué)習(xí)算法。
3" 面向不平衡類的客戶端智能選擇算法
為了解決數(shù)據(jù)異質(zhì)性的挑戰(zhàn),本文提出了面向不平衡類的客戶端智能選擇算法,即FedSIMT。它基于Tanimoto系數(shù)積極的選取適當(dāng)?shù)目蛻舳俗蛹瑥亩胶鈹?shù)據(jù)分布;且采用組合多臂老虎機(jī)模型平衡客戶端設(shè)備選擇的開發(fā)和探索,提高算法可用性。
3.1" 基于Tanimoto系數(shù)的類不平衡算法
文[23]指出數(shù)據(jù)不平衡可以劃分為局部不平衡和全局不平衡兩大類,本文提出的算法也將針對(duì)這兩大類數(shù)據(jù)不平衡類型進(jìn)行研究。局部不平衡指全局?jǐn)?shù)據(jù)中類是平衡的而客戶端本地?cái)?shù)據(jù)呈非獨(dú)立同分布狀態(tài)。假設(shè)數(shù)據(jù)集包含三類數(shù)據(jù),并且有三個(gè)參與客戶端,如圖2(a)所示,客戶端i,j,k的本地?cái)?shù)據(jù)與全局?jǐn)?shù)據(jù)呈現(xiàn)非獨(dú)立同分布特征,但是全局?jǐn)?shù)據(jù)是類平衡的;全局不平衡指全局樣本數(shù)據(jù)中類的不均衡,一般來說,客戶端設(shè)備的局部不平衡可能不同于全局不平衡,在一些情況下可能出現(xiàn)一個(gè)類在本地?cái)?shù)據(jù)集中是多數(shù)類,但在全局?jǐn)?shù)據(jù)中是少數(shù)類的情況。如圖2(b)所示,藍(lán)色圓圈代表的第I類數(shù)據(jù)在客戶端i處是多數(shù)類,但在全局?jǐn)?shù)據(jù)中相對(duì)于第II類和第III類是少數(shù)類。
針對(duì)這種數(shù)據(jù)異質(zhì)性問題,文[24]指出梯度平方的大小與樣本數(shù)量正相關(guān),且滿足如下公式:
E‖(w1)‖2E‖(w2)‖2≈n21n22(7)
其中:代表神經(jīng)網(wǎng)絡(luò)的損失函數(shù);n1和n2代表兩個(gè)不同類別的樣本數(shù)量。也就是說神經(jīng)網(wǎng)絡(luò)模型權(quán)重更新的期望與樣本數(shù)量正相關(guān),因此通過有目的的選擇客戶端設(shè)備,精心設(shè)計(jì)每輪參與聯(lián)邦的樣本分布,可以解決數(shù)據(jù)失衡給模型性能帶來的影響。因此,為解決上述兩種數(shù)據(jù)不平衡情況,本文設(shè)計(jì)了基于Tanimoto系數(shù)的客戶端選擇方案。
參與聯(lián)邦任務(wù)的客戶端設(shè)備向服務(wù)器端報(bào)告本地?cái)?shù)據(jù)分布vk=[Nk1,Nk2,…,NkC],其中Nki表示客戶端設(shè)備k擁有的第i類樣本的數(shù)量。服務(wù)器根據(jù)式(8)構(gòu)造目標(biāo)分布vtar,并把目標(biāo)分布作為平衡樣本失衡的基準(zhǔn)。其中max{Ni}代表所有客戶端中擁有第i類樣本最多的樣本數(shù),vk和vtar均以向量的形式在算法中體現(xiàn)。
vtar=[max{N1},max{N2},…,max{NC}](8)
本策略采用Tanimoto系數(shù)衡量每一個(gè)客戶端本地分布和目標(biāo)分布的相似度距離,具體如式(9)所示:
simT(vk,vtar)=vk·vtar‖vk‖2+‖vtar‖2-vk·vtar(9)
Tanimoto系數(shù),又稱廣義Jaccard系數(shù),它是余弦相似度的擴(kuò)展,同時(shí)考慮了兩個(gè)向量之間的角度相似性和距離相似性,向量間相似性越大,Tanimoto系數(shù)越大。
由于目標(biāo)分布采取式(8)的構(gòu)造方式,在客戶端樣本類別角度上獲取每個(gè)類別的最大值,這使得本地多數(shù)類而全局少數(shù)類的樣本獲得了更大的重視程度。當(dāng)采取Tanimoto系數(shù)的大小來衡量客戶端本地分布目標(biāo)分布的相似度時(shí),不僅考慮到兩個(gè)向量的方向維度,即類別平衡,同時(shí)也考慮到了兩個(gè)向量大小維度,即類別數(shù)量平衡。這為后文的算法提供理論支持。
類平衡選擇算法首先為每個(gè)客戶端k計(jì)算獎(jiǎng)勵(lì)值rk,定義為客戶端本地分布vk和目標(biāo)分布vtar的Tanimoto系數(shù),即rk=simT(vk,vtar)。第t輪的客戶端選擇任務(wù)中,服務(wù)端維護(hù)一個(gè)全局的動(dòng)態(tài)向量vcur,以及一個(gè)客戶端選擇集St和矩陣Rt。動(dòng)態(tài)向量vcur代表歷史輪次中被選擇參與聯(lián)邦訓(xùn)練的客戶端本地分布的加權(quán)平均值。Rt指的是St中所有向量在行方向上堆疊而成的矩陣,r表示矩陣Rt的行數(shù)。當(dāng)前輪次的客戶端選擇動(dòng)作以歷史選擇為出發(fā)點(diǎn),因此算法首先用動(dòng)態(tài)向量vcur初始化矩陣Rt,并動(dòng)態(tài)尋找適合參與下一輪聯(lián)邦訓(xùn)練的客戶端集。將從N個(gè)客戶端集中選K個(gè)客戶端子集的問題視為從N個(gè)客戶端集中選K次不同的單個(gè)客戶端問題,使得每次選擇客戶端子集的數(shù)據(jù)分布都盡可能的接近目標(biāo)分布。
基于Tanimoto系數(shù)的類平衡選擇算法,這里記為FedSIMT-base,其算法詳細(xì)描述如下面算法1所示。
算法1:基于Tanimoto系數(shù)的類平衡選擇算法(FedSIMT-base)
輸入:客戶端獎(jiǎng)勵(lì)值{rk|k∈K}、目標(biāo)分布vtar、客戶端數(shù)據(jù)分布{vk|k∈K}、動(dòng)態(tài)向量vcur
輸出:St
初始化St=,Rt=[;vcur]
k0=argmaxkrk
St←St∪{k0}
while |St|lt;|K| do
在所有客戶端中選擇kmax=argmaxksimT[rt;vk]r,vtar,k∈K\St
更新St←St∪{kmax},Rt←[Rt;vkmax]
end while
3.2" 基于組合置信上限算法的客戶端選擇算法
基于Tanimoto系數(shù)的類平衡選擇算法可以視為尋找最優(yōu)數(shù)據(jù)分布組合以接近目標(biāo)分布的一種貪心算法。在第4節(jié)的實(shí)驗(yàn)中將指出與FedAvg算法比起來,在局部不平衡數(shù)據(jù)集下FedSIMT-base算法的表現(xiàn)更差,一個(gè)可能的原因是局部不平衡數(shù)據(jù)集下數(shù)據(jù)不平衡程度相對(duì)較小,F(xiàn)edSIMT-base算法對(duì)某些客戶端的選擇過于集中,導(dǎo)致數(shù)據(jù)異質(zhì)性帶來的不利影響小于訓(xùn)練數(shù)據(jù)多樣性不足的影響。而在全局不平衡數(shù)據(jù)集下,數(shù)據(jù)不平衡程度相對(duì)較大,導(dǎo)致數(shù)據(jù)異質(zhì)性帶來的不利影響增大,F(xiàn)edSIMT-base算法的貪心選擇可以一定程度上抵消這種不利影響,效果優(yōu)于FedAvg算法。因此,本文將在FedSIMT-base基礎(chǔ)之上設(shè)計(jì)一種同時(shí)適用于不同數(shù)據(jù)不平衡類型的算法來解決FedSIMT-base算法的不足。
組合多臂老虎機(jī)(combinatorial multi-Armed bandit, CMAB)問題是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問題,該問題由賭場(chǎng)中的老虎機(jī)演變而來,研究如何在與環(huán)境的交互過程中自主尋找最優(yōu)的目標(biāo)組合,目前廣泛應(yīng)用于廣告投放、搜索、推薦等場(chǎng)景。在CMAB模型中包含有限個(gè)基礎(chǔ)臂,每個(gè)基礎(chǔ)臂具有未知的獎(jiǎng)勵(lì)分布,玩家在每個(gè)回合中選擇一個(gè)可能的基礎(chǔ)臂的組合,稱為超級(jí)臂。超級(jí)臂的獎(jiǎng)勵(lì)值與選取的基礎(chǔ)臂相關(guān),每個(gè)回合的獎(jiǎng)勵(lì)值將幫助玩家更新基礎(chǔ)臂的獎(jiǎng)勵(lì)分布,進(jìn)而更新后續(xù)的選擇策略。游戲包含多個(gè)回合使得多輪游戲的累計(jì)總預(yù)期回報(bào)值盡可能的接近最佳超級(jí)臂的累計(jì)期望獎(jiǎng)勵(lì)。
在聯(lián)邦學(xué)習(xí)場(chǎng)景中,服務(wù)器選擇客戶端參與聯(lián)邦訓(xùn)練的過程類似于組合多臂老虎機(jī)問題選擇超級(jí)臂參與游戲的過程。服務(wù)器通過與客戶端的多輪交互,收集到各個(gè)客戶端的獎(jiǎng)勵(lì)分布,在接下來的聯(lián)邦輪次中,服務(wù)器將一方面希望選取歷史記錄中表現(xiàn)最好的客戶端,以獲取最高的收益,即開發(fā);另一方面,又希望嘗試一些尚未受到足夠觀察的客戶端,從而獲取潛在的較高收益,即探索。過度開發(fā)可能導(dǎo)致服務(wù)器錯(cuò)過最優(yōu)的客戶端,過度探索則可能導(dǎo)致服務(wù)器付出更多的學(xué)習(xí)代價(jià),所以,平衡開發(fā)和探索是組合多臂老虎機(jī)問題應(yīng)用于聯(lián)邦學(xué)習(xí)的關(guān)鍵。
因此,將聯(lián)邦學(xué)習(xí)中客戶端選擇問題定義為一個(gè)CMAB問題,以尋找最優(yōu)平衡的客戶端子集,其中每個(gè)客戶端代表一個(gè)手臂,客戶端集代表超級(jí)臂。采用組合置信上限算法(combinatorial upper confidence bounds, CUCB)來解決這類包含非線性獎(jiǎng)勵(lì)函數(shù)的CMAB問題,使得該問題在遺憾邊界為O(logn)的規(guī)模內(nèi)得到解決[25]。CUCB算法將每個(gè)基礎(chǔ)臂的過往觀察的經(jīng)驗(yàn)均值與置信半徑之和視為置信上界,其中置信半徑將隨著被觀察到的次數(shù)的增多而減小。當(dāng)一個(gè)基礎(chǔ)臂被觀察到的次數(shù)較少時(shí),置信半徑較大,這使得置信上界足夠大,于是算法更傾向于選擇這些基礎(chǔ)臂,這是探索思想的體現(xiàn)。當(dāng)基礎(chǔ)臂被觀察到足夠多的次數(shù)時(shí),置信半徑變小,置信上界的值趨近于經(jīng)驗(yàn)均值,進(jìn)而趨近于真實(shí)的期望值,算法將傾向于選擇經(jīng)驗(yàn)均值高的基礎(chǔ)臂,這是開發(fā)思想的體現(xiàn)。因此,本文結(jié)合基于Tanimoto系數(shù)的類平衡選擇算法和CUCB算法設(shè)計(jì)一種客戶端在線智能選擇算法,即FedSIMT。
3.3" 客戶端在線智能選擇算法
在FedSIMT算法中,服務(wù)器端記錄著截止至第t輪聯(lián)邦訓(xùn)練時(shí)客戶端k被選中的次數(shù)fk和動(dòng)態(tài)向量vcur。在第t輪聯(lián)邦訓(xùn)練時(shí),若客戶端k被選中參與本輪訓(xùn)練則fk=fk+1,并更新vcur的值。算法的開始,客戶端先將各自的本地?cái)?shù)據(jù)分布發(fā)送給服務(wù)器,服務(wù)器根據(jù)式(8)生成目標(biāo)分布,然后根據(jù)式(9)計(jì)算客戶端本地?cái)?shù)據(jù)分布和目標(biāo)分布的Tanimoto系數(shù)并將其作為原始獎(jiǎng)勵(lì)值。算法2的第8行中k是CUCB算法根據(jù)客戶端原始獎(jiǎng)勵(lì)值以及參與聯(lián)邦的次數(shù)進(jìn)行擾動(dòng)計(jì)算后的最終獎(jiǎng)勵(lì)值,通過擾動(dòng)促使那些不經(jīng)常被獎(jiǎng)勵(lì)機(jī)制選擇參與聯(lián)邦訓(xùn)練的客戶端有更多機(jī)會(huì)參與到訓(xùn)練中,增加算法的探索性,獲取潛在的最優(yōu)組合的價(jià)值,提升訓(xùn)練模型的魯棒性,其中α是平衡開發(fā)與探索的探索因子。在這里,算法1中的rk將被k替代。算法2的第15行是更新客戶端獎(jiǎng)勵(lì)值的關(guān)鍵,在第t輪聯(lián)邦訓(xùn)練結(jié)束后,被選擇參與聯(lián)邦訓(xùn)練的客戶端的獎(jiǎng)勵(lì)值隨著目標(biāo)任務(wù)的更新而更新。將simT(vcur+vk,vtar)視為客戶端k在t+1輪聯(lián)邦訓(xùn)練時(shí)所能貢獻(xiàn)的獎(jiǎng)勵(lì)值,再將這個(gè)獎(jiǎng)勵(lì)值與歷史的獎(jiǎng)勵(lì)值通過歷史被選擇參與訓(xùn)練的輪次進(jìn)行加權(quán)平均,得到的新值即為客戶端k更新后的獎(jiǎng)勵(lì)值。
客戶端在線智能選擇算法FedSIMT詳細(xì)算法描述如算法2所示。
算法2:客戶端在線選擇算法FedSIMT
客戶端執(zhí)行:
所有參與聯(lián)邦訓(xùn)練的客戶端將本地?cái)?shù)據(jù)分布向量vk發(fā)送給服務(wù)器,其中k∈K
服務(wù)器端執(zhí)行:
vtar←{vk|k∈K}
對(duì)每個(gè)客戶端計(jì)算:rk=simT(vk,vtar),k∈K
初始化wg0,{fk|k∈K}
while true do:
對(duì)每個(gè)客戶端計(jì)算:k=rk+α3lnt2fk
根據(jù)k使用算法1得到客戶端集St
for i∈St in paraller do:
發(fā)送全局模型wgt到客戶端i
wit+1←客戶端i基于本地?cái)?shù)據(jù)執(zhí)行隨機(jī)梯度下降訓(xùn)練
聯(lián)邦更新得到wgt+1
更新{fk|k∈K}, vcur
根據(jù)vcur更新{rk|k∈St}
end while
4" 實(shí)驗(yàn)評(píng)估
為了更好的評(píng)估FedSIMT算法的性能,本文根據(jù)聯(lián)邦學(xué)習(xí)領(lǐng)域中數(shù)據(jù)異構(gòu)性的特點(diǎn)對(duì)算法進(jìn)行驗(yàn)證,針對(duì)不同數(shù)據(jù)不平衡類型進(jìn)行實(shí)驗(yàn),并分析實(shí)驗(yàn)中超參數(shù)對(duì)算法性能的影響。
4.1" 實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)在1臺(tái)NVIDIA 1080Ti GPU 的機(jī)器上使用Pytorch實(shí)現(xiàn),由于計(jì)算資源有限,使用Python線程庫模擬客戶端設(shè)備,每個(gè)線程運(yùn)行一個(gè)客戶端設(shè)備的Pytorch模型。客戶端和服務(wù)器均采用聯(lián)邦訓(xùn)練的輪數(shù)來評(píng)估實(shí)驗(yàn)的訓(xùn)練進(jìn)度,而不是訓(xùn)練過程中本地模型的迭代次數(shù)。并且實(shí)驗(yàn)根據(jù)每個(gè)客戶端的本地樣本數(shù)相對(duì)于全局樣本數(shù)的比值進(jìn)行加權(quán)計(jì)算,從而計(jì)算對(duì)服務(wù)器模型的影響權(quán)重,而不是根據(jù)客戶端數(shù)量進(jìn)行統(tǒng)一加權(quán)。
4.2" 數(shù)據(jù)集和模型
本文采用CIFAR-10數(shù)據(jù)集進(jìn)行驗(yàn)證,它包含了50000個(gè)訓(xùn)練示例圖片和10000個(gè)測(cè)試圖片,每張圖片是尺寸為32×32的三通道RGB圖像,共計(jì)10個(gè)類別。實(shí)驗(yàn)數(shù)據(jù)根據(jù)上文提到的兩種類型的數(shù)據(jù)不平衡分別進(jìn)行劃分,局部不平衡情況參考文[6],全局不平衡情況參考文[7],從而驗(yàn)證兩種數(shù)據(jù)不平衡類型下FedSIMT算法的有效性。
在局部不平衡的情景設(shè)置中,100個(gè)參與聯(lián)邦訓(xùn)練的設(shè)備各自分配500個(gè)樣本,其中80%來自一個(gè)主導(dǎo)類,其余20%均勻的屬于其他類。例如,以“飛機(jī)”為主導(dǎo)類的設(shè)備有400個(gè)標(biāo)簽為“飛機(jī)”的數(shù)據(jù)樣本,其余100個(gè)數(shù)據(jù)樣本的標(biāo)簽均勻分布在其他標(biāo)簽之間。
在全局不平衡的情景設(shè)置中,設(shè)置某些類為少數(shù)類,只有極少的客戶端擁有這些類的標(biāo)簽,并且,在擁有這些少數(shù)類的客戶端設(shè)備中,這些全局少數(shù)類并不是本地少數(shù)類。另外設(shè)置每個(gè)客戶端設(shè)備僅擁有一部分標(biāo)簽的樣本而不是所有類的標(biāo)簽,從而進(jìn)一步提高數(shù)據(jù)不平衡的程度。
本文使用一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)模型,它有3個(gè)3×3卷積層(第1個(gè)有32個(gè)通道,第2個(gè)有64個(gè)通道,第3個(gè)有64個(gè)通道),然后是2×2的最大池化層和兩個(gè)全連接層,并使用ReLU激活函數(shù),批大小設(shè)置為10,本地訓(xùn)練回合數(shù)設(shè)置為5。
為了評(píng)估算法的性能,將FedSIMT算法的實(shí)驗(yàn)結(jié)果分別同F(xiàn)edAvg算法、FedSIMT-base算法進(jìn)行比較,另外局部不平衡的情景設(shè)置下還對(duì)比了文[6]的FAVOR算法,全局不平衡的情景設(shè)置下對(duì)比了文[7]的FedCMAB算法。
4.3" 實(shí)驗(yàn)結(jié)果及分析
首先,針對(duì)FedSIMT算法中每輪選取參與聯(lián)邦訓(xùn)練的設(shè)備數(shù)進(jìn)行實(shí)驗(yàn)。兩種類型的數(shù)據(jù)不平衡情況下探索因子α的取值分別設(shè)置為0.4和0.2,測(cè)試每輪選取參與聯(lián)邦訓(xùn)練的設(shè)備數(shù)為K=10、K=20和K=30三種情況的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖3所示。可以看出,在局部不平衡數(shù)據(jù)集下,當(dāng)每輪選取參與聯(lián)邦訓(xùn)練的設(shè)備數(shù)為10時(shí),由于FedSIMT算法在訓(xùn)練初期已知經(jīng)驗(yàn)太少,全局服務(wù)器在探索的過程中會(huì)選取到相對(duì)不恰當(dāng)?shù)目蛻舳俗蛹?jīng)過一定的通訊輪次后才能找到最佳的客戶端子集,因此在準(zhǔn)確率表現(xiàn)上會(huì)出現(xiàn)一些波動(dòng)。若增加每輪選取的客戶端數(shù),當(dāng)K=20或K=30時(shí),由于參與訓(xùn)練的數(shù)據(jù)變得更加豐富,會(huì)抵消算法在探索階段因?yàn)檫x擇不利帶來的影響,增加容錯(cuò)空間,從而減小準(zhǔn)確率的波動(dòng)。但無論K的取值如何,算法達(dá)到的準(zhǔn)確率相差極小。而在全局不平衡數(shù)據(jù)集下,數(shù)據(jù)異質(zhì)性程度增加,類不平衡的因素表現(xiàn)得更加明顯,隨著每輪選取的客戶端數(shù)的增加,參與訓(xùn)練的樣本種類增多,算法可以達(dá)到更高的準(zhǔn)確率。但是,當(dāng)每輪選取的客戶端數(shù)增加到一定數(shù)量后,算法性能的提升就相對(duì)不那么明顯了。考慮到通訊成本是聯(lián)邦學(xué)習(xí)領(lǐng)域重要的考量因素,因此接下來的實(shí)驗(yàn)設(shè)置中,局部不平衡數(shù)據(jù)集下每輪選取參與聯(lián)邦訓(xùn)練的設(shè)備數(shù)為10,全局不平衡數(shù)據(jù)集下每輪選取參與聯(lián)邦訓(xùn)練的設(shè)備數(shù)為20。
接下來,針對(duì)FedSIMT算法中探索因子α的選取進(jìn)行實(shí)驗(yàn),測(cè)試不同α的取值在兩種類型的數(shù)據(jù)不平衡情況下的影響,試圖找到最優(yōu)α的值,實(shí)驗(yàn)結(jié)果如圖4所示。當(dāng)探索因子α較小時(shí),全局服務(wù)器傾向于選取歷史采樣信息中表現(xiàn)較好的客戶端設(shè)備,即偏向開發(fā),但這可能無法充分探測(cè)到具有潛在高收益的客戶端設(shè)備,從而錯(cuò)過最佳客戶端集。在局部不平衡數(shù)據(jù)集下表現(xiàn)為初期由于探索導(dǎo)致的震蕩較小,并且需要更多通訊輪次的探索才能收斂;在全局不平衡數(shù)據(jù)集下表現(xiàn)為準(zhǔn)確率降低。隨著探索因子α的增加,全局服務(wù)器傾向于選擇被選取次數(shù)較少的客戶端設(shè)備,即探索,但是過多的探索可能會(huì)導(dǎo)致訓(xùn)練模型性能下降,因?yàn)橛糜谔剿鞯目蛻舳丝赡懿⒉豢偸呛线m的。在局部不平衡數(shù)據(jù)集下表現(xiàn)為初期由于探索導(dǎo)致的震蕩較大,但是只需更少通訊輪次的探索就能收斂;在全局不平衡數(shù)據(jù)集下同樣表現(xiàn)為準(zhǔn)確率的降低。因此適當(dāng)?shù)奶剿饕蜃应恋娜≈祵?duì)于提高訓(xùn)練模型收斂性能至關(guān)重要。所以在接下來的實(shí)驗(yàn)設(shè)置中,局部不平衡數(shù)據(jù)集下選取α為0.4,全局不平衡數(shù)據(jù)集下選取α為0.2。
本文給出不同算法在兩種類型的數(shù)據(jù)不平衡情況下的表現(xiàn)結(jié)果,實(shí)驗(yàn)如圖5所示。準(zhǔn)確率結(jié)果取實(shí)驗(yàn)最后10輪數(shù)值的平均值。在局部不平衡數(shù)據(jù)集下,經(jīng)過1500輪聯(lián)邦通訊后,F(xiàn)edAvg算法準(zhǔn)確率為63.11%,F(xiàn)edSIMT-base算法準(zhǔn)確率為61.31%,而FedSIMT算法的準(zhǔn)確率為64.99%,實(shí)驗(yàn)準(zhǔn)確率明顯優(yōu)于其他兩種算法。在全局不平衡數(shù)據(jù)集下,經(jīng)過3000輪聯(lián)邦通訊后,F(xiàn)edAvg算法準(zhǔn)確率為52.59%,F(xiàn)edSIMT-base算法準(zhǔn)確率為59.72%,而FedSIMT算法的準(zhǔn)確率為61.01%,實(shí)驗(yàn)準(zhǔn)確率同樣優(yōu)于其他兩種算法。與此相比,文[7]提出的FedCMAB算法在全局不平衡數(shù)據(jù)集下準(zhǔn)確率為62.55%,盡管這一數(shù)據(jù)比本文提出的方法FedSIMT略高,但這是因?yàn)镕edCMAB算法借助了共享的全局輔助數(shù)據(jù)集。這不僅在聯(lián)邦任務(wù)開始階段增加了上傳數(shù)據(jù)所帶來的通訊開銷,并且違反了聯(lián)邦學(xué)習(xí)的隱私要求,從這個(gè)角度看,F(xiàn)edSIMT算法一定程度上克服上述缺點(diǎn),具有一定優(yōu)勢(shì)。
在收斂速度方面,在局部不平衡數(shù)據(jù)集下考慮算法達(dá)到60%的目標(biāo)準(zhǔn)確率時(shí)所需要的通訊輪次;而在全局不平衡數(shù)據(jù)集下,由于數(shù)據(jù)異質(zhì)性程度更大,F(xiàn)edAvg等算法無法達(dá)到60%的準(zhǔn)確率,因而考慮算法達(dá)到50%的目標(biāo)準(zhǔn)確率時(shí)所需要的通訊輪次,實(shí)驗(yàn)結(jié)果如表1所示。
局部不平衡數(shù)據(jù)集下,F(xiàn)edSIMT相比于FedAvg,節(jié)省通訊輪次的比率是44%,而文[6]提出的FAVOR算法節(jié)省通訊輪次的比率是42%;全局不平衡數(shù)據(jù)集下,F(xiàn)edSIMT相比于FedAvg,節(jié)省通訊輪次的比率是69%,而FedSIMT算法節(jié)省通訊輪次的比率是48%。由此可見,F(xiàn)edSIMT算法在收斂速度方面優(yōu)于FedAvg、FedSIMT-base、FAVOR和FedCMAB。
5" 結(jié)" 論
本文針對(duì)聯(lián)邦學(xué)習(xí)領(lǐng)域中數(shù)據(jù)異構(gòu)性的問題,提出了一種面向不平衡類分布的客戶端在線選擇算法——FedSIMT算法。該算法基于Tanimoto系數(shù)度量本地分布與目標(biāo)分布之間的差距,進(jìn)而解決類不平衡問題,另外采用組合多臂老虎機(jī)模型平衡客戶端設(shè)備選擇的開發(fā)和探索,通過有目的的選擇參與聯(lián)邦訓(xùn)練的客戶端以抵消數(shù)據(jù)異質(zhì)性給模型帶來的偏差。實(shí)驗(yàn)結(jié)果表明,在全局不平衡數(shù)據(jù)集和局部不平衡數(shù)據(jù)集上,模型準(zhǔn)確率及通訊輪次均取得良好的效果。
參 考 文 獻(xiàn):
[1]" MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-Efficient Learning of Deep Networks from Decentralized Data[C]//Artificial Intelligence And Statistics. PMLR, 2017: 1273.
[2]" LUNDERVOLD A S, LUNDERVOLD A. An Overview of Deep Learning In Medical Imaging Focusing on MRI[J]. Zeitschrift Für Medizinische Physik, 2019, 29(2): 102.
[3]" XU J,GLICKSBERG B S, SU C, et al. Federated Learning For Healthcare Informatics[J]. Journal of Healthcare Informatics Research, 2021, 5(1): 1.
[4]" MCMAHAN H B, RAMAGE D, TALWAR K, et al. Learning Differentially Private Recurrent Language Models[C]//International Conference on Learning Representations, 2018.
[5]" AHMED L, AHMAD K, SAID N, et al. Active Learning Based Federated Learning for Waste and Natural Disaster Image Classification[J]. IEEE Access, 2020, 8: 208518.
[6]" WANG H, KAPLAN Z, NIU D, et al. Optimizing Federated Learning on Non-Iid Data with Reinforcement Learning[C]//IEEE INFOCOM 2020-IEEE Conference on Computer Communications. IEEE, 2020: 1698.
[7]" YANG M, WANG X, ZHU H, et al. Federated Learning with Class Imbalance Reduction[C]//2021 29th European Signal Processing Conference (EUSIPCO). IEEE, 2021: 2174.
[8]" ZHANG D, YOU X, LIU S, et al.Multi-colony Ant Colony Optimization Based on Generalized Jaccard Similarity Recommendation Strategy[J]. IEEE Access, 2019, 7: 157303.
[9]" ZHAO Y, LI M, LAI L, et al. Federated Learning with Non-Iid Data[J]. arXiv Preprint arXiv:1806.00582, 2018.
[10]SATTLER F, WIEDEMANN S, MLLER K R, et al. Robust and Communication-efficient Federated Learning from Non-Iid Data[J]. Ieee Transactions on Neural Networks and Learning Systems, 2019, 31(9): 3400.
[11]MOHRI M, SIVEK G, SURESH A T. Agnostic Federated Learning[C]//International Conference on Machine Learning. PMLR, 2019: 4615.
[12]ZHAO Y, LI M, LAI L, et al. Federated Learning with Non-Iid Data[J]. arXiv Preprint arXiv:1806.00582, 2018.
[13]HSU T M H, QI H, BROWN M. Measuring The Effects of Non-Identical Data Distribution for Federated Visual Classification[J].arXiv Preprint arXiv:1909.06335, 2019.
[14]JIANG Z, BALU A, HEGDE C, et al. Collaborative Deep Learning In Fixed Topology Networks[C]// Advances in Neural Information Processing Systems, 2017: 5906.
[15]KOSKELA A,HONKELA A. Learning Rate Adaptation for Federated and Differentially Private Learning[J]. arXiv Preprint arXiv:1809.03832, 2018.
[16]LI T, SAHU A K, ZAHEER M, et al. Federated Optimization in Heterogeneous Networks[C]// Proceedings of Machine Learning and Systems, 2020: 429.
[17]OZDAYI M S, KANTARCIOGLU M, IYER R. Improving Accuracy of Federated Learning in Non-Iid Settings[J]. arXiv Preprint arXiv:2010.15582, 2020.
[18]JEONG E, OH S, KIM H, et al. Communication-efficient On-device Machine Learning: Federated Distillation and Augmentation Under Non-Iid Private Data[J]. arXiv Preprint arXiv:1811.11479, 2018.
[19]DUAN M, LIU D, CHEN X, et al. Astraea: Self-balancing Federated Learning for Improving Classification Accuracy of Mobile Deep Learning Applications[C]//2019 IEEE 37th International Conference On Computer Design (ICCD). IEEE, 2019: 246.
[20]SARKAR D, NARANG A, RAI S. Fed-focal Loss for Imbalanced Data Classification in Federated Learning[J].arXiv Preprint arXiv:2011.06283, 2020.
[21]WANG L, XU S, WANG X, et al. Addressing Class Imbalance in Federated Learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(11): 10165.
[22]BONAWITZ K, EICHNER H,GRIESKAMP W, et al. Towards Federated Learning at Scale: System Design[C]// Proceedings of Machine Learning and Systems, 2019: 374.
[23]WANG L, XU S, WANG X, et al. Towards Class Imbalance in Federated Learning[J]. arXiv Preprint arXiv:2008.66217, 2021.
[24]ANAND R, MEHROTRA K G, MOHAN C K, et al. An Improved Algorithm for Neural Network Classification of Imbalanced Training Sets[J]. IEEE Transactions on Neural Networks, 1993, 4(6): 962.
[25]SHI W, ZHOU S, NIU Z. Device Scheduling With Fast Convergence For Wireless Federated Learning[C]//ICC 2020-2020 IEEE International Conference on Communications (ICC). IEEE, 2020: 1.
(編輯:溫澤宇)