王光輝 白天水 丁爽 何欣



摘 要:物聯網多樣性終端設備在計算、存儲、通信方面的異構性導致聯邦學習效率不足。針對上述聯邦訓練過程中面臨的問題,基于代理選舉思路,提出了一種高效聯邦學習算法。設計了基于馬氏距離的代理節點選舉策略,將設備的計算能力與閑置時長作為選舉因素,選舉性價比高的設備作為代理節點,充分發揮設備計算能力。進一步設計了基于代理節點的新型云邊端聯邦學習架構,提升了異構設備之間的聯邦學習效率。基于MNIST和CIFAR-10公開數據集與智能家居設備真實數據的實驗表明,該聯邦學習方法的效率提高了22%。
關鍵詞:聯邦學習;設備異構;代理選舉;云邊端;高效性
中圖分類號:TP301?? 文獻標志碼:A
文章編號:1001-3695(2024)03-007-0688-06
doi:10.19734/j.issn.1001-3695.2023.06.0297
Efficient and heterogeneous federated learning based on agent election
Wang Guanghui1,2,Bai Tianshui1,Ding Shuang1,2,He Xin1,2
(1.School of Software,Henan University,Kaifeng Henan 475000,China;2.Henan International Joint Laboratory of Intelligent Network Theory & Key Technology,Kaifeng Henan 475000,China)
Abstract:The heterogeneity of diverse end devices in terms of computation,storage,and communication leads to insufficient accuracy and efficiency in federated learning.To address the issues faced in the aforementioned federated training process,this paper presented an efficient federated learning algorithm based on the idea of device agent election.To select agent nodes from diverse devices,it designed a device agent node election strategy based on Mahalanobis distance by considering the devices computational capabilities and idle time as election factors to fully leverage their computing power.Furthermore,it proposed a novel cloud-edge-end federated learning architecture using the agent node to improve the efficiency of federated learning between heterogeneous devices.Experimental results based on the MNIST and CIFAR-10 public datasets and the practical smart home datasets demonstrate that the proposed efficient federated learning algorithm achieves average improvement about 22% in learning efficiency.
Key words:federated learning;device heterogeneity;agent election;cloud-edge-end;efficiency
0 引言
人工智能作為物聯網技術的核心場景,正朝著為人們提供更加舒適、便捷服務的方向發展。物聯網終端設備分布在人們生活中的各個場景,同時伴隨著互聯網的發展逐漸升級為智能化[1]。為了向用戶提供更加智能化與更優質的服務,設備廠商需要通過數字化設備產品收集人們的生活數據(如語音交互數據、電力使用數據、家庭情景模式等)以優化服務模型。然而,這些生活數據對于用戶往往是私密的,所以智能用戶在享受優化模型服務的同時,也面臨著隱私數據泄露的風險[2]。
聯邦學習技術為解決設備場景中的數據隱私保護問題提供了新穎思路。聯邦學習利用原始數據集不出本地的模式保證數據隱私與安全。面向終端設備場景的聯邦學習算法讓模型的訓練在設備端進行,將得到的模型更新傳輸給服務器,從而進行模型的下一步聚合。由于用戶的私密數據不出本地,既可以提供模型優化服務,又可以提升數據隱私與安全等級。
然而,設備場景中設備異構性導致了聯邦學習效率方面的不足。設備產品數量與樣式不斷增加,導致設備節點計算能力與通信能力不一致,因此將聯邦學習思想應用在終端設備之上,需要考慮如何提高訓練模型的準確率以及訓練效率。在訓練通信負載上,云端直接與設備產品通信,交換數據的方式會增加通信負載[3],降低訓練效率。另一方面,智能設備種類與樣式層出不窮,智能設備的計算能力各不相同[4]。此外,無計算能力設備中的數據無法參與到整體模型訓練,導致訓練結果準確率不足。
現有工作已經關注到了異構設備場景中的聯邦學習研究。例如:文獻[5]提出一種拓撲優化方案,減少智能家居終端場景中低性能設備參與訓練時拖慢整體訓練效率問題;為了提高終端設備場景下的聯邦學習效率,Wu等人[6]提出在邊緣客戶端設備添加生成卷積自編碼器以降低通信成本;文獻[7]提出分層模型訓練,并采用從多分支模型出發將全局統一模型拆分為適配不同客戶端資源的子模型序列,提高了客戶端參與度和資源利用效率。然而,針對真實設備的異構性導致的聯邦學習效率不足問題,上述研究方案沒有充分考慮設備的不同計算能力,仍然需要進一步完善。
由于設備間異構性原因,終端設備種類和計算力參差不齊,比如設備間計算力不相同時,在多個設備組成的集群中,訓練效率往往由計算力最低的設備決定。所以為解決設備間異構的情況,本文在終端設備組成的集群中選取一個代理設備,該代理設備擁有集群內較高計算力,能夠通過自身計算力解決集群內的任務下發、模型聚合等工作,減少設備異構性導致訓練低的問題,提高訓練效率;同時在訓練時,代理設備能夠使當前集群內的終端設備先進行集群內訓練,將已經獲得較高準確率的模型通過代理設備再與其他集群或者云端模型聚合,可以減少終端設備的訓練壓力,并且通過代理設備,可以減少每個終端設備間交互過程,減少通信負載,最終提高整體訓練效率。
本文從智能設備代理選舉的角度研究提升聯邦學習效率的新方法。首先,為了充分利用了異構智能設備的不同計算能力,并且保障無算力節點參與聯邦學習,將設備的計算能力與閑置時長作為選舉因素,并設定終端設備為集群場景進行分組,從每個小組集群參與訓練的設備中選舉代理節點,在選舉算法上設計了基于馬氏距離的設備代理節點選舉策略,從多樣性智能設備中選舉代理節點,選舉出的代理節點在計算能力等方面優于其他普通設備,可以讓性能高的設備發揮作用,減少計算資源浪費,提高整體訓練效率。其次,為了提升智能設備場景中聯邦學習效率,基于設備代理節點,設計了一種新型的云邊端聯邦學習架構,借助區域基站和設備代理對學習訓練進行分級逐級聚合,減少了異構性設備的通信與計算開銷。此外,設備代理節點可以收集無計算能力設備數據,并將其數據進行聚合,提升了模型訓練的準確性。本文的貢獻總結如下:
a)從設備代理節點選舉的角度,提出了一種基于代理選舉的高效聯邦學習算法(federated learning with agent election,FedAE),充分利用物聯網多樣性智能設備的計算能力,提升聯邦學習算法的效率。
b)設計了一種基于馬氏距離的設備代理節點選舉策略。設定以終端設備集群分組,從每個集群內參與訓練的終端設備中,根據設備的CPU、空閑時長數據,利用馬氏距離計算設備的性能相似度表征設備的閑置計算能力,以進行代理節點選舉。
c)基于MNIST公開數據集與智能家居設備的真實數據,開展了對比實驗,驗證了本文算法的有效性。
1 相關工作
數據隱私安全促使對聯邦學習的研究成為一個重要課題,并且也廣泛應用于醫療、金融、交通、制造業和其他物聯網領域[8~17]。文獻[5]提出一種拓撲優化方案以減少低性能設備參與訓練時拖慢整體訓練效率問題,但是在智能家居場景下未考慮沒有計算能力設備的情況;文獻[18~20]利用對樣本優化算法和模型聚合過程選擇方法提出了谷歌聯邦學習。這些研究方法若應用到智能設備場景下,由于終端設備數據較多,會增加設備參與訓練的計算復雜度。
現有工作已經對設備的異構性進行聯邦學習開展研究。Cui等人[21]提出利用聚類思想,探索出一種基于迭代自組織數據分析技術算法(ISODATA)的異構感知客戶端調度策略,但是沒有考慮客戶端數據量的問題,若通過該算法統一調度客戶端,會使聯邦學習面臨效率問題。文獻[22]針對智能家居場景,分別提出解決復雜場景架構、區塊鏈與聯邦學習結合保證數據隱私[23]、強化聯邦學習方法以及提高訓練準確性,但這些都沒有考慮在密集情況下的聯邦訓練效率問題。為了提高智能設備場景下的聯邦學習效率,文獻[21,24~27]在設備參與聯邦學習時分別提出解決異構設備影響訓練效率或準確率的方法,但是都沒考慮無計算能力設備如何處理的情況。Liu等人[28]為解決計算能力不一致的問題提出異構模型融合機制(HFL)方法,根據計算能力不同設備訓練不同模型的概念,但如果設備數量很大,需要的模型數量也很大,為最終模型聚合增加了壓力。所以對于密集智能設備環境和設備的多樣性等因素來講,仍然需要進行相關研究。
除以上關于提高聯邦學習效率的相關研究外,也有基于云邊端在聯邦學習下提高學習效率的研究。文獻[29]提出基于云邊端的聯邦學習,從實驗結果可以明顯看出,該架構下對于提升聯邦學習效率和準確性有很大的幫助,但是未將模型分在每一層上進行模型聚合和更新。而文獻[7]提出分層模型訓練,并采用從多分支模型出發將全局統一模型拆分為適配不同客戶端資源的子模型序列,提高了客戶端參與度和資源利用效率。但是在多樣性智能設備場景下,復雜設備中將統一模型拆分會面臨很大的壓力。文獻[30]也采用云邊端分級模型訓練和聚合,但是沒有考慮多樣性智能設備的場景。
綜上述所,本文提出了一種新型適應多樣性智能設備場景下云邊端的架構體系。一方面,利用設備地理位置優勢,單個基站負責所屬設備區域單元,將模型進行分壓訓練聚合,減少通信負載壓力,提高整體聯邦學習效率;另一方面,在子端設定的設備代理可以充分利用閑置計算資源,提高學習效率,設備代理收集無計算能力設備的數據,在解決計算力多樣化場景的同時提高最終訓練的準確性。
2 系統架構和問題設置
2.1 聯邦學習架構
基于代理選舉的新型云邊端架構闡述如下。該架構屬于一種分布式邊緣計算解決架構,多個區域間利用多基站的位置分布,使集群中眾多數量的智能設備終端參與訓練,并將最終模型進行聚合與更新。在聚集的社區環境中,以終端設備集群為單位進行分組,眾多設備所參與的訓練任務由基站發布給設備代理。其次,任務通過設備代理傳遞給智能訓練設備,并將本地更新平均聚合返回給基站。其中,每個設備代理是以設備小組為單位,通過自身設定值和小組其他組成訓練設備空閑情況以決定此設備代理狀態是否參與任務,并且根據參與者的自身計算能力通過選舉算法進行選舉,成為設備代理。然后設備代理將初始模型和任務分發給小組內其他設備,每個設備代理接收空閑智能設備本地更新內容,最終聚合接收到的內容模型平均值。最后設備代理將該模型更新返回給基站進行二次聚合模型平均值,最終基站將聚合后的狀態傳遞給設備代理,由設備代理分發最終模型更新給智能設備。最終生成的模型狀態在基站之間共享。其中,定義ωi、ωj分別表示智能設備本地訓練模型狀態和設備代理的模型更新狀態,ωk(k=1,2,…,O)表示第k個基站的模型狀態,O表示參與訓練的基站的個數。本文中使用的主要符號及其解釋含義如表1所示。
該新型架構的數據交互如圖1所示。其中,任務定義和決定由設備廠商或其他上層機構確定。基站利用自身計算和通信等資源進行臨時領導者選取,該領導者為參與的單元小組的設備代理建立索引,該索引表主要記錄參與訓練的代理選舉的貢獻值,以便之后進行相應的獎勵。單元小組局域網由智能設備客戶端組成,通過設備代理與其他客戶端進行模型訓練以更新聚合。架構的整體流程描述如下:
a)任務分發。基站臨時領導者在確定任務之后,以廣播的方式發送給分組設備代理單元,并建立初始模型狀態ω0。設備代理在接收到基站發布的任務信息時,設備代理單元根據自身的狀態值和獎勵情況確定是否參與此次任務的訓練。并且智能終端設備通過本身的閑置情況來決定是否參與設備代理的訓練任務,并將該決定返回給設備代理,與設備代理其他組成設備共同決定該集群內設備代理的狀態值。參與的設備代理與相應的基站建立通信連接,基站為其注冊到臨時索引表中。
b)本地訓練。智能設備根據模型狀態和數據特征進行本地數據訓練家居模型。擁有計算能力的設備自身進行模型訓練,無計算能力的傳感器數據將通過設備代理進行收集,設備代理將這部分數據與自身的本地數據進行訓練。本地訓練又分為單輪迭代和多輪迭代兩種方式,具體根據設備自身計算能力情況進行選擇。多輪訓練結果相比單論訓練效果更好,但是時間花費較大。最后每個設備將本地模型更新傳送給設備代理。
c)模型聚合。設備代理接收其他設備的本地更新之后,設備代理本身與其他設備進行一次更新的平均匯總,將該聚合后的模型傳送給建立連接的基站,多個基站都接收到相應的平均匯總,基站進行二次模型聚合,并將該聚合狀態返回給參與的設備代理,設備代理再次分發給分組集群內參與的其他終端設備。終端設備進行新一輪的訓練。多個基站之間共享模型狀態。
d)獎勵機制。參與訓練的設備代理免費獲取模型狀態,未參與的設備代理支付相應的金額以獲取模型更新。這部分資金將用于獎勵對模型更新付出巨大貢獻的集群設備代理參與者。
2.2 問題設置
本文旨在提出一種基于代理選舉的高效聯邦學習算法FedAE。基于上述新型聯邦學習架構,充分利用智能設備場景中多樣設備的計算能力,提升聯邦學習的精確性與效率。具體地,FedAE需要達到的目標如下:
a)高效性。通過提出基于代理選舉的云邊端體系結構,充分利用空閑資源設備進行分布式云邊端訓練模型,提高聯邦學習效率。并提出基于架構模型的設備代理FedAE算法,保證在設備密集和異構場景下能夠進行高效的聯邦訓練。
b)隱私性。在終端設備集群為單元的網絡中,用戶數據始終不出集群內部網絡,只將集群內設備訓練后的模型更新傳送出去,極大地保護了智能設備中的數據。
c)準確性。單個集群設備群的感知具有局限性,多個集群的模型進行聚合得到的最后結果可以使單個設備具有更準確的模型結果。并在集群內指定設備代理,以適應不具有計算力的設備參與訓練的情況,提高模型結果的準確性。
3 FedAE算法設計
3.1 算法基本思想
FedAE算法的設計主要針對密集居住社區環境中設備數量較多的場景,解決數據通信瓶頸,提高學習效率。在以終端設備集群為單位的設備組合中,以設備的計算能力以及每天的空閑時長兩個屬性為依據,通過選舉算法計算每個設備的權重值,將權重值最大的設備設定為設備代理,之后通過閑置算力設備進行本地訓練和設備代理的模型聚合,最后在通信基站中進行二次模型平均。在智能設備產品中,利用閑置算力訓練本地數據,將模型更新上傳至設備代理。設備代理進行單位內的一次模型聚合平均,并與其他設備將該模型重復迭代。設備代理每次迭代過程中,將該輪的最新模型傳輸到基站中,基站進行二次模型的聚合平均。基站之間定期進行模型共享,更新最新模型數據,提高學習效率。與傳統FedSGD和FedAvg算法相比,FedAE能夠解決傳輸過程中數據量大的問題。
3.2 本地計算
設備通過當前模型狀態和本地數據進行模型計算,當f(ω)=1n∑ni=1fi(ω)時,目標函數f(ω)如式(1)所示,對于一般機器學習fi(ω)=l(xi,yi,ω)。其中:損失函數(xi,yi)由ω決定,表示預測局部數據的損失;D表示設備收集的本地數據。
每個設備包括設備代理在內的設備都以此進行梯度下降訓練,得到集群中最新模型數據。
3.3 設備代理選舉
根據代理選舉的云邊端總體架構,邊緣端的組成是智能設備,并且提出通過選舉策略選舉出設備代理(臨時服務器),如圖2所示。具體實現方式為:在每個集群組成的設備中,為獲取設備的閑置計算力,通過采集設備自有屬性(CPU刷新頻率)、空閑時間(h)兩個變量來計算每個設備的權重值,規則為當CPU頻率以及閑置時長均大于各自均值的情況下,當權重值越大時,設備的計算能力越大、閑置時間越長。
具體的權重值計算利用馬氏距離算法,該算法是一種表示數據間協方差距離的算法,可以通過設備的CPU、空閑時長數據計算兩個設備的性能相似度。每個設備的權重值為該設備與其他所有設備的馬氏距離之和。當計算得到的權重值越大時,代表該設備性能分布屬于離群分布點,并且當兩個變量的數據都大于各自均值時,表示性能指標越大,閑置計算能力越多,利用該設備充當設備代理時,可減少資源浪費,提高訓練效率以及準確率。
假設兩個設備為u=(uCPU,uH),v=(vCPU,vH),每個設備包含兩個變量,分別為CPU核數以及每天平均空閑時長。由于兩個變量之間沒有相關性,所以在計算馬氏距離的時候,先進行坐標旋轉,也可稱作主成分分析,坐標旋轉時將原始坐標點通過一個正交矩陣旋轉到新的坐標中,最后馬氏距離的計算可以等價于點u壓縮后的坐標值到數據重心v壓縮后的坐標值的歐氏距離計算。所以u與v的協方差計算公式為
3.4 模型聚合
本地更新第一次聚合,通過設備代理進行集群內的一次積累本地更新,并且設備代理平均該積累后的模型如式(7)所示。每個設備代理循環迭代出一個最新模型。
ωs= ∑Ni=1ωiN(7)
底層集群設備代理之間聚合模型。設備代理間經過通信定期共享模型狀態,設備代理再次聚合獲得訓練狀態ω′。
ω′ = ∑Pj=1ωjP(8)
同樣地,通信基站中進行二次更新聚合。基站積累設備代理傳入的最新結果模型并且第二次平均積累后的設備代理更新,同樣,基站迭代平均設備代理的模型結果如式(9)所示。
ωT= ∑Mj=1ωjM(9)
高層聚合模型狀態。與設備代理一樣,基站定期共享最新模型狀態,聚合最終模型更新,如式(10)所示。
ω″=∑Ok=1ωkO(10)
算法1給出了FedAE相應的偽代碼。在數據量巨大的情況下,該算法應用代理選舉的云邊端架構,利用閑置設備計算時間,提高該模型的學習效率。數據在設備產品本地進行計算,通過設備代理和基站兩次模型平均聚合以提高學習效率。
算法1 基于云邊端的設備代理選舉聯邦學習
輸入:MINST數據集;初始模型ω0;基站數量O;基站迭代次數M;終端設備數量P;終端設備迭代次數N;學習效率ηi;用于代理設備選舉的計算屬性u與空閑時長v。
輸出:最終全局模型。
云端服務器將訓練任務下發,并下發初始模型ω0
4 實驗評估
4.1 實驗設置
本文為驗證FedAE算法的有效性,采用實驗環境為:CPU為Intel Core i7-1165G7 @2.80 GHz、GPU為NVIDIA GeForce MX450、RAM為16 GB的配置機器上運行實驗流程,軟件環境信息為Python 3.9。
采用公開數據集MNIST進行驗證,該數據集含有6 000張訓練圖像數據用于輸入聯邦訓練實驗,并且設定該實驗的參與設備不存在惡意節點。根據算法1設計2個云端,2個邊緣基站,通過總數為50、100、200個設備分別驗證。在集群分組上,以家庭為集群進行分組,其中設定每個家庭集群擁有5個終端設備,當進行本地訓練時,每次迭代時間為0.5 s,基本通信耗時常量0.02 s;選舉由設備在家庭集群節點內完成本地訓練以及在家庭集群設備代理上完成模型聚合的任務。
根據實驗算法,在該實驗中區分設備代理與其他設備,通過增加本地迭代次數表示家庭設備代理收集并訓練傳感器設備數據來表示設備代理角色;然后將多個設備代理訓練好的模型更新再次與基站通信,進行模型平均,完成第二次的訓練;最終由多個基站的模型更新在云端進行模型的聚合,完成整個訓練流程,得到最終訓練結果。
實驗對比方案包括經典聯邦學習算法的FedSGD、FedAvg以及基于異構分層聯邦訓練算法[7]。在實驗中,為了表現選舉算法的有效性,將隨機指定代理選舉的FedAE-Random算法參與對比。隨機指定設備代理算法在實驗中只在家庭單元中進行聚合過程,沒有收集傳感器設備數據參與到訓練過程。最終實驗通過在參與客戶端迭代輪次為200時的情況下,將每次訓練后的準確率進行記錄。
對于MNIST數據集,對數字0~9進行分類,然后將手寫數字圖片進行分類,通過算法進行分類后的圖片是否正確匹配到對應數據的結果來驗證本文算法的準確率。并且采用CIFAR-10復雜RGB彩色圖片數據集進行驗證,將這些分為10類的圖片利用FedAE算法進行劃分,以此驗證FedAE算法在進行復雜圖片分類時的可靠性。CIFAR-10數據集的分類標簽以及圖片如圖3所示。
4.2 設備代理設置
引入選舉策略,通過選舉后的設備代理用于訓練過程并與其他算法對比。根據智能家居真實場景下常用的智能設備,假設定義五種設備,通過調查以及統計方法得到對應的CPU刷新頻率和設備每天平均空閑時長,真實統計信息如表2所示。
通過權重式(6),計算出各個智能設備的權重值如表3所示。由此得出,在單元家庭中設定電腦PC為設備代理,在每個家庭分組中將采集到沒有計算能力的設備數據在電腦PC上進行本地訓練,并與其他設備進行更新聚合,最終將訓練后的結果與邊緣基站通信參與到云邊端的架構中。
4.3 實驗結果
在不同參與客戶設備規模下,利用訓練數據集訓練后的模型將測試數據集的圖片進行分類。例如對于MNIST數據集,輸入一張手寫圖片,對比結果是否匹配到對應的標簽下;對于CIFAR-10數據集,輸入包含車輛的彩色圖片,對比結果是否匹配到車輛標簽中,以此對比算法的有效性,并分別統計FedAE算法與對比算法的準確率、效率以及隱私結果,分析FedAE在各個方面對比其他算法表現的差異。
在MNIST數據集上驗證訓練結果的準確性,通過不同規模的客戶端參與量進行對比,結果如圖4~6所示。由圖4~6可以看出,對應的幾種算法所表現的趨勢是一致的,但訓練的準確率在參與迭代次數的縱向上來看并不相同。在不同參與規模下,準確率均趨于收斂,但對比FedAvg與其他分層算法,FedAvg與FedAvg-Random算法的實驗準確率在訓練200輪后依然分別平均提高了4‰和5‰,表現優于對比算法。對比分層異構聯邦訓練結果,FedAE更能反映當在云邊端的架構中引入設備代理參與訓練后的優越性,表現出FedAE算法在解決異構環境下充分利用對端的計算能力,提高模型訓練的整體準確率。并由此可以得到,在訓練結果達到同一準確率的同時,FedAE算法所需的訓練輪次少于其他算法,說明了FedAE算法的高效性。此外,對比FedAE與FedAE-Random,采用選舉后的算法訓練后的準確率高于之前隨機指定的設備代理,并且在通信輪次達到200時,選舉后的算法依然高于選舉前2‰,結果表明通過設備的自有屬性計算出的權重值可以提高訓練效率。
當采用更復雜的數據集CIFAR-10驗證訓練結果的準確性時,在客戶端數量為100,通信為100輪,其他條件不變的情況下,驗證FedAE算法在復雜數據集上的表現,將每10輪準確率取平均值繪出折線圖,可更直觀地看出每種算法的訓練趨勢,結果如圖7所示。由圖7可以看出,在訓練輪次相同的情況下,FedAE算法優于其他算法。在每輪評估準確率的時候都會有很大的波動,這是由于為設置設定的學習率引起的,過小的學習率會導致收斂速度很慢,所以為適應FedAE算法,將學習率設定為0.01;FedAvg和分層算法在模型更新的時候由于收斂速度過大,導致錯過最好的點,會出現了圖上的交叉點。從圖7可以看出,相較于其他算法,FedAE算法在整體上準確率都處于領先地位。由此,通過在兩個數據集上的實驗驗證了FedAE算法的有效性。由實驗結果圖4~7并通過分析可知,每輪訓練結果的準確率提升平均在7‰,這是由于聯邦訓練算法的訓練結果的準確率都趨于平穩且趨于收斂。通過分析前200輪的結果,對比其他算法,本文提出的FedHA算法在達到相同準確率的情況下,所需的訓練輪次更少,由此驗證了FedHA的高效性。
此外,本文還通過計算訓練消耗時長驗證了評估算法的高效性,實驗結果如圖8所示。通過模擬設備訓練場景,在參與客戶端進行訓練時,將FedAE與FedAvg和異構分層聯邦算法在達到一定準確率時的時長消耗作對比。在訓練結果準確率達到90%時,FedAE與FedAvg以及對比實驗在效率上分別提高了25.7%和18.3%,而異構分層聯邦算法并不能很好地適應密集環境下的多樣性設備場景。可見相較于其他算法,本文算法在訓練過程中時間消耗更短,訓練效率更高。由此表明通過引入家庭設備代理,進而充分利用家庭設備計算力,可提高整體訓練效率。
在聯邦訓練過程中,對于數據隱私保護效果如圖9所示。由于運用數據不出設備本地的聯邦訓練思想,所以FedAE算法在FedAvg算法的基礎上進行了修改,進而使隱私保護結果與FedSGD與FedAvg算法表現一致。隨著參與訓練設備的增加,隱私保護效果也在不斷增加。在參與訓練的智能設備較少時,根據文獻[32]可知,數據隱私會存在對應的泄露風險。當參與訓練的設備不斷增加之后,數據安全性也得到提高,最終會隨著參與設備數量的增加接近沒有數據從本地傳輸出去的情況,如圖中綠色線條所示(見電子版)。
通過對算法實驗結果在各個方面的對比,對于準確率的實驗,現有算法在訓練達到一定輪次時,準確率會趨于穩定。本文通過分析前200輪訓練的結果可知,在保證數據隱私安全的情況下,在訓練初始階段,本文算法在達到與其他算法相同準確率時,所需訓練輪次更少,并且耗時最短,所以本文算法在訓練效率上有所提高。
5 結束語
聯邦學習是智能設備領域中重要的數據隱私保護計算技術。智能設備異構場景中存在多種多樣的終端設備,導致了聯邦學習客戶端的異構性,影響了聯邦學習的精確性與效率。本文提出從設備中選舉代理節點的思路,研究提升聯邦學習效率與精確性的新方法,設計了一種基于代理選舉的高效聯邦學習算法FedAE。首先,設計了一種基于馬氏距離的設備代理節點選舉策略,從多樣性的智能設備中選出設備代理節點,充分利用設備的計算能力;其次,本文設計了一種基于設備代理選舉的新型云邊端學習架構,將設備本地數據進行分級迭代聚合,減少了通信壓力,提高了聯邦學習效率。通過設備代理節點可以收集無計算能力設備的數據進行模型聚合,提高了聯邦學習的精確性。基于MNIST和CIFAR-10公開數據集以及智能設備的真實數據進行仿真實驗,相比于現有方案,本文提出的高效聯邦學習算法在準確率和學習效率方面具有優勢。
參考文獻:
[1]Razmjoo A,Gandomi A,Mahlooji M,et al.An investigation of the policies and crucial sectors of smart cities based on IoT application[J].Applied Sciences,2022,12(5):2672.
[2]張文平.大數據背景下的物聯網智能家居研究[J].電子元器件與信息技術,2022,6(1):85-86.(Zhang Wenping.Research on IoT smart homes in the context of big data[J].Electronic Components and Information Technology,2022,6(1):85-86.)
[3]Lee S,Choi D H.Federated reinforcement learning for energy management of multiple smart homes with distributed energy resources[J].IEEE Trans on Industrial Informatics,2020,18(1):488-497.
[4]Aivodji U M,Gambs S,Martin A.IOTFLA:a secured and privacy-preserving smart home architecture implementing federated learning[C]//Proc of IEEE Security and Privacy Workshops.Piscataway,NJ:IEEE Press,2019:175-180.
[5]Huang Shanfeng,Zhang Zezhong,Wang Shuai,et al.Accelerating federated edge learning via topology optimization[J].IEEE Internet of Things Journal,2023,10(3):2056-2070.
[6]Wu Qiong,Chen Xu,Zhou Zhi,et al.FedHome:cloud-edge based personalized federated learning for in-home health monitoring[J].IEEE Trans on Mobile Computing,2022,21(8):2818-2832.
[7]鐘正儀,包衛東,王吉,等.一種面向云邊端系統的分層異構聯邦學習方法[J].計算機研究與發展,2022,59(11):2408-2422.(Zhong Zhengyi,Bao Weidong,Wang Ji,et al.A hierarchical heterogeneous federated learning method for cloud edge systems[J].Computer Research and Development,2022,59(11):2408-2422.)
[8]Hegiste V,Legler T,Ruskowski M.Application of federated machine learning in manufacturing [C]//Proc of International Conference on Industry 4.0 Technology.Piscataway,NJ:IEEE Press,2022:1-8.
[9]Wu Guangjun,Wang Shupeng,Ning Zhaolong.Blockchain-enabled privacy-preserving access control for data publishing and sharing in the Internet of Medical Things[J].IEEE Internet of Things Journal,2021,9(11):8091-8104.
[10]Zhang Chi,Liu Yu,Wang Le,et al.Joint intelligence ranking by fede-rated multiplicative update[J].IEEE Intelligent Systems,2020,35(4):15-24.
[11]Pokhrel S R,Choi J.Federated learning with blockchain for autonomous vehicles:analysis and design[J].IEEE Trans on Communications,2020,68(8):4734-4746.
[12]Elbir A M,Soner B,Coleri S,et al.Federated learning in vehicular networks[C]//Proc of IEEE International Mediterranean Conference on Communications and Networking.Piscataway,NJ:IEEE Press,2022:72-77.
[13]Sabuj S R,Elaharief M,Jo H S.A partial federated learning model in cognitive UAV-enabled edge computing networks[C]//Proc of the 13th International Conference on Information and Communication Technology Convergence.Piscataway,NJ:IEEE Press,2022:1437-1440.
[14]Ying Chenchao,Jin Haiming,Wang Xudong,et al.Double insurance:incentivized federated learning with differential privacy in mobile crowdsensing[C]//Proc of International Symposium on Reliable Distributed Systems.Piscataway,NJ:IEEE Press,2020:81-90.
[15]Putjorn P.Designing augmented learning platform with IoT and Chatbot-based learning technology for primary school students in northern Thailand[C]//Proc of the 6th International Conference on Information Technology.Piscataway,NJ:IEEE Press,2022:275-279.
[16]Saranya M,Amutha B,Niranjana T.AI buildings:design of artificially intelligent buildings in the energy sector with an autonomous federated learning approach[C]//Proc of the 6th International Conference on ISMAC.Piscataway,NJ:IEEE Press,2022:686-694.
[17]Su Zhou,Wang Yuntao,Luan T H,et al.Secure and efficient federated learning for smart grid with edge-cloud collaboration[J].IEEE Trans on Industrial Informatics,2021,18(2):1333-134.
[18]Ye Dongdong,Yu Rong,Pan Miao,et al.Federated learning in vehicular edge computing:a selective model aggregation approach[J].IEEE Access,2020,8:23920-23935.
[19]Cai Lingshuang,Lin Di,Zhang Jiale,et al.Dynamic sample selection for federated learning with heterogeneous data in fog computing[C]//Proc of IEEE International Conference on Communications.Pisca-taway,NJ:IEEE Press,2020:1-6.
[20]Cao Jiayu,Zhang Ke,Wu Fan,et al.Learning cooperation schemes for mobile edge computing empowered Internet of Vehicles[C]//Proc of IEEE Wireless Communications and Networking Conference.Pisca-taway,NJ:IEEE Press,2020:1-6.
[21]Cui Yangguang,Cao Kun,Cao Guitao,et al.Client scheduling and resource management for efficient training in heterogeneous IoT-edge federated learning[J].IEEE Trans on Computer-Aided Design of Integrated Circuits and Systems,2021,41(8):2407-2420.
[22]Yu Tianlong,Li Tian,Sun Yuqiong,et al.Learning context-aware policies from multiple smart homes via federated multi-task learning[C]//Proc of the 5th International Conference on Internet-of-Things Design and Implementation.Piscataway,NJ:IEEE Press,2020:104-115.
[23]Zhao Yang,Zhao Jun,Jiang Linshan,et al.Privacy-preserving blockchain-based federated learning for IoT devices[J].IEEE Internet of Things Journal,2020,8(3):1817-1829.
[24]Wang K I K,Ye Xiaozhou,Sakurai K,et al.Federated learning with clustering-based participant selection for IoT applications[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2022:6830-6831.
[25]Zhang Tao,Song Anxiao,Dong Xuewen,et al.Privacy-preserving asynchronous grouped federated learning for IoT[J].IEEE Internet of Things Journal,2021,9(7):5511-5523.
[26]Salh A,Ngah R,Audah L,et al.Energy-efficient federated learning with resource allocation for green IoT edge intelligence in B5G[J].IEEE Access,2023,11:16353-16367.
[27]Lu Xiaofeng,Liao Yuying,Liu Chao,et al.Heterogeneous model fusion federated learning mechanism based on model mapping[J].IEEE Internet of Things Journal,2021,9(8):6058-6068.
[28]Liu Lumin,Zhang Jun,Song S H,et al.Client-edge-cloud hierarchical federated learning[C]//Proc of IEEE International Conference on Communications.Piscataway,NJ:IEEE Press,2020:1-6.
[29]路松峰,屠向陽,周軍龍,等.云邊端協同的增量聯邦學習算法[J].華中科技大學學報:自然科學版,2023,51(10):12-18.(Lu Songfeng,Tu Xiangyang,Zhou Junlong,et al.Incremental federated learning algorithm for cloud-edge-device collaboration[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2023,51(10):12-18.)
[30]Zhu Ligeng,Liu Zhijian,Han Song.Deep leakage from gradients[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:14774-14784.