基于DRL 的聯邦學習節點選擇方法

2021-07-16 13:04:58賀文晨郭少勇邱雪松陳連棟張素香

通信學報 2021年6期

賀文晨，郭少勇，邱雪松，陳連棟，張素香

（1.北京郵電大學網絡與交換技術國家重點實驗室，北京 100876；2.國網河北信息通信分公司，河北石家莊 050011；3.國家電網有限公司信息通信分公司，北京 100761）

1 引言

隨著邊緣智能[1]概念的提出，越來越多的智能化應用將在邊緣側訓練和執行。傳統的云智能[2]采用將原始數據上傳至云中心進行模型訓練的方式，存在高傳輸時延、用戶隱私泄露等弊端。為解決這一問題，基于聯邦學習（FL,federated learning）的分布式模型訓練架構應運而生。

在基于FL 的分布式訓練架構下，邊緣側終端設備可以利用自身采集數據在本地執行訓練任務，然后將訓練好的本地模型參數上傳至云服務器進行模型聚合。相比直接上傳原始訓練數據，該架構選擇上傳訓練之后的模型參數，能有效降低數據傳輸成本，同時保護用戶隱私[3]。然而，終端設備上的數據集大小往往是不同的，數據也可能不滿足獨立同分布特性，這使本地模型的訓練質量存在差異[4]。同時，邊緣側終端設備并不是完全可信的，存在一些惡意節點篡改訓練結果，上傳錯誤參數進而降低FL 性能。此外，終端設備多樣異構的計算資源和傳輸時間對FL 的效率也具有較大影響[5]。因此，如何合理選擇設備集合參與模型聚合，以提高FL 效率和準確率成為一個亟待解決的問題。

由于能提供有效的隱私保護和高效的模型訓練方式，FL 得到了越來越多的關注。Shi 等[6]提出了一種帶寬分配和設備調度的聯合優化模型，并通過解耦為2 個子問題來提高FL 效率，但該方法僅根據訓練時間來選擇設備，忽略了設備的本地訓練質量。Ren 等[7]設計了一個新的概率調度框架來調度多個邊緣設備參與FL 模型聚合，該框架能有效提高模型訓練的準確率，但是對設備異質的計算能力和訓練時間考慮不足，可能會導致較大的時延。Chen 等[8]構建了一個無線資源分配和節點選擇的聯合優化問題，并提出了一種依概率選擇節點的方法。Wu 等[9]設計了一個多層FL 協議，依概率引入區域松弛因子后完成節點選擇。但上述方案依賴概率進行節點選擇，忽略了節點本身計算、通信能力等方面的差異。Kang 等[10]引入聲譽作為衡量移動設備可靠性和可信度的指標，并設計了一個基于聲譽的可靠FL 設備選擇方案，從而有效地保證模型精度和可靠性。Lu 等[11]揭示了本地訓練方法和不進行節點篩選的FL 訓練方法在訓練精度和時延等方面的不足，在此基礎上提出了一種用于車聯網中資源共享的FL 方案，該方案綜合考慮訓練時間和精度，通過選擇精確度高、訓練速度快的設備完成模型聚合。但上述方法均忽略了非獨立同分布數據帶來的影響。Yoshida 等[12]考慮非獨立同分布數據對訓練性能的影響，設計了啟發式算法解決終端設備和數據選擇問題，但其節點選擇算法的性能還有待改進。此外，由于資源分配和能耗管理也對FL性能有很大影響，有許多針對這方面的研究工作已陸續展開[13-16]，通過優化終端設備的無線、計算資源分配和能耗來支撐FL。但上述工作偏向于提高資源利用率及設備節能，難以兼顧FL 本身性能。另一方面，在針對諸如節點選擇等NP 問題時，孟洛明等[17]基于禁忌搜索算法進行求解，并在有限時間內獲取近似最優解。李枝靈等[18]設計了一種基于免疫算法的接入點選擇方法，以提高求解效率。但上述方法缺少學習能力，難以適應復雜且動態變化的邊緣網絡環境。已有許多文獻[19-21]采用如Q 學習、深度Q 網絡等深度學習算法進行求解，但這些方法存在學習率確定難、收斂速度慢等問題。因此，在FL 的設備節點選擇過程中，仍存在以下問題需要進一步解決：1) 忽略終端設備異構的數據質量及訓練能力；2) 面對復雜動態的網絡環境，缺乏高效的方法獲取最優節點集合。

為解決以上問題，本文主要的研究工作如下。

1) 首先，建立了基于深度強化學習（DRL,deep reinforcement learning）的FL 分布式訓練系統架構，實現惡意節點的篩查和異構設備節點的選擇。其次，構建面向節點選擇的準確率最優化問題模型，該問題以最小化每次FL 迭代過程中參與設備的總體損失函數為目標，并滿足包含傳輸和計算時延的約束。

2) 設計了基于分布式近端策略優化（DPPO,distributed proximal policy optimization）的節點選擇算法。將FL 中設備節點選擇問題構建為馬爾可夫決策過程（MDP,Markov decision process），定義動作、狀態空間和獎勵函數?；诙嗑€程和PPO 算法思想，設計了基于DPPO 的節點選擇算法對優化問題進行求解。

3) 基于多種數據集和多樣化訓練任務，對所提最優化問題模型和算法進行了仿真實驗驗證。結果表明，本文所提模型和算法在面對差異化數據質量和設備訓練能力時，具有更好的準確率和時延性能，同時有良好的收斂性和穩健性。

2 系統模型

本文構建的系統架構如圖1 所示。FL 任務實現流程主要包括模型的本地訓練、參數上傳、模型聚合以及參數下發。與傳統FL 分布式訓練架構不同，本文基于DRL 的節點選擇對模型聚合模塊進行改進，在權值聚合之前，基于DRL 的節點選擇能合理選擇具備計算能力強、訓練質量高的設備參與模型聚合，進而有效提高FL 性能。

圖1 基于DRL 的FL 架構

2.1 網絡架構

網絡由終端設備、微基站、宏基站和對應的移動邊緣計算（MEC,mobile edge computing）服務器組成。宏基站內的MEC 服務器具有強大的計算和通信資源。令Z表示微基站內MEC 服務器集合，每一個MEC 服務器z∈Z具有一定的計算能力，并通過與其相連的基站來覆蓋數個終端設備。終端設備的集合用D表示，令Hz,d={x z,d,yz,d}表示被MEC 服務器z覆蓋的終端d的數據集。針對諸如路徑選擇、圖像識別等學習任務i∈I，其目的是從終端設備的數據集合Hz,d={x z,d,yz,d}中學習與任務相關的模型M。本文定義FL 任務i的屬性集合為Ωi={Z i,Di,C i,}，其中，Zi和iD分別表示與任務i相關的MEC 服務器和終端設備的集合，Ci為該FL 模型計算數據集中一組數據所需的CPU 周期數，為該FL 任務的初始模型。具體系統參數設置如表1 所示。

表1 系統參數

2.2 FL 訓練機制

本地訓練。對于一個FL 任務i∈I，定義與該任務相關的總數據集為

終端設備d在執行FL 任務i的本地訓練時的損失函數(x z,d,y z,d;ωz,d)定義為它在樣本數據集Hz,d上的預測值與實際值之差，因此FL 任務i在所有數據集上的損失函數可以定義為

其中，ω表示當前要訓練的模型的權值，表示該任務數據集大小。FL 的目的是通過最小化任務的損失函數Li(ω) 來優化全局模型參數，表示為

本文的FL 的參數更新方法為隨機梯度下降（SGD,stochastic gradient descent），即每次隨機選擇數據集中的一條數據{x z,d,yz,d}進行更新。這種方法大大降低了計算量，但由于其隨機性使本地模型需要進行足夠的本地訓練量以保證模型質量。模型參數的更新表示為

其中，η表示參數更新時的學習率，n∈N表示訓練的迭代次數。

模型聚合。當上傳的本地模型達到一定數量或者迭代次數N后，宏基站處的MEC 服務器將對得到的本地模型執行全局模型聚合，具體的權值聚合表示為

2.3 節點選擇問題描述

設備節點的選擇受諸多因素影響。首先，終端設備差異化的計算和通信能力直接影響本地訓練和數據傳輸時延。其次，終端設備上攜帶的數據集大小不同，數據也可能不滿足獨立同分布的特性，這使本地模型的訓練質量存在差異。因此，本文構建了面向節點選擇的準確率最優問題模型。

準確率。對于一個FL 任務i∈I，其訓練質量定義為聚合后的全局模型在測試數據集上的測試準確率，本文使用測試數據集的損失函數之和表示測試準確率，即

時延。FL 每一次模型聚合的總時延包括數據在終端設備上的訓練時延和在鏈路上的傳輸時延。FL 任務i的參數數據在終端設備與微基站間以及微基站與宏基站間傳輸速率可分別表示為

其中，Bd和Bz分別表示設備與微基站間以及微基站與宏基站間的可用帶寬，Gd和Gz分別表示設備和微基站的信道增益，p d和pz分別表示設備和微基站的發射功率，N0表示噪聲功率譜密度。

因此，設備將本地參數上傳至模型匯聚服務器的總傳輸時間為

綜上，面向節點選擇的準確率最優化問題模型可以表示為

對于一個FL 任務i∈I，節點選擇問題可以概括為每次迭代時選擇節點集Di∈D，使本次訓練的準確率最優，即總損失函數最小，同時將訓練和傳輸時延控制在一定范圍內?？梢钥闯?，上述問題屬于典型的NP 問題。

3 基于DRL 的FL 節點選擇方法

3.1 算法機理描述

在復雜多變的邊緣網絡中，節點選擇策略需要隨著環境狀態信息的變化而發生改變，基于DRL的節點選擇框架能通過不斷與環境的交互，學習節點選擇策略以獲得最大回報[22-23]。本文提出的基于DRL 的節點選擇框架如圖2(a)所示，包括3 個部分：環境、代理和獎勵。環境主要包括網絡狀態、終端設備以及目標模型信息。代理與環境進行交互，從一個狀態出發，根據自己的策略分布選擇動作，并獲得獎勵。代理獲得的動作、獎勵及環境狀態組成批量樣本來更新演員?評論家（AC,actor-critic）網絡。

邊緣網絡中參與FL 訓練的終端設備往往數量眾多，在應對節點選擇問題時，傳統的AC 算法由于學習率難以確定，易導致收斂速度過慢或過早收斂等弊端，同時算法收斂性能也有待提高。因此本文基于多線程與PPO 算法設計的思想，設計了基于DPPO 的節點選擇算法，如圖2(b)所示。PPO 作為一種基于AC 框架的強化學習算法，通過采用正則項的方式限制策略更新幅度，解決了傳統策略梯度更新步長難以確定的問題[24]。為進一步提高收斂速度，基于DPPO的節點選擇算法使用多個線程在環境中收集數據，且多個線程共享一個全局PPO 網絡。

圖2 基于DRL 的FL 節點選擇方法

本文首先將FL 節點選擇問題表述為一個MDP模型，然后設計了基于DPPO 的節點選擇算法對問題進行了求解，具體設計如下。

3.2 MDP 模型

狀態空間。t時刻環境狀態可由一個四元組表示，其中，Φ i表示FL 任務i的信息，表示終端設備在t時刻可用于FL 任務i的資源，表示終端設備在上一時刻的數據集，表示上一時刻的節點選擇方案。

動作空間。在進行每步動作選擇時，代理只被允許采用一種節點選擇方案，將FL 任務i在t時刻的節點選擇方案建模為一個 0-1 二進制向量，其中，表示編號為d的設備在此次節點選擇中被選中，反之則表示未被選中。因此，經節點選擇后權值聚合表示為

獎勵函數。當代理根據某個節點選擇策略執行某步動作后，環境信息會隨之變化并得到一個用于評價本次行為的獎勵值。本文考慮基于FL 的測試準確率設計獎勵函數，并設置最大時延作為每步動作選擇的約束，獎勵函數表示為

上述執行動作來源是一個策略π，π是狀態空間到動作空間的一個映射，即

MDP 模型的目標是得到一個優化策略，即在相應的狀態根據該策略采用相應動作后，使強化學習的目標?累積回報的期望最大，即求解

其中，σt為折扣因子，其值隨時間增加而減小。

3.3 基于DPPO 的FL 節點選擇算法

全局PPO 網絡中包含2 個Actor 網絡（Actor1和Actor2）以及一個Critic 網絡。Actor1代表當前最新的策略π并負責指導各線程與環境交互。Critic網絡根據代理執行節點選擇動作后獲得的獎勵對當前策略進行評判，并通過損失函數的反向傳播實現對Critic 網絡中的參數進行更新。Actor2代表舊策略πold訓練circle 步后，使用Actor1的參數對Actor2進行更新。重復上述過程直至收斂。

相較于傳統策略梯度算法，PPO 首先對算法梯度進行改進，策略梯度的原始參數更新方程為

其中，θold和θnew分別表示更新前后的策略參數，α表示學習率，Jθ? 表示目標函數梯度。PPO 將新策略的回報函數分解為舊策略對應的回報函數加其他項，為實現回報函數的單調不減，只需保證新策略中的其他項大于或等于0，表示為

其中，J表示當前策略的回報函數，π表示舊策略，表示新策略，表示優勢函數?；谏鲜龇治隹芍猍25]，PPO 的優化目標是通過對參數θ進行更新以滿足

其中，πθ(a|s)為基于策略π在狀態s下采取動作a的概率，且表示舊策略參數與新策略參數之間相對熵的最大值，相對熵用于度量θold和θ這2 個參數的概率分布之間的相似度，進而控制策略的更新幅度。

在考慮約束條件后，PPO 中基于拉格朗日乘數法的初始策略更新如上所示。為解決超參數λ難以確定的問題，本文考慮使用t時刻的新策略與舊策略的比值衡量策略的更新幅度，表示為

當策略未發生變化時，ratiot(θ)=1。用裁剪函數clip 對新舊策略之間的更新幅度進行限制，改進后的策略更新方式為

其中，ε∈[0,1]是一個超參數，裁剪函數將ratiot(θ)的值約束在區間[1?ε,1+ε]內。

基于上述對PPO 的分析，結合多線程的思想，提出了基于DPPO 的FL 節點選擇算法，主要分為多線程交互和全局網絡更新2 個過程。

1）多線程交互

步驟1將初始狀態輸入Actor1網絡中，各線程基于策略πold選擇一個動作與環境進行交互，即。

步驟2各線程分別與環境連續交互多次，收集包含動作、狀態和獎勵的樣本，并將批量樣本同步傳輸至全局PPO 網絡處。

2）全局網絡更新

步驟1全局PPO 網絡使用式(22)計算每個時間步的優勢函數，即

其中，V為狀態值函數，φ為Critic 網絡參數。

步驟2利用計算Critic 網絡的損失函數，并反向傳播更新Critic網絡參數φ。

步驟3利用LCLIP(θ) 與優勢函數對Actor1網絡的參數進行更新。

步驟4circle 步后使用Actor1中的網絡參數更新Actor2的參數。

步驟5循環步驟1～步驟4，直至模型收斂。

全局網絡模型收斂后，可指導代理根據不同的環境狀態得出相應的動作，進而選擇合理的節點集合參與FL 聚合。詳細過程如算法1 所示。

算法1基于DPPO 的節點選擇算法

輸入網絡的初始狀態、FL 任務信息

輸出節點選擇方案

4 仿真分析

4.1 實驗設置

本文在Python 3.8和TensorFlow 2.3.1環境下對算法進行了仿真驗證。實驗模擬了MEC 環境中，多類終端設備進行分布式FL 訓練的場景。場景包含一個匯聚服務器、10 個MEC 服務器以及每個MEC 服務器下10～80 臺的終端設備。MEC 場景中的終端設備用處理器為AMD Ryzen 7 4800U、配置為8 核16 GB 的計算機來模擬。為體現終端差異化計算能力，實驗中采用虛擬化docker 技術隨機分配計算機中[10%,100%]的核數用于模型訓練。

實驗首先選擇MNIST 數據集作為訓練數據。將數據集分割為每組100～2 000 個，并分配給終端節點作為本地數據集。采用卷積神經網絡作為FL 的訓練模型，并將模型結構設置為2 層卷積層和4 層全連接層。每經過5 次本地迭代或者本地迭代時間超過最大允許本地迭代時間時，系統進行一次全局參數合成。為體現所提方法的穩健性，實驗中設置了惡意節點來模擬訓練質量差的設備，該類節點可能不訓練模型，而是隨機生成模型參數并將其上傳，實驗中把這個概率隨機設置在80%～100%。通過節點上獨立同分布數據的比例來表征數據質量，該比例在[80%,100%]隨機設置。此外，本文還選取CIFAR 數據集，并將卷積神經網絡改為5 層卷積層和3 層全連接層，對算法進行了驗證。

DPPO 算法中使用4 個線程與外部環境進行交互，獎勵折扣系數設置為0.9。Actor 網絡和Critic 網絡的學習率分別設置為0.000 1、0.000 2，且每當代理訓練100 個回合就使用Actor1中的參數對Actor2進行更新。為實現對策略更新幅度的控制，clip()中的超參數設為0.2。具體實驗參數的設置如表2 所示。

表2 仿真參數設置

選取2 個算法作為本文所提算法（FL-DPPO）的對比。1) FL-Greedy：該算法在FL 每次迭代訓練中選擇全部設備節點進行模型匯聚。2) Local Training：不采用FL 機制，僅在本地設備上進行模型訓練。

4.2 結果分析

實驗從準確率、損失函數、時延等多個角度對3 種算法進行了分析。MNIST 數據集屬于分類問題，因此實驗中的準確率可定義為分類正確的數量占總樣本數的比例。

圖3 給出了每個MEC 下有10%的惡意設備節點時3 種算法準確率的變化情況。從圖3 中可以看出，3 種機制在訓練初期得到的模型準確率較低，這說明模型的訓練精度需要足夠的訓練次數來保證。當迭代次數達到10 次時，3 種機制訓練得到的模型準確率趨于穩定，FL-DPPO、FL-Greedy 和Local Training 的準確率分別穩定在0.94、0.87 和0.7附近。FL-DPPO 算法在應對少量惡意節點和差異化數據質量時仍能保持較好的訓練性能，而Local Training 很難保證訓練質量。

圖3 準確率對比（惡意設備節點占10%）

圖4 是每個MEC 下有10%的惡意設備節點時3 種算法損失函數的變化情況。FL-DPPO 算法相較于另外2 種算法能更快地收斂，且損失函數值最小。Local Training 由于未采用FL 機制，其損失函數始終無法收斂且明顯高于FL-DPPO 和FL-Greedy。

圖4 損失函數對比（惡意設備節點占10%）

圖5 給出了每個MEC 下有40%的惡意設備節點時3 種算法準確率的變化情況。從圖5 中可以看出，在應對較多惡意節點時，FL-DPPO 仍能快速收斂至最高的準確率（0.92）。FL-Greedy 受惡意節點的影響，獲得的模型質量明顯下降，保持在0.71 左右，與Local Training 的訓練性能接近。本文所提FL 機制具有兼顧數據質量和設備訓練的能力，并可有效保證模型質量。

圖5 準確率對比（惡意設備節點占40%）

圖6 是每個MEC 下有40%的惡意設備節點時3 種算法損失函數的變化情況。與準確率的收斂情況類似，FL-DPPO 算法相較于另外2 種算法能更快地收斂，且損失函數值最小。FL-Greedy 和Local Training 由于惡意節點的存在，損失函數值始終較高。

圖6 損失函數對比（惡意設備節點占40%）

對比上述2 組仿真結果可以看出，相比于FL-Greedy 和Local Training，FL-DPPO 在面對不同數量的惡意節點時，始終能快速收斂至最高的準確率，因此可以得出本文所提方法具有良好的穩健性。

3 種算法的時延對比如圖7 所示。從圖7 中可以看出，FL-DPPO 算法在應對多種節點數目時都能保證較低的時延，這是由于該算法能有效選擇訓練質量高的設備節點進行模型匯聚。以節點數目40為例，3 種算法的時延值分別為7.3 s、8.1 s 和10 s，FL-DPPO 算法分別比FL-Greedy 和Local Training降低了9.9%和27%。這說明本文所提算法能高效地完成FL 訓練。

圖7 時延對比

圖8 是3 種算法在不同的節點數目情況下獲得的模型準確率。FL-DPPO 算法在應對多個節點數目時都能獲得最高的準確率。以40 個節點為例，3 種算法的準確率分別為0.95、0.78 和0.23，FL-DPPO 算法的準確率分別比 FL-Greedy 和Local Training 提高了17.9%和75.8%。2 組數據同時說明本文所提方法在節點規模方面有著良好的擴展性能。

圖8 準確率對比

圖9 表示FL-DPPO 算法的收斂特性。從圖9 中可以看出，準確率隨著DRL 訓練步數的增加逐漸變大，當Episode=40 時，算法在150 步左右收斂得到最大準確率。當Episode=1 時，算法也能在500 步左右收斂。這說明FL-DPPO 算法具有良好的收斂性能，在應對復雜的狀態環境和高維的動作空間時有良好的表現。

圖9 算法收斂性

接下來，采用CIFAR 數據集對3 種算法進行了對比和驗證。圖10 給出了每個MEC 下有20%的惡意設備節點時3 種算法準確率的變化情況。從圖10中可以看出，相比于MNIST 數據集，CIFAR 數據集的訓練次數明顯增多。當迭代次數達到60 次時，3 種機制訓練得到的模型準確率趨于穩定，FL-DPPO、FL-Greedy 和Local Training 的準確率分別穩定在0.75、0.62 及0.55。FL-DPPO 算法在應對惡意節點和差異化數據質量時仍能保持較好的訓練性能，而Local Training 很難保證訓練質量。

圖10 準確率對比

圖11 是每個MEC 下有20%的惡意設備節點時3 種算法損失函數的變化情況。FL-DPPO 算法相較于另外2 種算法能更快地收斂，且損失函數值最小。Local Training 由于未采用FL 機制，其損失函數始終無法收斂且高于另外兩者。

圖11 損失函數對比

5 結束語

基于深度強化學習方法，本文提出了FL 系統中設備節點選擇方法，在兼顧設備訓練能力和數據質量的情況下，有效提高了FL 學習的效率和性能。首先，根據FL 特點，提出基于DRL 的節點選擇系統模型。其次，考慮設備訓練時延、模型傳輸時延和準確率等因素，構建面向節點選擇的準確率最優化問題模型。最后，將問題模型構建為MDP 模型，并設計基于分布近端策略優化的節點選擇算法，在每次訓練迭代前選擇合理的設備集合完成模型聚合。仿真實驗結果表明，所提方法顯著提高了FL 的準確率和訓練速度，且具有良好的收斂性和穩健性，為在網絡邊緣側執行FL 提供了一種有效的解決方案。