摘要: 提出一種名為相似度感知選擇性知識蒸餾(TSKD)的個性化聯邦學習框架,旨在解決傳統聯邦學習框架在通信效率和模型定制方面的局限性. TSKD 框架通過設置一個小規模預加載的參考數據集,使本地用戶設備能夠生成通信憑證并基于此評估其與異構設備網絡內其余設備的相似度. 根據這個相似度指標,TSKD 為本地用戶設備分配協作對象并令本地模型與之進行知識共享,進而在保證本地模型個性化的前提下提高模型的性能. 在三個真實世界數據集上進行的實驗表明,TSKD 在各項評估指標上的表現均優于傳統的中心化和去中心化學習方法,且能夠在資源受限的環境中高效地實現知識共享,提升模型的準確性和個性化程度.
關鍵詞: 聯邦學習; 個性化分析; 知識蒸餾; 數據異質; 異構問題
中圖分類號: TP311. 5 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 240229
1引言
隨著可穿戴無線傳感器的廣泛采用和智能終端的發展,網絡邊緣產生的數據急劇增加. 在此背景下,物聯網(Internet of Things, IoT)設備在交通物流[1]、工業制造[2]和醫療保健[3]等領域中的應用正迅速拓展. 借助中心化學習(Centralized Learning,CL)方法,中央服務器利用終端設備收集得到的大量數據訓練得到能夠進行決策的全局模型成為可能[4]. 然而,傳統的中心化學習方法通過中央服務器處理大量終端數據來訓練決策模型,這種方法可能涉及敏感信息(如金融或醫療數據),帶來隱私泄露風險,并在數據傳輸中斷或高峰時響應緩慢[5].
為了解決傳統中心化學習范式的局限性,聯邦學習(Federated Learning, FL)[6]作為一種不共享本地數據的分布式機器學習方法被引入,允許設備在本地數據上訓練模型并定期交換參數,形成共享的全局模型,從而在不共享私人數據的前提下,提高響應速度和保護隱私.
聯邦學習雖然已經較好地解決了傳統中心化學習的隱私和效率問題,但標準的聯邦學習模型通常注重于優化整體性能,而忽視了個體設備的特異性需求和優化空間. 為此,個性化聯邦學習(Personalized Federated Learning, PFL)被提出[7],通過在聯邦學習框架內引入個性化模型調整,使每個設備不僅貢獻于全局模型訓練,還能根據自身數據特性進行本地模型調整. 這使得每個設備可以根據具體情況優化模型,以更好地滿足個別需求. 其中個性化終端設備模型的方法可以分為兩種:基于架構的個性化聯邦學習(ArchitecturebasedPersonalized Federated Learning)通過定制每個終端設備的本地模型來處理個性化任務;基于相似性的個性化聯邦學習(Similarity-based PersonalizedFederated Learning)則側重于對設備間關系進行建模來實現有針對性的知識共享. 雖然這兩種方法均能有效部署終端個性化模型,但基于架構的方法需要精確的優化策略和代表性數據集,而基于相似性的方法則可能導致高通信成本.
為了解決這些問題,本文設計了一個相似度感知選擇性知識蒸餾(Similarity-Sense Selective Knowledge" Distillation,TSKD)的個性化聯邦學習框架. 在訓練過程中,終端設備將其針對參考數據集的軟決策廣播至網絡中的其他設備. 通過比較接收到的軟決策與本地軟決策的相似度,TSKD 能在不泄漏任何用戶信息或模型參數的情況下評估設備間的相似度. 并基于選擇性通信協議協議使得設備只與相似度最高的其他設備知識共享,從而提升了模型的性能和個性化程度. 此外,將軟決策中隱含的模型信息用于知識蒸餾不僅突破了設備網絡模型構架的限制并顯著降低了通信成本.通過這一機制, TSKD 使不同架構的模型在異構設備網絡內能夠選擇性地相互學習,最終實現終端模型的高效個性化部署.
2相關工作
傳統的集中式學習算法雖然能從用戶設備豐富的數據集成高性能通用模型,但面臨通信帶寬限制和數據隱私保護的挑戰[8]. 與此相對,聯邦學習通過在不直接交換原始數據的情況下分享模型學習的成果,為保護用戶隱私提供了新的思路. 然而,盡管聯邦學習在隱私保護上具有優勢,但它在通信效率[9]、個性化方案[10]、以及處理異質數據[11]等方面存在明顯短板,制約了其現實中的應用.
個性化聯邦學習的提出旨在解決傳統聯邦學習面臨的數據異質和個性化解決方案挑戰. Arivazhagan等[12]基于參數解耦(Decoupling Parameter)提出“ 基礎層+ 個性化層”的設計,其中個性化深度層由客戶端私有保留用于本地訓練,以學習個性化的任務特定表示,而基礎層則學習低級別的通用特征. 雖然其有效地提升了本地模型個性化能力,但要求所有客戶端都使用相同的基礎層架構,難以應用于異構設備網絡. He 等[13]則從知識蒸餾出發提出組知識轉移(Group Knowledge Transfer, FedGKT),以提高資源受限邊緣設備的模型個性化性能. 它使用交替最小化通過雙向蒸餾方法訓練小型邊緣模型和大型服務器模型,將計算負擔從邊緣客戶端轉移到更強大的中央服務器. MOCHA 算法[14]被提出以將分布式多任務學習(Multi-task Learning, MTL)擴展到聯邦學習設置中. 其通過原對偶公式(Primal- Dual Formulation)為每個聯邦學習客戶端配置個性化模型,但由于所有客戶端都需要參與每輪FL 模型訓練,它不適用于跨設備聯邦學習應用.
為了解決以往個性化聯邦學習框架對高性能通用模型的依賴和難以在異構設備間實現的問題,提出了基于相似感知選擇性知識蒸餾(TSKD)的框架. 該框架靈感來源于基于響應的知識蒸餾技術(Response-based Knowledge" Distillation)[15],它允許用戶設備上傳參考數據集的軟標簽而非模型權重梯度到中央服務器,有效避免了潛在的數據泄露風險,并顯著降低了通信成本. TSKD通過精心設計的設備間通信策略,根據設備兼容性的差異來調整通信網絡拓撲結構,從而使得設備可以選擇性地接收最有助于其性能提升的知識,有效避免了無用信息的干擾[16]. 這種策略不僅大幅降低了通信成本,還確保了在異構設備網絡中每個設備的個性化需求和性能得到充分滿足. 通過這種通信方式優化,TSKD 不僅降低了通信成本,還確保了異構網絡中每個設備的個性化需求和性能得到滿足.
3本文方法
定義四:選擇性通信協議. 在由N 個終端設備組成的異構設備網絡中,為了針對性地增強每個個性化模型Pn 的能力并減少通信成本,每個用戶設備僅與在每個通信輪次中其通信憑證最相似的k 個最近協作對象Hn 分享知識. 由于本地模型的動態性,這些鄰居會隨著訓練期間設備間相似性的演變而更新.
其中,arg topk 表示從計算的相似性集合中最高k個協作對象的索引.
問題定義:復雜環境中異構設備網絡的高效個性化聯邦學習. 在由N個用戶設備組成的異構網絡中,目標是在保持隱私的同時,以低通信成本有效地訓練本地個性化分析模型.
3. 2 基于相似度感知的選擇性知識蒸餾框架
在個性化預測的背景下,單個用戶設備上可用的數據量通常是不足的,這極大限制了模型的性能. 傳統的集中學習范式利用所有參與設備的集體知識(例如,在聯邦學習中上傳的梯度)來開發全局模型. 然而,這種全局訓練方法通常以犧牲少數參與者的準確性為代價,以提高總體準確性,導致全局模型無法滿足某些場景的具體需求. 因此,開發了一種異構設備網絡的個性化聯邦學習框架,融合了通信憑證相似度感知技術和選擇性通信協議,以實現設備間的個性化協作. 每個設備利用最小的帶寬進行有效的設備間知識傳播. 與傳統的聯邦學習不同,TSKD 框架中的用戶設備只需根據一個小規模的公用參考數據集生成通信憑證,從而防止了與私人數據和模型相關的隱私泄露,并大幅減少了通信開銷. 本研究大致分為本地個性化模型訓練、個性化模型間的相似度感知與通信感知和協作對象間選擇性知識共享3 個階段,圖1 中相似感知選擇性知識蒸餾的框架.
3. 2. 1選擇性知識共享 在選擇性通信協議下,目標是使每個用戶設備與其最相似的鄰居進行實質性的知識共享. 盡管同一網絡內的所有設備共享相同的參考數據集,但不同的用戶設備表現出對此數據集的不同親和力,從而使具有相似特征的設備能夠進行協作學習. 與僅基于本地訓練數據集進行監督的孤立訓練不同,在交流訓練的輪次中,鄰居的通信憑證也被納入到監督訓練中. 這種方法允許各個設備在保持數據隱私的同時,有效地利用和增強彼此的學習經驗. 通過這種互動和互補的學習機制,可以顯著提升個性化模型的性能和適應性,特別是在面對具有特殊需求和數據特征的場景時. 選擇性知識共享不僅強化了設備間的相互理解和協作,還通過減少不必要的寬帶使用和通信,優化了網絡資源的整體使用效率.此外,通過這種選擇性交流,設備能夠避免接收對其模型改進無關緊要的信息,從而提高了學習過程的目標性和效率.
用在知識共享輪次中的全局損失函數如下:
其中,β是一個自定義的混合權值超參數,調節了局部損失函數和參考損失函數之間的關系.
3. 2. 2 TSKD 的工作流程 TSKD 框架通常被設置在一個異構設備網絡中運行,通過基于相似性的選擇性設備間通信優化個性化學習. 每個用戶設備以其本地個性化數據集和一個小規模的共享參考數據集進行初始化. 完成初始訓練后,每個本地模型根據共享參考數據集生成獨特的通信憑證,這些通信憑證封裝了本地模型學習到的知識,同時保護數據隱私. 在規定的通信輪次中,中央服務器收集這些通信憑證憑證,并依據憑證間的KL散度評估本地模型間的相似性. 基于相似度性,TSKD 框架采用選擇性通信協議,允許本地設備與最相似的幾個設備進行知識共享. 這種選擇性知識共享使設備能夠整合來自相似模型的洞見,提高它們的學習效率和準確性,而不會危害用戶設備的隱私. 這一迭代過程根據設備數據和模型演變的動態變化并持續進行,直到本地模型達到預定的收斂標準或性能指標,從而解決個性化學習環境中的數據稀缺性和傳感器不準確性等挑戰.TSKD 的工作流程也在圖2 中描述,其中通信間隔設置為1,這也是后續實驗中的默認設置.
4實驗結果與分析
在真實數據集上進行實驗,以驗證TSKD 框架在不同個性化預測分析任務中的有效性.
4. 1數據集和評估指標
實驗中使用了三個不同的真實數據集:
MNIST:這個數據集是由美國國家標準技術研究所原始編譯的更大數據集的一個調整版. 它包括70 000 張圖像,每張圖像是一個28×28 像素的灰度數字表示,數字范圍從0 到9;
CIFAR-10:它包含60 000 張32×32 彩色圖像,分為10 個不同的類別,每個類別有6000 張圖像. 這些類別分別代表飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車;
睡眠數據庫(Sleep Cassette):包括153 個全夜多導睡眠圖(PSG)記錄和相應的睡眠階段標簽.從這些全夜多導睡眠圖中提取 40 條清晰的腦電圖記錄來進行睡眠質量評級. 將睡眠質量分為三個類別,即清醒、非快速眼動睡眠和快速眼動睡眠.
4. 2評估指標
在多類分類任務的背景下,網絡模型性能的評估擴展到如準確率(Acc)、精確度(Pre)和召回率(Rec)等指標,這些指標適用于處理多個類別.這些指標的公式如下.
其中TPi、TNi、FPi 和FNi 分別代表了在C 個總類別中每個類別i的真陽性、真陰性、假陽性和假陰性的數量.
通過整合這些指標,能夠洞察模型在各個類別上的表現,評估的不僅是總體準確率,還包括每個類別的精確度和召回率. 這種多維度的評估對于識別模型在特定類別預測中的優勢和劣勢至關重要,指導針對模型性能的目標改進及其在不同情景下的應用.
4. 3實驗設置
在MNIST 和CIFAR-10 數據集中,數據集分別被隨機且均勻地劃分為35 個和30 個切片. 在Sleep Cassette 數據集中,每位患者的記錄被視為一個切片,總共得到40個切片。每個切片中隨機選擇20% 組成參考數據集,其余的切片作為用戶設備的本地數據集以確保每個本地數據集是獨立且不同的. 每個本地數據集進一步按照8∶1∶1 的比例劃分為訓練、驗證和測試子集. 需要注意的是,參與異構設備網絡的本地設備數量在這三個數據集中并不相同,具體為MNIST、CIFAR-10 和Sleep Cassette 數據集分別對應35、30和40個本地設備.
為了評估TSKD 框架的可行性,我們采用了一個56層深度殘差神經網絡作為標準的DNN 模型. 為了節省小型可穿戴設備在預測分析中的內存和計算資源,局部模型使用條帶式剪枝技術(Stripe-Wise Pruning, SWP)進行修剪[17]. 此剪枝步驟還通過對濾波器的定制化修剪,確保了不同設備上的局部模型是異構的. 為了展示所提框架的泛化能力,將TSKD 與以下基準優化算法進行比較:
全通信分布式蒸餾(Fully-Connected DistributedDistillation, FDD):在這個框架中,每個設備與網絡中的所有其他設備進行通信,促進全面的知識共享.
隨機通信分布式蒸餾(Random Distributed Distillation,RDD):這個框架允許設備在每次迭代中與隨機選擇的一組設備進行通信. 該組的大小不定,但當它包括整個網絡時,RDD 與FDD 操作相同.
獨立隨機梯度下降(Isolated Stochastic GradientDescent, ISGD):每個設備保持一個獨特的模型,并獨立優化其參數,不存在任何設備間的通信.
通過這些對比,可以評估TSKD 在減少通信成本和保持數據隱私的同時,提高模型性能和設備間協作的有效性. 這種評估將幫助了解TSKD框架在處理具有不同數據和設備特征的個性化預測分析任務中的適用性和優勢.
4. 4總體比較
在表1中報告了TSKD框架在三個數據集上的性能. 基于實驗結果,可以得出以下結論. 首先,TSKD在所有數據集上均一致優于所有基線方法,證實了所提框架的有效性. 其次,ISGD 在CIFAR-10和MNIST數據集上表現稍微遜色,但在Sleep Cassettes 數據集上超過其他基線方法. 直觀地說,引入設備間的通信增強了分布式模型的學習能力,這一點從CIFAR-10 和MNIST 的實驗指標中得到證實. 然而,Sleep Cassettes 數據集上的異常結果表明,未經嚴格篩選的知識共享可能會對訓練個性化本地模型產生負面影響. 理論上,由于FDD 中的設備在訓練過程中從所有其他設備接收知識,FDD 的性能應優于僅從部分設備接收知識的TSKD 和RDD. 然而,一些設備傳遞的知識對本地模型有正面作用,而另一些則可能產生負面影響. 在這種情況下,模型聚合步驟可能會無意中將噪聲引入本地模型,導致性能下降. 這一假設在后續的實驗中得到了印證.
4. 5參數敏感性分析
4. 5. 1不同協作對象數量的影響 在異構設備網絡的背景下,協作對象數k 指的是用戶設備在選擇性通信協議下與之進行知識共享的目標設備數量. 限制鄰居數旨在確保個性化本地模型在避免引入不兼容噪聲的同時,能夠接收盡可能多的有效知識. 在異構設備網絡中,較低的k 值可能會限制用戶設備接收足夠的相關知識,從而阻礙模型的最佳性能;相反,較高的k 可能會引入噪聲和偏差,削弱模型的個性化效果,導致性能下降. 因此,確定適當的協作對象數對于在個性化預測分析中應用TSKD 框架至關重要.
研究了不同協作對象數對TSKD 框架在3 個數據集上分類準確率的影響,結果展示在圖2 中.考慮到3 個數據集中參與異構設備網絡的本地設備數量并不相同( 參與CIFAR-10,MNIST 和Sleep Cassette 的本地設備數量分別為30,35 和40個),對每個設備網絡選取固定比例的設備進行選擇性通信. 實驗結果表明,當k 設定為超過或低于設備總數的25% 左右時,準確率明顯下降,表明協作對象過多會引發噪聲干擾,而協作對象過少則可能導致訓練不足. 在k 設定為設備總數的25%左右時,模型達到了最高準確率,驗證了初始假設. 因此,選取設備總數的四分之一進行選擇性知識共享已被設定為TSKD 框架的默認配置.
4. 5. 2不同混合權重的影響 在TSKD 框架中,選擇性知識共享的引入帶來了卓越的性能,其中混合權重β 作為全局損失函數的關鍵組成部分,調節本地損失函數與參考損失函數之間的關系. 在TSKD 框架內的個性化預測分析任務中,每個用戶設備在通信輪次中與具有相似特征的鄰居進行知識共享. 高性能的本地模型將發出高質量的通信憑證,而較簡單的本地模型通常會生成帶有偏見的憑證. 在β 值的極端情況下可能導致次優結果:β 過低會導致類似于獨立訓練的性能,而β 過高可能會導致本地模型近似于其鄰居模型的平均值.因此,一個最佳的混合權重可以使個性化模型在本地數據集和通信憑證集的聯合監督下實現最高的性能提升. 在{0. 2, 0. 3, 0. 4, 0. 5, 0. 6}的搜索空間內對3 個數據集進行的實驗顯示,混合權重β為0. 5 時,為TSKD 框架提供了最佳性能,如所示圖4.
4. 6消融實驗
4. 6. 1資源受限環境下的適應性 在資源受限環境中,由于尺寸和計算能力的限制,邊緣設備通常需要部署輕量級模型. 模型剪枝技術最初旨在保持設備網絡的異質性,同時也顯著減少了模型參數量(Params)和浮點運算量(FLOPs),這是評估TSKD 框架在實際應用中有效性的關鍵因素.為了評估TSKD 框架在輕量級架構上的性能,我們在所有設備上部署了一個未剪枝的ResNet56 作為基準. 實驗結果詳述在表2 中,使用模型參數量和浮點運算量的平均值來評估網絡對內存和處理能力較低的設備的適應性.
平均結果顯示,網絡在僅造成最小精度損失的情況下實現了顯著的內存和計算資源節省. 這一結果展示了TSKD 框架在簡化模型架構下的強大適應性. 這種平衡對于提高設備的運行效率和減少能源消耗尤為重要,特別是在資源受限的環境中具有重要應用價值.
4. 6. 2選擇性通信協議 作為TSKD框架的關鍵組成部分,選擇性通信協議確保用戶設備只與具有類似特征的其他設備進行通信. 為了分析這種通信策略的有效性,我們在實驗中嘗試用隨機通信的方法替代選擇性協議. 隨機通信協議在規定的通信輪次中讓本地用戶設備隨機地與異構設備網絡中部分的設備(設備的數量與選擇性通信協議相同)進行協作學習. 框架的其他參數配置為最優設置. 三個數據集上的實驗結果展示在表3中. 顯然,選擇性通信協議在每個數據集上都帶來了顯著的性能提升,證明了TSKD 架構的有效性.特別是在高度個性化的Sleep Cassette 數據集上,TSKD框架顯示出更大的性能改進,突出了TSKD在個性化聯邦學習領域的強大潛力.
5結語
本文介紹了一種新型的個性化聯邦學習框架——相似度感知選擇性知識蒸餾(TSKD). 通過利用創新的通信憑證和選擇性通信協議,TSKD 在降低通信成本的同時實現了優秀的性能. 此外,TSKD在資源受限和個性化的環境中展示了顯著的應用價值. TSKD強調了在個性化任務中實現有效知識共享的重要性,還展示了通過精細化通信策略來優化協作學習過程的潛力. 本研究的主要貢獻可以總結如下:
1)提出了一個個性化聯邦學習學習框架,使每個設備都能擁有自己的異構模型,同時通過參考數據集進行通信. 這個框架確保了敏感數據和模型參數安全地存儲在個人設備上,從而充分利用了每個設備的計算資源.
2)提出了一種名為的相似度感知選擇性知識蒸餾的個性化聯邦學習框架,以解決傳統方法. 在TSKD框架內,我們開發了一種基于相似性的協作學習協議,支持選擇性的設備間通信,顯著提高了信息傳輸的效率.
3)在三個真實數據集上進行的實驗表明,本文提出的選擇性設備間通信協議顯著改善了各種評估指標. 特別在個性化分析任務中,TSKD達到了最先進的分類準確性,展示了其卓越的性能.
在未來的研究中,我們將進一步探索TSKD框架內用戶設備之間的更深層次交互,以克服當前現有結構的局限性.