周彥果
電科院 北京 100000
隨著物聯網、云計算、邊緣智能、5G/6G網絡、人工智能等新興信息技術在各領域應用的不斷加深,給人們的生活帶來極大的便利,但與此同時,相關數據和信息安全問題也受到越來越廣泛的關注。聯邦學習作為一種加密的分布式機器學習技術,為解決數據隱私與數據共享之間的矛盾開辟了一條新的路徑,已成為學界和業界的研究熱點之一。通過探索聯邦學習與物聯網、云計算、邊緣智能、5G/6G網絡等新興技術融合應用,可解決相關新興技術在實際應用中存在的問題,進一步推動相關技術的性能提升及應用落地。
聯邦學習作為新興的人工智能基礎技術,在2016年由谷歌公司率先提出,其主要思想是允許終端設備利用本地數據進行訓練,構建本地模型,并僅與參數服務器共享模型參數。參數服務器聚合多個本地模型的參數,通過多次迭代,得到高可信度和準確率聯邦模型題[1]。聯邦學習具有以下優點:
一是實現本地數據隔離,滿足用戶隱私保護和數據安全的需求;
二是通過終端設備協同優化模型參數,實現模型算法的高可信度和準確率;
三是能夠實現終端設備在模型訓練中的公平合作;
四是能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數的加密交換,并同時獲得模型的優化。
物聯網設備的數量呈指數級增長,據研究機構IDC預測,到2025年全球范圍內將有超過800億臺的終端設備,這也必將導致產生的數據量激增,據Cisco云指數預測,到2021年產生的數據將達到847 ZB。物聯網設備產生的海量數據以集中的方式存儲、處理是困難且低效的,并且海量數據的分析處理帶來的計算時延和數據隱私問題,是機器學習在物聯網應用中面臨的兩個最大挑戰。機器學習在物聯網設備管理、設備部署、安全與隱私保護、數據分析與決策等方面的應用,極大地促進了物聯網的發展。機器學習在物聯網中的應用價值主要源自于其擅長處理大量的訓練數據和強大的計算能力,但數據隱私問題的存在,大大阻礙了其在物聯網中的應用[2]。由于個人物聯網設備所產生的數據具有一定的隱私性,致使設備擁有者不愿進行個人數據的分享。
在這種情況下,聯邦學習應運而生。聯邦學習在縮短訓練時間、保護訓練數據隱私等方面展現出巨大的潛力,由于其不涉及本地數據共享,能夠較好地實現用戶隱私保護,實現高效安全的全局學習模型構建。同時,物聯網終端設備產生的海量數據,也為聯邦學習提供了大量的訓練數據資源,有利于機器學習模型精準度的提升。未來幾年,隨著5G/6G通信技術的推廣應用,物聯網設備必將獲得更高帶寬和較低的延遲,這將有利于其有效利用自身的計算資源,實現以更快、更優的方式訓練其本地模型。
在傳統的集中式數據處理場景中,物聯網設備、智能手機等設備終端產生的數據匯聚至云數據中心進行集中處理。然而,這種方式存在兩大問題[3]:一是數據安全隱患,云計算環境復雜、信息存儲量巨大且具有虛擬的特性,故而云計算中的數據會出現濫用、被惡意竊取等現象,影響用戶的信息安全;二是數據時延問題。由于設備終端在地理空間上是高度分散,致使設備終端與云服務器之間的距離比較遠,數據雙向傳輸產生的時延難以忽略。簡言之,云計算更適用于非實時、長周期、需要周期性維護的數據分析業務。
聯邦學習在不共享本地數據的情況下,通過多臺終端設備協作訓練機器學習模型,可解決云計算所面臨的數據隱私泄露問題。同時,由于聯邦學習無須將本地數據發送至云服務器,并選擇與距離較近的服務器共享模型參數,可以緩解云計算數據時延大的問題。但由于聯邦學習每次模型的迭代更新可能需要設備與云服務器進行數百萬個參數的共享,且迭代次數無法忽略,故而數據處理時延仍是其面臨的挑戰之一。
邊緣計算是近年的研究熱點,被認為是5G與工業互聯網、物聯網等的重要結合點,能夠推動相關產業帶來飛躍性發展。邊緣計算和云計算一樣,都是分布式計算的一種范式,但邊緣計算系統不連接到云計算平臺,就可以在本地設備上進行大部分數據的實時處理。與云計算相比,邊緣計算更專注于局部,聚焦實時、短周期數據的分析,能夠更好地支撐本地業務的實時智能化處理與執行。在實際使用案例中,邊緣設備主要采用深度學習算法完成圖像和語音識別、自然語言處理、異常檢測等任務。深度學習算法通過多層處理,將初始的“低層”特征逐漸表示轉化為“高層”特征,依據輸入來傳遞輸出參數。視覺處理單元(VPU)和RISC-V等硬件在邊緣設備中的應用,大大提升了邊緣設備硬件運行深度學習算法的性能。視覺處理單元(VPU)作為新興的微處理器,旨在加速機器視覺算法。VPU集成多種專門進行視覺處理的硬件結構,針對視覺處理應用而設計,專門為視覺處理進行硬件系統的優化。而RISC-V是一種指令集體系結構(ISA),它體現了精簡指令集計算機(RISC)標準的思想。RISC-V作為開源指令集架構,更適用于現代計算設備。
邊緣智能是將邊緣計算和人工智能相結合,在邊緣設備上運行人工智能算法,使邊緣節點在邊緣側具備提供高級數據分析、場景感知、實時決策、自組織與協同等服務的能力。邊緣智能的實現需要邊緣設備具備以下能力:一是可連接性。設備能夠連接到網絡(例如互聯網、本地網絡),具備信息交換的能力。二是計算能力。設備配備有處理芯片等計算資源,具備近實時的數據分析能力。三是可控性。設備具備在網絡執行決策、采取行動、做出及時更改和激發行動。四是自主性。設備具備自主計算能力,能夠自我監控、管理自己的數據和資源。
聯邦學習和邊緣智能相結合具有以下優點[4]:
一是降低延遲、提升帶寬利用率。深度神經網絡算法包含多個隱層,邊緣智能可以靈活進行DNN處理。即在邊緣設備執行較低層的DNN處理,其余的交由云服務器處理,實現以最小的帶寬消耗和延遲完成算法處理,尤其適用于采用LoRa和NBIOT無線傳輸技術的物聯網設備。
二是增強安全性。與傳統的云計算體系架構相比,邊緣智能可以提升聯邦學習過程的安全性。云計算集中式架構會使得聯邦學習特別容易受到分布式拒絕服務(DDoS)攻擊的威脅,而邊緣智能將存儲和處理放在邊緣設備和數據中心,大量數據都在邊緣設備上進行處理,即使一些邊緣設備受到攻擊,與云服務器上整套數據可能被截獲相比,也大大降低了風險。
三是高可靠性。邊緣智能降低了遠程數據中心網絡問題影響本地用戶體驗的可能性,即使附近的某個區域數據中心發生中斷,邊緣設備也將能夠有效地利用其自身數據處理能力執行相關操作。大量的邊緣數據中心和邊緣設備使得單一故障不會致使整個服務完全中斷。
5G移動通信技術對于邊緣智能和物聯網的發展非常重要。隨著物聯網的發展,數據量也會增加,傳輸速度也會受到影響。相較于4G只能以1Gbps的速度傳輸數據,5G可以實現20Gbps甚至更高的數據傳輸數據。5G還支持比4G更多的并發連接和更短的延遲,支持海量設備之間的更多交互。5G的三大應用場景:增強移動寬帶(eMBB)、超高可靠與低延遲通信(URLLC)和海量機器通信(mMTC)。通過提供高達20 Gbps的吞吐速度,eMBB主要用于支持需要高數據率的應用場景,進一步提升用戶體驗。如體育競技等高清視頻內容共享、虛擬現實等。URLLC可提供超低延遲的超響應連接。與eMBB不同,URLLC中的數據速率不是很高,但連接設計支持高可靠性的特點使得URLLC適用于任務關鍵型的應用,如遠程醫療協助、自動駕駛、工業自動化控制。mMTC的主要目標是實現海量設備的連接,但其可靠性較低。mMTC適用于大量低功耗設備,故而廣泛應用于物聯網設備。簡言之,5G網絡的目的是將無線通信從面向通信的體系結構轉變為支持互聯互通思想的面向服務的體系結構。6G移動通信技術是5G的演進,實現從5G提供的“關聯事物”概念向“關聯情報”概念的過渡。6G將通過隨時隨地高效采集、傳輸和分析數據,形成人、事、物全面關聯的互聯網,實現創新和智能服務。不同于以往以數據、機器或應用程序為中心的方式,6G與無處不在的AI相結合,實現以服務人為中心,實現智慧的泛在可取、全面賦能萬事萬物,推動智能信息社會的發展。
聯邦學習由于可實現無線終端設備只進行機器學習模型參數的共享,而無須上傳本地訓練數據,故而作為“人工智能”新生代力量,引起學界和業界的廣泛關注。一方面,聯邦學習可以很好地解決5G/6G網絡中存在的很多問題[5]。例如,聯邦強化學習算法可以為復雜凸優化和非凸優化問題提供有效的解決方案,即將這些問題建模為資源管理、網絡控制、干擾對準和用戶分組等幾個關鍵問題進行處理。聯邦監督學習算法可用于5G/6G網絡中,提供分析服務,例如無線環境分析、用戶識別、用戶身份驗證、訪問控制管理、行為預測和入侵檢測等。另一方面,5G/6G網絡的發展也可以促使聯邦學習具有更廣泛的適用性。例如,為物聯網和邊緣設備配備5G/6G網絡,實現數據傳輸的高帶寬率和低延遲,使得設備能夠更高效地利用其計算資源進行模型訓練。同樣,在eMBB應用場景中的高數據速率,將使得終端設備和參數服務器之間全局模型的交換過程更加高效。
隨著新興信息技術的飛速發展和廣泛應用,在萬物互聯的背景下,海量無線終端設備產生數據必將呈現爆炸式增長,探索聯邦學習技術與物聯網、云計算、邊緣智能、5G/6G網絡等新興信息技術的融合應用,以解決未來智能無線網絡中的數據隱私問題和傳輸資源限制問題,提升相關技術性能,推動智能信息社會的發展。