王艷明 劉凱 安玉良 任建吉



摘?要:目前,各類地理數據標準不統一、安全密度低、多以孤島形式存在等問題日益突出,使得各數據節點無法匯聚,嚴重影響地理信息數據集的模型訓練和分析。聯邦學習作為一種新興技術,對地理信息數據產業做出卓越貢獻。文章從地理信息數據集孤島問題出發,使用基于梯度上升樹SecureBoost模型的聯邦學習框架,從而實現數據匯聚和共享。實驗結果表明:聯邦共享技術使用去中心化架構會增加模型的訓練時間,但在地理信息數據集方面可以大幅度解決數據孤島問題,實現數據的共享交換。
關鍵詞:地理信息數據;聯邦學習;數據孤島;共享交換
如今,大數據盛行的時代背景下,測繪產業的發展為海量的商業地理信息數據集提供了重要支撐,地理信息數據產業在數量和品質上也都取得了飛躍式進展。然而,現存的地理信息數據集卻難以進行高精度模型訓練。一方面,數據之間沒有統一的標準且安全性較低,嚴重制約了數據的分析和模型訓練。另一方面,不同區域之間的數據信息在很多情況下無法做到共享和交換。
針對上述問題,聯邦學習作為一種客觀的解決方式應運而生。其核心在于將多方面的數據信息進行跨區域、跨部門的匯聚,在不影響地理信息數據的情況下高效解決數據分散和孤島問題,挖掘各地域信息數據集背后的價值。此外,利用聯邦框架去中心化的特性,對數據進行處理和挖掘時為獲得更高強度的隱私安全和信息保護[12]。
早在2016年,Google公司就已經提出了聯邦學習的算法框架,起初應用于數據隱私保護。后來隨著科技的發展,共享技術也應用于解決孤島難題,逐漸被用以地理信息數據集的模型訓練,進一步挖掘數據背后的價值。
本文以地理信息數據集分析算法發展面臨的數據隱私保護和孤島兩大問題為出發點,研究基于聯邦學習框架的共享交換和數據加密技術。兩大技術均基于聯邦學習的思想設計,通過引入去中心化聯邦架構實現數據的統一和隱私保護。通過利用對等系統架構實現數據的共享交換。實驗結果顯示聯邦共享技術雖無法100%滿足數據匯集的精度,但遠比單一孤島模型精度更好。
1?聯邦學習技術框架
1.1?中心化聯邦架構
此架構在很多跨部門、跨區域的場景下也逐漸被接受,廣泛應用于通信較穩定的聯合多方用戶學習場景[34]。主要采用中心化的聯邦學習架構,上級部門位于架構頂端,作為服務器使用,整個架構中起著協調全局模型的作用。采用分布并行的方式完成數據訓練,允許多節點參與且每個節點同時進行模型更新和結果匯聚,此框架各節點有較強的一致性,在服務器的中心協調下保證各模型和訓練的正常進行,減少通信過程的阻礙。
在地理信息數據中應用此架構需要各參與方須與中央服務器合作完成聯合訓練。服務器在模型訓練之前,將初始化的模型分發到各區域的參與方,之后參與方根據本地的地理信息數據集進行模型訓練。將訓練后的數據進行加密上傳至中央服務器,此時中央服務器需要對各模型的結果進行匯聚,經聚合后的全局模型經加密技術再返回至各參與方,如圖1所示。此框架嚴格維護各地理信息數據集的隱私,確保各區域數據標準化處理。
為保證地理信息數據集的安全隱私保護,整個訓練過程的所有模型參數均屬加密保護。這里主要使用以Elgamal方案為基礎的同態加密技術,此方式顛覆了傳統的加密方式,不同于之前,此方式允許密文進行任何形式的計算,也允許第三方對密文進行特定的密文運算,而且在加密過程中也對數據安全加以更高強度的維護。其密文形式如下:
CT=(C1,C2)=(gr,hr,m)(1)
其中r是加密過程中選的一個隨機數,g是一個生成元,h是公鑰。這里假設有兩個地理信息數據密文:
CT1=(gr1,hr1,m1),CT2=(gr2,hr2,m2)(2)
根據Elgamal方案對密文進行乘法的同態加密。上述兩個密文相乘可得:
CT=(gr1,hr1,m1,hr2,m2)=(gr1+r2,hr1+r2,m1m2)(3)
整個運算過程只涉及密文和公鑰,并不知m1,m2的確切值。因此,高效保證了數據處理和密文計算的安全。處理密文中也不會泄露原始的數據內容,更高性能地維護了各區域間地理信息數據。
1.2?地理數據共享交換
以地理信息數據集共享交換為研究點,分析基于聯邦學習架構的共享技術。地理信息數據集包含不同區域和地理環境等因素,其類型復雜、數據繁多。根據各數據信息基本無重疊、交叉且特征空間類似的特點,這里使用橫向聯邦學習實現模型訓練和跨系統的數據共享交換[5]。各參與節點之間直接交互聯結,當原始模型訓練完成后對本地模型參數進行加密傳輸,分發給其余參與模型訓練的各節點。
跨網、跨域的數據分布和孤島問題,可通過設計聯邦對等架構進行解決,此架構不存在中央服務器,各參與方之間直接通信。當參與方之間數據需要雜亂時,可以通過樣本對齊等加以方案糾正。采用對等架構能夠確保數據共生、共融和共享[6],從而形成完整、系統的地理信息數據管理體系。
對每一個地理區域數據進行整合,保證其在模型訓練過程中的可用性,確保各客戶端節點之間數據的共識、共享和可靠。在橫向聯邦學習架構中,模型訓練和評估均采用分布式方式執行,任何節點都不能獲取除本身之外的數據,只能在自己本地模型進行訓練和評估,通過自身的數據來測試本地模型的性能。這里將客戶端1臨時充當為協調方進行模型的匯聚和結果更新,更加有效降低系統的通信開銷,提高地理各數據間的安全和共享。
2?實驗與結果分析
2.1?數據描述
實驗數據為公開的OpenStreetMap地理信息資源的遙感影像飛機數據集,具體信息如表1所示。
實驗數據集在樣本上具有較強的多樣性,數據類型豐富且具備較好的模型訓練實驗價值。在影像上面,具備各種經緯度、空間分辨率及天氣分布。在樣本多樣性上,遙感技術涉及范圍較廣,具有較強的類別多樣性。不同的實驗數據和信息單獨存放,訓練時直接根據其不同的數據類型加以模型的選取和分配,保證其能夠準確識別、訓練和測試各區域數據,從而驗證聯邦學習架構在地理數據集中的共享和安全性能。
實驗方面,數據集被平均分為五份,其中三份被用作實驗的孤島訓練,其余兩份作為測試集加以驗證模型訓練的準確性。為保證實驗準確性,要求完成各部分孤島之間的相應硬、軟件配置,保證各孤島之間的網絡結構和初始模型相統一,確保所有模型訓練在同一環境下,實現數據孤島的測試和結果的匯聚更新。
2.2?模型及評價指標
在框架上為保證數據隱私安全和孤島問題,采用橫向的聯邦學習架構,借用其中心化和對等特性保證地理數據集的隱私安全和共享交換。算法上,為保證特征分桶聚合的準確性,避免陷入局部精度的可能,主要采用梯度上升樹SecureBoost模型加以孤島、共享數據訓練。特征提取方面,由于地理數據集的多樣和長序列特性,這里主要通過使用長短期記憶模型(Long?shortterm?memory,LSTM)實現數據的無縫存儲和長期保存,進一步解決模型訓練中的梯度消失和梯度爆炸問題,相較于傳統的循環神經網絡(Recurrent?Neural?Network,RNN),LSTM具有更高的性能和處理速度。
對算法進行評測主要利用二元混淆矩陣,如圖3所示。此混淆矩陣作為評判模型結果的最佳指標,主要包括:準確性(accuracy)、精確率(precision)和召回率(recall)[7]。根據各區域數據模型訓練的結果加以精確計算,從而驗證所提模型在解決孤島問題上面的最佳優勢。其中TP為真正例,FP為假正例,FN為假負例,TN為真負例。
2.3?訓練參數設計
在模型訓練參數設計階段,所有的數據均采用統一標準,在同一運行環境下設置相同的訓練參數和激活函數。本文采用Sigmoid函數作為激活函數,神經網絡層數設置為4,最大學習率為10-3,最小學習率為10-5,學習衰減為0.001,樣本遍歷次數為50次。通過對各部分數據的模型訓練以判定聯邦架構在孤島問題中的高效應用。
2.4?實驗結果
為驗證所提模型的有效性,本實驗構建四個數據孤島。在實驗過程中,分為五組實驗,首先,對選取的孤島單獨測試。其次,根據實驗方案依次加入孤島個數。最后,使用本文所設計的橫向聯邦架構實現對各區域模型數據的匯聚。從而,通過對比其各方案的精度來驗證聯邦共享技術性能。測試精度結果如表2所示。
從實驗結果精度可以看出隨著孤島數量的增多其精度也在不斷提升。孤島數量愈多其結果愈加精確。但當使用聯邦學習進行各區域數據匯聚時,其精度明顯高于孤島聯合的各部分精度。由此,驗證了聯邦共享技術可以高效解決跨區域的數據孤島問題。
結語
本文針對南極洲地理信息遙感數據無法實現數據共享且存在孤島問題展開研究,基于聯邦學習設計了基于同態加密的去中心架構和對等架構,通過梯度上升樹SecureBoost模型對數據加以訓練、測試。從實驗結果可以看出,隨著參與孤島數量的增多其測試精度也在不斷提升,且優于單一孤島模式,從而驗證了聯邦共享方案的有效性。目前,基于加密技術進行模型訓練的時間相對較長,且由于數據繁多導致傳輸速度較為緩慢。在今后的研究中仍然需要在其加密技術上進行優化和改進,提高訓練時間和速度。
參考文獻:
[1]胡健龍.聯邦學習在車聯網數據共享與保護技術中的研究[D].電子科技大學,2022.
[2]陳財森,紀伯公,黃辰,等.基于聯邦學習的作戰數據共享與隱私保護[J].裝甲兵學報,2022,1(01):98103.
[3]夏家駿,魯穎,張子揚,等.基于秘密共享與同態加密的縱向聯邦學習方案研究[J].信息通信技術與政策,2021,47(06):1926.
[4]王亞珅.面向數據共享交換的聯邦學習技術發展綜述[J].無人系統技術,2019,2(06):5862.
[5]鄭繼龍,李維,劉勛,等.遙感影像人工智能數據集聯邦共享技術研究[J].航天返回與遙感,2022,43(04):1224.
[6]陳律君,肖迪,余柱陽,等.基于秘密共享和壓縮感知的通信高效聯邦學習[J/OL].計算機研究與發展:113[20220925].
[7]謝世茂,毛航,陳思成.基于縱向聯邦學習的快速提升樹算法[J].信息技術與標準化,2022(06):5561.
*通訊作者:任建吉(1982—?),男,漢族,河南焦作人,博士,副教授,研究方向:工業大數據,人工智能。