編者按:本文分析了聯邦學習與數據湖的不兼容性和融合契機,梳理了適用于實現聯邦學習和數據湖技術融合的數據保護技術,探討構建了基于數據保護和價值共享的隱私數據使用矩陣,提出了面向聯邦學習的共享數據湖建設策略,為解決不同數據所有方在數據湖中共同安全、合規的使用數據資源等提供了具體的技術建議。
隨著各國的數據保護法律、政策陸續出臺,如何在合規使用數字資產的前提下,共享數據價值、保障經濟效益正在影響新基建所帶來的技術范式演進。從目前的技術發展歷程來看,聯邦學習和數據湖在之前各自的技術演進中是甚少交集的。兩者的不兼容性主要在以下兩方面:
一是用戶需求差異較大。聯邦學習在已有的商業實踐中,主要為海量的終端用戶服務。而數據湖的用戶群體源于數據倉庫的使用者,屬于企業級用戶。不同的用戶群體的需求存在較大差異。
二是聯邦學習的網絡開銷較高。聯邦學習關注數據的去中心化,但其模型更新過程中始終需要中央服務器參與。不同的終端用戶在連接中央服務器時的網絡環境充滿不確定性,因此海量終端用戶在進行聯邦學習時的網絡開銷較高。而數據湖在保證性能與效率的前提下,正在致力于通過分布式架構等途徑防止網絡開銷過高。
隨著聯邦學習的商業化進程加快,企業級用戶正在成為聯邦學習的目標用戶。這為聯邦學習與數據湖解決不兼容性問題,實現技術融合帶來了可行的應用場景——同類型用戶群體、較小的用戶規模和相對穩定的網絡環境。在這一應用場景下,聯邦學習與數據湖具有以下三方面的融合契機:
一是數據湖可以成為聯邦學習所需的可信第三方節點。理論上,聯邦學習不需要第三方節點可信,但需要滿足不同數據所有方彼此誠實且好奇,嚴格符合安全多方計算(MPC)等條件。而這些條件目前尚難以同時滿足。此外,在聯邦學習的訓練過程中,模型更新需要向第三方節點顯示敏感信息。雖然可以通過安全多方計算、差分隱私等保護隱私,但是采用可信第三方節點可以有效保障模型性能和系統效率,在經濟效益上更為可取。
二是數據湖天然適合成為聯邦學習的商業化載體。數據湖的元數據可以為聯邦學習在商業化進程中拓展新的數據價值共享模式。數據湖的元數據可映射為聯邦學習中的所需的標簽Y,實現數據與標簽Y的分離。這種分離使得擁有海量數據但不清楚如何使用的用戶免去協議制定的困擾,讓聯邦學習的數據價值共享模式不再拘泥于由標簽Y的提供方制定協議。
同時,目前聯邦學習正在探索商業化推進的平臺和激勵機制,考慮通過區塊鏈等技術記錄聯邦學習參與者的貢獻評價和數據價值分配。而數據湖已有一定的商業實踐,并且其海量的存儲能力天然適合作為區塊鏈等技術的載體。因此,可以通過激勵機制在聯邦學習的協議制定中加入央行數字貨幣DC/EP,進一步推動數據價值共享的模式創新。

圖1 基于數據保護和價值共享的隱私數據使用矩陣
三是聯邦學習可以幫助數據湖解決安全性質疑。通過聯邦學習,數據湖可由直接存儲含有用戶隱私的原始數據轉為存儲加密的模型相關參數等原始數據。這樣既可以保留存儲原始數據的根本特征,又可以解決人們一直以來對于數據湖中原始數據安全的質疑。解決安全性質疑對數據湖實現從用戶內部的信息基礎設施走向用戶間共建共享的信息基礎設施的技術演進尤為重要。
要實現聯邦學習和數據湖的技術融合,數據安全是融合的前提。因此,需要按照等級保護的相關要求配備數據保護技術,具備數據保護能力。根據數據保護能力的來源,適用的數據保護技術可以分為兩大類:
第一類是內生的安全保護,即聯邦學習本身包含的數據保護技術。這類技術包括基于隱私保護的數據建模、不經意傳輸、差分隱私以及同態加密等。
第二類是外部的安全保護,即其他可在數據湖中配備的數據保護技術。包括入侵防護、追蹤溯源、訪問控制和區塊鏈等。這些技術還可以進一步的細分,一種是直接參與聯邦學習的技術,例如,記錄聯邦學習全過程的區塊鏈;另一種是防止數據湖內存儲數據被惡意獲取、使用等的技術,包括入侵防護、追蹤溯源和訪問控制等。
綜合數據保護的對象和聯邦學習的價值共享過程,可以對直接參與聯邦學習的數據保護技術從數據保護和價值共享兩個維度進一步細分,構建基于數據保護和價值共享的隱私數據使用矩陣,如圖1 所示。
在數據保護維度,主要考慮需要保護的數據是本體還是附屬(關于數據本體與附屬的概念,可參看筆者拙作《大數據監管系統建設研究》)。其中數據本體包括標簽Y、模型更新的參數等,數據附屬包含聯邦學習的協議制定、參與用戶及其貢獻等。
在價值共享維度,通過聯邦學習進行價值共享的過程一般可以分為兩個階段:第一階段是準備階段,其中包括確定參與聯邦學習的用戶,制定協議,建立模型;第二階段是實現階段,由參與用戶共同訓練模型、完成聯邦學習并進行價值共享。
從圖中可以看到,對于數據附屬,主要通過區塊鏈所使用的零知識證明、智能合約等在保護隱私數據的同時如實記錄聯邦學習的全過程;對于數據本體,在準備階段采用基于隱私保護的數據建模,防止由于原始數據參與參數傳遞導致的潛在數據泄露的情況,在實現階段采用不經意傳輸、差分隱私、同態加密等,防止在進行聯邦學習時的中間數據等被惡意獲取、使用等。
在面向聯邦學習的共享數據湖建設中,首先需要按照矩陣中的劃分對數據湖進行相應的配置,從而為聯邦學習的全過程中產生的各類數據提供針對性的保護。
同時,數據湖還需要將入侵防護、追蹤溯源、訪問控制等技術作為構建數據保護能力的基礎,使其成為數據湖作為用戶間共建共享的信息基礎設施的標準配置。
此外,面向聯邦學習的共享數據湖建設中還需要考慮兩類可預見的風險:
第一類是安全性衰減風險。從技術發展的歷程看,不論是直接參與聯邦學習的數據保護技術如不經意傳輸、差分隱私等,還是構建共享數據湖基礎數據保護能力的入侵防護、追蹤溯源等技術,都面臨著安全性因技術進步而不斷下降的現實風險。
第二類是超范圍使用風險。目前聯邦學習的應用研究中,正在探索采用聯邦學習進行融合金融、醫療、用戶行為等多方數據源的商業實踐。在這類商業實踐中,用戶隱私有可能隨著關聯數據超出預計范圍而出現意想不到的數據泄露風險。
因此,出于合規與安全的共同需要,面向聯邦學習的共享數據湖建設還應當考慮與大數據監管系統建設的適配,讓監管部門可以實時掌握第一手情況,從而最大限度的規避技術創新過程中的各類風險。
本文分析了聯邦學習與數據湖的不兼容性和融合契機,梳理了適用于實現聯邦學習和數據湖技術融合的數據保護技術,探討構建了基于數據保護和價值共享的隱私數據使用矩陣,提出了面向聯邦學習的共享數據湖建設策略,為解決不同數據所有方在數據湖中共同安全、合規的使用數據資源等提供了具體的技術建議。