張一迪
近日,由華中科技大學學者聯合國內電信運營商向國際電信聯盟(ITU-T)提交的國際標準提案“面向物聯網和智慧城市/社區的聯邦機器學習需求及參考架構”,獲得批準正式立項。
近兩年,聯邦學習概念火爆,在今年的各個人工智能大會上被多次提及。騰訊牽頭設立的互聯網銀行微眾銀行在聯邦學習上頗有研究,近期釋放出擬上市信號的京東數科也是研究者之一。
聯邦學習究竟有怎樣的“魅力”,讓學術界、產業界都爭相開展研究?
為解決
Al隱私問題而生
在人工智能向前發展的道路上,模型、算力、芯片性能等技術層面上的問題一直是學術界持續研究的重點,人工智能技術因此能夠不斷演進。
不過若耍機器真正做到靠近人類思維的水平,就需使用來源于人類世界的海量真實數據對機器進行訓練。
隨之而來的是,數據安全、個人信息隱私等風險問題勢必會成為影響人工智能贏得用戶信任,從而實現大規模落地的重要因素。
在這樣的大環境下,“聯邦學習”就應運而生了。
聯邦學習( Fedrated Leanung)是一種機器學習技術,可以在不交換數據樣本的情況下,在多個分散的邊緣設備或服務器上訓練算法。
這種方法與傳統的集中式機器學習技術(所有的本地數據集都上傳到一臺服務器上)和更經典的分散式方法(假設本地數據樣本是相同分布的)形成了對比。
2017年,谷歌AI在《聯合學習:協作機器學習沒有集中訓練數據》的博客文章中首次引入“聯邦學習”的概念。2016年10月,谷歌發表的一篇開創性研究論文為“聯邦學習”奠定了基礎,其中深入討論了名為聯邦優化的新方法——《聯邦優化:用于設備智能的分布式機器學習》。
2019年,谷歌實現了首個產品級的聯邦學習系統。據了解,這個系統主要側重在移動手機上運行的聯邦平均算法,可以進行聯邦分析,應用于監控大規模集群設備的統計數據,而無需將原始設備數據記錄到云中。
簡單來說,谷歌的這套聯邦學習系統是針對c端的,應用在手機端,可以將用戶使用搜索功能過程中潛在的隱私信息保留在設備上,用以解決傳統方式,即數據上傳到服務器進行分析所存在的信息泄露隱患。
聯邦學習
獲產業界關注
聯邦學習可以允許多個參與者在不共享數據的情況下構建一個通用強大的機器學習模型,從而允許解決關鍵問題,如數據隱私、數據安全、數據訪問權限和對異構數據的訪問。可以說,聯邦學習是伴隨著不斷擴大的數據量而生的,數據無處不在,聯邦學習的優勢因此獲得了政府、企業等各界的關注。
2019年6月,在工業和信息化部、北京市人民政府主辦的第二十三屆中國國際軟件博覽會——人工智能開源軟件論壇上,中國人工智能開源軟件發展聯盟(AIOSS)發布了包括《信息技術服務聯邦學習參考架構》在內的四項團體標準及《中國人工智能開源軟件應用案例集》,這是我國頒布的第一個關于聯邦學習的團體規范標準。
聯邦學習作為人工智能界的“新生代”,成為了產業界關注的焦點。
據悉,這次標準由微眾銀行牽頭制定。微眾銀行是國內聯邦學習研究的領軍企業。“使用AI有越來越多的限制和要求,實際上是給我們提供了機會,鼓勵學者和學生多多關注八類與計算機的協作,引發新的研究課題,比如聯邦學習。”微眾銀行首席人工智能官楊強公開表示。
楊強在接受《中國電子報》記者采訪時指出,聯邦學習能夠有效解決數據孤島和數據隱私保護的兩難問題。這將會為未來人工智能協作,從而實現跨越式發展奠定良好基礎,在多行業、多領域都有廣泛的應用前景。
此前釋放出科刨板上市消息的京東數科,也在今年6月首度公開了公司的聯邦學習戰略壘布局。
京東數字科技集團AI實驗室首席科學家薄列峰分享了京東數科兩項業界首創的技術突破——“基于核的非線性聯邦學習算法”和“分布式的快速同態加密技術”。據悉,這兩項技術創新成果都形成了論文,并已經被頂級學術會議KDD 2020接受。
據了解,聯邦學習目前已在國防、電信、物聯網、制藥、金融等多個領域展開應用。
聯邦學習+區塊鏈
強化數據隱私保護
同樣是為保護隱私而生的區塊鏈技術很可能會和聯邦學習融合發展,共同為海量數據筑起隱私保護的“堡壘”。
區塊鏈憑借透明化、分布式、不可篡改等優勢獲得了各領域從業者的關注。在新基建浪潮下,區塊鏈“蓄勢待發”。
新興技術結合發展是數字經濟時代的特征性表現,作為新基建之首的5G,與區塊鏈融合發展已經提上日程,未來有望成為數字經濟的重要基石。而聯邦學習與區塊鏈有異曲同工之妙,將來融合發展也是水到渠成的事情。
談及聯邦學習與區塊鏈結合的可能性,薄列峰認為,區塊鏈的分布式、去中心化特點,和聯邦學習也有一些關聯。實際上,聯邦學習在大型的多方參與項目中都有類似機制,也可以考慮采用去中心化。隨著越來越多數據走向區塊鏈,聯邦學習算法可以建立在區塊鏈之上,區塊鏈的不可篡改眭與聯邦學習的隱私加密性將共同協作發展。
楊強也認為,聯邦學習+區塊鏈將共同為數據隱私性“保駕護航”。
他指出,聯邦學習的應用不可能完全拒絕兩個機構來共同協作,參與者間要有一定交流。一開始用加密模型參數,外行人不清楚是參數還是數據,會產生數據泄露的疑慮,這時可以引入一個中心機構,每一個參與者在這個中間機構上傳遞信息。區塊鏈就很適合扮演這個中心機構的角色,在運作過程中,首先借助其透明、不可篡改的機制,再通過聯邦學習模型,將參數加密安全地傳遞出去。
不過目前聯邦學習的實際應用仍處在探索階段,未來在技術升級及商業落地上還有很長的要走。
楊強指出,當下實現聯邦學習的難點主要集中在落地應用過程,包括如何教育市場、如何提升聯邦學習效率和性能、如何設置公平有效的激勵機制等。
創新工場南京人工智能研究院執行院長馮霽認為,聯邦學習未來的研究方向主要包括五個方面。一是模型安全對抗攻防,如數據下毒。二是數據隱私保護機制,如同態加密、多方安全計算。三是非獨立同分布算法,如聯邦集成學習。四是新型網絡拓撲架構,如去中心化的聯邦學習架構。五是聯邦的經濟學機制。