999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聯(lián)邦學(xué)習(xí)淺析

2020-10-13 08:58:36王佳苗璐
現(xiàn)代計算機 2020年25期
關(guān)鍵詞:人工智能模型

王佳,苗璐

(1.山西金融職業(yè)學(xué)院,太原030008;2.中國科學(xué)技術(shù)大學(xué),合肥230000)

1 研究的背景

2016 年是人工智能(AI)成熟的一年,隨著Alpha?Go 擊敗了頂尖的人類圍棋選手,我們真正見證了人工智能的巨大潛力,并開始期待在許多應(yīng)用領(lǐng)域出現(xiàn)更復(fù)雜、更尖端的人工智能技術(shù),例如無人駕駛。目前,人工智能的成就依賴于大量可用的標記數(shù)據(jù)。例如,AlphaGo 使用了160000 個實際游戲的3000 萬步作為訓(xùn)練數(shù)據(jù),ImageNet 數(shù)據(jù)集中則包含了超過1400 萬張圖片[1]。

隨著AlphaGo 的成功,人們自然希望大數(shù)據(jù)驅(qū)動的人工智能能很快在我們生活的方方面面實現(xiàn)。然而,現(xiàn)實情況卻有些令人失望:在各個行業(yè)中,更多的應(yīng)用領(lǐng)域中只有少量或低質(zhì)量的數(shù)據(jù),并且標記數(shù)據(jù)非常昂貴,特別是在需要人類專業(yè)知識的領(lǐng)域。因此,人工智能技術(shù)在這些行業(yè)的發(fā)展比較緩慢。

此外,特定任務(wù)所需的數(shù)據(jù)可能不會保存在一個地方。許多組織可能只有未標記的數(shù)據(jù),而其他一些組織的標簽數(shù)量可能非常有限。那么能否通過跨組織傳輸數(shù)據(jù),將來自多個站點的數(shù)據(jù)融合在一個共同的站點上?事實上,在許多情況下,要打破數(shù)據(jù)源之間的障礙是非常困難的,甚至是不可能的。一般來說,任何人工智能項目所需的數(shù)據(jù)都涉及多種類型。例如,在人工智能驅(qū)動的產(chǎn)品推薦服務(wù)中,產(chǎn)品銷售商有關(guān)于產(chǎn)品的信息和用戶購買的數(shù)據(jù),但沒有描述用戶購買能力和支付習(xí)慣的數(shù)據(jù),這些數(shù)據(jù)可能存在于銀行中。在大多數(shù)行業(yè)中,數(shù)據(jù)以孤島的形式存在。由于行業(yè)競爭、隱私安全和復(fù)雜的管理程序,即使是同一公司不同部門之間的數(shù)據(jù)集成也面臨著很大的阻力。幾乎不可能將分散在全國各地的數(shù)據(jù)和機構(gòu)整合起來。

此外,隨著公眾的數(shù)據(jù)安全和用戶隱私的意識日益增強,數(shù)據(jù)隱私和安全已成為世界性的重大課題。有關(guān)公共數(shù)據(jù)泄露的新聞引起了媒體和公眾的高度關(guān)注。例如,F(xiàn)acebook 最近的數(shù)據(jù)泄露引起了廣泛的抗議。作為回應(yīng),世界各國都在加強保護數(shù)據(jù)安全和隱私的法律。例如,歐盟于2018 年5 月25 日實施的《通用數(shù)據(jù)保護條例》(GDPR),旨在保護用戶的個人隱私并提供數(shù)據(jù)安全。它要求企業(yè)在用戶協(xié)議中使用清晰明了的語言,并授予用戶“被遺忘的權(quán)利”,即用戶可以刪除或撤回其個人數(shù)據(jù)。違反該法案的公司將面臨嚴厲的罰款。中國2017 年頒布的《網(wǎng)絡(luò)安全法》和《民法通則》要求,互聯(lián)網(wǎng)企業(yè)不得泄露或篡改其收集的個人信息,在與第三方進行數(shù)據(jù)交易時,它們需要確保擬議的合同遵守法律規(guī)定的數(shù)據(jù)保護義務(wù)。這些法規(guī)的建立將有助于建立一個更為安全的社會,然而,如何在滿足數(shù)據(jù)隱私的前提下,為缺少相關(guān)數(shù)據(jù)的企業(yè)和機構(gòu)建立有效、準確的人工智能模型,是一個重大挑戰(zhàn)。

更具體地說,人工智能中傳統(tǒng)的數(shù)據(jù)處理模型往往涉及到簡單的數(shù)據(jù)事務(wù)模型,一方收集數(shù)據(jù)并將數(shù)據(jù)傳輸給另一方,另一方負責數(shù)據(jù)的清洗和融合。最后,第三方將采用集成的數(shù)據(jù),并構(gòu)建模型供其他方使用。模型通常是作為服務(wù)銷售的最終產(chǎn)品。這一傳統(tǒng)過程面臨著上述新的數(shù)據(jù)法律法規(guī)的挑戰(zhàn)。因此,我們面臨著一個兩難的境地,即我們的數(shù)據(jù)是以孤島的形式存在的,但在許多情況下,我們被禁止在不同的地方收集、融合和使用這些數(shù)據(jù)進行處理。如何解決數(shù)據(jù)碎片化和隔離問題是當今人工智能研究者和實踐者面臨的一大挑戰(zhàn)。

2 聯(lián)邦學(xué)習(xí)的定義

為了克服這些挑戰(zhàn),Google 首先引入了聯(lián)邦學(xué)習(xí)(FL)系統(tǒng)[2]。谷歌的主要想法是基于分布在多個設(shè)備上的數(shù)據(jù)集構(gòu)建機器學(xué)習(xí)模型,同時防止數(shù)據(jù)泄漏。最近的改進集中在克服統(tǒng)計數(shù)據(jù)挑戰(zhàn)[3]和提高聯(lián)邦學(xué)習(xí)的安全性[4]。也有一些研究致力于使聯(lián)邦學(xué)習(xí)更加個性化[5]。以上工作都集中在涉及分布式移動用戶交互的設(shè)備的聯(lián)邦學(xué)習(xí)上,其中大規(guī)模分布的通信成本、不平衡的數(shù)據(jù)分布以及設(shè)備可靠性是優(yōu)化的主要因素。

此外,數(shù)據(jù)是按用戶ID 或設(shè)備ID 進行分區(qū)的,因此在數(shù)據(jù)空間中是水平的。聯(lián)邦學(xué)習(xí)與保護隱私的機器學(xué)習(xí)密切相關(guān),因為它還考慮了分散協(xié)作學(xué)習(xí)環(huán)境中的數(shù)據(jù)隱私。為了將聯(lián)邦學(xué)習(xí)的概念擴展到組織間的協(xié)作學(xué)習(xí)場景,我們將原來的“聯(lián)邦學(xué)習(xí)”推廣到一個通用概念,即所有隱私保護的分散協(xié)作機器學(xué)習(xí)技術(shù)。

假設(shè)有N 個數(shù)據(jù)所有者{F1,…,FN,},他們擁有的數(shù)據(jù)分別是{D1,…,DN},每個數(shù)據(jù)所有者都希望通過整合各自的數(shù)據(jù)來訓(xùn)練一個機器學(xué)習(xí)模型。傳統(tǒng)的方法是把所有的數(shù)據(jù)放在一起,使用D=D1∪…∪DN來訓(xùn)練模型MSUM。而聯(lián)邦學(xué)習(xí)系統(tǒng)是一個協(xié)作過程,在這個過程中,數(shù)據(jù)所有者協(xié)同訓(xùn)練一個MFED,任何數(shù)據(jù)所有者Fi都不會將其數(shù)據(jù)Di公開給其他人。此外,MFED的精度VFED應(yīng)該非常接近MSUM的精度VSUM的性能。形式上,設(shè)δ為非負實數(shù);如果|VFED-VSUM|<δ則稱該聯(lián)邦學(xué)習(xí)算法有δ精度損失。

3 聯(lián)邦學(xué)習(xí)研究的進展

聯(lián)邦學(xué)習(xí)是人工智能當中發(fā)展較快的領(lǐng)域,研究成果層出不窮。接下來,本文將介紹近期的兩項研究進展:聯(lián)邦遷移學(xué)習(xí)和基于概率的聯(lián)邦學(xué)習(xí)。

3.1 聯(lián)邦遷移學(xué)習(xí)

遷移學(xué)習(xí)(TL)[6]是一種為數(shù)據(jù)集較小或只有部分標簽的應(yīng)用提供解決方案的強大技術(shù)。近年來,將遷移學(xué)習(xí)技術(shù)應(yīng)用于各個領(lǐng)域的研究工作已經(jīng)取得了很大的進展,比如圖像分類以及情緒分析。遷移學(xué)習(xí)的性能取決于領(lǐng)域之間的關(guān)聯(lián)程度。直觀地說,同一個數(shù)據(jù)聯(lián)邦中的各方通常是來自同一行業(yè)或相關(guān)行業(yè)的組織,因此更容易進行知識傳播。

聯(lián)邦遷移學(xué)習(xí)(FTL)適用于兩個數(shù)據(jù)集不僅在樣本上不同,而且在特征空間上也不同的場景。假設(shè)有兩個機構(gòu),一個是位于中國的銀行,另一個是位于美國的電子商務(wù)公司。由于地域限制,兩家機構(gòu)的用戶群有只一個小的交集。另一方面,由于業(yè)務(wù)的不同,雙方的特征空間只有一小部分重疊。在這種情況下,遷移學(xué)習(xí)技術(shù)為聯(lián)邦內(nèi)的整個樣本和特征空間提供解決方案。具體來說,就是使用有限的公共樣本集,學(xué)習(xí)到兩個特征空間的公共表示,隨后用這個公共表示獲得只有單側(cè)特征的樣本的預(yù)測。聯(lián)邦遷移學(xué)習(xí)是對現(xiàn)有聯(lián)邦學(xué)習(xí)系統(tǒng)的重要擴展,因為它處理的問題超出了現(xiàn)有的聯(lián)邦學(xué)習(xí)算法的范圍。

近年來,深層神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于遷移學(xué)習(xí)中,來尋找隱含的遷移機制。在一般的場景中,A、B 雙方通過兩個神經(jīng)網(wǎng)絡(luò)產(chǎn)生各自的隱層表示d是隱層表示的維度。為了標記目標域,通用的方法是引入一個預(yù)測函數(shù)不失一般性,假設(shè)于是,訓(xùn)練目標函數(shù)可寫為:

其中,ΘA,ΘB分別是NetA,NetB的訓(xùn)練參數(shù)。設(shè)LA,LB分別是NetA,NetB的層數(shù),那么是第l層的訓(xùn)練參數(shù)。l1表示損失函數(shù),對于logistic 損失,

另外,我們希望最小化A 和B 的對齊誤差:

其中,l2表示對齊誤差。典型的對齊誤差可以是

最終的目標函數(shù)為:

接下來要獲取反向傳播過程中更新ΘA,ΘB所需的梯度:

其中i∈{A,B} 。聯(lián)邦遷移學(xué)習(xí)要保證A 和B 不泄露自己的數(shù)據(jù),因此需要隱私保護算法來計算損失函數(shù)和梯度。文獻[7]中提供了一種新穎的方法,將加性同態(tài)加密(HE)應(yīng)用于神經(jīng)網(wǎng)絡(luò)的多方計算(MPC),從而僅需要對神經(jīng)網(wǎng)絡(luò)進行最小的修改,并且準確性幾乎是無損的,而大多數(shù)現(xiàn)有的安全深度學(xué)習(xí)框架在采用隱私保護技術(shù)時會失去一定的準確性。聯(lián)邦遷移學(xué)習(xí)的未來工作可能包括采用該方法到其他需要隱私保護數(shù)據(jù)協(xié)作的深度學(xué)習(xí)系統(tǒng),并通過使用分布式計算技術(shù)繼續(xù)提高算法的效率,以及尋找成本較低的加密方案。

3.2 基于概率的聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)中的每個數(shù)據(jù)源是隔離的,聯(lián)邦學(xué)習(xí)算法在訓(xùn)練每個數(shù)據(jù)源上的本地模型和將它們提取為全局聯(lián)邦模型之間進行迭代,而無需顯式地組合來自不同數(shù)據(jù)源的數(shù)據(jù)。典型的聯(lián)邦學(xué)習(xí)算法需要訪問本地存儲的數(shù)據(jù)進行學(xué)習(xí),更極端的情況是訪問本地數(shù)據(jù)預(yù)先訓(xùn)練的模型,而不是數(shù)據(jù)本身。文獻[8]解決的問題是,將根據(jù)不同來源的數(shù)據(jù)獨立訓(xùn)練的“遺留”模型組合成一個改進的聯(lián)邦模型。

文中開發(fā)了一個基于概率的聯(lián)邦學(xué)習(xí)框架,稱為貝葉斯非參數(shù)的神經(jīng)網(wǎng)絡(luò)聯(lián)邦學(xué)習(xí)框架。假設(shè)每個數(shù)據(jù)服務(wù)器提供本地神經(jīng)網(wǎng)絡(luò)的權(quán)重,這些權(quán)重通過該框架進行建模。然后使用一種推理方法,合成一個更具表現(xiàn)力的全局網(wǎng)絡(luò),這個過程無需額外的監(jiān)督和數(shù)據(jù)匯集,而且只需一個通信輪次。假設(shè)要么是本地數(shù)據(jù),要么是經(jīng)過本地訓(xùn)練的模型可用。當數(shù)據(jù)可用時,并行地為每個數(shù)據(jù)源訓(xùn)練本地模型。然后匹配不同數(shù)據(jù)源估計的局部模型參數(shù)(權(quán)重向量)構(gòu)建全局網(wǎng)絡(luò)。局部參數(shù)的匹配,由貝塔-伯努利過程(BBP)控制。BBP 是一個模型,允許局部參數(shù)匹配現(xiàn)有的全局參數(shù),或在現(xiàn)有的全局參數(shù)是差的匹配時,創(chuàng)建新的全局參數(shù)。

以包含單個隱層的多層感知機為例,假設(shè)已經(jīng)訓(xùn)練出J個多層感知機,分別擁有一個隱層。對于第j個感知機是隱層的權(quán)重,是隱層的偏置項,其中D 是數(shù)據(jù)維度,Lj是隱層神經(jīng)元的個數(shù)。是softmax 層的權(quán)重,∈RK是softmax層的偏置項,其中K是類別數(shù)目。在擁有J個的情況下,試圖學(xué)習(xí)全局模型,它的參數(shù)為其中L是全局模型的隱層神經(jīng)元個數(shù),由推理得出。

算法的原理如圖1 所示,三個本地多層感知機的隱層神經(jīng)元經(jīng)過匹配后,形成全局模型。圖中的節(jié)點表示神經(jīng)元,相同顏色的神經(jīng)元已經(jīng)匹配。

圖1 單層概率聯(lián)邦神經(jīng)匹配算法原理示意圖

文中提出的概率聯(lián)邦神經(jīng)匹配(PFNM)算法比現(xiàn)有方法有幾個優(yōu)點。首先,它將局部模型的學(xué)習(xí)與局部模型合并為全局聯(lián)邦模型的過程相分離。這種解耦允許我們對局部學(xué)習(xí)算法保持不可知的態(tài)度,局部學(xué)習(xí)算法可以根據(jù)需要進行調(diào)整,每個數(shù)據(jù)源甚至可能使用不同的學(xué)習(xí)算法。此外,只要給定預(yù)先訓(xùn)練的模型,PFNM 就能夠?qū)⑺鼈兘M合成一個聯(lián)邦全局模型,而不需要額外的數(shù)據(jù)或關(guān)于生成預(yù)訓(xùn)練模型的算法的知識。而現(xiàn)有的神經(jīng)網(wǎng)絡(luò)聯(lián)邦學(xué)習(xí)的方法需要關(guān)于局部學(xué)習(xí)的強假設(shè),例如,共享相同的隨機初始化,這個假設(shè)在很多情況下是不現(xiàn)實的。并且,不同于現(xiàn)有的方法,文中提出的框架本質(zhì)上是非參數(shù)的,允許聯(lián)邦模型靈活地增大或縮小其復(fù)雜性(即神經(jīng)元的數(shù)目),以考慮不同的數(shù)據(jù)復(fù)雜性。

4 聯(lián)邦學(xué)習(xí)的相關(guān)概念

聯(lián)邦學(xué)習(xí)使多方能夠協(xié)同構(gòu)建機器學(xué)習(xí)模型,同時保持其私有訓(xùn)練數(shù)據(jù)的私有性。聯(lián)邦學(xué)習(xí)作為一門新興的技術(shù),有著許多獨創(chuàng)性的思想,其中一些思想植根于現(xiàn)有的領(lǐng)域。下面,我們將從多個角度解釋聯(lián)邦學(xué)習(xí)與其他相關(guān)概念之間的關(guān)系。

4.1 隱私保護的機器學(xué)習(xí)

聯(lián)邦學(xué)習(xí)可以看作是一種隱私保護、分散協(xié)作的機器學(xué)習(xí)。過去,許多研究工作都致力于多方、隱私保護的機器學(xué)習(xí)這一領(lǐng)域。例如,文獻[9]的作者提出了用于垂直分區(qū)數(shù)據(jù)的安全多方?jīng)Q策樹的算法。Vaidya和Clifton 提出了安全關(guān)聯(lián)挖掘規(guī)則[10]、安全K-means[11]和樸素貝葉斯分類器[12]。文獻[13]的作者提出了一種基于水平分塊數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法。文獻[14]的作者提出了多方線性回歸和分類的安全協(xié)議。文獻[15]的作者提出了安全的多方梯度下降方法。這些作品都使用了安全多方計算(SMC)來保證隱私。

4.2 分布式機器學(xué)習(xí)

聯(lián)邦學(xué)習(xí)與分布式機器學(xué)習(xí)有點相似。分布式機器學(xué)習(xí)包括很多方面,如訓(xùn)練數(shù)據(jù)的分布式存儲、計算任務(wù)的分布式操作、模型結(jié)果的分布式分布等。參數(shù)服務(wù)器[16]是分布式機器學(xué)習(xí)中的一個典型元素。參數(shù)服務(wù)器作為一種加速訓(xùn)練過程的工具,將數(shù)據(jù)存儲在分布式工作節(jié)點上,通過一個中心調(diào)度節(jié)點來分配數(shù)據(jù)和計算資源,從而更有效地訓(xùn)練模型。對于聯(lián)合學(xué)習(xí),工作節(jié)點表示數(shù)據(jù)所有者,對本地數(shù)據(jù)具有完全的自主權(quán),可以決定何時以及如何加入聯(lián)邦學(xué)習(xí)。在參數(shù)服務(wù)器中,中心節(jié)點總是起控制作用。然而,聯(lián)邦學(xué)習(xí)面臨著一個更加復(fù)雜的學(xué)習(xí)環(huán)境。此外,在模型訓(xùn)練過程中,聯(lián)邦學(xué)習(xí)強調(diào)數(shù)據(jù)所有者的數(shù)據(jù)隱私保護。有效的數(shù)據(jù)隱私保護措施可以更好地應(yīng)對未來日益嚴格的數(shù)據(jù)隱私和數(shù)據(jù)安全監(jiān)管環(huán)境。

5 結(jié)語

最近,數(shù)據(jù)的隔離和數(shù)據(jù)隱私保護成為人工智能面臨的下一個挑戰(zhàn),聯(lián)邦學(xué)習(xí)給我們帶來了新的希望。它可以在保護本地數(shù)據(jù)的同時,為多個機構(gòu)建立統(tǒng)一的模型,使多個機構(gòu)能夠在數(shù)據(jù)安全的基礎(chǔ)上協(xié)同工作。本文簡述了聯(lián)邦學(xué)習(xí)的基本定義、提出背景和研究進展,包括聯(lián)邦遷移學(xué)習(xí)和基于概率的聯(lián)邦學(xué)習(xí),最后介紹了聯(lián)邦學(xué)習(xí)的相關(guān)概念。預(yù)計在將來,聯(lián)邦學(xué)習(xí)將打破行業(yè)之間的壁壘,使數(shù)據(jù)和知識可以安全地共享,并根據(jù)每個參與者的貢獻公平地分配收益。聯(lián)邦學(xué)習(xí)的發(fā)展將會促進人工智能應(yīng)用到我們生活的每個角落。

猜你喜歡
人工智能模型
一半模型
我校新增“人工智能”本科專業(yè)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
主站蜘蛛池模板: 99福利视频导航| 91无码人妻精品一区二区蜜桃 | 成人午夜视频在线| 五月天久久婷婷| 91精品伊人久久大香线蕉| 国产成人亚洲精品无码电影| 综合人妻久久一区二区精品| 波多野结衣一区二区三区四区| 国内精自线i品一区202| 久久国产成人精品国产成人亚洲| 一区二区午夜| 国产真实乱子伦视频播放| 福利国产微拍广场一区视频在线| 国产激情无码一区二区APP| 国产免费人成视频网| 手机永久AV在线播放| 青青青国产精品国产精品美女| hezyo加勒比一区二区三区| 美女无遮挡拍拍拍免费视频| 日韩一级毛一欧美一国产| 久久99热66这里只有精品一| 欧美午夜网站| 国产女人18毛片水真多1| 国产精品久久久久久久久kt| 性色在线视频精品| 91区国产福利在线观看午夜| 日韩在线观看网站| 精品国产欧美精品v| 天堂亚洲网| 亚洲av日韩av制服丝袜| 午夜福利网址| 无码又爽又刺激的高潮视频| 午夜福利在线观看入口| 亚洲成人高清在线观看| 特级毛片免费视频| 欧美成人亚洲综合精品欧美激情| 亚洲精品卡2卡3卡4卡5卡区| 亚洲高清资源| 国产毛片高清一级国语| 日韩AV手机在线观看蜜芽| 国产人妖视频一区在线观看| 456亚洲人成高清在线| 亚洲无线观看| 国产成+人+综合+亚洲欧美| 国产成人精品亚洲日本对白优播| 四虎成人免费毛片| 久久永久免费人妻精品| 久久99蜜桃精品久久久久小说| 国产精品第一区在线观看| 女人18毛片久久| 熟女成人国产精品视频| 青青操国产视频| 色偷偷综合网| 极品国产一区二区三区| 国产日本欧美在线观看| 久久一级电影| 国产伦精品一区二区三区视频优播| 午夜视频日本| av在线无码浏览| 日本欧美视频在线观看| 国产尤物在线播放| 欧美午夜小视频| 亚洲第一视频免费在线| 91综合色区亚洲熟妇p| 国产成人福利在线视老湿机| 欧美一区二区三区欧美日韩亚洲 | 9丨情侣偷在线精品国产| 国产麻豆福利av在线播放| 久久国产拍爱| 亚洲欧美激情小说另类| 国产精品久线在线观看| 97视频在线精品国自产拍| 欧美中文一区| 免费一级α片在线观看| 色天堂无毒不卡| 亚洲丝袜第一页| 不卡国产视频第一页| 四虎影视永久在线精品| 91精品专区| 亚洲精品大秀视频| 国产成人无码久久久久毛片| 国产成人无码综合亚洲日韩不卡|