999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的橫向聯邦學習方案

2022-08-12 05:07:28趙俊杰張國興楊杰
現代信息科技 2022年8期
關鍵詞:模型

趙俊杰,張國興,楊杰

( 中南民族大學 計算機科學學院,湖北 武漢 430074)

0 引 言

隨著科技的發展,人工智能已經深入到人們的日常生活中。在現實生活中,數據通常不是由單一主體管理而是掌握在諸多參與者的手中。而且在歐盟委員會強制實施《通用數據保護條例》之后,數據安全在監管上呈現全面化、密集化、嚴格化的趨勢。 各方參與者不愿意共享數據,形成數據孤島,阻礙了人工智能的發展。2016年,Mcmahan等首次提出聯邦學習的概念,即利用分散在各個移動設備上的數據進行本地訓練,然后將訓練的梯度發送到服務器,再由服務器進行梯度聚合,最后設備獲取到新的梯度。這種將數據保存在本地的訓練方式使數據的安全性得到極大程度的提高,解決了數據孤島問題,推動了人工智能的發展。

聯邦學習的目的是為了讓參與者在保證隱私安全、數據安全以及遵守相關規定的前提下 協同進行模型訓練。然而,隨著研究的不斷深入,聯邦學習依然面臨著許多的安全風險。比如在傳輸的過程中,如果發生梯度泄露,參與者的數據很有可能通過梯度被反推出來,那么參與者的數據安全將會受到嚴重威脅。如果參與者中有人對數據進行投毒或者提供虛假數據,那么模型將很難得到一個很好的訓練效果。比如服務器不可信時,那么用戶選擇的服務和擁有的數據都會存在巨大的風險。

為了解決橫向聯邦學習中的投毒攻擊問題,本文提出了基于聚類分析的參與者評價算法,實現了以下目標:

(1)提出一種基于聚類分析的參與者評價機制。本算法的目的是針對橫向聯邦學習中參與者遭受到的數據投毒攻擊或者惡意參與者,對他們進行篡改的數據集行為進行防御,從而保護訓練模型的訓練效果。

(2)通過在真實數據集上的實驗和分析,證明算法滿足準確性與實效性要求。

1 相關工作

在橫向聯邦學習的框架中,具有相同數據結構的個參與者和一個云服務器,通過參數傳遞協同學習一個模型。在當前的研究中,橫向聯邦學習的框架在實際應用中已經取得了不錯的成果,但是對投毒攻擊的預防并沒有較好的辦法。如果在這個訓練中,參與者們面臨的是惡意服務器或者 好奇服務,那么所有參與者的樣本數據將沒有任何的隱私性。

數據投毒是指攻擊者對訓練的數據集樣本進行篡改,如添加錯誤標簽、添加錯誤的數據,達到降低數據質量的效果,從而影響模型的整體訓練效果。在標簽翻轉攻擊中,通過篡改數據標簽影響模型的整體訓練效果。在后門攻擊中,通過設計特別的數據,讓模型在預測階段產生與真實值相距甚遠的結果。

針對投毒攻擊的問題,研究者們也提出了各種解決方案。在文獻[7]中,對惡意用戶提供虛假參數破壞學習過程、用戶提供的參數缺乏驗證、用戶不愿意參與模型訓練等問題,設計一種可靠的信譽評估管理機制,既能提升用戶之間的可信任度,又能獲得高質量的模型參數。文獻[8]中提出了一種分布式學習算法——基于中值和裁剪均值的兩種魯棒分布梯度下降算法,且在實驗中證明了該算法可用性。在文獻[9]中,可以在服務器上測量良性更新和惡意更新的分布差異,以此發現 惡意用戶,通過K-means算法對所有梯度值進行聚類分析,以查找出異常值。

2 背景知識

K-means聚類算法是一種最為常用的動態聚類算法,其特點是思路簡潔、收斂迅速。K-means算法的步驟為:

(1)選點 。從樣本中隨機選取個樣本作為初始中心點(值由自己設定)。

(2)歸類 。計算其余樣本與樣本點的歐式距離并進行比較,將樣本與距離最近的中心點歸為一類 。

(3)計算。重新計算簇的中心點,重復前面的步驟,直到中心點的位置收斂結束。

3 基于聚類分析的參與者評價算法

針對橫向聯邦學習中的數據投毒攻擊,本文提出一種基于聚類分析的參與者評價算法,目的在于發現遭受到數據 投毒攻擊的參與者或者是抵御對數據進行投毒或惡意修改的惡意參與者。參與者評價算法構成如圖1所示。

圖1 參與者評價算法構成

3.1 算法設計

本 算法通過對所有參與者數據集的分布趨勢、數據集的離群情況和不符合標簽規則的數據量進行分析,實現對聯邦學習中有毒數據集的檢測。算法中選擇對這三類參數進行分析的原因有三點:(1)離群值的數量是判斷一個數據集好壞的重要參數,如果一個數據集中存在大量的離群值,那么這個數據集的可用性就會下降,該數據集可能遭受到了攻擊;(2)每個數據集都存在自己的數據分布規律,如若兩個數據集的任務相同,那么它們的數據分布具有一定的相似性,通過對數據分布趨勢的分析找出差異大的數據集,該數據集即為離群數據集;(3)要使訓練模型的效果降低,最好的方法就是篡改數據,隨意篡改數據值或設計篡改規則,讓它產生錯誤的結果。數據集分布趨勢中的參數有:眾數、中位數、均值、四分位差、極差、平均差、標準差、峰態系數、偏態系數。數據集離群情況中的參數有:離群值量、離群值占比。不符合標簽規則數據量中的參數有:錯誤數據量、錯誤數據量占比。

在計算數據集的分布趨勢時,選擇數據中重要的標簽進行計算,對服務進行評價時,以所有標簽的同類評價分數的平均值為最后評分。服務器在收集到所有參與者發送的參數之后,對各類參數進行分類和編號。對各個類型的參數進行分析、評分,用于分析的正太分布函數公式為:

其中,為均值,為標準差。計算出各類參數的和,然后根據參數的設定分值進行評分,總分為100分。本算法中各個參數值的分數是依據參數在整個數據集中的重要性來設定。離群值相關參數的總分值設為30分,離群值量和離群值占比的分值設定為10分和20分,離群值是一個很重要的評價指標,分值較高;數據集的集中趨勢總分值為15分,眾數、中位數、均值分別占5分、5分、5分;數據的離散趨勢總分值20分,四分位差、極差、平均差、標準差分別占5分、5分、5分、5分;數據分布形狀的總分數為15分,峰態系數、偏態系數分別占7.5分、7.5分;數據相關性找出的錯誤數據總分值為20分,錯誤數據量7.5分、錯誤數據量占比12.5。分數計算分值的公式為:

其中,為分值,為該函數(-,+)、(-2,+2)、(-3,+3)的面積對應范圍的面積,每個范圍對應的分值范圍是70%+30%×Q、50%+20%×Q、50%×QS為某類型參數在正太分布中的面積,Q為面積范圍內的占比,P為某一類型參數的具體評分。計算每個參與者的總分值,設定評分的閥值為60,僅對總分高于60的參與者的梯度進行聚合。對于分值低于60的參與者,則認為該參與者的數據集存在投毒攻擊。

模型經過訓練后,本算法開始計算數據集的離群值、分布趨勢和錯誤數據。模型訓練完后,在發送訓練參數時,把機制計算得到的參數與訓練參數一起發送到服務器。服務器在接收到所有數據后,對機制計算的參數進行分組,如 ,=(,,…,),其中,為訓練輪次,為客戶端數,,,…,分別對應數據集的離群值、分布趨勢和錯誤數據的參數值。然后服務器計算各類參數的平均值,通過分值計算公式計算各個參數的得分,再計算出各個客戶端的數據集評分。最后,判斷出合格的數據集。

算法 3.1:參與者評價算法

Input:參與者訓練數據量num

Output:聚合平均梯度Δ,參與者訓練數據總量num

(1)Begin。

(2)Client executes。

(4)對數據集進行趨勢分析,得到趨勢參數Q=(,,…,q)。

(6)把所有參數發送到服務器。

(7)Server executes。

(8)用評分算法對所有參與者的數據集參數進行打分,統計總分數。

(9)高于閥值的總分、低于閥值的總分判斷為有毒數據集。

(10)END。

3.2 數據趨勢

每個數據集都存在一定的規則和數據分布。數據投毒攻擊篡改數據,會改變數據集的分布規律和趨勢,被篡改的數據集與其他無毒的數據集的分布趨勢會存在差異,通過對數據集的數據分布趨勢進行分析,相同的數據集存在相同或相似的分布趨勢,找出參與者中數據趨勢差異大的數據集,將其判定為投毒數據集。

3.3 數據標簽的規則與相關性

數據標簽間的相關性是指一個數據集中兩個或兩個以上不同標簽數據之間的相關性,如數量、價格和總價之間的相關性、人的血壓中高壓大于低壓、同種物體重量越大體積越大,等等。

數據標簽的規則是在改標簽的數據應當屬于在改標簽的設定范圍。如在一個人的體檢數據集中,假設一個正常成年男子的身高應該在1.5米~2.2米,但是卻存在2.5米甚至3米的數據值。

通過數據標簽的規則和相關性可以檢測數據集中的錯誤數據和不符合規則的數據。在正常的數據集中,可能存在錯誤數據,其產生的原因可能是操作出錯、機器故障,也可能被視為惡意篡改數據。前者產生的錯誤數據是有限的(可能有幾條),但是惡意行為中數據的條數就不太好判斷了。因此我們根據這個特點,設定錯誤數據量的一個指標,以此來判斷數據是否遭受到人為的惡意篡改。

3.4 安全性分析

本算法中所使用參數的價值較低,并不存在暴露本地數據的風險。若攻擊者獲取到本算法中的參數,其僅憑這些參數無法通過逆向攻擊反推出樣本數據集。對于所使用的聚類分析算法,只是用到了計算結果以及存在的離群值的數量,離群點的具體值并不會出本地,所以說本算法是安全可靠的。

4 實驗分析

4.1 實驗環境

本文所搭建的基于聚類分析和同態加密的橫向聯邦學習方案,實驗環境采用的是AMDRyzen 5 3600—Core Processor 3.6 GHz,32 GB內存,系統平臺為Windows10操作系統,采用Python語言實現所有方法,在虛擬機中模擬各方參與者與可信任第三方,本機為服務器。

本實驗采用的數據集——Cardiotocography來源于UCI機器學習存儲庫,該數據集一共包含2 126條數據,由產科醫生分類的心電圖上的胎兒心率和子宮收縮特征的測量值組成,通過這些診斷特征來確定胎兒的狀態。

4.2 實驗細節

本實驗的目的是對文中檢測遭受到數據投毒參與者的可行性進行驗證,對遭受到數據投毒參與者的數量閾值進行測定,對用戶進行投毒的數據量進行測定。實驗設置有10位參與者,參與者各自持有的數據集分別從Cardiotocography數據集中抽取出200條數據,作為參與者的個人數據。針對評價算法的實驗設置有正常數據集訓練的參照組、存在投毒數據的對照組和使用投毒數據驗證參與者評價機制的實驗組。

4.3 實驗結果

實驗結果圖中的三個條形柱分別是正常數據集訓練、存在投毒數據、使用投毒數據驗證參與者評價機制的模型準確率:

(1)單個用戶遭受到數據投毒攻擊的數據量達到多少時能夠識別出被投毒數據集,圖2是模型準確率對比圖。

圖2 模型準確率與投毒數據量

由實驗結果可知,投毒率達到12%以上時可以找出投毒數據集,投毒率在8%、10%時沒有找出投毒數據集。在單個參與者的投毒數據量比較小時,其對模型準確率的影響比較小,大概與正常模型的準確率差了0.1%~0.3%,在實際應用中可以忽略不計。本算法在數據投毒量在12%以上時,算法的有效性得到證明。

(2)多個用戶受到數據投毒攻擊且投毒的數據量為50%時,投毒數據集從1到4逐漸增多,圖3是模型準確率對比圖。

圖3 模型準確率與投毒參與者數

由實驗結果可知,當投毒用戶數小于3個時,能夠準確地找出投毒的用戶。當投毒用戶數大于3個時,參與者評價機制已經不能準確地辨別出投毒數據集,模型的準確率也大受影響,中毒模型的準確率減少17%以上。算法在面對數據投毒攻擊時,能夠識別投毒的用戶量在30%以內。

5 結 論

隨著時代的發展,數據安全變得越來越重要,人們對于數據的安全性也越來越重視。聯邦學習的發展,不能只注重訓練效果和準確率的提升,聯邦學習的本質即為數據安全,而忽視數據安全則與聯邦學習的初衷相背離。聯邦學習的數據安全應當得到足夠的重視,特別是對數據投毒、不誠實參與者和半誠實參與者的防備。因此,本文提出的基于聚類分析和同態加密的安全橫向聯邦學習方法在保證訓練準確率的同時,對于數據安全性有較高的提升,特別是對數據投毒攻擊和不誠實參與者的防御策略十分有效,通過對比實驗證明了本文所提出方案的有效性。在今后的工作中,希望針對縱向聯邦學習中存在的數據投毒攻擊和不誠實用戶的問題能夠提出更好的解決方案。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 九色视频最新网址| 性做久久久久久久免费看| 国产成人高清精品免费| 免费观看成人久久网免费观看| 亚洲an第二区国产精品| 91精品专区国产盗摄| 亚洲欧洲一区二区三区| 在线欧美日韩| 伊人婷婷色香五月综合缴缴情 | 亚洲天堂视频在线免费观看| 亚洲天堂精品视频| 久久这里只有精品23| 欧美高清国产| 精品1区2区3区| 五月丁香在线视频| 青青草原国产av福利网站| 国产十八禁在线观看免费| 青青操视频免费观看| 国产精品刺激对白在线 | 91亚洲视频下载| 国产欧美日韩免费| 国产啪在线91| 国产精品精品视频| 先锋资源久久| 久久综合九九亚洲一区| 99精品在线看| 免费国产一级 片内射老| 国产成人午夜福利免费无码r| 国产成人福利在线| 亚洲人成网站在线观看播放不卡| 欧美三级视频网站| 91久久精品国产| 亚洲av综合网| 国产精品专区第1页| 久久激情影院| 青青操视频在线| 色135综合网| 国产新AV天堂| 88av在线看| 国产成人亚洲毛片| 日韩一区二区三免费高清| 国产精品亚洲五月天高清| 国产精品久久久久鬼色| 精品欧美视频| 欧美福利在线观看| 奇米影视狠狠精品7777| 麻豆精品久久久久久久99蜜桃| 国产三级韩国三级理| 亚洲乱码精品久久久久..| 91亚瑟视频| 国语少妇高潮| 一级毛片高清| 99久久国产综合精品女同| 老司机精品一区在线视频| 2021国产v亚洲v天堂无码| 色噜噜综合网| 在线观看亚洲成人| 国产极品粉嫩小泬免费看| 99视频在线观看免费| 在线观看国产精品一区| 久久青草免费91观看| 国产成人亚洲精品蜜芽影院| 国产精品美女免费视频大全| 久久99国产乱子伦精品免| 污网站免费在线观看| 99re免费视频| 免费看av在线网站网址| 欧美影院久久| 自偷自拍三级全三级视频| 亚洲国产综合第一精品小说| 1769国产精品视频免费观看| jizz在线观看| 欧美激情第一欧美在线| 91精品网站| 国产黄在线免费观看| 幺女国产一级毛片| 欧美日本在线观看| 免费不卡视频| 幺女国产一级毛片| 国产中文一区二区苍井空| 丁香婷婷激情网| 国产精品成人第一区|