999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向機器學習模型的基于PCA 的成員推理攻擊

2022-03-01 01:31:22彭長根高婷劉惠籃丁紅發
通信學報 2022年1期
關鍵詞:模型

彭長根,高婷,劉惠籃,丁紅發

(1.貴州大學公共大數據國家重點實驗室,貴州 貴陽 550025;2.貴州大學密碼學與數據安全研究所,貴州 貴陽 550025;3.貴州大學計算機科學與技術學院,貴州 貴陽 550025;4.貴州財經大學信息學院,貴州 貴陽 550025)

0 引言

物聯網、大數據、云計算等新興技術使海量數據的采集、存儲和處理成為可能,人工智能特別是機器學習理論與技術的快速發展,使其在安防、交通、醫療等各領域得到了廣泛應用。與此同時,機器學習的安全與隱私問題成為人們關注的焦點,有學者提出了對抗樣本攻擊[1]、數據投毒攻擊[2]、模型推斷以及成員推理[3-4]等各類安全與隱私攻擊模型。這些有效的攻擊方法引發了人們對機器學習的擔憂,同時也成為機器學習發展的內生動力之一,推動科學研究人員和工程技術人員研發安全性與隱私性更好的機器學習算法和模型[5]。研究機器學習隱私攻擊模型能夠推動人們更加深入地理解機器學習模型的深層機理,揭示隱私泄露的本質原因,有利于更好地防范機器學習模型的隱私泄露風險,并有利于推動設計更加高效保護隱私的機器學習模型。

機器學習成員推理攻擊是敵手通過分析機器學習模型來推斷目標數據樣本是否包含于該機器學習模型訓練樣本數據集的一種隱私攻擊方法,該攻擊主要作用于訓練樣本數據集,威脅機器學習訓練樣本的成員關系隱私。現有工作大致可分為黑盒成員推理攻擊和白盒成員推理攻擊兩類。

在黑盒成員推理攻擊中,一類方法是基于模型預測置信度的成員推理[3-4,6-7];另一類方法是基于標簽決策的成員推理[8-10]。這兩類攻擊方法僅能通過查詢目標模型獲得輸入輸出對,而不能獲得任何關于模型的額外數據,即借助目標模型的輸出結果來完成成員推理。其中,基于模型預測置信度的成員推理作為一種需要借助目標模型的置信向量輸出來進行推斷的技術,能夠實施成功源于機器學習固有的過擬合特性,即成員數據的輸出向量的分布更集中,而非成員數據的輸出向量的分布相對平緩。盡管這些工作在黑盒設置下取得了不錯的進展,但由于企業的訪問限制,敵手無法從目標模型中獲得足夠多樣本的預測向量。更關鍵的是,這類攻擊模型難以突破MemGuard[11]防御。因此,研究者進一步提出基于標簽決策的成員推理,其僅需借助目標模型的輸出標簽即可進行成員推理,推斷者將模型返回的最大預測標簽作為推斷輸入,在預測模型訓練集與測試集的過程中引入了擾動難度,提高了成員推理的穩健性,因此被廣泛應用于機器學習的安全和隱私領域。預測標簽與對抗樣本、影子技術[3]相結合,能夠提升模型的穩健性及推理精度,但其難以保證推理的可信度和數據訪問的低成本與可遷移性。例如,Yeom 等[8]定量分析了訓練集和測試集的攻擊性能與損失之間的關系,提出了基于過擬合特性下的基線攻擊。隨后,Choo 等[9]提出了一種類似邊界攻擊的方法。通過將機器學習的過擬合特性映射到訓練集樣本與測試集樣本的擾動問題中,借助對抗樣本解決傳統成員推理固有的過擬合問題。但是,該類攻擊訪問成本過,限定訪問次數會導致攻擊失效,這在一定程度上削弱了算法的推斷精度,給推斷者的具體實施帶來了巨大挑戰。

在白盒成員推理攻擊中[12-15],攻擊者可以對目標模型進行白盒訪問。在此條件下,攻擊者可以獲得目標模型所使用的云訓練平臺的相關信息,或直接獲得目標模型的訓練算法、內部參數、模型結構、中間結果等信息,從而構建與目標模型預測能力相似的模型。鑒于先前的攻擊方法很少用到這些信息,于是,Nasr 等[12]將成員推理攻擊拓展到基于先驗知識的白盒設置,將從目標模型獲得的激活函數和梯度信息作為推斷的特征,來進行成員推理,還提出了針對聯邦學習的主動成員推理攻擊。接著,Hayes 等[13]在應對生成對抗網絡(GAN,generative adversarial network)的成員推理攻擊的工作中也提到了一種白盒攻擊,該攻擊僅使用GAN 鑒別器部分的輸出,而不需要鑒別器或生成器的學習權重即可完成推斷。除此之外,Long 等[15]提出了一種針對泛化性良好的模型的成員推理攻擊并稱為GMIA。在此種模型下,不是所有的數據都易遭受成員推理攻擊,因此需要找到易受到成員推理攻擊的脆弱數據點來進行推理。盡管現有的白盒成員推理能夠實現較好的攻擊效果,但由于在實際場景中機器模型通常部署為黑盒模型,其所需的模型知識在實際機器學習應用場景中難以得到滿足。

綜上,黑盒成員推理攻擊在機器學習模型中有更加廣泛的應用,但現有的黑盒成員推理攻擊存在訪問成本高、可遷移性弱、穩健性差等問題。針對這些問題,本文通過引入決策邊界搜索過程中基于距離的符號梯度方法[16],從擾動樣本出發將擾動難度映射到距離范疇,提出一種快速決策成員推理攻擊fast-attack。其次,針對快速決策成員推理攻擊存在的低遷移率問題,將快速決策成員推理攻擊中的基于擾動算法與主成分分析(PCA,principle component analysis)技術相結合,本文提出一種基于PCA 的成員推理攻擊PCA-based attack,以抑制fast-attack 因過度依賴模型而導致的低遷移行為。本文的具體貢獻如下。

1)提出一種快速決策成員推理攻擊fast-attack。以預測標簽作為模型的輸入,通過引入自適應貪婪算法與二分搜索來確定決策邊界的對抗樣本,將擾動難度映射到距離范疇來尋找預測差異,從而實現成員推理,降低了攻擊參與方的查詢成本,適用于低成本攻擊的目標場景。

2)提出一種基于主成分分析的成員推理攻擊PCA-based attack。基于流形界面對高維數據的影響設計基于主成分技術的嵌入映射,通過邏輯判別實現細粒度的成員推理,解決了fast-attack 因過度依賴模型造成的過擬合特定機器學習模型的問題。

3)仿真實驗表明,fast-attack 在降低訪問成本的同時攻擊精度達到75%。而PCA-based attack 在無監督的設置下優于基線攻擊,攻擊性能與目前黑盒成員推理攻擊相匹敵,且模型遷移率比fast-attack提升10%。除此之外,還評估了2 種算法的抵抗防御能力,實驗表明本文攻擊對大多數防御技術都具有不錯的攻擊效果,且具有強穩健性。

1 基礎知識

本節主要介紹成員推理攻擊涉及的數學符號和相關定義。

1.1 符號說明

本文所涉及數學符號如表1 所示。

表1 符號說明

1.2 相關定義介紹

1.2.1 成員推理攻擊

成員推理攻擊是一種通過分析目標模型來確定給定數據樣本是否存在于該目標模型的訓練集中的攻擊方法[3]。當給定x,目標模型f以及敵手的先驗知識Ω,得到相應的成員推理攻擊為

其中,1 代表x存在于目標模型的訓練數據集中,反之不存在。

1.2.2 流形學習

流形學習是一種新的機器學習方法,它能夠對訓練集中的高維數據空間進行非線性降維,揭示其流形分布,從中找到隱藏在高維觀測數據中有意義的低維結構,以便從中提取易于識別的特征。其目標是發現嵌入高維數據空間中的低維流形結構,并給出一個有效的低維表示。

1.2.3 主成分分析

主成分分析是一種線性數據變換方式,可以把可能具有相關性的高維變量合成線性無關的低維變量,數據在主成分方向上的投影擁有最大方差。該技術的主要目標是通過線性變換尋找一組最優的單位正交向量基,并用它們的線性組合來重構原樣本,以使重構后的樣本和原樣本的誤差最小。

2 成員推理攻擊

基于訓練樣本比測試樣本更難被擾動的假設原理,本文提出新的成員推理攻擊,其流程如圖1 所示。

圖1 成員推理攻擊的流程

由圖1 可知,給定目標數據,通過分析目標模型得到相應的預測標簽。結合目標數據和預測標簽作為攻擊模型的輸入,得到成員與非成員的決策判別。其中,攻擊模型的設定通過確定決策邊界,將擾動難度映射到距離范疇來構建快速決策成員推理攻擊。此外,將前者基于擾動的攻擊方案與主成分分析技術相結合,不需要訪問目標模型,進一步構造出基于主成分分析的成員推理攻擊。與一般的成員推理攻擊方法不同,本文借助擾動難度來區分成員樣本和非成員樣本,該擾動難度主要通過目標數據與其對抗樣本之間的歐氏距離來衡量,實現以較少先驗信息資源高效推斷出目標模型的訓練數據集隱私數據,降低成本需求。

2.1 快速決策成員推理攻擊

針對目前大多數黑盒成員推理攻擊因過擬合而導致的高精度攻擊這一問題,以及目前基于標簽決策的成員推理存在的高反饋訪問成本問題,本文引入文獻[16]的擾動樣本生成方案,構造了一個快速決策成員推理攻擊fast-attack。該攻擊主要包含2 個步驟:對抗樣本生成和邏輯判別。首先以預測標簽作為模型的輸入,引入自適應貪婪算法與二分搜索對目標進行決策變動,生成對抗樣本;然后計算對抗樣本與原始目標之間的歐氏距離,將擾動難度映射到距離范疇來尋找目標模型的訓練數據和測試數據的預測差異;最后將預測差異進行邏輯判別獲得細粒度的成員信號,以實現目標人群的成員推理。

通過將機器學習的過擬合特性映射到訓練集樣本與測試集樣本的擾動問題中,借助對抗樣本解決傳統成員推理固有的過擬合問題。通過將自適應貪婪算法與二分搜索相結合來確定決策邊界,解決了目前黑盒成員推理攻擊固有的高成本問題。

在對抗樣本生成的過程中,首先通過向源數據添加高斯擾動得到對抗樣本的初始值,然后引入二分搜索和自適應貪婪算法沿著對抗性區域和非對抗性區域之間的邊界執行隨機游走,使它停留在對抗區域,并且減小到目標圖像的距離。最后,結合獲得的擾動樣本來提取關于分類器決策邊界的細粒度信息,從而進行成員推理。

定義1對抗樣本生成中得到的損失函數為

其中,u(·)=min(maxi≠tfi(·)-ft(·),0)。

該損失函數計算是一個難解問題,因此,本文基于貪婪算法的局部隨機優化進行邊界搜索,得到映射方向g為

其中,ε 為方向距離參數,xt,xt+1為迭代擾動點。接著,沿著該方向以一定步長進行隨機邊界游走,多次迭代搜索生成相應的對抗樣本為

最后,計算對抗樣本與原始目標數據之間的歐氏距離Lp(x,xadv),并與獲得的閾值τ進行判別完成攻擊。具體如下,給定目標數據點到模型邊界的距離的估計distf(x)=。如果distf>τ,則將x分類為訓練集成員。如果 distf=0,則認為該目標數據點在決策邊界上,分類錯誤。同時調整閾值τ,使該算法在本實驗數據上效果最佳。

綜上,fast-attack 的偽代碼如算法1 所示。

其中,步驟1)是相關變量初始化;步驟2)中的①保證在給定最大擾動及最大訪問的條件下,借助自適應貪婪算法獲得局部最優方向,使每個樣本點接近決策邊界;步驟2)中的②、③表示沿著最優方向,進行迭代更新,獲取最貼近決策邊界的對抗樣本點;步驟3)、步驟4)借助對抗樣本進行邏輯判別,進而成功推斷出目標樣本點。算法中相關參數的取值見實驗部分。

2.2 基于PCA 的成員推理攻擊

盡管上文提到的快速決策成員推理攻擊能夠降低模型交互產生的成本,但是面對訪問受限、標記訓練樣本不足的系統,該種攻擊將失去威脅效用。除此之外,該種攻擊因過度依賴模型將導致攻擊的遷移率低下。因此,本節針對以上問題提出一種新的改進攻擊,即基于主成分分析的成員推理攻擊PCA-based attack,其將快速決策成員推理攻擊中基于擾動算法與主成分分析技術相結合來完成成員推理,框架如圖2 所示。該攻擊通過主成分分析技術模擬流模型生成對抗性區域,借助對抗性區域來構建決策區間進而實行成員推理,實現以較少先驗信息資源有效推斷出目標系統隱私數據,從而降低對目標系統歷史訪問信息的要求。

圖2 PCA-based attack 框架

基于PCA 技術,本文的成員推理攻擊可劃分為以下3 個階段。

1)對抗區域生成階段

盡管已有的成員推理攻擊對泛化性能良好的模型[17-20]失效,但廣義良好的模型對分布在x點與流形切平面正交方向上的畸變高度敏感。成員推理中,需要尋找成員與非成員數據的識別特征差異,進而實行判別。數據的識別特征差異可以通過非線性降維,揭示其流形分布,從中找到隱藏在高維觀測數據中有意義的低維結構,以便從中提取易于識別的特征。因此,在這一階段通過PCA 技術進行數據降維,在低維流形界面[21]尋找數據的正交映射方向,并選取滿足條件的擾動步長,最終獲取原始數據的對抗區域。

定義2流形界面為H,流形界面的映射樣本點為

沿用Zhang 等[22]的定義,得到對抗區域為

其中,ηl表示最小的誤分類擾動步長,ηu表示不易察覺的最大擾動步長。

2)對抗樣本生成階段

由于對抗區域依賴于獨立于分類模型的數據流形,因此可以根據對抗區域的定義,用無監督方法生成對抗性示例。計算過程為

其中,流形M是很難顯式構造的,特別是對于復雜的現實世界數據集。因此,投影點x*=H(zH(x))不能直接計算。本文使用PCA 技術來近似流形M,以產生對抗性示例。推導過程為

其中,Y=PTx和Y*=PTx*用于主成分降維來模擬流形界面,得到)且

為遞減函數,可用簡單函數替換。其中,使用結構相似性和距離最小化原則選取合適的擾動步長為

3)成員推理階段

定義3成員推理函數h(x)。用h(x)表示目標數據是否存在于推斷系統的訓練集中,在邏輯判別函數的基礎上,采用以下成員推理函數

其中,h(x)為1 時,代表x在目標模型的訓練集中,反之不在。

綜上所述,PCA-based attack 的偽代碼如算法2所示。其中,步驟1)對數據進行主成分降維處理,獲得流形界面;步驟2)~步驟4)進行投影方向的搜尋,以獲得流形界面的投影點,進而生成對抗樣本;步驟5)將原始數據與對抗數據之間的擾動距離通過閾值判別,進行成員推理。

3 方案分析

3.1 可行性分析

機器學習模型在預測訓練集樣本時能以更高的精準度進行預測。在過擬合的情況下,訓練集樣本的預測置信度明顯高于測試集樣本。因此可以判定訓練集樣本相比測試集樣本更難被擾動。另外,針對二進制邏輯回歸模型的特殊情況,給定學習權重向量ω和偏置b,邏輯回歸模型的輸出為判別類的置信向量

其中,σ(t)=∈(0,1)為邏輯函數。

該模型表明,點x的置信度與從x到模型決策邊界的歐氏距離之間存在一定的正向關系。即從x到模型邊界的距離為

因此,獲得點到邊界的距離所產生的信息與已知模型的預測置信度的效果相同。部分研究表明[19-21],成員推理的實施可通過計算目標點到邊界的距離,而其正是找到最小對抗性擾動的問題。

對驗證數據進行實驗分析(見附錄1),決策判別如圖3 所示,成員樣本相比于非成員樣本,距離決策邊界更遠,更難被擾動,進一步說明成員推理攻擊可轉變為求最小擾動問題。

圖3 決策判別

3.2 遷移性分析

本文提出的PCA-based attack 主要是通過主成分分析技術進行數據降維,在低維流形界面尋找數據的正交映射方向來獲取原始數據的對抗樣本,再結合快速決策成員推理攻擊中基于擾動范疇的算法思想來進行成員推理。高維數據在流模型上的數據映射如圖4 所示,在面對分類圖像問題時,將每個類別的數據映射到相應的流形界面,流形上的數據點可以局部地用一個低維向量來表征。對于一個D維空間上的樣本點x0,沿著d維空間的流形界面H(z)的映射方向進行搜尋,可得到相應的對抗區域和對抗樣本。

圖4 高維數據在流模型上的數據映射

此外,根據對抗區域的定義,對抗區域中的數據點對所有機器學習模型算法都構成了潛在威脅。由于不同的機器學習模型算法可能具有不同的決策超平面f1和f2,因此可以使用這些超平面將對抗區域劃分為2 個子集,即對抗子集Sadv和常規子集Sreg。如圖5 所示,對抗區域由超平面f1劃分得到。若該對抗區域又被超平面f2劃分,此時將總共得到4 個區域子集。此時的都被劃分為對抗子集,即,則表明2 個決策模型都對中的樣本進行錯誤分類。即2 個對抗子集的交集中的樣本能夠在2 個模型之間傳遞,該原理說明PCA-based attack 具有較強的可遷移性。

圖5 決策模型的對抗區域

4 仿真實驗

為了驗證本文提出的PCA-based attack 的有效性,本文在3 個真實數據集和一種卷積神經網絡模型上進行實驗,并與最新攻擊進行比較,驗證本文攻擊的有效性。

4.1 數據與實驗參數設置

本文對CIFAR10[4]、CIFAR100[4]和GTSRB[4]這3 個經典的圖像數據集進行成員推理實驗。首先,基于每個數據集訓練3 組不同數量的數據用于訓練模型。另外,由于快速決策成員推理攻擊需要多次查詢來擾亂數據樣本以更改它們的預測標簽,因此為基于距離符號梯度的快速決策成員推理攻擊設置了查詢上限 1×105,以進一步研究查詢成本對推斷性能的影響。為了研究PCA-based attack 對不同機器學習模型的遷移效果,增添了一組實驗數據集MNIST[3],且另外部署了4 組不同架構設置的卷積神經網絡{CNN7,CNN8,CNN9,CNN12}用于比較算法的遷移。最后,為了進行評估,對Dtarget中的數據進行隨機重組,一部分用于訓練目標模型f,即Dtrain,作為目標模型的成員樣本;另一部分Dtest作為非成員樣本。評估算法效率時,使用相同大小的集合來最大限度地提高推斷的不確定性。

本文實驗的源模型是CNN,模型訓練采用Adam[23]優化器進行優化,其中epoch=15,batch size=128,learning rate=1×10-4,decay=1×10-6。

由于AUC 指標考慮了閾值變動的影響,且ROC 曲線有一個很好的特性:當測試集中的正負樣本分布發生變化時,ROC 曲線保持不變。因此,本文實驗的評價指標采用AUC。

4.2 對比攻擊方法

為了驗證PCA-based attack 的有效性,本文將其與快速決策成員推理攻擊和其他3 種攻擊進行比較,分別為 score-based attack[3-4,7,24-25]、baselineattack[8]和boundary-attack[9]。下面對3 種攻擊進行簡要介紹。

1)score-based attack。該攻擊將攻擊轉化為一個有監督的二分類問題,利用模擬數據集構建類似目標模型的影子模型,并基于影子模型和目標模型的輸出結果訓練一個能夠判斷是否是目標模型訓練數據的攻擊模型。

2)baseline-attack。該攻擊通過數據樣本是否被正確分類來進行成員推理。若目標數據被錯誤分類,則認定該數據為非成員數據,反之為成員數據。具體表達式為

在實際應用中,不管是模型穩定的算法還是容易過度擬合的算法都容易受到成員推理攻擊。

3)boundary-attack。該攻擊中,對手不能訪問預測置信得分,只能借助目標模型的決策標簽來發動攻擊。首先利用擾動技術對目標數據點進行決策變動,生成對抗樣本;然后計算對抗樣本與原始目標之間的變動差異,進而尋找訓練數據和測試數據之間的預測差異;最后比較預測差異獲得細粒度的成員信號,以實現目標人群的成員推理。

4.3 攻擊實驗

在攻擊的過程中需要解決2 個主要的問題。1)在只給定輸出標簽的黑盒設置中,保證推理精度的同時需要降低訪問成本。2)在訪問成本受限的情況下,盡可能消除外在情況帶來的影響。

1)在黑盒設置下的推理性能

首先,為了驗證攻擊方法在黑盒設置下對目標模型的推理效果,本文在CNN 模型上對各攻擊進行測試,不同攻擊在黑盒設置下的推理精度如表2 所示。

表2 不同攻擊在黑盒設置下的推理精度

由表2 可知,大部分的攻擊都能實現一定的推理性能。在規模較大的CIFAR10 數據集(5 000)和CIFAR100(8 000)數據集中,boundary-attack和fast-attack 的推理精度較高,其原因在于兩者均基于預測標簽獲取最優的擾動來區分成員與非成員樣本,因此對細粒度的成員信號識別具有較大的影響。而在較小規模的GTSRB 數據集(600)中,兩者攻擊精度下降明顯,但fast-attack 依舊維持最優攻擊。本文提出的PCA-based attack 雖然沒有得到最優的推理精度,但是在整體上均能保持與score-based attack相近的性能。這也驗證了PCA-based attack 能較好地對目標模型進行有力威脅。

本文提出的fast-attack 不僅在推理精度上取得了不錯的效果,在降低成本方面也表現良好,fast-attack 精度隨著訪問量的變化情況如圖6 所示。

圖6 fast-attack 精度隨著訪問量的變化情況

在boundary-attack 中,實驗設置訪問量為0~15 000,當訪問量的值設置為10 000 時,在繼續增大訪問量的情況下,攻擊性能不發生明顯變化。由圖6 可知,多次隨機實驗,fast-attack 在限定訪問量的情況下,相比boundary-attack,提前達到最優攻擊性能。此外,該算法在GTSRB 數據集上收斂速度加倍。因此,本文提出的fast-attack 在保證推斷精度的情況下,降低了模型的訪問量成本,甚至在少數數據集上,收斂速度翻倍。

2)成本受限情況下的遷移能力

從安全的角度來看,可遷移性是攻擊的一個重要屬性,因為它使敵手能夠創建出可以攻擊任意目標模型的算法。本文使用文獻[26-27]的標準來衡量可遷移性,即由 CNN7得出的對抗樣本同時又被其他決策模型錯誤分類所占總體比重來衡量。

為了驗證攻擊的模型遷移能力,本文在MNIST數據集進行了實驗,不同算法在MNIST 數據集的遷移率如表3 所示。

表3 不同算法在MNIST 數據集的遷移率

由表3 可知,PCA-based attack 的遷移率隨推斷精度的提升而變大,且明顯高于fast-attack。在推斷精度為0.65 時,PCA-based attack 整體遷移率低于fast-attack(數據量為50 000 和5 000 時),但隨著精度的提升,PCA-based attack 遠超出其他攻擊。實驗表明,PCA-based attack 的適應范圍更廣,攻擊效能更強。盡管PCA-based attack 的推斷精度較低,但相比于fast-attack 需要依賴目標模型來進行推斷等決策方法,其不需要利用源模型的任何信息,即可構建性能不錯的成員攻擊。不同攻擊的部署結構如表4所示。

由表4 可知,fast-attack 僅需預測標簽即可進行成員推理;而PCA-based attack 不需要目標模型結構僅需數據分布即可完成推斷。相比其他攻擊方案,所需條件更少,訪問成本更低,更符合實際需求。其中,AUC 結果的設定基于CIFAR10 模型得到,作為前提條件,便于對比不同攻擊方案的部署結構以及攻擊性能。

表4 不同攻擊的部署結構(CIFAR10 數據集)

此外,基于主成分的決策邊界成員推理攻擊中,邏輯判別中的閾值選取尤為重要,實驗通過L2距離閾值的設定來觀察攻擊性能。攻擊性能隨L2距離閾值變化如圖7 所示。由圖7 可知,攻擊性能隨L2 距離閾值呈凸型變化,在閾值0.5~1.5 達到峰值。實驗表明,要得到一個較優的算法需要選取中間的閾值。

圖7 攻擊性能隨L2 距離閾值變化

4.4 有效性分析

4.3節主要對PCA-based attack、fast-attack 和其他攻擊進行比較,測試了不同場景、不同模型上的推理性能,本節將進一步從抵抗防御角度探究所提方法的有效性。

1)泛化增強[3-4,28-33]。基于過擬合造成的成員推理攻擊,該類方法借助L1、L2 正則化、隨機失活以及數據增強等措施降低模型的過擬合,在提升目標模型預測性能的同時降低數據泄露的風險。

2)隱私增強[34-36]。差分隱私被廣泛用于降低隱 私威脅。該防御技術通過向模型梯度、目標函數添加噪聲來防止數據的信息泄露。

3)置信度擾動[11,37]。以往基于置信度分數的推理攻擊能夠清晰地呈現成員細粒度信號。因此該類防御旨在改變置信度分數,代表性技術為MemGuard 和Adversarial regularization,它們通過改變輸出概率分布,使成員與非成員難以區分從而實現防御。

為了驗證本文所提攻擊的有效性,將不同的成員推理攻擊應用于不同的防御技術,實驗在CIFAR10 數據集上使用不同的防御指標參數訓練了3 組目標模型,分別為L1(λ∈[0.0001,0.001,0.005]),L2(λ∈[0.01,0.05,0.1])差分隱私添加的噪聲服從高斯分布 N(0,β),β∈[0.1,0.5,1.0],數據增強通過改變模型訓練數據集樣本量來驗證。

實驗表明,在β=1.0,λL1=0.005,λL2=0.1的情況下,大部分攻擊較低了方案的攻擊性能,但是損失了目標模型的決策性能,影響模型的實際應用。而PCA-based attack 并未受影響,是因為該攻擊不借助目標模型進行攻擊。本文結合實驗和理論分析,不同攻擊的防御情況如表5 所示,其中,↓代表攻擊性能下降,—代表攻擊性能不變。由表5 可知,在大多數情況下,fast-attack 和PCA-based attack都能取得不錯的效果,其不僅突破了常見的一些防御技術,甚至目前最優的防御技術MemGuard 和Adversarial regularization 都失去了防御效用。因為大部分防御措施主要用于降低模型的過擬合,其針對基于過擬合得到的成員推理攻擊能夠產生顯著效果,但本文攻擊借助對抗樣本解決了傳統成員推理攻擊固有的過擬合問題,且目前最優防御技術的原理在于干擾模型的輸出置信度。因此,本文提出的成員推理攻擊能夠規避這些攻擊。盡管fast-attack和PCA-based attack 能夠規避大多數防御,但是前者難以抵擋差分隱私和L2 正則化防御,且后者也對數據增強失去效用。這是因為差分隱私通過向目標函數添加噪聲干擾了敵手的攻擊,而數據增強技術會干擾流模型的形成,進一步影響對抗樣本的生成。盡管如此,差分隱私在防御攻擊的同時也會干擾模型的效用,難以達到較優的隱私-效用均衡且L2正則化在過強的防御干擾下同樣會使目標模型失去效用。綜上,本文提出的攻擊具有較強的穩健性和攻擊性。

表5 不同攻擊的防御情況

5 結束語

本文研究了機器學習訓練數據集的隱私攻擊問題,提出了新的成員推理隱私攻擊,即fast-attack和PCA-based attack。前者以低成本快速生成不易感知的對抗樣本,從而達到較高精度成員推理。而后者針對fast-attack存在的低遷移率問題進行改進,將快速決策成員推理攻擊中基于擾動算法與主成分分析技術相結合來進行成員推理,能夠在不同模型之間進行高效率遷移。盡管PCA-based attack 攻擊率低于fast-attack,但相比于fast-attack 需要依賴目標模型來進行推斷等一系列決策算法,其不需要利用源模型的任何信息即可完成成員推理。此外,本文提出的攻擊都能對大多數防御的機器學習模型進行攻擊,在更嚴格的對抗模型中實現高精度的成員推理。

鑒于本文提出的攻擊是通過將機器學習的過擬合特性映射到訓練集樣本與測試集樣本的擾動問題中,借助對抗樣本來實現成員推理。因此,未來的模型隱私防護工作可在對抗樣本的擾動上進行防御工作,進而保護數據的隱私。

附錄1 驗證數據的實驗分析

對CIFAR10、CIFAR100、GTSRB 這3 組數據的評估數據集進行擾動差異驗證,其中,擾動差異通過計算原始數據與擾動數據的L2 距離得到,結果如圖8 所示。由圖8 可知,成員數據的擾動難度明顯大于非成員數據,且隨著模型的過擬合程度增大而增大,表明模型的過擬合能夠促進成員與非成員樣本的細粒度區分,提升攻擊性能。

圖8 成員與非成員的擾動差異

除了對MINIST 數據集進行攻擊方案的遷移性能驗證,還將其擴展到CIFAR10、ImageNet、GTSRB 數據集,實驗結果如表6、表7 所示。由表6、表7 可知,在小樣本數據下,PCA-based attack 的遷移性能表現更優,但在部分大樣本數據以及低維數據中,表現欠佳。

表6 不同攻擊在CIFAR10 數據集的遷移率

表7 不同攻擊在ImageNet 數據集和GTSRB 數據集的遷移率

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: AⅤ色综合久久天堂AV色综合| 女人爽到高潮免费视频大全| 国产成人91精品| 色综合a怡红院怡红院首页| 无码专区国产精品第一页| 免费观看成人久久网免费观看| 午夜在线不卡| 色综合中文| 免费高清毛片| 黄色一级视频欧美| 精品少妇人妻av无码久久| 免费国产高清视频| аⅴ资源中文在线天堂| 美女视频黄又黄又免费高清| 亚洲中文字幕av无码区| www中文字幕在线观看| 尤物国产在线| av大片在线无码免费| 全午夜免费一级毛片| 999国产精品| 欧美一区二区三区国产精品| 亚洲成人动漫在线观看| 久久亚洲高清国产| 欧洲欧美人成免费全部视频| 经典三级久久| 欧美亚洲国产精品第一页| 午夜视频免费试看| 一本一道波多野结衣一区二区| 婷婷丁香在线观看| 国产白丝av| 亚洲中文字幕国产av| 欧美亚洲一区二区三区在线| 国产成人综合日韩精品无码不卡 | 免费看a毛片| 欧美中文字幕在线二区| 欧美三级不卡在线观看视频| 国产农村精品一级毛片视频| 国产精品永久久久久| 啪啪免费视频一区二区| 国产主播喷水| 99热最新在线| 国产大片喷水在线在线视频 | 精品国产电影久久九九| 国产欧美日韩专区发布| 免费毛片a| 超薄丝袜足j国产在线视频| 无码专区在线观看| 超碰色了色| 国产成人AV综合久久| 日韩成人高清无码| 久久国产成人精品国产成人亚洲| 午夜三级在线| 欧美亚洲欧美| 国产免费黄| 国产免费人成视频网| 91网在线| 国产伦片中文免费观看| 成人欧美日韩| 一本大道无码高清| 久久精品这里只有精99品| 婷婷亚洲天堂| 老司国产精品视频91| 成人在线视频一区| 欧美日韩精品在线播放| 亚欧成人无码AV在线播放| 老司机aⅴ在线精品导航| 亚洲欧美在线看片AI| 第一页亚洲| 国产精品一区二区久久精品无码| 在线精品视频成人网| 日韩免费毛片视频| 亚洲成在人线av品善网好看| 91精选国产大片| 亚洲欧美成aⅴ人在线观看| 亚洲第一成年免费网站| 欧美精品亚洲日韩a| 欧美成人午夜影院| 高清国产在线| 综合亚洲网| 国产激爽爽爽大片在线观看| 福利视频一区| 日韩在线永久免费播放|