任奎,孟泉潤,閆守琨,秦湛
人工智能模型數據泄露的攻擊與防御研究綜述
任奎,孟泉潤,閆守琨,秦湛
(浙江大學網絡空間安全學院,浙江 杭州 310027)
人工智能和深度學習算法正在高速發展,這些新興技術在音視頻識別、自然語言處理等領域已經得到了廣泛應用。然而,近年來研究者發現,當前主流的人工智能模型中存在著諸多安全隱患,并且這些隱患會限制人工智能技術的進一步發展。因此,研究了人工智能模型中的數據安全與隱私保護問題。對于數據與隱私泄露問題,主要研究了基于模型輸出的數據泄露問題和基于模型更新的數據泄露問題。在基于模型輸出的數據泄露問題中,主要探討了模型竊取攻擊、模型逆向攻擊、成員推斷攻擊的原理和研究現狀;在基于模型更新的數據泄露問題中,探討了在分布式訓練過程中,攻擊者如何竊取隱私數據的相關研究。對于數據與隱私保護問題,主要研究了常用的3類防御方法,即模型結構防御,信息混淆防御,查詢控制防御。綜上,圍繞人工智能深度學習模型的數據安全與隱私保護領域中最前沿的研究成果,探討了人工智能深度學習模型的數據竊取和防御技術的理論基礎、重要成果以及相關應用。
人工智能;數據安全;隱私泄露;隱私保護
人工智能(AI,artificial intelligence)技術正在加速崛起,它的崛起依托于3個關鍵因素:①深度神經網絡(DNN,deep neural network)在多個經典機器學習任務中取得了突破性進展;②大數據處理技術的成熟以及海量數據的積累;③硬件計算能力的顯著提高。在這3個因素的推動下,AI 技術已經成功應用于自動駕駛、圖像識別、語音識別等場景,加速了傳統行業的智能化變革。
AI技術在我國已經得到了廣泛的應用。在電商領域,AI技術可以被用于用戶行為分析、網絡流量分析等任務,不僅使企業處理高并發業務更高效,而且提升了整體系統的魯棒性;在智能出行領域,AI技術可以被用于處理路徑規劃、司機乘客行為檢測等任務;在金融領域,AI技術可以執行高頻交易、欺詐檢測、異常檢測等任務;在網絡安全領域,AI技術作為輔助工具被應用于自動化測試等任務中,極大地提升了安全人員在海量的大數據信息中定位異常點的效率。2017年,我國政府工作報告首次提及人工智能相關內容,人工智能的發展也逐漸被上升到國家發展戰略高度。
目前大多數現實世界的機器學習任務是資源密集型的,需要依靠大量的計算資源和存儲資源完成模型的訓練或預測,因此,亞馬遜、谷歌、微軟等云服務商往往通過提供機器學習服務來抵消存儲和計算需求。機器學習服務商提供訓練平臺和使用模型的查詢接口,而使用者可以通過這些接口來對一些實例進行查詢。一般來說,服務商或者模型提供者會對使用者的查詢操作按次進行收費。
但AI 技術在高速發展的同時面臨著嚴峻的數據泄露風險。AI模型的參數需要得到保護,否則將對模型擁有者帶來巨大的經濟損失。此外,AI技術所需要的樣本數據往往包含了個人的隱私數據,這些隱私數據一旦被泄露,將會為模型擁有者帶來巨大的經濟風險和法律風險。2017年,我國頒布的《中華人民共和國網絡安全法》也強調了對個人隱私信息的保護。因此,如何充分防范AI技術應用中的數據泄露風險,成為該技術進一步發展與部署的阻礙之一。
為了保障人工智能模型相關信息的隱私性,云服務商會保證自身模型的隱秘性,僅提供一個接口來為使用者提供服務,從而保證模型使用者無法接觸到模型數據。然而近年來,仍然出現了大量試圖破壞人工智能模型數據隱私性的攻擊。研究者發現深度學習模型使用過程中產生的相關計算數據,包括輸出向量、模型參數、模型梯度等,可能會泄露訓練數據的敏感信息或者模型自身的屬性參數[1]。更糟的是,這些數據往往又不可避免地會被泄露給攻擊者,尤其是某些模型的輸出結果向量。這使深度學習模型的數據泄露問題難以避免。例如,模型逆向攻擊,攻擊者可以在不接觸隱私數據的情況下利用模型輸出結果等信息來反向推導出用戶的隱私數據;成員推斷攻擊,攻擊者可以根據模型的輸出判斷一個具體的數據是否存在于訓練集中。而這類攻擊只需要與云服務的接口進行交互。實際應用中,這類信息竊取攻擊會導致嚴重的隱私泄露,如人臉識別模型返回的結果向量可以被用于恢復訓練數據或者預測數據中的人臉圖像,這將導致用戶的肖像信息被泄露。攻擊者還可以通過模型輸出結果竊取相關模型的參數,對模型擁有者造成嚴重的經濟損失[2]。
此外,隨著聯邦學習[3]等分布式機器學習技術的發展,攻擊者有可能成為模型訓練過程中的參與方。一般而言,聯邦學習中的參與方無法獲知彼此的輸入數據等隱私信息,但由于攻擊者能夠獲得模型在訓練過程中的輸出、模型參數和梯度等信息,這大大提升了攻擊者的能力,使攻擊者竊取其他參與方隱私數據成為可能。這將給分布式機器學習技術的發展帶來嚴重的阻礙。
近年來,許多研究者提出了各種機制來防御針對AI技術的隱私攻擊。通過對模型結構的修改,為輸出向量添加特定噪聲,結合差分隱私等技術,能夠有效防御特定的隱私泄露攻擊。
本文將介紹目前研究較多的數據推斷攻擊,包括模型竊取攻擊、模型逆向攻擊、成員推斷攻擊。并介紹針對上述不同攻擊的防御機制,其生成的具備隱私保護功能的模型能夠抵抗特定的數據推斷攻擊。
在深度學習模型的訓練和應用過程中,所使用的數據和模型參數都面臨著被泄露的風險。根據攻擊者所利用的模型的輸出信息類型的不同,可將此類推斷攻擊分為基于模型輸出的數據泄露以及基于梯度更新的數據泄露兩類。
模型輸出是指模型在訓練完畢投入的階段,接收輸入返回給使用者的預測結果。例如,在分類任務中,模型輸出就是對應樣本的類別或者概率向量。近些年來的研究表明,模型輸出結果隱含一定的數據信息。攻擊者可以利用模型輸出在一定程度上竊取相關數據,通過這種方法主要可以源。竊取兩類數據信息:模型自身的參數數據;訓練/測試數據。
(1)模型竊取
模型竊取攻擊(model extraction attack)是一類竊取模型信息的惡意行為,攻擊者通過向黑盒模型進行查詢獲取相應結果,獲取相近的功能,或者模擬目標模型決策邊界。被竊取的模型往往是擁有者花費大量的金錢時間構建而成的,對擁有者來說具有巨大的商業價值,一旦模型的信息遭到泄露,攻擊者就能逃避付費或者開辟第三方服務從中獲取商業利益,使模型擁有者的權益受到損害。更嚴重的是,如果模型遭到竊取,那么攻擊者可以進一步部署白盒對抗攻擊來欺騙在線模型,這時模型的泄露會大大增加攻擊的成功率。例如,在針對亞馬遜和谷歌的在線人工智能分類任務進行黑盒對抗攻擊的時候,研究者僅使用少量的樣本施展模型竊取攻擊,并針對竊取到的替代模型生成白盒對抗樣本,使用該方法生成的對抗樣本可以使亞馬遜和谷歌的分類模型分別出現96.19%和88.94%的誤判率[4]。
目前,大多數的AI技術供應商是以如下模式提供服務的:提供功能的模型本身往往位于安全的云端服務器,通過API 來為客戶端提供付費查詢服務。客戶僅能通過定義好的API 向模型輸入查詢樣本,并獲取模型對樣本的預測結果,然而即使攻擊者僅利用預測結果產生的信息,他也能在一定情況下通過查詢來竊取服務端的模型。模型竊取攻擊主要可以分為3類:Equation-solving Attack;基于Meta-model 的模型竊取;基于替代模型的模型竊取。
Equation-solving Attack 是一類主要針對支持向量機(SVM)等傳統的機器學習方法的模型竊取攻擊。攻擊者可以先獲取模型的算法、結構等相關信息,然后構建公式方程來根據query的返回的結果求解模型參數[5]。在此基礎之上還可以竊取傳統算法中的超參數,如損失函數中loss 項和regularization 項的權重參數[6]、KNN中的值等。Equation-solving Attack 需要攻擊者了解目標算法的類型、結構、訓練數據集等信息,無法應用于復雜的神經網絡模型。
基于Meta-model 的模型竊取。這種攻擊的主要思想通過訓練一個額外的meta model(·) 來預測目標模型的指定屬性信息。Meta-model 的輸入樣本是所預測模型在任務數據上的輸出結果(),輸出的內容(())則是預測目標模型的相關屬性,如網絡層數、激活函數類型等。因此為了訓練meta-model,攻擊者需要自行收集與目標模型具有相同功能的多種模型,獲取它們在相應數據集上的輸出,構建meta-model 的訓練集。然而該訓練集的構建需要多樣的任務相關模型,對計算資源的要求過高,因此該類攻擊并不是非常實用,文獻[7]的作者也僅在MNIST 數字識別任務上進行了相關實驗。
基于替代模型的模型竊取是目前比較實用的一類攻擊。攻擊者在未知目標模型結構的情況下向目標模型查詢樣本,得到目標模型的預測結果,并以這些預測結果對查詢數據進行標注構建訓練數據集,在本地訓練一個與目標模型任務相同的替代模型,當經過大量訓練之后,該模型就具有和目標模型相近的性質。一般來說,攻擊者會選取VGG[8]、ResNet[9]等具有較強的擬合性的深度學習模型作為替代模型結構[10]。基于替代模型的竊取攻擊與Equation-solving Attack 的區別在于,攻擊者對于目標模型的具體結構并不了解,訓練替代模型不是為了獲取目標模型的具體參數,而只是利用替代模型去擬合目標模型的功能。為了擬合目標模型的功能,替代模型需要向目標模型查詢大量的樣本來構建訓練數據集,然而攻擊者往往缺少充足的相關數據,并且異常的大量查詢不僅會增加竊取成本,更有可能會被模型擁有者檢測出來。為了解決上述問題,避免過多地向目標模型查詢,使訓練過程更為高效,研究者提出對查詢的數據集進行數據增強,使這些數據樣本能夠更好地捕捉目標模型的特點[4],如利用替代模型生成相應的對抗樣本以擴充訓練集,研究認為對抗樣本往往會位于模型的決策邊界上,這使替代模型能夠更好地模擬目標模型的決策行為[11-12]。除了進行數據增強,還有研究表明使用與目標模型任務無關的其他數據構建數據集也可以取得可觀的攻擊效果,這些工作同時給出了任務相關數據與無關數據的選取組合策略[2,10]。
(2)隱私泄露
機器學習模型的預測結果往往包含了模型對于該樣本的諸多推理信息。在不同的學習任務中,這些預測結果又包含了不同的含義。例如,圖像分類任務中,模型輸出的是一個向量,其中,每一個向量分量表示測試樣本為該種類的概率。最近的研究證明,這些黑盒的輸出結果可以被用來竊取模型訓練數據的信息,如Fredrikson等提出的模型逆向攻擊(model inversion attack)[13]可以利用黑盒模型輸出中的confidence 等信息將訓練集中的人臉恢復出來。他們針對常用的面部識別模型,包括softmax 回歸[14]、多層感知機和自編碼器網絡實施模型逆向攻擊。他們認為模型輸出的confidence包含的輸入數據信息,也可以作為輸入數據恢復攻擊的衡量標準。他們將模型逆向攻擊問題轉變為一個優化問題,優化目標為使逆向數據的輸出向量與目標數據的輸出向量差異盡可能地小,即假如攻擊者獲得了屬于某一類別的輸出向量,那么他可以利用梯度下降的方法使逆向的數據經過目標模型的推斷后,仍然能得到同樣的輸出向量。
成員推斷攻擊(membership-inference attack)是一種更加容易實現的攻擊類型。它是指攻擊者將試圖推斷某個待測樣本是否存在于目標模型的訓練數據集中,從而獲得待測樣本的成員關系信息。例如,攻擊者希望知道某個人的數據是否存在于某個公司的醫療診斷模型的訓練數據集中,如果存在,那么可以推斷出該個體的隱私信息。目標模型訓練集中的數據被稱為成員數據(member data),而不在訓練集中的數據被稱為非成員數據(non-member data)。同時由于攻擊者往往不可能掌握目標模型,因此攻擊者只能實施黑盒場景下的成員推斷攻擊。文獻[15-20]已經對這種攻擊進行了深入的研究。成員推斷攻擊是近兩年來新興的一個研究課題,這種攻擊可以用于醫療診斷、基因測試等應用場景,它對用戶的隱私數據提出了挑戰,同時關于這種攻擊技術的深入發展及其相關防御技術的探討成為一個新的研究熱點。
2017 年,Shokri等[15]第一次提出了成員推斷攻擊。經過大量實驗,他們完成了黑盒場景下成員推斷攻擊的系統設計。這種攻擊的原理是機器學習模型對成員數據的預測向量和對非成員數據的預測向量有較大的差異,如果攻擊者能準確地捕捉到這種差異,就可以實施成員推斷攻擊。然而,在黑盒的場景下,可以從目標模型中得到的只有預測向量,甚至在實際場景下,由于企業的使用限制,無法從目標模型中獲得足夠多樣本的預測向量。此外,由于不同樣本的預測向量的分布本身就不一致,即使攻擊者直接利用預測向量進行訓練,也無法實現較好的攻擊效果。因此,Shokri等使用與目標網絡相同的結構,并建立與目標數據集同分布的shadow 數據集,之后為每一類數據建立多個shadow模型,實現了對預測向量的數據增強效果,并獲得了大量的預測向量作為攻擊模型的訓練樣本。并且,利用預測向量,他們構建了攻擊模型,使其能夠捕捉預測向量在成員數據和非成員數據之間的差異,從而完成了黑盒場景下的成員推斷攻擊。
之后隨著成員推斷攻擊技術的發展,人們發現這種攻擊的本質就是目標模型對成員數據和非成員數據給出的預測向量存在差異,即成員數據的輸出向量的分布更集中,而非成員數據的輸出向量的分布相對較為平緩。這種差異性是模型過擬合的主要表現,也就是說成員推斷攻擊與模型的過擬合程度有很大關聯。在這個研究方向上,Yeom等[16]研究了模型的過擬合對成員推斷攻擊的影響,他們通過理論和實驗證實了模型的過擬合程度越強,模型泄露訓練集成員關系信息的可能性越大;但同時指出,模型的過擬合并不是模型易受成員推斷攻擊的唯一因素,一些過擬合程度不高的模型也容易受到攻擊。隨后,Ashamed等[17]進一步完善了黑盒場景下的成員推斷攻擊,他們在2019 年提出了改進后的成員推斷攻擊,在極大地降低了實現這種攻擊成本的同時,實現了與Shokri等[15]相同的攻擊效果,并更明確地展示了成員推斷攻擊出現的本質原因。即成員數據和非成員數據的預測向量間的差異主要體現為預測向量的集中度。同時他們提出了3種方法,不斷減少了成員推斷攻擊的部署成本。第一種情況下,他們對目標模型的輸出向量從大到小進行重排序,使模型對不同類別數據的輸出向量的分布趨于一致,均為從大到小,這樣就可以避免數據增強的過程,進而減少所需shadow model 的數量,同時不需要知道目標模型的結構,只需要使用基礎的網絡結構(如CNN[21]、Logistic Regression[22])和隨機森林[23]等來構建shadow model 即可。同時他們發現,只需要截取排序后預測向量的前3個概率值作為攻擊模型的訓練樣本,也能達到較好的攻擊效果;第二種情況下,他們提出了數據遷移攻擊,即使用與目標模型的訓練集分布不同的數據集來訓練shadow model,最終獲得的攻擊模型同樣能對目標模型的數據進行成員關系推斷,并實現類似的攻擊效果;第三種情況下,他們提出了threshold choosing,使用該策略可以確定出一個閾值,只要預測向量的最大值大于,即稱該向量對應的待測樣本為成員數據,否則,為非成員數據。Ashamed等[17]的工作進一步強化了成員推斷攻擊,極大地提升了該攻擊的威脅性。
隨著人們對成員推斷攻擊研究的深入,研究者們發現了成員推斷攻擊的一些新特性。如Song等[24]發現當一個機器學習模型被加入了一些抵御對抗樣本攻擊的方法后,會提高該模型泄露成員隱私信息的風險。也就是說機器學習模型在對抗樣本安全性和成員數據隱私性之間存在一個trade-off,如果提高了模型抵御對抗樣本的能力,同時會提高從模型中推斷出成員數據存在與否的可能性,反之,亦然。此外,Salem等[25]將成員推斷攻擊拓展到了在線學習領域。他們發現當機器學習模型完成在線學習后,可以通過更新前后的模型對同一個數據集給出的預測向量的差異,來完成對目標模型更新集中特定數據的存在性推斷,甚至完成對更新集數據的重建。Hayes等[26]利用生成對抗網絡(GAN)完成了成員推斷攻擊的構建。Nasr等[27]也研究了白盒場景下成員推斷攻擊,他們利用成員數據和非成員數據在模型梯度上的差異,再結合輸出向量上的差異,構建了能力更強的成員推斷攻擊模型,并成功繞過前提出的一些防御手段,達到了較高的攻擊率。Leino等[28]則進一步完善了白盒場景下的成員推斷攻擊,他們將輸出向量、隱含層的權重、偏差、線性單元以及激活函數等特征結合起來,構建了魯棒性更強的成員推斷攻擊,成功抵抗了目前針對成員推斷攻擊的大部分防御方法,并取得了較強的攻擊效果。
梯度更新是指模型每一次對模型參數進行優化時,參數會根據計算產生的梯度來進行更新,而在訓練過程中不斷產生的梯度同樣隱含著某些隱私信息。梯度更新的交換往往只出現在模型的分布式訓練中,擁有不同數據的多方主體,每一輪僅使用自己的數據來更新模型,只對模型參數的更新進行交換匯總,分布式地完成統一模型的訓練。在這個過程中,中心服務器和任何訓練主題都不會獲得其他主體擁有的訓練數據。然而即便是在原始數據獲得良好保護的情況下,模型梯度更新仍會導致隱私泄露。盡管模型在訓練的過程中已經使用了很多方法防止原始數據泄露,在多方分布式的AI 模型訓練中,個體往往會使用自己的數據對當前的模型進行訓練,并將模型的參數更新傳遞給其他個體或者中心服務器。在最近機器學習和信息安全的國際會議上,出現了一些利用模型參數更新來獲取他人訓練數據信息的攻擊研究。Melis等[29]利用訓練過程中其他用戶更新的模型參數作為輸入特征,訓練攻擊模型,用于推測其他用戶數據集的相關屬性;還有研究者[30-31]利用對抗生成網絡生成恢復其他用戶的訓練數據的方法,在多方協作訓練過程中,使用公共模型作為基本的判別器,將模型參數更新作為輸入訓練生成器,最終獲取受害者特定類別的訓練數據。而在最近的一項工作中[32],作者并未使用GAN 等生成模型,而是基于優化算法對模擬圖片的像素進行調整,使其在公共模型上反向傳播得到的梯度和真實梯度相近,經過多輪的優化模擬圖片會慢慢接近真實的訓練數據。
為了減輕AI模型在訓練和測試過程中可能會造成的模型與隱私泄露風險,包括訓練階段模型參數更新導致的訓練數據信息泄露、測試階段模型返回查詢結果造成的模型數據泄露和數據隱私泄露這些AI模型正常使用過程中間接引起的數據隱私泄露,學術界和工業界從不同角度都進行了許多嘗試。
在沒有被直接攻擊破解的情況下,AI 模型正常訓練和使用的過程中產生的信息也會導致數據隱私的間接泄露。為了解決這類數據泄露,采用的主要思想就是在不影響AI 模型有效性的情況下,盡可能減少或者混淆這類交互數據中包含的有效信息。可以采用以下幾類數據隱私保護措施:模型結構防御,該類方法是指在模型的訓練過程中對模型進行有目的性地調整,降低模型輸出結果對于不同樣本的敏感性;信息混淆防御,該類方法通過對模型輸出、模型參數更新等交互數據進行一定的修改,在保證模型有效性的情況下,盡可能破壞混淆交互數據中包含的有效信息;查詢控制防御,該類防御通過對查詢操作進行檢測,及時拒絕惡意的查詢從而防止數據泄露。
面向模型的防御是通過對模型結構做適當的修改,以此來減少模型被泄露的信息,或者降低模型的過擬合程度,從而完成對模型泄露和數據泄露的保護。Fredrikson等[33]提出當目標模型為決策樹時,可使用CART決策樹的變種,將樣本的敏感特征的優先級調高或調低,他們通過實驗證明,當敏感特征在決策樹的根節點和葉子節點層級時,對model inversion 攻擊能夠達到較好的防御效果,其中當敏感屬性位于根節點時,能達到最好的防御效果。Shokri等[15]和Ahmed等[17]提出可以在目標模型中添加Dropout層,或者使用model stacking 的方法將不同的元學習器聚合在一起,又或者在目標模型中添加正則項等。通過實驗,他們發現當目標模型使用這些方法后,能顯著地減少成員推斷攻擊的準確率。Nasr等[34]提出了一種基于對抗學習的防御方法,他們認為如果能計算出當前模型抵抗成員推斷攻擊的成功率,并將其作為一個對抗正則項加入損失函數中,那么在訓練過程中使用MIN-MAX 的對抗訓練方式,最終就可以訓練出一個模型,該模型下成員推斷攻擊的成功率將存在一個上界。最終實驗表明該方法在使這個上界足夠小的同時,能夠達到較高的分類準確度。
此外,Wang等[35]構建了MIASec,他們提出可以對訓練數據在目標模型的關鍵特征上進行特定的修改,從而使模型對成員數據和非成員數據的預測向量的分布難以區分,進而可以完成對成員推斷攻擊的防御。如前文所述,模型逆向攻擊的核心原因是輸出向量包含了訓練樣本的信息,成員推斷攻擊的核心原因是模型對訓練樣本和測試樣本的預測向量的分布不一致。因此,防御模型逆向攻擊就是盡可能地降低輸出向量與輸入向量間的關聯,防御成員推斷攻擊就是盡可能地縮小輸出向量間的分布差異。面向模型的防御旨在通過修改模型的結構和損失函數,使目標模型給出的輸出向量中包含盡可能少的信息,從而完成較好的防御效果。但這種方式仍有缺陷,它對目標模型的性能有較大影響,導致其分類準確度出現波動。因此,防御方需要在模型的性能與其魯棒性之間做出平衡。
近年來一些工作開始將機器學習與加密技術結合起來保護模型的隱私性。Nan等[36]提出在分布式訓練的場景下,可以在每次模型梯度更新的同時,使用差分隱私技術對梯度做一定的修飾,從而保護訓練數據集的隱私性,盡管這種方法會降低模型的最終性能,但確實能大幅提高訓練集的隱私性。同樣,Patra等[37]也借助于安全多方計算的技術重新實現了加密條件下的矩陣乘法和激活函數的計算,在該框架的支持下,可以有效地保護訓練過程中訓練集的隱私性。這些隱私保護機器學習技術的思想也能夠用在針對數據泄露的防御中,加強模型訓練集的隱私性。
面向數據的防御是指對模型的輸入樣本或預測結果做模糊操作。通過這些模糊操作,在保證AI 模型輸出結果正確性的前提下,盡可能地干擾輸出結果中包含的有效信息,從而減少隱私信息的泄露。這些數據模糊操作主要包含兩類:一類是截斷混淆,即對模型返回的結果向量做取整操作,抹除小數點某位之后的信息[2,6,15];另一類是噪聲混淆,即對輸入樣本或輸出的概率向量中添加微小的噪聲,從而干擾準確的信息。
對于截斷混淆,Shokri等[15]提出可以對目標模型生成的輸出向量進行截取,如只給出輸出向量中概率值較高的類別的相應結果,或者降低輸出向量中小數位的保留位數,Fredrikson等[33]提出可以對目標模型的輸出向量進行取整,達到對輸出向量的修飾效果。通過截斷混淆等方法,研究者們削弱對模型逆向攻擊和成員推斷攻擊的攻擊效果。
對于噪聲混淆,Jia等[38]基于對抗樣本的理念提出了Mem-guard。他們發現成員推斷攻擊對目標模型給出的預測向量的變化非常敏感,如果為這些預測向量添加一個精心設計的噪聲,從而混淆成員數據和非成員數據的預測向量分布的差異,就可以生成一個對實際結果沒有影響的“對抗樣本”,這樣就可以完成對成員推斷攻擊的防御。He等[39]提出可以用差分隱私的方法對輸出向量加噪聲進行混淆,他們認為可以利用差分隱私的算法來移除輸出向量自身的特征,但同時保留了其關于分類結果的信息,使輸出向量難以被區分。此外,他們還提出可以在損失函數中添加噪聲項,在輕微地犧牲分類準確率的同時,提高輸出向量的隱私性,完成對成員推斷攻擊的防御。
模型逆向攻擊和成員推斷攻擊的輸入都是目標模型的輸出向量,因此,如果能夠在不影響分類結果的前提下,對輸出向量進行特定地修飾,就可以擾亂輸出結果中的有效信息,從而完成防御,但這種方法依然有局限性。如果對輸出向量的修飾程度較小,則其抵抗攻擊的能力也不會較好,如果對輸出向量的修飾程度較大,則會影響分類數據的可用性,也就是說,這里仍然需要選取隱私性與可用性之間的平衡。
查詢控制防御是指防御方可以根據用戶的查詢行為進行特征提取,進而完成對隱私泄露攻擊的防御。攻擊者如果想要執行隱私泄露攻擊,需要對目標模型發起大量的查詢行為,甚至需要對自己的輸入向量進行特定的修飾,從而加快隱私泄露攻擊的實施。根據用戶查詢行為的特征,可以分辨出哪些用戶是攻擊者,進而對攻擊者的查詢行為進行限制或拒絕服務,以達到防御攻擊的目的。查詢控制防御主要包含兩類:異常樣本檢測和查詢行為檢測。
在異常樣本檢測中,攻擊者為了竊取黑盒的在線模型,往往需要對在線模型進行大量的查詢操作。為了提高竊取效率,攻擊者會對正常的樣本進行有目的地修改。而針對模型泄露攻擊的特點,防御者主要通過檢測對異常樣本的查詢,來識別模型竊取行為。PRADA[2]是一種針對模型竊取攻擊進行檢測的防御技術,它根據多個樣本特征之間的距離分布來判斷該用戶是否正在施展模型竊取攻擊,該文獻發現隨機選取的正常樣本特征間的距離大致服從正態分布,而模型竊取過程中查詢的樣本往往具有鮮明的人工修改跡象,樣本間距離分布與正態分布區別較大,通過這種方式,對若干次的查詢進行統計檢驗則可檢測異常查詢用戶。查詢樣本的特征分布也可以被用于檢測,Kesarwani等[40]記錄下用戶的查詢樣本并檢查其在特征空間中的分布,來評估模型被盜取的風險;Yu等[12]提出正常樣本的特征分布與人工修改的樣本特征分布相比有較大的區別,可以通過區分樣本的特征分布來檢測異常查詢。
在查詢行為檢測中,由于攻擊者往往需要對目標模型進行大量的測試,所以其查詢行為與正常行為會有較大不同。根據這種差異可以在一定程度上防御模型泄露和數據泄露攻擊。針對數據泄露攻擊的特點,He等[39]提出可以根據用戶查詢的行為特征,在樣本輸入階段,完成對成員推斷攻擊的防御。攻擊者實行成員推斷攻擊時有時需要查詢大量目標模型,模型提供者可以根據用戶的查詢頻率實現對查詢次數的限制,從而提升攻擊者部署成員推斷攻擊的成本。
由上文可知,防御方可以通過對異常樣本的檢測和異常查詢行為的檢測來完成對模型泄露攻擊和數據泄露攻擊的防御。但這種防御方法的針對性不強,而且效果不夠好,誤分類的概率較大。查詢控制防御主要是在攻擊模型的訓練過程中起作用,對已訓練好的攻擊模型無能為力。此外,如果攻擊者知道目標模型采用了查詢控制防御,他們也有許多方法可以繞過這種防御方法,如設計更難以被檢測的異常樣本或者采用虛擬IP地址等方式繞過目標模型的檢測。
數據泄露攻擊的本質是模型的參數、模型的輸出向量等信息是根據輸入樣本而產生的,即無論如何,這些數據都會包含原始數據的信息,也就是說任何一個人工智能模型都有遭受數據泄露的風險,并且無法完全抵抗這種攻擊的威脅。因此,未來針對人工智能模型的數據泄露攻擊的發展主要包括兩類:第一類是優化攻擊模型,增強其從輸出向量中提取信息的能力;第二類是擴展攻擊場景,將數據泄露攻擊應用到更多的場景中,如遷移學習、強化學習等。此外,利用模型的輸出信息進行隱私竊取,這種攻擊往往需要目標模型進行大量的查詢操作,如在模型竊取中,由于深度學習網絡具有參數規模大、高度的非線性、非凸性等性質,導致訓練替代模型需要數以千計的查詢次數[10]。大量的查詢提高了攻擊的成本,并且增加了被防御者發現的風險,因此如何更加高效地進行隱私竊取是目前攻擊者所要研究的主要方向,在這個方面研究者們進行了大量的嘗試,這些方法的主要思想是建立一類樣本選取策略,從而使用更具有代表性的樣本進行攻擊,從而提高攻擊效率[41-42],如積極學習[43-44]、自然進化策略[45]等方法。對攻擊的深入研究不僅能夠促進隱私保護的不斷進化,同時有助于研究者對人工智能模型更加深刻的理解。
如上文所述,數據泄露攻擊的本質是模型構建或使用時的輸出結果,隱含了某些隱私數據的信息,因此,針對數據泄露攻擊的防御,可以主要從以下3個方向進一步發展。一是針對輸出向量進行混淆,降低其所包含的信息;二是對隱私數據進行混淆,可以構建特定的噪聲來修飾原使用數據,從而降低模型推斷結果的信息;三是對模型本身的參數做混淆,如引入隱私保護機器學習的方法,對模型內部的參數、中間結果和輸出向量進行加密處理,降低其泄露信息的可能性。然而對各類信息數據的修飾程度則是在構建防御時需要著重考慮的因素,如果修飾程度過小,那么該防御則無法達到預期的防御效果,攻擊者仍然能夠竊取隱私數據,相反如果修飾程度過大,則會導致模型的產出結果的可用性降低,使其本職功能受到巨大損害。與混淆信息防御相類似,其他防御也有類似的情況,如對于查詢控制防御,嚴格的查詢控制規則將有效地避免隱私數據的泄露,然而卻會使正常用戶的使用過程變得煩瑣,甚至可以能會把正常用戶誤判為攻擊者。因此為了在保證隱私數據混亂的情況下,模型能夠有效穩定地提供原有服務,隱私泄露防御技術要在安全性與模型可用性之間尋求一個有效的平衡,這是防御技術在實際應用和未來發展中需要著重關心的一個方面。
本文對近年來人工智能數據安全與隱私保護的研究工作進行了總結和分析,雖然已經有很多的研究者對人工智能系統基于模型輸出以及基于梯度更新的數據泄露進行了一系列的研究,并且提出了包括模型結構防御、信息混淆防御以及查詢控制防御在內的多種防御技術。但相比于已經發展成熟的傳統數據安全領域,由于深度學習算法本身存在的可解釋性不足的問題,對于人工智能算法數據安全與隱私保護問題的妥善解決,還面臨著諸多挑戰,需要進一步展開研究工作。
[1] ATENIESE G, MANCINI L V, SPOGNARDI A, et al. Hacking smart machines with smarter ones: how to extract meaningful data from machine learning classifiers[J]. International Journal of Security and Networks, 2015, 10(3): 137-150.
[2] JUUTI M, SZYLLER S, MARCHAL S, et al. PRADA: protecting against DNN model stealing attacks[C]//In IEEE European Symposium on Security and Privacy. 2019: 512–527.
[3] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.
[4] PAPERNOT N, MCDANIEL P D, GOODFELLOW I J, et al. Practical black-box attacks against machine learning[C]//In Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.
[5] TRAMèR F, ZHANG F, JUELS A, et al. Stealing machine learning models via prediction APIs[C]//In 25th USENIX Security Symposium, USENIX Security 16. 2016: 601-618.
[6] WANG B H, GONG N Z. Stealing hyperparameters in machine learning[C]//In 2018 IEEE Symposium on Security and Privacy. 2018: 36-52.
[7] OH S J, SCHIELE B, FRITZ M. Towards reverse-engineering black-box neural networks[J]. arXiv: 1711.01768, 2019.
[8] SATHISH K, RAMASUBBAREDDY S, GOVINDA K. Detection and localization of multiple objects using VGGNet and single shot detection[M]//Emerging Research in Data Engineering Systems and Computer Communications. Singapore: Springer. 2020: 427-439.
[9] TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: generalizing residual architectures[J]. arXiv preprint arXiv:1603.08029, 2016.
[10] CORREIA-SILVA J R, BERRIEL R F, BADUE C, et al. Copycat CNN: stealing knowledge by persuading confession with random non-labeled data[C]//In 2018 International Joint Conference on Neural Networks. 2018: 1-8.
[11] BATINA L, BHASINS, JAP D, et al. CSI NN: reverse engineering of neural network architectures through electromagnetic side channel[C]//In 28th USENIX Security Symposium, USENIX Security 2019. 2019: 515-532.
[12] YU H G, YANG K C, ZHANG T, et al. Cloudleak: large-scale deep learning models stealing through adversarial examples[C]//Network and Distributed System Security Symposium. 2020.
[13] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.
[14] JANG E, GU S, POOLE B. Categorical reparameterization with gumbel-softmax[J]. arXiv preprint arXiv:1611.01144, 2016.
[15] SHOKRI R, STRONATI M, SONG C Z, et al. Membership inference attacks against machine learning models[C]//In 2017 IEEE Symposium on Security and Privacy. 2017: 3-18.
[16] YEOM S, GIACOMELLI I, FREDRIKSON M, et al. Privacy risk in machine learning: analyzing the connection to overfitting[C]//In 31st IEEE Computer Security Foundations Symposium. 2018: 268-282.
[17] SALEM A, ZHANG Y, HUMBERT M, et al. Ml-leaks: model and data independent membership inference attacks and defenses on machine learning models[C]//In 26th Annual Network and Distributed System Security Symposium. 2019: 24-27.
[18] LONG Y H, BINDSCHAEDLER V, GUNTER C A. Towards measuring membership privacy[J]. CoRR, abs/1712.09136, 2017.
[19] LONG Y H, BINDSCHAEDLER V, WANG L, et al. Understanding membership inferences on well-generalized learning models[J]. CoRR, abs/1802.04889, 2018.
[20] YEOM S, FREDRIKSON M, JHA S. The unintended consequences of overfitting: Training data inference attacks[J]. CoRR, abs/1709.01604, 2017.
[21] SAM D B, SURYA S, BABU R V. Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 4031-4039.
[22] KUHA J, MILLS C. On group comparisons with logistic regression models[J]. Sociological Methods & Research, 2020, 49(2): 498-525.
[23] PAL M. Random forest classifier for remote sensing classification[J]. International journal of remote sensing, 2005, 26(1): 217-222.
[24] SONG L, SHOKRI R, MITTAL P. Privacy risks of securing machine learning models against adversarial examples[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 241-257.
[25] SALEM A, BHATTACHARYA A, BACKES M, et al. Updates-leak: data set inference and reconstruction attacks in online learning[J]. arXiv preprint arXiv:1904.01067, 2019.
[26] HAYES J, MELIS L, DANEZIS G, et al. LOGAN: membership inference attacks against generative models[J]. PoPETs, 2019(1): 133-152.
[27] NASR M, SHOKRI R, HOUMANSADR A. Comprehensive privacy analysis of deep learning: passive and active white-box inference attacks against centralized and federated learning[C]//In 2019 IEEE Symposium on Security and Privacy. 2019: 739-753.
[28] LEINO K, FREDRIKSON M. Stolen memories: leveraging model memorization for calibrated white-box membership inference[J]. arXiv preprint arXiv:1906.11798, 2019.
[29] MELIS L, SONG C Z, CRISTOFARO E D, et al. Exploiting unintended feature leakage in collaborative learning[C]//In 2019 IEEE Symposium on Security and Privacy. 2019: 691-06.
[30] WANG Z B, SONG M K, Zhang Z F, Yet al. Beyond inferring class representatives: user-level privacy leakage from federated learning[C]//In 2019 IEEE conference on Computer Communications. 2019: 2512-2520.
[31] HITAJ B, ATENIESE G, PéREZ-CRUZ F. Deep models under the GAN: information leakage from collaborative deep learning[C]//In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 603-618.
[32] ZHU L G, LIU Z J, HAN S. Deep leakage from gradients[C]//In Advances in Neural Information Processing Systems Annual Conference on Neural Information Processing Systems 2019. 2019: 14747-14756.
[33] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.
[34] NASR M, SHOKRI R, HOUMANSADR A. Machine learning with membership privacy using adversarial regularization[C]//In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 634-646.
[35] WANG C, LIU G Y, HUANG H J, et al. MIASec: enabling data indistinguishability against membership inference attacks in MLaaS[J]. IEEE Transactions on Sustainable Computing, 2020, 5(3): 365-376.
[36] WU N, FAROKHI F, SMITH D, et al. The Value of collaboration in convex machine learning with differential privacy[J]. IEEE Symposium on Security and Privacy, 2020: 304-317.
[37] PATRA A, SURESH A. BLAZE: blazing fast privacy-preserving machine learning[J]. arXiv preprint arXiv:2005.09042, 2020.
[38] JIA J Y, SALEM A, BACKES M, et al. MemGuard: defending against black-box membership inference attacks via adversarial examples[C]//In Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019. 2019: 259-274..
[39] HE Y Z, MENG G Z, CHEN K, et al. Towards privacy and security of deep learning systems: a survey[J]. arXiv: 1911.12562, 2019.
[40] KESARWANI M, MUKHOTY B, ARYA V, et al. Model extraction warning in MLaaS paradigm[C]//In Proceedings of the 34th Annual Computer Security Applications Conference, ACSAC 2018. 2018: 371-380.
[41] OH S J, SCHIELE B, FRITZ M. Towards reverse-engineering black-box neural networks[M]//Explainable AI: Interpreting, Explaining and Visualizing Deep Learning. Springer, Cham, 2019: 121-144.
[42] OREKONDY T, SCHIELE B, FRITZ M. Knockoff nets: Stealing functionality of black-box models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4954-4963.
[43] CHANDRASEKARAN V, CHAUDHURI K, GIACOMELLI I, et al. Exploring connections between active learning and model extraction[J]. arXiv preprint arXiv:1811.02054, 2018.
[44] PENGCHENG L, YI J, ZHANG L. Query-efficient black-box attack by active learning[C]//2018 IEEE International Conference on Data Mining (ICDM). 2018: 1200-1205.
[45] ILYAS A, ENGSTROM L, ATHALYE A, et al. Black-box adversarial attacks with limited queries and information[J]. arXiv preprint arXiv:1804.08598, 2018.
Survey of artificial intelligence data security and privacy protection
REN Kui, MENG Quanrun, YAN Shoukun, QIN Zhan
School of Cyber Science and Technology, Zhejiang University, Hangzhou 310027, China
Artificial intelligence and deep learning algorithms are developing rapidly. These emerging techniques have been widely used in audio and video recognition, natural language processing and other fields. However, in recent years, researchers have found that there are many security risks in the current mainstream artificial intelligence model, and these problems will limit the development of AI. Therefore, the data security and privacy protection was studiedin AI. For data and privacy leakage, the model output based and model update based problem of data leakage were studied. In the model output based problem of data leakage, the principles and research status of model extraction attack, model inversion attack and membership inference attack were discussed. In the model update based problem of data leakage, how attackers steal private data in the process of distributed training was discussed. For data and privacy protection, three kinds of defense methods, namely model structure defense, information confusion defense and query control defense were studied. In summarize, the theoretical foundations, classic algorithms of data inference attack techniques were introduced. A few research efforts on the defense techniques were described in order to provoke further research efforts in this critical area.
artificial intelligence, data security, privacy leakage, privacy protection
TP393
A
10.11959/j.issn.2096?109x.2021001
2020?07?01;
2020?09?29
秦湛,qinzhan@zju.edu.cn
科技創新2030——“新一代人工智能”重大項目(2020AAA0107700)
The National Key Research and Development Project (2020AAA0107700)
任奎, 孟泉潤, 閆守琨, 等. 人工智能模型數據泄露的攻擊與防御研究綜述[J]. 網絡與信息安全學報, 2021, 7(1): 1-10.
REN K, MENG Q R, YAN S K, et al. Survey of artificial intelligence data security and privacy protection[J]. Chinese Journal of Network and Information Security, 2021, 7(1): 1-10.
任奎(1978? ),男,安徽蕪湖人,浙江大學教授、博士生導師,主要研究方向為人工智能安全、數據安全、物聯網安全。

孟泉潤(1994? ),男,河南新鄉人,浙江大學碩士生,主要研究方向為數據安全與隱私保護。
閆守琨(1996? ),男,遼寧大連人,浙江大學碩士生,主要研究方向為人工智能安全與對抗攻防。

秦湛(1988? ),男,北京人,浙江大學研究員、博士生導師,主要研究方向為數據安全與隱私保護、人工智能安全。