面向機器學習的隱私保護關(guān)鍵技術(shù)研究

2022-12-19 00:54:48曾青云

科學與信息化 2022年21期

關(guān)鍵詞：信息

曾青云

湖南云麓高新材料有限公司湖南長沙 410000

引言

數(shù)據(jù)爆炸的時代下，個人隱私的保護成為社會熱點問題。但同時由于隱私的定義和設計的領(lǐng)域較為廣泛，在數(shù)據(jù)成為社會運轉(zhuǎn)核心的過程中，如何合理的定義個人隱私，并對其進行有效的保護，成為當前技術(shù)以及社會發(fā)展面臨的主要問題。在機器學習導致隱私風險的問題產(chǎn)生的原因較為復雜，包括在訓練過程中數(shù)據(jù)采集時的數(shù)據(jù)泄露、在預測階段的數(shù)據(jù)模型反向推測攻擊、來自外部黑盒/白盒的模型攻擊等各方面原因都是導致隱私保護問題的重要原因。

1 機器學習隱私保護的方式

在機器學習隱私保護的過程中，主要采用三種保護形式：法律法規(guī)的社會保護機制；加密的技術(shù)保護機制；主動防御的技術(shù)保護機制。法律法規(guī)的監(jiān)督與監(jiān)管是隱私保護的重要基礎。一方面機器學習的過程中數(shù)據(jù)采集完成后，數(shù)據(jù)的使用、分析和共享過程是極不透明的，只有數(shù)據(jù)的擁有者才能夠決定該數(shù)據(jù)的用途[1]；另一方面，作為行業(yè)、市場、社會的監(jiān)督管理者，完善的法律監(jiān)督管理制度有利于規(guī)范機器學習行業(yè)的各種行為。近年來隨著人工智能技術(shù)大數(shù)據(jù)技術(shù)的快速發(fā)展，世界各國普遍將隱私保護作為國家法律制定的主要參考依據(jù)，我國在2016年頒布了網(wǎng)絡安全法，2017年進一步完善了關(guān)于隱私保護的條例，而在2020年進一步對個人信息的保護進行了全面的要求。而歐盟在2018年強制執(zhí)行了通用數(shù)據(jù)的保護條例，對于數(shù)據(jù)采集和運行過程中個人的數(shù)據(jù)管理權(quán)利進行有效的明確，并使企業(yè)需要采用匿名化的方式來保護個人敏感數(shù)據(jù)。

關(guān)于個人隱私保護的立法，可以從國家社會層面上加強對機器學習行業(yè)的有效規(guī)制，使其能夠明確自身的隱私保護行為，并依據(jù)法律來制定機器學習的隱私保護標準。加密保護是傳統(tǒng)最常用的隱私保護方式，通過限制隱私數(shù)據(jù)的發(fā)布、加密敏感數(shù)據(jù)、添加擾動等方式對數(shù)據(jù)進行有效的處理，使其的數(shù)據(jù)保密性能更高，保護效果更好。在這過程中常用的有差分保護形式、數(shù)據(jù)加密方式、同態(tài)加密等技術(shù)。主動防護機制則是在加密隱私數(shù)據(jù)的基礎上，通過限制數(shù)據(jù)訪問權(quán)限、建立訪問安全規(guī)則等形式對隱私信息進行有效的保護[2]。

2 機器學習隱私保護技術(shù)

2.1 原數(shù)據(jù)的隱私保護技術(shù)

對原數(shù)據(jù)進行隱私保護的技術(shù)，應用的歷史較久，同時也具有較為成熟的應用經(jīng)驗。首先則是針對數(shù)據(jù)進行加密，從而限制數(shù)據(jù)的發(fā)布，使數(shù)據(jù)信息得到有效的保護；其次則是對數(shù)據(jù)添加擾動使其失真，使相關(guān)人員無法獲得數(shù)據(jù)的真實信息，從而達到數(shù)據(jù)保護的目的。

2.1.1 基于數(shù)據(jù)的限制發(fā)布技術(shù)。該技術(shù)通俗上來講是采用加密的方式，對標準化的數(shù)據(jù)、識別方式進行泛化、抑制和隱匿，只有在掌握對應的解密方式的前提下，才能正確識別數(shù)據(jù)信息，從而達到對各種數(shù)據(jù)信息的有效保護。例如當前面向機器學習的隱私保護技術(shù)中，采用的k-anonymity加密以及其延伸的l-diversity和t-closeness技術(shù)。通過在對應的標識符屬性中進行多條記錄的比對，例如k-anonymity技術(shù)采用k-1條記錄對加密的數(shù)據(jù)進行標識符屬性的識別，并將數(shù)據(jù)信息聯(lián)系到獨立的個體當中，在豐富敏感數(shù)據(jù)多樣化的過程中，確保敏感數(shù)據(jù)的屬性值、標識符不會暴露。t-closeness技術(shù)則采用等價類的敏感屬性值分布，使其數(shù)據(jù)的屬性值分布滿足t-closeness計算標準，從而對數(shù)據(jù)進行加密并確保敏感隱私信息的安全性。但這種加密形式主要采用泛化的形式對隱私數(shù)據(jù)和信息進行有效的保護，無法逐條對隱私數(shù)據(jù)進行全面的保護，其分布的范圍和保護的效果會根據(jù)對應的計算方式發(fā)生較大的變化，從而無法確保該技術(shù)應用的可靠性。

2.1.2 基于數(shù)據(jù)失真的限制發(fā)布技術(shù)。該技術(shù)主要對原始數(shù)據(jù)進行隨機化或者添加擾動的方式，使最終呈現(xiàn)的數(shù)據(jù)與原始數(shù)據(jù)具有較大的差異，從而對各種敏感數(shù)據(jù)進行有效的保護。該技術(shù)的應用時間較長，同時現(xiàn)階段機器學習過程中最常用的失真保護方式是差分保護。差分保護是在數(shù)據(jù)中添加噪聲，并根據(jù)對應的噪聲指數(shù)，使原始數(shù)據(jù)與查詢數(shù)據(jù)存在較大的差別[3]。例如采用拉普拉斯機制的差分保護中，對于多條數(shù)據(jù)集合添加對應的差分擾動，從而限定隱私攻擊者在推測計算時能夠獲得的敏感數(shù)據(jù)泄漏。

在理論的原則中，添加噪聲擾動的方式可以有效實現(xiàn)對隱私數(shù)據(jù)的差分保護。同時在機器學習過程中的應用，還可以針對其不同的學習模型、梯度來隨機引入噪聲，以確保隱私的保護效果。同時，差分隱私的保護效果可以滿足隱私疊加以及數(shù)據(jù)整體隱私等優(yōu)點，因此在小型的機器學習模型中獲得了廣泛的應用。這種對多個數(shù)據(jù)源進行融合保護的過程中，可以實現(xiàn)數(shù)據(jù)集在多次訪問后依然具有良好的差分隱私特性。在現(xiàn)階段該技術(shù)的應用過程中，主要應用拉普拉斯噪聲機制來對擾動權(quán)重進行計算。但在實際應用的過程中，由于深度學習神經(jīng)網(wǎng)絡會不斷計算最優(yōu)的參數(shù)，在展開差分隱私保護的過程中，每一次參數(shù)的更新都會導致差分隱私的計算和保護過程，進而導致機器學習的成本直線上升。因此在差分擾動技術(shù)應用的過程中，應當考慮數(shù)據(jù)訓練量的大小以及機器學習模型的規(guī)模。

2.2 不分享數(shù)據(jù)的隱私保護技術(shù)

在無數(shù)個節(jié)點參與到機器學習的過程中，彼此之間的隱私保護會成為阻礙機器學習展開的原因。在面對這種情況時，需要采用不分享數(shù)據(jù)隱私保護技術(shù)，通過同態(tài)加密、聯(lián)邦學習的方式，對不同節(jié)點的原始數(shù)據(jù)進行有效的保護。

2.2.1 同態(tài)加密。該技術(shù)的最大優(yōu)勢在于不需要對原數(shù)據(jù)進行訪問，就可以直接展開數(shù)據(jù)的運算和處理，在密文進行直接運算后，其計算的結(jié)果與解密后的計算結(jié)果完全一致。將這種技術(shù)與聯(lián)邦學習進行相互結(jié)合的過程中，可以有效確保各個節(jié)點共同展開模型訓練的隱私安全。同時，傳統(tǒng)的同態(tài)加密方式僅支持在加法與乘法的運算過程中，但機器學習的計算方式更加復雜，同時對數(shù)據(jù)處理量具有較高的要求。在采用同態(tài)加密技術(shù)的過程中，很容易導致機器訓練的效率變慢，同時也會引起加密數(shù)據(jù)總量的增長，在選擇的過程中需要根據(jù)具體的機器學習項目需求來進行合理的選擇[4]。

2.2.2 聯(lián)邦學習。聯(lián)邦學習是分布式的機器學習模式，允許用戶在多個節(jié)點采用本地數(shù)據(jù)展開同步的機器學習，由于數(shù)據(jù)不會離開節(jié)點本地，因此該數(shù)據(jù)的隱私性可以得到有效的保護。但在實際的應用過程中，聯(lián)邦學習技術(shù)依然存在較多的隱私保護問題。因此相關(guān)研究人員在聯(lián)邦學習展開的過程中，也充分利用了差分隱私、同態(tài)加密等多項技術(shù)對訓練過程進行全面的隱私保護，但同時也會帶來時間、成本、計算量等方面的問題。因此在選擇該技術(shù)的過程中，需要有效平衡機器學習速度與隱私保護之間的關(guān)系。

3 機器學習隱私保護技術(shù)評估指標

3.1 原數(shù)據(jù)隱私保護的性能評估

原數(shù)據(jù)隱私保護的性能評估需要對其隱私的質(zhì)量進行全面的評估，一方面需要對信息在加密和擾動處理后，對信息的不確定性和不可區(qū)分度進行有效的掌握。另一方面還需要對數(shù)據(jù)的質(zhì)量進行有效的評估。

3.1.1 隱私質(zhì)量。信息的不確定性是指在數(shù)據(jù)經(jīng)過處理后信息的模糊程度，該模糊程度的指標主要依賴于隱私商值的取值，在該值計算和取值的過程中，需要對其的絕對值進行有效的計算，從而確保隱私質(zhì)量之間的差值可以量化為信息不確定性的評估標準。不可區(qū)分度則在原有數(shù)據(jù)集以及可觀測對比數(shù)據(jù)集之間的信息差進行評價，通常采用歸一化方差和條件隱私熵值的評估來確定對應的指標，通過對其的有效計算，以確保最終隱私評估值的效果。

3.1.2 數(shù)據(jù)質(zhì)量。在隱私保護技術(shù)的過程中，會對數(shù)據(jù)的應用效果造成影響。無論是在經(jīng)過加密還是擾動處理后的數(shù)據(jù)，都會進一步增加機器學習的計算負擔，并對學習的精準度造成影響。因此機器學習的隱私保護效果不應當僅僅評價其隱私的保護質(zhì)量，還需要對數(shù)據(jù)質(zhì)量進行有效的評估。而對數(shù)據(jù)的質(zhì)量評估過程中需要圍繞數(shù)據(jù)的準確性、一致性、完整性展開：①準確性。對原始的數(shù)據(jù)集以及處理后的數(shù)據(jù)集進行相似程度的比較。例如使用度量區(qū)分，對泛化或者加密后的數(shù)據(jù)集進行度量比對，區(qū)分度量值越大，信息數(shù)據(jù)的失真率就越高，但其損失率和準確度得不到有效的保障[5]；②完整性。對原始數(shù)據(jù)在經(jīng)過處理后各個數(shù)據(jù)的失真情況進行掌握。在機器學習的過程中，除去擾動加密的數(shù)據(jù)之外，還需要對其進行脫敏處理，也就是對敏感數(shù)據(jù)進行有效的處理，對其的完整性需要根據(jù)脫敏處理后的數(shù)據(jù)集與原數(shù)據(jù)集進行計算和比較，以確定最終的完整性和數(shù)據(jù)丟失程度；③一致性。用來評估處理后的數(shù)據(jù)集兩者之間的相關(guān)性，在該值的確定過程中，通常采用條件隱私商來進行計算，當相互信息值越小的情況下，隱私級別越高，但同時兩者相關(guān)的信息量也就越少。

3.1.3 復雜度。復雜度主要對機器學習所采用的算法以及可擴展性進行有效的評估，通常情況下這些算法是相互共有的，為了提升算法的效率則需要對信息的復雜程度進行有效的計算，使處理后的信息與原本信息在計算過程中CPU占用時間、計算成本的差值得到有效控制，從而評估該隱私算法對機器學習適應性、可擴展性所造成的影響。

3.2 不分享原數(shù)據(jù)的隱私保護性能評估

①對于機器學習過程中采用隱私保護技術(shù)后，該隱私技術(shù)的應用效果應當從訓練損失上入手，對訓練后的模型數(shù)據(jù)與訓練數(shù)據(jù)進行相互比較，使兩者的匹配程度得到量化，從而在不分享原始數(shù)據(jù)的情況下，對隱私保護技術(shù)帶來的學習訓練精度影響進行控制。②需要對模型收斂度進行有效的控制，模型收斂度是指在多個數(shù)據(jù)進行分布訓練的過程中，模型是否能夠在學習訓練后收斂至統(tǒng)一的全局模型中，同時收斂的速度、效率對于機器學習的數(shù)據(jù)分布會造成直接的影響。③還需要考慮到隱私保護過程中的資源消耗，隱私保護過程中不可避免的增加了系統(tǒng)的計算量和通訊量，為了確保隱私保護技術(shù)能夠為機器學習的發(fā)展和應用提供支持，需要對隱私保護過程中需求的內(nèi)存量、數(shù)據(jù)傳輸量、帶寬吞吐量等數(shù)據(jù)進行合理的計算。④通信開支。在聯(lián)邦學習框架中需要進行大量的本地數(shù)據(jù)與中心數(shù)據(jù)之間的信息傳遞，而在添加隱私保護的過程中，會增加兩者之間的數(shù)據(jù)傳輸?shù)偭浚瑥亩鴷斐赏ㄐ砰_支的變化。⑤時延。該指標會對隱私保護技術(shù)的應用效果以及機器學習的效率造成直接影響。通常情況下需要對引用隱私保護技術(shù)后，機器學習系統(tǒng)的訓練實驗、數(shù)據(jù)傳輸實驗和推理實驗進行有效的計算和統(tǒng)計，從而確保機器學習的性能，并提升模型的有效程度。

5 結(jié)束語

綜上所述，機器學習技術(shù)發(fā)展的過程中，最大的阻礙是基于隱私保護的社會關(guān)注，而通常情況下對機器學習隱私保護的方式主要有法律、技術(shù)、主動防御3個方面。而從技術(shù)的角度上來講，機器學習的隱私保護需要從原數(shù)據(jù)的隱私保護以及不分享原數(shù)據(jù)的隱私保護兩個方面展開。同時隱私保護與數(shù)據(jù)的計算量、學習效率、時效性有相互制約的作用，在完成隱私保護的過程中，還需要重視隱私保護技術(shù)的可行性，從而實現(xiàn)按需分配的隱私保護過程，使機器學習的應用更加可靠，滿足社會發(fā)展的實際需求。