曾青云
湖南云麓高新材料有限公司 湖南 長沙 410000
數(shù)據(jù)爆炸的時代下,個人隱私的保護成為社會熱點問題。但同時由于隱私的定義和設計的領(lǐng)域較為廣泛,在數(shù)據(jù)成為社會運轉(zhuǎn)核心的過程中,如何合理的定義個人隱私,并對其進行有效的保護,成為當前技術(shù)以及社會發(fā)展面臨的主要問題。在機器學習導致隱私風險的問題產(chǎn)生的原因較為復雜,包括在訓練過程中數(shù)據(jù)采集時的數(shù)據(jù)泄露、在預測階段的數(shù)據(jù)模型反向推測攻擊、來自外部黑盒/白盒的模型攻擊等各方面原因都是導致隱私保護問題的重要原因。
在機器學習隱私保護的過程中,主要采用三種保護形式:法律法規(guī)的社會保護機制;加密的技術(shù)保護機制;主動防御的技術(shù)保護機制。法律法規(guī)的監(jiān)督與監(jiān)管是隱私保護的重要基礎。一方面機器學習的過程中數(shù)據(jù)采集完成后,數(shù)據(jù)的使用、分析和共享過程是極不透明的,只有數(shù)據(jù)的擁有者才能夠決定該數(shù)據(jù)的用途[1];另一方面,作為行業(yè)、市場、社會的監(jiān)督管理者,完善的法律監(jiān)督管理制度有利于規(guī)范機器學習行業(yè)的各種行為。近年來隨著人工智能技術(shù)大數(shù)據(jù)技術(shù)的快速發(fā)展,世界各國普遍將隱私保護作為國家法律制定的主要參考依據(jù),我國在2016年頒布了網(wǎng)絡安全法,2017年進一步完善了關(guān)于隱私保護的條例,而在2020年進一步對個人信息的保護進行了全面的要求。而歐盟在2018年強制執(zhí)行了通用數(shù)據(jù)的保護條例,對于數(shù)據(jù)采集和運行過程中個人的數(shù)據(jù)管理權(quán)利進行有效的明確,并使企業(yè)需要采用匿名化的方式來保護個人敏感數(shù)據(jù)。
關(guān)于個人隱私保護的立法,可以從國家社會層面上加強對機器學習行業(yè)的有效規(guī)制,使其能夠明確自身的隱私保護行為,并依據(jù)法律來制定機器學習的隱私保護標準。加密保護是傳統(tǒng)最常用的隱私保護方式,通過限制隱私數(shù)據(jù)的發(fā)布、加密敏感數(shù)據(jù)、添加擾動等方式對數(shù)據(jù)進行有效的處理,使其的數(shù)據(jù)保密性能更高,保護效果更好。在這過程中常用的有差分保護形式、數(shù)據(jù)加密方式、同態(tài)加密等技術(shù)。主動防護機制則是在加密隱私數(shù)據(jù)的基礎上,通過限制數(shù)據(jù)訪問權(quán)限、建立訪問安全規(guī)則等形式對隱私信息進行有效的保護[2]。
對原數(shù)據(jù)進行隱私保護的技術(shù),應用的歷史較久,同時也具有較為成熟的應用經(jīng)驗。首先則是針對數(shù)據(jù)進行加密,從而限制數(shù)據(jù)的發(fā)布,使數(shù)據(jù)信息得到有效的保護;其次則是對數(shù)據(jù)添加擾動使其失真,使相關(guān)人員無法獲得數(shù)據(jù)的真實信息,從而達到數(shù)據(jù)保護的目的。
2.1.1 基于數(shù)據(jù)的限制發(fā)布技術(shù)。該技術(shù)通俗上來講是采用加密的方式,對標準化的數(shù)據(jù)、識別方式進行泛化、抑制和隱匿,只有在掌握對應的解密方式的前提下,才能正確識別數(shù)據(jù)信息,從而達到對各種數(shù)據(jù)信息的有效保護。例如當前面向機器學習的隱私保護技術(shù)中,采用的k-anonymity加密以及其延伸的l-diversity和t-closeness技術(shù)。通過在對應的標識符屬性中進行多條記錄的比對,例如k-anonymity技術(shù)采用k-1條記錄對加密的數(shù)據(jù)進行標識符屬性的識別,并將數(shù)據(jù)信息聯(lián)系到獨立的個體當中,在豐富敏感數(shù)據(jù)多樣化的過程中,確保敏感數(shù)據(jù)的屬性值、標識符不會暴露。t-closeness技術(shù)則采用等價類的敏感屬性值分布,使其數(shù)據(jù)的屬性值分布滿足t-closeness計算標準,從而對數(shù)據(jù)進行加密并確保敏感隱私信息的安全性。但這種加密形式主要采用泛化的形式對隱私數(shù)據(jù)和信息進行有效的保護,無法逐條對隱私數(shù)據(jù)進行全面的保護,其分布的范圍和保護的效果會根據(jù)對應的計算方式發(fā)生較大的變化,從而無法確保該技術(shù)應用的可靠性。
2.1.2 基于數(shù)據(jù)失真的限制發(fā)布技術(shù)。該技術(shù)主要對原始數(shù)據(jù)進行隨機化或者添加擾動的方式,使最終呈現(xiàn)的數(shù)據(jù)與原始數(shù)據(jù)具有較大的差異,從而對各種敏感數(shù)據(jù)進行有效的保護。該技術(shù)的應用時間較長,同時現(xiàn)階段機器學習過程中最常用的失真保護方式是差分保護。差分保護是在數(shù)據(jù)中添加噪聲,并根據(jù)對應的噪聲指數(shù),使原始數(shù)據(jù)與查詢數(shù)據(jù)存在較大的差別[3]。例如采用拉普拉斯機制的差分保護中,對于多條數(shù)據(jù)集合添加對應的差分擾動,從而限定隱私攻擊者在推測計算時能夠獲得的敏感數(shù)據(jù)泄漏。
在理論的原則中,添加噪聲擾動的方式可以有效實現(xiàn)對隱私數(shù)據(jù)的差分保護。同時在機器學習過程中的應用,還可以針對其不同的學習模型、梯度來隨機引入噪聲,以確保隱私的保護效果。同時,差分隱私的保護效果可以滿足隱私疊加以及數(shù)據(jù)整體隱私等優(yōu)點,因此在小型的機器學習模型中獲得了廣泛的應用。這種對多個數(shù)據(jù)源進行融合保護的過程中,可以實現(xiàn)數(shù)據(jù)集在多次訪問后依然具有良好的差分隱私特性。在現(xiàn)階段該技術(shù)的應用過程中,主要應用拉普拉斯噪聲機制來對擾動權(quán)重進行計算。但在實際應用的過程中,由于深度學習神經(jīng)網(wǎng)絡會不斷計算最優(yōu)的參數(shù),在展開差分隱私保護的過程中,每一次參數(shù)的更新都會導致差分隱私的計算和保護過程,進而導致機器學習的成本直線上升。因此在差分擾動技術(shù)應用的過程中,應當考慮數(shù)據(jù)訓練量的大小以及機器學習模型的規(guī)模。
在無數(shù)個節(jié)點參與到機器學習的過程中,彼此之間的隱私保護會成為阻礙機器學習展開的原因。在面對這種情況時,需要采用不分享數(shù)據(jù)隱私保護技術(shù),通過同態(tài)加密、聯(lián)邦學習的方式,對不同節(jié)點的原始數(shù)據(jù)進行有效的保護。
2.2.1 同態(tài)加密。該技術(shù)的最大優(yōu)勢在于不需要對原數(shù)據(jù)進行訪問,就可以直接展開數(shù)據(jù)的運算和處理,在密文進行直接運算后,其計算的結(jié)果與解密后的計算結(jié)果完全一致。將這種技術(shù)與聯(lián)邦學習進行相互結(jié)合的過程中,可以有效確保各個節(jié)點共同展開模型訓練的隱私安全。同時,傳統(tǒng)的同態(tài)加密方式僅支持在加法與乘法的運算過程中,但機器學習的計算方式更加復雜,同時對數(shù)據(jù)處理量具有較高的要求。在采用同態(tài)加密技術(shù)的過程中,很容易導致機器訓練的效率變慢,同時也會引起加密數(shù)據(jù)總量的增長,在選擇的過程中需要根據(jù)具體的機器學習項目需求來進行合理的選擇[4]。
2.2.2 聯(lián)邦學習。聯(lián)邦學習是分布式的機器學習模式,允許用戶在多個節(jié)點采用本地數(shù)據(jù)展開同步的機器學習,由于數(shù)據(jù)不會離開節(jié)點本地,因此該數(shù)據(jù)的隱私性可以得到有效的保護。但在實際的應用過程中,聯(lián)邦學習技術(shù)依然存在較多的隱私保護問題。因此相關(guān)研究人員在聯(lián)邦學習展開的過程中,也充分利用了差分隱私、同態(tài)加密等多項技術(shù)對訓練過程進行全面的隱私保護,但同時也會帶來時間、成本、計算量等方面的問題。因此在選擇該技術(shù)的過程中,需要有效平衡機器學習速度與隱私保護之間的關(guān)系。
原數(shù)據(jù)隱私保護的性能評估需要對其隱私的質(zhì)量進行全面的評估,一方面需要對信息在加密和擾動處理后,對信息的不確定性和不可區(qū)分度進行有效的掌握。另一方面還需要對數(shù)據(jù)的質(zhì)量進行有效的評估。
3.1.1 隱私質(zhì)量。信息的不確定性是指在數(shù)據(jù)經(jīng)過處理后信息的模糊程度,該模糊程度的指標主要依賴于隱私商值的取值,在該值計算和取值的過程中,需要對其的絕對值進行有效的計算,從而確保隱私質(zhì)量之間的差值可以量化為信息不確定性的評估標準。不可區(qū)分度則在原有數(shù)據(jù)集以及可觀測對比數(shù)據(jù)集之間的信息差進行評價,通常采用歸一化方差和條件隱私熵值的評估來確定對應的指標,通過對其的有效計算,以確保最終隱私評估值的效果。
3.1.2 數(shù)據(jù)質(zhì)量。在隱私保護技術(shù)的過程中,會對數(shù)據(jù)的應用效果造成影響。無論是在經(jīng)過加密還是擾動處理后的數(shù)據(jù),都會進一步增加機器學習的計算負擔,并對學習的精準度造成影響。因此機器學習的隱私保護效果不應當僅僅評價其隱私的保護質(zhì)量,還需要對數(shù)據(jù)質(zhì)量進行有效的評估。而對數(shù)據(jù)的質(zhì)量評估過程中需要圍繞數(shù)據(jù)的準確性、一致性、完整性展開:①準確性。對原始的數(shù)據(jù)集以及處理后的數(shù)據(jù)集進行相似程度的比較。例如使用度量區(qū)分,對泛化或者加密后的數(shù)據(jù)集進行度量比對,區(qū)分度量值越大,信息數(shù)據(jù)的失真率就越高,但其損失率和準確度得不到有效的保障[5];②完整性。對原始數(shù)據(jù)在經(jīng)過處理后各個數(shù)據(jù)的失真情況進行掌握。在機器學習的過程中,除去擾動加密的數(shù)據(jù)之外,還需要對其進行脫敏處理,也就是對敏感數(shù)據(jù)進行有效的處理,對其的完整性需要根據(jù)脫敏處理后的數(shù)據(jù)集與原數(shù)據(jù)集進行計算和比較,以確定最終的完整性和數(shù)據(jù)丟失程度;③一致性。用來評估處理后的數(shù)據(jù)集兩者之間的相關(guān)性,在該值的確定過程中,通常采用條件隱私商來進行計算,當相互信息值越小的情況下,隱私級別越高,但同時兩者相關(guān)的信息量也就越少。
3.1.3 復雜度。復雜度主要對機器學習所采用的算法以及可擴展性進行有效的評估,通常情況下這些算法是相互共有的,為了提升算法的效率則需要對信息的復雜程度進行有效的計算,使處理后的信息與原本信息在計算過程中CPU占用時間、計算成本的差值得到有效控制,從而評估該隱私算法對機器學習適應性、可擴展性所造成的影響。
①對于機器學習過程中采用隱私保護技術(shù)后,該隱私技術(shù)的應用效果應當從訓練損失上入手,對訓練后的模型數(shù)據(jù)與訓練數(shù)據(jù)進行相互比較,使兩者的匹配程度得到量化,從而在不分享原始數(shù)據(jù)的情況下,對隱私保護技術(shù)帶來的學習訓練精度影響進行控制。②需要對模型收斂度進行有效的控制,模型收斂度是指在多個數(shù)據(jù)進行分布訓練的過程中,模型是否能夠在學習訓練后收斂至統(tǒng)一的全局模型中,同時收斂的速度、效率對于機器學習的數(shù)據(jù)分布會造成直接的影響。③還需要考慮到隱私保護過程中的資源消耗,隱私保護過程中不可避免的增加了系統(tǒng)的計算量和通訊量,為了確保隱私保護技術(shù)能夠為機器學習的發(fā)展和應用提供支持,需要對隱私保護過程中需求的內(nèi)存量、數(shù)據(jù)傳輸量、帶寬吞吐量等數(shù)據(jù)進行合理的計算。④通信開支。在聯(lián)邦學習框架中需要進行大量的本地數(shù)據(jù)與中心數(shù)據(jù)之間的信息傳遞,而在添加隱私保護的過程中,會增加兩者之間的數(shù)據(jù)傳輸?shù)偭浚瑥亩鴷斐赏ㄐ砰_支的變化。⑤時延。該指標會對隱私保護技術(shù)的應用效果以及機器學習的效率造成直接影響。通常情況下需要對引用隱私保護技術(shù)后,機器學習系統(tǒng)的訓練實驗、數(shù)據(jù)傳輸實驗和推理實驗進行有效的計算和統(tǒng)計,從而確保機器學習的性能,并提升模型的有效程度。
綜上所述,機器學習技術(shù)發(fā)展的過程中,最大的阻礙是基于隱私保護的社會關(guān)注,而通常情況下對機器學習隱私保護的方式主要有法律、技術(shù)、主動防御3個方面。而從技術(shù)的角度上來講,機器學習的隱私保護需要從原數(shù)據(jù)的隱私保護以及不分享原數(shù)據(jù)的隱私保護兩個方面展開。同時隱私保護與數(shù)據(jù)的計算量、學習效率、時效性有相互制約的作用,在完成隱私保護的過程中,還需要重視隱私保護技術(shù)的可行性,從而實現(xiàn)按需分配的隱私保護過程,使機器學習的應用更加可靠,滿足社會發(fā)展的實際需求。