任雪斌,楊新宇,楊樹森,張 海
(1.西安交通大學 電子與信息工程學院, 陜西 西安 710049;2.西安交通大學 數學與統計學院, 陜西 西安 710049;3.西北大學 數學學院,陜西 西安 710127)
隨著信息技術,特別是互聯網、物聯網、云計算等新技術的發展,人類社會已然進入了大數據時代。據國際數據資訊(IDC)公司監測統計,全世界的數據量大約以每兩年翻一番的速度增長。預計到2020年,全球將擁有至少35ZB的數據量。著名的管理和咨詢公司麥肯錫認為“大數據已經滲透到工業和商業領域的各個方面,成為影響生產的一個重要因素”。大數據正日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生強烈沖擊。
大數據蘊含著現實世界中各個領域的碎片化信息,具有不可估量的潛在價值。隨著計算技術與分析方法的突破,分析和解讀這些大數據信息、挖掘其中的價值已成為可能。廣泛存在的大數據具有十分巨大的潛在價值:可以提供社會科學的方法論,支持基于數據的決策,助推管理科學與方法的革命;形成科學研究的新范式,支持基于數據的科學發現,減少對精確模型與假設的依賴,使得過去不能解決的問題變得可能解決;形成高新科技的新領域,推動互聯網、物聯網、云計算、人工智能等行業的深化發展,形成大數據技術產業;成為經濟發展和社會進步的新引擎,深刻影響全球生產、流通、分配與消費模式,改變人類的思維、生產和生活方式,推動社會變革和進步。
對海量大數據的處理和分析給人們認識自身和世界帶來便利、給人們的生產生活提供各種服務的同時,也帶來了前所未有的隱私憂患。例如,互聯網上用戶個人資料、瀏覽痕跡、社交聯系很容易被記錄,物聯網下智能設備普遍集成了GPS、加速度、磁場、姿態、溫度、光線等各式傳感器,云計算環境下金融交易、電商數據統統被集中存儲。對這些敏感大數據的直接處理和分析,意味著人們的社交關系、喜好傾向、資產負債、日常行為、所處位置、周邊環境,甚至心跳、血壓等生理特征信息都可以成為被記錄和分析的數據[1]。這些關乎人自身或者環境的敏感信息如果被超出其目的地濫用或者在數據產生到消亡的生命周期內無法得到有效保護,都可能會造成隱私的暴露[2],給人們的生命財產安全帶來威脅。一方面,數據采集的便利性和高價值,極大地刺激了人們進一步采集、存儲、循環利用個人數據的野心。另一方面,由于數據存儲成本的持續下降和數據分析工具的不斷發展,采集和存儲的數據量將爆發式地增長。
大數據處理和分析中的隱私問題會給各類數據提供者帶來潛在人身財產安全威脅,例如,已被證明可以通過用電大數據對住戶用電器使用情況進行分析,從而分析用戶的行為隱私,其識別準確率可以高達85%以上[3],用戶隱私一旦被不法分子掌握,后果不堪設想。也因此,隱私問題還會引起民眾對各類大數據處理和分析系統安全性和合理性的懷疑,甚至造成民眾的抵觸心理,有很多組織和個人因為隱私擔憂和相關問題抵制各類大數據系統的建設[4],這無疑會阻礙大數據系統的建設實施和健康發展,妨礙大數據真正價值的發掘。因此,構建具有隱私保護的大數據處理和分析算法在大數據時代具有強烈的緊迫性和嚴峻性。
圍繞敏感大數據的隱私保護這一主題,近年來,我們對隱私保護的數據發布和分析算法進行了大量研究。本文對數據隱私保護成果進行了總結,重點對隱私保護的發展、隱私度量標準和模型,相關研究現狀、挑戰及前景進行重點闡述和分析,為后續研究人員提供參考和思路。
大數據隱私保護這一主題,伴隨著大數據處理和分析問題的出現,受到了學術界、工業界以及政界的廣泛關注,各界也投入了大量的精力對其進行研究并積累了一定的研究成果,但是對于隱私問題分析和保護的研究還處于初級階段,實際上,包括有關隱私本身的定義、危害和保護原則等問題都尚處于發展階段,技術上隱私的形式化分析、量化衡量和保護方法更是發展較慢,很多相關研究都是借鑒傳統意義上小數據集的隱私保護策略。其研究主要還是針對靜態數據記錄的隱私性,因此其諸多隱私保護的基本概念、衡量指標、保護原則都是由傳統數據庫中發展演變而來。因此,為了清晰地展現相關隱私保護技術的發展脈絡,我們主要基于靜態數據庫介紹當前隱私保護的研究現狀。隱私保護的現有研究按解決思路主要分為如下幾類:基于匿名的方法、基于加密的方法、基于干擾的方法、基于噪聲的方法和基于差分隱私的方法。
早期的很多隱私保護研究都采用基于匿名的方法來避免用戶身份被識別,而且初期的研究主要集中在靜態的數據庫中。較為常見的是避免身份泄露的K匿名(K-anonymity)[5]策略,其通過對準標識符進行泛化后,將數據記錄分為多個等價類,而要求每個等價類中包括至少K條記錄,從而保證單條記錄被推測連接的概率小于1/K,從而提供隱私保證。然而K匿名并未保證等價類中記錄的多樣性,會造成等價類之間明顯的差異,從而使得攻擊者可以根據準標識符對目標對象的取值特性進行判定并獲取用戶隱私。為此,提出了L多樣性(L-diversity)[6]的模型,要求每個準標識符組中對應的敏感屬性取值至少有L個代表性取值。針對L-多樣性中可能存在的偏斜攻擊問題,又提出了T-鄰近(T-closeness)[7]的匿名隱私保護模型,要求每個準標識符組中敏感屬性的分布與整個數據集中敏感屬性取值分布接近,進一步強化了隱私保護。
然而,匿名方法主要適用于參與者數量小,數據通過傳統訪問控制方法得到嚴格保管的應用中,一般使用于封閉的場景中,例如,嚴格的生理信息采集監測等電子醫療感知場景。而對于大型數據共享的場景中,匿名化方法則存在較大的隱私暴露風險。已有研究表明,攻擊者能夠在背景知識的幫助下對匿名的數據集進行連接匹配,發起“連接攻擊”,唯一地確定用戶身份,從而侵犯隱私,例如Narayanan A等人證明了大量數據集下可以有效地進行反匿名和連接攻擊[8]。尤其是在智能感知系統這樣的大數據環境下,數據的屬性維度急劇增加,普通的匿名策略遭受連接攻擊的可能性也呈指數級增長。
加密技術一般可以提供可驗證的網絡安全,因此在數據匯聚中也得到廣泛關注和研究。數據匯聚中常用的加密技術包括:多方安全計算[9]、同態加密、秘密共享[10]、承諾機制、零知識證明、區塊鏈技術等。多方安全計算與同態加密均適用于多方數據聚合過程中,可以保證在多用戶密文上進行的操作有效映射到明文對應的操作,從而在不揭露單個用戶記錄的基礎實現對數據整體操作。零知識證明則可以在不暴露具體記錄的情況下,提供相應知識的證明,亦可用于隱私保護的相關機制設計中。區塊鏈是近來較為熱門的技術,其設計初衷和密碼學技術本身使之可以廣泛應用于很多隱私保護問題當中。
基于加密的技術,雖然可以提供可驗證的數據安全,但是仍然具有應用的局限性。通常,加密操作將會導致較大的計算開銷和能量消耗,給很多資源受限的分布式感知設備帶來很大負載,而且加密策略通常受限于某個具體的技術,不同的數據和不同的應用可能需要新的加密策略。最重要的是,加密策略通常僅僅保護了數據的機密性,而非真正意義的隱私。一方面,普通的信道加密策略事實上僅僅保證了數據傳輸的機密性,可以抵御竊聽者的竊聽攻擊,但是數據最終仍會被解密接收并被傳遞到后續的數據處理環節,例如,系統中不良的操作人員以及后續分析中的第三方用戶都可能訪問到解碼后的明文,使得用戶的隱私面臨極高的暴露風險;另一方面,即使保證僅僅有統計數據結果被接收,在多樣化的數據處理和分析系統中,仍然不能有效保證用戶的隱私安全。最常見的就是差異攻擊方式[11],例如,數據分析過程中通過上述加密技術很容易準確得到N個用戶數據的統計查詢結果,同理,N+1個用戶的統計查詢結果同樣也能獲得,通過比較這兩者間的差異,可以得到對第N+1個用戶數據有效推測,不能真正意義上保護用戶隱私。
基于噪聲的保護技術,通過注入隨機噪聲來保護用戶隱私,同時會使得數據失真,因此需要實現隱私和數據效用的折衷。該方法同樣具有開銷小,效率高等特點,而且更為靈活。此外,很多噪聲方法以分布式的方式在用戶原始數據上進行操作,能夠有效從源頭上保證用戶數據的隱私性。常見的隨機噪聲包括加和性噪聲、乘性噪聲和旋轉噪聲。例如,Agrawal等人首先提出將加和性噪聲用于隱私保護的數據挖掘中[12],Kim J等人則提出使用乘性噪聲隱藏連續數據[13], Liu K等人則進一步提出將乘性噪聲應用于分布式數據挖掘中保護隱私[14]。Bohli J M等人證明了分布式節點通過添加同參數的高斯分布噪聲通過中心極限定理可以保證噪聲在數據匯聚后互相抵消到一個期望為零方差有限的誤差變量,從而保證誤差有限[15]。Lin H Y等人具體設計了一個智能儀表系統中的隱私保護機制,該機制通過向智能儀表系統中數據添加獨立的高斯噪聲以達到負載監控的目的[16]。為了去除噪聲在關鍵計費中的誤差,作者還引入了加密策略來二次消解誤差,但是會導致大的計算開銷和負載。
早期噪聲保護方法的研究出發點還只是實現直觀的隱私效用折衷,從一定程度上并未形成有效的隱私保護范式和數學證明。為此,近來由著名學者Dwork C提出的差分隱私(differential privacy)有效解決了此問題[17]。差分隱私保護可以保證,在數據集中添加或刪除一條數據不會影響到查詢輸出結果,即無論特定個體記錄是否在數據集中,對該數據集的任意計算分析或查詢的結果在形式上不可區分因此,即使在最壞情況下,攻擊者已知除一條記錄之外的所有敏感數據,仍可以保證這一條記錄的敏感信息不會被泄露。差分隱私,是一個具有數學可推導和可驗證的隱私范式,其保證相鄰數據集在數據匯聚函數的輸出結果非常相似甚至無法有效區分,從而防止攻擊者通過操縱匯聚結果來推測單個數據,以達到保護用戶隱私的目的[18-19]。差分隱私可以通過拉普拉斯機制[18]、指數機制[20]和幾何機制[21]等實現,較常見是通過拉普拉斯機制給匯聚結果添加根據全局敏感度校準后的拉普拉斯噪聲實現差分隱私[18],其中全局敏感度反映了數據集中單個數據對數據分析結果能產生的最大差異。
差分隱私因為其嚴格的數學證明和靈活的組合特性,目前受到越來越多的關注,并逐步成為數據隱私保護的事實標準,被廣泛應用于各類數據分析和數據挖掘的隱私保護應用中。因此,本文將重點以差分隱私為主要隱私保護理論和技術基礎,對大數據處理和分析中的隱私保護技術進行總結分析。
差分隱私[17]給定相鄰數據集D和D′,二者互相之間至多相差一條記錄,即|DΔD′|≤1。給定一個隱私算法A,Range(A)為A的取值范圍,若算法A在數據集D和D′上任意輸出結果范圍S(其中,S?Range(A))滿足下列不等式,則算法A滿足ε-差分隱私,且其隱私性可以用參數ε進行衡量:
Pr[A(D)∈S]≤eεPr[A(D′)∈S]
其中,概率Pr[·]由算法A的隨機性控制,也表示隱私被披露的風險;隱私預算參數ε表示隱私保護程度,ε越小隱私保護程度越高。由定義也可看出,差分隱私實際上限制了單個記錄對算法A輸出的影響,使得單個用戶記錄的差異導致的輸出影響非常小以至于使得攻擊者無法在兩個相鄰數據集合之間具有辨別優勢。另外,還可以看出,要實現差分隱私的有效保護,還必須依賴隨機算法A,一方面,算法A的輸出具有一定的模糊性來保護隱私,另一方面,算法A還需要保證輸出范圍的精確性,也即數據的效用性。通常,實現差分隱私保護的算法A需要噪聲機制的實現。
敏感度(sensitivity) 為了達到差分隱私,標準的方法就是給正確的輸出結果中添加噪聲。基本思想是使用添加的噪聲來隱藏當數據集中單個記錄改變時,輸出結果之間的差異。因此,添加噪聲的規模取決于輸出函數的敏感度,即就是在最多有一個數據記錄不同的數據集之間數據結果的最大差異[18]。分為全局敏感度和局部敏感度,定義如下。
定義1(全局敏感度) 對于給定的查詢函數f:Dn→Rd,f的Lp全局敏感度定義為
其中,數據集D和D′之間至多相差一條記錄。

定理1對于任意的f:D→Rd,當λ=Δf/ε時,添加滿足拉普拉斯分布Lap(λ)的機制的輸出結果滿足ε-差分隱私[17]。


組合理論(composition theorem) 隱私保護機制面對復雜的應用場景和多樣的查詢時需要組合地使用差分隱私保護機制。差分隱私的組合性質可以用來分析差分隱私保護機制在不同組合方法下的性能變化情況。其中,差分隱私有兩個重要的組合性質[18]。
定理3順序組合(sequential composition)假設每一個算法Agi提供εi-差分隱私,則數據庫D上的順序的Agi算法提供∑εi-差分隱私[18]。
定理4并行組合(parallel composition)假設每一個算法Agi提供εi-差分隱私,則一系列不相交數據集Di上的算法序列Agi提供εi-差分隱私[18]。
除了以上基本的差分隱私模型外,在針對連續動態數據的場景中還包括事件級隱私和用戶級隱私的高級模型,以及針對內部攻擊而提出的泛隱私模型[22]。
1) 事件級隱私(event-level privacy):事件級隱私保證在連續監測的情景中,若干時間點上某個事件是否發生的隱私,從而保護某個單一事件不被攻擊者猜測到。
2) 用戶級隱私(user-level privacy):用戶級隱私保證在連續監測的情景中,由某個用戶導致發生的一系列事件的隱私都得到保護,從而使得攻擊者甚至無法推知某個用戶是否參與到了系統中。相對事件級隱私,用戶級隱私具有更好的隱私保護。
3) 泛隱私模型(pan privacy):針對隱私計算過程中可能產生的中間結果和內部過程本身所帶來的隱私性,泛隱私模型提出同時使得計算的內部狀態和外部輸出都保證隱私性。
大數據隱私保護是指針對敏感性數據,設計滿足差分隱私的敏感大數據發布和分析算法,以保護數據中個體的隱私而實現對大數據整體效用性的獲取[23-24]。大數據隱私保護的典型發布任務包括:直方圖、流數據、圖數據和軌跡數據的發布機制;大數據隱私保護的典型分析任務包括:聚類算法、判別分析及網絡數據的結構學習等。接下來,本文重點對一些典型的基于差分隱私的數據發布任務與數據分析任務進行梳理總結。
直方圖是反映數據分布特性的重要統計信息, 差分隱私的直方圖發布旨在隱藏直方圖每個桶上的頻率, 其主要問題在于進行長范圍查詢時的過量累計噪聲。 為此, Hay等人[25]提出Boost1方法并利用一致性約束對發布結果進行約束推理的后置技術提升最終發布結果的準確性。 而Xu等人[26]同時提出NoiseFirst和StructureFirst兩種方法。 前者先對直方圖添加噪聲后利用動態規劃技術合并近鄰相似的桶并最小化重構目標函數; 而后者則先合并原始等寬直方圖中近鄰相似的桶以減小查詢敏感度后添加噪聲。 與StructureFirs類似, 先對直方圖自身結構進行重新組織的方法還有Boost2[25]和P-HPartitionb[27], 前者利用mary樹重新組織和構造直方圖的敏感性; 而后者[27]利用層次聚類自適應地對桶進行分割直到最優的合并桶個數。此外,文獻[28]使用基于小波的Privelet方法對原始等寬直方圖進行轉換,文獻[29]采用傅里葉變換有損壓縮直方圖。整體上,現有研究仍然著眼于小數據集的單一或較低維度直方圖發布,如何在大數據處理中,對多維甚至高維直方圖進行滿足差分隱私的準確性發布仍是未來重要的研究問題。
流式數據發布的主要問題在于如何開采利用流中數據的相關性減小隱私預算的消耗。文獻[30]利用二叉樹結構方法,文獻[31]提出權重衰減發布方法,文獻[32]提出DMFDA算法研究流數據的發布;文獻[33]針對{0,1}數據流提出了級聯緩沖計數器算法以自適應地根據數據中“1”的出現頻率來決定流更新發布的時機以減小隱私預算消耗。文獻[34]提出了FAST機制,利用PID控制算法來自適應更新差分隱私保護后數據流的結果并利用卡爾曼濾波對流數據效用性進一步進行提升。早期的流數據隱私保護主要關注于事件級隱私,即僅保護某個時間點事件是否發生,而卻無法保護某個用戶在多個事件中的用戶級隱私,尤其是無限數據流。為此,文獻[35]提出了新的ω-事件隱私的概念以保證無限流中ω長度的窗口內的任何事件序列的隱私,并設計了相應的隱私預算分配方案。而針對多維數據流間的相關性,文獻[36]提出了基于時空關系的實時數據流發布隱私保護機制RescueDP,其主要結合了FAST和ω-事件隱私的概念,并利用了多維數據流間的相似性進行動態分組以降低小數值維度的擾動噪聲。目前,流數據發布中的隱私保護仍停留在對簡單同質數據流的處理,對于更為復雜的高維異質數據流的隱私保護也存在著相當的難度。
圖數據的發布廣泛應用于社交網絡分析中,其中社交用戶的隱私自然成為了參與者的重要關切。針對圖數據發布中的差分隱私研究,主要分為邊差分隱私和節點差分隱私。邊差分隱私保證發布結果不會泄露圖中是否包含某條邊。文獻[37]最先研究了在邊差分隱私的保證下計算社交網絡圖中的三角關系并提出利用局部敏感度來校準子圖計數中的噪聲。文獻[38]等則在此基礎上進一步研究了對ε差分隱私的K-三角計數和滿足(ε,δ)差分隱私的K-星型關系計數。文獻[39]指出原始圖相似的并具有特定統計特性的同構圖可以用于發布對原始圖的準確查詢,并利用指數機制來搜索大量原始子圖的同構圖以發布子圖查詢。類似地,文獻[40]則使用基于密度的方法重構原圖。節點差分隱私保證了單個節點是否在圖中的不可區分性,其比邊差分隱私的定義要更為嚴格,并且由單個節點改變造成的敏感度通常與圖的規模成正比。一般而言,許多統計查詢在節點度數比較小的圖中具有較小的敏感度,因此文獻[41-42]提出了將原始圖中超過給定度數門限的節點移除而轉化為一個低度數限定的新圖進行發布實現節點差分隱私。文獻[43]研究了利用映射的思想并結合累積直方圖和直方圖合并的方法降低敏感度,從而在節點差分隱私的保證下發布圖中節點的度分布。文獻[44]則提出了節點差分隱私的迭代機制,利用遞歸的方法迭代返回任何類型子圖的差分隱私計數結果,然而該方法通常是NP-難問題,實現高效的節點差分隱私仍然十分困難。
合成數據發布方法,不同于直接發布一大批隱私保護后的查詢結果,而是通過發布一個隱私保護后的近似數據集供大批量查詢。早期的研究將匿名泛化技術應用到非交互環境下來實現差分隱私保護,如文獻[45-46]利用決策樹構建算法來實現差分隱私保護數據發布。文獻[47-48]則提出機器學習的過程可以用于數據集的發布,如文獻[47]提出了利用指數機制不斷搜索逼近在特定查詢集合上有較高查詢精度的合成數據集。文獻[49]則結合指數機制和乘性權重迭代的方式快速獲得近似最優的合成數據集。文獻[50]提出了使用Copula函數對高維數據的聯合概率分布進行擬合,不過,Copula函數無法處理值域較小的屬性,從而限制了其實際應用。而且,前述的方法都面臨算法復雜度高的問題[51-52],指出時間開銷通常和數據規模和查詢集合規模成指數增加,而且隨著屬性維度不斷增高,這些方法都存在著擴展性差和低信噪比的問題,從而嚴重影響高維數據直方圖發布的效用性,因而都難以處理高維數據集合的發布。為此,近來部分數據合成發布工作致力于對高維數據進行降維處理然后進行發布,如文獻[51]提出了基于貝葉斯網絡建模的高維數據發布機制Privbayes,計算屬性和父屬性集的相關性從而建模出一個貝葉斯網絡來分析維間相關性并進行降維處理。文獻[52]在Privbayes的基礎上,提出了根據概率分布來計算屬性維度中任意兩維之間基于互信息的相關性,并通過依賴圖和聯合樹等圖結構來建模以確定相關性從而進行降維然后發布。文獻[53]還提出了一種基于分布式多方計算的高維數據發布機制能夠從多個數據服務器上進行聯合數據發布。進一步,文獻[54]提出了一種滿足本地差分隱私的高維群智感知數據合成發布機制,有效解決了群智感知場景下參與節點對中心服務器隱私不信任的難題。以上工作雖可以勉強對高維數據進行處理,但是效率仍然低下,通常會消耗大量的隱私預算,而且一般僅適用于列聯表查詢,對多種復雜查詢支持度并不好。因此,研究和設計大數據時代支持大量通用查詢的高效非交互隱私保護的高維數據發布機制仍面臨極大挑戰。
針對基于差分隱私的聚類分析,文獻[37]提出Sample-and-Aggregate框架實現了滿足(ε,δ)-差分隱私的PK-means算法。該方法先隨機將訓練集分為若干個子集,在每個子集上運行K-means算法,得到若干結果,后采用平滑敏感度方法輸出滿足差分隱私的聚類結果。基于此,文獻[55]在子空間聚類中引入Laplace和Exponential機制以實現差分隱私。文獻[56]采用Johnson-Lindenstrauss變換來保證子空間聚類算法的差分隱私。此外,對于高斯混合的聚類問題常用EM算法實現。文獻[57]指出若混合模型的聯合分布滿足指數族,則EM算法的每次參數更新由充分統計量的期望(即矩)完全決定,且矩的敏感度有界,因此可在每次迭代中加入Laplace或Gaussian噪聲實現EM算法的差分隱私。針對大規模數據,需要設計高效、可行算法。
對于一般線性回歸和Logistic回歸問題,文獻[58]提出函數機制FM來實現差分隱私。任意連續可微的目標函數均可寫為多項式形式,FM通過擾動多項式系數來實現隱私保護;對正則化Logistic回歸和正則化SVM差分隱私可統一到經驗風險最下化(ERM)差分隱私框架下。文獻[59]通過輸出擾動和目標擾動實現ERM差分隱私,輸出擾動方法即在算法結果上添加服從Gamma分布的擾動,目標擾動方法即在優化目標中添加服從Gamma分布的噪聲,但兩種方法均要求強凸及可微,對于SVM不可微的Hinge損失可通過可微的損失函數來逼近。基于此,文獻[60]將ERM差分隱私擴展到懲罰函數不可微的情形;對于核方法,文獻[61]提出對再生核希爾伯特空間(RKHS)上所有核函數均滿足的隱私Kernal SVM算法;對于決策樹的差分隱私,文獻[62]在SuLQ平臺開發了第一個差分隱私決策樹算法,基于此,文獻[63]在屬性選擇過程中引入Exponential機制,文獻[64]提出隨機決策樹的隱私保護算法。對于在線學習的差分隱私,文獻[65]通過對敏感度有界的在線凸規劃(OCP)算法的每次迭代結果中添加Gaussian噪聲來達到隱私保護。針對分布式場景,通過對算法輸出結果擾動實現差分隱私的Logistic回歸,進一步,針對通信過程中可能的隱私泄露,通過對算法迭代過程加噪的方式提出了分布式Logistic變量擾動算法。顯然,關于此領域隱私保護學習算法尚處于初始階段。
基于差分隱私的因果分析:因果分析的最典型總結是深度學習問題及算法。文獻[66]通過將損失函數定義為不匹配訓練集的懲罰,在深度學習算法中應用目標擾動實現隱私保護。由于損失函數是非凸的,因此采用小批量隨機梯度下降算法,且在每步更新中加入噪聲。文獻[67]設計了一個分布式深度學習模型訓練系統,使多方共同學習一個精確的神經網絡。并用隱私隨機梯度下降算法來實現(ε,δ)-差分隱私。文獻[68]擾動了傳統的深度自動編碼器的目標函數,并采用Laplace機制來實現滿足隱私保護的深度自動編碼器算法。
基于差分隱私的隱變量分析:典型問題如特征提取、降維表示、稀疏表示等。主成分分析(PCA)是常用的降維方法,即找到數據投影方差最大的k個正交方向。文獻[69]提出一個主成分分析的差分隱私機制。由于對稱矩陣A的第一特征向量v是使vTAv最大的單位長度向量,該方法使用H(X,v)=vTAv作為Exponential機制中的得分函數從集合{v:vTv=1}中選擇第一特征向量,并通過迭代依次計算k個最大特征向量。不同于此,文獻[70]基于Exponential機制提出PPCA算法可同時選取k個最大特征向量。對于差分隱私下的特征提取問題,文獻[71]基于Exponential機制提出一個滿足ε-差分隱私的特征選擇算法PrivateKD,但該方法要求特征均定性且每個特征取有限個值。
基于差分隱私的敏感大數據發布和分析問題中的隱私保護具有重要的理論價值和現實意義,然而,現有的研究仍然主要面向屬性維度較少的靜態小數據集,真正實現很多大數據處理和分析問題中的隱私保護仍然面臨著不小挑戰。特別是,相對于傳統的數據處理和分析時代,在大數據時代,數據的體量、生成速度和數據維度等多個方面的大數據特性都將更為嚴重地威脅用戶的隱私,并帶來極大的隱私保護挑戰,具體表現在以下3方面:
1) 數據體量大,是指大數據時代敏感數據的量級也隨之急劇增多,以社交化關系組織的人參與的社交網絡和以標識到每個物體為目標的物聯網,使得所有人和物的信息都可能會被采集。隨著手機等日常生活設備逐步成為物聯網中最廣泛、最便利的感知終端,與個人息息相關的數據和信息被廣泛地感知和在線分享,造成有意識或無意識的隱私暴露[72]。例如,ACM CCS 2013上的文章[73]驗證了智能手機中最低權限的公共資源都會暴露用戶的隱私,可用于追蹤和定位發現用戶。
2) 數據生成速度快,體現在大數據時代敏感數據在隨時間劇增和精度不斷提高造成全新的隱私威脅。如美國和歐洲部署的智能電表每6s采集一個實時讀數,智能電表每天采集的數據的量和粒度遠遠超出傳統抄表信息的量和粒度,電器本身獨特的負載特征使得攻擊者可以通過電量消耗情況遠程監控住戶的電器使用規律,從而推測用戶的日常行為習慣、在家/外出等行為隱私[74-75]。
3) 數據的維度多并不斷拓寬會造成很多現有隱私保護技術的失效。在具有多屬性維的敏感數據處理和分析場景中,通過對多來源數據的內容進行交叉校驗,隱私攻擊者可以從中獲取異常豐富且難以隔離的信息繼而突破現有隱私保護策略(如告知許可、模糊化、匿名化)的藩籬。例如,匿名化方法對用戶的姓名、標識、ID等敏感信息隱藏可以達到隱私保護的效果,然而隨著數據維度的增加,已有研究結果證明通過對多個非ID的屬性信息進行關聯分析可以唯一地標識單個用戶[8]。
可見,對于敏感大數據的隱私保護,仍然面臨諸多大數據時代的難點。同時,這也表明敏感度大數據處理和分析中的隱私保護又具有廣闊的空間。因此,有必要針對大數據體量巨大、數據生成速度快和數據屬性維度高的特性,展開真正適用于大數據時代的敏感大數據隱私保護技術的研究。
首先,針對敏感大數據規模體量大的特點,可以考慮對數據分塊,以“分而治之”的思想對分塊的數據進行并行化的隱私保護處理,在保證效用隱私均衡的前提下,達到提升隱私保護算法并行可擴展的目的。其中,關鍵的問題在于分塊的數據間如何進行通信共享全局信息,保證隱私保護算法的準確性。
其次,針對敏感大數據生成速度快的特點,一方面可以考慮建立新的時序場景或者流場景的隱私保護模型,適當放松差分隱私的強隱私保證要求。另一方面,可以對數據流進行適當的采樣或預測,降低隱私預算的快速消耗[76]。
此外,針對敏感大數據屬性維度高的特點,可以考慮對數據模型的分塊降維,在盡可能不破壞數據原始特征的情況下,對數據進行降維分組,從而在克服高維數據隱私保護算法過程的復雜性和低效用性問題。
最后,包括隱私保護理論很多根本性的東西也需要進一步研究,使之更為符合大數據時代多樣性的特點。例如,如何降低其統一隱私安全標準,達到個性化隱私保護;如何適應數據中的異常點帶來的過大數據敏感性問題。更重要的是,如何針對不同的應用場景特性,例如,醫療大數據、生物信息大數據、社交網絡大數據、物聯網大數據等,建立起符合不同行業規范和處理分析需要的隱私保護算法及其應用實現。