彭寧波
(嶺南師范學院圖書館 廣東湛江 524048)
當今數據成為國家和企業重要的戰略資源,大數據時代已經來臨。大數據在各個領域為人們的生活提供便利、創造經濟效益和社會效益的同時,也對數據安全和隱私保護提出了新的挑戰。眾多案例表明,數據大量收集后存在暴露用戶隱私的風險,互聯網更是增大了隱私泄露的可能性。2013年的“棱鏡門”事件加劇了人們對隱私泄露的擔憂。近年來,數據隱私泄露事件頻發,隱私泄露問題日益凸顯,如何防止數據隱私泄露和保護數據隱私引起了國人的廣泛關注和重視。筆者在2021年3月16日利用中國知網(CNKI),以“數據隱私”與“保護”作為“篇名”檢索詞進行精確檢索后得到81篇北大核心期刊和CSSCI期刊論文、91篇中文學位論文,并通過國家圖書館館藏目錄檢索到相關著作8部。雖然國內已發表數據隱私保護技術相關研究綜述[1],但缺少數據隱私保護的整體研究綜述。文章主要從數據隱私保護相關概念、數據隱私泄露、數據隱私保護技術與方法、數據隱私保護法律、數據隱私保護對策五個方面進行梳理和綜述,以期為數據隱私管理與治理以及國家大數據戰略的實施提供一定參考。
了解什么是數據隱私和數據隱私保護,是開展數據隱私保護的前提。
對于什么是數據隱私,目前學界沒有形成統一的認識,出現了如下幾種代表性的定義:①數據隱私是數據擁有者不愿意被他人披露的敏感數據,包括數據本身以及這些數據所表現出的相關特性[1];②數據隱私是數據中包含的可能會泄露組織或個人秘密信息的部分[2];③數據隱私是個人、組織機構等實體不愿意被外部知道的信息,如個人的行為模式、位置信息、興趣愛好、健康狀況、公司的財務狀況等[3];④數據隱私是個人希望得到保護、不愿公開被他人知曉的敏感數據,以及經過數據處理后,識別出的用戶不愿被他人知曉的隱私內容[4]。可見,敏感數據和數字行為都是數據隱私的重要組成部分。
數據隱私可依據不同分類標準分為多種類型。從隱私所有者角度出發,數據隱私可分為個人隱私和共同隱私[5];根據數據來源的不同,數據隱私可分為監視帶來的隱私、披露帶來的隱私、歧視帶來的隱私[3];根據數據對象所處時空,數據隱私可分為位置數據隱私、簽到數據隱私、軌跡隱私[6];根據用戶隱私的保護需求,數據隱私可分為身份隱私、屬性隱私、社交關系隱私、位置與軌跡隱私等[7]。
數據隱私特征主要包括:①數據隱私權的主體一般是自然人[8];②具有推斷性,可以推斷個人某方面的特質,如購買偏好、出行習慣等[9];③具有范圍不可辨、權限不可控、泄露后果不可知的特點[4];④具有隱私主體多元化、全生命周期、隱私保護粒度化和多重評價指標的特點[10];⑤具有邊界難以鑒定的特征[3]。正因為數據隱私存在上述特征,對數據隱私邊界的厘清以及對數據隱私權利的界定和保護才顯得更為復雜和棘手。
數據隱私保護是在將隱私泄露風險最小化的同時使數據的可用性最大化[11]。在云計算中,數據隱私保護是指采取相應的措施防止個人信息被跟蹤、暴露以及存儲在云中的敏感信息被泄露,涉及對云中數據的共享、搜索、計算、完整性驗證、刪除等各種操作以及數據自上傳到銷毀的整個生命周期[12]。
根據隱私保護對象的不同,數據隱私保護可分為面向用戶的隱私保護和面向數據的隱私保護,前者從用戶角度出發為其提供隱私信息保護,在用戶訪問數據的隱私信息或者對隱私信息進行增刪改等行為時提供技術上的保護;后者基于數據庫管理系統對信息的使用來對數據信息進行保護,即將一些隱私保護技術應用于相關敏感數據中,防止用戶隱私泄露等問題[13]。根據保護策略,數據隱私保護可分為面向數據的隱私保護和面向上下文的隱私保護,前者又分為數據融合隱私保護和數據查詢隱私保護,后者又分為身份隱私、位置隱私、時間隱私和路由隱私(時空隱私)等[14]。
保護數據隱私安全的基本需求包括數據的機密性、完整性、可用性、查詢隱私保護、可控性,以及可審查性、真實性、數據的完備性8個方面[15]。數據隱私保護的基本目的是保護敏感數據不被泄露[1],具體目的包括:①保護數據隱私的同時要保證數據的有用性[16];②保護用戶的隱私不被竊取、篡改和公開[5];③實現數據可用性和隱私性之間的良好平衡[7]。
數據隱私泄露是數據隱私保護的誘因。數據隱私泄露的原因、表現和危害等主題引起了學者們的廣泛關注。數據隱私泄露的原因主要包括五方面:①用戶數據逐漸成為企業的核心資產,成為企業競相追逐的目標[4]。為獲取巨大的商業價值,企業可能濫用個人數據以牟利,將隱私信息非法出售[17];或采取不當措施追蹤、搜集甚至竊取用戶個人數據以牟取不正當利益[9]。②日益增多的個人數據、數字行為和數據外包存儲等增大了數據隱私的泄露風險[4,12]。③大數據包含大量個人信息甚至個人敏感信息,使隱私泄露變得更加容易[18];大數據技術如數據挖掘使得隱私泄露范圍廣、數量大、傳播快[17]。④用戶個人信息安全意識淡薄或技能不高,容易造成隱私無意識外泄[19];個人不當的網絡行為也可能造成數據隱私泄露[9]。⑤用戶與服務方信息不對稱、缺乏個人數據使用的“知情同意”、社交媒體助推用戶隱私過度自我披露,都會造成數據隱私泄露和被跟蹤的風險[20]。
數據隱私泄露可能出現在數據生命周期的每個階段,這體現在以下五個方面[3,21]:①在數據收集中,如果個人數據被不可信的第三方收集,則個人隱私很有可能被泄露或賣給惡意攻擊者;②在數據集成融合與存儲中,可能存在不可信外包服務攻擊、無加密索引、記錄連接攻擊等;③在數據分析過程中,可能存在頻繁模式支持度攻擊、分類與聚類攻擊、特征攻擊等;④在數據解釋過程中,可能存在前景知識攻擊、通過數據溯源圖挖掘元數據之間的依賴關系等;⑤在數據交互過程中,可能出現竊聽者盜取用戶的通信數據、攻擊者通過惡意軟件突破保護或觀察用戶的請求從而非法訪問或間接獲得用戶的數據信息、攻擊者發起內部攻擊獲得用戶留在服務器上的數據信息等情形。
數據隱私泄露的危害主要包括:①可能造成數據的濫用和擴散,侵犯個人隱私權[22];②可能造成個人信息被非法收集和反復傳播,損害公民的知情權和信息自決權[23];③侵犯實體生活,造成經濟損失、個人的生命安全以及國家基礎設施安全威脅[24];④給個人生活造成極大困擾,激化社會矛盾,損害公共利益等[9]。
在數據生命周期管理過程中,如何采用技術確保隱私不泄露,在最小化隱私泄露風險的同時保證數據的可用性成為眾多學者關注的問題。根據防止隱私泄露的不同實現方式,數據隱私保護技術與方法主要包括如下三類。
基于數據失真的技術即數據擾動技術,是通過擾動原始數據實現隱私保護,使擾動后的數據同時滿足兩個條件:攻擊者通過發布后的失真數據不能重構出真實的原始數據、失真后的數據仍然保持某些性質不變[25]。其中,差分隱私是應用最廣泛的數據隱私保護技術,與差分隱私相關的數據隱私保護方法尤其受人重視。差分隱私是一種通過添加噪聲使原始數據失真的隱私保護技術,在數據集中添加或刪除某一個記錄之后并不會影響查詢處理的結果,且所加入的噪聲大小與數據集大小無關,對于大型數據集僅需添加少量噪聲即可達到很好的隱私保護效果[26]。目前與差分隱私相關的隱私保護方法主要包括:①基于MapReduce模型引入差分隱私保護的決策樹生成算法DPMR[27];②基于非交互的差分隱私保護模型的社交網絡圖擾動方法dp-noisy[28]、基于Skyline計算的個性化差分隱私保護算法[29];③基于自適應ω-事件差分隱私(Re-ADP)的實時流式數據隱私保護算法[30];④面向查詢的四叉樹差分隱私混合分解算法和面向挖掘的差分隱私四叉樹密度聚類算法[31];⑤基于二分關聯圖的群組差分隱私保護方法[32];⑥基于差分隱私的位置數據隱私保護LQ-Trie-DPK算法[33]、聯邦學習數據隱私保護方法[34]、時空數據實時安全發布方案E-RescueDP[35]等。這些方法在保證數據可用性的基礎上實現了對數據隱私的保護。
基于數據加密的技術是通過加密的方式對數據進行隱私保護,對原始數據施以加密操作,從而達到隱藏敏感數據的目的[36]。其實現的常見方式分為對稱加密和非對稱加密,對稱加密如序列加密算法、AES、3DES算法等,非對稱加密如RSA算法、橢圓曲線(ECC)密碼算法等[37],典型應用技術為安全多方計算和同態加密。當前關注重點主要是云平臺中的數據隱私保護。
云平臺下的數據隱私保護方法主要包括:①在云存儲方面,采用位拆分與位合并的高性能數據隱私保護方法BSBC[38]、基于數據分割與分級加密的云存儲數據隱私保護機制[39];②在云計算方面,采用基于隨機數的動態數據隱私密碼機制[40]或基于改進概率公鑰加密的隱私保護方法[41];③在云數據安全方面,采用無鏈接性的細粒度跨云訪問控制機制PCAC、面向高級數據查詢的可搜索加密方案GPSE、面向字符串模式匹配處理的安全外包計算技術SOPM[37]等。此外,其他相關方法如基于雙重加密的區塊鏈交易數據隱私保護方法[42]、基于移動節點的數據隱私保護算法[43]、基于同態加密的社會化推薦方法[44]等,都可以在不泄露原始數據的前提下實現隱私保護的目的。
基于數據匿名的隱私保護技術主要是通過數據匿名化實現,在權衡隱私泄露風險和數據精度基礎上,對敏感數據和可能泄露的敏感信息進行有選擇的發布,從而達到降低隱私泄露風險的目的[11]。k-匿名、l-多樣性和t-接近是典型的數據匿名化技術代表,其中,關于k-匿名的數據隱私保護方法的研究備受關注。
k-匿名通過修改準標識符的值,使匿名數據集中的任何個體與至少k-1個其他個體無法區分[32]。目前提出發布數據時關于k-匿名的隱私保護方法包括:①基于非敏感信息分析的軌跡數據隱私保護發布算法(TP-NSA),以實現軌跡數據集k-匿名[45];②基于屬性分類加權的k-匿名數據隱私保護算法ACW[46];③采用(alpha,k)方法改進的基于有損分解的數據隱私保護方法Alpha+[47];④根據敏感屬性的敏感等級對等價類中不同敏感屬性的敏感值實施的個性化(p,α,k)-匿名隱私保護算法[48];⑤基于k-匿名擴展的、抵御具有知識背景攻擊的隱私保護模型X-km-匿名[49];⑥基于距離聚類的(d,α)k-匿名算法,以防止數據發布后的共享數據不因屬性之間的依賴關系而泄露個體身份[50];⑦采取從頂至下的局部重編碼算法可防御相似性攻擊并保護具有敏感屬性值的類別和級別的數據發布的隱私保護算法模型(A,B,k)-匿名[51]等。這些方法滿足了用戶在數據發布時的隱私保護和數據可用性的多層次需求,在避免數據隱私泄露的同時保證了數據的真實性、高效性。
除隱私保護技術以外,法律法規是隱私保護的重要手段。該主題研究可分為國外數據隱私保護法律研究與國內數據隱私保護法律研究兩部分。
國外數據隱私保護法律研究主要集中于歐盟和美國等地區或國家。目前全世界擁有全國性統一個人數據保護法律的國家和地區已達到120個[52],其中一些主要國家和國際組織頒布的數據隱私保護法律如表1所示。
歐盟《一般數據保護條例》在諸多方面做出重大變革[55]:①首次增加了“域外適用”情形;②采用“原則指引+高額罰款”的策略;③賦予公民廣泛的個人權利,以實現數據全生命周期的可控,包括擴展和完善原有的權利,賦予數據主體以新的權利——數據刪除權和可攜帶權;④由隱私權保護升級為個人數據保護;⑤首次增收“被遺忘權”提法;⑥設立完善的數據保護監管機制;⑦建立了完善的救濟機制。美國的數據隱私保護法律法規紛繁蕪雜,呈現出分散立法的特點,以行業自律為主、法律保護為輔[53]。美國沒有一部規定個人數據收集和使用的獨立、綜合性法律,但有20多個特殊或較為特殊的隱私數據行業法規,以及50個州與地區各自制定的數以百計的隱私數據法規,僅加利福尼亞州就有25部以上的隱私和數據安全法,其中以2018年通過的《加州消費者隱私法》為代表[53]。

國際組織和主要國家 代表性法律 特點聯合國 1990年發布《電腦處理數據文件規范指南》明確了電腦處理個人數據的基本原則經合組織1980年提出《關于隱私保護和個人數據跨境流動指南》及《OECD個人資料保護指針》為經合組織成員國的個人數據保護確立了基本原則亞太經合組織2004年簽署《亞太經合組織隱私保護框架》,建立了APEC跨境隱私規則(CBPR)確立了個人數據處理與流通的指導原則歐盟1995年頒布《歐盟個人數據保護指令》,2016年制定《一般數據保護條例》,2018年5月正式生效是國際社會有關個人數據保護最全面、最有影響的法律文件之一美國 1974年制定《隱私法案》 規定了公共機構對私人信息采納和使用的邊界德國 1977年頒布《聯邦數據保護法案》對個人數據保護統一規范法國 1978年實施《數據保護法案》規定個人數據使用行為的限制措施澳大利亞 1988年頒布《隱私法案》 適用于所有聯邦成員的個人數據保護英國 1998年頒布《數據保護法案》增加對手動和電子數據記錄的保護加拿大 2001年實行《個人信息保護和電子文件法》規范收集、使用和公開個人信息的行為日本 2003年通過《個人信息保護法》適用于數據控制者的個人信息處理行為,是日本數據保護的核心法律
對比歐盟和美國的數據隱私保護法律,一種觀點認為,歐盟是理想主義的“數據主體”模式,賦予數據主體一系列權利,看重個人數據處理過程的規制;美國是實用主義的“消費者”模式,利用既有法律身份和監管機制進行隱私保護,倚重消費者權益保護機制[56]。另一種觀點認為,歐式立法是“權利話語”下的數據保護,美式立法是“市場話語”下的隱私保護[57]。兩者之間存在價值分歧和制度差異,歐盟傾向于將數據隱私視為基本權利和自由的一種,法律制度力圖從基本人權角度保護數據隱私;美國傾向于將數據隱私視為市場利益的一種,法律制度將數據隱私放置在市場的環境內考慮,美國無意制定一部綜合性的數據保護法,采取隨機立法的方式,通過產業自治保護隱私的體制與歐盟通過綜合立法保護隱私的體制形成了鮮明對比[58]。
該主題研究主要集中于保護法律的現狀及問題等。目前,港澳臺地區隱私保護法律走在國內前列。臺灣在1995年正式出臺電腦處理個人資料保護有關規定,在2010年正式通過個人資料保護有關規定;香港在1996年出臺《個人信息(隱私)條例》,明確了個人信息的收集、存儲、適用等規范;澳門在2005年出臺《澳門個人資料保護法》,并于2006年頒布實施[54]。我國內地(大陸)尚未出臺個人隱私信息保護方面的專項法,關于數據隱私安全與保護的規章制度散見于憲法、法律、法規及部門規章中[59]。我國《網絡安全法》《民法總則》《信息安全技術 個人信息安全規范》分別于2017年6月、2017年10月、2020年10月正式生效[4],《個人信息保護法》和《數據安全法》也正在規劃中。我國已然從多角度尋求保護公民作為信息主體的個體權益,數據隱私保護逐步規范化、法治化。
然而,目前我國數據隱私立法還存在一些問題,總體表現為[53]:①立法較為分散,不成體系,且立法位階不高;②沒有明確隱私權在法律中的地位,對隱私權以間接保護為主,直接保護較少,尤其是對電子隱私信息的法律保護力度不夠;③相關規定過于籠統,對主管部門的職權范圍和相關措施的規定較為模糊,對違法者的懲罰措施沒有明確提及,執法不具可操作性,如《網絡安全法》中“個人信息權”條文不夠細化且與個人數據隱私保護問題無直接關聯;④隱私保護讓位于國家安全和經濟發展。由此看來,我國雖然頒布了《網絡安全法》《信息安全技術 個人信息安全規范》等法律法規來完善對數據隱私的保護,但長期以來對個人數據和個人信息保護力度偏弱的局面還有待突破。我國需要充分借鑒國外數據隱私保護法律經驗,加快數據隱私立法步伐,提高隱私保護水平,才能實現與國際接軌。
數據隱私保護對策來自法律、技術和管理層面。對數據隱私保護的法律措施包括:①制定數據隱私專門法,內容結構應包括涉及目的、定義概念、基本理念等的總則;國家及地方政府責任;保護個人信息舉措;個人信息處理機構義務;其他不適用情況規定;懲罰規則及附則[59];②完善隱私保護法規制度體系,明確個人數據保護范圍,從收集、處理、交易、應用、舉報、溯源等環節進行全流程的機制建設,確保個人數據使用安全規范[60];加快制定數據產權歸屬、保護以及采集、存儲、加工、傳遞、檢索、授權應用等法律法規,明確數據擁有者、使用者、管理者等各方的責、權、利[61];③盡快完成商業數據隱私權的立法,選定合適的隱私權保護執行機構[62];④加強發展與建設“剛”性有執行力的法律機制,政府監管機構、監管機制和監管義務是制定個人信息保護法的規范重點;梳理現有法律機制,充分利用和發展包括消費公益訴訟在內的法律機制對抗大型互聯網企業大規模侵犯數據隱私的現象;在未來立法中做好頂層設計,逐步規范隱私身份法律術語,重點加強具有執行力的大數據隱私保護機制的設置[56]。
數據隱私保護的技術措施包括:①加強數據安全技術研發及技術標準制定,從技術手段尋找突破口,包括數據層、應用層、數據發布層等針對各數據層次的不同技術手段[23];②支持隱私保護技術及標準體系研發,包括隱私保護及溯源管理技術、隱私數據收集、交易、處理以及應用流程標準等,支持行業協會進行個人數據匿名或化名處理標準體系制訂,支持企業與科研機構進行個人數據溯源技術研發[60];③加大技術控制,完善計算機安全技術,建立一個安全的計算機系統;引進新的數據安全技術,凈化網絡信息環境[63];④融合與創新,通過構建智能網絡和數據管理平臺,為數據的安全管理提供技術融合平臺,推動各種安全技術和計算方法的融合與創新,為數據隱私及其安全管理提供創新動力[64]。
數據隱私保護的管理措施主要體現在國家、企業和個人層面。基于國家層面的管理措施包括三個方面。一是加強行政干預,具體包括:①建立數據隱私保護倒逼機制,采取第三方獨立機構監督[59];②構建多方參與的舉報機制,給予舉報獎勵、支持協會組織、降低舉報成本[17];③制定行業規范,加大泄露個人隱私的懲罰力度等,對信息收集方做出嚴格的限制[23];④制定專門的大數據安全行業標準,由政府牽頭,聯合工業界和科研院所組成第三方安全評審仲裁機構,建立完備的數據管理制度[61]。二是參與國際隱私治理,推進行業自律機制與全球行業標準,發展隱私認證機構,引入國際先進的隱私影響評估(PIA)標準和隱私保護設計(PbD)標準[52]。三是重視數據跨境流動的治理,具體包括:①考慮加入區域性數據隱私規則體系,積極推進中國加入APEC跨境商業個人隱私權保護規則體系[62];②擇機采取跟隨、協作和引領策略,妥善處理貿易法與數據隱私法之間的關系,采取“原則+例外”的規制框架來緩和數據跨境自由流動與數據隱私保護之間的沖突[58];③進行安全評估與安全審查,堅持不危害國家安全利益、不危害企業商業利益、不危害個人信息三個“不危害原則”[55]。
基于企業層面的管理措施主要有三點。一是企業要自律,保護數據源頭,具體包括:重視隱私條款政策的制定和規范性;承擔起保護用戶個人數據信息的責任,加強員工安全培訓、嚴格控制訪問權限、定期開展信息安全影響評估;將管理和技術手段結合,與時俱進,加強大數據環境下的網絡安全防護技術建設[55]。二是企業必須將個人信息保護放在首位,可以嘗試設定危險權限、規范應用隱私條款、設立數據安全官[55];給予用戶更多的個人數據控制權,給用戶更多的選擇權、保障用戶的知情權,合理使用用戶數據[65];將隱私數據劃分成不同等級,對隱私數據進行分級保護[65]。三是企業需要構建數據隱私保護的管理體系,包括[66]:①建立隱私保護政策總綱,在管理層達成共識;②建立隱私保護的組織和團隊,負責隱私保護監管、審計以及與監管機構溝通;③建立隱私保護的政策與框架;④確定適用的法律法規;⑤建立PIA或數據保護影響評估(DPIA)的方法論與操作流程;⑥隱私生命周期的管理與落地(如隱私聲明、數據收集、數據主體同意、流轉審批流程、有效期管理與數據清理等);⑦建立數據目錄以及隱私運營支撐系統,用于對隱私風險進行度量,支撐隱私保護工作的例行開展,并可用于向監管機構證明自身的合規性;⑧建立數據主體請求的相關流程和系統(用于支撐用戶查詢、修改、刪除、撤回同意等);⑨隱私數據泄露事件的響應與報告機制。
基于個人層面的管理措施包括:①要加強隱私教育與培養保護意識,樹立與時俱進的隱私觀,開展數據隱私倫理的道德教育[23,63];②要提高應對大數據時代的媒介素養,對數據隱私辯證看待、分層保護,將數據及時脫敏[4];③可以聯合其他數據主體,形成數據隱私保護共同體,讓數據隱私保護意識成為社會共識[4]。總之,每位公民要認識到數據隱私信息泄露的嚴重后果,加強自我保護意識和提升保護技能,了解相關的法律法規,做到知法懂法、守法用法。
在大數據時代,數據的安全問題日趨凸顯,數據隱私保護引起各界的關注。縱觀國內研究,筆者發現:①人們已經意識到數據隱私保護的重要性,對數據隱私及其保護的概念以及數據隱私泄露問題有了一定程度的認識;②對數據隱私保護側重從技術方法和法律法規視角進行研究,針對基于數據失真、數據加密和數據匿名的隱私保護技術與方法以及國內外數據隱私保護法律有了廣泛而細致的研究;③雖然一些文獻提出了數據隱私保護對策,但是我國對數據隱私安全和保護的研究尚處于起步階段,對于數據隱私保護理論(如保護框架、政策標準、能力評估等)尚未有深入而體系化的研究,也缺乏數據隱私保護的實踐研究,數據隱私保護研究的深度和廣度還有待拓展。總之,數據隱私保護是大數據時代數據治理的一項重要內容,也是一項系統化工程,需要各環節、各主體、多角度協同開展,多方聯動,才能創造良好的數據隱私保護環境,實現更安全高效的數據利用,推動技術創新和社會進步。
(來稿時間:2021年4月)