蔣潔 蘭舟 祁怡然
摘? ?要:文章厘清長期混用的個人信息去識別化、匿名化、假名化、去標識化的內涵外延,結合域內外建規立制的發展脈絡,搭建動態平衡個體隱私安全與數據充分利用的層級治理方案。充分論證迭代算法有可能重新識別嚴重不完整的零散數據集,客觀上難以達致無法識別且不能復原的匿名狀態,亟待有條件免除數據處理者在符合去標識化標準下的同意獲取義務。通過基于風險管控搭建的個人信息規制模式、隱私保障方案和以數據利用為核心的權屬機制,安全變現數據價值,助力后疫情時代數字經濟有序發展。
關鍵詞:個人信息;去識別化;匿名化;去標識化;數據治理
Abstract The purpose of the article is clarifying the concepts of de-recognization, anonymization, pseudonymization, and de-identification with the development path on making regulations, and promoting the dynamic equilibrium between the protection of personal information and the full use of data. Since iterative algorithms may re-recognize seriously incomplete anonymous data sets, it is objectively difficult to achieve an absolute state that cannot be recognized and cannot be recovered. It is necessary to ensure that completely anonymous data does not belong to the category of personal information, and conditionally exempt the processor from obtaining consent obligation under fully meeting the basic standards of de-identification. Through the governance mechanism and the protection mechanism of personal information de-identification based on risk controlling and management, and the ownership mechanism of rights and interests on personal information de-identification with data utilization as the core, rights and interests of specific natural persons will be protected, and the value of massive data will be fully realized. These will promote the harmonious development of economy and society.
Key words personal information; de-recognization; anonymization; de-identification; data governance
1? ?引言
網絡的誕生源于對自由的追求,最初的開拓者以開源代碼為己任,致力于搭建“終端對終端”的在線行為無法追溯的互聯架構,試圖營造一個摒棄真實身份的賽博環境[1]。直至頻發的風險事件促使人們意識到表面隔離在現實世界之外的虛擬空間能夠對科技進步、經濟發展與社會穩定等產生實質影響,方才拉開個人信息可識別化的序幕。如多個國家和地區為了社會治理需要而責令網絡服務提供商設置實名門檻[2];又如虛擬平臺運營企業為了精準推送商業廣告,迅速開發出能夠揭示真實地理位置的地圖程序以取代虛擬IP地址[3]。
回顧全球數字經濟的發展歷程,個人信息的可識別化曾是萬物互聯的核心動能。顯名模式助力海量數據作為安全可信的生產要素參與市場交易,推動建設開放型世界經濟,支撐信息化時代的科技文化和社會發展。問題在于,日新月異的物聯網、大數據與人工智能共同營建的能夠迅速挖掘零散數據微弱關聯的復雜場景大幅加劇了個人信息全生命周期的風險。《歐盟通用數據保護條例》(GDPR)、《美國加州消費者隱私法案》(CCPA)、《新加坡個人數據保護法案》(PDPA)以及我國的《網絡安全法》《密碼法》《個人信息安全規范(2020版)》和《個人信息去標識化指南》(GB/T 37964-2019)等規范性文件不約而同地強調數據隱私保護,卻在實際落地中暴露出諸多問題。如廣泛適用的知情同意模式在運作中暴露出流程復雜、術語晦澀、成本高昂、成效不彰等弊端。
一方面,海量數據資源的分享與利用是信息經濟邁向高階智能化的核心支撐;另一方面,個人信息安全的充分保障是人格尊嚴與自由平等的重要表征。在我國培育和發展數據要素市場與全面加強數據安全規制之際,亟待及時總結域內外為個人信息處理建規立制的經驗教訓,厘清整個過程中涉及的匿名化、假名化、去標識化等概念,進而搭建既適應我國當前需要,又有能力引領全球數據治理的去識別化方案,迅速增強數字經濟活力,提升全球影響力。
2? ?個人信息去識別化的類型解構
曾為網絡經濟發展立下汗馬之功的個人信息顯名化以“識別”為核心支撐,包括“被識別”(個人身份已被辨識)和“可識別”(有能力結合處理中的信息與其他信息進行尚未發生的識別)等情形。識別對象主要是特定自然人的直接標識符或間接標識符。前者指姓名、住址、身份證號等可以直接關聯到特定自然人的信息;后者則指年齡、性別、郵編等本身不能識別特定自然人,但關聯其他信息時可以識別的信息。
概之,個人信息去識別化是在尊重自然人正當權益的基礎上擯除一定量的直接或間接標識符,以便將相關風險控制在合理范圍內的復雜過程。個人信息去識別化主要包括匿名化和去標識化兩大分支。由于兩者存在一定的相似性,常被混用或誤用。然而,兩者實際上在去識別化的方式、過程、后果上存在顯著差異。
2.1? ?個人信息匿名化
早在現代統計技術誕生之初,如何在達到數據采集目的之前提下,有序控制個人信息披露的范圍與方式就是關鍵性研發子域。19世紀中葉,美國聯邦人口調查局為了重新分配眾議院席位、確定各州征稅標準以及估算戰時軍事潛力等而開展的大規模人口普查中就刪除了一些與數據采集目的無關的個人信息[4]。20世紀50年代,計算機交叉制表技術大幅提升從業人員的數據分析能力。能夠反復設置復雜過濾條件的查詢模式使得參與者可以通過檢索唯一標識符來鎖定特定自然人,在節約資源、促進發展與維護穩定等方面發揮積極效用,卻也引起一些專家學者對于隱私和安全的憂慮,進而推進一系列旨在強化匿名性的技術創新。如采取多種技術增加元數據集的隨機噪聲以降低識別出特定自然人的概率。
事實上,個人信息匿名化是在整合數據集聚與數據共享的大數據處理模式興起之前就廣泛應用的數據處理方法,最初被用于指代各種去識別化的方式方法,“改變個人數據以致有關個人或客觀情況的信息不能夠確定為或必須付出相當大的時間、經費和勞動才能確定為歸屬于認定的個人”①。即只要達到難以識別或復原困難就屬于匿名數據,而非“無法識別”或“不能復原”。
隨著現代信息基礎架構和大數據處理技術迅猛發展,消噪攻擊行為等更為頻繁、便捷與隱蔽,大幅加劇了個人信息處理中重新識別的風險[5]。各國基于動態權衡數據質量與數據安全之目的,不得不持續收緊匿名化標準。如美國國家標準與技術委員會(ANSI)將之表述為“信息控制者對數據集中可以識別個人身份的信息予以改變或者刪除,從而使信息利用者不能再識別信息主體。”[6]又如《歐盟通用數據保護條例》(GDPR)寫明“數據保護原則不應當適用于匿名化數據”,并將匿名化的內涵限定為“無法識別且不能復原”[7],試圖實現包括推斷預測在內的各種數據處理模式均無法指向特定個體。這一將絕對匿名化數據排除在個人信息處理規制之外的治理模式不僅有利于節約資源并促進數字經濟發展,亦不會對自然人造成明顯的負面影響,獲得多個國家和地區認同。如《印度個人數據保護法案(草案)》(PDPB)將匿名化界定為“對個人數據進行不可逆的轉化處理或轉換為無法識別數據主體身份的格式,以符合監管機構的不可逆標準”[8]。又如我國的《個人信息保護法(草案)》第69條第1款第4項對“匿名化”的定義亦是“經過處理無法識別且不能復原”的絕對匿名化[9]。
因之,當前普遍使用的個人信息匿名化是指一個通過技術處理使得數據無法與任何已識別或可識別的特定自然人相關聯、不能通過數據處理者與第三方協作直接或間接識別特定自然人的不可逆轉的過程。
2.2? ? 個人信息去標識化
2.2.1? ?必要性分析
信息技術廣域應用的發展歷程中充斥著個人數據重新識別與復原的風險,“數據處理可能永遠無法確保完全不會泄露敏感信息”[10]。如哈佛大學隱私實驗室主任拉塔妮婭·斯維尼(Ratanay Sweeney)早在1996年就運用“K-匿名”思路從海量健康數據中重新識別出時任馬薩諸塞州州長的威廉·維爾德(William Weld)[11]。
21世紀以來,有關個人信息匿名化的技術驗證如火如荼。令人遺憾的是,萬物互聯場景下不斷豐富的復雜數據集、相關技術進展和算法迭代一再證明了“E-多元”、“T-保密”、差分隱私和通過聯合系統進行保持隱私的共享數據分析等匿名化方法在實現數據基本可用的前提下無法避免重新識別,“數據可以是有用的,也可以是完全匿名的,但絕不能兩者兼有。”[12]如阿爾溫德·納那揚(Arvind Naranayan)和維塔利·施瑪蒂科夫(Vitaly Shmatikov)成功重識了Netflix發布的匿名數據集[13]。又如倫敦帝國理工學院的研究人員搭建出通過郵編、性別、出生日期等3個信息就能有81%概率在匿名數據庫中準確追蹤特定對象的機器學習模型(具有15個人口統計屬性的匿名數據集的識別率高達99.98%),意味著較為先進的估算模式有可能成功重識嚴重不完整的匿名數據集,“即便采樣量極大的匿名數據集也難以滿足GDPR規定的現代匿名標準。”[14]
事實上,能夠發揮最基本的數據價值的人口統計數據集必然包括特定自然人一定的屬性點(少于3個屬性點的人口集合數據毫無價值)。當前,大量數據集存在類似難題,尤其是生物特征數據具備海量獨特因子。問題在于,經過處理的個人信息并不具有絕對不可識別性和無法復原性。美國AOL公開的用戶搜索請求、Netflix的用戶視頻推送以及澳大利亞政府發布的數百萬公民健康數據,均是刪除或屏蔽了多項標識符的個人信息,卻在萬物互聯化、零散數據海量化以及挖掘技術復雜化的現實環境中精準鎖定到特定自然人。2019年,蘇黎世的兩位研究人員試圖結合案情從瑞士聯邦最高法院判決書中提及的匿名的制藥公司和藥品名稱里評估哪些制藥公司和醫療藥物參與了針對聯邦辦公室的法律訴訟。結果顯示,通過挖掘公開的匿名數據庫,能夠重新識別84%的案件[15]。
全球專家經過40年的技術驗證已經就個人信息無法徹底匿名達成共識。隨著元數據集越來越大、數據更新越來越快、數據庫交互越來越多,匿名難度也越來越高。有關個人信息處理的治理機制不僅應當避免將絕對匿名化作為評判指標,也有必要完善去標識化分支的相關概念、標準、技術規制與風險評估,在維護自然人正當權益的基礎上,建立科學合理、清晰友好的數據利用模式,促進居民健康、改善交通出行、提升教育質量、推動技術進步、助力經濟發展、實現社會和諧。
2.2.2? ?概念界定
個人信息去標識化亦可稱為“個人信息去標識化過程”,意指一個通過技術處理去除目標數據集中定量識別屬性和數據主體之間關聯并搭建充分防御重識別壁壘的過程。一般而言,去標識化過程是在保留個體顆粒度的基礎上,采用假名、加密、哈希函數等技術手段替代對個人信息的直接標識或準標識,使得第三方在不借助額外信息的情況下無法識別或者關聯特定自然人,從而能夠安全地將目標數據集共享應用到外部系統。
一般而言,去標識化涵蓋了絕對匿名化以外的全部去識別化的方式方法。如假名化就是去標識化的一種技術手段,即使用假名為特定自然人創建唯一標識符以替代原始的直接標識符,從而在不同數據集的相關記錄之間建立不會泄露隱私的關聯關系。
2.2.3? ?基本標準
目前,很多處理中的數據集源于多元信息整合。如醫療保健類數據集可能來自病患檢查數據、可穿戴式傳感器傳輸數據、臨床試驗數據、基因組數據、醫患描述數據等。復雜的數據來源使得傳統的知情同意原則難以有效執行且有可能影響數據價值變現,亟待有條件地免除個人信息處理者在充分滿足去標識化基本標準下的同意獲取義務。
個人信息去標識化是一個專業性很強的復雜技術處理過程且并非全程處于不可知狀態,需要清晰明確的基本標準。對于直接標識符,應當予以刪除或使用隨機值或通用名稱替換、采用系統化特定值一致替換信息系統中多個數據記錄等。對于無法獨立識別特定自然人的間接標識符,由于這些數據量級巨大、覆蓋廣泛且隨著環境要素變化而調整,技術上無法全部徹底地刪除或更改。實際操作中刪除某種可能對后續分析非常重要的信息還有可能會損害整個數據集的效用[16],違背了去標識化合理權衡個人信息安全與數據充分利用的初衷。如以醫學創新與醫療質量發展為例,技術進步使得人們能夠從大量電子醫療記錄和其他與健康相關的數據資源庫中獲得海量有用數據,迅速擴充臨床醫療知識儲備、增加協作平臺的互操作性。有必要給予彈性較大的合理使用空間,推動人類健康存續與有序發展。當然,應當建立包括一系列基本標準和安全評估方案,督促個人信息處理者采用可證明的加密搜索、隱私計算、粒度訪問控制、問責制、數據來源管控等增強型隱私系統和安全措施。
3? ?個人信息去識別化的域外治理經驗和我國實踐
3.1? ? 域外治理經驗
基于全球合理權衡個人信息安全與數據充分利用的共識,主要國家和地區紛紛為個人信息去識別化建規立約。整個發展脈絡經歷了從統一混用匿名化到以去識別化為上位概念,分別明確匿名化與去標識化的變遷。
3.1.1? ?歐盟
1995年,歐洲議會和歐盟理事會制定的《數據保護指令》(Data Protection Directive,95/46/EC)提到了個人數據匿名化處理,卻由于規定過于寬泛模糊、缺乏可操作性, 一直未能有效落實。2014年,歐盟第29條工作小組(Article 29 Working Party,WP29)發布了《第05/2014號意見:匿名化技術》(Opinion 05/2014 on Anonymization Techniques),大致梳理了歐盟個人數據保護框架的正負效應并提出有關第三方評判匿名化狀態的客觀標準的建議。即基于個人數據的分離識別風險、關聯性風險和推測風險等等,主張避免能夠從數據集中分離出部分或全部可識別個人身份的記錄、能夠在兩項或以上同屬一個或一組數據主體卻分散在不同數據集的記錄之間產生關聯以及避免能夠以較高概率從一系列屬性中精準推測某一屬性的數值,試圖通過規制具體行為以提升個人數據重新識別的難度、成本與可責性,卻依舊無法回避個人數據無法徹底匿名的問題。
2016年,《歐盟通用數據保護條例》(GDPR)試圖積極協調數據利用和隱私保護之間的博弈關系,既寫入嚴苛的個人數據匿名化條款,又已經意識到難以確保經匿名化處理后的數據具有不可識別性和無法復原性,相關治理規則呈現出明顯的矛盾性與模糊性,難以實際落地。
一方面,GDPR第4條將“匿名化”描述為“一種在個人數據被處理后不使用額外信息就不能指向特定數據主體的處理方式。該處理方式將個人數據與其他額外信息分別存儲,并且使個人數據因技術和組織手段而無法指向一個可識別和已識別的自然人。”并在序言第26條中指出,本條例的數據保護原則不適用于匿名信息。也就是說,那些沒有關聯到一個已識別或可識別自然人的信息,或者通過技術方法使得個人數據呈現出匿名性的數據主體不能也不再是可識別的。但在對“可識別”的解釋中將之界定為雖然經過假名化處理卻在使用額外信息后仍然能夠關聯到特定的數據主體。
另一方面,GDPR亦為個人數據匿名化設定了“合理可能”的規制標準。既強調考慮識別時間和成本、處理時現有技術與技術發展等客觀要素,卻又在確定自然人是否可識別時,要求數據控制者或第三方應當“窮舉”直接或間接識別自然人的一切“合理可能”的手段。即“可識別”是“數據控制者或任何其他人”等識別主體采用“所有合理可能使用之方法”以“直接或間接地識別該自然人”。
然而,這一旨在通過復合技術使得個人數據在不能被識別的基礎上充分發揮合理利用價值的匿名化規則難以實現。個人數據固有的動態特征和識別技術的持續提升使得匿名化數據不可避免地存在被再識別的剩余風險。雖然GDPR也提及了刪除明顯標識符并替換為代碼的數據假名化是不使用額外信息就無法關聯到特定數據主體的去識別化方式,卻并未在嚴格監管的前提下給予一定的同意豁免,不利于數據價值的充分實現,抑制了數據市場的活力。
3.1.2? ?美國
1996年,美國出臺的以個人隱私為中心的《健康保險便攜性與責任法案 》(HIPAA)探討了個人信息匿名化的實現路徑。2012年,時任美國總統的奧巴馬簽發了《隱私權法案》(Privacy Act),強調個人數據收集、使用和披露的場景應當與消費者提供數據的場景相一致,進一步細化匿名化的具體要求。
2018年的《加州消費者隱私法案》(CCPA)在權衡數據價值利用與個人數據保護的基礎上,認為數據單獨或與其他數據相結合無法識別到特定自然人的絕對匿名狀態不僅難以實現且可能會大幅降低數據價值,進而搭建了去標識的相對匿名狀態下免除個人數據處理者知情同意義務,但不減輕侵權損害賠償責任的治理模式。對于個人數據去識別化的要求集中體現在控制者必須采取合理措施刪除或更改能夠識別特定自然人的直接標識符。控制者不僅應當公開承諾不會重新識別數據,在與第三方數據接收者或使用者簽訂的合同中也應當禁止二次識別[17]。
3.1.3? ?日本
日本的《個人信息保護法(修訂)》(APPI)規定,任何包含“個人信息識別符號”的數據都屬于個人信息。并將之歸納為,“屬于下列各項規定的情形之一的、由法令規定的文字、號碼、記號及其他符號:(1)為了將特定個人身體的某一部分特征用于電子計算機而將其變換為文字、號碼、記號及其他符號,并且能夠識別該特定個人;(2)利用提供給個人的服務或購買出售給個人的商品時被分配或發行的用戶號及其他材料中記載的或者以電磁方式記錄的文字、號碼、記號及其他符號,能夠識別特定購買者或使用者等等。”既包括臉型、步態、聲紋、掌紋等生理信息, 也包括護照號、保險號、身份證號等社會信息。
這一治理模式同時對個人信息去識別化的匿名化分支和去標識化分支做出了規定,既肯定了徹底匿名的數據不再屬于個人信息的范疇,又對去標識化的概念、方式、影響及其權責關系做出了規定[18]。
3.2? ? 我國的治理實踐
我國有關個人信息去識別化的治理方案散見于《民法典(總則)》《網絡安全法》《電子商務法》《信息安全技術個人信息安全規范》以及《個人信息保護法(草案)》等。主要采用概括規定和部分列舉并用的“可識別說”挖掘單獨或與其他信息結合識別特定自然人的信息。如《網絡安全法》既將遵循知情同意原則作為獲得個人信息處理權的一般性合規基礎,又在第42條的條款中規定,個人信息匿名化的要件是信息必須經過技術處理、處理后的信息無法識別特定個人且不能復原[19]。《個人信息安全規范》不僅強調控制者應當采用技術手段和管理措施進行個人信息去標識化,還具體規定了分開存儲可用于恢復識別特定自然人的信息與去標識化后的信息、通過界面展示個人信息時建議采取去標識化處理措施、個人信息安全影響評估應當包括去標識化處理后的數據集重新識別出特定自然人或與其他數據集匯聚后重新識別出特定自然人的風險等等。同時,以促進數據安全與數據利用為宗旨,指出“共享、轉讓經去標識化處理的個人信息,且確保數據接收者無法重新識別或者關聯個人信息主體的”不再需要“向個人信息主體告知共享、轉讓個人信息的目的、數據接收方的類型以及可能產生的后果,并事先征得個人信息主體的授權同意。”特別強調了“將所收集的個人信息用于學術研究或得出對自然、科學、社會、經濟等現象總體狀態的描述,屬于與收集目的具有合理關聯的范圍之內”,不再需要“再次征得個人信息主體明示同意”,但“對外提供學術研究或描述的結果時,需對結果中所包含的個人信息進行去標識化處理。”[20]
近幾年,我國數據治理部門和研究人員開始意識到難以實操且較為嚴苛的傳統匿名化處理規則導致相應社會關系長期處于不穩定狀態,嚴重阻礙數據合理開發利用。如早先的《數據安全管理辦法(征求意見稿)》第27條重申了《網絡安全法》的匿名化處理規則,將之表述為“網絡運營者向他人提供個人信息前,應當評估可能帶來的安全風險,并征得個人信息主體同意。下列情況除外:(三)經過匿名化處理”。2020年的《數據安全法(草案)》卻以“保障數據安全、促進數據開發利用”為主旨,強調個人信息控制者應當建立健全流程化的數據安全管理制度,并未具體提及個人信息的匿名化處理問題。如《個人信息安全規范》將匿名化數據處理的應用場景限定為需要刪除個人信息、注銷個人賬戶、停止產品或服務運營等,作為數據清除的同質手段。
此外,中國國家標準化委員會立足我國現狀、參考《ISO/IEC20889:增強隱私數據去識別化術語和技術分類》等頒布的《個人信息去標識化指南》中確立了防御重識風險的量化保障,初步搭建起系統性的個人信息去標識化過程范式。問題在于,這一指導性國家標準的效力層次較低、體系不夠完善、內容疏漏明顯,亟待創建科學高效的高位階去識別化治理機制。
4? ?聚焦隱私安全的治理方案
積極聚焦個人隱私安全的有效治理,反思匿名處理的實操難度與負面影響,構建在實踐中能夠切實達致個人信息保護與數據充分利用動態平衡的去識別化治理方案,不僅具有重要的現實意義,亦將進一步推高我國在全球個人信息去識別化建設中的位次并提升在國際治理模式構建中的話語權。
4.1? ? 搭建基于風險管控的去標識化框架
“去標識化”作為“個人信息去識別化”的主要分支,制定具體規則時有必要圍繞降低再識別風險的必要過程展開框架設計,明確個人信息處理者在去除直接識別符的情形下有條件豁免知情同意的前提是處理者綜合考量了個人信息類型與敏感程度、數據集流轉方式與目的、避免再識別的技術和協議保障等。
同時,信息技術迭代發展的外部環境之下,嚴格的個人信息去標識化實踐基本可以應對惡意攻擊和泄露行為,卻不能確保不會出現數據安全事件。去標識化并不意味著徹底無法復原個人信息,而是需要花費巨額物力、人力和時間精力才能確定信息內容。尋求個人信息安全與數字經濟發展之間動態平衡的關鍵在于嚴格監管擅自實施個人信息再識別的主體,甚至將之納入社會信用黑名單,使得個人信息違法侵權面臨高昂代價,強力威懾肆意還原行為,使得特定自然人能夠得到充分補償和完整救濟。
4.2? ? 完善去識別化的保障機制
首先,亟待釋明個人信息去識別化的概念與分支,區分標識符、直接標識符、準標識符、微數據、重標識等等,強調廣義的去識別化就是通過分離、刪除或變換直接標識符和準標識符,避免攻擊者依據這些屬性直接識別或結合其他信息識別出特定自然人,并根據可獲得的數據情況和應用場景選擇合適的模型和技術,確保增加新信息或信息接收方的私下通謀不會增加隱私風險,且確保去識別數據集盡量滿足預期目的。
其次,有必要細化個人信息去識別化的主要技術指標。詳細描述數據抽樣和數據聚合等統計技術,同態加密、同態秘密共享、保留加密、保留格式加密等密碼技術,屏蔽、局部抑制、記錄抑制等抑制技術,選擇屬性并創建假名等假名化技術,取整、頂層與底層編碼等泛化技術,添加噪聲、微聚集和置換等隨機技術,具體展示K-匿名模型和差分隱私模型等。
最后,應當持續監管個人信息去識別化的全生命周期。依據政策法規、業務需求和數據用途等要素確定去識別化的對象范圍、具體目的、操作人員、實施方案和進度安排,描述查表識別法(預先建立包括多屬性的個人信息元數據表格并逐項對比待識別信息)、規則判定法(通過建立自動化程序分析個人信息規律并發掘需要去識別化的標識符)和人工分析法(通過人工發現和確定需要去識別化的標識符),通過預處理、選擇模型、實施去識別化等處理各種隱私標識,評估重識風險、預期可接受風險閾值、完善驗證審批機制等。
4.3? ? 建立去標識化個人信息的具體利用范式
數據作為新型生產要素的重要價值已經得到廣泛認可,但在培育和發展數據要素市場的過程中,缺乏以促進數據利用為核心的權益歸屬模式嚴重阻礙了海量數據創造價值與參與價值分配。亟待立足國家數字經濟發展戰略,建立去標識化個人信息的具體利用范式,加快實現數據有序開放與協調共享,切實提升數據要素參與價值創造的效率并保障價值分配的公平性,實現數據有效利用和個人隱私保護的有機平衡。
4.3.1? ?構建以數據利用為核心的權屬機制
復雜的數據產權問題一直是各界焦點,在一定程度上已經成為阻滯數據資源充分利用的主要障礙。具體到去標識化的個人信息領域,經過高投入的技術加工的輸出數據集是企業的重要資產。但數據要素固有的非排他性與非競爭性特質為競爭對手提供了巨大的惡意使用的空間。集合數據剝離困難及其對結果穩健性的負面影響使得個人信息處理者急需明確去標識化的輸出數據集的權益歸屬。根據此類數據創造的過程與性質,基于不同的數據利用場景建立差異化的數據權能配置方案。
迅速建立以數據利用為核心的去標識化個人信息的權屬機制,嚴格限制使用范圍,避免重新識別風險。同時,面對時代發展為個人信息增添的公共屬性,肯定個人信息處理者對去標識化輸出數據集的基本權能,提升處理者主動分析和利用數據的動力,有利于避免大量數據資源處于休眠狀態,推進多業態創新和社會和諧的良性互動。
4.3.2? ?搭建“三全”透明的使用規則
使用規則應當是全面覆蓋去標識化個人信息使用全流程、全模式、全響應的透明體系。通過積極建設科學的共享流程,完善政企數據開放協調機制,肯定企業在公共衛生、環境保護、社會保障、征信認證等公益領域內充分使用信息的權利,建立企業運用去標識化數據集分析計算消費者選擇傾向、需求偏好、退換貨情況等改善服務場景和優化企業整體生態系統中的合理使用準則,使得各部門、各地區、各行業、各領域能夠在去標識化個人信息全生命周期的不同場景中合規開展高質量的數據處理,加快數據開放共享,提高產業創新能力。
4.3.3? ?興建去標識化數據資產有序交易的市場保護機制
去標識化個人信息有效參與價值創造與分配的前提是營建一個合理有序的數據交易市場。依據去標識化數據資產所屬行業的特點、數據資產自身特征、應用環境與商業模式等,在深入分析去標識化數據資產價值維度的基礎上,運用提取的量化指標形成不同行業的數據資產價值評估模型,建立具有一定共識基礎的交易價格標準,剛性約束相關資金、技術、物質和人才的統籌銜接與條塊結合,實現跨地區、跨部門、跨層級、跨系統的數據資源有序交換與業務協同,加快培育和發展數據要素市場。
5? ?結語
隨著第五次科技革命和產業變革深入推進,智慧時代的經濟社會發展愈加依賴數據價值的充分挖掘。亟待厘清個人信息去識別化的內涵與外延,建立聚焦數據隱私的治理方案,平衡個人正當權益與數據高效利用。同時,有必要通過鼓勵相關研發工作和創新人才評價、合理保護信息共性關鍵技術應用、加強去標識化數據利用的宣傳教育,營建整個社會正確認識、積極參與和全面監督去標識化個人信息合規、合理、充分利用的良性生態,進而支撐后疫情時代國家數字化發展戰略。
參考文獻:
[1]? Jerome S.End-to-end arguments in system design in: Integrated broadband networks[M].Boston:Artech House,1991:30.
[2]? Jack G,Timothy W.Who controls the internet:illusions of a border-less world?[M].Oxford:Oxford University Press,2006:44.
[3]? MRC location-based advertising measurement guidelines[EB/OL].[2017-03-20].http://www.mediaratingcouncil.org/MRC%20Location-Based%20Advertising%20Measurement%20Guidelines%20Final%20March%202017.pdf.
[4]? A history of census privacy protections[EB/OL].[2019-10-14].http://www.census.gov/history/pdf/history-privacy-protection102019.pdf.
[5]? Naren R,Benjamin K,Batul M.Privacy risk in recommender systems[J].Personalization and Privacy,2011(12):56.
[6]? Jules P,Omer T,Kelsey F.Shades of gray:seeing the full spectrum of practical data deidentification[J].Santa Clara Law Review,2016(3):596.
[7]? Recital 26:not applicable to anonymous data[EB/OL].[2016-04-27].https://gdpr-info.eu/recitals/no-26/.
[8]? Bill No.373 of 2019.The personal data protection bill,2019.[EB/OL].[2019-06-12].http://164.100.47.4/Bills Texts/LSBillTexts/Asintroduced/373_2019_LS_Eng.pdf.
[9]? 中華人民共和國個人信息保護法(草案)[EB/OL].[2020-10-22].https://www.sohu.com/a/426584424_780954.
[10]? William B,Dorothy D.Security capabilities,privacy & integrity[M].Computers,Freedom & Privacy,1991:65.
[11]? Daniel B.The“re-identification” of governor william welds medical Information:A critical re-examination of health data identification risks and privacy protections,then and now[EB/OL].[2012-06-18].https://fpf.org/wp-content/uploads/The-Re-identification-of-Governor-Welds-Medical-Information-Daniel-Barth-Jones.pdf.
[12]? Paul O.Broken promises of privacy:responding to the surprising failure of anonymization[J].UCLA Law Review,2010(4):57.
[13]? Bruce S.Why“anonymous”data sometimes isnt[EB/OL].[2007-12-13].https://www.schneier.com/essays/archives/2007/12/why_anonymous_data_s.html.
[14]? Luc R,Julien H,Yves M.Estimating the success of re-identification in incomplete datasets using generative models[J].Nature Communication,2019(10):3069.
[15]? Researchers use big data and AI to remove legal confidentiality[EB/OL].[2020-10-29].https://www.forbes.com/sites/forbes-personal-shopper/2020/10/29/best-black-friday-tv-deals-2020/?sh=223f5dd77a0b.
[16]? Self-regulatory principles for online behavioral advertising and multi-site data[EB/OL].[2011-11-05].https://digitaladvertisingalliance.org/sites/aboutads/files/DAA_files/Multi-Site-Data-Principles.pdf.
[17]? Protecting consumer privacy in an era of rapid change[EB/OL].[2012-03-29].https://www.ftc.gov/reports/protecting-consumer-privacy-era-rapid-change-recommendations-businesses-policymakers.
[18]? Janpan:overview of the act on the protection of personal information[EB/OL].[2019-01-15].https://www.researchgate.net/publication/331462459_Japan_Overview_of_the_Act_on_the_Protection_of_Personal_Information.
[19]? 中華人民共和國網絡安全法[EB/OL].[2016-11-07].http://www.cac.gov.cn/2016-11/07/c_1119867116.htm.
[20]? 信息安全技術個人信息安全規范[EB/OL].[2020-03-27].https://www.secrss.com/articles/17713.
作者簡介:蔣潔,女,南京信息工程大學法政學院、中關村智用人工智能研究院教授,研究方向:信息規制與數據治理;蘭舟,女,中關村智用人工智能研究院助理研究員;祁怡然,女,南京信息工程大學法政學院碩士研究生。