張 濤
在全球范圍內,數以百萬計的電腦每時每刻都有數據注入,所有計算機上存儲的數據總量約為3000EB,并正以每年28%的速度增加。我們已經進入“3V”數據時代:Volume(數據體量大)、Variety(數據類型多)和Velocity(處理速度快),即“大數據”(big data)時代[1]。有學者對大數據的特征進行了修正,增加一個“V”(Value),代表“數據的價值”,即組織可以通過新型的處理方式從大數據中獲得洞察力和決策力[2]。正如《大數據時代》所指出的:“數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。明白了這一點,那些創新型企業就能夠提取其潛在價值并獲得潛在的巨大收益”[3]。數據的這種“潛在價值”一般可以通過再利用(re-use)、重新組合等方式進行釋放。如今數據已成為“生產原材料”,具有巨大的經濟價值和社會價值。在商業領域,企業組織可以通過大數據分析各種不同的策略模式,為公司或機構創造新價值,如通過對消費者的購買記錄進行大數據分析,生成結果可以預測消費者的購買喜好,從而提高營銷的針對性和有效性。在公共領域,政府部門通過大數據分析,可以降低執法成本,提高行政效率,如通過對城市犯罪數據進行分析,可能推測出城市的犯罪熱點,提高犯罪打擊率。此外,“開放數據”(open data)運動在全球范圍內興起,使得越來越多的數據進入公共視野。對“開放數據”的最佳描述是:個人或組織可以接觸到大量的公共數據,用于確立新的投資,尋找新的合作伙伴,發現新的發展趨勢,作出基于數據處理的決策,并能解決復雜的問題[4]。“開放數據”不同于大數據,“開放數據”的宗旨是提供免費、公開、透明的數據信息,并能適用于我們需要的任何領域,它不僅可以監督政府的政策執行,促進政府運作透明化,而且還能創造巨大的商業機會。但是,“開放數據”與大數據又有所重疊,共性之一就在于挖掘個人數據(personal data)①的潛在價值。
由于個人是數據的重要“生產者”,個人數據又是數據的重要組成部分。因此,在數據挖掘或“開放數據”過程中,便產生了侵犯個人隱私的風險及隱憂。有鑒于此,如何在個人隱私保護與數據合理利用之間保持平衡,便成為個人數據保護的重要課題。目前在各國個人數據保護法制中主要將“匿名化”(anonymisation)或“去識別化”(de-identification)作為政策工具。一般而言,“匿名化”是指利用一定的技術,通過特定程序進行加工處理,使個人數據不再具有直接或間接識別性②。經過“匿名化”的個人數據稱為“匿名數據”(anonymised data),對任何人而言,均無法采取任何合理可能的方法識別特定個人,也即意味著個人數據經過匿名化處理后,毫無保留連結的可能性[5]。在歐盟個人數據保護法制中,1995年《數據保護指令》(Data Protection Directive,DPD)對個人數據匿名化進行了原則性規定;2014年《第05/2014 號意見:匿名化技術》 (Opinion 05/2014 on Anonymisation Techniques)細化了技術標準;2016年《一般數據保護條例》(General Data Protection Regulation,GDPR)進一步加強了對個人數據匿名化的立法規定。我國《網絡安全法》第42 條第1 款規定:“……未經被收集者同意,不得向他人提供個人信息。但是,經過處理無法識別特定個人且不能復原的除外。”這里的“無法識別特定個人且不能復原”可以看成是我國關于個人信息去識別化的法律依據[6]。然而,何為“無法識別”?何為“特定個人”?應該遵循何種判斷標準?我國相關法律法規并未針對前述問題提出解決方案,在司法實踐中,法院也尚未形成完整及確定的裁判標準。因此,我國個人信息去識別化(匿名化)議題仍有很大的討論空間。
據此,本文利用比較分析、實證分析方法,通過對歐盟個人數據匿名化治理經驗進行研究,為我國個人信息去識別化提供參考借鑒。本文主要研究以下問題:(1)歐盟個人數據匿名化在立法上是如何體現的?(2)歐盟個人數據匿名化主要采用了哪些技術,效果如何?(3)歐盟個人數據匿名化可能存在的風險是什么?(4)歐盟個人數據匿名化能為我國提供何種經驗?
“個人數據匿名化”有兩個關鍵詞:一是“個人數據”,二是“匿名化”,前者是后者的前提條件。如果某一數據(信息)不屬于個人數據的范圍,相關的行為就與個人數據保護法制沒有關系,就更談不上承擔個人數據保護的責任。因此,本部分在對歐盟個人數據匿名化的立法內容進行闡述時,附帶對歐盟有關“個人數據”內涵的立法內容進行解讀。
1995年10月,歐洲議會及歐盟理事會(European Parliament and Council)制定了《數據保護指令》,并對“個人數據”和“個人數據匿名化”進行了明確規定,詳見表1。

表1 《數據保護指令》對個人數據匿名化的規定
從《數據保護指令》對“個人數據”的界定來看,“任何信息”“被識別或可識別”“直接或間接”的表述,足以反映立法者有廣泛解釋的意圖。這可能是因為立法者認為,不宜對個人數據概念的解釋作出不當限制,為避免存在灰色地帶或漏洞,而盡可能地將與一個人有關的信息都包括在個人數據的概念內,以確保個人及其權利和自由得到實質性的尊重。歐盟委員會在原始提案建議中解釋:“與《第108號公約》一樣,采用寬泛的定義,以涵蓋可能與個人有關的所有信息。”[7]在修改后的提案建議中,歐盟委員會指出,經修訂的建議符合議會的愿望,即“個人數據”的定義應盡可能一般化,以便包括有關可識別個人的所有信息[8]。
盡管立法者在個人數據的概念中保持了相當程度的廣泛性,但也通過數據處理方法等規定作出了限制,以便可以在數據主體、數據控制者及可能存在的公共利益之間取得適當的平衡。“個人數據匿名化”正是為了在“保護個人基本權利及自由”與“促進數據自由流動”之間保持平衡,正如《數據保護指令》所規定的“保護原則不應適用于以數據主體不再可識別的方式呈現的匿名數據”。如前文所述,個人數據的核心是“識別性”,那么匿名化的核心便是“去識別”。從《數據保護指令》對“個人數據匿名化”的規定來看,其強調在對個人數據進行匿名化處理時,必須充分去掉其中的所有重要元素,以使數據主體無法再識別。
筆者認為,《數據保護指令》前言第26條實際上是“風險預防原則”(precautionary principle)在個人數據保護中的體現,將“再識別風險”作為判斷匿名化有效性的關鍵標準。為了確定個人數據是否(合法地)呈現為匿名,需要對數據控制者或任何第三方“使用所有合理可能的手段”(all the means likely reasonably to be used)進行評估或預測。盡管當且僅當“數據主體不再可識別”(data subject is no longer identifiable)時,個人數據才呈現為匿名(data is rendered anonymous),但由于匿名化過程的“可逆性”(reversibility)風險,這意味著該等數據不能永遠處于個人數據保護法律的范圍之外。
盡管《數據保護指令》早在1995年就對“個人數據匿名化”進行了規定,但歐盟未出臺細則予以指導。直到2014年,歐盟“第29條工作小組”(Article 29 Working Party,Art.29 WP③)發布了《第05/2014號意見:匿名化技術》,對個人數據匿名化進行了全方位解讀。
在《第05/2014 號意見:匿名化技術》中,歐盟“第29條工作小組”綜合了“匿名化”的法律性與技術性。歐盟“第29條工作小組”概述了該領域的最新技術,并側重于當前用于追求匿名化目標的技術。在實踐中,匿名化技術主要包括數據隨機化(Randomization)和數據概括化(Generalisation)兩大類,具體又分為“噪音添加”(Noise addition)、“屬性交換”(Permutation)、“差分隱私”(Differential privacy)等技術。《第05/2014 號意見:匿名化技術》詳細分析了前述技術的原理、優缺點以及使用技術時的常見錯誤和失效情況。歐盟“第29條工作小組”還針對“再識別風險”提出了使用這些技術的建議,這有助于數據控制者設計匿名化過程。此外,歐盟“第29 條工作小組”還對“假名化”(pseudonymisation)與“匿名化”進行了區分,在實踐中很多數據控制者都錯誤地理解和使用了“假名化”。雖然假名化處理降低了數據集與數據主體原始身份的關聯性,但它只是一種較為初級的安全措施,并非匿名化的方法,假名化數據仍然受到數據保護原則的約束。
歐盟“第29條工作小組”還詳細解析了匿名化的4個基本特征:(1)數據匿名化的目的在于防止識別數據主體的具體身份,且這種處理結果必須是“不可逆轉的”(irreversible)。(2)考慮到匿名化技術的不斷發展,不同的匿名化技術具有不同的適用情形,因而立法者并未在歐盟法律中制定統一的匿名化標準。(3)在數據匿名化過程中,必須重視情境因素(contextual elements),必須考慮數據控制者和任何第三方用于識別數據主體身份的“一切”“可能”“合理”之手段,尤其應該考慮在尖端科技中,哪些能成為“可能”“合理”的方法。(4)數據匿名化過程存在固有風險:在評估任何匿名化技術之有效性時,都必須考慮其中的風險因素,包括經某種技術“匿名化”的數據之可能用途,必須評估所致風險的可能性及其嚴重性[9]。
《一般數據保護條例》之目的在于確保對數據主體進行一致且高度的保護,并且排除數據在歐盟境內的流通障礙,全體成員國須一體適用。因此,有關個人數據保護的諸多議題都被納入到一個強力保護框架之內,個人數據匿名化也不例外,詳見表2。

表2 《一般數據保護條例》對個人數據匿名化的規定
在《一般數據保護條例》中,“個人數據”的定義基本上與《數據保護指令》相同,均指“有關被識別或可識別自然人之任何信息”。相比較于《數據保護指令》,《一般數據保護條例》只是在定義“可識別”的數據時,結合網絡通信科技的發展,有略微詳細的說明,如新增“姓名”“身份證號碼”“位置數據”“網絡識別碼”“基因”等。在司法實踐中,歐盟法院也通過一些典型判例對個人數據的內涵進行確定,試圖通過判例建構一套個人數據的識別標準,這些都為個人數據匿名化奠定了堅實的基礎。
就個人數據匿名化而言,《一般數據保護條例》秉承了《數據保護指令》的立法模式,亦即強調個人數據匿名化的結果,并且將匿名數據排除在個人數據之外。此外,《一般數據保護條例》還吸收了《第05/2014號意見:匿名化技術》的經驗,在第4(5)條中將“假名化”予以明確,把“假名化”從“匿名化”中剔除,這實際上是縮小了“匿名化”的范圍。從這個意義上看,《一般數據保護條例》為個人數據匿名化設定了一個更為嚴格的法律標準,可以稱為“合理可能”(reasonably likely)標準,這個標準具體包括三個部分:一是主體標準,即“數據控制者或任何其他人”;二是識別手段標準,即“所有合理可能使用之方法”;三是識別方式標準,即“直接或間接地識別該自然人”。
此外,由于《一般數據保護條例》在使用“個人數據”這一概念時,本身就融入了一種動態理念,即“個人數據”的內涵是處于動態發展中的。因此,個人數據匿名化也天然的具有易變性。換言之,匿名數據與個人數據之間的界限并非涇渭分明,隨著情境因素的變化,二者可能出現轉換。正如《一般數據保護條例》中所規定的:“為確認何為可合理使用作為識別自然人之方法,應考慮所有客觀因素,諸如識別所需之成本與時間,并考慮到處理數據當時現有之技術及科技發展。”
個人數據匿名化并非單純的法規遵循議題,尚涉及網絡科技、信息管理等跨領域或學科的有效整合。從歐盟個人數據匿名化的立法內容來看,其最大的特點在于“技術設計”法制化,明文規定成員國應推動“通過設計保護隱私”(Privacy by Design)的重要理念,以使個人數據保護法制,不僅是企業違法后的處罰依據,借由“技術設計”入法,使相關數據控制者預先評估行為可能產生的風險,并使得隱私保護概念,自設計之初,便融入產品或服務的生產過程中,達到保護數據主體權益的目標[10]。個人數據匿名化是“技術設計”入法的重要體現,在歐盟法語境中,常見的個人數據匿名化技術主要包括以下兩大類:一類是數據隨機化;另一類是數據概括化。本部分主要對歐盟一些主要的個人數據匿名化技術進行概述,并舉出相關例子予以說明。
“數據隨機化”是修改數據真實性的技術,用于清除數據與個人之間的緊密聯系,當數據不確定時,自然就不足以辨識特定個人。“數據隨機化”本身不會降低每一項記錄的單一性(singularity),因為各項記錄本身就源自其獨有的數據主體,這項技術能抵御攻擊或阻擋風險,更能夠與其他技術一起使用,提供更強的隱私保護。常見的“數據隨機化”技術包括以下幾類:(1)“噪音添加”(Noise addition)。如果數據集內包含的修改屬性(modifying attributes)本身不一定準確,而且也保留了整體分布(overall distribution),屬性也同時對個人產生嚴重的影響,那么就可以考慮噪音添加技術。(2)“屬性交換”(Permutation)。這種技術首先打亂表格里面的屬性數值,利用人為的方式使部分數值關聯到不同的數據主體,但能夠保留數據集中各個屬性的準確分布(exact distribution)。(3)“差分隱私”(Differentialprivacy)。這種技術的好處是,當針對特定查詢時,獲得授權的第三方只會因此而取得數據集,而非將某一數據集公開。查詢本身也可以被匿名化技術處理,包括噪音添加或替換,強化隱私保護[9]。本文主要以“屬性交換”為例進行說明。
“屬性交換”也稱為“屬性排列”(shuffling)或“屬性置換”(swapping),這種數據匿名化技術之目的主要是重新排列數據集中的數據,使各個屬性值仍然在數據集中得以保留,但通常與原始記錄不對應。換言之,“屬性交換”將確保數值的范圍和分布保持不變,但數值與數據主體之間的關系將會改變。當后續分析只需要查看聚合數據,或者分析只是停留在內部屬性層級(intraattribute level)時,可以考慮使用“屬性交換”。在進行“屬性交換”時,一般包括如下步驟:首先,確定要交換的屬性。其次,將每一個屬性值交換或重新分配給數據集中的任何記錄。表3大致展示了“屬性交換”前后的實例數據。

表3 “屬性交換”前后的數據
“數據概括化”是一種重要的數據匿名化技術,它主要是通過概括化(generalizing)或模糊化(diluting)數據主體的屬性,修改數據的規模或強度排序(order of magnitude)[9]。當數據屬性能夠被概括,并且這些數據屬性對于預期目的仍然具有價值時,可以考慮使用數據概括化技術。在使用“數據概括化”時,要注意設計適當大小的數據范圍。新加坡個人數據保護委員會(Personal Data Protection Commission,PDPC )在《基本數據匿名技術指南》(Guide to Basic Data Anonymisation Techniques)中也指出,過大的數據范圍意味著數據可能會被修改很多,而過小的數據范圍可能意味著數據很難被修改,因此數據主體也很容易被再識別[11]。常見的“數據概括化”技術主要包括以下幾類:(1)“數據聚合”(Aggregation)。這種技術是從一個或多個屬性派生或合成一個或多個新的屬性,這些新的屬性能夠最大限度阻隔與數據主體之間的關聯,同時也能更好地用于實現數據分析的目標。(2)“K-匿名”(K-anonymity)。這種技術主要是防止數據主體從群體中被挑出,因而將數據主體與至少k個他人列為一組。(3)“L-多樣性”(L-diversity)。這種技術改良了“K-匿名”技術,確保各個等價類(equivalent class)中的每一個屬性均具有至少l個不同的數值,阻斷決定性推斷攻擊(deterministic inference attacks)[9]。本文主要以“K-匿名”為例進行舉例說明。
“K-匿名”的核心是故意降低數據的精確度,其目的是防止數據主體從群體中被“單獨分離”,因此,在數據集中至少有k個他人與數據主體同為一組。為了實現“匿名化”目的,數據屬性的具體數值將被概括化,例如將一個人的具體年齡轉換為年齡范圍,或者將精確的位置轉換為不太精確的位置。表4大致展示了“K-匿名”前后的實例數據。

表4 “K-匿名”前后的數據
盡管歐盟在《一般數據保護條例》中并未對個人數據匿名化設立統一技術標準,但一般認為,要維持匿名化技術的穩健性(robustness),須滿足3項要求:(1)是否仍可能識別數據主體;(2)是否仍可能與其他個人數據相連結;(3)是否仍可能推論出與特定人相關。由此可知,歐盟規定的“匿名數據”必須達到“完全無從再識別數據主體”的程度,如果僅僅是減少數據主體“再識別風險”,但仍有再識別的可能性,即不符合“匿名化”的要件。有學者據此認為歐盟將匿名化的可接受“再識別風險”定位為“零風險”,這在一定程度上給數據控制者造成了困擾[5]。因為任何匿名化技術都存在一定的剩余風險,正如一些研究者所指出的,匿名化技術作為一種新型技術,目前仍然處于起步階段,還存在許多問題,主要表現在兩個方面:一是對輔助知識的隱私侵犯;二是匿名化過程中大量信息損失[12]。比照前面3項技術標準,歐盟“第29條工作小組”對主要匿名化技術的有效性進行了評估,見表5[9]。
由表5可知,目前并沒有任何匿名化技術能夠達到完全無風險的匿名化,部分匿名化技術有其固有限制。因此,數據控制者在計劃使用某種匿名化技術之前,必須仔細考量匿名化處理的各個細節,包括通過匿名化想要實現的目的、公布數據集時能否保護個人隱私,以及“攻擊者”能否從公開的數據集中獲取特定信息。為了能夠最大限度地降低“再識別風險”,歐盟“第29條工作小組”認為良好的匿名化方案(good anoymisation practices)應該包括以下基本要素[9]:

表5 主要匿名化技術的有效性評估
第一,整體要素(in general)。在整體上不能依賴“釋放”(release)以及“遺忘”(forget)。面對身份識別的“剩余風險”(residual risk),數據控制者應該注意以下幾點:(1)定期評估是否存在新的風險,再鑒別各種剩余風險;(2)對于已經確定的風險,評估已采取的措施是否充分,并進行相應地調整;(3)監測和控制風險。
第二,背景要素(contextual elements)。數據控制者在識別風險上扮演了重要的角色,因此,應該清楚地說明匿名化所欲達到的目的,并且考量所有的相關背景元素。例如,原始數據的性質、現行的監管機制(包括限制查閱數據集的保護措施)、樣本大小(量化特征)、可用公共信息的來源(取決于數據接收方)、接收數據的可能第三方等。此外,還需要同時考慮可能出現的攻擊者,并建立相應的申訴機制。
第三,技術要素(technical elements)。在對個人數據進行匿名化處理時,數據控制者應公布單獨或混合使用的匿名化技術,并從數據集中清除明顯的個人特征或準標識符(quasi-identifiers)。例如,選擇數據概括化處理時,即使是同樣的數據屬性,也不應受限于某一項數據概括化標準,換言之,應選擇不同的位置細度(location granularities)或時間間隔(time intervals)。
個人數據匿名化的主要目的在于平衡個人隱私保護與數據合理使用。早在20世紀70年代,隱私研究者就認識到“匿名化”需要謹慎對待。盡管“匿名化”的算法種類越來越多,技術也日趨復雜,但與此同時,各類“去匿名化”技術也迅速發展,對匿名化技術展開了強烈攻勢。實踐經驗也表明匿名數據通常容易受到“去匿名化攻擊”(de-anonymisation attacks)。匿名化作為一種概念和實踐的價值不斷受到質疑,最具代表性的是美國學者保羅·歐姆(Paul Ohm)提出的“打破隱私承諾”(broken promises of privacy)[13]。本部分對個人數據匿名化的主要風險——“簡約化處理”進行闡述,這是實踐中匿名化“失敗”的主要原因,也是“反匿名化”(anti-anonymisation)觀點的主要批判目標。
如前文所述,歐盟從《數據保護指令》到《第05/2014號意見:匿名化技術》再到《一般數據保護條例》,逐步為個人數據匿名化建構了一個非常嚴格的“合理可能”標準,即在檢查個人數據是否匿名時必須考慮數據控制者和任何第三方用于識別數據主體身份的“一切”“合理”“可能”之手段。然而,立法政策在轉化為實踐時,難免會產生“漏斗效應”,對于個人數據匿名化而言,最直接的體現就是“簡約化處理”或“簡約化解讀”。“簡約化處理”的觀點認為個人數據匿名化的基本原理,就是數據控制者設計一種“算法”(algorithm),并將之應用于個人數據,便能完全確保個人數據是匿名的,并且不存在再識別的可能性[14]。換言之,就是將用于進一步處理(如數據挖掘)的個人數據轉換為“匿名信息”(anonymous information)。
關于“簡約化處理”出現的原因,筆者認為,在某種程度上是由于立法者與數據控制者對于匿名化的價值追求不一致所導致的。一般認為,個人數據匿名化的目的有兩個:一是保護數據的保密性和個人隱私;二是發揮數據的效用。對于立法者而言,個人隱私背后是人性尊嚴的維護,而數據效用更多體現為一種經濟價值。因此,從利益衡量的角度看,個人隱私保護應該高于數據效用,當然能夠維持個人隱私保護與數據有效利用的平衡是最好的。而對于數據控制者而言,其所看重的往往是數據的效用。分析數據集(特別是使用自動算法軟件)所能獲得的價值或知識是通過查找模式(基本上是鏈接數據點之間的關系)來最大化的。相比之下,匿名化旨在將這種數據點關系斷開,因為在這些數據點關系中,它們與可以針對特定人員及其身份收集的信息相關,這就使得數據控制者面臨一個困境:如何確保對其所擁有的個人數據進行有效匿名化,同時又保留該等數據的效用,以便將來向可能的第三方披露,并由第三方進一步處理[15]?在這種情況下,“簡約化處理”便為數據控制者提供了一種“暫時性”策略,在形式上能夠達到已經“匿名化”的效果,同時又保留數據的效用。
“簡約化處理”在實踐中主要體現為兩種“版本”(version)或“變體”(variant):第一種版本稱為“直接移除標識符”,即只要刪除可能識別數據主體的敏感信息(sensitive information)就足夠了,如姓名、出生日期、身份證號碼、家庭住址、工作地點等。對于“直接移除標識符”,一般認為,在這種模式下數據主體再識別的風險最大。第二種版本稱為“假名化”,即利用無法追溯到數據主體的“假名”(如一個隨機生成的數字)替換具體的姓名,數據主體的不同信息可以鏈接到同一個“假名”,但是無法確定具體身份。如前文所述,對于“假名化”,歐盟《一般數據保護條例》將其與“匿名化”進行了區分,并于第4(5)條規定,“假名化”是指處理個人數據的方式,使該個人數據在不使用額外信息時,不再能夠識別出特定的數據主體,且該額外數據已被分開存放,并以技術及組織措施確保該個人數據無法或無可識別出主數據主體。
從實踐來看,由于匿名化技術的固有限制,再加上個案的特殊性在某種程度上會擴大這種固有限制。因此,即使是符合“合理可能”標準的匿名數據仍有“再識別風險”。“簡約化處理”不僅成為了數據控制者的匿名化理念,而且成為了匿名化實踐。由于“簡約化處理”與“合理可能”標準之間在本質上存在很大的差距,因此,在實踐中引發了許多問題,主要體現在兩個方面:第一,“簡約化處理”在客觀上加劇了“再識別風險”。換言之,有些在形式上體現為匿名的數據實際上并沒有被匿名,這就為“去匿名化攻擊”提供了“便利”。美國學者拉坦婭·斯威尼(Latanya Sweeney)教授以1990年美國人口普查總數據進行實驗。研究發現,有87%(2.48億人口中的2.16億)的美國人可以通過綜合“郵編”“性別”“出生日期”這三個特征而被識別出來;有大約50%(2.48億人口中的1.32億)的美國人可以通過綜合“地址”“性別”“出生日期”這三個特征被識別出來。拉坦婭·斯威尼教授最后得出結論,在一般情況下,只需要少數人口特征便能唯一地識別一個人[16]。第二,“簡約化處理”弱化了數據控制者的責任。在“簡約化處理”的實踐中,個人數據處理的手段和目的往往是由數據控制者決定,其具有很大的自由裁量性。為了能夠配合與支持當前的“大數據浪潮”,匿名數據不在歐盟數據保護法制范圍之內,甚至世界上許多司法管轄區都將匿名數據排除在個人數據法律或隱私法律的范圍之外。因此,匿名數據可以在不受個人數據保護法或隱私法約束的情況下共享,這使得匿名數據的傳播模式變成了“釋放后遺忘”,這意味著數據控制者不會去關注匿名數據“釋放”后發生的情況。在這種背景下,數據控制者就通過“匿名”而回避了應該承擔的諸多法律責任。美國學者保羅·歐姆認為個人數據匿名化已經失敗了,假設攻擊者很難破解匿名數據以及數據控制者能夠完美的實施匿名化,這是非常天真的想法。對于個人隱私保護而言,個人數據匿名化是一張“空頭支票”,它不應該成為一種規制目標(regulatory objective)[13]。
事實上,針對匿名化的“簡約化處理”,歐盟個人數據保護法律已經給出了回應。如前文所述,雖然《數據保護指令》只對“個人數據匿名化”進行了原則性規定,但也基本確立了“合理可能”標準。此外,《第05/2014 號意見:匿名化技術》從技術層面對個人數據匿名化技術進行了詳細闡述,并給出了針對性的建議。《一般數據保護條例》更是在“合理可能”標準之外增加了“假名化”規定,縮小了“匿名數據”的范圍。更為重要的是,盡管匿名數據不在歐盟數據保護法律的范圍之內,但是匿名化過程必須具備合法性。這里“合法性”主要體現在以下兩個方面:第一,數據本身的收集和處理都必須符合適用的法律規定,且符合法律對于數據以可識別格式儲存的規定。第二,“匿名化流程”,即經過匿名化處理將數據變成匿名數據,屬于“后續處理”的一種。因此,該處理需要通過“相容性測試”(test of compatibility),并且必須符合“目的限制”(purpose limitation)原則的要求。
對“匿名化”與“反匿名化”之間的爭論,艾拉·魯賓斯坦(Ira S.Rubinstein)和伍德羅·哈茨佐格(Woodrow Hartzog)認為,圍繞匿名化失敗的辯論,印證了“隱私政策第一定律”(first law of privacy policy):沒有靈丹妙藥。我們不能指望技術專家或政策制定者單獨給我們提供保護,我們需要一種整體性意識。我們應該把“再識別”看作是一個數據發布問題,健全的數據發布政策需要在多個方面保持謹慎的平衡:法律和技術、數據處理和數據控制、隱私和效用。兩位學者進一步指出“基于過程的”(processbased)數據發布政策是因應個人數據匿名化失敗的最佳方式,它是由平衡隱私保護和數據效用的策略驅動的,它具有整體性和綜合性。最為重要的是,以“流程”為核心的數據發布政策具有很大的靈活性,它可以與相關的科學和實踐經驗一起發展[17]。筆者認為,前述學者的觀點在一定程度上揭示了個人數據匿名化治理機制的核心,匿名化并非是“制度孤島”,它需要與個人數據保護法制中的諸多規則(透明性、目的限制、告知同意等)相結合。此外,實施個人數據“匿名化”這一行為本身必須遵循一定的正當程序。
“基于過程的”的數據發布政策所體現的“整體性”思維給反思歐盟匿名化治理機制提供了啟發。“合理可能”的匿名化標準本身沒有任何問題,關鍵在于如何驗證或實現這一標準。“簡約化處理”之所以在形式上是符合“合理可能”標準的,原因在于其僅通過檢查數據本身來確定是否實現匿名化。一個科學合理的驗證方式或匿名化技術不僅必須考慮到數據本身,而且還必須考慮到數據所處的環境。英國學者馬克·艾略特(Mark Elliot)等人將這種解決方案稱為“功能性匿名化”(functional anonymisation):數據是否是匿名的(是否是個人的)取決于該等數據與其環境之間的關系。按照馬克·艾略特等人的解釋,“功能性匿名化”主要包括兩個方面的要素:第一,數據環境(data environment)。數據環境通常由4個關鍵元素組成,對包含這4個元素的數據環境進行描述通常足以討論、計劃或評估原始數據集的功能性匿名化,具體包括“其他數據”“數據使用者”“治理流程”“基礎設施”。第二,匿名化決策(anonymisation decision-making)。數據控制者在考慮如何在共享或發布數據時維護數據主體的秘密必須考慮如下因素:(1)描述目前的(預期)的數據情況;(2)明白自身的法律責任;(3)知道自身所擁有的數據;(4)明白使用范例;(5)履行自身的倫理義務;(6)確定評估披露風險所需的流程;(7)確定與自身的數據情況相關的披露控制流程;(8)確定利益相關者,并計劃如何與他們溝通;(9)預測數據發布后可能發生的情況;(10)制定應急預案[18]。
盡管歐盟個人數據匿名化在理論上遭到諸多質疑,在實踐中也存在一些困境。但是從保護個人數據的角度看,筆者認為,歐盟通過立法對個人數據匿名化設定嚴格標準,并通過相關的“意見”為實踐提供指引,這種強化個人數據保護的立場是值得支持的。大數據時代,數據已經成為一種特殊的“資本”,它不會因為使用而枯竭,反而會不斷釋放潛在價值,為經濟發展、技術創新提供原動力。個人數據匿名化在某種程度上會減損個人數據的效用或價值,但其背后所追求的是有關人性尊嚴的個人隱私。大數據時代的隱私權不再是消極地避免被知悉的信息防御權,而是信息自主決定權(right to information self-determination)。如果我們為了經濟利益或技術進步而犧牲個人保護,這無疑是本末倒置,也必將得不償失。
歐盟具有尊重個人隱私權利的傳統,在很多重要的公約、法律中都凸顯了個人隱私權的重要性。科學技術的快速發展也給歐盟個人隱私保護制度帶來了很大的沖擊。歐盟立法者審時度勢,對新技術的發展進行了前瞻性思考,并形成了一套系統的個人信息保護制度,為全世界個人信息保護法制的發展提供了一個藍本。大數據時代、人工智能時代的來臨,數據的價值越來越受到世界各國政府的重視。一方面,通過大數據及數據開放,可以促使跨機關的數據流通,提升政府施政效能及透明度,滿足社會公眾需求,以強化社會監督政府的力量;另一方面,結合人工智能、云計算等技術,公共部門或私營部門可以利用數據進行無限創意,形成新的經濟增長點,更好地促進社會的進步。2015年,國務院在《促進大數據發展行動綱要》中明確指出,到2020年要逐步實現交通、醫療、衛生、就業等相關領域的政府數據集向社會開放。然而,開放數據并非簡單地將政府掌握的數據向社會公眾釋放,其必須經過一系列具體的流程,如盤點數據,對數據進行分類;檢視數據權利完整性,對法規限制進行分析;選擇數據開放范圍,等等。在開放數據、數據共享的過程中,如何避免侵害個人隱私權益成為一個重要議題。當前,我國個人信息保護制度尚處于構建之中,很多制度尚未完全建立,需要吸取域外制度經驗,實現制度的“本土化”。在我國個人信息保護法制背景下,就個人信息去識別化而言,筆者認為,歐盟個人數據匿名化治理經驗可以為我們提供以下兩個方面的借鑒。
從權力運行角度看,立法負有為執法提供依據或授權的職責,如果某一項制度在立法上缺失,那么執法就會因缺乏先關依據而帶有很大的隨意性,也就增大了侵犯公民權利的可能性。我國尚未制定《個人信息保護法》,有關個人信息保護的規定散見于各類法律法規中,如《民法總則》《網絡安全法》《電信和互聯網用戶個人信息保護規定》等。新近出臺的《十三屆全國人大常委會立法規劃》已經將《個人信息保護法》列入了“第一類項目:條件比較成熟、任期內擬提請審議的法律草案”中,這為完善我國個人信息去識別化提供了契機。
筆者認為,在《個人信息保護法》中需要對兩個方面的內容進行明確:第一,明確個人信息的法律概念及分類。“個人信息”是個人信息去識別化的基礎,如果個人信息的識別本身缺乏一個明確而統一的標準,那么有效的個人信息去識別化制度就變成了“無源之水,無本之木”。因此,需要在《個人信息保護法》中明確個人信息的概念,并在此基礎上對個人信息進行分類,如一般的個人信息、敏感信息、不法行為信息等。從歐盟的經驗來看,個人數據匿名化與個人數據都是同時在立法中予以明確,并且關聯甚大。第二,明確個人信息“去識別化”的概念、性質及法律標準。對于個人信息去識別化的概念,應該圍繞“個人信息”概念來進行。從目前我國已有的立法例以及司法實踐來看,在認定“個人信息”時主要著重強調“識別性”。因此,“去識別化”可以界定為“經過一定程序的加工處理,使個人信息不再具有直接或間接識別性”④。對于個人信息去識別化的性質,筆者認為,去識別化行為應該定性為個人信息的“處理”,因此,必須遵循有關個人信息“處理”的基本原則及限制。對于個人信息去識別化的標準,筆者認為,在立法中不必規定統一的技術標準,但是必須規定一些核心要素(不可逆、不可識別等)或法律標準,如歐盟的“合理可能”標準。最為穩妥的辦法是在《個人信息保護法》中明確“個人信息去識別化”的概念,同時授權個人信息保護專責機關制定去識別化的技術標準。目前歐盟、日本、新加坡、韓國、加拿大均采取了此種立法例。
需要指出的是,此處所指的“執法”并不僅僅是指公共部門層面,尤其是在“自我規制”(self-regulation)改革的背景下,這里的“執法”泛指所有“信息控制者”;此處所指的“治理”(governance),既涉及公共部門,也包括私人部門(private sector)。對個人信息去識別化治理而言,除了立法要提供法律依據或授權外,尚需要“執法”將這些立法政策轉化實踐,落到實處。信息控制者作為個人信息去識別化的實際實施者,其治理機制是否有效直接關系到去識別化的效果。
如前文所述,筆者認為,個人信息去識別化本身就是“風險預防原則”的一種體現。因此,信息控制者需要將“風險管理”(risk management)融入到個人信息去識別化的治理機制中,建構“基于風險的”(risk-based)去識別化治理機制,具體應該注意以下幾點:第一,個人信息關系到個人隱私,甚至是人性尊嚴,因此,無論是收集、使用或披露個人信息時,都應該尊重個人的基本權利。第二,不論因個人信息處理而產生的風險程度高或低,都應該尊重個人信息保護法賦予信息主體的權利。第三,應該建立風險評估機制。風險評估機制應該具備整體性,主要包括以下兩類:(1)事前風險預防機制。在個人信息去識別化開始之前,應該對個人信息進行整體性風險影響評估,綜合考量個人信息類型、敏感程度、對外提供信息的方式、引發他人再識別的意圖等因素,并根據風險評估的結果計算設定風險閥值,進而判斷去識別化的技術類型或程度。(2)事后風險評估機制。對于個人信息去識別化之后或去識別化個人信息發布以后,應該定期對個人信息進行風險評估。一方面,檢測已有的風險預防措施是否仍然適當或有效;另一方面,檢測是否出現新的風險。
大數據時代,既可能是“最好”的時代,也可能是“最壞”的時代。一方面,個人信息的潛在價值被不斷釋放;另一方面,個人隱私權也受到前所未有的挑戰。新技術收集更多有關我們日常生活習慣和愿望這些看似無傷大雅的數據,信息處理技術的進步使政府、企業和犯罪分子更容易分析和解釋這些數據,從而繪制我們的個人特征[19]。在數據開放、數據共享成為必然趨勢的情況下,個人信息去識別化是維持個人隱私權益、企業經濟利益與社會公共利益之間平衡的重要手段。
歐盟對個人數據匿名化治理已經積累了多年的立法經驗,值得我國參考。歐盟通過正式的“法律”明確了個人數據匿名化的法律標準,同時又通過非正式的“意見”細化了個人數據匿名化的技術標準,為個人數據匿名化的實踐提供全方位指導。與此同時,我們也應該認識到,個人數據匿名化在歐盟實踐中也面臨“簡約化處理”的困境,難以最大限度發揮作用,導致某種程度上的“制度空轉”。
我國應該審慎對待歐盟的經驗,要注重制度“本土化”的基礎及效果。在立法層面,我國應當盡快制定《個人信息保護法》,明確個人信息的內涵及去識別化的法律標準,同時還應該制定與個人信息去識別化有關的細則,設定去識別化的技術標準。在“執法”層面,個人信息控制者應該建立“基于風險的”去識別化治理機制,加強對去識別化各個階段中風險的識別、預防及處理。
注釋
①“personal data”是歐盟法中通用的法律術語,國內一般將其譯為“個人數據”,其規范內涵大致與我國法律語境中的“個人信息”對應。為了保持歐盟法律制度本身之獨特性,本文統一采用“個人數據”這一用語。
③歐盟“第29條工作小組”是根據《數據保護指令》第29條之規定,于1995年成立的咨詢機構,它是由各歐盟成員國的數據保護機構、歐盟數據保護監督員、歐盟委員會的代表組成的。2018年5月25日,《一般數據保護條例》正式實施以后,“第29條工作小組”已被“歐洲數據保護委員會”(European Data Protection Board,EDPB)所取代。
④我國臺灣地區的“法律事務主管部門”在關于“去識別化”的函釋見解中將“非個人資料”解釋為:“如公務機關將保有的個人數據運用技術去識別化而呈現方式已無從直接或間接識別特定個人,即非屬個人資料。”