崔淑潔
(西安交通大學 法學院,陜西 西安 710049)
依托大數據技術、云計算、物聯網的迅猛發展,人類社會步入大數據時代。數據作為新型資源備受關注,數據應用日漸深入。我國作為數據大國,數據產業增長態勢迅猛,數字經濟規模巨大。2015年,《促進大數據發展行動綱要》首次將大數據提升到戰略發展高度,數據治理成為新型治理模式,在國家治理中意義重大。隨后,《“十三五”國家信息化規劃》提出了建設“數字中國”,將充分釋放數據紅利及構建統一開放的數字市場體系作為重要的發展目標。2020年4月,《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》將數據認定為生產要素,要求加快培育數據要素市場。當前,《數據安全法》已正式出臺,其順應國家發展戰略和時代發展需求,提出了數據安全與數據利用并重的目標。
數據挖掘是數據利用和數據價值開發的關鍵環節,具有技術中立性和工具中立性。然而,隨著數據量的激增和技術應用的推進,數據挖掘不再僅作為技術術語出現,其所帶來的社會法律問題不容忽視,技術與法律能否實現良好的對接備受質疑。在此情形下,論證數據挖掘這一技術手段的正當性是技術能否合理應用的關鍵,也是對技術進行法律規制的前提?,F有法律機制缺乏對數據挖掘技術的全面回應,本文試圖分析數據挖掘技術的正當性,進而提出這一技術難題的法律規制路徑,旨在實現技術與法律制度的良性互動,推進我國大數據發展戰略的實施。
現階段,數據挖掘作為數據價值發現的重要技術存在法律規制的空白。明確數據挖掘的概念及內涵、關注數據挖掘的現實應用、實現數據挖掘技術術語與法律語意的統一是數據挖掘正當性論述的邏輯起點,也是探討數據挖掘法律問題的前提[1]309。
數據挖掘(data mining)是指從大量、不完全、模糊的數據中提取隱含、未知及潛在有用信息和知識的數據處理技術[2]。2005年,美國政府問責局(U.S. Government Accountability Office)將其定義為應用數據庫技術和統計分析、建模等算法技術發現數據中的隱藏關系,并能夠預測未來結果的數據開發應用模式[3]。其綜合運用數據庫技術、統計學、人工智能、可視化等學科的技術和方法,通過挖掘算法對數據進行深層挖掘分析,實現了數據到知識的轉換。具體而言,數據挖掘可分為基于數據主題(subjective)的描述分析和基于數據模式(mode)的預測分析?;谥黝}的描述分析又被稱為連接分析,包括概念描述、關聯分析、分類、聚類等,用于描述對象內涵和特征,發現數據聯系和規律;基于模式的分析則是從數據統計和歸納中發現未知的可能,用于預測未來[4]。
數據挖掘源自實踐的直接需求。依托強大的分析和預測能力,數據挖掘在數據分類、系統優化、智能識別和趨勢預測等方面發揮著巨大功效,被廣泛應用于商業、公共事務管理以及個人生活[5]。數據挖掘最早源于商業發展的需求,商業實體是數據挖掘的主力軍,也是數據挖掘的重要應用主體。數據挖掘在商業領域的應用包括但不限于金融、零售、廣告等領域,如銀行機構應用數據挖掘進行客戶信用的識別,電商通過數據挖掘分析顧客的購買行為、購買喜好進行精準營銷,廣告部門利用數據挖掘定向投放廣告等。數據挖掘有助于商家在服務端控制物品及服務狀況,在銷售端精準把握消費者的購買需求、購買行為、信用情況和經濟能力等,進而提高服務質量并進行商業趨勢的預測,創造商業價值,推動經濟發展。近年來,除商業應用之外,政府等公共事務部門對數據挖掘的應用不斷深入,既包括政府部門通過數據挖掘致力于智能政府、智能城市的打造,也包括數據挖掘在科教文衛等社會公共事務中的應用,如醫療機構借助數據挖掘推進精準醫療、疾病防治以及新藥研發,教育機構實現應用數據挖掘智能教育,科研機構通過數據挖掘進行深度調研等。當然,數據挖掘在反恐防控、刑事偵查及社會安全治理領域的應用也是其公共事務應用價值的重要體現。此外,數據挖掘在私人應用中作用顯著,移動互聯網的普及使人們的思想行為日漸數字化,智能交通記錄日常出行,社交軟件識別交際網絡,電商平臺采集購買所需,電子媒體引導思想動態。數據挖掘與私人應用之間相互影響和塑造,一方面,個人基本信息及行為數據是數據挖掘的基礎;另一方面,數據挖掘能夠分析和預測個人行為,影響私人決策,個體已然成為數據的創造者、數據挖掘的參與者和數據紅利的享受者。
如上所述,數據挖掘廣泛影響社會生活的各領域。探討技術的正當性是技術合法化的前提,也是法律對技術進行規制的基礎。
1.信息增值的必要條件
信息增值理論是信息經濟學中的重要理論,主張信息在運動過程中出現了質上、量上和價值上的遞增[6]。這種遞增是一種具有目的性、非線性關聯的,按照一定的方向和速度,高效更新的信息流通方式[7]。信息量的增值是指信息量度的增加,信息質的增值則是信息使用效益的增大,而信息價值的增值對應信息滿足受眾需求度的增強。信息增值源于信息在交流、加工以及交合等過程中的擴散和傳播。其中,先進的信息化技術平臺和暢通的信息挖掘系統是信息增值的重要保障。
數據作為重要的信息源泉,具有深度加工增值特性,海量數據集合形成大數據,實現了數據量上的增值。未經加工的數據又稱原始數據,其本身的使用價值有限,但經數據挖掘后生成衍生數據和衍生數據關系,可用于現狀描述和未來預測,如商業趨勢推斷、社會危險因素排查等,具有極大的經濟價值和社會效益,形成數據質上與價值上的增值。數據挖掘技術實現了數據的深度開發,使其從普通的電子代碼變成可識別、可分析、可深度利用的大數據,催生了數據收集、存儲、加工、交易等系列數據產業,促進新型業態的發展并推動數據治理,成為信息增值的必要條件。
2.數字經濟發展的技術引擎
以使用數字化的知識、信息、數據作為關鍵生產要素,以信息網絡作為主要載體,以數據信息技術作為經濟結構優化推動力的數字經濟是大數據時代的新型經濟業態[8],在促進經濟發展、實現經濟轉型、提高經濟效率、發掘新型經濟增長點等方面發揮著重要作用?!吨袊鴶底纸洕l展白皮書(2020年)》顯示,2019年,我國數字經濟增加值規模達35.8萬億元,占GDP比重近四成,數字經濟已成為國民經濟核心增長極之一[9]。2017年,上海社科院應用經濟研究所發布的《中國數字經濟宏觀影響力評估及中長期稅收政策走向設計》報告預測,到2030年,中國數字經濟規模有望超過150萬億元人民幣,將占GDP比重80%左右[10]。
區別于傳統工業經濟,數字經濟以數據作為驅動經濟發展的關鍵生產要素,以數據技術進步作為發展動力。數據挖掘技術作為重要的數據信息技術之一,成為數字經濟發展的重要技術引擎。以數字經濟中電商平臺經濟為例,電商平臺為消費者與賣家提供交互平臺,實現便捷的網上購物服務,在此過程中,電商平臺收集消費者的瀏覽痕跡、購買記錄等個人行為數據并進行深度挖掘,發現用戶喜好和潛在需求,向客戶進行精準營銷和定向廣告投送,引導消費趨向,并不斷推陳出新迎合市場需求,實現消費者、賣家和電商平臺的多贏局面,推動數字經濟的發展。數字經濟的發展離不開數據挖掘技術的保障,其對數據挖掘的需求將隨數據這一生產要素的應用不斷深化。
3.政府數據開放的內在要求
政府數據作為重要的數據源,其開放使用可以更好地滿足經濟和社會發展需求,為世界各國所重視。2009年,美國總統奧巴馬簽署了《開放透明政府備忘錄》,對政府數據進行公開,隨后,美國數據門戶data.gov上線,拉開了全球政府數據開放運動(Government Open Data)的序幕。作為數據大國,我國亦高度重視政府數據開放,2020年4月發布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》將推進政府數據開放作為加快培育數據要素市場的重要舉措,而《數據安全法》更是專章規定了政務數據的安全與開放,強調大力推進電子政務建設。
政府數據具有公共屬性,在不違反國家安全、不侵害商業秘密和個人信息安全的前提下,最大限度地對社會開放,不僅有助于增加政府工作的透明度,提高政務工作效率、服務水平和社會治理能力,而且更能夠為數字經濟發展提供資源,激發數據創新。政府數據開放并不是最終目的,數據開放是為了促進數據資源的有效獲取,實現數據資源的挖掘和利用,發掘數字價值進而推進數字經濟發展和社會治理。因而,數據挖掘技術的推進是政府數據開放得以實現和發揮效能的保障,符合政府數據開放的內在要求。數據挖掘與政府數據開放相輔相成,成為推動數據產業發展、構建數字政府以及推進數據社會治理的重要手段。
技術如同一把雙刃劍,其在帶來技術紅利的同時,不可避免地會產生社會法律問題。數據挖掘亦不能幸免。通過上文分析可知,數據挖掘的正當性不容置疑,但正當性審視的背后,不能忽視數據挖掘產生的系列社會法律隱憂。
收集存儲的個人數據進入挖掘階段,經數據預處理形成去個人身份信息的匿名數據,經統計分析、挖掘算法執行等深度加工處理,隱藏的數據關系和數據模式被發掘。挖掘算法不受個人控制,數據挖掘過程極有可能超出處理者的初始預測,更有甚者,反向識別技術可以對匿名化的數據進行再識別。美國在線(AOL)曾對用戶搜索數據進行匿名處理,刪除用戶姓名、地址等個人標識,并采用隨機ID的方式公布,但部分用戶仍被記者識別出來[11]1765。而數據挖掘產生的隱藏數據結果很多時候被再次利用,由數據挖掘主體出售或分享給其他方,數據多次交易和使用過程中隱私暴露的風險不可忽視。
除個人隱私侵害之外,數據挖掘還在一定程度上對個人自治造成困擾。個人數據使用程度、使用目的和使用場所很難由個人所控制,數據挖掘通過對個人數據的挖掘分析,洞察個人行為動向、興趣偏好,向個人推送個性化和定制化資料,干擾個人選擇和決策,一定程度上影響了個人自治的能動性。如電商平臺通過挖掘用戶的搜索和購買記錄,分析預測用戶購買喜好和潛在需求,并進行定制化推動,增加用戶黏性。數據挖掘的分析和預測功能提高了商業效率和個人生活的便捷度,但也在很大程度上影響和左右個人自我治理的動機和途徑,使人們成為被動性數字驅動人。
除私人困擾外,數據挖掘亦帶來了系列社會治理難題。其一是數據歧視,數據挖掘掌握個人數據,通過對個人數據的分析能夠發現隱藏的信息資料,進而對群體進行劃分并區別對待。最為明顯的是購買歧視,商家依托數據挖掘掌握消費者的購買喜好、消費能力、消費需求緊迫度等相關信息,并據此設計不同的定價機制,導致不同用戶在同平臺同時段以不同價位購買相同產品的現象發生。此外,同一商家會針對不同購買力的群體提供不同等級的服務,如為具有強購買力的消費者提供優先服務而忽視低購買力群體。除價格歧視外,數據挖掘帶來的另一典型歧視存在于求職過程中,用人單位利用數據挖掘分析個人數據,獲得個人健康、個人性格、個人社會資源等資料信息影響招聘結果,產生職場歧視。這些由數據挖掘帶來的社會歧視會破壞有序的市場秩序,影響社會治理的公平和正義,產生和激化社會矛盾。
除社會歧視外,數據挖掘還可能引發個人自治以及社會治理的沖突。數據挖掘很大程度上實現了私人定制化,是滿足個人自我需求的有力推手[1]366-368。然而,個人過分追求自我會導致個人化和小團體化,從而割裂社會整體,激化獨立個體與社會的矛盾。
數據挖掘是數據價值開發的重要技術手段。原始數據雖然量大,但不能交易,不具有直接經濟價值。原始數據經數據挖掘處理形成衍生數據及數據關系,可用于描述及預測未來需求及趨勢,被廣泛應用于經濟發展和社會治理,具有極高的經濟和社會價值。數據是多元利益集合體,挖掘后的數據更具有多重價值屬性,涉及眾多利益主體,包括原始數據擁有者、數據挖掘主體等,涵蓋個人、政府等公共部門、商業主體等。挖掘產生的數據利益分割困難,引發社會分配難題。
以電商平臺為例,消費者注冊電商平臺,提供自己的個人數據以獲得平臺提供的服務。電商平臺作為數據挖掘主體收集并深度挖掘消費者的個人數據,預測消費需求和消費趨勢,推出適應市場需求的產品而獲得收益。此例中,對于因數據挖掘獲得的數據利益該如何分配?是由商家全部獲得還是應分割利益于提供原始數據的消費者?商家和消費者的利益為何?是否都為經濟利益還是應有所區別?數據利益交易或提供給他方后的獲益如何劃分?類似問題不勝枚舉,并會隨數據挖掘技術的進步和應用的擴展而不斷產生。如何平衡數據利益、合理分配社會財富和社會責任成為數據挖掘正當性背后不可忽視的社會法律問題。
現代社會,法律成為社會控制和治理的主要手段,法律規制有助于實現社會公正,維護社會秩序[12]。對數據挖掘進行法律規制是數據挖掘正當性的歸屬,也是解決數據挖掘社會法律問題,實現技術與法律統一的有效手段?;谝陨蠈祿诰蛘斝约捌淅Ь车姆治?,本部分聚焦數據挖掘法律規制路徑的構建,包括規制目標的確立、規制依據的完善、規制方式的選擇以及具體規制措施的實施。
規制目標旨在解決規制什么,是規制架構中的基礎性命題。數據挖掘的規制目標復雜而多元,針對數據挖掘發展的需求和其所帶來的社會法律問題,應確立鼓勵數據挖掘、確保個人數據安全、平衡協調數據利益的多元規制目標。
首先,鼓勵數據挖掘是規制的根本目標。小數據時代的數據資源有限且集中,數據享有者傾向于將數據私有,數據由享有者集中私密使用。大數據時代,人們對數據的關注從靜態的儲存轉向動態的使用,數據價值發現成為重點,數據成為新型戰略資源和生產要素。數據挖掘能力將在很大程度上決定大數據時代經濟社會的發展速度,成為國家競爭力的重要組成部分和數字經濟發展的直接驅動力[13]。數據挖掘作為改變世界的大數據技術,是數據價值開發的技術支撐和數字經濟的基礎推手,對其采取鼓勵和促進的態度是數據挖掘法律規制必須堅持的根本性目標。信息安全領域的著名學者Kim Taipale認為,給予新技術發展機會之前便將其扼殺在搖籃中是極不公平的,鼓勵數據挖掘技術的應用并采取適當的規制措施可以較好地解決其帶來的困擾[14]。無論是世界范圍內的數據發展風潮還是我國數據發展的實踐需求,否認數據挖掘的重要性無異于畫地為牢,唯有持續鼓勵數據挖掘,促進技術創新,才能夠真正迎合我國數據發展戰略。
同時,針對技術發展的爭議性,我們在鼓勵技術創新的同時需正視數據挖掘暗含的風險。數據挖掘帶來的困擾以個人隱私侵害等個人數據安全保護問題最為突出。個人數據是數據挖掘的基本單元,確保個人數據安全是數據挖掘的前提,也是數據挖掘的防火線。小數據時代,數據量有限且聯系并不緊密,數據安全問題易發現和解決,個人隱私相對隱秘不易侵犯。大數據時代,伴隨著個人數據的持續獲取和使用,確保海量多樣的個人數據被合法地挖掘,防止惡意泄漏和隱私侵害,保障公民個人數據安全是數據挖掘規制的重要目標。
此外,數據挖掘的過程中所體現的多重利益沖突不容忽視,公共利益、個人利益和第三方利益是數據挖掘過程中最為突出的利益表現。數據挖掘所涉及的公共利益包括數據挖掘在推進社會治理、增加社會福利等方面的體現,應受到優先保護。數據挖掘的基礎資料是個人數據,個人數據之上個人的人格尊嚴與自由、個人隱私私密及信息自決等人格利益具有天然的利己性和內向性[15]42,是公共利益的基礎和最終落腳點[16],不可只強調公共利益而忽視個人數據中的個人利益。此外,以數據挖掘企業為代表的第三方利益亦是數據利益中的重要體現,對第三方利益的保護是數據市場有序運轉的核心,也是數據創新和數據產業發展的動力。公共利益、個人利益、第三方利益的平衡成為數據挖掘規制目標中極為重要的一環,通過法律之器進行利益識別和劃分,平衡利益沖突并解決社會矛盾成為必須。
個人數據保護以及數據權屬分配是數據挖掘法律規制的核心命題,在“鼓勵挖掘-安全保護-平衡協調”規制目標的指引下,通過完善立法明確規制規則,為數據挖掘法律規制提供依據。
其一,對個人數據進行分類立法保護。從內容上看,可將個人數據分為關聯性個人數據和非關聯性個人數據,關聯性個人數據又可分為直接關聯性和非直接關聯性個人數據。直接關聯性個人數據指可以直接識別個人身份的數據,如個人姓名、電話、證件號碼、家庭住址等外在性身份標識數據,是個體最基本、表層的外向標志。非直接關聯性個人數據是指無法直接關聯到個人,但可通過與其他數據結合發現個人身份,包括個人的性別、郵編、醫療信息、性別取向、網購習慣、消費喜好等潛在表達。直接關聯性個人數據帶有直接標識符,無需通過與其他數據關聯可直接定位識別個人[17],具有極強的私密性,這類數據的挖掘使用必須獲得個人的同意,并給予嚴格的保護,這在世界范圍內已經達成共識。非直接關聯性個人數據無法單獨用于識別,但可通過與其他數據的結合識別到個體,且伴隨大數據技術的應用,此類數據數量驟增,是數據價值開發的重要元素?;诖耍瑢υ擃悢祿氖褂脽o需做到嚴苛的個人知情和同意,法律保護力度可相應降低,應根據使用主體、目的、途徑等綜合估量。非關聯性個人數據是指數據處理后的衍生數據,該類數據為去個人身份化的匿名數據,由數據挖掘主體控制,嚴格意義上不屬于個人數據范疇。但由于該類數據在使用過程中仍存在去識別化的可能,個人隱私再發現和侵害的風險仍然存在,需要給予一定程度的保護。
個人數據在數字化時代極易被收集和記錄,很多時候已處于公開狀態。因而依據個人數據是否已公開,可從形式上將其分為個人已公開數據和未公開數據。前者是已經通過合法渠道為公眾所知的個人數據或個人已公開的數據,后者則仍處于未被獲知狀態。對于前者,再收集和利用無需個人同意,但應通知相關主體;對于后者,仍需按照個人數據的內容進行分類識別獲取和應用[15]44。
其二,識別數據之上的利益并進行數據確權。如上所述,數據挖掘過程中涉及多種數據表現形態和數據主體,不同數據之上體現了不同的數據利益,區分數據利益并進行相應的賦權是解決現有數據利益分配難題的根本之策,也是數字經濟持續發展的保障。學術界對此形成了數據權利說、數據利益說、數據非權益客體說等觀點,但在《民法典》《數據安全法》等立法文件中均未見此類規定。2020年7月,深圳市發布《深圳經濟特區數據條例(征求意見稿)》,開創性地提出了數據權這一概念,并區分主體設置了個人數據權、公共數據權和數據要素市場主體的數據權,但因對不同數據缺乏屬性界定,不同權利重合交織,相關規定與既有法律規定矛盾等問題而備受爭議[18]。日前,《深圳經濟特區數據條例》通過,刪除原稿中第4條“數據權”的提法,代之“數據權益”的稱謂。
在數據挖掘過程中,根據數據主體的不同,可區分為個人數據主體、數據挖掘主體和公共數據主體,不同數據主體對應不同數據,分別享有數據人格權益、數據財產權益以及公共利益。在數據挖掘之前的數據收集、存儲過程中,數據主要以可識別的個人數據和政府等公共事務組織持有的公共數據為主,收集存儲的數據進入挖掘階段,數據挖掘主體通過清洗、脫敏、算法等數據技術對數據進行深度挖掘,產生具有財產價值的衍生數據。個人數據又可稱為個人信息,因具有可識別性特征被視作個人數據主體的組成部分,是自然人參與社會交往互動的載體,也是個體人格表現和發展的工具[19]。個人數據主體享有個人數據之上的人格權益,其以個人信息自決為核心,包括個人數據復制權、異議權、刪除權等積極權益以及被侵害后的救濟權益,這在我國《民法典》的個人信息保護相關章節進行了規定。數據挖掘主體對其付出時間、技術等成本挖掘形成的衍生數據享有財產權益,既可以占有、使用、交易(1)此處的交易為廣義的交易,包括轉讓、商事交易、共享等交換性數據獲取行為。并享有相關收益,又可以阻止其他數據處理機構未經其允許擅自獲取衍生數據。除個人數據主體和數據挖掘主體外,政府等公共事務組織所掌握的公共數據具有公共價值,公共數據及挖掘后產生的數據之上的利益應歸屬全體社會成員所有,公共數據的使用權益則應由政府等公共事務組織及其所授權的機構代表社會成員行使。
合作規制是指通過多主體圍繞多中心進行多層次的合作治理從而實現規制目標的治理方式,是世界法律規制的重要方式和趨勢[20]。數據挖掘的規制是一項系統性工程,并非依靠單個個體可完成,需依賴于數據挖掘生態系統中的各主體進行合作[21]。數據挖掘規制涉及的主體主要包括個人數據主體、數據挖掘主體和政府。
1.賦予個人數據主體事后選擇權
數據挖掘主體基于其所具有的信息優勢、技術優勢形成一定的數據權力,極易對個人數據主體的數據權利產生影響。對此,《民法典》《網絡安全法》等法律在知情同意原則基礎上賦予了個人數據主體復制查閱、異議更正、刪除等數據權益,并對個人隱私數據給予隱私權保護,這些規定有利于保證個人對其數據的自主控制權能,保護個人數據安全和個人隱私不受侵害。
除此之外,應賦予個人是否接受數據挖掘及數據挖掘結果的選擇權,這是知情同意原則在數據挖掘中的拓展。數據挖掘作為數據加工的重要環節,使用自動化決策及其他算法技術對個人數據深度挖掘,對個體及個體行為進行深入觀察和刻畫,形成有針對性的挖掘結果影響個人選擇、決策等個人自治能力,基于數據挖掘的個性化推薦是典型體現。同時,因數據挖掘具有強技術依賴性,受其影響的個體很難參與到數據挖掘的過程中,個人成為數據挖掘結果的被動承擔者,甚至為錯誤的挖掘結果買單,個人被動自治、個人受到數據歧視均可歸為此類。挖掘前的知情同意固然能夠在一定程度上保護個體權利,但因無法影響挖掘過程和挖掘結果而效果不甚理想。對此,應賦予個人事后選擇權,即當數據挖掘結果可能對個體產生重大影響時,權利人可自主決定是否接受數據挖掘結果,并有權對錯誤的、片面的數據挖掘結果提出質疑、要求更正。歐盟第29 條工作組將重大影響限定為能夠對個人的選擇、行為或處境產生重大影響或具有重大影響的強潛在可能性,極端的情況下甚至會危害個人權利,如個人權利排除或歧視[22]184。我國《電子商務法》中數據平臺向用戶提供個性化推薦服務時應同時提供無個性化推薦選項的相關規定從側面肯定了事后選擇權。事后選擇權是個人數據主體參與影響數據挖掘結果的體現,其實現有賴于數據挖掘主體所提供的保障,將在下文中詳細闡述。
2.明確數據挖掘主體的保護義務
其一,采用數據脫敏及匿名化技術保護個人數據安全和隱私。數據脫敏是大數據安全及隱私保護的關鍵技術,其通過數據變形處理敏感數據,降低數據敏感程度,減少敏感數據暴露的可能和泄露的風險,以實現敏感數據的保護。數據脫敏針對不同場景、不同數據處理目的以及不同數據敏感程度,采取有差異的脫敏規則和算法,對數據給予不同程度的脫敏處理,實現數據安全、私密與數據可用性的統一。常用的脫敏算法包括數據加密、數據掩碼、數據替換以及數據模糊[23]。此外,為實現更高程度的脫敏保護,滿足高敏感度數據保護的需求,匿名化應運而生,成為保障個人數據安全和隱私保護的重要方式之一。個人數據匿名化又稱為個人數據去身份化,該技術已為世界主要數據體所普遍應用。歐盟GDPR將匿名化界定為通過某種方式對個人數據處理后,沒有額外數據則不能識別數據主體的數據處理方式[24]。我國《網絡安全法》第42條采取“經過處理無法識別特定個人且不能復原”的規定側面體現了匿名化這一理念(2)我國多項個人信息規范性文件中存在匿名化的相關規定:2014年發布的《中國互聯網定向廣告用戶信息保護去身份化指引》將匿名化界定為“通過對某項信息或信息的集合(例如數據集)進行變更,以達到去除或模糊個人身份關聯信息目的的過程,從而實現信息轉移或公開時的保密和隱私目的”。2020年3月發布、2020年10月生效的GB/T 35273-2020《信息安全技術 個人信息安全規范》將匿名化規定為“通過對個人信息的技術處理,使得個人信息主體無法被識別或者關聯,且處理后的信息不能被復原的過程”,并認為經匿名化處理后所得的信息不屬于個人信息。日前發布的《網絡安全標準實踐指南——移動互聯網應用程序(App)收集使用個人信息自評估指南》評估點五中規定向他人提供個人信息前須征得用戶同意,經匿名化處理的除外。。匿名化的目的是通過技術手段將個人數據中的人格要素剝離,降低數據流通中的隱私風險,發揮數據的使用價值。
在數據挖掘的過程中,個人數據匿名化屬于數據預處理階段,是數據挖掘主體應采取的重要技術。個人數據匿名化的重點包括:第一,結合個人數據分類確立匿名化的標準。根據上文對個人數據的劃分,關聯性個人數據是匿名化的重點,直接關聯性個人數據含有識別個體的直接標識符,如姓名、身份證號碼、家庭住址等,屬于個人隱私數據或與個人密切相關的數據,需將直接標識符去除或改變方可實現此類數據的匿名化。非直接關聯性個人數據中包含的間接標識符可識別性相對較弱,無法直接關聯到個體,但具有潛在識別性和關聯識別性。伴隨網絡服務范圍的不斷擴展,網絡行為驟增,購物潛能、出行喜好等新型間接標識符層出不窮,是數據價值開發的重要元素。基于此,針對非直接關聯性個人數據中的間接標識符的處理不可一概而論,應結合具體的使用場景和隱私風險評估決定[25]。第二,個人數據匿名化必須高度重視再識別技術的規制。匿名化的個人數據在實踐中屢次被再識別,引發專家學者的質疑,美國學者Paul Ohm 認為,匿名化這一技術手段在個人隱私保護中的作用甚微,其無法阻止惡意入侵和再識別,并指出匿名化這一理念已走向滅亡[11]1732。然而,匿名化追求的是風險最小化,而非絕對無風險。匿名化和再識別兩項技術在發展中相互博弈,我們不能因此直接否認匿名化的作用,而是應對再識別進行限制。需從法律層面要求數據挖掘主體承諾不再重新進行個人數據的識別,且在向第三方提供數據時以協議等形式要求第三方不得再識別匿名化的個人數據。這在《中國互聯網定向廣告用戶信息保護行業框架標準》中有所體現,但因標準效力不足,禁止再識別并未引起業界的重視。美國法對此做了詳細規定,將數據處理機構承諾不進行數據再識別并通過協議禁止其下游接收方再識別作為匿名化的標準之一。我國相關立法應對此進行吸納,并設置相應的處罰措施[26]。同時,從技術層面對數據挖掘過程中的安全和隱私風險進行持續監測,將安全和隱私風險監測鑲嵌到數據挖掘過程中,做到實時持續監控識別風險。
其二,防止數據挖掘行為影響其他個人權益和社會公共秩序。通過對數據挖掘正當性困境的分析發現,除個人數據安全和隱私侵害外,數據挖掘易產生數據歧視、個人自治難題等,對個人權益及社會治理造成不利影響,究其根源是數據挖掘所依賴的算法的黑箱性所致。外部個體很難獲知算法運行的過程,從而成為數據挖掘結果的被動承擔者。對此,應明確數據挖掘主體對挖掘算法的評估義務以及對挖掘結果的解釋義務,并為個人數據主體提供應對數據挖掘結果的選擇、異議及更正的渠道。
首先,數據挖掘主體應在挖掘開始前對挖掘所依托的算法進行審查和評估,對其中可能存在危害個人權益及公共秩序的設計進行整改,即數據挖掘所依托的算法必須符合社會倫理準則[22]186。其既包括對算法所使用的數據準確性的審查,防止因基礎數據錯誤而導致的算法偏差,又包括排除數據挖掘主體主觀因素干預算法設計運轉。此外,數據挖掘主體還應進行算法影響評估,通過落實審查和評估義務,數據挖掘主體能夠在事前對挖掘所依賴的算法進行全面掌握和排查,降低算法設計層面的侵害可能。其次,數據挖掘對數據的加工是一個持續且未知的過程,這加劇了數據挖掘主體和受影響的個體之間的信息不對稱以及力量失衡的狀況,對數據行業長期健康發展極為不利。解決這一問題的關鍵便是使受挖掘結果影響的個體能夠參與到數據挖掘中并有權反向影響挖掘結果,除上文提到的賦予個人數據主體事后選擇權外,為數據挖掘主體配置相應的義務必不可少。選擇權的前提是知情,這要求數據挖掘主體對影響個體權利和公共利益的結果作出解釋并通知相應主體,解釋內容并非挖掘使用的源代碼、依托的算法模型及體現的運算邏輯,而應指影響挖掘結果的輸入變量及變量影響權重。此外,數據挖掘主體還需明示對數據挖掘結果進行異議及更正的方式和渠道。如征信機構需解釋影響個人信用的因素(信用歷史、當前負債等),并提供異議和修復信用的方式和渠道。
3.落實政府的數據推進和監管職責
政府在數據挖掘規制中具有雙重身份,其既是政府數據的管理者,肩負推進政府數據挖掘利用的職責,同時,作為監管方又需要承擔數據挖掘監管責任。
政府部門掌握的政府數據是政府部門在履行行政職能、進行社會事務管理的過程中收集并積累的數據,其屬于公共物品和社會公共資源。近年來,我國政府高度重視政府數據開放共享,出臺相關法律和政策文件鼓勵支持政府數據的利用,不斷推出數據開放平臺,并取得了較大成效。但現階段我國政府數據的開放利用水平仍處于初級階段,存在不同政府部門間數據割裂,部門關于數據利用的職能交叉、模糊,數據利用率低等問題。政府應著力解決現有數據開放中存在的問題,制定相應的法律法規及指導性文件,在保證國家秘密、商業秘密和個人隱私不受侵害的前提下,設置政府數據挖掘使用的脫敏規則、風險防控體系及數據溯源體系等,并可與數據挖掘主體合作,推進政府數據挖掘進程,促進政府數據價值發掘[27]。
此外,政府應承擔數據挖掘監管職責。對于數據挖掘行為,一方面,政府應發揮引導規范作用,通過行政規章、辦法、指南等規范數據挖掘行為,其既包括標準性規范引導數據挖掘行為,如GB/T 35273-2020《信息安全技術 個人信息安全規范》對匿名化的要求,又包括針對不法或不合理的數據挖掘行為的限制性規定,表現為不得、不能、不準等類型的規定。未來,有必要在現有標準基礎上出臺涵蓋數據挖掘全周期的標準規范,并上升到立法層面。具體包括挖掘前的數據收集、分類標準,挖掘過程中的數據脫敏標準,挖掘結果的輸出轉化及交易等應用標準,以及整個挖掘過程中隱私保護和數據安全標準等。此外,政府應承擔數據挖掘市場監管責任,對非法挖掘、數據寡頭等危害市場秩序的行為進行干預,既可采用行政約談、行政處罰等方式懲罰非法挖掘等行為,又可以通過技術支持和稅收引導適當傾斜新技術企業或中小企業,防止數據壟斷。此外,對于惡意損害個人權益、危害社會公共利益的數據挖掘主體,政府可給予吊銷營業執照、取消市場準入資格等嚴厲的處罰。
數據挖掘作為數據價值實現的基本技術手段本身是中立的,但技術發展所帶來的利益和問題使其具有了正當性探討的必要和法律規制的需求。新技術的法律規制必須處理好技術發展和法律規則的關系,技術的進步和法律的規制不是零和博弈,拋開法律一味地發展技術必將引發社會危機,完全依靠法律解決技術問題亦不可行。應立足我國數據發展實踐,實現技術信仰和法律信仰的平衡,鼓勵數據挖掘技術應用,推進數據挖掘與個人數據保護的統一,做到數據價值開發與數據利益分配的協調,創新技術手段和法律規則的設計來實現二者的互動,通過個人數據主體、數據挖掘主體及政府的合作規制實現我國數據治理戰略目標。數據挖掘所產生的規制需求歸根結底是技術性問題向社會問題、法律問題的拓展,技術的進步先于法律,但又需與法律相統一,方可實現二者的良性互動。