戴藝晗(華東政法大學國際法學院)
20世紀70年代,隨著計算機技術的興起,法律越來越關注個人隱私保護。1980年,經濟發展與合作組織(Organization for Economic Cooperation and Development,OECD)發布的《隱私保護與個人數據跨境流通指南》普及了這樣一種觀念,即個人應該對任何用于自己和關于自己的信息擁有知情同意權[1]。1978年,法國頒布了數據保護法,規定必須為了特定、明確和合法的目的,在本人(“數據主體”)同意的情況下,以公平、合法的方式收集和處理個人數據[2]。受法國數據保護法等相關法律的啟發,歐盟分別于1995年和2018年頒布《個人數據保護指令》[3]和《通用數據保護條例》(General Data Protection Regulation,GDPR)[4]。如今數據權利被視為“個人權利”,數據權利的個體化已成為世界各國數據保護法的基石。當政府和法律將重點放在保護個人數據權利時,科技公司卻從分析個人行為轉向分析群體行為,有效地讓個人的拒絕或同意變得毫無意義:即使某人拒絕使用Facebook、Twitter或亞馬遜的服務,但其周圍的每個人都加入并使用,意味著此人的目標數據點和沒有拒絕使用服務的人一樣多。
數據和信息基于個人或者單位產生,兼具私人與公共屬性,是數字經濟時代維持運轉不可或缺的資源[5]。以海量數據為基礎的大數據算法分析能洞察市場的新興趨勢,指導新產品和服務的開發,預測個體偏好,為消費者提供個性化的產品和服務。大數據的生命周期可以分為收集、編制與整理、數據挖掘與分析和使用四個階段[6]。
在大數據生命周期的編制、整理階段,不同來源的數據被組合起來,用于構建單個消費者的畫像[7]。大數據分析將具有某方面共同特征的人歸結到一個群組中,如,每周去三次西式快餐店的人、一周有三次以上晨間運動習慣的人。在市場環境下,數據挖掘與分析的共同目的之一是預測消費者的選擇。利用數據預測事件或行為是機器學習和人工智能發展的結果,隨著數據可用性和使用范圍的擴大,做決策變得越來越容易,人類傳統做決策的過程有時甚至會完全被所謂的預測建模方法(通常稱為“算法的使用”)所取代。正如一個硬幣有兩面,大數據算法分析帶來便利性的同時,也可能會合并甚至強化歧視性的刻板印象,從而損害用戶和系統本身的效率。牛津詞典將歧視定義為不公平對待社會中某個人或某一群體的行為[8]。歧視有三個特點:存在非合理的不公平對待,此種不公平對待是法律所禁止的,會造成不公平、不公正的后果[9]。現代社會的一個核心原則是,按照某種類型的標準對不同群體的人進行歧視在道德上是錯誤的[10]。歧視可能有意,也可能無意。機器學習系統依靠人類創造的算法處理來自人類的數據,因此這種數據處理的最終結果會帶有人類固有的偏見。聯合國《世界人權宣言》第2條明確規定:“人人有資格享有本宣言所載的一切權利和自由,不分種族、膚色、性別、語言、宗教、政治或其他見解、國籍或社會出身、財產、出生或其他身份等任何區別。并且不得因一人所屬的國家或領土的政治的、行政的或者國際的地位之不同而有所區別,無論該領土是獨立領土、托管領土、非自治領土或者處于其他任何主權受限制的情況之下。”[11]由此可見,歧視基于的要素不僅包括種族、性別等客觀要素,還包括政治見解等主觀要素,不論是對個體的歧視還是對集體的歧視皆違反現代法律精神。
當今社會,數據和信息已經成為每個人不可分割的組成部分,它描繪和構建了人的自然本性、社會角色和個性特征,表現了人的人格尊嚴和主體價值[5]。隨著人工智能技術的進一步發展及運用,算法帶來的歧視已經不限于傳統的種族、性別等人口統計因素,而是滲透到日常生活和社會事務中,并開始以越來越隱蔽的方式逐步影響人類社會制度和經濟發展的方方面面[12]。算法歧視可以分為偏見代理的算法歧視,即客觀中立的基礎性數據組合產生了歧視性的后果;特征選擇的算法歧視,即輸入系統本身帶有偏見,從而構成歧視性的看法;大數據殺熟,即同一時段提供的商品或者服務,面對不同的客戶采取不同的對待模式[13]。大數據算法歧視和一般歧視相比,所依據的因素更為多樣化和不確定,如對消費者信用的評估不是基于將消費者的已知信用特征(如過去的逾期付款記錄)與歷史數據進行比較,而是基于這些客戶的郵政編碼、社交媒體的使用情況或購物歷史。
如果數據收集的過程反映了個人偏好或者受到了某種客觀條件的限制,那么由數據揭示的一些統計關系可能會產生偏見,導致不準確的預測和分析。如,美國波士頓市開發了一款名為Street Bump的手機應用程序,利用智能手機的一些功能來采集和發送道路情況,因為低收入人群攜帶智能手機的比例較低,所以這些數據不能完全代表所有的道路狀況,偏差的數據有可能使道路服務向高收入社區傾斜[6]。歧視一般源于主觀偏見或偏好,但更看重客觀所造成的不良社會影響[12]。2017年,斯坦福大學的研究人員詳細介紹了一種人臉識別算法,該算法能夠以驚人的準確性預測一個人的性取向[14]。這項研究受到了廣泛批評,理由是其創造了一個收集數據的工具從而根據性取向對個體進行分類,分類結果有可能被用來排除或歧視整個階級的個體。
數據是數據主體的“生命密碼”,與數據主體的隱私、情感以及社會評價息息相關[15]。大數據分析被廣泛用于理解用戶通過與網絡設備、平臺和組織互動而產生的數據軌跡。大數據算法分析將個人歸結到不同的群體中,歸類到一個群體中的數據并不一定涉及能識別到特定個人的事實或信息;由于不具有可識別性,不一定構成對個人隱私和個人數據保護的違反。保險公司在提供汽車、健康、家庭或人壽保險之前,可能會根據目標客戶對生活方式的選擇、閱讀的期刊、居住地、未決或已了結的刑事或民事訴訟、教育水平和就業情況來提取與客戶細分相關的風險預測信息,如,住在高檔社區A的住戶與住在普通小區B的住戶在同一時期購買同一種保險,前者所支付的保費比后者要低得多,保險公司對應繳保費的評估和判斷不是基于個人,而是基于個人作為該小區的一分子。
隨著網絡和智能技術的飛速發展,企業和政府將收集更多個人信息并可能傾向于使用自動化決策方法,隨著自動化程度的提高,對公平的影響將會更大。在大數據時代,數據交易和生產過程呈現出“參與主體多元化、權利歸屬復雜化”的特點[16]。被歸類到一個群體中的數據涉及多個個體作為一個整體的利益,而不僅僅是許多單個個體利益的總和以及簡單疊加。集體維度的重要性取決于這樣一個事實,即用現代算法進行分類的方法不僅關注個人,還關注具有某些共同行為特征(如,十一點以前上床睡覺、每天乘坐地鐵上班、每周喝咖啡超過三杯)的群體。大數據收集者從研究和預測群體行為的層面出發,而非對單個用戶進行分析,在此種情況下,基于相關關系的預測不僅會影響個體,而且還會影響整個群體,使其有別于社會的其他群體[17]。數據驅動的決策涉及由單個個體組成的集群,并且直接地影響這些群組里的成員,這就需要在集體層面保護群體以及群體中的個體免受侵入性和歧視性數據處理造成的潛在傷害。
相對于侵犯個人隱私而言,個人為集體損害尋求救濟非常困難。目前的數據保護框架以數據控制者、數據處理者和數據主體之間的關系為前提,隨著技術的發展,這些關系變得越來越復雜和不穩定:很難分清楚誰是數據控制者,誰的數據權利受到了傷害。
21世紀的數據隱私和歧視問題在于公眾不再知道自己屬于或不屬于哪個群體,只有算法知道。數據主體不了解數據處理的具體運作與過程。個人和使用個人數據的組織之間經常存在信息不對稱現象,用戶可能知道他的數據被收集和存儲,但卻不知道這些數據將被如何使用[18],也不清楚經營者和網絡提供者實行的政策可能對其數據或者隱私造成的影響,如網絡用戶瀏覽網頁時勾選Cookies同意的預選框可能產生什么樣的具體后果。在大數據背景下,單個數據主體對集體的認知有限,他們可能并不知道自己已經被大數據歸類到某個群體中,或對群體中其他成員的身份一無所知[19],數據主體也很難意識到可能存在的潛在集體偏見[20]。在大數據分析領域,數據集體侵權事件由于流程的部分隱蔽性和復雜性更難被察覺,如數據挖掘使那些希望對受保護階層采取歧視措施的雇主可以在第一時間否認對受保護階層的任何了解[21],這使得及時地發起訴訟十分困難。另外,網絡提供者與作為消費者的用戶之間權利懸殊,個人信息的價值包括自主價值和使用價值,以確保個人信息的獨立使用,信息劣勢方(網絡用戶)的自由意志和自由發展很可能受到信息優勢方(網絡提供者)的影響,最終導致損害[22]。
數據侵權行為不僅可能構成指向性侵害,即某一民事主體指向性地侵害其他民事主體(可以是一人也可以是多人)的人身、財產權利或者法益;還可能構成社會侵害,即對特定集體(又被稱為“社會共同體”“集團”或“群”)的社會權益即集體權益形成發散性侵害[23]。數據保護司法困難重重的根源在于傳統賦權模式過于籠統、抽象,數據權利缺乏制衡導致數據主體處于弱勢地位,只能被動地承受數據被分析、被使用甚至被披露等一系列后果,在維權時,由于證據收集能力有限,容易陷入證據不能或證據不足的困境[23-24]。如今政府—平臺—商戶(消費者)、公權利—社會權利—私權利的三元結構和公、私并存的雙重權利生態的生成,面對技術霸權和算法決策,私權利更為弱勢,被困于“數字鴻溝”、算法霸權和監控社會中[5]。這就要求在數據和信息在公共性與私密性之間,在政府部門、業務平臺、技術公司與消費者之間,在公法保護與私法保護之間,形成多元、平衡、互動、共享的數字人權保護機制[5]。個人尋求救濟的前提是數據集體利益的確立。
大數據滋生了三個悖論:①透明度悖論,即大數據廣泛收集各種私人信息的同時,大數據本身的運作幾乎完全被法律和商業秘密所掩蓋;②同一性悖論,即大數據試圖以犧牲個人和集體身份為代價進行識別;③權利悖論,即大數據以犧牲普通個人為代價,為大型政府和企業提供特權[25]。同時,大數據具有四大特點:大量(Volume)、高速(Velocity)、多樣性(Variety)、價值性(Value)[26]。在大數據時代,單個自然人的個人數據本身沒有價值,真正蘊含巨大經濟價值的是政府和數據從業者收集、存儲的海量個人數據[27]。大數據中的大多數人不是被描述為個體,而是被描述為一個特定群體的成員,因此數據主體不再是一個特定的個人或少數群體,而是數量龐大的未定義群體[28]。
牛津互聯網研究所研究員Brent Mittelstadt將群體分為三種形式:①集體群體,即因集體利益、共同背景或其他明確的共同特征和目的而有意加入的群體(如工會);②先賦性群體,即由遺傳或偶然發展的特征所決定的群體,此群體通常不能在不重新定義群體邊界的情況下被有意加入或離開(如種族群體、遺傳病群體);③特別小組,即根據成員之間的聯系,為第三方利益而組織成立的團體,通常在一段時間或基于特定目的而組成,成員資格要求不穩定[29]。從Brent Mittelstadt的研究可以得知,前兩種形式已經得到法律認可,而特別小組還未被法律承認為合法的權利擁有者,群組用戶畫像是特別小組的典型代表[29]。GDPR將畫像定義為為了評估自然人的某些條件,通過自動化方式對個人數據進行處理,特別是為了評估自然人的工作表現、經濟狀況、健康、個人偏好、興趣、可靠性、行為方式、位置或行蹤而進行的處理[4]。我國法律尚未對用戶畫像進行明確的定義,但在《信息安全技術 個人信息安全規范》(GB/T 35273-2020)中將用戶畫像定義為“通過收集、匯聚、分析個人信息,對某特定自然人個人特征,如其職業、經濟、健康、教育、個人喜好、信用、行為等方面作出分析或預測,形成其個人特征模型的過程”[30]。并且在注解中還進一步將用戶畫像分為直接用戶畫像和間接用戶畫像:直接用戶畫像是指直接使用特定自然人的個人信息形成該自然人的特征模型;間接用戶畫像是指使用來源于特定自然人以外的信息,如所在群體的數據從而形成該自然人的特征模型[30]。畫像是一個模式識別問題,與分類、概括和刻板印象相似[31]。畫像不限于收集個人數據,還包括利用這些數據來評估與個人有關的某些方面,其目的是識別和預測客戶的行為并據此做出決策。具體而言,畫像包括三個元素:①一種自動化的處理形式;②針對個人數據進行;③目的是評估自然人的某些個人方面,預測他們的行為并就此作出決定。根據GDPR,如數據當事人要求停止畫像,處理工作必須停止,除非數據控制者證明該反對凌駕于數據當事人的利益、權利及自由之上[4]。
企業為了自身發展越來越注重為客戶提供個性化的定制服務,科技的進步和廉價的數據存儲更是使得這一目標具有前所未有的可能性。從零售到出版、從公共服務到健康,我們在與組織互動的任何地方都留下了數字指紋和活動痕跡。這些組織熱衷于利用這些信息,通過創建用戶畫像為我們提供更好的服務,或者為我們提供對他們而言更有利的服務。如,仲量聯行公司與亞歷山大·巴貝奇公司曾合作開發了一款名為Pinpoint的新工具來監控購物中心內的消費者,并向百貨公司業主和零售商提供購物者的相關信息,包括客戶來自哪里、他們習慣去什么樣的商店以及他們會在那里停留多長時間等,以方便零售商進一步挖掘那些頻繁到訪的客戶[32]。這些信息可被用于多種目的,包括評估廣告是否有效地定位到目標客戶,預測客戶的未來購買行為等。畫像可以通過描繪一個人的外在形象和內在偏好從而將其歸入算法所創造的數字范疇中[5],即使跟蹤和描述的是個體消費者的行為,這些組織也會將其推廣到多個個體,并將多個個體看作一個整體,如“商店顧客”這一群體從而進行預測。這剛好印證了信息哲學家盧西亞諾·弗洛里迪的說法,即大多數畫像不是基于個體,而是基于個體作為一個特定群體的成員[33]。
群組用戶畫像被定義為“對個體用戶畫像進行聚類分析,采用不同的模型、算法與技術,從多個維度發現規模較大的用戶群體,或將特征類似的用戶歸為一類,從而在提供服務時可以優先滿足核心群體的需求”[34]。大數據分析所運用的數字集體標識符破壞了個人、身份和隱私之間長期存在的聯系,被算法分組的個人在描述所在群體的信息如何生成和使用方面擁有共同利益[29]。這類分組方法的特點在于決策者對屬于同一個由分析生成的群組里的個體采取通用的解決方案,決策過程并不考慮個體本身,而是將其作為具有一些共同定性因素的一群人或一個群組的一部分,并由此產生了社會中以前不存在的新群體,即各種個體的可變集合,這些群體的不同起源和形態使得有必要從集體維度對隱私和數據保護權利進行考察[17]。大數據時代的關注點不能只放在單個個體的隱私保護上,也要重視大數據分析技術帶來的群體隱私威脅和保護問題[35]。
盧西亞諾·弗洛里迪認為,只要群體本身被視為一個個體(參見法人),那么按照權利歸屬于個人的邏輯,群體也可以成為權利所有者,如民族自決權就是由國家作為一個整體享有[33]。按照他的說法,在涉及信息交換的互動中,群體扮演著與個體相同的角色,權利可以同時由個人和個人組成的群體持有,只要在這兩個層面上都存在形成身份的互動且這些相互作用構成了群體的身份(與個人情況一致),那么群體就可以被認為對控制這種身份感興趣,這種利益就可以被正式承認為一個群體身份不受侵犯的權利[36]。因此,在評估分析平臺的倫理可接受性時,“群體隱私”概念作為“平衡個人隱私和社會、商業以及認知利益”的第三個利益被提出[28]。盧西亞諾·弗洛里迪將群體隱私定義為作為一個群體整體持有的權利,而不是由其成員各自持有的權利[33]。群體隱私的概念挑戰了社會、法律和倫理實踐的基本基礎,也挑戰了傳統的以個人為中心構建的隱私理論體系和實踐[26]。
雖然法律致力于使個人權利和權利的補救措施更有效,但卻忽視了保護個人信息的集體利益和確保這些利益之間的相互協作[37]。集體權利的主體不能被簡單定義為個體的簡單聯合,集體權利的前提條件是必須適用于作為整體的集體。數據保護不僅關乎個人利益,而且影響整個社會的質量以及民主和多元主義等價值觀,如限制不成比例的監視行為、防止基于敏感個人數據的歧視等[17]。然而,在相關權利被侵犯時,法院只有接收到權利所有者的投訴時才能處理案件,權利人可能對將這些問題訴諸法庭并不感興趣,抑或壓根不知道自己擁有的權益,抑或由于數據所有者和使用者權利的不平衡,無力對其利益可能受到的威脅作出有力的回擊與反應。被大數據歸類的群組由于缺乏集體代理和自我意識,無法采取行動保護自己的利益,因此,相關法律和監管制度應該作出相應改變,以符合市場的邏輯。
20世紀70年代發展起來的法律和思想已不再適合處理今天的現實。這里的問題是市場邏輯和法律邏輯之間根本不匹配。當代技術市場從集體數據中提取價值,然而我們的法律只對個人受到的傷害作出反應,并沒有隨著技術的變化而改變。傷害越是集體性,人們受到的保護就越少,也就越不明顯;個人受害越多,其影響就越明顯,受到法律保護的人也就越多。如果一個人因其年齡、性別或族裔等遭受歧視,他們本人非常清楚并且能夠尋求法律補救;當一個人由于算法決策而受到歧視時,這種歧視很可能不那么明顯,而且目前很難尋求法律補救。其解決方案在于為代表集體利益的群體賦權、推行嚴格的問責制以及制定算法影響評估機制。
(1)權利的懸殊在大數據環境中表現得尤為明顯,數據主體很難反對數據收集者對其信息的歧視性使用以及針對其數據的非法處理,而代表集體利益的實體(如消費者權益保護協會)不太容易受到權利不平衡的影響。消費者協會作為聯系廣大消費者的紐帶,能夠將單個的用戶連接起來,消除搭便車心理[38],還能夠在核實事實的基礎上,努力解決糾紛,糾正互聯網企業威脅或損害數據主體利益的行為[39]。在環境保護、勞動等其他領域,基于權利不平衡影響直接相關一方如雇員或公民的現實,也都采用了這種共同利益的集體代表方式。最后,基于個體的法律補救措施可能面臨因賠償數額低而導致缺乏起訴動力的問題。單個的信息可能不具備足夠的訴訟價值,使得具備有限理性的互聯網用戶缺乏訴訟的動力[40]。此外,由大數據算法塑造的群體具有可變的幾何形狀,個體可以是多個群體的成員,個體也可以從一個群體轉移到另一個群體,這種原子性的維度使得對集體表征的需求更為迫切[17]。
(2)要確保嚴格的問責制,需要具備以下要素。①確保關于大數據自動決策發生的地點和時間及其對個人和群體的影響是清晰以及透明的;②廣泛聽取公眾意見和要求當權者為公眾決定辯護的權利;③執行制裁的能力[41]。首先,政策制定者不應該只監管人們為了保護隱私而同意如何使用他們的數據,而是應該監管自動化決策,從收集、排序和分類數據的黑盒算法開始。這需要一種全新的監管方法,重點應該放在對自動決策的公眾監督和透明度的類型上,包括揭示算法背后的現有數據和源代碼、訓練數據的目的以及對哪些群體產生哪些具體影響,這些操作需要確保在高危人工智能部署之前進行并定期更新。其次,明確而有針對性的透明度有助于揭示算法的影響和評估部署算法的機構是否正確使用數據,并清楚地說明由誰來收集使用數據并用于評估什么。此外,公眾有基本權利要求當權者為他們的決定辯護,包括授權參與。最后,制裁權利是這些改革取得成功和實現問責制的關鍵,需要用法律來限制數據的使用和自動化,而不僅僅是對個人數據使用的限制。為此,社會還需要更新相關法律,如勞動法、未成年人保護法、生物安全法、環境法等,使其與社會發展相適應。
(3)企業和政府要制定算法影響評估機制,評估算法對群體的處理結果以及任何由數據驅動的集體傷害,確保這些評估的結果公開公布,并使公眾有可能對自動決策的使用提供有意義的投入,將這種評估擴展為社區驅動決策的工具[41]。
大數據算法造就的歧視和差異性的影響越來越普遍,保護大數據環境下的數據利益,需要制定原則、規則和針對其損害性質的特別補救措施,關鍵的一步是將關注的焦點從對個人的侵犯和傷害轉向對集體的侵犯和傷害。個人信息受隱私和數據相關法律法規的規制和保護。隱私權和個人數據得到保護的權利作為個人權利,無法覆蓋數據集體維度的保護。解決方案在于為代表集體利益的群體賦權、推行嚴格的問責制以及制定算法影響評估機制。