王大志,張 挺
(杭州師范大學 沈鈞儒法學院,浙江 杭州 310000)
自生成式人工智能聊天機器人ChatGPT發布以來,生成式人工智能法律風險規制問題便成為了學界的討論熱點。2023年3月24日,OpenAI公司表示因其開源數據庫可能存在的錯誤導致ChatGPT緩存出現問題,部分用戶可能看到其他用戶的個人信息,大約1.2%的用戶會受此次漏洞事件影響(1)參見March 20 ChatGPT outrage,“Here is what happend”,https://openai.com/blog/march-20-chatgpt-outage,最后訪問日期:2023年7月20日。。據此,許多學者都表達了對ChatGPT用戶數據隱私以及個人信息存在泄露風險的擔憂[1]。生成式人工智能可以通過學習海量的人類創造的內容來生成新的內容[2],與傳統人工智能相比,其創造能力得到了大幅度提升。生成式人工智能的運行十分依賴數據和算法的支持,因此,如何合理規制其數據處理和算法運行是預防其個人信息法律風險的關鍵所在。本文就生成式人工智能運用過程中可能引發的個人信息安全法律風險及規制困境進行分析,并結合我國及其他國家和地區的生成式人工智能立法現狀提出生成式人工智能個人信息安全風險規制的可行對策。
目前,生成式人工智能主要有兩種技術類型:第一種是生成式對抗網絡(Generative Adversarial Network,GAN)。GAN是一種常用的生成建模人工智能技術,廣泛應用于工業設計、游戲場景、動畫設計等領域。例如,FaceApp和ZAO兩款知名應用程序為用戶提供的編輯面部表情與換臉功能,均得益于對GAN的應用。第二種是生成式預訓練轉化器(Generative Pre-trained Transformer,GPT)[3]。以ChatGPT為例:其技術架構可分為“語料數據收集”“預訓練”和“微調”三個階段:第一,語料體系是語言模型的基礎,ChatGPT通過各種渠道收集數據信息,形成海量文本數據基礎;第二,預訓練階段,在具備了充分的語料基礎上通過算法對大規模語言模型進行訓練,賦予其理解自然語言、學習上下文生成自然語言的能力;第三,微調,即通過OpenAI研發的Codex模型,賦予GPT模型生成和理解代碼的能力,使其生成的答案更加合理[4]。ChatGPT的內容生成能力會隨著新數據的不斷涌入而升級,同時,也會產生一系列伴生風險。
生成式人工智能對數據的動態利用過程、算法機制、生成屬性都決定了其個人信息安全風險的多階段性。因此,對于生成式人工智能的個人信息安全風險的探究可以圍繞數據、算法、生成性內容三個要素展開。
1.個人數據層面。主要包括以下兩個方面:
(1)個人數據來源合法性風險。《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》)第13條規定了個人信息收集處理知情同意規則。無論是一般的互聯網應用還是生成式人工智能應用,在對用戶個人信息進行收集時,都需要通過隱私政策或個人信息法律保護政策向用戶告知其個人信息收集行為,再由個人信息主體決定是否允許個人信息被收集。特殊的是,生成式人工智能采取多階段的數據收集方式,每個階段都會存在個人數據混同收集的情況。因此,其個人數據來源合法性存在更大的法律風險。
第一,預訓練階段。ChatGPT類的生成式人工智能在預訓練階段需要對海量的數據進行收集。此階段對個人數據的收集幾乎完全脫離了《個人信息保護法》基本的“通知—同意”結構,導致知情同意原則在其預訓練階段失去了約束力。除此之外,通過網絡爬蟲技術獲得他人個人信息還可能違反我國《網絡安全法》第27條禁止個人非法獲取個人信息的規定,甚至可能觸犯侵犯公民個人信息罪。
第二,運行階段。以ChatGPT為例:生成式人工智能會對用戶的賬戶信息、通信信息、社交媒體等個人信息進行收集(2)參見openAI,“Privacy policy”,https://openai.com/policies/privacy-policy.,若拒絕提供個人信息,則無法獲得其完整服務。目前互聯網市場上的大多數應用程序都需要用戶在進行注冊時同意其隱私協議,否則就無法使用該軟件。被迫同意已經成為一種常見現象,這實質上是對用戶信息進行不當收集的表現[5]。
第三,內容生成階段。OpenAI公司在其發布的隱私策略中指出,用戶在與應用進行對話過程中所提出的問題與應用生成內容也將作為一種數據被其自動收集,用戶與應用對話的過程實際上就是被收集信息的過程。在此過程中,用戶自身的個人信息可能會以生成內容的形式而被其再次收集,該行為并未在用戶使用的過程中告知用戶。
(2)個人數據非法使用風險。除嚴守“知情同意”原則外,《個人信息保護法》第6條規定的“目的限制”原則要求信息處理者在收集處理個人信息時應當有“具體、清晰和正當的目的”,并且在后續處理個人信息的過程中不違反初始目的[6]。因此,生成式人工智能對個人數據進行收集之后,仍存在非法使用個人數據的風險。
第一,個人數據泄漏風險。生成式人工智能的技術性錯誤引發個人數據泄露。個人數據的存儲措施是否合規是保障其的關鍵。目前,OpenAI公司并未提供向用戶個人提供檢查其個人數據存儲庫的方式,其信息使用條款也未對用戶個人信息的數據存儲期限以及具體保護措施進行詳細的說明。根據我國《個人信息保護法》第17條第2款之規定(3)參見《中華人民共和國個人信息保護法》第十七條第2款規定。,個人信息并非可以無限期地保留,其存儲時間應當受到限制。實踐中,ChatGPT這種對信息存儲期限曖昧不明的做法,顯然不利于用戶的個人信息權益的保護。
第二,個人數據非法商業利用風險。OpenAI公司隱私策略關于個人信息的公開條款中指出,除法律要求外,仍會在用戶不知情的情況下將其個人信息提供給第三方,包括相關供應商和服務提供商等,其中包括用戶的商業信息以及網絡活動信息。這些帶有消費傾向性的個人信息進一步加劇了人工智能決策的算法歧視問題。
第三,個人數據跨境流動風險。數據已經成為國際競爭與合作的重要資源,個人數據不僅僅只包含著公民的個體利益,大范圍的公民個人信息傳輸還會觸及國家數據主權安全。首先,任何一個國家對他國公民的人信息進行非法收集都可能會引發數據壟斷與數字霸權等問題。其次,個人信息的大范圍傳播很可能會引發國家情報安全問題,一旦大量的敏感個人信息被人工智能非法傳輸,就很可能引發“數據竊取”以及“數據攻擊”等安全問題。以ChatGPT為例:其用戶的個人信息以及后續對應用提出的問題都會被傳輸到美國的OpenAI公司,以便其利用該數據與美國的第三方主體進行合作。若我國用戶所提的問題涉及個人信息、敏感信息甚至涉及國家安全、公共健康和安全等方面的重要數據,則存在著極大的法律風險。鑒于我國政府嚴格的互聯網準入與審查制度,中國大陸公民并不能直接注冊ChatGPT賬號。我國政府對ChatGPT能否進入我國互聯網市場還未有明確態度。目前,非授權地區用戶一般通過使用VPN“翻墻”或者通過“中間商”提供轉接的方式,購買國外手機號碼注冊ChatGPT賬號以獲取ChatGPT服務。該行為違反了我國《計算機信息網絡國際聯網安全保護管理辦法》等相關行政法律規定,轉接服務提供者使用OpenAI、ChatGPT等具有辨識性名稱的行為,還可能違反《中華人民共和國商標法》(4)參見《中華人民共和國商標法》第五十七條規定。《中華人民共和國網絡安全法》《中華人民共和國個人信息保護法》(5)參見《中華人民共和國個人信息保護法》第三十八條規定。等法律規定。可見,ChatGPT對非授權區域的個人信息進行收集并不具備法律上的正當性。
2.算法運行層面。如前文所述,若在數據收集階段未能對個人數據收集及處理行為進行必要的規制,其不良影響必定會延續到生成式人工智能的算法運行階段。人工智能算法歧視問題由來已久,算法將人們在網絡世界中的網絡習慣與喜好、購物記錄、GPS位置數據等各種網絡足跡和活動,轉變為各種可預測的數據,個人信息主體無可避免地成了生成式人工智能計算的客體,隨著我國《互聯網信息服務算法推薦管理規定》(以下簡稱《算法推薦管理規定》)(6)參見《互聯網信息服務算法推薦管理規定》第三十一條規定。的發布,其算法法律風險將進一步加劇。
(1)算法黑箱侵犯個人數據主體權利。生成式人工智能能力的飛躍性提升帶來了更加復雜的人工智能算法黑箱問題。算法黑箱是指算法模型運行過程中存在的技術盲區,我們無法從算法模型的外部直接觀察或者打開其那日不了解數據的處理過程[7]。簡言之,很大程度上我們無法回答諸如“為什么人工智能會做出這樣的判斷”的問題。因此,司法實踐中也就難以對其生成性內容的合法性做出準確的判斷,在違背“知情同意”原則的同時,還會產生潛在的個人信息損害問題。
(2)數據偏見引發的算法偏見與算法歧視。人工智能的歧視性問題根本上取決于其背后算法訓練的數據,個人數據的不當收集和處理行為是引發生成式人工智能算法偏見或算法歧視的根本原因。ChatGPT是基于語料數據喂養和RLHF強化訓練的產物,它所輸出的內容仍然是原始文本數據、算法模型和系統設計者的價值取向。其文本輸出看似客觀中立,但本質上仍體現著其背后操控者的意志[8]。因此,其算法偏見與算法歧視規制問題也需要進行討論。與傳統算法模型相比,ChatGPT算法不僅依靠其內在的機器學習,還介入了許多人為因素[9]。人工促進算法糾偏雖然能夠提升ChatGPT的智能化程度與文本的準確性,使其在交互過程中產生的內容更易于理解。但因為人工標注受標注者偏好的影響,機器學習的算法框架本身便存在偏見,二者一旦疊加便會導致算法偏見的負面效應倍增。因此,生成式人工智能算法偏見的產生渠道更加多樣,風險也更加難以預防。
3.生成性內容層面。與傳統決策式的人工智能相比,生成式人工智能的能力并不是簡單的“分析—決策”過程,更體現在其迭代發展的“創新”能力。以ChatGPT為例:openAI公司最新發布的ChatGPT-4不僅能夠依據存儲和重復的知識進行推理和決策,還展示出了比以往人工智能更強的創造性和協作性。例如,GPT-4不僅可以創作歌曲、編寫劇本、生成各類符合用戶要求的文本,而且其編程能力也得到了進一步提升(7)參見Microsoft Research,“Sparks of Artificial General Intelligence:Early experiments with GPT-4”,https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/.。其生成能力的提升,同樣會引發個人信息安全風險:一是生成式內容泄露個人信息。如前文所述,用戶在與應用進行對話過程中所提出的問題與應用生成內容也將作為一種數據被其自動收集。因此,用戶自身的個人信息與交互內容可能會以新的生成內容的形式被泄露。二是非法利用生成式人工智能生成惡意盜取個人信息。GPT-4極大程度地降低了攻擊代碼編寫的技術門檻,具備了無代碼編程能力。在此過程中,個人信息也面臨著被生成的惡意程序盜取的巨大風險,成為第三方盜取個人信息的工具。
1.國外生成式人工智能立法實踐。歐盟、美國等國外生成式人工智能立法實踐表現如下:
(1)歐盟方面。歐盟對于人工智能的立法討論仍集中于傳統人工智能領域,尚未針對生成式人工智能進行單獨立法,但其人工智能立法與實踐仍處于世界前列,形成了以立法引領人工智能發展的基本格局。2023年6月14日,歐洲議會投票通過《人工智能法案》草案(8)參見澎湃新聞:《第一部AI監管法案要來了?歐洲議會通過〈人工智能法案〉草案》,https://www.thepaper.cn/newsDetail_forward_23507218,最后訪問日期:2023年7月21日。(以下簡稱《法案》),形成了基本的人工智能法律治理體系。《法案》采取了寬泛的AI系統定義(9)參見歐盟《人工智能法案》草案第三條第(1)款規定。,保證了《法案》對包括生成式人工智能在內的未來新興人工智能系統的廣泛適用性,第三條第(9)—(33)款對人工智能所涉及的數據類型進行了分類與解釋與《GDPR通用數據條例》(以下簡稱GDPR)中對個人數據的解釋保持一致(10)參見《GDPR 通用數據保護條例》第一章第4條第(1)款規定。。可見,從對個人數據的定義以及個人數據的處理方式來看,歐盟在人工智能個人信息風險治理層面最大限度地促使《法案》與《通用數據條例》接軌;同時,歐盟部分地區也已經采取了相應措施應對ChatGPT產生的風險。例如,意大利個人數據保護局(DPA)針對ChatGPT平臺出現的用戶對話數據和付款服務支付信息丟失情況做出了回應,DPA認為平臺并未履行收集處理用戶信息的告知義務,其收集和存儲個人數據的行為缺乏法律依據,宣布從2023年3月31日起禁止使用ChatGPT,限制OpenAI公司隨意對意大利用戶數據進行收集與處理,同時對此次事件進行立案調查(11)參見澎湃新聞:《意大利要求ChatGPT公開數據處理邏輯,滿足才能重新上線》,https://www.thepaper.cn/newsDetail_forward_22681327,最后訪問日期:2023年6月25日。。
(2)美國方面。作為最早對人工智能進行探索和ChatGPT的產生地,美國為確保自身在人工智能領域的全球領導地位,在立法層面也做了許多嘗試。在傳統人工智能層面,美國主要采取人工智能+具體領域的法律規制方法。例如,人臉識別領域,《加州人臉識別技術法》強調在保障公民隱私及自由與發揮人臉識別技術的公共服務優勢方面尋求平衡(12)參見環球律師事務所:《關于〈加州人臉識別技術法案〉的亮點評析》,https://www.lexology.com/library/detail.aspx?g=d3f245f8-d1dc-491b-9e6e-37cd6793a8a6,最后訪問日期:2023年6月25日。。生成式人工智能方面,2020年5月,美國《生成人工智能網絡安全法案》((GAINS)Act)發布。該法案要求相關部門明確人工智能在美國的應用優勢和障礙,積極比較美國與其他國家的人工智能戰略,評估供應鏈風險并向國會提供解決風險的方案。2023年4月13日,美國商務部下設的國家遠程通信和信息管理局(NTIA)發布了一項有關AI可歸責性政策的征求意見通知(AI Accountability Policy Request for Comment),其中就包括生成式人工智能生成性內容的治理問題。該征求意見通知指出,傳統的AI審計已無法覆蓋生成式AI的威脅,如信息扭曲、虛假信息、深度偽造、隱私入侵等(13)參見U.S.Department of Commerce,“Department of Commerce Establishes National Artificial Intelligence Advisory Committee”,https://www.commerce.gov/news/press-releases/2021/09/department-commerce-establishes-national-artificial-intelligence.。2023年5月,基于最新的人工智能技術發展現狀,美國白宮更新發布了《人工智能研究和發展戰略計劃:2023年更新版》,其主要內容就包括理解并解決人工智能應用引發的倫理、法律和社會問題。
(3)其他國家和地區。雖然已有的生成式人工智能的法律成形較少,但為了應對ChatGPT帶來的風險沖擊,許多國家和地區都已經采取了相應的管控措施,其中不乏保障個人信息安全之舉。例如,法國、德國、愛爾蘭等國家已經開始效仿意大利的做法,加強對ChatGPT的管控。除此之外,加拿大、韓國、日本等國家同樣在人工智能領域采取了一系列規范和限制措施(14)參見王衛:《歐洲人工智能技術立法邁出關鍵一步》,http://epaper.legaldaily.com.cn/fzrb/content/20230522/Articel05002GN.htm,最后訪問日期:2023年6月25日。。值得一提的是,2023年5月25日,新西蘭信息專員辦公室(OPC)發布《生成式人工智能指南》(15)參見Privacy Commissioner,“Generative Artificial Intelligence-15 June 2023 Update”,https://www.privacy.org.nz/publications/guidance-resources/generative-artificial-intelligence-15-june-2023-update/.,指出生成式人工智能對新西蘭公民個人信息的使用應當受新西蘭《2020隱私法》保護,公民如果認為自己的隱私受到了侵犯,可以向OPC投訴。
2.我國生成式人工智能立法中個人信息安全治理。宏觀層面,我國人工智能治理已經初步形成了從法律、部門規章到地方性法規的多層次規范治理結構。生成式人工智能治理方面,2023年7月10日,國信辦公布《生成式人工智能服務管理暫行辦法》(下稱《人工智能服務管理暫行辦法》),旨在促進生成式AI健康發展和規范應用。該辦法共21條,主要對辦法的適用范圍、生成式人工智能定義、責任主體認定進行了規定,除此之外還為生成式人工智能服務主體設置了數據合規責任。生成式人工智能服務主體在一定程度上也是算法服務提供主體和深度合成技術服務提供主體。因此,與生成式人工智能治理密切相關的法律還可以追溯到此前頒布的兩項部門規章,《互聯網信息服務算法推薦管理規定》和《互聯網信息服務深度合成管理規定》(以下簡稱《深度合成管理規定》)之中。至此,我國形成了對人工智能法律治理框架的基本雛形。在個人信息數據治理方面,《人工智能服務暫行管理辦法》設置了一系列轉致性條款,將生成式人工智能個人信息數據的監督檢查和法律責任歸攏到我國網絡安全和數據隱私保護領域的三部基礎性法律,即《網絡安全法》《數據安全法》和《個人信息保護法》之中。《算法推薦管理規定》與《深度合成管理規定》雖然沒有直接對生成式人工智能做出規定,但其內容仍可成為對生成式人工智能個人信息數據治理的重要補充。
總體而言,我國對生成式人工智能的法律規制走在世界前列,無論是對生成式人工智能本身的規制,還是與其息息相關的算法和深度合成技術都不乏法律指引。就個人信息保護方面來說,雖然相關條款散列分布于不同的法律文件中,但在法律層面仍能夠做到與《個人信息保護法》等相關法律的有效銜接。
從具體的法律規范中可以瞥見,各國法律對生成式人工智能持相對謹慎的態度。就已有的人工智能立法實踐來看,大部分國家都在其立法中設置了一系列責任性條款,確定了以限制為主的基本方向。對比歐盟、美國、中國和其他國家地區的立法來看,不同法域的人工智能立法內容仍存在共通之處。
1.以個人信息數據及隱私保護為核心。各國人工智能法律規制皆旨在保護自身的數據安全及國民的個人信息權利,個人信息數據及隱私保護的理念在人工智能法律中具有十分突出的體現。歐盟《人工智能法案》重點關注AI系統的透明度以及個人數據保障義務。法案第四編對AI系統的透明性義務做出了具體規定,第五編第54條對AI監管沙箱中的個人數據的合法采集、風險管控、保留期限,以及技術公開進行了明確規定。美國的《加州消費者隱私法》(CCPA)、《紐約隱私法》和《紐約禁止黑客攻擊和改善電子數據安全(SHIELD)法》,盡管沒有直接明確生成式人智能這一責任主體,但有些條款包含了與自動決策相關的條款,對人工智能的個人數據治理具有很大的作用。我國《生成式人工智能管理暫行辦法》亦十分重視對生成式人工智能個人信息收集階段的數據來源合法性審查,直接對生成式人工智能服務提供者的個人信息安全責任及義務進行了規定。《算法推薦管理規定》中明確了對數據保護、算法透明度以及算法歧視的相關要求(16)參見《互聯網信息服務算法推薦管理規定》第7條、第17條規定。。在生成式人工智能的生成性內容方面,《深度合成管理規定》對深度合成服務提供者的個人信息安全保障義務做出了相應規定(17)參見《互聯網信息服務深度合成管理規定》第7條規定。,第三章對深度合成技術的數據和技術管理規范做出了相應要求,涉及個人信息數據的,應獲得個人信息主體的同意(18)參見《互聯網信息服務深度合成管理規定》第14條規定。。
2.以風險防控為根本目標。相較于傳統的司法救濟模式,各國都不約而同地采取了以風險預防為目的的立法模式,重視對人工智能的過程性監管。歐盟《人工智能法案》的核心內容在于建立人工智能系統的風險分級體系,將其系統風險分為不能接受的風險、高風險、有限風險、最小風險,依據不同風險采取不同的人工智能規范標準,并對高風險人工智能系統的數據治理標準進行了特別規定(19)參見《人工智能法案》草案第一編第10條第1款規定。。我國《生成式人工智能管理辦法》第7條規定,生成式人工智能服務提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責,將生成式人工智能的個人數據安全風險的規制提前到了預訓練階段,形成了從數據收集到內容生成全階段式的法律規制。除此之外,《辦法》第6條對生成式人工智能產品提供前需要進行的安全評估與算法備案作了具體要求,預先對生成式人工智能進行安全評估。
3.以“知情同意”為基本原則。從整體上看,生成式人工智能對個人數據的收集及利用都必須處于個人信息保護法律體系規制之下,因此“知情同意”原則仍是其個人數據處理的基本原則。對人工智能的個人信息數據收集及利用提出了知情同意的要求,甚至比一般行業更加嚴格的規定,如歐盟《人工智能法案》草案對高風險AI系統的透明度及告知義務做出了單獨規定(20)參見歐盟《人工智能法案》草案第13條第(3)款規定。。我國《人工智能管理辦法》第7條第3款規定生成式人工智能收集的數據涉及個人數據的,應當征得個人信息主體的同意。
與一般的個人信息侵權案件相比,生成式人工智能引發的個人信息風險可能是顛覆性且無法挽回的,生成式人工智能對個人信息數據的濫用會產生知識產權侵權、算法歧視等問題。因此,對于生成式人工智能個人信息安全的規制不能完全依賴傳統的事后救濟模式,而要以風險預防為重點。
雖然我國對于人工智能治理的立法正處于穩步推進階段,在生成式人工智能以及深度合成等領域甚至處于領先地位。但是,從實然的角度來說,我國目前以個人信息保護為核心的生成式人工智能個人信息風險的規制仍然存在著許多困難。
1.生成式人工智能領域個人信息保護立法專業化程度欠缺。我國目前的人工智能立法在引導人工智能發展的同時并未忽視個人信息及數據安全的保護(21)參見《生成式人工智能服務管理辦法(征求意見稿)》第4條第5款規定。。但從具體規范來看,人工智能領域立法對于個人信息安全的保護條款屬于較為空泛,專業性仍有欠缺,并未充分發揮風險預防的作用。在數據治理層面,《人工智能服務管理暫行辦法》對生成式人工智能服務提供主體的個人數據來源合法性義務進行了規定,但互聯網數據混同的現狀很難得到改變,對生成式人工智能所收集的個人數據的來源合法性進行追溯并不具有可期待性。在生成性內容的治理層面,《人工智能服務管理暫行辦法》第4條雖然規定利用生成式人工智能生成的內容應當真實準確,卻并未對其真實準確的標準進行解釋,也并未明確生成式人工智能服務提供者的過錯認定標準。
2.責任主體的復雜性與重合性導致監管難問題。深度合成技術,是指利用以深度學習、虛擬現實為代表的生成合成制作文本、圖像、音頻、視頻、虛擬場景等信息的技術[10],生成式人工智能的生成性內容依靠的就是深度合成技術,生成式人工智能實際上是數據、算法與深度合成技術相結合的綜合體。因此,在生成式人工智能個人信息侵權行為發生時,會產生監管責任主體競合的問題。當前,我國對人工智能的監管主要呈現出多渠道、多部門的現狀,有關部門包括國家市場監督管理總局、國家互聯網信息辦公室、工業和信息化部、科技部等。多監管主體的設置有利于規制多領域的人工智能法律風險,相反地,過多的主體參與到治理過程中也會產生新的問題。例如,監管責任的競合會導致監管部門之間的不良競爭,在一定程度上還會產生利益沖突,阻礙執法工作;面對情況復雜、涉及范圍廣的情況,各個監管主體則可能會相互推諉。
3.生成式人工智能治理規范仍存在法律漏洞。當前的人工智能治理規范尚不完備,存在法律漏洞。就《辦法》的具體規定來看,雖然對生成式人工智能服務提供者的主體責任進行了規定,明確了生成式人工智能產品的技術研發商、應用開發商、提供API接口等接入服務的提供商均需要為其生成的內容承擔責任,但卻并未對生成式人工智能服務的用戶責任進行明確[11]。如前文所述,生成式人工智能的法律風險不僅表現在生成式人工智能服務內部,其外部風險,即遭受非法利用的風險也需要進行法律規制。
1.生成式人工智能對“知情同意”規則的消解。我國《個人信息保護法》采取賦權的方法,確立了自然人的個人信息權,個人信息主體在個人信息的處理過程中享有知情權、決定權(22)參見《中華人民共和國個人信息保護法》第44條規定。。在大數據與人工智能技術的沖擊下,以個體控制權為核心構建起來的知情同意規則逐漸失靈,從而導致我國個人信息保護法式微。首先,從信息主體層面來說,個人信息控制權以個體對個人信息支配的理性為前提,實際上,個體對人工智能信息收集存在理解上的壁壘,無法真正知悉人工智能對個人信息的收集范圍與利用程度。作為信息收集一方的人工智能主體架空了個體的權利,導致個人無法支配自身的個人信息。因此,大多數人也已經接受了“數據裸奔”的狀態,其知情同意權也成了一種可有可無的權利。其次,就以ChatGPT為代表的生成式人工智能來說,其隱私政策將收集用戶個人信息作為一種理所當然的權利,對其處理信息的范圍、目的方式、保存期限、算法推薦方法都未進行有效通知,用戶既無法完全知曉個人信息被收集后的用途,也不存在真正意義上的同意,從而直接削弱了或剝奪個人信息的自決權。
2.生成式人工智能個人數據處理的目的限制原則標準統一難。我國《個人信息保護法》第6條對目的限制原則做出了規定。個人信息處理者在處理個人信息之前,需要明確其處理該信息的目的,且目的必須是適當的、相關的和必要的,其處理行為不能超出信息主體初始的授權范圍。但生成式人工智能對于個人數據的利用范圍及邊界仍未明確。例如,OpenAI公司隱私策略關于個人信息的公開條款中指出,除法律要求外,某些情況下會將用戶的個人信息提供給第三方,在此情況下目的限制原則難以得到嚴格貫徹。
反觀立法現狀,我國的生成式人工智能主要依靠行政監管,在人工智能以及大數據的沖擊下,個人信息損害的無形性、潛伏性、未知性、難以評估等特征更加突出[12]。除此之外,ChatGPT類的生成式人工智能對侵權責任制度產生了巨大影響,生成式人工智能侵權具有侵權主體復雜化、侵權行為智能化、因果關系多元化的特點[13]。雖然現有個人信息侵權適用過錯推定責任,在一定程度上減輕了數據弱勢群體舉證責任,加強了相關信息處理平臺的注意義務。但即使如此,生成式人工智能對個人信息造成的損害仍不易被察覺,進一步加劇了“舉證難”的問題。在此情況下,如何確定生成式人工智能的個人信息損害標準,將司法作為其個人信息風險治理的一種兜底方式就顯得尤其重要。
與歐盟《法案》相比,我國立法仍未能充分發揮風險預防的作用。因此,在后續的生成式人工智能立法中應當繼續強化法律的風險預防作用。
1.個人數據來源合法化治理。通過立法明確生成式人工智能收集個人數據來源的合法性標準,構建數據分類分級治理結構。第一,對于不同來源的個人數據采取不同的處理方法:一是如果生成式人工智能獲取的個人數據來自生成式人工智能應用對公民個人信息的直接收集,則其收集行為需要嚴格遵守《個人信息保護法》的相關規定,以個人信息主體的同意為前提,并明確相應的存儲期限與利用目的,在后續的數據處理利用過程中接受目的原則的限制;二是如果生成式人工智能個人信息來自已經公開的數據,此時生成式人工智能開發者雖然可以根據《人信息保護法》第27條的規定處理已公開的個人信息,但對其對于此類個人信息的利用要受目的限制原則的限制;三是禁止生成式通過爬蟲手段非法獲取數據的行為,避免生成式人工智能的個人數據收集脫離法律的監管。第二,進一步完善生成式人工智能個人數據的收集、處理規范程序,改善個人數據與其他數據混同治理的局面。生成式人工智能對于數據的收集及處理并不局限于個人數據范圍,互聯網中其他的海量數據也是生成式人工智能訓練數據的來源。因此,在對數據進行收集和處理時,應當對個人數據的來源進一步進行審查,并采取更加嚴格的保密及存儲措施對收集到的個人信息進行保護。第三,以類型為區分標準,對不同的個人信息采取不同程度的法律保護策略。首先,生成式人工智能的個人信息保護立法應當進一步強化對敏感個人信息的法律保護,審慎評估生成式人工智能的風險等級。例如,在醫療健康、人臉識別、生物基因檢測等領域,應當直接禁止或者設置更為嚴格的備案制度及準入門檻,限制生成式人工智能對此類個人信息的收集與利用,避免敏感個人信息的損害對個人信息主體帶來不可挽回的“災難”。其次,促進生成式人工智能個人數據的去識別化管理。對生成式人工智能服務提供主體提出個人數據匿名化處理要求,在利于保障個人信息主體個人信息權益的同時,也能夠促進生成式人工智能數據的個人數據治理,明確區分個人信息權與企業個人數據所有權之間不同的權利話語體系[14]。
2.優化責任承擔及監管主體結構。在責任主體層面,生成式人工智能用戶不應被排除在侵權責任承擔主體之外。通過立法完善生成式人工智能用戶的責任,對惡意利用生成式人工智能盜取個人信息,破壞生成式人工智能個人數據安全生態進行打擊,切割平臺責任與個人責任,減輕生成式人工智能服務提供主體的負擔,形成生成式人工智能服務提供者、技術開發者、服務使用者的三方權責機制,促進生成式人工智能風險責任承擔權利義務的有效、合理分配。與此同時,適當簡化生成式人工智能監管主體,明確生成式人工智能數據、算法、生成性內容的監管責任主體,構建多層級、分階段的監管體系,有利于各部門在監管過程中各司其職,相互配合,形成監管合力。
3.生成式人工智能個人數據跨境流通的漏洞彌補。個人數據跨境流通會引發國家數據安全風險,生成式人工智能個人數據的跨境問題仍需要立法進一步明確。第一,完善生成式人工智能的數據出境評估機制。個人數據的跨境流通應當經過相關組織和監督機關的安全評估,針對不同性質的數據,采取差異化的管理評估方法,嚴格保障敏感個人信息跨境流動安全。國家互聯網信息辦公室審議通過的《數據出境安全評估辦法》對出境數據的類型、數量以及評估辦法等方面作出了規定,個人數據出境需要經過初步安全評估,并且對涉及國家數據安全、個人數據權利保護等不同風險類型的數據出境采取了不同的管控措施。第二,除了合理設定的各方權利義務、滿足相應的標準和程序外,個人數據出境還需經原數據主體的單獨同意和明確授權,建立多階段式的個人數據跨境流動監管機制。
1.知情同意規則完善。第一,健全通知規則。除了對用戶個人信息收集行為進行通知以外,生成式人工智能后續的個人數據利用以及人工智能自動化處理的情形也應向用戶披露,告知用戶處理其個人信息的重要性以及處理行為可能造成的影響,增加生成式人工智能服務提供者的風險通知義務。第二,完善同意機制。無論數據控制者通過何種方式對用戶的個人信息進行利用,都應當取得用戶的明示同意;同時,還應依據個人信息的敏感程度區分個人信息的類型,對個人敏感信息的處理設置更加嚴苛的同意要件。例如,對于對涉及兒童個人信息的收集及處理的,應當以取得其監護人同意為前置條件[15]。
2.目的限制規則完善。由于不同的生成式人工智能對于數據利用的目的與程度各有不同,建立一套具有廣泛適用性的范式規范生成式人工智能個人數據利用邊界十分困難。未來,生成式人工智能會被應用于現代社會的各個領域,不同領域之間的數據類型及敏感程度亦不相同。因此,建立場景化的生成式人工智能個人數據利用標準,限制生成式人工智能服務提供者個人數據的使用目的,目的的變更以知情同意原則為前置條件,可以有效避免個人信息完全脫離信息主體的控制范圍。
1.統一隱私政策規范標準。一方面,推進生成式人工智能企業成立行業協會,發布統一的個人數據收集、處理行業技術指南,統一生成式人工智能個人數據處理的基礎性標準。通過行業規范的建立,完善生成式人工智能應用的個人信息保護機制,建立可信賴的人工智能體系[16]。另一方面,相關部門應當對生成式人工智能的隱私政策進行審查,促進其隱私政策與個人信息使用條款合法合規。隱私條款本質仍然是格式條款,條款提供方會具備天然的信息優勢和締約地位,往往具有明顯的利益偏向性[17]。預先確立隱私政策的標準,嵌入個人信息權益保障條款,可以有效矯正知情同意的虛化現狀,以保障用戶對其個人信息利用的知情權不受侵害。
2.審查監管促進算法糾偏。我國《算法推管理規定》第8條對算法推薦服務提供者的算法模型審查等法律義務做出了規定。在此規范的指引下,生成式人工智能在投入應用之前應該接受嚴格的法律審查,避免算法模型在機器學習的過程中被人為地滲入算法偏見,將規范文件的要求以技術標準的形式編入算法程序中,可以有效地預防其法律風險。除此之外,加強對人工標注的算法偏見的審查與監管亦是規范生成式人工智能算法的重要措施。人工標注行為會帶有強烈的個人性偏向,平臺應當事先設定人工標注的標準,規范人工標注行為,促使其合法合規,并及時對明顯帶有算法偏見的標注進行糾正。
司法救濟同樣是生成式人工智能風險預防的重要組成部分,發揮司法救濟在生成式人工智能個人信息風險治理的兜底作用,有利于形成“平臺審查—行政監管—司法救濟”的多元主體治理體系。
1.明確生成式人工智能侵權的歸責機制。當前,我國立法并未對生成式人工智能侵權做出特殊規定,從現有的侵權理論來看,生成式人工智能是否能夠成為獨立的侵權法律主體,仍存在爭議。有學者認為其侵權責任的承擔可以透過“人工智能的面紗”尋找背后的侵權責任承擔主體[18]。在個人信息侵權方面,其潛在的侵權主體包括生成式人工智能服務提供者、生成式人工智能用戶以及生成式人工智能技術開發者。在侵權歸責原則方面,因生成式人工智能責任主體的復雜性與多元性,其侵權責任承擔有必要依據其具體的侵權場景做出區分,就一般侵權而言,其歸責原則仍可依據我國《民法典》侵權責任編的一般規定采取過錯責任原則。在個人信息侵權方面,考慮到個人信息主體與生成式人工智能的主體差異性,在采取無過錯責任原則減輕個人信息主體舉證責任的同時,仍需考慮生成式人工智能平臺是否履行了基本個人信息安全的注意義務,更好地保障數據權主體的基本權益。
2.發揮個人信息公益訴訟的作用。公民個人作為弱勢群體在維護自身數據權過程中的不利地位,今后應適時引入集體訴訟機制。例如,可以將生成式人工智能行政監管責任主體或者技術行業協會作為訴訟代表,向不當收集利用個人數據的生成式人工智能企業提起訴訟,從而彌補個人數據權主體在生成式人工智能數據治理中的劣勢,保障個人信息主體的合法權益。
生成式人工智能引發的個人信息安全風險具有多層面、多階段的特點,從預訓練階段的個人數據收集到算法運行再到最后的生成性內容輸出階段所產生的風險,都會不同程度地對個人信息主體的合法權益產生影響,只有通過構建分階段的個人信息風險規制體系,才能夠保障生成式人工智能的合規運行。ChatGPT為代表的生成式人工智能是人類數字化社會發展的重要成就,在為生產生活提供便利的同時,其伴生風險也會引發社會公眾對于科技的信任危機,法律風險只是其發展風險的組成部分之一,其所反映的深層次問題是如何平衡人與科技的發展沖突。生成式人工智能的發展究竟能否促進人類的進步還是進一步擠壓人類的社會生存空間,仍需要從法律、道德倫理等多個維度進行審慎考量。