摘 要:生成式AI的技術特性使其對《個人信息保護法》建構的個人信息保護體系產生了挑戰,主要包括:生成式AI雖然解決了讓語言模型使用超大體量無人工標注數據進行預訓練的難題,但其采用的技術路線也使大語言模型成為完全的“技術黑箱”,進而使開發者難以遵守個人信息處理的知情同意規則;無論是依據“目的限定原則”還是“場景理論”,生成式AI的技術特性都使其難以滿足在“合理范圍”內處理已公開個人信息的法定要求;生成式AI的技術特性使大語言模型的輸入端和輸出端都存在對信息主體的敏感個人信息權益和個體隱私權的侵害風險。我們應該基于“包容審慎”的基本風險規制理念,通過調整生成式AI領域知情同意規則的適用方式、重塑生成式AI領域已公開個人信息的處理規則、設立生成式AI領域個人信息中人格權保護的行政規制措施等途徑,實現創新技術發展和個人信息保護之間的平衡。
關鍵詞:生成式人工智能;ChatGPT;個人信息;風險規制
中圖分類號:DF36 文獻標志碼:A
一、引言
生成式AI(Generative AI)也即生成式人工智能,它是人工智能技術的一種下屬類型,指“能夠自主生成新的文本、圖像、音頻等內容的人工智能系統”。①2023年8月15日生效的《生成式人工智能服務管理暫行辦法》第22條將生成式AI技術界定為“具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術”。生成式AI不同于傳統上的決策式AI(Decision-making AI),后者的特性在于通過分析大規模數據集,研究數據集內存在的條件概率,總結出相對穩定的規律,并據此對未來作出預測,輔助人們作出相應的決策。可見,決策式AI偏重通過算法模型對大數據分析所總結的規律作出對未來可能性的預測,生成式AI則偏重通過算法模型對大數據分析所總結的規律生成全新的信息內容。簡言之,傳統決策式AI的主要功能在于“作出預測”,而新興的生成式AI的主要功能在于“產出內容”。
See Philipp Hacker, Andreas Engel & Marco Mauer, Regulating ChatGPT and Other Large Generative AI Models, FAccT ’23: Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, 2023, p.1113.
正是由于兩種不同人工智能的主要功能存在這種差異,因此,決策式AI通常被應用于需要對用戶需求、周遭環境、風險概率進行預測的場景,如電商數字平臺的個性化推薦服務、自動駕駛汽車的環境自動監測功能、金融行業的投資風險、借貸主體違約風險判斷等。而生成式AI的主要應用場景則是需要高效、快速、自主生成特定數字信息內容的領域,如ChatGPT用于自主生成文字/代碼類的內容、Midjourney用于自主生成圖像類的內容、Sora用于自主生成視頻類的內容、MuseNet用于自主生成音樂音頻的內容等。
現 代 法 學 2024年第4期
黃 锫:生成式AI對個人信息保護的挑戰與風險規制
生成式AI的出現標志著新科技浪潮的興起,是人工智能發展的全新階段。它不但會成為推動數字經濟高速發展的新引擎,而且還將深刻地改變人類生活領域的方方面面。然而,在生成式AI迅猛發展的背后,暗含的風險已經隱約可見。這主要包括:第一,由于生成式AI的類人化程度很高,人們常會對其產生深度信賴,這也就會導致諸如ChatGPT類的生成式AI可以“通過優秀的交互能力在情景化和個性化語境中對用戶加以高效率、大規模、隱秘性地操縱、說服和影響”
張欣:《生成式人工智能的算法治理挑戰與治理型監管》,載《現代法學》2023年第3期,第112頁。;第二,生成式AI的大語言模型預訓練時使用的數據中包含了大量現有受到知識產權法保護的作品,在此基礎上輸出的數字內容可能會產生侵害他人知識產權的風險
參見劉曉春:《生成式人工智能數據訓練中的“非作品性使用”及其合法性證成》,載《法學論壇》2024年第3期,第67頁。;第三,生成式AI所具有的深度合成功能使其可以產出以假亂真的虛假信息;
參見張凌寒:《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國路徑》,載《法律科學(西北政法大學學報)》2023年第3期,第48頁。第四,生成式AI是基于主流人群的語料數據庫進行預訓練的,這就使其中對少數人群的歧視性觀念會被整合入輸出的信息內容中
參見於興中、鄭戈、丁曉東:《生成式人工智能與法律的六大議題:以ChatGPT為例》,載《中國法律評論》2023年第2期,第17-18頁。;第五,生成式AI與下游互聯網平臺結合后會成為Web3.0時代的網絡“權力工具”,導致平臺權力的再中心化風險
參見陳全真:《生成式人工智能與平臺權力的再中心化》,載《東方法學》2023年第3期,第61頁。;第六,生成式AI中算法模型的預訓練需要海量的數據“投喂”,這些海量數據中包含了大量的個人數據,由此會在個人數據的收集廣度、處理深度及結果應用上存在侵害風險。
參見劉艷紅:《生成式人工智能的三大安全風險及法律規制——以ChatGPT為例》,載《東方法學》2023年第4期,第32-33頁。
在這些可能由生成式AI引發的風險中,本文特別關注生成式AI對個人信息保護產生的挑戰及其風險規制問題。這是因為,我國已于2021年11月1日正式施行《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》),其中對于數字時代個人信息的保護作出了全面系統的規定。然而,生成式AI卻是勃興于2022年的年底。這意味著在《個人信息保護法》的制定過程中并未納入對生成式AI發展的相關考量,這就導致該法中關于個人信息保護的規定在生成式AI勃興之后面臨著諸多挑戰。這些挑戰不但可能會造成我國個人信息保護的新型風險,而且也可能會成為我國生成式AI產業發展的法律羈絆。因此,在生成式AI興起的當下,亟須研究其對《個人信息保護法》建構的個人信息保護法律框架產生的挑戰,并在此基礎上探討對應的風險規制路徑。
以下本文將逐一分析生成式AI對個人信息處理的知情同意規則、已公開個人信息處理規則、敏感個人信息保護等三個方面帶來的挑戰及其技術成因。進而,本文將基于“包容審慎”的基本風險規制理念,探討應對生成式AI侵害個人信息的具體風險規制路徑,以期為《個人信息保護法》的修訂與“人工智能法”的制定提供一些智識貢獻。
2024年5月9日,《國務院辦公廳印發關于
〈國務院2024年度立法工作計劃〉的通知》(國辦發〔2024〕23號)提出“預備提請全國人大常委會審議‘人工智能法’草案”。全國人大常委會公布的《2024年度立法工作計劃》中,也在預備審議項目中提及要研究“人工智能健康發展”方面的立法項目。
二、生成式AI對知情同意規則的挑戰及其成因
“告知—同意”是《個人信息保護法》中設定的處理個人信息的基本原則。
參見龍衛球主編:《中華人民共和國個人信息保護法釋義》,中國法制出版社2021年版,第57頁。它要求個人信息處理者在無法定例外的情形下,都應當告知信息主體并經其同意后,才能合法地處理個人信息,也被稱為個人信息處理的“知情同意規則”。
程嘯:《論我國個人信息保護法中的個人信息處理規則》,載《清華法學》2021年第3期,第61頁。包含個人信息的數據是生成式AI在大語言模型預訓練階段最為重要的訓練數據之一,因此,生成式AI開發者屬于《個人信息保護法》中規定的個人信息處理者
《生成式人工智能服務管理暫行辦法》第9條明確規定生成式人工智能服務提供者依法承擔個人信息處理者責任,履行個人信息保護義務。,在處理個人信息數據時也應當遵守知情同意規則。然而,生成式AI的技術特性對個人信息保護中的這一首要規則提出了挑戰。
參見丁曉東:《論人工智能促進型的數據制度》,載《中國法律評論》2023年第6期,第177頁。
(一)生成式AI開發者難以遵守知情同意規則
根據《個人信息保護法》第13條的規定,除法定的6種情形之外,個人信息處理者都應在取得信息主體(個人)的同意之后,才能處理個人信息。同時,根據《個人信息保護法》第14條、第17條的規則設定,如果是基于個人同意處理個人信息,那么該同意必須是在信息主體充分知情的前提下作出。個人信息處理者必須真實、準確、完整地向信息主體告知個人信息處理目的、方式等內容。并且,如果個人信息處理目的、方式發生變更,應當重新取得信息主體的同意。
《生成式人工智能服務管理暫行辦法》中第7條第(2)項要求生成式人工智能服務提供者在開展大語言模型預訓練與優化訓練等數據處理活動時,對于涉及個人信息的數據使用應當取得個人同意。
生成式AI的大語言模型預訓練使用的超大體量訓練數據中包含了大量的個人信息。這些超大體量的訓練數據一方面來自開發者購買或者通過網絡爬蟲技術從互聯網上獲取的數據,如ChatGPT的大語言模型預訓練階段使用的就是從互聯網上獲取的超3000億單詞的數據
See Alex Hughes, ChatGPT: Everything You Need to Know about OpenAI’s GPT-4 Tool, https://www.sciencefocus.com/future-technology/gpt-3, last visited on March 19, 2024.,其中包含了大量的個人信息;另一方面這些數據來自開發者在提供大語言模型服務時獲取的用戶真實人機交互數據,如ChatGPT的全球用戶使用后產生的人機交互數據會被OpenAI公司用來作為大語言模型升級迭代的訓練數據,其中也包含了大量由用戶自身輸入的個人信息。
可見,生成式AI開發者使用包含個人信息的數據進行大語言模型預訓練時,會涉及個人信息的收集、存儲、使用、加工等活動,屬于《個人信息保護法》第4條定義的個人信息處理行為。因此,生成式AI開發者屬于《個人信息保護法》所界定的個人信息處理者,需要受到前述《個人信息保護法》第13條、第14條、第17條設定的知情同意規則的約束。也即,生成式AI開發者在大語言模型預訓練階段處理包含個人信息的數據時,除了法定例外情形,原則上都必須向信息主體真實、準確、完整地告知處理目的、方式等內容,在信息主體充分知情并同意之后才能將這些個人信息數據用于大語言模型的預訓練活動。
不過,雖然《個人信息保護法》要求生成式AI開發者在大語言模型預訓練階段處理個人信息時應當遵守知情同意規則,但是,生成式AI的技術特性卻決定了開發者事實上無法履行向信息主體真實、準確、完整地告知處理目的、方式等內容的義務,難以滿足知情同意規則的法定要求。也即,生成式AI的技術特性已經使其對個人信息處理的知情同意規則在人工智能時代的適應性產生了嚴峻挑戰。對此,下文將以生成式AI中最重要的GPT模型(Generaive Pre-trained Transformer)為例分析其中的技術成因。
(二)生成式AI挑戰知情同意規則的技術成因
GPT模型是OpenAI公司開發的一款大語言模型,其開發目的就是提高模型在復雜情景中理解與生成自然語言文本的能力
See OpenAI, GPT-4 Technical Report, https://arxiv.org/abs/2303.08774, last visited on March 19, 2024.,我們熟知的ChatGPT就是在此之上開發的應用程序。GPT模型成功地獲得了計算機精確識別人類自然語言的能力,其中解決的一個關鍵性難題就是如何讓語言模型使用超大體量的無人工標注數據進行預訓練。
數據是語言模型進行預訓練必不可少的原料。理論上而言,數據體量越大,語言模型就能學習得越精確,學習成效也就越高。不過,傳統語言模型的深度學習大多數都是使用人工標注數據進行預訓練,因為人工標注數據能被計算機順利讀取并運用到語言模型的預訓練中。然而,人工標注數據的最大問題在于獲取成本很高且規模有限,這極大地限制了語言模型學習成效的提升。而在互聯網上存在著超大體量的無人工標注數據,且數據體量在不斷增長,幾乎沒有邊界。如果能夠有效地利用這些無人工標注數據進行語言模型的預訓練,那么,就能夠大幅度降低語言模型預訓練的成本并提高預訓練的成效,使語言模型進化為“大”語言模型。
GPT模型解決這一難題的基本技術路線是:將每個單詞
嚴格地說應該表述為“token”。在大語言模型的預訓練技術中,“token”既有可能是單詞,也有可能是字符或文本片段,它們的選擇取決于具體的應用場景。為了便于理解,本文統一使用“單詞”的表述。都視為一個超大詞匯空間中的一個點,自然語言中關聯越緊密的單詞意味著在這個詞匯空間中的位置距離就越近,反之亦然。在此基礎上,再運用類似于經緯度標注地點的方式將每個單詞都向量化,把每個單詞在這個詞匯空間中的位置都轉化為一串長達上萬數字的數列,表示這個單詞與其他單詞之間存在的所有可能性關聯,繼而運用超高強度的算力挖掘其中存在的自然語言統計規律,也即發現單詞與單詞之間在統計學意義上的概率分布規律。
關于大語言模型將人類自然語言數字化、向量化的過程介紹,參見俞士汶、朱學鋒、耿立波:《自然語言處理技術與語言深度計算》,載《中國社會科學》2015年第3期,第129-130頁。接著,GPT模型會根據這種自然語言統計規律,通過自回歸(autoregressive)的方式依據用戶給定的提示詞(prompt)不斷推測出后續的單詞,進而形成用戶能夠理解的信息內容。
See Amy B. Cyphert , A Human Being Wrote This Law Review Article: GPT-3 and the Practice of Law, 55 UC Davis Law Review 406, 406-407(2021).換言之,GPT模型并非如搜索引擎那樣從事先存儲的數據中依據人們需求調取已有的信息內容,而是根據自身在預訓練時掌握的自然語言統計規律,基于概率分布通過“預測下一個單詞”的方式推測出人們所需要的信息。
我們可以將GPT大語言模型識別自然語言的過程簡單理解為一個“單詞接龍”的過程,即在給定一條語句的前提下——如用戶使用自然語言向大語言模型內輸入一個問題,這個問題表現為由多個單詞構成的一條語句——讓大語言模型根據自然語言的統計規律推導出下一個單詞,然后將這一個單詞與之前的語句相連,由大語言模型再根據自然語言的統計規律推測出后續單詞(自回歸生成),這一過程反復多次就會形成大語言模型對操作者的提問語句給出的答案。See Laura Weidinger, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, Myra Cheng, Borja Balle, Atoosa Kasirzadeh, Courtney Biles, Sasha Brown, Zac Kenton, Will Hawkins, Tom Stepleton, Abeba Birhane, Lisa Anne Hendricks, Laura Rimell, William Isaac, Julia Haas, Sean Legassick, Geoffrey Irving & Iason Gabriel, Taxonomy of Risks posed by Language Models, FAccT ’22: Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency , 2022, pp.215-216. 這種技術路線的運用使GPT模型可以利用互聯網上幾乎所有的無人工標注數據進行預訓練,實現無監督學習(unsupervised learning),極大地降低了語言模型預訓練的數據成本,提高了計算機自然語言學習的成效。
然而,在提高語言模型學習成效的同時,這種技術路線也導致了由此生成的大語言模型成為完全的“技術黑箱”。生成式AI通過上述預訓練過程雖然掌握了自然語言中隱含的統計規律,但這種自然語言統計規律卻保存在動輒數以千億計的模型參數中
GPT的參數規模非常大且發展迅速,GPT-2時參數量為15.42億,而到了GPT-3時參數量就已經達到了1750億。參見孫蒙鴿、韓濤、王燕鵬、黃雨馨、劉細文:《GPT技術變革對基礎科學研究的影響分析》,載《中國科學院院刊》2023年第8期,第1213頁。,并非如硬盤介質中存儲的數據那樣一目了然,也就不能被包括開發者在內的其他主體所確知。也即,在生成式AI的技術開發中,就連開發者本身也無法詳細了解大語言模型到底掌握了何種自然語言統計規律,這是人工智能所采用的多層級神經網絡算法所必然導致的認知不透明性。
參見董春雨:《從機器認識的不透明性看人工智能的本質及其限度》,載《中國社會科學》2023年第5期,第159頁。這種完全“技術黑箱”的出現,意味著生成式AI的大語言模型在預訓練過程中對個人信息的處理也同樣被置于“技術黑箱”之中,即使開發者也無法確切掌握個人信息數據在模型中會被如何處理、模型會從中發現何種自然語言統計規律,以及模型會在下游應用中輸出何種信息并被用于何種目的,更難以辨析大語言模型預訓練時使用的個人信息數據的權利狀態與隱私風險。
參見袁曾:《生成式人工智能的責任能力研究》,載《東方法學》2023年第3期,第24頁。
既然連開發者也無法了解在大語言模型的“技術黑箱”中個人信息是如何被處理的,那么,就更無法向信息主體進行詳細告知,也難以遵守個人信息處理的知情同意規則。其實,即便我們將知情同意規則要求告知信息主體的內容最寬泛地界定為“用于生成式AI的大語言模型預訓練活動”,生成式AI開發者也同樣難以滿足這一規則的要求。因為大語言模型預訓練所使用的訓練數據體量極為龐大,包含的個人信息數量也同樣巨大,開發者客觀上根本無法告知其中個人信息涉及的每一個信息主體并取得其同意。
由此可見,生成式AI為了在大語言模型預訓練階段處理超大體量的無人工標注數據而采用了特殊的技術路線,隨之形成的“技術黑箱”導致開發者在客觀上難以依法履行向信息主體真實、準確、完整告知個人信息處理目的、方式等內容的義務,更遑論保障信息主體充分知情和同意權利的實現,這就事實上導致《個人信息保護法》中的知情同意規則難以在生成式AI的情景下得到有效適用。
三、生成式AI對已公開個人信息處理規則的挑戰及其成因
在生成式AI開發者建構大語言模型所使用的超大體量訓練數據中,除了需要信息主體同意后才能處理的個人信息之外,還存在一種特殊的、無須經過信息主體同意就可以處理的個人信息,即已經依法公開的個人信息(以下簡稱已公開個人信息)。根據《個人信息保護法》第13條第1款第(6)項及第27條的規定,對于已公開個人信息(包括個人自行公開或通過其他合法方式公開的個人信息),個人信息處理者有權在“合理范圍”內予以處理,無須得到信息主體的同意,這就確立了處理已公開個人信息的“默認規則”。
張薇薇:《公開個人信息處理的默認規則——基于〈個人信息保護法〉第27條第1分句》,載《法律科學(西北政法大學學報)》2023年第3期,第65頁。由此,生成式AI開發者也就有權在合理范圍內直接處理已公開個人信息,無須適用知情同意規則。至于如何判斷已公開個人信息的處理行為是否屬于“合理范圍”,在傳統法理上主要存在“目的限定原則”和“場景理論”兩種標準。然而,在生成式AI的技術語境下,這兩種判斷標準都受到了嚴峻的挑戰,以至于生成式AI的開發應用活動很難滿足相應的要求。
(一)生成式AI挑戰“目的限定原則”的技術成因
“目的限定原則”是指已公開個人信息的處理應當限定在信息主體公開個人信息的初始用途之上,依據這種初始用途界定的范圍才屬于處理已公開個人信息的合理范圍。
參見程嘯:《論公開的個人信息處理的法律規制》,載《中國法學》2022年第3期,第99頁。這意味著生成式AI開發者在進行大語言模型預訓練時,只有將已公開個人信息的處理活動限定在信息主體公開個人信息的初始用途之上,才屬于在“合理范圍”內處理已公開個人信息。然而,生成式AI的技術特性導致其難以滿足“目的限定原則”對于“合理范圍”的這種要求。
正如前文所述,以GPT模型為代表的生成式AI的主要技術原理之一就是開發者使用超強算力與超大體量訓練數據進行大語言模型的預訓練,使模型掌握訓練數據中包含的自然語言統計規律,并依據用戶輸入的提示詞通過“預測下一個單詞”的方式輸出符合自然語言統計規律的信息,從而實現與用戶之間通過自然語言接口形成人機互動關系。生成式AI的大語言模型通過這種技術路線掌握的自然語言統計規律是極端復雜的。為了對這種極端復雜性有更直觀的感受,我們可以將大語言模型的參數量比喻為一個單詞通向下一個單詞的通道數量,參數量越大說明存在的通道數量就越多。例如,ChatGPT的參數量達到了1750億個,這意味著一個單詞與下一個單詞之間存在著1750億條通道。而且,這還僅僅只是兩個單詞之間的通道數量,預訓練數據中包含的單詞數量往往都是以億為單位的,兩兩之間都可能存在這么多數量的通道。大語言模型在預訓練時要掌握如此龐大規模的通道數量,并識別出其中概率最高的通道,計算量之龐大可想而知,這也是大語言模型預訓練為何需要耗費超高強度算力的原因。
同時,我們也就能切實地感受到大語言模型預訓練后掌握的自然語言統計規律的極端復雜性。這種極端復雜性意味著,對于生成式AI開發者自身而言,大語言模型如何處理包含已公開個人信息的訓練數據是不可知的,且從其中挖掘出何種自然語言統計規律同樣也是不可知的,大語言模型已經
完全
成為了“技術黑箱”。這種“技術黑箱”的存在決定了生成式AI開發者無法將已公開個人信息的處理限定在特定目的之上,更遑論將對已公開個人信息的處理限定在信息主體公開個人信息的初始目的之上。因此,生成式AI的開發活動難以滿足“目的限定原則”對處理已公開個人信息的“合理范圍”的要求。
(二)生成式AI挑戰“場景理論”的技術成因
“場景理論”是指已公開個人信息的處理應當考慮各類具體場景的差異,依據場景的不同確定個人信息處理活動的合理范圍。
參見齊英程:《已公開個人信息處理規則的類型化闡釋》,載《法制與社會發展》2022年第5期,第217-219頁。個人信息領域中的場景理論最初由海倫·尼森鮑姆(Helen Nissenbaum)提出,參見\海倫·尼森鮑姆:《何為場景?——隱私場景理論中場景概念之解析》,王苑譯,載周漢華主編:《網絡信息法學研究》(總第9期),中國社會科學出版社2021年版,第3-28頁。這意味著需要依據生成式AI建構的大語言模型的不同應用場景來確定其對已公開個人信息的處理是否屬于合理范圍。然而,生成式AI的技術特性導致其很難滿足“場景理論”對于合理范圍的這種要求。
以GPT模型為代表的生成式AI建構的大語言模型之所以被稱為“大”,主要是因為模型包含的參數量極為龐大。例如,GPT-3的模型參數量已經達1750億,OpenAI公司于2023年推出的GPT-4的模型參數量雖然并未公布,但學者預測可能會高達到1.8萬億。
See Dylan Patel & Gerald Wong, Demystifying GPT-4: The Engineering Tradeoffs that Led OpenAI to Their Architecture, https://www.semianalysis.com/p/gpt-4-architecture-infrastructure, last visited on March 19, 2024.如此龐大規模的參數量使大語言模型出現了所謂的“涌現”(emergent)能力,它能夠根據任務提示詞自動完成對應的有效信息輸出,而無需事先進行具有針對性的訓練。
關于大語言模型的涌現能力的詳細介紹 See Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed.H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean & William Fedus, Emergent Abilities of Large Language Models, https://arxiv.org/abs/2206.07682, last visited on March 19, 2024.例如,GPT-4在未進行事先針對性訓練的情況下,已經能夠順利通過諸如美國律師執業資格考試、法學院入學考試(LSAT)等專業型考試,甚至取得了排名前10%的優異成績。
See OpenAI, GPT-4 Technical Report, https://arxiv.org/abs/2303.08774, last visited on March 19, 2024.
這種“涌現”能力使大語言模型輸出的信息內容滿足了用戶多樣化的信息需求,也使大語言模型具有了極強的拓展性,能夠結合不同應用場景實現廣泛領域的人機交互,因此,也被認為是“通用人工智能”(General Artificial Intelligence)的雛形。事實上,生成式AI正是由于其建構的大語言模型可以作為各類具體應用場景的底層通用模型而被認為具備了數字時代的革命性意義。生成式AI的這種技術特性意味著大語言模型的應用場景可以近乎無限地進行拓展,同時也就意味著即使是生成式AI的開發者也不能確定大語言模型對已公開個人信息的處理會被應用于哪些具體的場景,因其本身就是為了“通用”場景而開發的模型。由此,依據“場景理論”同樣難以判斷生成式AI的大語言模型處理已公開個人信息是否屬于“合理范圍”。在無限拓展的生成式AI的大語言模型應用場景之中,根據特定場景判斷已公開個人信息處理活動的合理范圍只能成為理想化的判斷標準,而并不具有實際的可操作性。
由此可見,在生成式AI的技術語境中,無論是“目的限制原則”還是“場景理論”,都不適合用于有效界定大語言模型處理已公開個人信息的合理范圍。《個人信息保護法》中設定的已公開個人信息處理規則面臨著嚴峻挑戰,在生成式AI快速發展的當下,亟須對這一問題加以重視和解決。
四、生成式AI對敏感個人信息保護的挑戰及其成因
在生成式AI開發者建構大語言模型所使用的超大體量訓練數據中,還會存在著許多敏感個人信息。敏感個人信息主要指《個人信息保護法》第28條規定的“生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等信息,以及不滿十四周歲未成年人的個人信息”。敏感個人信息往往與信息主體的個人隱私高度相關
有學者指出,個人隱私、個人信息、個人數據之間存在密切關聯,分別處于事實層、內容層與符號層。參見申衛星:《數字權利體系再造:邁向隱私、信息與數據的差序格局》,載《政法論壇》2022年第3期,第97頁。,因此,生成式AI開發者在處理敏感個人信息時,除了有可能會對敏感個人信息權益造成侵害,還有可能會對信息主體的隱私權造成侵害。生成式AI的技術特性決定了開發者在處理敏感個人信息時同樣難以滿足知情同意規則,其中的技術成因與前文第二部分所述一致。此外,更加需要注意的是,生成式AI的技術特性會導致大語言模型的輸入端和輸出端都可能產生對信息主體的敏感個人信息權益及個體隱私權的侵害風險。
(一)大語言模型輸入端產生侵害風險的技術成因
生成式AI的大語言模型預訓練數據中包含的敏感個人信息,除了來自于開發者通過購買或網絡爬蟲獲取的數據之外,還來自于“機器學習即服務”(Machine learning as a service, MLaaS)方式獲取的數據。MLaaS是指生成式AI開發者面向用戶提供的在線云服務,通過使用這種服務,用戶無須在本地部署就能通過網絡使用開發者提供的大語言模型完成特定任務。這意味著用戶在使用大語言模型的云服務時,輸入的信息都會上傳到開發者的云端服務器存儲之中。而用戶在缺乏對模型數據處理機制的清晰認知時,就可能會不經意間提交自己的敏感個人信息。
參見張欣:《生成式人工智能的數據風險與治理路徑》,載《法律科學(西北政法大學學報)》2023年第5期,第46頁。這些包含敏感個人信息的用戶輸入信息與大語言模型的輸出信息一道構成真實的人機交互數據,會被生成式AI開發者用作大語言模型迭代升級的訓練數據。OpenAI公司在ChatGPT用戶規則中就明確聲明,ChatGPT用戶與大模型交互產生的數據會被用來作為模型迭代的訓練數據,用戶甚至無法刪除其中涉及自身的敏感個人信息。
參見支振峰:《生成式人工智能大模型的信息內容治理》,載《政法論壇》2023年第4期,第40頁。可見,生成式AI建構的大語言模型無論是在初次開發階段使用的訓練數據中,還是在后續迭代升級階段使用的訓練數據中,都會包含大量的敏感個人信息。
當包含敏感個人信息的數據用于生成式AI的大語言模型預訓練時,模型就會牢牢“記住”這些敏感個人信息,并有可能使其遭到泄露,產生對信息主體的敏感個人信息權益及個體隱私權的侵害風險。
參見劉金瑞:《生成式人工智能大模型的新型風險與規制框架》,載《行政法學研究》2024年第2期,第20頁。例如,目前的研究已經表明,技術人員可以通過最新的技術手段從各類生成式AI的大語言模型中抽取出大量的原始訓練數據,其中自然包括了存在敏感個人信息的原始訓練數據。
See Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr & Katherine Lee,
Scalable Extraction of Training Data from (Production) Language Models, https://arxiv.org/abs/2311.17035, last visited on March 19, 2024. 正因如此,2023年6月28日,有16位匿名人士對OpenAI公司和微軟公司提起訴訟,認為ChatGPT及相關生成式AI產品收集了數百萬人的個體隱私信息,包括姓名、電子郵件、支付信息、交易記錄、聊天記錄、搜索歷史等,這些數據能夠反映出信息主體的宗教信仰、政治觀點、性取向、個性偏好等私密信息,違反了美國《電子通信隱私法》(Electronic Communications Privacy Act,ECPA)。這一訴訟從側面反映了生成式AI對敏感個人信息權益及個體隱私權的侵害風險。
這一案件的起訴書全文長達157頁,起訴書的全文PDF版及訴訟進程可參見https://www.courtlistener.com/docket/67535351/pm-v-openai-lp/,last visited on 19,2024。 正是出于對這種侵害風險的擔憂與防范,意大利個人數據保護局在2023年3月暫停了ChatGPT在該國的使用,直到OpenAI公司更新了隱私保護政策并作出相應技術調整后,才許可其繼續運營。法國和英國的數據隱私保護機構也對ChatGPT涉及的個人隱私保護問題表示了專門的關注。
參見傅宏宇:《生成式人工智能的治理模式與風險辨析》,載《數字法治》2023年第4期,第197-198頁。
(二)大語言模型輸出端產生侵害風險的技術成因
生成式AI建構的大語言模型的輸出端與輸入端一樣,也會產生對信息主體的敏感個人信息權益及個體隱私權的侵害風險。
這是因為,大語言模型預訓練在掌握自然語言統計規律的同時,也具備了強大的碎片化信息整合分析能力。通過類人神經網絡的學習,生成式AI的大語言模型能夠將訓練數據中碎片化的信息進行分析整合并形成完整的信息內容。這種碎片化信息整合分析能力使其可以將信息主體散落在數字空間中的碎片化個人信息進行聚合
參見郭春鎮:《生成式AI的融貫性法律治理——以生成式預訓練模型(GPT)為例》,載《現代法學》2023年第3期,第98頁。,并基于此對信息主體進行深度用戶畫像,挖掘出隱藏在碎片化個人信息背后的敏感個人信息及深層的個體隱私內容,在“長尾效應”之下產生對信息主體的敏感個人信息權益及個體隱私權的巨大侵害風險。
參見畢文軒:《生成式人工智能的風險規制困境及其化解:以ChatGPT的規制為視角》,載《比較法研究》2023年第3期,第159-160頁。這種強大的碎片化信息整合分析能力甚至可能使生成式AI開發者對特定主體的個人信息(包括敏感個人信息)具有全知全控的能力。并且,正如前文所述,以GPT模型為代表的生成式AI已經具備“通用人工智能”的雛形,它在超大規模的模型參數支持下產生了“涌現”的能力,可以被整合入不同的應用場景進行廣泛運用。這就使生成式AI強大的碎片化信息整合分析能力也會拓展到下游不同的應用場景中,使廣大的終端用戶具有了以極低成本獲取他人敏感個人信息及窺探他人隱私的能力,這就進一步放大了對信息主體的敏感個人信息權益和個體隱私權的侵害風險。
有學者認為生成式人工智能服務提供者(開發者)原則上無須對自動生成的內容承擔侵權責任。如果這一觀點成立,那么,就會更進一步增加自動生成的內容侵害個人隱私的風險。參見徐偉:《論生成式人工智能服務提供者的法律地位及其責任——以ChatGPT為例》,載《法律科學(西北政法大學學報)》2023年第4期,第77頁。
更進一步而言,由于生成式AI的大語言模型并非像傳統數據庫一樣通過硬盤介質存儲數據,而是將預訓練階段掌握的自然語言統計規律以參數的形式存在于大語言模型中。因此,即使生成式AI開發者發現大語言模型輸出了敏感個人信息進而侵害了信息主體的隱私權,也不能像操作傳統數據庫那樣直接在大語言模型中刪除敏感個人信息。也就是說,生成式AI的技術特性決定了無法在大語言模型中直接刪除特定信息,而只能通過模型的后續迭代訓練防止特定信息(包括敏感個人信息e11ebd7b87bce6e83c664e5910bf2716)的輸出。同時,由于大語言模型迭代訓練的成本非常高,并不能做到隨時隨地進行,這就導致敏感個人信息的泄露難以得到及時的制止,對信息主體的敏感個人信息權益和個體隱私權的侵害風險會持續存在。
五、生成式AI侵害個人信息的風險規制路徑
生成式AI的革命性技術突破對我國的個人信息保護法律制度產生了諸多的挑戰,這些挑戰在事實上也顯露出生成式AI對個人信息有可能產生的侵害風險。并且,隨著生成式AI技術應用向經濟社會各個領域的不斷拓展,這種對個人信息的侵害風險不僅可能會對作為信息主體的個人造成災難性后果,而且還可能給社會和國家帶來重大安全隱患。
參見劉權:《風險治理視角下的個人信息保護路徑》,載《比較法研究》2024年第2期,第63頁。因此,傳統上“基于權利的方法”實施的個人信息保護逐步演變為“基于風險的方法”實施的個人信息保護。
參見張濤:《探尋個人信息保護的風險控制路徑之維》,載《法學》2022年第6期,第62-65頁。這種個人信息保護思路的改變,促使生成式AI時代個人信息保護的主要路徑也隨之發生轉變。這主要體現在從以民事訴訟為主的私法保護路徑,轉變為以風險規制為主的公法保護路徑。
關于個人信息保護領域中行政監管等公法途徑較之民事訴訟等私法途徑優勢的學理討論,參見王錫鋅:《重思個人信息權利束的保障機制:行政監管還是民事訴訟》,載《法學研究》2022年第5期,第3頁。由人民法院實施的私法保護路徑具有高成本、滯后性的缺陷,往往難以及時有效地防范個人信息的侵害,而由行政機關實施的公法保護路徑則更具有專業性和實效性,更能回應人工智能時代飛速發展的科技變革對法律規制的適應性要求。因此,在生成式AI蓬勃發展的當下,為了更好地實現對個人信息的保護,我們應認真探討相關風險規制的路徑,以便為《個人信息保護法》的修訂及“人工智能法”的制定提供一些建議。
也有研究認為,目前不宜就ChatGPT類的人工智能技術進行專門的風險立法。參見趙精武:《生成式人工智能應用風險治理的理論誤區與路徑轉向》,載《荊楚法學》2023年第3期,第48-50頁。
(一)“包容審慎”的基本風險規制理念
雖然生成式AI存在侵害個人信息的潛在風險,但這并不意味著就應禁止其開發。在新科技革命的浪潮之下,生成式AI是技術革新的最前沿領域,它的發展水平將直接決定我國在數字經濟競爭中所處的層級,是我國在下一個經濟發展周期中能夠立于不敗之地的主要技術依托,是需要大力予以培育、扶持與促進發展的技術領域。因此,生成式AI侵害個人信息的風險規制應當在促進創新技術發展和個人信息保護之間保持必要的平衡,既不能因為推進生成式AI技術的發展而罔顧個人信息的保護,也不能因為保護個人信息而阻礙生成式AI技術的發展。
這種平衡在風險規制中就體現為“包容審慎”的規制理念
有學者主張將生成式人工智能區分為“基礎模型—專業模型—服務應用”的分層治理體系,只在專業模型層應用審慎包容的治理理念。參見張凌寒:《生成式人工智能的法律定位與分層治理》,載《現代法學》2023年第4期,第139頁。還有學者提出針對生成式人工智能的敏捷治理與韌性治理并重原則、精準治理原則、參與式治理原則,并在此基礎上提出面向生成式人工智能產業生態鏈的新型治理范式。參見張欣:《面向產業鏈的治理:人工智能生成內容的技術機理與治理邏輯》,載《行政法學研究》2023年第6期,第50-59頁。,實現“包容審慎原則下義務與責任重構”。
韓旭至:《生成式人工智能治理的邏輯更新與路徑優化——以人機關系為視角》,載《行政法學研究》2023年第6期,第37頁。從“包容”的角度而言,風險規制應當確保我國生成式AI開發者更便利地合法處理個人信息數據。在生成式AI的發展過程中,面對超大體量的訓練數據,如果嚴格要求大語言模型預訓練中的個人信息處理活動都必須得到信息主體的知情同意,暫不論是否可以真正有效實現,即使假設能夠真正有效實現,也會極大地降低我國生成式AI的開發效率,嚴重阻礙生成式AI的發展速率。在目前這樣一個激烈的全球科技競爭時代,這就意味著我國在新科技競爭中處于劣勢地位,甚至被其他國家遠遠甩在身后。因此,就生成式AI風險規制的包容性層面而言,應適當放寬個人信息處理的知情同意規則的限制,“控制超量安全亢余”
蘇宇:《大型語言模型的法律風險與治理路徑》,載《法律科學(西北政法大學學報)》2024年第1期,第85頁。,使生成式AI開發者能夠更便利地運用個人信息數據進行大語言模型的預訓練,從而Vhkg4Q21o/NxvMQr43hwQzn4N7UC426OGTS+r2Zvn7g=實現個人信息本身所具有的社會價值。
參見高富平:《個人信息保護:從個人控制到社會控制》,載《法學研究》2018年第3期,第96頁。
與此同時,從“審慎”的角度而言,風險規制應更側重于對信息主體人格權的保護。數字經濟時代,個人信息對于信息主體而言不但具有人格權方面的利益,而且還具有財產權方面的利益。
參見張新寶:《產權結構性分置下的數據權利配置》,載《環球法律評論》2023年第4期,第18頁。類似觀點參見劉德良:《個人信息的財產權保護》,載《法學研究》2007年第3期,第80頁。生成式AI對個人信息可能產生的侵害風險,既有可能是對信息主體財產權的侵害,也有可能是對信息主體人格權的侵害。生成式AI作為新科技時代的突破性技術,其產生的總體社會經濟效益將會遠超個人信息對于信息主體產生的財產性利益。因此,生成式AI發展過程中對于個人信息中的財產權可以適度降低保護力度,以便更好地實現個人信息對于生成式AI產業整體發展的貢獻。但是,信息主體的人格尊嚴是不能用經濟效益來衡量或替代的,它是生成式AI發展過程中不可突破的底線。也即,就生成式AI風險規制的審慎層面而言,必須守住保護信息主體人格尊嚴的底線,對于可能對信息主體人格權產生侵害的個人信息處理行為應當予以嚴格規制,切實保護個人信息中的人格利益。
簡言之,關于生成式AI侵害個人信息風險規制的基本理念就是“包容審慎”,目的在于實現創新技術發展與個人信息保護之間的平衡。風險規制的總體思路應當是在便利我國生成式AI開發者運用個人信息數據從事大語言模型研發的同時,側重于對信息主體的個人信息中人格權方面利益的保護,適當放寬對信息主體的個人信息中財產權方面利益的保護。
(二)具體的風險規制路徑
依據“包容審慎”這一基本的風險規制理念,我們就可以繼續探討生成式AI侵害個人信息的具體風險規制路徑:
1.調整生成式AI領域知情同意規則的適用方式。從目前《個人信息保護法》的規定來看,除了法定的例外情形(如已公開個人信息),大多數個人信息都需經過信息主體的明示同意才能進行處理,且并未明確生成式AI處理個人信息的特殊例外情形。這就意味著在目前的法律規定下,生成式AI大語言模型預訓練中使用的極為龐大的個人信息數據,大多數都應先依法取得信息主體的明確同意后才能進行處理,這在很大程度上成為阻滯生成式AI高效發展的法律規則壁壘,需要調整規則的具體內容予以應對。
既然依據“包容審慎”的基本理念,生成式AI侵害個人信息風險規制的重點在于保障信息主體的人格權。那么,對于通常不涉及信息主體人格權的普通個人信息,我們就可以在法律上采用“默示同意”規則——只要信息主體不明確表示拒絕,生成式AI開發者就可以合法地處理這些個人信息。同時,應當將風險規制的重點置于更可能會危及信息主體人格權的“敏感個人信息”之上,對于此類個人信息應繼續保留“明示同意”規則——敏感個人信息必須經過信息主體的明示同意后才能應用于生成式AI的開發活動。由于敏感個人信息更有可能涉及信息主體的人格權,且此類信息只是個人信息數據集中的一部分,因此,知情同意規則的這種調整就能夠在盡可能保障信息主體人格權的前提下,最大限度地避免對生成式AI技術發展的阻礙。
因此,建議可以在今后的《個人信息保護法》修改中,加入生成式AI開發可以采用“默示同意”規則處理普通個人信息的規定(處理敏感個人信息仍保留“明示同意”規則),作為個人信息處理的知情同意規則的特殊例外。如果直接修改《個人信息保護法》較為困難,那么,也可以考慮在“人工智能法”的制定中解決這一法律障礙。例如,可以在“人工智能法”中明確規定生成式AI處理普通個人信息的默示同意規則。依據“特別法優于一般法”的法律適用規則,“人工智能法”中個人信息處理的這種特別規定將優先于《個人信息保護法》中個人信息處理規則的適用。這樣就能在不修改《個人信息保護法》中知情同意規則的前提下,確保生成式AI中個人信息處理活動“默示同意”規則的實現。
2.重塑生成式AI領域已公開個人信息的處理規則。正如前文分析所顯示,《個人信息保護法》中將已公開個人信息的處理限定在“合理范圍”內,但生成式AI的技術特性決定了對已公開個人信息的處理很難滿足現有判斷標準下對“合理范圍”的界定,無論是
“目的限定原則”,還是“場景理論”都難以適用。因此,如果嚴格依據目前《個人信息保護法》的規定,生成式AI開發者處理已公開個人信息的活動將始終游走在違法的邊緣,時刻處于可能被認定為違法的不確定狀態中,這種風險將會極大地限制我國生成式AI技術與產業的快速發展。
規制這種風險的途徑在于調整生成式AI處理已公開個人信息的法律規則。具體思路是:如果說從正面界定何為生成式AI處理已公開個人信息的合理范圍十分困難,那么,或許從反面劃定生成式AI處理已公開個人信息的底線更具有制定或調整法律規則的可行性。基于“包容審慎”的風險規制理念,我們可以考慮在《個人信息保護法》修訂或“人工智能法”的立法中,將信息主體的人格權保護明確作為生成式AI處理已公開個人信息時不可逾越的底線,而在這一底線之上開發者就可以合法地處理已公開個人信息。這意味著,生成式AI開發者在使用已公開個人信息進行大語言模型預訓練時,只要處理行為不對信息主體的人格權造成侵害,那么,其處理行為都應屬于法律允許的范圍。這一底線的劃定側重于對個人信息中信息主體人格權的保護,同時放松了對個人信息中信息主體財產權的保護。雖然對于信息主體個人而言,這樣的規制方式降低了其依賴自身個人信息獲益的可能性,但對于生成式AI的發展與數字經濟時代社會總體收益的提升具有重要意義。
3.設立生成式AI領域個人信息中人格權保護的行政規制措施。目前我國對個人信息中人格權的保護大都是通過受害主體提起民事訴訟的方式予以實現,這種私法救濟途徑更適合應對前生成式AI時代對個人信息中人格權的個別性侵害。而在使用超大體量數據進行大語言模型預訓練處理的生成式AI時代,對個人信息中人格權的侵害往往呈現批量性侵害,而非個別性侵害。如果此時仍然由受害主體通過私法救濟途徑追究生成式AI開發者的法律責任,那么,不但存在法律責任追究的滯后性,而且受高昂訴訟成本的約束,可以預見并不會有太多受害主體愿意提起訴訟,由此對個人信息中人格權的保護功能很有限。
因此,基于“包容審慎”的風險規制理念,我們需要通過設定有效的行政規制措施彌補私法救濟在生成式AI時代對個人信息中人格權保護的不足。具體包括以下幾種完善的途徑:
第一,設立生成式AI開發者侵害個人信息中人格權的特別行政處罰措施。從目前我國《個人信息保護法》中有關行政處罰的責任設定來看,雖然已經規定了對個人信息處理者違反法定信息處理規則時的處罰制度,但這一規定過于籠統,且并未區分侵害個人信息中的財產權和侵害個人信息中的人格權。因此,在《個人信息保護法》修訂或“人工智能法”的立法時,建議在生成式AI的相關條文中,明確設定生成式AI開發者侵害個人信息中人格權的行政處罰措施,同時規定侵害個人信息中其他權利(如財產權)的生成式AI開發行為不屬于行政處罰的范圍,從而體現特別保護個人信息中人格權的底線。
第二,設立責令生成式AI開發者進行賠償的行政命令措施。雖然從法理上而言,當生成式AI開發者侵害了個人信息中的人格權之后,信息主體可以通過提起民事侵權訴訟要求其賠償自身的損失。但是,作為個人的信息主體相對于通常是組織體的生成式AI開發者總體而言,前者是居于弱勢地位。通過民事訴訟的途徑要求賠償,且不論其勝訴率的高低,即使能夠勝訴,也僅能使單次訴訟中的原告獲得賠償,其他受侵害主體則并不能依此次訴訟獲賠,只能另行提起訴訟,訴訟效益并不高。因此,為了加強對個人信息中人格權的特別保護,可以在《個人信息保護法》修訂或“人工智能法”立法中,設立行政機關責令實施侵害行為的生成式AI開發者對信息主體的人格權損害進行賠償的行政命令措施。通過行政機關的公權力主動為保護信息主體的人格權提供助力,減輕信息主體獲得損害賠償所需支出的成本,同時,也體現出風險規制中對信息主體個人信息中人格權的傾向性保護。
第三,設立生成式AI開發活動的行政許可措施。雖然生成式AI的發展需要市場主體間激烈的市場競爭予以快速推動,但不受約束的市場競爭也會導致生成式AI開發者良莠不齊,出現利用“技術黑箱”所導致的高度信息不對稱肆意侵害個人信息權益及個體隱私權的情形。因此,可以考慮在《個人信息保護法》修訂或“人工智能法”的立法中設定生成式AI開發的行政許可措施,要求符合一定條件的組織才能從事生成式AI的開發活動。
有學者提出類似的觀點,認為應當建立有層次的生成式人工智能市場準入清單制度。參見孫祁:《規范生成式人工智能產品提供者的法律問題研究》,載《政治與法律》2023年第7期,第174頁。例如,為了應對生成式AI所具有的高度技術復雜性,可以要求生成式AI開發者事先建立完善的內部規則保護信息主體的人格權,并將此作為頒發行政許可的條件之一。通過行政許可措施的設立,不但能夠過濾掉不具備保護個人信息中人格權的能力與條件的開發者,減少侵害個人信息中人格權的概率。而且,行政許可措施還能使行政機關的風險規制對象更加明確和集中,便于行政機關對生成式AI開發者侵害個人信息中人格權的行為進行及時、有效的監管。
六、結語
綜上所述,以GPT模型為代表的生成式AI超越了傳統決策式人工智能的預測功能,已經具備了依據大語言模型預訓練所掌握的自然語言統計規律產出全新內容的能力,這標志著通用人工智能的初步實現,是數字經濟時代新科技浪潮的前奏。但是,生成式AI的出現引發了諸多新型風險,其中最重要的風險就是對個人信息保護產生的挑戰。生成式AI對個人信息保護的挑戰來源于其具有的技術特性,主要包括對個人信息處理的知情同意規則、已公開個人信息處理規則及敏感個人信息保護等三個方面的挑戰。面對這些新型挑戰,為了防范生成式AI對個人信息的侵害風險,我們應當在修改《個人信息保護法》或制定“人工智能法”的過程中,基于“包容審慎”的基本風險規制理念,建構具有針對性的規制措施,包括調整生成式AI領域知情同意規則的適用方式、重塑生成式AI領域已公開個人信息的處理規則、設立生成式AI領域個人信息中人格權保護的行政規制措施等,以便在數字經濟時代真正實現生成式AI創新技術發展和個人信息保護之間的平衡。