劉羿鳴,林梓瀚
(1.武漢大學 網絡治理研究院,湖北 武漢 430072;2.上海數據交易所,上海 201203)
生成式大模型(以下簡稱大模型)是指基于海量數據訓練的、能夠通過微調等方式適配各類下游任務,并根據用戶指令生成各類內容的人工智能模型。大模型具有極為寬廣的應用前景,且使用門檻較低,用戶可通過開源或開放API工具等形式進行模型零樣本/小樣本數據學習,便可識別、理解、決策、生成效果更優和成本更低的開發部署方案。
然而,大模型的訓練及其應用的落地都需要大量的數據作為支撐,由此帶來的諸如個人隱私泄露和數據篡改等數據安全風險已成為法律所必須因應的重要議題。本文將基于大模型數據安全風險的系統性分析,對國內外既有規制路徑的不足進行梳理,最后提出我國大模型治理的完善建議,以期推動大模型應用的可信有序發展。
大模型的廣泛應用與內生性技術局限的疊加引發了對大模型所導致的數據安全風險的擔憂。在理論界,已有不少學者分別從大模型的訓練數據治理[1]、國家安全風險[2]、大模型數據合規的管理原則[3]等方面對大模型數據安全監管進行了探討;而在實踐中,多國發布了有關大模型監管的政策文件,試圖將大模型數據安全風險納入相對可控的法治軌道。例如,意大利的個人數據保護局曾對大模型的應用發布禁止令,歐盟也對大模型的數據安全風險展開了調查。2023年7月,我國出臺了《生成式人工智能服務管理暫行辦法》,針對大模型的數據來源、數據質量、個人信息保護等問題進行立法規制。
但既有的大模型數據安全風險監管在理論和實踐層面仍面臨不少困境。一方面,或是囿于對大模型的本質與特征的認識不足,既有研究要么將數據安全風險與個人隱私保護混同[4],要么僅僅關注大模型運行中的某一環節中的數據安全風險而忽視了其他環節[5],總體來看尚未形成對大模型數據安全風險的統一性和系統性認識;另一方面,我國現有的立法和監管政策存在表述模糊、責任分配不清等問題,恐難以充分化解大模型應用引發的數據安全風險。
由此可見,大模型的可信發展需要加強對大模型數據安全風險的系統性認知,并在借鑒域外大模型治理經驗的基礎上有針對性地完善我國的大模型治理規則,以期形塑兼具鼓勵創新和控制風險的具有我國特色的大模型數據安全風險監管路徑。
認知風險是風險治理的邏輯起點。基于對大模型數據風險的既有觀點及其不足的分析,結合數據安全的本質特征,或可為化解大模型數據安全風險提供更為多元、全面的視角。
安全與風險是一組二元對立的概念。根據《現代漢語詞典》,安全的詞義是“沒有危險;不受威脅;不出事故”[6]。與之相對應,風險則是一種“未來的不確定性”[7],而正是這種“不確定性”侵害了安全的“自然狀態”,此時則需要法律通過風險治理來實現和保障安全。
規避風險的前提是對可能存在的風險形成充分的認知。在生產力較為低下的古代,人與人之間的交往并不頻繁,風險的種類也較為單一,因此當時的法律主要關注對個體人身和財產安全的保障[8]。到了近代,工業革命帶來便捷的交通方式,人際間愈加頻繁的交往使得社會風險特征從點對點、偶發性和個體性,轉向群體性、區域性,引發對集體安全和國家安全的關注[9]。進入當代,以人工智能為代表的新技術的迅猛發展使得數據成為“二十一世紀的石油”,同時也帶來了數據泄露、個人隱私侵犯等問題,安全的保障范圍由物理空間向賽博空間(Cyberspace)擴張,數據安全的概念由此產生。
區別于傳統安全風險,大模型數據安全風險具有多重含義,需要建立基于“動-靜”雙重視角的風險認知體系。一方面,數據之上承載著多方主體的利益,大模型數據安全不僅僅關乎數據自身的安全,還體現對數據持有者、數據來源者的權益以及社會公共利益以及國家利益的保障[10];另一方面,數據的價值在于利用,因此對大模型數據安全的探討應當具體到大模型數據的使用、加工、傳輸、提供、公開等數據處理活動中,而不是局限于對數據靜態安全的泛泛而談[11]。因此,一個更加符合大模型技術特征以及實踐認知的解決方案是,將大模型的數據安全風險劃分為靜態和動態兩個層面,前者以數據安全保障的不同主體利益為觀察視角,梳理大模型對個人數據安全、企業數據安全以及國家數據安全帶來的挑戰;后者則以大模型的運行流程為視角,分析大模型的數據采集、模型搭建以及模型產出等各個階段的數據安全風險。圖1所示為“動-靜”視角下大模型數據安全風險全景圖。

圖1 大模型數據安全風險全景圖
安全難以脫離不同主體所構筑起來的諸多社會關系和社會結構,“安全從一開始就作為我們與自身的關系,與他人的關系以及與世界的關系,被理性地加以規定”[12]。從這個角度來看,不能僅僅討論大模型應用中的數據自身的安全,而需要從不同主體的不同利益訴求出發,分析個體、企業以及國家在數據安全中的權益保障。
其一,大模型的個人數據安全風險。雖然學界對個體對數據是否享有財產性權益尚存在爭議[13],但毋庸置疑的是數據之上承載著由《民法典》《個人信息保護法》等法律所明確或暗示的個體享有的包括知情、決定、查閱、復制、更正、補充、刪除在內的一系列人格權益。然而,大模型的數據采集、模型搭建和結果輸出無一不涉及對個人數據的處理,其在醫療、金融等領域的應用更是涉及個人的敏感信息,但囿于現階段大模型技術的局限性,難以做到對個人數據的全面性保障。例如,當用戶對ChatGPT進行提問時,可能會暴露其不愿公開的個人信息。而根據OpenAI的說明,ChatGPT只支持用戶刪除個人賬戶,而無法做到完全刪除用戶的個人信息,這使得OpenAI不得不在其網站提示用戶“不要在談話中分享任何敏感信息”[14]。
其二,大模型的企業數據安全風險。企業基于對數據的實質性加工和創造性勞動獲取了對數據及數據產品的財產性利益,對此我國在政策和地方法規層面予以認可,并在司法實踐中通過著作權保護或反不正當競爭法的有關規定予以保護。然而,大模型在應用過程中頻繁地從互聯網大量地爬取數據,而大模型在挖掘、使用數據的過程中卻難以對所利用數據的權利狀態進行一一辨析,若被爬取的數據中包含企業的商業秘密或可被納入著作權法保護范圍的內容則極易構成侵權。
其三,大模型的國家數據安全風險主要體現在數據的跨境流通過程中。在大數據時代,數據被視為國家的一種基礎性戰略資源,各國紛紛主張對本國數據進行生產、開發、利用,并提出一系列有關數據本地化存儲和限制輸出的規定[15]。例如,針對個人數據的出境監管,我國《個人信息保護法》就規定了數據出境安全評估、個人信息保護認證以及簽訂個人信息出境標準合同三種路徑,并通過《數據出境安全評估辦法》《個人信息出境標準合同辦法》《網絡安全標準實踐指南 個人信息跨境處理活動安全認證規范V2.0》等對個人數據出境規制的具體內容予以細化。在此背景下,大模型在全球范圍內收集和使用用戶的個人數據將面臨極大的合規風險。例如,若國內的ChatGPT用戶出于數據分析或信息統計等目的,將其收集的一定規模的個人數據傳輸至OpenAI的境外數據處理中心,就很可能構成事實上的數據出境行為,如果未經審批許可將導致極大的合規隱患[16]。
大模型的應用是一個動態的過程,大致可以分為數據采集階段、模型訓練階段以及應用階段。由于不同階段涉及的數據處理行為不同,相應的數據安全風險也存在差異,需要分別展開分析。
其一,訓練數據的采集階段。大模型的搭建依托于海量的訓練數據,由于訓練數據的來源屬性具有多元性,所可能引發的數據安全風險也將是多重而非單一的。以個人數據為例,根據我國《個人信息保護法》的有關規定,采集個人信息主體的個人數據需要得到信息主體的同意,并遵循目的最小化原則,若采集的數據屬于個人敏感信息則更需要得到個人單獨或書面同意。但由于具體的數據訓練環節,大模型的訓練數據一般都以“太字節”(Terabyte)為計量單位,難以保障模型開發者對每個主體都完全符合知情同意的具體要求。
其二,在模型的訓練與調整階段,開發者利用獎勵機制和強化學習技術對模型進行不斷訓練和調整,不斷提升內容生成模型的回答質量[17]。在該階段,如何保障模型內存儲數據免遭黑客攻擊或內部工作人員非法披露導致數據泄露風險是一個值得思考的問題。對此,盡管各大科技公司都聲明將采取加密等措施來保障數據安全,但根據外國媒體的報道,在模型構建階段的數據安全泄露問題可能已經發生[18]。
其三,在模型的應用階段,用戶通過prompt指令向大模型“發出命令”,大模型隨后便會在數據庫中進行檢索,而后通過對用戶指令內涵的分析,將搜索結果由數字序列形式逆向翻譯為自然語言形式,并為用戶輸出相應的結果。然而,容易被忽視的問題是,用戶通過prompt指令輸入的內容可能也屬于用戶的個人信息,仍需要按照《個人信息保護法》的有關規定采取相應措施進行保護。值得注意的是,我國的人工智能立法也意識到了這點,在2023年7月10日正式頒布的《生成式人工智能服務管理暫行辦法》中明確規定了生成式人工智能服務提供者對使用者的輸入信息和使用記錄履行保護義務,且應當依法及時受理和處理個人關于查閱、復制、更正、補充、刪除其個人信息等的請求。
隨著人工智能應用全球化進程的不斷加快,世界各國的人工智能立法也被提上日程。根據斯坦福大學發布的《2023年度人工智能指數報告》,2016至2022年間,全球已有31個國家頒布了共123項與AI相關的法案。以下以歐盟、美國的治理模式為例,總結其經驗與不足,并對我國既有的治理策略進行評析。
總體來看,或許是受到強調人權保護的法律傳統以及一體化的政治體制的影響,歐盟的大模型治理采用了較高強度的監管力度[19],自2016年起就不斷探索推進對人工智能技術應用的風險監管體系建構。2021年4月,《人工智能法案(提案)》(以下簡稱“AIA”)正式發布,并在2023年通過談判形成了最新版本。
從2023年最新修改的AIA來看,歐盟已形成了基于風險的大模型分類分級治理路徑。具體而言,AIA以具體應用場景中引發風險程度的高低為基準將人工智能系統劃分為四類,即不可接受的風險(unacceptable risk)、高風險(high risk)、有限風險(limited risk)和較低或者最低限度的風險(low and minimal risk),法律應對策略分別對應禁止(prohibition)、事前合格性評定和認證標志(exante conformity assessment and CE marking)、信息披露(transparency)和無義務(no obligations)。其中,大模型作為泛用性極高的人工智能系統,因其在教育、金融、法律等領域廣闊的應用場景,屬于AIA附錄3所列舉的特定領域AI系統,將很可能被定性為高風險人工智能系統,并被要求履行建立全生命周期內持續反復運行的風險和質量管理機制、對訓練數據中的個人數據采取假名化措施等數據安全保障義務。歐盟的大模型監管路徑對大模型的研發者、提供者提出了較高的義務,有利于保障數據安全。
然而,歐盟的風險分類分級監管思路以人工智能的應用場景為標準,可能導致大模型被一律定性為高風險人工智能,難以實現大模型的精細化治理,可能阻礙大模型技術的創新性發展。另外,以統一性立法開展的大模型治理相較于分散性立法缺乏了一定的靈活性,面對瞬息萬變的大模型技術發展難以實現“敏捷性治理”。
在聯邦層面,美國尚未形成統一的大模型立法,而以一些不具有強制適用性的政策文件為主。而在州層面,針對大模型的數據隱私保護,美國各州的立法采取了較為寬松的監管策略,為大模型企業的發展留下了更多容錯空間。一方面,在知情同意模式的選擇上,區別于歐盟GDPR的“選擇加入”(opt-in)原則,美國采用了“選擇退出”(opt-out)模式[20],大模型企業在模型訓練數據的收集過程中滿足一定條件則無需事先征得數據主體同意;另一方面,美國各州立法提出了企業更正期、中小企業豁免權等創新容錯措施。其中,企業更正期是指面臨行政處罰和行政訴訟的企業若一定的更正期內(《加州消費者隱私法案》(CCPA)規定更正期原則上為30天)進行合規性整改,便可以免除相應的處罰。中小企業豁免權則是指通過在法案中設置以企業營業額或處理數據量為標準的適用門檻,將部分中小企業排除在法案的適用范圍之外。例如,弗吉尼亞州的《消費者數據保護法》(CDPA)規定該法僅適用于一年內控制或處理超過10 萬名弗吉尼亞州州消費者數據的企業。類似地,被視為聯邦隱私立法潛在模型的CCPA僅適用于在加州開展業務并滿足以下條件之一企業:(1)營業年收入超過2 500萬美元且年收入的50%以上系源自于銷售加州消費者的個人信息;(2)基于商業目的處理的加州消費者信息每年超過50 000個。
可見,美國對大模型的監管策略更多是基于商業邏輯而非人權保護的邏輯[21],“監管”被視為一種反對自由市場的負擔[22]。循此理念,美國不把強制監管放在首位,而是最大程度發揮企業自治和市場的自我條件,意圖激發大模型研發的創新動力[23]。但這一監管策略忽視了對大模型應用中各類數據安全的保障,或難以防范大模型廣泛應用對個人、企業甚至國家數據安全利益帶來的潛在威脅。
我國一貫重視技術發展的風險治理,遵循發展與安全并重、創新與倫理并行的治理思路[24],通過引導“科技向善”來促進高科技產業的健康發展。在國家層面,2017年,我國發布《新一代人工智能發展規劃》,為我國的人工智能健康發展提供綱領性指引;2021年9月、11月,《數據安全法》和《個人信息保護法》先后施行,為規范人工智能應用中的數據安全和隱私保障提供了合規指引;2022年以來,為因應大模型廣泛應用帶來的技術風險,我國先后頒布了《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》)等一系列監管規范,提出了算法備案、數據安全審核以及訓練數據治理等制度要求,初步構建起我國大模型治理的監管體系。在地方層面,深圳、上海等地出臺有關人工智能產業的促進條例,積極探索人工智能風險的分類分級監管體系。例如,《上海市促進人工智能產業發展條例》第65條就將人工智能產品和服務分為高風險以及中低風險兩級,分別適用“清單式管理”和“事前披露+事后控制”兩種不同的監管方式。
然而,就大模型的數據安全風險治理而言,我國既有的監管方案還存在一些不足,體現為以下幾點:
其一,分類分級監管的標準不夠清晰,難以落地。根據監管對象的不同特征實施分類分級監管是我國實現治理精細化與科學化的一貫思路。然而,在大模型治理領域,《辦法》第3條僅在原則層面提出要開展分類分級監管,卻未明確究竟以何標準作為分類依據、具體分為幾種類型以及對應的差異化規制方式。上海市頒布的人工智能產業條例中雖探索性提出將人工智能分為高風險和中低風險兩級,但也未詳細說明分類的依據,且囿于其效力位階較低和適用范圍有限而難以實現大模型敏捷治理[25]的目標。
其二,我國既有監管規范未明確提出大模型研發者的概念,可能導致大模型數據安全風險的責任分配不清。在“小模型”時代,模型采用高度定制化的“手工作坊式”生產方式,研發、部署和運行的主體可清晰界分[26]。然而,大模型采用“無需定制”“協同部署”“輕量通用”等方式實現快速普及,使得作為大模型服務提供者的平臺企業難以形成對模型定義、設計和部署的終局影響力,對模型數據安全具有影響力的研發者卻可能并未與應用層用戶產生直接交互。可見,在大模型治理中,界分模型研發者和服務提供者并課以不同的數據安全保障義務是數據安全風險化解的應有之義。然而,我國頒布的《辦法》第22條僅規定了生成式人工智能服務提供者和使用者的概念,未單獨規定作為大模型技術支持方的研發者,易導致兩者在模型數據安全保障義務的責任邊界模糊,不利于監管部門對兩者開展監督與追責。
其三,如前文所言,數據安全是一個動態而非靜態的概念,對大模型數據安全的風險治理也應相應地針對數據采集、模型訓練以及應用服務三個階段展開。但我國目前既有的管理規范多以大模型的應用服務為視角,強調模型應用過程中的數據安全以及個人信息保護,尚未建立起大模型運行全過程的數據安全風險防范體系。
20世紀中葉,波蘭尼提出的“雙重運動理論”揭示了政府規制在市場發展與技術創新中的作用[27]。面對大模型帶來的風險,應當確立的一個認知是,大模型并非一種簡單的技術工具,更是一種對社會建構產生強烈沖擊的新型社會權力。基于此,大模型的數據安全風險規制應摒棄純粹的技術工具主義視角,而應針對我國既有的大模型監管路徑的缺陷,結合國外大模型數據安全風險防范的有益經驗,從建立分類監管方案、完善責任機制以及探索創新監管工具三個方面完善我國的大模型數據安全風險監管模式(如圖2所示)。

圖2 大模型數據安全的監管框架
其一,建立以數據安全風險為基準的分級監管路徑。“安全”作為一個外延相對模糊的法律概念,通過類型化分析來精準度量其內涵成為一種理性且可欲的選擇[28]。如前文所言,我國目前并未明確人工智能分級監管的具體標準,而歐盟則采用了基于人工智能應用場景的風險分級監管方式。然而,此種監管方式并不是特別適合應用于大模型領域,這主要是因為大模型技術具有泛用性,應用場景十分多元,若按照歐盟的分類標準,則幾乎所有的大模型都將被歸入高風險人工智能,難以實現對數據安全風險的精細化治理。鑒于數據將直接影響人工智能算法模型的訓練效果和泛化能力[29],或可將大模型內含的數據安全風險程度納入人工智能分級監管的評價標準,建立起以數據安全風險為基準的分級監管路徑。具體而言,影響大模型數據安全風險程度的兩個主要因素是大模型所采集和使用數據的敏感度以及訓練數據集的規模。其中,數據的敏感度是指數據遭到攻擊、篡改、破壞或非法獲取和利用等安全事故后對個人、社會和國家帶來的危害程度[30]。《個人信息保護法》根據個人信息的敏感程度將個人信息分為一般個人信息和敏感個人信息,《數據安全法》則將數據類型化為一般數據和重要數據。結合《個人信息保護法》和《數據安全法》的有關規定,可借鑒《上海市促進人工智能產業發展條例》第65條的規定,將大模型分為高風險和中低風險兩類,前者涉及大規模的敏感個人信息和重要數據的處理行為,后者則僅在小范圍內采集并處理一般個人信息和一般數據。對于高風險的大模型,國家采用負面清單制管理,開展負面清單內產品、服務的研發以及提供活動前,應當取得國家有關主管部門的行政許可;對于中低風險的大模型,則采用事前披露和事后跟蹤的監管模式,促進先行先試。
其二,完善大模型運行全過程的數據安全責任機制。責任機制是法律開展制度設計所關注的核心內容。如前文所述,我國現階段的大模型監管文件僅提及模型服務提供者以及使用者的安全責任,卻忽視了大模型的技術研發者在數據安全保障中的作用。鑒于此,結合數據要素的動態特征,建議在現有的監管體制基礎上對模型的服務提供者和技術研發者作區分處理,完善基于大模型運行全過程的數據安全責任機制。首先,在模型的數據采集階段,模型的研發者應確保模型數據來源的合法性,涉及個人數據的應確保符合《個人信息保護法》的有關規定,涉及公共數據的則需要依據與政府簽訂的授權協議履行相關的數據安全保障義務,若數據系利用爬蟲技術從公開互聯網中獲取則需要確保符合robots協議的要求;其次,模型訓練與調整階段,模型的研發者應采用必要的技術和組織措施保障數據安全,并在投放市場前進行數據安全測試;最后,在模型的應用服務階段,模型服務的提供者應自行或委托第三方對模型數據來源的合規性開展形式審查[31],對于用戶輸入的數據則應當采取必要的保密和安全保障措施,若用戶輸入數據涉及個人信息的,則需要參照《個人信息保護法》的有關規定保障用戶的撤回同意、查閱、復制、更正、刪除等信息權益。
其三,探索以監管沙盒為代表的包容審慎監管措施。“包容審慎”原是政府為了應對互聯網新業態的監管困境所提出的一項創新性監管原則,這種監管原則一方面鼓勵、寬容、保護創新,為新業態、新產業留足發展空間,不得“簡單封殺”;另一方面則強調要對新事物發展過程中所帶來的潛在風險進行積極預防和控制,不得放任不管[32]。大模型是人工智能產業創新發展的產物,對于新興事物,既要包容其失誤,同時更要防范其風險,慎重處理好創新發展與風險控制之間的關系。基于這一理念,歐盟AIA法案提出了人工智能監管沙盒(AI Regulatory Sandbox)機制。通過這套機制,大模型在沙盒試運行階段若遭遇個人數據的處理活動,只要滿足一定條件便可以突破歐盟GDPR中有關信息主體授權的限制,將“為其他目的合法收集的個人數據”用于沙盒中人工智能系統的開發和測試中,意圖實現數據利用與個人隱私保護之間的平衡。借鑒歐盟的做法,建議我國遵循包容審慎理念,探索大模型領域的“監管沙盒”制度。一方面,需要明確監管沙盒的“入盒”條件,此處可參考歐盟AIA法案中的有關規定,明確監管沙盒主要向保障公共安全、公共衛生、改善環境治理等重大公共利益的大模型或中小型企業研發的大模型開放;另一方面,需要進一步探索監管沙盒中運行機制、數據風險責任豁免機制、試運行期限、退出條件等內容,具體規則可以由國家網信辦牽頭,會同工信部、市場監管總局等相關部委制定[33]。
技術發展和法律規制之間的互動貫穿于時代發展的每一進程。大模型應用的智能時代已至,我們仍需謹記霍金所言:“人工智能的發展可能意味著人類的終結……它可以自主決定采取措施并以不斷增長的速度重新設計自身。”為防止大模型異化為人類無法控制的“技術利維坦”[34],需要在對大模型應用的數據安全風險進行全面分析的基礎上建立起“全過程”“多主體”的數據安全責任制度,并在創新發展與風險化解之間探尋出一個合適的平衡點,為大模型應用的可信未來提供堅實的法治保障。