摘 要:人工智能大模型訓練引發著作權困境,傳統作品許可使用機制面臨功能失靈,既有“限制與例外”條款亦存在適用難題。當前學界提出的以“非作品性使用”為代表的“根源性”權利限縮模式,以及以“文本與數據挖掘”為代表的“封閉式”權利限制模式,雖在一定程度上能緩解困境,但因其理論局限和制度設計缺陷,難以真正有效平衡各方利益。相較而言,合理使用作為典型的“開放式”權益平衡模式,更具制度靈活性與適應性,可通過多層次評估框架彌補其操作困難與適用不確定性。與此同時,需輔以技術治理工具、訓練數據透明度義務和合理補償機制等創新措施,推動著作權法的漸進改革與完善,保障著作權人的合法權益,促進人工智能技術創新與應用的協調發展。
關鍵詞:人工智能;大模型;訓練數據;著作權困境;適應性治理
中圖分類號:DF03
文獻標志碼:A
DOI:10.3969/j.issn.1001-2397.2025.02.13 開放科學(資源服務)標識碼(OSID):
目 次
一、問題的提出
二、人工智能大模型訓練面臨的著作權困境
三、人工智能大模型訓練的著作權法規制改革方案檢視
四、邁向“開放式”權益平衡模式:合理使用的適用性
五、超越合理使用:通過技術、透明和補償促進權益平衡
六、結語
一、問題的提出
在人工智能大模型引發的諸多法律問題中,【See Rishi Bommasani et al., On the Opportunities and Risks of Foundation Models, ArXiv Preprint (Jul. 12, 2022), https://doi.org/10.48550/arXiv.2108.07258.】模型訓練的著作權侵權風險受到廣泛關注。【See Peter Henderson et al., Foundation Models and Fair Use, ArXiv Preprint (Mar. 28, 2023), https://doi.org/10.48550/arXiv.2303.15715.】具體而言,人工智能大模型依賴于對海量數據進行訓練,而其中相當一部分數據涉及受著作權保護的作品,導致數據使用的合法性問題凸顯,甚至已成為全球范圍內引發廣泛法律爭議的熱點議題。例如,在國際范圍內,以OpenAI、Stability AI等為代表的人工智能大模型開發者或平臺,近年來頻頻遭遇著作權侵權訴訟,被指控未經授權使用含有受著作權保護作品的數據集開展人工智能模型訓練,侵害原作品著作權人之合法權益。【See Nicola Lucchi, ChatGPT: A Case Study on Copyright Challenges for Generative Artificial Intelligence Systems, 15 European Journal of Risk Regulation 602 (2024).】在國內,也已出現類似的法律糾紛,如插畫師對人工智能繪畫軟件提起訴訟,主張其作品未經許可地用于人工智能大模型訓練。【參見慕宏舉:《互聯網法院開庭審理全國首例涉AI繪畫大模型訓練著作權侵權案》,載《新京報》,https://www.bjnews.com.cn/detail/1718889751169215.html.】這些案件的密集出現充分反映出人工智能技術與法律制度之間日益加劇的張力,體現出當前著作權法律體系在應對技術創新所帶來的新挑戰時存在的制度回應不足。
面對人工智能大模型訓練引發的著作權困境,目前理論界尚未形成統一而清晰的法律規制意見。有論者認為,大模型訓練對作品的使用是一種技術過程中的附隨性復制,具有極強的轉換性目的,可以認定為“合理使用”,應當通過設置機器學習合理使用條款,來明確模型訓練中作品使用行為的合法性。【參見張吉豫、汪賽飛:《大模型數據訓練中的著作權合理使用研究》,載《華東政法大學學報》2024年第4期,第20頁。】還有論者則認為,生成式人工智能訓練中的作品使用具有“非特定性”,并且屬于生產過程性的中間使用,應當將其界定為“非作品性使用”而排除在著作權保護范圍之外。【參見劉曉春:《生成式人工智能數據訓練中的“非作品性使用”及其合法性證成》,載《法學論壇》2024年第3期,第67頁。】這些爭議背后存在的深層次問題在于:人工智能大模型的快速迭代和數據使用方式的深刻變革,已經對以往著作權制度賴以建立的基礎理念、權利體系與利益平衡模式提出了嚴峻挑戰。因此,如何在維護原創作品創作者權益與激勵技術創新之間建立起一種新的動態平衡機制,成為當下著作權制度與實踐必須正視并迫切需要解決的難題。2024年7月,《中共中央關于進一步全面深化改革 推進中國式現代化的決定》明確提出“完善生成式人工智能發展和管理機制”;2025年3月,全國人大常委會工作報告亦提出,圍繞人工智能等新興領域加強立法研究。在此背景下,本文旨在探討人工智能大模型訓練面臨的著作權困境,分析現有著作權法律框架及擬議的規制改革方案之局限性,進而提出構建既尊重原創性又兼顧技術發展需求的適應性治理路徑,以期為我國人工智能治理提供參考。
二、人工智能大模型訓練面臨的著作權困境
人工智能大模型(如GPT-4、Gemini-2.0、DeepSeek-R1等)訓練涉及海量數據處理,具有極強的通用性特點,可被用于多個領域和多種任務,參見戴杕:《ChatGPT:人工智能的通用性發展及其法律規制》,載《西南政法大學學報》2023年第4期,第86頁。已引發復雜的著作權爭議。本文主要從大模型訓練中“數據處理”的法律定性、傳統作品許可使用機制的功能失靈以及既有“限制與例外”條款的適用難題三個維度,系統剖析人工智能大模型訓練對著作權制度的沖擊和挑戰。
(一)大模型訓練中“數據處理”構成“作品使用”
根據《中華人民共和國著作權法》(以下簡稱《著作權法》)的規定,著作權主要包括著作人身權(如發表權、署名權、修改權、保護作品完整權等)和著作財產權(如復制權、發行權與出租權、傳播權、演繹權等),因此作品的“使用”通常可以具體化為發表、署名、修改、復制、發行、傳播、演繹(如改編、翻譯、匯編等)等行為。在當前的人工智能大模型中,深度學習領域的核心技術架構分別是生成對抗網絡(GAN)和擴散模型(Diffusion Models)。其中,生成對抗網絡通過生成器與判別器的對抗性博弈實現數據分布擬合,其隱式馬爾可夫鏈結構使得訓練數據的可溯源性呈現指數級衰減;而擴散模型基于非平衡熱力學原理,通過正向擴散過程的噪聲疊加與逆向去噪的梯度優化,形成具有分形特征的生成路徑。【參見丁磊:《生成式人工智能:AIGC的邏輯與應用》,中信出版集團2023年版,第70-88頁。】大模型的底層技術原理決定了模型訓練的復雜性、周期性和過程性,其核心流程涉及數據收集、數據整理、模型預訓練和模型微調等環節,【See Mehtab Khan amp; Alex Hanna,The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability, 19 Ohio State Technology Law Journal 171,196 (2023); Martin Kretschmer, Thomas Margoni amp; Pinar Oru, Copyright Law and the Lifecycle of Machine Learning Models, 55 International Review of Intellectual Property and Competition Law 110 (2024).】其技術特征與著作權法中的“作品使用”行為具有實質同構性。【參見焦和平:《人工智能創作中數據獲取與利用的著作權風險及化解路徑》,載《當代法學》2022年第4期,第130-133頁; See Tanja arevi et al., U Can’t Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI, ArXiv Preprint (Apr. 22, 2024), https://doi.org/10.48550/arXiv.2406.15386.】
第一,數據收集階段主要涉及作品的復制,關涉復制權保護。復制權是著作財產權中最為核心的權利,其涵蓋“以任何方式將作品制作一份或多份”的行為。一般認為,要構成著作權法意義上的“復制行為”,應當滿足以下兩個要件:一是該行為應當在有形物質載體(有體物)之上再現作品;二是該行為應當使作品被相對穩定和持久地“固定”在有形物質載體之上,形成作品的有形復制件。【參見王遷:《知識產權法教程》(第7版),中國人民大學出版社2021年版,第163-164頁。】人工智能大模型訓練需要海量數據,一種常見的方法便是由開發人員或第三方從互聯網上大規模爬取數據(如文本、圖片等)來構建訓練數據庫,其中便包含大量受著作權保護的作品數據。【Vgl. Tim W. Dornis/Sebastian Stober, Urheberrecht und Training generativer KI-Modelle: Technologische und juristische Grundlagen, 1. Aufl. 2024, S. 54 ff.】從技術邏輯的角度看,利用網絡爬蟲爬取網頁數據,主要是打開網頁,將具體的數據從網頁中復制并導出到表格或資源庫中,其核心就是“抓取和復制”。【參見呂云翔等編著:《人工智能導論》,機械工業出版社2022年版,第165-166頁。】無論作品是下載到個人電腦還是上傳到云端,其副本通常都是以數字形式存儲,即以可感知的形式“固定”下來,因而構成著作權法意義上的“復制行為”,從而對復制權提出挑戰。【參見王遷、褚楚:《人工智能與著作權邊界初探:技術進步下的法律挑戰與思考》,載《中國編輯》2024年第8期,第58頁;See Andres Guadamuz, A Scanner Darkly: Copyright Liability and Exceptions in Artificial Intelligence Inputs and Outputs, 73 GRUR International 111, 116 (2024).】
第二,數據整理階段主要涉及作品的復制、署名、修改等,關涉復制權、署名權、修改權和保護作品完整權等權利保護。署名權、修改權和保護作品完整權是著作人身權的主要內容。其中,署名權是作者在其創作的作品及其復制件上如何標記作品來源的權利,以彰顯作者與作品聯系的客觀事實;而修改權和保護作品完整權實際上同屬一種權利的正反面,保護作品的修改自由,不受歪曲和篡改。【參見劉春田主編:《知識產權法》(第5版),高等教育出版社2015年版,第74-76頁。】在人工智能大模型訓練過程中,訓練數據在進行使用前,首先要確保其結構良好、準確可靠。這就需要進行數據預處理,包括數據的清洗、集成、標注、轉換等一系列步驟。上述處理手段的實現將不可避免地會對訓練數據中的作品進行復制,還可能刪除作者的姓名,對作品的完整性進行修改和調整。研究表明,當前主流訓練數據集普遍存在元數據信息記錄缺失現象,尤以數據溯源信息(Data Provenance)及對應授權許可條款為甚,在數據預處理階段即對元數據(包含創作者身份、創作時間等關鍵權屬信息)實施系統性剝離已成為技術慣例。【See Shayne Longpre et al., A large-scale audit of dataset licensing and attribution in AI, 6 Nature Machine Intelligence 975, 976-982 (2024).】
第三,模型預訓練階段主要涉及作品的復制和演繹,關涉復制權和演繹權。在模型預訓練階段,神經網絡通過反復讀取訓練數據來調整內部參數,形成“預訓練模型”或“基礎模型”。在理想情況下,大模型并非以人類可讀方式“存儲”每一條訓練數據,而是由模型參數以分布式方式隱含反映數據的統計特征,通過提煉共性特征實現對知識的泛化,而非逐字逐圖記憶。然而,實證研究發現,大模型對訓練數據存在一定程度的“記憶效應”(Memorization)。【See Peter Henderson et al., Foundation Models and Fair Use,ArXiv Preprint (Mar. 28, 2023), https://doi.org/10.48550/arXiv.2303.15715.】一方面,由于訓練數據規模巨大,部分內容會被模型參數直接記憶,研究顯示約0.1%—10%的訓練數據片段被顯性嵌入模型參數中;【See A. Feder Cooper amp; James Grimmelmann,The Files are in the Computer: Copyright, Memorization, and Generative AI, ArXiv Preprint (Mar. 10, 2025), https://doi.org/10.48550/arXiv.2404.12590.】另一方面,即使未被直接記憶的作品,其獨特表達也可能通過參數調整以功能形式保留下來,通過適當技術手段(如提示詞)可將其重現為可感知的作品內容。【Vgl. Paulina Jo Pesch/Rainer B?hme, Artpocalypse now?-Generative KI und die Vervielf?ltigung von Trainingsbildern, GRUR 2023, S. 997 (1004). 】研究表明,GPT-4等大模型在特定提示詞下能輸出與其訓練數據完全一致或高度相似的文本。【See Nicholas Carlini et al., Quantifying Memorization Across Neural Language Models, ArXiv Preprint (Mar. 6, 2023), https://doi.org/10.48550/arXiv.2202.07646.】
第四,模型微調階段主要涉及作品的復制,關涉復制權。模型微調是在預訓練模型的基礎上,進一步針對特定任務或特定應用場景,輸入更具針對性的數據,以優化大模型在特定領域中的表現效果。從技術實現流程分析,模型微調階段通常包含三個遞進式數據處理環節:一是目標領域數據集的預處理階段,可能涉及對受著作權保護作品的數字化轉換與存儲;二是參數調整階段的梯度下降運算過程中,系統內存對訓練數據的臨時性駐留;三是模型權重更新時對數據特征的分布式表征,作品內容不是以傳統意義上的文本或圖像直接儲存,而是以數值化、分布式的參數形式隱含存儲。
(二)傳統作品許可使用機制面臨功能失靈
一般認為,著作權是作者依法對作品及相關客體所享有的專有權利,其根本在于自然正義,它賦予作者以權利,使之能夠獲得對作品的某些控制措施,以便為生產創造性作品帶來某種激勵。【參見[美]保羅·戈斯汀:《著作權之道:從谷登堡到數字點播機》,金海軍譯,北京大學出版社2008年版,第11頁。】從權利屬性的角度看,著作權的核心要素是排他性(Exclusivity),即賦予作者排除他人使用其作品的能力。【See William Patry, How to Fix Copyright, Oxford University Press, 2012, p. 177.】為了確保這種排他性,“許可”便成為著作權持有者利用其作品的最重要方式之一,也是使作品使用行為合法化的重要前提條件,否則就可能構成侵權。【See Poorna Mysoor, Implied Licences in Copyright Law, Oxford University Press, 2021, p. 17-19.】如上文所述,人工智能大模型訓練涉及受著作權保護作品的使用,因此需要獲得相應的使用許可。然而,理論與實踐表明,傳統的作品許可使用機制面臨功能失靈,難以使上述使用行為合法化。
1.許可使用機制在實踐中面臨可行性困境
人工智能大模型通常依靠動輒數億條數據構建其訓練數據,這些數據的數量龐大且來源分散,其中大量的數據條目涉及不同領域、類型與規模的作品。以典型多模態數據集LAION-5B為例,其中便包含了58.5億條圖像-文本對(Image-text Pairs)。【See Christoph Schuhmann et al., LAION-5B: An Open Large-Scale Dataset for Training Next Generation Image-text Models, ArXiv Preprint (Oct.16, 2022), https://doi.org/10.48550/arXiv.2210.08402.】為了確保數據的合法使用,大模型開發者可能需要逐一獲得對應的著作權持有者之許可。在應對人工智能大模型訓練的需求時,傳統作品許可使用機制在技術和實踐層面幾乎無法完成,正面臨系統性功能失調的嚴峻挑戰。
首先,權利主體虛化與多模態使用的復合性困境。如前所述,訓練數據大多源于開放的網絡環境,尤其是通過網絡抓取獲得的作品數據,其本身很少為每一項數據保留元數據(如作者身份、來源、許可信息等),因此作品與著作權持有者之間缺乏明確、穩定的對應關系。此外,隨著數字網絡環境中創作主體的匿名化、去中心化趨勢,大量“孤兒作品”充斥其中,這進一步加劇了“權利主體虛化”問題。【See Saliltorn Thongmeensuk, Rethinking Copyright Exceptions in the Era of Generative AI: Balancing Innovation and Intellectual Property Protection, 27 The Journal of World Intellectual Property 278, 280 (2024).】更為復雜的是,多模態融合訓練模式易引發權利交叉難題:當單一訓練數據同時包含受不同權利保護的文本、圖片、音頻、視頻等元素時,傳統“分項授權”機制在技術層面將缺乏可操作性。
其次,規模化訓練需求與原子化授權模式的制度性錯配。“正像其他財產的權利一樣,知識財產的權利也是一種人與人之間的關系。”【[澳]彼得·德霍斯:《知識財產法哲學》,周林譯,商務印書館2017年版,第13頁。】即便大模型開發者能夠成功找到具體的著作權持有者,談判與協商過程本身的復雜性也將極大限制傳統作品許可使用機制的適用性。著作權持有者對于作品的使用可能持不同的態度和訴求,在使用條件、授權期限、費用標準以及利益分配等問題上均可能存在重大分歧。即便大模型開發者試圖與每一位著作權持有者開展談判并協商許可,效率也將極為低下,達成統一標準的協議十分困難。【參見張吉豫、汪賽飛:《大模型數據訓練中的著作權合理使用研究》,載《華東政法大學學報》2024年第4期,第28頁。】
最后,逐一獲得著作權使用許可還面臨跨國界的復雜性。人工智能大模型訓練所使用的數據集通常并非局限于單一國家或地區,而可能是跨域多個法域、多個地域界限的結果。眾所周知,著作權保護具有顯著的地域性特征,不同國家或地區著作權法所規定的保護范圍、保護期限、限制與例外的條件、授權方式、法律責任等均存在不小的差異,甚至可能出現顯著沖突。因此,跨境許可的法律不確定性與協調成本,將進一步導致傳統作品許可使用機制在全球化大模型訓練活動中難以實施。【Vgl. Niklas Maamar, Urheberrechtliche Fragen beim Einsatz von generativen KI-Systemen, ZUM 2023, S. 481 (486).】
事實上,傳統作品許可使用機制的功能失靈不僅僅停留在操作復雜性與成本高昂問題本身,其背后也反映了現行著作權法律體系與人工智能大模型技術特征之間的深層次矛盾。大模型訓練是一種典型的數據密集型應用場景,其對受著作權保護作品的使用體現為規模性、自動化和批量化的特征,而傳統作品許可使用機制則源自紙質時代對作品逐件控制的理念,根植于“個人作者、個人作品以及創造力是個人行為的觀念”,【Patricia Aufderheide amp; Peter Jaszi, Reclaiming Fair Use: How to Put Balance Back in Copyright, The University of Chicago Press, 2018,p. 21.】強調逐一談判授權的個體交易模式,天然與數據密集型的創新型數據利用方式存在齟齬。
2.許可使用機制可能產生負面效應
傳統作品許可使用機制不僅面臨功能失靈,還可能產生一系列負面效應。首先,許可使用機制的過度依賴可能成為技術創新的障礙。在人工智能大模型領域,高質量數據的可用性是人工智能技術創新的關鍵因素,若開發工作受到繁瑣的授權許可程序和高昂協商成本的限制,研究人員和開發者可能會被迫放棄探索新的應用領域和技術突破。【See Domenico Marino, Jaime Gil Lafuente amp; Domenico Tebala, Innovations and Development of Artificial Intelligence in Europe: Some Empirical Evidences, 32 European Journal of Management and Business Economics 620 (2023).】其次,許可使用機制可能導致不公平的競爭環境。在資源分配不均的情況下,大型科技公司通常能夠憑借其雄厚的資金和法律資源,更容易獲取作品的許可。相反,小型創業公司和研究機構由于缺乏足夠的資金,可能在競爭中處于劣勢地位。這種不平等的競爭條件不僅可能抑制整個智能行業的創新活力,還可能對消費者權益產生影響,“競爭的加劇才能為公眾提供更多和更高質量的人工智能產品,從而使公眾受益”。【See Jenny Quang, Does Training AI Violate Copyright Law?, 36 Berkeley Technology Law Journal 1407, 1426 (2021).】最后,許可使用的選擇性和差異性可能影響訓練數據的質量。如前所述,著作權持有者對作品的使用可能有不同的偏好和期待,一些權利持有者可能出于各種原因不愿意或無法提供所需的許可,這會導致訓練數據集的不完整性。“廣泛獲取訓練數據集將使人工智能變得更好、更安全、更公平。規模較小的專有數據集,尤其是因著作權許可失效而造成的大量非隨機數據集,將導致機器學習系統做出更糟糕的決策,而這些糟糕的決策會對現實世界產生影響。”【Mark A. Lemley amp; Bryan Casey, Fair Learning, 99 Texas Law Review 743, 770 (2021).】
(三)既有“限制與例外”條款存在適用難題
從經濟學視角審視,著作權的“限制與例外”(Limitations and Exceptions)條款旨在通過調整著作權保護范圍,從而在作品獲取與創作激勵之間實現社會最優平衡。【See Shyamkrishna Balganesh, Ng-Loy Wee Loon amp; Haochen Sun eds., The Cambridge Handbook of Copyright Limitations and Exceptions, Cambridge University Press, 2021, p. 5.】各國的著作權法以及一些重要的國際公約(如《伯爾尼公約》)均規定了對著作權的“限制與例外”,我國《著作權法》把自由無償使用和法定許可統稱為“著作權的限制”。【參見劉春田主編:《知識產權法》(第5版),高等教育出版社2015年版,第122-123頁。】就人工智能大模型訓練而言,當傳統作品許可使用機制難以因應受著作權保護作品使用的合法性質疑時,還有必要檢視現行法律框架中的“限制與例外”條款能否為其提供責任豁免。
第一,《著作權法》的“自由無償使用”條款存在適用性困境。我國《著作權法》規定的第一種“限制與例外”類型是“自由無償使用”,學術界通常將其稱為“合理使用”,即在特定情形下,他人使用作品可以不征得著作權人的許可,也不必支付報酬,主要體現在《著作權法》第24條。現行《著作權法》第24條構建的封閉式列舉模式,本質上是對模擬技術時代的制度回應,其預設的“個人學習、研究或欣賞”“適當引用”等例外情形,主要建立在人類主體有限使用的物理約束基礎之上。然而,人工智能大模型訓練的技術特性突破了傳統使用行為的物理邊界:一方面,模型訓練通常需要對作品進行全文本解析與特征提取,這種“完整性使用”與自由無償使用制度中的“片段化使用”范式形成沖突;另一方面,訓練數據的商業化流轉與價值轉化,使“非營利性”要件面臨解釋困境。
第二,《著作權法》的“法定許可”條款存在適用性困境。現行法定許可條款(如《著作權法》第25條規定的“教科書編寫許可”、第35條規定的“報刊轉載許可”以及第42條規定的“制作錄音制品許可”等)的立法邏輯主要植根于特定公共文化產品的供給保障,其制度效能依賴于明確的使用場景限定與可操作的報酬計算機制。人工智能大模型訓練雖然具有技術創新的正外部性,但絕大多數大模型主要由商業主體主導,其逐利本質恐難以完全契合現行法定許可制度所呈現的“公共性”傾向。更深層次的制度悖論在于:當海量數據使用遭遇微量報酬計算時,不僅可能催生天價許可費的現實難題(如谷歌數字圖書館計劃的著作權爭議),更有可能導致交易成本指數級上升而形成“反公地悲劇”。
三、人工智能大模型訓練的著作權法規制改革方案檢視
在現行著作權法律框架下,人工智能大模型訓練中的“作品使用”面臨合法性質疑,而傳統作品許可使用制度和“限制與例外”條款均難以提供合法化機制。為了加強著作權法對人工智能大模型訓練的回應性,理論與實踐提出了諸多規制改革方案,其中最具突破性的有兩種路徑:一是“根源性”權利限縮模式,即直接從根源上對以“復制權”為核心的著作權體系進行重構,對著作權的原有保護范圍進行限縮,進而將大模型訓練中的“數據處理”排除在“作品使用”之外,【參見徐龍、鄭冠宇:《論機器學習之著作權困境與應對》,載《臺大法律論叢》2023年第2期,第426頁;施小雪:《重塑復制權:生成式人工智能數據訓練的合法化路徑》,載《東方法學》2024年第6期,第70頁。】此種規制改革方案主要以“非作品性使用”(Non-work Use)觀點為代表;【參見劉曉春:《生成式人工智能數據訓練中的“非作品性使用”及其合法性證成》,載《法學論壇》2024年第3期,第67頁;李安:《機器學習的版權規則:歷史啟示與當代方案》,載《環球法律評論》2023年第6期,第106-108頁。】二是“封閉式”權利限制模式,即先預設大模型訓練中的“作品使用”存在侵害著作權的可能性,再通過設置例外情形進行明確的責任豁免,此種規制改革方案主要以主張直接在現行法律中設置類似于“文本與數據挖掘”(Text and Data Mining)例外條款的觀點為代表。【See Saliltorn Thongmeensuk, Rethinking copyright exceptions in the era of generative AI: Balancing innovation and intellectual property protection, 27 The Journal of World Intellectual Property 278 (2024);焦和平:《人工智能創作中數據獲取與利用的著作權風險及化解路徑》,載《當代法學》2022年第4期,第128頁。】盡管上述規制改革方案從不同角度嘗試回應人工智能大模型訓練的著作權問題,但它們在理論與實踐中均存在一定的局限性。
(一)“根源性”權利限縮模式:非作品性使用的不足
現代數字技術的發展和互聯網的普及,已經使復制成為信息傳遞和使用的核心組成部分。例如,計算機程序、網絡服務和數據存儲等本質上都依賴于復制。這種依賴復制的技術模式與傳統著作權法規定產生了深刻的沖突,因為傳統著作權法往往強調復制對創作主體權利產生的侵害。【See Maurizio Borghi amp; Stavroula Karapapa, Copyright and Mass Digitization, Oxford University Press, 2013, p. 8-9.】對此,馬修·薩格(Matthew Sag)教授認為,依賴復制的技術并不閱讀、理解或欣賞受著作權保護的作品,也不直接向公眾提供這些作品,但是它們必須復制這些作品作為各種算法技術的原材料,此種使用具有“非表達性”,不應被視為著作權侵權。【See Matthew Sag, Copyright and Copy-Reliant Technology, 103 Northwestern University Law Review 1607, 1608-1609 (2009).】亞伯拉罕·德拉西諾爾(Abraham Drassinower)教授亦主張,復制行為并非自動等同于作品使用,在很多情況下,復制是信息的物理或數字化重現,并不意味著該復制行為必然涉及到對作品的創作性再現或具有表達性內容。在此基礎上,德拉西諾爾教授進一步指出,區分“作品性使用”與“非作品性使用”有助于避免濫用著作權的保護范圍。若復制行為不涉及作品創作性或表達形式的再現,那么即便是通過復制的方式獲取知識,也不應被視為不道德的行為。通過這種區分,社會能夠更好地理解哪些行為應當受到保護,哪些則應當被視為合理的使用,最終為更廣泛的信息共享和知識傳播提供空間。【See Abraham Drassinower, What’s Wrong with Copying?, Harvard University Press, 2015, p. 86-109.】
在此背景下,有觀點主張用“非作品性使用”來解決人工智能大模型訓練的合法性問題,即不將人工智能大模型訓練中的“數據處理”視為“作品使用”,因此不應受到著作權法的約束。德國學者丹尼爾·舍恩伯格(Daniel Sch?nberger)認為,人工智能大模型在訓練過程中并不直接對受著作權保護的作品進行復制或變更,而是通過自動化的方式從大量數據中提取模式、規律與結構,這種使用更應被視為信息獲取與技術創新,而非侵犯著作權的復制行為。【See Daniel Sch?nberger, Deep Copyright : Up- and Downstream Questions Related to Articial Intelligence (AI) and Machine Learning (ML), 10 Zeitschrift für geistiges Eigentum (ZGE) 35, 35-58 (2018).】國內亦有學者認為,大模型訓練中的作品使用,具有“非特定性”,不指向具體而特定的單個作品,從功能上看,屬于生產過程性的中間使用,應當將其界定為“非作品性使用”而排除在著作權保護范圍之外。【參見劉曉春:《生成式人工智能數據訓練中的“非作品性使用”及其合法性證成》,載《法學論壇》2024年第3期,第67頁。】“非作品性使用”理論作為化解人工智能大模型訓練中著作權困境的創新方案,雖具有突破性思維價值,但其理論自恰性和實踐可行性仍面臨困境。
其一,該理論可能對著作權制度根基構成解構性沖擊。一般認為,著作權法的核心目的之一便是通過賦予創作者的“專有權利”來形成“創作—保護—再創作”的正向循環。【See William Patry, How to Fix Copyright, Oxford University Press, 2012, p. 8.】若將人工智能大模型訓練納入“非作品性使用”范疇,實則可能消解著作權法對數字技術應用場景的規制效力,這不僅可能會引發權利配置的結構性失衡,更可能觸發制度剛性下的系統性風險。【參見徐龍、鄭冠宇:《論機器學習之著作權困境與應對》,載《臺大法律論叢》2023年第2期,第430頁。】從制度變遷的視角觀之,涉及核心權利束調整的法律變革通常需承擔高昂的路徑依賴成本,其綜合成本可能遠超制度收益。
其二,該路徑忽視作品創作者的權益保護。將人工智能大模型訓練中的“數據處理”認定為“非作品性使用”,可能會導致創作者在作品被使用時缺乏相應的補償機制。在數據資本主義語境下,【參見陳積銀、孫月琴:《數據資本化與資本數據化:數據資本主義的批判與應對》,載《探索與爭鳴》2023年第11期,第75頁。】科技公司可能依托“非作品性使用”的理論豁免,實質上構建“免費獲取—商業轉化”的單向價值攫取機制。這種制度安排不僅違背權利與義務對等性原則,【參見張新寶、卞龍:《生成式人工智能訓練語料的著作權保護》,載《荊楚法學》2024年第5期,第82頁。】更可能形成“數字圈地運動”式的權利真空。【參見[美]威廉·M.蘭德斯、[美]理查德·A.波斯納:《知識產權法的經濟結構》(中譯本第2版),金海軍譯,北京大學出版社2016年版,第14-16頁。】在一項對1000多名藝術家的實證調查中,超過95%的藝術家將他們的藝術作品發布在網絡上,其中有53%的人預計將減少或刪除他們的在線作品。【See Shawn Shan et al., Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models, ArXiv Preprint (Aug. 3, 2023), https://doi.org/10.48550/arXiv.2302.04222.】這種防御性創作策略的蔓延,將可能導致公共領域資源的逆向收縮,最終可能危及人工智能訓練數據生態的可持續性。
(二)“封閉式”權利限制模式:文本與數據挖掘的局限
為了給技術創新提供較為明確的法律框架,理論與實踐亦嘗試通過立法對“限制與例外”的具體情形進行明確規定的方式來增加法律的確定性和可預見性,即所謂的“封閉式”權利限制模式。在比較法中,為促進數字技術進步,歐盟、英國和日本等一些國家或地區已經明確將“文本與數據挖掘”納入其版權法的“限制與例外”情形中。例如,歐盟于2019年通過了《數字單一市場版權指令》(Directive on Copyright in the Digital Single Market),其第2條第2項將“文本與數據挖掘”界定為“任何旨在分析數字形式的文本和數據以生成信息(包括但不限于模式、趨勢和相關性)的自動分析技術”;第3條規定了第一種例外情形,研究組織和文化遺產機構為科學研究目的可以對其合法訪問的作品進行文本與數據挖掘;第4條規定了第二種例外情形,任何人均可以為任何用途適用該例外情形,但版權持有者可以明確保留其作品的使用權,即可以通過“選擇退出”或“合同退出”的程序來拒絕他人對其作品的使用。
在此背景下,圍繞人工智能大模型訓練的著作權風險,“文本與數據挖掘”這一法定例外情形便成為一種解決方案。【See Kalpana Tyagi, Copyright, Text amp; Data Mining and the Innovation Dimension of Generative AI, 19 Journal of Intellectual Property Law amp; Practice 557, 563 (2024).】盡管歐盟《數字單一市場版權指令》在規定“文本與數據挖掘”時并非針對人工智能技術,但是歐盟《人工智能法》第53條第1款第(c)項肯定了上述條款在人工智能領域的適用性,要求通用人工智能模型提供商“制定一項遵守歐盟版權法的政策,特別是確定并遵守(包括通過最先進的技術)根據2019/790號指令第4條第3段表達的權利保留”。美國學者邁克爾·卡羅爾(Michael W. Carroll)認為,文本與數據挖掘技術對于推動科學進展具有重要作用,著作權法應當為學術研究和科學進步提供更多的靈活性和寬容度,應當明確允許人工智能或機器學習對大規模數據集進行挖掘和分析,而無需每次都獲得著作權持有者的許可。【See Michael W. Carroll, Copyright and the Progress of Science: Why Text and Data Mining Is Lawful, 53 UC Davis Law Review 893,897-898 (2019).】在我國,一些學者亦主張從立法角度借鑒歐盟和日本,在立法中明確將諸如“文本與數據挖掘”或“人工智能創作”列為限制與例外情形,正面回應人工智能技術創新與發展的現實需求。【參見吳漢東:《人工智能生成作品的著作權法之問》,載《中外法學》2020年第3期,第662頁;焦和平:《人工智能創作中數據獲取與利用的著作權風險及化解路徑》,載《當代法學》2022年第4期,第128頁。】
從長遠來看,當人工智能大模型技術已完成突破性創新階段進入應用深化期時,明確規定符合技術特征的著作權限制與例外情形具有正當性基礎。然而,當前人工智能大模型技術尚處于快速迭代的動態發展階段,通過制定類似于歐盟等域外法中的“文本與數據挖掘”例外條款,雖在一定程度上能夠為人工智能大模型訓練提供法律確定性,緩解其所面臨的作品許可使用難題,但此種方案仍然存在局限性,需要結合技術特征設計更為細致的配套制度。
其一,“文本與數據挖掘”例外條款在國外實踐中已經展現出較為明顯的制度缺陷與矛盾。在比較法中,歐盟《數字單一市場版權指令》第3條、第4條雖然引入了“文本與數據挖掘”例外規則,但實踐中卻產生了大量的解釋難題與爭議。一方面,模型開發者在進行數據挖掘時著作權人擁有“選擇退出權”,可能導致模型開發者無法真正放心、大規模、無障礙地使用所需數據;另一方面,附隨的“權利保留”機制與人工智能大模型的技術特性存在沖突,海量作品的權利主張與退出聲明追蹤在技術上存在可操作性困難。【See Artha Dermawan, Text and data mining exceptions in the development of generative AI models: What the EU member states could learn from the Japanese “nonenjoyment” purposes?, 27 The Journal of World Intellectual Property 44, 53 (2024).】此外,若采用完全開放的法定例外(如日本《著作權法》允許的非欣賞目的的廣泛豁免模式)容易忽視創作者的權益保護,導致著作權保護功能的弱化,進而可能降低創作者繼續創作的積極性。【See Saliltorn Thongmeensuk, Rethinking Copyright Exceptions in the Era of Generative AI: Balancing Innovation and Intellectual Property Protection, 27 The Journal of World Intellectual Property 278, 284 (2024).】例如,日本音樂著作權協會曾表示:“在涉及生成式人工智能方面,日本現行著作權法并沒有在保護創作者上做出貢獻。實際上,日本著作權法更加關注對創作者權利的限制。”【Kana Inagaki amp; David Keohane, Japan’s Copyright Rules Draw AI Groups — and Dlarm from Creators, Financial Times (Jul. 22,2024), https://www.ft.com/content/f9e7f628-4048-457e-b064-68e0eeea1e39.】這些國際經驗表明,類似于“文本與數據挖掘”的例外條款本身并非完美無缺的方案,而是充滿了復雜的利益衡量與制度選擇困境,值得我國立法時審慎考量。
其二,單純增加“文本與數據挖掘”例外條款可能存在與現有法律框架的協調難題。仔細考察我國《著作權法》第24條的立法設計可以發現,其規定的“限制與例外”情形通常是以特定的具體用途、明確的使用范圍為基礎設置的條款。然而,人工智能大模型訓練屬于一種復合性的、規模化的技術應用場景,其涉及的數據使用類型可能超出既有權利限制條款所預設的范圍。面對尚處于快速迭代發展中的人工智能大模型技術,直接引入類似于“文本與數據挖掘”的“限制與例外”條款,可能導致制度層面出現條款適用范圍不清晰、利益衡量標準模糊以及與其他權利限制條款之間協調困難的問題。正如威廉·帕特里(William Patry)所指出的,封閉的清單必須定期更新,否則就會扼殺技術或市場創新;任何立法機構,無論多么謹慎或富有遠見,都無法考慮到當前所有的用途,更不用說尚未出現的用途、技術或市場。【See William Patry, How to Fix Copyright, Oxford University Press, 2012, p. 223.】
四、邁向“開放式”權益平衡模式:合理使用的適用性
一般認為,著作權法蘊含了一種“權益平衡”的權利保護哲學,如果保護力度過弱,人們可能不會投入過多的智力活動;如果保護力度過強,公眾將無法從作品創作中獲得全部預期收益。【See Gideon Parchomovsky amp; Kevin A. Goldman, Fair Use Harbors, 93 Virginia Law Review 1483, 1494 (2007).】在此背景下,合理使用便成為維護權益平衡的關鍵制度工具,它可以使某些作品使用合法化,否則這些使用行為將引發著作權侵權責任。【See Patricia Aufderheide amp; Peter Jaszi, Reclaiming Fair Use: How to Put Balance Back in Copyright, University of Chicago Press, 2018, p.20.】考慮到人工智能大模型的技術特性與發展態勢,相比于“根源性”權利限縮模式和“封閉式”權利限制模式這兩種極具突破性的著作權法規制改革方案,一些學者主張采用一種更為靈活、漸進的“開放式”權益平衡模式,即原則上將人工智能大模型訓練納入“合理使用”的范疇。【參見張新寶、卞龍:《生成式人工智能訓練語料的著作權保護》,載《荊楚法學》2024年第5期,第77頁;張吉豫、汪賽飛:《大模型數據訓練中的著作權合理使用研究》,載《華東政法大學學報》2024年第4期,第20頁;徐小奔:《技術中立視角下人工智能模型訓練的著作權合理使用》,載《法學評論》2024年第4期,第86頁;See Peter Henderson, Foundation Models and Fair Use, ArXiv Preprint (Mar. 28, 2023), https://doi.org/10.48550/arXiv.2303.15715; Matthew Sag, Fairness and Fair Use in Generative AI, 92 Fordham Law Review 1887,1921 (2024); Andrew W. Torrance amp; Bill Tomlinson, Training Is Everything: Artificial Intelligence, Copyright, and “Fair Training”, 128 Dickinson Law Review 233,255 (2023).】不過,由于“合理使用”的認定本身具有極強的個案特性,【See William Patry, How to Fix Copyright, Oxford University Press, 2012, p. 215.】再加上人工智能大模型訓練的多階段性和場景依賴性,本文認為,籠統地將人工智能大模型訓練一概納入“合理使用”范疇,也可能會重蹈上述規制改革方案困境的覆轍,難以實現包容審慎規制理念。【參見張濤:《生成式人工智能訓練數據集的法律風險與包容審慎規制》,載《比較法研究》2024年第4期,第86頁。】因此,有必要結合人工智能價值鏈,充分考慮訓練數據的類型以及不同的使用目的,建構合理使用的分類評估框架。
(一)人工智能大模型訓練中合理使用的適用必要性
如前所述,互聯網和數字技術帶來的創新日新月異,企業和市場適應新技術的時間表已經大大縮短,因此試圖規范數字技術引發的商業問題之法律也需要迅速調整。正如學者所言:“在這個高度動態、不可預測、且不斷變化的信息社會中,著作權法更加開放的必要性幾乎是不言而喻的。”【P. Bernt Hugenholtz amp; Martin Senftleben, Fair Use in Europe: In Search of Flexibilities, SSRN (Nov. 14,2011),https://ssrn.com/abstract=1959554.】“合理使用”具有一定的靈活性,便成為“開放式”權益平衡模式的主要制度工具之一。在我國著作權法理論與實踐中,合理使用制度主要建立在《伯爾尼公約》的“三步檢驗法”框架之下。不過,有學者認為,“三步檢驗法”存在立法技術缺陷,擠壓和侵蝕了合理使用的適當空間,也沒有提供合理使用的宗旨或價值目標。【參見林秀芹:《人工智能時代著作權合理使用制度的重塑》,載《法學研究》2021年第6期,第178-179頁。】在比較法中,美國版權法第107條規定了合理使用制度的四個要素:(1)使用的特性和目的,包括該使用具有商業性質還是為了非營利和教育目的;(2)被使用的版權作品的性質;(3)與被使用的版權作品整體相比,使用部分所占的數量和實質性;(4)該使用對版權作品潛在市場或價值的影響。【See Niva Elkin-Koren amp; Orit Fischman-Afori, Rulifying Fair Use, 59 Arizona Law Review 161, 164 (2017).】
對此,有學者提出,我國可以借鑒美國合理使用制度的四要素對“三步檢驗法”進行重構,在此基礎之上,可以將人工智能大模型訓練中的“作品使用”歸入合理使用的范疇。【參見張吉豫、汪賽飛:《大模型數據訓練中的著作權合理使用研究》,載《華東政法大學學報》2024年第4期,第25-31頁。】還有學者認為,即使以我國著作權法中“三步檢驗法”作為判斷標準,生成式人工智能訓練數據的使用也可以構成合理使用,一方面此種行為不會影響作品的正常使用,另一方面此種行為整體上不會不合理地損害著作權人的合法權益。【參見張新寶、卞龍:《生成式人工智能訓練語料的著作權保護》,載《荊楚法學》2024年第5期,第84-87頁。】上述觀點從不同維度證成了人工智能大模型訓練中適用合理使用制度的正當性。本文認為,在大規模數字化的背景下,人工智能大模型訓練不同于傳統的作品使用情境,這為合理使用制度的適用提供了新的現實基礎。
第一,非直接復制與去標識化的訓練方式。人工智能大模型訓練主要是通過深度神經網絡的多層次表征學習,對訓練數據集進行去標識化的特征萃取,其本質是對作品思想內核和表達范式的抽象建模,而非對具體表達形式的機械再現。【See Mark A. Lemley amp; Bryan Casey, Fair Learning, 99 Texas Law Review 743, 772-773(2021).】從技術實現層面觀察,人工智能大模型采用分布式表征技術,通過自注意力機制(Self-attention Mechanism)對輸入數據進行向量空間映射,將文本、圖像等作品要素解構為高維語義向量。【Vgl. Niklas Maamar, Urheberrechtliche Fragen beim Einsatz von generativen KI-Systemen, ZUM 2023, S. 481 (482).】這種技術路徑具有三重法律意義:(1)數據處理的去個性化特征使得原始作品與輸出結果之間難以建立可追溯的因果關聯;(2)模型參數的形成是數十億次梯度下降優化的累積結果,任何單一訓練樣本的影響權重主要呈現統計學意義上的彌散性;(3)權重矩陣的動態調適過程本質上屬于技術系統自主演進的認知范式重構。【See Matthew Sag, Fairness and Fair Use in Generative AI, 92 Fordham Law Review 1887, 1907(2024).】
第二,訓練的目的與“非競爭性市場”。合理使用的核心要素之一是市場替代效應分析,即作品使用行為是否對原始作品的市場造成了損害。從訓練目的審視,人工智能大模型訓練呈現出顯著的“技術性使用”(Technological Use)特征,【See Edward Lee, Technological Fair Use, 83 Southern California Law Review 797 (2010).】旨在通過數據要素的算法熔煉,建構具有通用認知能力的智能基座,有別于傳統著作權侵權中直接攫取作品表達價值的商業化利用。【參見張新寶、卞龍:《生成式人工智能訓練語料的著作權保護》,載《荊楚法學》2024年第5期,第85-86頁。】就輸出特性而言,人工智能大模型的涌現能力(Emergent Capability)使得模型輸出結果與訓練數據之間形成“雙重絕緣”機制:一是在技術實現層面,如前所述,大模型通過潛在空間(Latent Space)中的特征解耦,將訓練數據拆解為高維語義向量,使得輸出內容難以精確溯源至特定訓練樣本;二是在法律效果層面,生成內容呈現非確定性和不可預測性特征,其機理迥異于傳統“記憶存儲—信息再現”模式中的確定性調用機制。【See Matthew Sag, Fairness and Fair Use in Generative AI, 92 Fordham Law Review 1887, 1909(2024).】此外,從市場維度觀之,以GPT-4為代表的大模型訓練雖涉及對海量文本數據(涵蓋新聞報道、學術論文、文學作品等多元類型)的深度學習,但其生成內容卻可以擴展至教育輔助、智能客服、政務問答等廣泛的新興應用場景。從這個角度看,人工智能大模型創造的是技術工具市場而非單純的內容創作市場,二者具有產業互補性而非替代性。
第三,大規模數據與訓練行為的社會價值。合理使用制度的價值內核不僅在于平衡私權保護和公共福祉,更蘊含著推動人類文化繁榮的時代使命。“合理使用并不保護任何個人或團體的利益,而是保護表達自由和文化發展的能力。”【Patricia Aufderheide amp; Peter Jaszi, Reclaiming Fair Use: How to Put Balance Back in Copyright, The University of Chicago Press, 2018, p. 26.】隨著數智社會的不斷發展,人工智能大模型所產生的價值遠遠超出特定開發者或企業的利益邊界,能夠在更大范圍內提高生產效率、優化社會治理以及改善公共服務品質,最終推動整體社會的創新能力與福利水平顯著提升。【參見張吉豫、汪賽飛:《大模型數據訓練中的著作權合理使用研究》,載《華東政法大學學報》2024年第4期,第26頁。】這種正外部性與合理使用所追求的“社會價值”理念高度契合,使之成為人工智能大模型訓練中數據處理的制度性支撐。此外,從技術發展規律和實踐經驗來看,廣泛、充分且高質量的數據供給,能夠使人工智能大模型更加精準、全面地學習人類文化、語言、行為模式與知識體系,進而提高模型的泛化能力。【See Patrick K. Lin, Fair’s Fair: How Public Benefit Considerations in the Fair Use Doctrine Can Patch Bias in Artificial Intelligence Systems, 11 Indiana Journal of Law and Social Equality 229 (2023).】這種數據的開放性需求又進一步彰顯了合理使用制度在數據資源利用和配置過程中的重要價值。尤其值得強調的是,針對當前人工智能領域日益凸顯的“算法偏見”問題,合理使用制度在一定程度上可以推動訓練數據集更加全面、多元和均衡地構建,有助于著作權法實現更廣泛的規制目標。【See Amanda Levendowski, How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem, 93 Washington Law Review 579, 589(2018).】
(二)人工智能大模型訓練中合理使用的理論爭議
面對尚處于發展過程中的人工智能大模型,“合理使用”制度所具有的靈活性確實有助于實現著作權法的目標,同時也給技術創新者留有喘息的空間。然而,靈活性也是有代價的,學者們亦對人工智能大模型訓練中合理使用制度的適用提出了批判與質疑。
首先,合理使用的認定不僅需要法律專業知識,還需要對具體情境的深刻理解。從既有理論與實踐來看,合理使用判斷往往涉及使用目的與性質、作品本身的特性、使用作品的數量與實質程度以及作品潛在市場影響等多重因素的綜合考量。長期以來,這些因素本身缺乏明確的量化標準,導致在實際應用中難以形成統一且穩定的標準和可預測的結果。【See Gideon Parchomovsky amp; Philip J. Weiser, Beyond Fair Use, 96 Cornell Law Review 91, 99-100 (2010).】人工智能大模型的開發與應用場景高度復雜,涉及海量數據資源的利用,開發者在具體決策過程中可能難以確定自身對數據的使用程度、對原作品市場的實際影響以及自身數據使用的性質和目的是否已超越了合理使用的限度。
其次,靈活性所帶來的不確定性對一些風險容忍度較低的用戶,可能產生更大的負面影響。從實踐角度看,一些人工智能大模型開發者(尤其是小型初創企業)可能會采取較為謹慎的法律合規策略,試圖最大程度地避免潛在的著作權糾紛與由此產生的高昂經濟成本和聲譽損害。因此,在合理使用標準尚未明確界定、法律適用存在模糊空間的情況下,這些模型開發者出于風險規避的考慮,很可能主動放棄那些原本在法律上屬于合理使用范圍且對大模型訓練效果更具積極作用的優質數據。【See Niva Elkin-Koren amp; Orit Fischman-Afori, Rulifying Fair Use, 59 Arizona Law Review 161, 163(2017).】
最后,將人工智能大模型訓練一律視為合理使用,可能損害廣大創作者的利益。如前所述,著作權法的核心宗旨之一,在于通過對作品創作者的權利保護與激勵,促進作品的創作、傳播與知識的公共共享,從而推動社會文化的繁榮與知識進步。因此,合理使用制度本應保持在一個審慎的適用范圍之內,既要保障作品使用的公共價值,又要兼顧創作者個人權益的有效激勵與保護。然而,如果出于推動人工智能技術發展之目的而將合理使用的制度邊界大幅拓展至涵蓋所有模型訓練場景,使模型開發者在利用海量受著作權保護的作品數據時無需支付任何報酬或其他形式的合理補償,則可能會破壞制度初始設定的利益平衡,【See Benjamin L. W. Sobel, Artificial Intelligence’s Fair Use Crisis, 41 Columbia Journal of Law amp; the Arts 45, 81 (2017).】可能誘發“技術紅利私人化,創作成本社會化”的負外部效應。
(三)人工智能大模型訓練中合理使用的評估框架
為了緩解人工智能大模型訓練中合理使用制度遭遇的質疑,一些學者提出應當為合理使用建構一個更為精細的評估框架,而非“一刀切”地將人工智能大模型訓練籠統認定為“(不)構成合理使用”,原因在于“合理使用是因具體情況而異的,因此任何事前分析都無法預測所有相關問題”。【See Katherine Lee, A. Feder Cooper amp; James Grimmelmann, Talkin’ ‘Bout AI Generation: Copyright and the Generative-AI Supply Chain, ArXiv Preprint (Mar. 1, 2024),https://doi.org/10.48550/arXiv.2309.08133.】有學者認為,當代人工智能的最顯著特征之一就是依賴大量的訓練數據,因此可以將訓練數據分為公共領域數據、許可數據、受版權保護數據的市場侵占使用、受版權保護數據的非市場侵占使用,在此基礎上去分別評估合理使用的適用性。【See Benjamin Sobel, A Taxonomy of Training Data, in Jyh-An Lee, Reto Hilty amp; Kung-Chung Liu eds., Artificial Intelligence and Intellectual Property, Oxford University Press, 2021, p.221.】也有學者認為,鑒于人工智能產業鏈中主體的多元性,可以將人工智能大模型訓練解構為數據準備、數據投喂和機器學習三個階段,在此基礎上分別評估每個階段作品使用行為的“合理性”。【參見陶乾:《大模型訓練的著作權問題:理論澄清與規則適用》,載《政法論壇》2024年第5期,第152頁;Katherine Lee, A. Feder Cooper amp; James Grimmelmann, Talkin’ ‘Bout AI Generation: Copyright and the Generative-AI Supply Chain, ArXiv Preprint (Mar. 1, 2024), https://doi.org/10.48550/arXiv.2309.08133.】另有學者通過實證研究發現,解決與人工智能相關的版權問題沒有放之四海而皆準的原則,選擇何種強度的合理使用標準,不僅與競爭環境和模型質量有關,而且還受訓練數據可用性的影響;當存在豐富的訓練數據時,寬松的合理使用標準(使用數據進行人工智能訓練而不向創作者支付報酬)對各方都有利,但當訓練數據稀缺時,則可能會損害創作者和消費者的權益。【See S. Alex Yang amp; Angela Huyue Zhang, Generative AI and Copyright: A Dynamic Perspective, ArXiv Preprint (Feb. 27, 2024), https://doi.org/10.48550/arXiv.2402.17801.】還有學者通過識別生成式人工智能供應鏈中不同利益相關者的貢獻度與期望價值,來評估合理使用原則的有效性。【See Amruta Mahuli amp; Asia Biega, Unlocking Fair Use in the Generative AI Supply Chain: A Systematized Literature Review, ArXiv Preprint (Aug. 1, 2024), https://doi.org/10.48550/arXiv.2408.00613.】綜合已有的理論與實踐經驗,本文認為,無論是從內部合規還是外部監管的角度,在對人工智能大模型訓練中的合理使用進行評估時需要考慮如下因素。
第一,使用目的與使用行為的功能。傳統上,對合理使用的評估通常傾向于強調使用行為本身是否具有公益性特征。一般認為,若作品使用行為體現出顯著的社會公共利益導向,更容易獲得司法上的支持,從而享有較為寬松的合理使用空間。然而,人工智能大模型訓練所體現的目的通常并不局限于傳統的單一領域,而是兼具了跨領域的技術創新性、研究探索性和社會應用性。例如,DeepSeek-R1全面接入各領域。這意味著對人工智能大模型訓練中作品使用目的的判斷,不能簡單地沿用傳統合理使用標準中“商業”與“非商業”二元區分模式,而需要根據具體的應用場景、技術目標和社會效益進行更加精細化的分析。【See Maurizio Borghi amp; Stavroula Karapapa, Copyright and Mass Digitization, Oxford University Press, 2013, p. 24-25.】
第二,數據使用的類型與性質。人工智能大模型訓練需要大量的訓練數據,這些數據往往來自于不同來源,包括但不限于公共領域數據、開放數據集、用戶生成內容等。不同類型的數據,其使用的合法性和合理性也會有所不同。因此,合理使用的評估框架應當根據數據的來源、性質及使用目的進行分類審視。模型開發者可以通過建立“數據治理沙盒”制度來輔助合理使用評估。例如,可將訓練數據按法律風險等級劃分為紅、黃、綠三區,分別對應禁止使用類數據(如未授權專有作品)、條件使用類數據(如用戶生成內容)及自由使用類數據(如公共領域數據)。
第三,市場影響的評估。傳統合理使用的核心考慮之一便是是否會對作品的市場造成負面影響,尤其是是否會影響著作權人的潛在收入。對于人工智能大模型訓練中的數據使用,市場影響的評估更加復雜。由于大模型的最終應用并非直接復制或再創作原作品,因此其市場影響與傳統的著作權侵權行為有所不同。在進行合理使用評估時,可以構建“雙重市場分析框架”:一是直接競爭市場,即被使用作品的現有及潛在市場;二是衍生技術市場,即大模型技術開發及應用形成的市場增量。此種分析框架的轉換,要求突破傳統著作權法以“作品”為中心的市場替代分析,轉向以“技術生態系統”為考察維度的創新效應評估。【參見劉瀟、李家寶:《人工智能創新生態系統中的技術互補與協同創新》,載《科技進步與對策》2025年第3期,第14頁。】
第四,公共利益的考量。在判斷人工智能大模型訓練是否構成合理使用時,公共利益的實現程度應當作為一項重要的評估因素予以考量。【See Eugene Goryunov, All Rights Reserved: Does Google’s Image Search Infringe Vested Exclusive Rights Granted under the Copyright Law, 41 John Marshall Law Review 487, 522-523(2008).】若大模型開發者能夠證明所實施的數據利用行為對社會具有明顯且重大的公共利益(如醫療健康、公共安全、科研創新等),且這種公共利益的實現無法以其他更加經濟、更加便捷、侵害更小的方式來達成,則在此種場景下合理使用的空間應適度擴大。正如學者所指出的,“當將人工智能與受著作權保護作品的相關爭議置于貧困、社會公平、氣候變化及生物多樣性喪失等重大社會挑戰的更廣泛背景之下時,這種爭論或許只是小題大做。事實上,人工智能技術本身可能恰恰是應對這些全球性難題的解決之道。”【Andrew W. Torrance amp; Bill Tomlinson, Training Is Everything: Artificial Intelligence, Copyright, and “Fair Training”, 128 Dickinson Law Review 233 (2023).】
五、超越合理使用:通過技術、透明和補償促進權益平衡
合理使用僅僅是更廣泛的法律制度的一部分,而創造力和創新往往是多種因素的綜合結果,包括對冒險和失敗的態度、風險投資體系以及其他富有創造力的組織和人員的聚集。【See William Patry, How to Fix Copyright, Oxford University Press, 2012, p. 221.】這意味著僅僅依靠合理使用制度還不足以完全解決技術創新與個人權益保護之間的平衡問題,需要從技術基礎、應用、標準、可融合的數據算法、可評估的可信度等方面進行法律的適應性改革參見許娟:《生成式人工智能的“三經九緯”法治新模式》,載《西南政法大學學報》2024年第3期,第140頁。。為了更好地緩解人工智能大模型訓練的著作權困境,還有必要通過技術治理工具、訓練數據透明度義務和合理補償機制等舉措,推動建構一個適應性治理框架(Adaptive Governance)。【See Anka Reuel amp; Trond Arne Undheim, Generative AI Needs Adaptive Governance, ArXiv Preprint (Jun. 6, 2024), https://doi.org/10.48550/arXiv.2406.04554.】
(一)通過技術工具緩解著作權風險
“當規制問題過于復雜,或某個行業存在異質性,或處于動態演進之中時,更適合去選用自我規制與元規制。”【[英]羅伯特·鮑德溫、[英]馬丁·凱夫、[英]馬丁·洛奇編:《牛津規制手冊》,宋華琳、李鸻、安永康等譯,上海三聯書店2017年版,第169頁。】在新興技術治理中,相比于其他利益相關者,技術開發者通常具有更多的信息和資源優勢,能夠更好地理解技術的潛力和局限性,因此可以通過采取組織性和技術性措施承擔起自我規制的任務。例如,在個人信息與隱私保護領域,隱私增強技術作為一種旨在保護個人或群體隱私的技術性措施,受到個人信息處理者和規制機構的高度重視。【See Johannes Heurix et al., A taxonomy for privacy enhancing technologies, 54 Computers amp; Security 1, 2 (2015).】又如,在著作權保護領域,數字化作品的在線保護已經通過算法執行系統(Algorithmic Law Enforcement)來實現,這些系統旨在監測、過濾、阻止和禁止訪問非法內容并降低網絡平臺的侵權責任風險。【See Maayan Perel amp; Niva Elkin-Koren, Accountability in Algorithmic Copyright Enforcement, 19 Stanford Technology Law Review 473, 479-481 (2016).】對此,有學者認為,可以將合理使用標準納入算法執行系統,既能防范自動化執法導致的過度威懾,亦可以向用戶提示其行為的法律合規性。【See Dan L. Burk, Algorithmic Fair Use, 86 University of Chicago Law Review 283, 284 (2019).】在《紐約時報》提起對OpenAI的訴訟后,有學者利用技術工具對GPT-4等大模型的“記憶”能力進行了評估,以此來驗證《紐約時報》的著作權侵權主張和OpenAI的“合理使用”抗辯之合理性,此種方法或許將為法院裁判提供參考,以超越單純的規范分析和推理。【See Joshua Freeman et al., Exploring Memorization and Copyright Violation in Frontier LLMs: A Study of the New York Times v. OpenAI 2023 Lawsuit, ArXiv Preprint (Dec. 9, 2024), https://doi.org/10.48550/arXiv.2412.06370.】
就人工智能大模型的著作權風險而言,從理論上看,通過排除或去重受著作權保護的作品數據,大模型開發者便可以在一定程度上減少著作權侵權風險。【See Javier Abad et al., Strong Copyright Protection for Language Models via Adaptive Model Fusion, ArXiv Preprint (Jul. 29, 2024), https://doi.org/10.48550/arXiv.2407.20105.】然而,這一過程并非易事。首先,數據整理和過濾需要大量的計算資源和人力投入,即使經過嚴格的數據整理和過濾,仍然無法完全避免使用受著作權保護的數據。其次,受著作權保護的數據通常是高質量的輸入數據,對大模型性能至關重要。如果將這些高質量數據排除在外,可能會對大模型的性能產生負面影響。因此,為了在減少著作權風險和保持模型性能之間取得平衡,理論與實踐正積極探尋技術工具來對大模型訓練進行干預,【See Peter Henderson et al., Foundation Models and Fair Use, ArXiv Preprint (Mar. 28,2023), https://doi.org/10.48550/arXiv.2303.15715; Jie Ren et al., Copyright Protection in Generative AI: A Technical Perspective, ArXiv Preprint (Jul.24, 2024), https://doi.org/10.48550/arXiv.2402.02333.】通過建立合規科技創新機制,借助合規科技手段以最大限度符合現有的著作權法規則參見霍俊閣:《ChatGPT的數據安全風險及其合規管理》,載《西南政法大學學報》2023年第4期,第107頁。。
根據已有的理論與實踐,用于緩解人工智能大模型的著作權風險的技術治理工具,按照保護模式(包括預防和監測)、應用階段(包括數據收集、模型訓練、模型推理等)和粒度(包括數據集、模型、提示等)等標準,主要包括以下幾類:一是數據集清理類技術,即在進行任何訓練之前直接訪問訓練數據集并修改底層數據;二是對抗性擾動類技術,即在訓練數據集中添加“噪聲”,故意擾亂生成過程;三是概念移除類技術,即修改機器學習過程以影響下游的內容生成;四是水印類技術,即在訓練數據中嵌入不易察覺的信號以追蹤未經許可的使用;五是分析數據歸因類技術,即應用事后分析方法來確定特定訓練數據對生成輸出的貢獻;六是記憶測試類技術,即量化底層生成式人工智能模型的“記憶”能力。【See Tanja arevi et al., U Can’t Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI, ArXiv Preprint (Apr. 22, 2024), https://doi.org/10.48550/arXiv.2406.15386.】此外,有學者提出,可以設計一種算法模型來量化人工智能模型輸出的原創性水平,將模型輸出修改為原創性較低的輸出,這些修改后的輸出不僅更加通用,還不太可能模仿受著作權保護作品之獨特性。【See Hiroaki Chiba-Okabe amp; Weijie J. Su, Tackling GenAI Copyright Issues: Originality Estimation and Genericization, ArXiv Preprint (Dec. 3, 2024), https://doi.org/10.48550/arXiv.2406.03341.】上述技術治理工具各有其優勢及局限,人工智能大模型開發者(尤其是業界“巨頭”公司)可以根據模型訓練的具體情況,積極采取適當的技術工具,最大限度緩解著作權風險,使其盡可能符合合理使用之要求,并可以通過行業影響或市場機制,將最佳實踐推廣至整個行業。
(二)強化大模型開發者的透明度義務
“透明度”這一概念具有多維內涵,承載多元功能,蘊含多重價值期許,已然成為人工智能治理話語體系的重要構成維度。【See Heike Felzmann et al., Towards Transparency by Design for Artificial Intelligence, 26 Science and Engineering Ethics 3333, 3334 (2020).】就人工智能大模型訓練的著作權法規制而言,大模型開發者的訓練數據透明度義務也越發受到重視。【參見李安:《人工智能訓練數據的版權信息披露:理論基礎與制度安排》,載《比較法研究》2024年第5期,第138-141頁。】從功能主義的角度看,強化大模型開發者的訓練數據透明度義務具有重要意義:一方面,它明確將訓練數據合規責任和信息公開義務施加于大模型開發者,促使其明確披露和記錄所使用訓練數據的著作權情況;另一方面,這種透明度義務也可以為權利人和社會公眾提供有效的信息獲取渠道,為未來可能建立的著作權補償機制或利益分配機制奠定基礎。
在比較法中,歐美一些新近的人工智能立法已經對大模型開發者的訓練數據透明度義務進行了規定。例如,歐盟《人工智能法》第53條第1款第(d)項規定,通用人工智能模型的提供商應當根據人工智能辦公室提供的模板,起草并公開一份關于通用人工智能模型訓練內容的足夠詳細的摘要(Detailed Summary)。關于摘要的起草要求,歐盟《人工智能法》在前言第107條進行了解釋,為了便于著作權持有者行使其權利,摘要必須具有一般意義上的全面性,而不是技術上的詳盡性。摘要必須涵蓋受版權保護的內容和不受版權保護的內容,在起草時必須適當考慮商業秘密的保護。第107條還提供了此類摘要的內容示例,例如,列出用于訓練模型的主要數據集(如大型私人或公共數據庫或數據檔案),并提供關于所使用的其他數據源的敘述性解釋。又如,美國加利福尼亞州于2024年9月頒布了《生成式人工智能訓練數據透明度法案》(Generative Artificial Intelligence: Training Data Transparency),要求生成式人工智能系統或服務的開發人員應當在其網站上發布用于訓練生成式人工智能系統或服務的數據之文檔(Documentation),其首要內容便是用于開發生成式人工智能系統或服務的數據集的高級摘要(High-level Summary)。
至于訓練數據透明度義務的內容,制度目標并非是讓模型開發者逐項列出他們在訓練數據集中包含的所有受著作權保護的材料,原因在于原創性門檻低、著作權及其所有者的地域分散、作品缺乏注冊要求以及元數據的權屬不明等導致“完全披露”難以實現。【See Joo Pedro Quintais, Generative AI, Copyright and the AI Act, SSRN (Jan. 30, 2025), https://ssrn.com/abstract=4912701.】對此,美國加利福尼亞州《生成式人工智能訓練數據透明度法案》規定,要求公布的“高級摘要”應當包括如下信息:(1)數據集的來源或所有者;(2)數據集如何進一步實現人工智能系統或服務的預期目的之描述;(3)數據集中包含的數據點的數量;(4)數據集中數據點類型的描述;(5)數據集是否包含任何受版權、商標或專利保護的數據,或者數據集是否完全屬于公共領域;(6)數據集是否由開發人員購買或許可;(7)人工智能系統或服務在其開發過程中是否使用或持續使用合成數據;等等。祖扎娜·瓦爾索(Zuzanna Warso)等專門針對歐盟《人工智能法》第53條所規定的“摘要”之內容提出了“模板藍圖”,并將訓練數據的總體規模、數據集和數據源的詳細情況(包括對來源進行細分)、數據多樣性以及數據處理確定為需要考慮的關鍵類別。【See Zuzanna Warso, Maximilian Gahntz amp; Paul Keller, Towards Robust Training Data Transparency, Open Future Foundation (Jun. 19, 2024), https://openfuture.eu/publication/towards-robust-training-data-transparency/.】計算機與通信行業協會(Computer amp; Communications Industry Association)也于2025年1月推出了“原則和模板—AI模型訓練數據的透明度”,旨在幫助模型開發者以保障人工智能模型安全性和保護商業秘密的方式履行訓練數據透明度義務。【See Computer amp; Communications Industry Association, Principles and Template-Transparency in AI Model Training Data, CCIA (Jan.14,2025),https://ccianet.org/library/principles-and-template-transparency-in-ai-model-training-data/.】
我國《生成式人工智能服務管理暫行辦法》第7條對人工智能大模型訓練的“知識產權合規”提出了原則性要求。為了給人工智能大模型開發者提供具體指引,全國信息安全標準化技術委員會于2024年2月發布了技術標準《生成式人工智能服務安全基本要求》(TC260-003),其中第5章專門規定了“語料安全要求”,針對“知識產權”方面的安全要求包括:(1)應設置語料及生成內容的知識產權負責人;(2)語料用于訓練前,應對語料中的主要知識產權侵權風險進行識別;(3)應建立知識產權問題的投訴舉報渠道;(4)應在用戶協議中向使用者告知相關知識產權風險;(5)應及時更新知識產權相關策略;(6)宜公開語料中涉及知識產權部分的摘要信息。上述規定雖然進一步細化了人工智能大模型開發者的知識產權合規義務,但是仍然存在三個方面的不足:一是該技術標準并非強制性國家標準,其效力層級較低,難以確保其得到有效落實;二是該技術標準對“公開語料中涉及知識產權部分的摘要信息”用的措辭是“宜”,而對其他知識產權安全要求用的是“應”,這表明“訓練數據透明度義務”尚未受到足夠重視;三是該技術標準僅提及“摘要信息”,但并未明確其具體內容,可操作性不強。
有鑒于此,結合國內外已有的實踐經驗,本文認為,我國未來有必要通過效力層級更高的法律規范明確人工智能大模型開發者的訓練數據透明度義務,要求大模型開發者公布包含特定內容的“摘要信息”。至于“摘要信息”的內容至少應當包含以下信息:(1)數據來源及授權情況。大模型開發者應詳細列出用于訓練模型的各類數據來源,包括開源訓練數據、自采訓練數據、商業訓練數據以及用戶輸入信息等。(2)數據集構成和使用范圍。大模型開發者應提供所使用的數據集的詳細構成,包括數據種類(如文本、圖片、音頻、視頻等)及其使用范圍。(3)數據處理及修改情況。大模型開發者需披露是否對原始數據進行任何修改或預處理,如數據清洗、去標識化、匿名化等,若使用合成數據,還應明確說明使用了何種技術手段以及如何確保這些操作不侵犯原數據的著作權。【參見張濤:《人工智能訓練中合成數據的融貫性法律治理》,載《計算機科學》2025年第2期,第28頁。】
(三)探索著作權人合理補償制度
除了需要強化人工智能大模型開發者的自我技術治理和訓練數據透明度義務外,還有必要探索建立有效的補償機制來保障著作權人的合法權益,【參見袁真富、夏子軒:《機器學習中作品利用的著作權補償金制度研究》,載《科技與出版》2024年第7期,第28頁。】這也是為人工智能大模型制定人權友好型(Human Rights-friendly)著作權框架的重要內容。【See Christophe Geiger, Elaborating a Human Rights-Friendly Copyright Framework for Generative AI, 55 International Review of Intellectual Property and Competition Law 1129, 1151-1154 (2024).】
事實上,自人工智能和機器人開始廣泛應用于人類社會的各個領域以來,圍繞智能機器人的“稅費問題”就備受關注。【See Orly Mazur, Taxing the Robots, 46 Pepperdine Law Review 277, 296-297(2019).】瑞士學者澤維爾·奧伯森(Xavier Oberson)便認為,為了實施對機器人的稅收,須滿足不同的條件:一是要為該稅種找一個適當的經濟理由,即符合公平、中立等稅收原則;二是該稅種在憲法和法律層面具有合理性,即符合支付能力、公平待遇、稅收法定等原則。【參見[瑞士]澤維爾·奧伯森:《對機器人征稅:如何使數字經濟適應AI?》,王樺宇、孫伯龍譯,上海人民出版社2022年版,第36頁。】就人工智能大模型訓練中的著作權人補償制度而言,也具有經濟和法律上的正當性。一方面,補償機制有助于解決負外部性問題。根據經濟學中的外部性理論,當一個經濟主體的行為對其他主體產生了未通過市場交易補償的影響時,就形成了外部性。在人工智能大模型訓練過程中,未經授權使用的作品對創作者產生了負外部性(即未經支付報酬或獲得同意的使用),在某種程度上可以稱為是一種隱形的“勞動力剝削”,【參見[美]凱特·克勞福德:《技術之外:社會聯結中的人工智能》,丁寧、李紅澄、方偉譯,中國原子能出版社、中國科學技術出版社2024年版,第60-61頁。】因此需要通過補償機制內化這些外部性,使大模型開發者在使用作品時,能夠對權利人進行合理補償,一定程度上也有助于人工智能產業的可持續性發展。【See Martin Senftleben, Generative AI and Author Remuneration, 54 IIC - International Review of Intellectual Property and Competition Law 1535, 1541 (2023).】另一方面,補償機制符合支付能力原則。在“數據即權力”的背景下,數據本身擁有可觀的經濟價值,高質量的訓練數據集更是會給開發者帶來巨大經濟效益。因此,建立補償機制可以通過合法授權或盈利分成的方式,確保創作者能夠根據其提供數據的市場價值和貢獻度獲得相應的經濟回報。【參見[瑞士]澤維爾·奧伯森:《對機器人征稅:如何使數字經濟適應AI?》,王樺宇、孫伯龍譯,上海人民出版社2022年版,第39-41頁; Frank Pasquale amp; Haochen Sun, Consent and Compensation: Resolving Generative AI’s Copyright Crisis, 110 Virginia Law Review Online 207, 231-236 (2024).】
對于補償機制的實施路徑,可以有兩種選擇:一種是在人工智能大模型訓練階段采取強制性報酬;另一種是在人工智能大模型輸出階段實施強制性征稅。【See Martin Senftleben, Generative AI and Author Remuneration, 54 IIC - International Review of Intellectual Property and Competition Law 1535, 1542-1556(2023).】無論采取何種路徑,如何設置適當的補償標準是一個難題。對此,有學者認為,鑒于人工智能供應鏈的復雜性,尤其是生成式人工智能,可以采用多元化的補償觸發機制,可以根據特定數據集的使用、模型訓練、提供給用戶的回復數、付費訂閱數等確定補償標準,或者根據人工智能提供商的支出或收入的某個百分比來確定補償水平。【See Frank Pasquale amp; Haochen Sun, Consent and Compensation: Resolving Generative AI’s Copyright Crisis, 110 Virginia Law Review Online 207, 238 (2024).】結合已有的理論與實踐經驗,可以從以下兩個方面建構合理的補償機制:一是探索采用動態補償模型。對于人工智能大模型的訓練,可以建立一種基于“數據貢獻”的補償機制,補償金額可以基于數據使用的深度(如頻率、廣度等)、生成內容的商業化程度等因素進行計算,并可以根據人工智能大模型訓練的實際需求和成果來調整補償水平。【See Jiachen T. Wang et al., An Economic Solution to Copyright Challenges of Generative AI, ArXiv Preprint (Sep. 9, 2024), https://doi.org/10.48550/arXiv.2404.13964.】二是優化著作權集體管理機制。通過借鑒現有的著作權交易平臺經驗,可將創作者的作品數據集中管理,并借助區塊鏈等分布式賬本技術構建透明、高效的著作權授權與補償機制。【參見舒曉慶:《區塊鏈技術在著作權集體管理制度中的應用》,載《知識產權》2020年第8期,第68頁。】在這一機制下,人工智能大模型開發者在使用訓練數據時能夠通過平臺實現便捷授權,并按合理標準支付版權費用,從而保障創作者的合法權益。
六、結語
人工智能大模型訓練的著作權法規制難題折射出技術創新與制度供給之間的深層張力。本文探討了人工智能大模型訓練面臨的著作權困境,并分析了當前著作權法體系存在的回應性不足,同時對以非作品性使用、文本與數據挖掘例外為代表的著作權法規制改革方案之局限性展開了分析。在此基礎上,本文認為,合理使用制度作為一種更為靈活、漸進的“開放式”權益平衡方案,有望為破解人工智能大模型訓練的著作權困境提供可能的理論支撐和實踐路徑。不過,由于合理使用制度的評估具有高度個案化特征,因此需要更加審慎地設計和構建一個多層次、多維度的評估框架。與此同時,為了更好地化解人工智能大模型訓練的著作權困境,未來更為可行的適應性治理方案應當將法律制度與技術治理手段相結合,并輔之以訓練數據透明度義務與合理補償機制的制度建設。隨著人工智能大模型的快速迭代與廣泛應用,相關法律制度設計既要保持必要的穩定性,又要為技術發展的不確定性預留動態調適空間,這無疑需要法學界展開更具前瞻性和系統性的理論探索。ML
Copyright Dilemmas in Large-Scale AI Model Training and "Adaptive Regulatory Pathways for Legal Harmonization
ZHANG Tao
(Institute of Data Law, China University of Political Science and Law, Beijing 100088, China)
Abstract:The training of large-scale artificial intelligence (AI) models presents significant challenges to copyright law, resulting in the functional inadequacy of traditional licensing mechanisms and practical difficulties in applying “limitations and exceptions” provisions. Current scholarly proposals—including the “root-cause” rights restriction model exemplified by “non-work use” and the “closed” rights limitation model represented by “text and data mining”—provide partial remedies but suffer from inherent theoretical constraints and institutional limitations. Consequently, they fail to adequately balance the interests of all stakeholders. In contrast, the fair use doctrine, characterized as an “open” rights balancing paradigm, offers greater flexibility and adaptability. By employing a multi-level assessment framework, fair use can address operational complexities and mitigate uncertainties in application. However, due to the dynamic and rapidly evolving nature of AI technology, supplementary governance mechanisms are essential. These include technological tools, transparency obligations for training data, and equitable compensation mechanisms. Such innovative measures can facilitate progressive reforms in copyright law, ensuring robust protection for copyright holders while promoting the coordinated advancement of AI technology innovation and application.
Key words: artificial intelligence; large models; training data; copyright dilemmas; adaptive governance
本文責任編輯:常 燁