中圖分類號:D923.4 文獻標志碼:A 文章編號:1003-5168(2025)14-0117-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.14.023
Research on Fair Use of Copyright in Generative AI Pre-training
HOU Xianjie (Law School/Intellectual Property School, Zhongyuan University of Technology, Zhengzhou 45ooo7,China)
Abstract: [Purposes] The pre-training process of generative artificial intelligence involves large-scale utilization of copyrighted works. Under China's current Copyright Law and related legal framework,entities engaged in such utilization face prohibitive transaction costs and potential copyright infringement risks.This paper aims to explore feasible solutions that align with the developmental requirements of China's generative AI industry while addressing these legal challenges.[Methods] Through an examination of technological principles underlying generative AI pre-training phase,this study deconstructs data processing workflows and systematically categorizes potential infringement types in data transcoding, tagging, organization, and aggregation phases using an input-side infringement analysis framework.A comparative legal analysis evaluates the operational eficacy of three regulatory approaches: licensing agreements,statutory licensing,and fair use provisions.[Findings] The findings demonstrate that conventional licensing agreements and statutory licensing mechanisms inevitably incur substantial transaction and administrative costs.While fair use provisions struggle to provide effective copyright infringement defenses for generative AI trainers,the open-ended provisions under Article 24 of China's current Copyright Law preserve implementation flexibility through its residual clause.[Conclusions] This study recommends China capitalize on the ongoing amendments to the Implementing Regulations of the Copyright Law to establish a \"Fair Use for Generative AIPre-training\" clause,explicitly defining its subject qualifications,protected objects,permissible purposes,and behavioral criteria. Keywords: generative artificial intelligence; data training; copyright; fair use
0 引言
近年來,生成式人工智能(GenerativeArtificialIntelligence,GAI)發展迅猛,其強大的學習能力、交互能力和創造能力,給人類社會生產和生活方式帶來了巨大改變,也標志著人工智能時代的到來。作為全球高度關注的重點前沿產業,GAI已經成為我國新質生產力的典型代表。GAI預訓練在生成式人工智能技術體系中占據核心地位,是實現高質量內容生成和廣泛應用的基礎,然而GAI預訓練涉及海量作品的使用行為,給我國著作權法律制度提出了新的議題。例如,在GAI預訓練過程中作品使用行為是否構成侵權、GAI所生成內容能否給予著作權保護等問題。目前,學界針對GAI生成物的可版權性和版權歸屬問題研究較多1],但針對GAI預訓練過程中的作品使用行為的著作權問題探討較少,并且現有理論和實務界也存在較大爭議[2。通過匯集現有研究,不難發現,該爭議主要集中體現在如何面對GAI使用海量作品預訓練行為可能侵犯著作權的風險,以及我國應選擇何種路徑來適應GAI產業發展的需要。學界較多觀點主張適用合理使用規則3解決以上問題,其次是法定許可方案[4]和授權許可模式[5]。可見,針對該問題學界并未達成共識。
有鑒于此,本研究探究GAI預訓練過程中可能存在的著作權侵權風險,針對當前學界主流觀點進行詳細闡述并分析各觀點實踐效能,得出合理使用是最為理性的路徑選擇。并且,從實際與發展、平衡與效率的角度出發,以《中華人民共和國著作權法實施條例》以下簡稱《著作權法實施條例》修改為契機,提出合理使用規則的完善建議,以期為我國GAI產業競爭發展提供有力的法律保障,
1GAI預訓練中著作權侵權風險
在介紹GAI預訓練可能引發的著作權侵權風險之前,有必要厘清GAI預訓練的基本原理,總結出可能涉及侵權的原因,以便更好地明晰這一過程中最有可能侵犯著作權的具體種類。
1.1 GAI預訓練的基本原理
通俗來講,GAI預訓練本質上是讓大模型通過“學習\"海量數據,自行總結數據分布規律(如語言規則、圖像及音頻結構等)。隨后,經過微調(SFT)和強化學習(RLHF),結合特定的任務,生成新的內容。數據預訓練離不開對海量數據的獲取,機器學習是數據預訓練的核心技術[6]。
以ChatGPT為例,其數據獲取來源廣泛,包括但不限于語料庫、期刊、書籍、論壇、維基百科、社交網絡、開源數據庫等。獲取方式主要依賴于網絡爬取技術,部分數據是向語料庫所有者購買或通過許可授權獲得。由于數據來源和獲取方式的開放性,GAI企業可能會爬取并使用未經授權的盜版作品,進而侵犯作者的著作權。在機器學習領域,數據處理流程復雜多樣,核心是通過轉碼、標記、整理、匯總等環節,將數據轉化為結構化、高質量的訓練語料庫,以支撐GAI學習復雜的生成能力。首先,轉碼是將非數字化數據(如文本、圖像和音頻等)轉換成模型能處理的統一格式,該階段包括格式標準化(如統一編碼、調整圖像分辨率)結構化處理(如提取純文本,保留段落、表格等邏輯結構)、多模態對齊(如圖文、視頻字幕對齊)等3個程序。其次,標記是將數據轉化為模型可以學習的語義單元,并附加元信息(即數據的數據,描述性信息)。此階段主要是將文本、圖像等信息轉化為數字ID、圖像塊等,并添加控制標記、標簽。再次,整理旨在提升數據質量并拓展數據多樣性,包括數據清洗去重、去噪、標準化、數據增強(如同義詞替換、拓展數據多樣性)等。最后,匯總是將經過上述階段處理過的數據整合成高質量、平衡的訓練語料庫,并保障質量。
通過上述原理分析,GAI預訓練中所使用的數據很可能涉及眾多具有獨創性、尚在著作權保護期限內的作品,在機器學習過程中可能會面臨著作權侵權的風險,如復制權、改編權、翻譯權和匯編權侵權等。
1.2GAI預訓練中著作權侵權類型
根據吳漢東提出的區分方法,GAI數據訓練可分為輸人端和輸出端[7]。本研究主要聚焦于GAI數據訓練的輸入端,即GAI預訓練行為。基于上文所剖析的機器訓練特性及原理,GAI預訓練過程中對數據進行轉碼、標記、整理、匯總的行為,很可能會侵犯諸多著作權(見表1)。但事實上還需具體問題具體分析,逐一分析各行為會侵犯哪些著作權有助于下文路徑的選擇及構建。

在GAI對非數字化數據進行轉碼前,其獲取的數據會先被復制,而后轉存到數據庫[8]。數據轉碼的本質是對非數字化數據的數字化重現,這一過程必然涉及對數據的數字化復制,若該復制行為未經授權或數據來源非法,則極有可能侵犯原作品復制權。相應地,標記、整理和匯總等行為同樣不可避免地會對原作品進行復制,可能構成復制權侵權,但這些行為并不會侵犯著作權人的翻譯權、匯編權和改編權[9]。
首先,轉碼屬于復制行為,并非翻譯行為,因為轉碼是將異構數據轉化為模型可處理的格式,而非語言文字的一種,與翻譯權無關。其次,轉碼、標記和整理等行為并未改變原作品的實質內容,也未產生新的作品,無須討論獨創性,因而不會侵犯改編權。再次,匯編權是指將作品或作品片段進行選取、編排匯集成新的作品,匯總行為旨在構建高質量、平衡的訓練數據集,供機器學習內部使用,并非對匯編數據編排為新的作品的行為[10],故而不會侵犯匯編權。最后,轉碼、標記等行為不會侵犯修改權和保護作品完整權。修改權和保護作品完整權屬于著作人身權,旨在保護原作不遭受實質性改動或歪曲篡改,以保證作品與原作者本意的同一性。而構成侵權的前提在于是否因修改后的內容的傳播讓讀者在一定程度上從該內容中聯系到原作者的思想、感情和性格。對于GAI預訓練而言,數據轉碼、標記等行為,未對數據內容進行實質性改動,也未將處理后的內容進行傳播。因此,并不會侵犯修改權和保護作品完整權[1]
2GAI預訓練侵權問題的解決路徑分析選擇
如前所述,GAI預訓練過程中存在著復制權侵權風險,為消除該風險,當以《中華人民共和國著作權法》(以下簡稱《著作權法》為基礎,探索解決問題路徑。下文將逐步分析事前授權許可、法定許可及合理使用規則的適用及障礙,以期探尋最佳解決方案。
2.1 授權許可路徑分析
在當前的《著作權法》框架下,使用他人受著作權保護的作品,需要通過許可使用合同授權。這就要求GAI企業在獲取他人作品時,需要事先獲得著作權人授權許可,通常情況下也需支付相應的報酬。在以往的實踐中,授權許可模式無疑是一種最安全、風險較低的路徑。然而,GAI預訓練需要投入海量數據,若所有數據都經過事前許可,一方面,GAI企業在尋求授權許可的過程中,需要識別大量作品的來源、確定權屬,進行多次且復雜的交易磋商,最后不得不支付遠超自身收益預期的高昂成本,這極有可能導致市場失靈[12]。另一方面,從發展的眼光來看,GAI作為新興產業和新質生產力的典型代表,傳統的授權許可模式很大程度上會抑制企業投身于GAI創新的積極性,甚至會直接限制一些中小型GAI企業的發展。
綜上,傳統的授權許可模式已經無法支撐海量數據學習模式的需求[13]。后續可從著作權侵權豁免視角一法定許可和合理使用,尋我可行性路徑,以掃清GAI企業高質量發展路上的阻礙。
2.2 法定許可路徑分析
法定許可是指在特定情況下,使用他人作品可以不經著作權人許可,但需要支付相應報酬,并尊重作者的其他權利。我國法律規定了6種法定許可情形,包括: ① 報刊轉載摘編; ② 錄音制作者使用音樂作品; ③ 編寫出版教科書; ④ 廣播電視、電臺播放作品; ⑤ 制作課件并通過網絡發布; ⑥ 農村網絡扶貧。法定許可在一定程度上免去了GAI主體尋求授權許可過程中的交易成本,避免了一些不必要的費用支出。相應地,有學者提出運用法定許可機制,解決GAI企業尋求授權許可難的問題,簡化作品獲取流程[14]。但是,法定許可制度仍然面臨著適用主體不適格和成本較高等問題。首先,我國《著作權法》及相關法律中明確規定法定許可適用主體為特殊主體,包括報刊報社、廣播電臺、錄音制作者等。而GAI企業與這些特殊主體的性質不同,因此在主體方面不符合法定許可設立目的。其次,雖然法定許可不要求使用者事先獲取授權,但仍需支付一定報酬,然而數據訓練需要海量作品特性并未改變,依然會陷人和授權許可同樣的困境。最后,由于市場的靈活多變,法定許可定價難以及時響應市場的發展需求。法定許可部門在對GAI企業大量作品使用行為進行管理和收取費用時,面臨著極其高昂的運行成本。綜上所述,法定許可制度不但無法解決GAI企業難以支付大量使用費的現狀,還需要法定許可部門投入巨大的人力、物力和財力。
2.3 合理使用路徑分析
在技術中立視角下,讓GAI企業通過合理使用制度利用作品成為一個可行選擇。當前,為推動人工智能發展,各國在立法政策上偏向于采取合理使用制度為人工智能訓練主體提供便利條件,這顯著降低了GAI企業著作權合規成本。例如,歐盟的“文本與數據挖掘例外規定”、日本“提供新的知識或信息\"的合理使用情形和美國通過“轉換性使用”認定合理使用等[15]
根據我國《著作權法》規定,合理使用采取“列舉 °+ 兜底”的方式,人工智能數據訓練可能適用的情形包括個人使用、適當引用和科研研究等。第一,數據訓練難以適用個人使用。個人使用僅是為了個人的學習、研究或欣賞,具有非商業性,屬于純粹的個人目的行為,因此數據訓練不滿足個人使用的主體要件及非商業性目的。第二,適當引用不宜擴大解釋。首先,根據三步檢驗法,引用僅限于評論、介紹或說明問題等特殊情形[16。其次,GAI數據訓練中使用作品的行為,并非引用行為,更無須討論適當性。此時,若將適當引用規則擴大至數據訓練使用作品行為,背離了規則的立法目的,故而無法適用。第三,根據我國《著作權法》第24條第6款,科研研究主體僅限于科研機構或教學人員,目的限于科研和教學用途,使用數量限于少量復制。而GAI預訓練可能涉及大量甚至全文復制作品行為,且人工智能主體并非都是以科研或教學為目的的公立學校、科研機構等,因此也很難適用該規則來抗辯著作權侵權風險。
綜上所述,三種可供解決問題的途徑均存在現實適用上的障礙。然而,根據現階段人工智能的發展需求,通過成本與效益分析,合理使用避免了企業面臨的高昂許可費用,為人工智能行業鋪下“快速道”,符合現階段發展的需要,是最有可能解決問題的路徑。但值得說明的是,合理使用規則并不會當然排除授權許可和法定許可的適用,反而更有利于優化資源配置。例如,GAI企業并不排斥對那些掌握著高質量的作品的作者或組織尋求付費授權。鑒于當前合理使用規則在適用上還存在一定障礙,接下來將探討如何構建適合我國國情的人工智能數據訓練合理使用條款,以期解決當下人工智能數據訓練涉及的著作權問題。
3GAI預訓練合理使用規則的構建
3.1增設GAI預訓練合理使用新類型目前,針對我國GAI數據預訓練中作品使用的著作權問題,還不能從現行《著作權法》中找到適配的合理使用情形。為適應數字時代需求,2020年我國《著作權法》進行了第3次修正,短期內再次修改已然不太現實。但《著作權法》合理使用條款的“列舉 + 兜底”的模式,為人工智能合理使用作品的構建提供了新的思路。相對于法律,具有相對靈活性的行政法規可以更快地響應數字時代的高速發展和變化,以有效彌補法律的滯后性。因此,為滿足人工智能產業的發展需求,解決作品許可市場失靈現象,應當以《著作權法實施條例》修改為契機,增設“GAI數據訓練合理使用條款”。
3.2 GAI預訓練合理使用的具體要件
首先,在適用主體方面,立法時不宜嚴格限定適用主體。例如,歐盟“文本數據挖掘”版權例外制度規定了科研機構和文化遺產機構兩類適用主體,在實踐中飽受批評[17]。在我國,GAI訓練主體既包括公立研究機構,又有社會機構和企業。其中,企業在推動人工智能技術發展中扮演著舉足輕重的角色。例如,杭州深度求索人工智能基礎技術研究有限公司開發的DeepSeek,通過技術創新,極大降低了AI模型的訓練和推理成本,打破壟斷壁壘,推動了全球AI技術發展。基于此,不宜對適用主體進行過于嚴格的限制。其次,使用目的應當包含商業性合理使用。在實踐中,多數GAI企業及投資者對人工智能領域的投入,本質上以預期商業價值和經濟效益為目標。若嚴格限制合理使用目的為非營利性目的,其實際效果等同于嚴格限制主體。從長遠利益來看,這種限制不利于人工智能產業的發展。再次,在使用行為方面,應當僅限于GAI預訓練過程中對作品的使用行為,包括轉碼、標記、整理、匯總等。根據前文分析可知,預訓練行為僅存在侵犯復制權的可能性,且該階段的數據使用僅限于機器學習模型的內部訓練,并不會造成著作權人更多的權益損害,應以最低程度犧牲著作權利益為原則,平衡預訓練中的版權問題。最后,在獲取作品方面,應當嚴格限定于合法來源的作品,諸如非法盜取、破壞性爬取等手段獲取的數據,顯然不能納入合理使用范疇。
4結語
GAI預訓練中的著作權侵權問題,本質上是人工智能時代的飛速發展與智能行為模式的出現所引發的一場制度挑戰。在數據預訓練場景中,傳統的授權許可、法定許可和合理使用,難以解決作品使用問題。本研究通過分析GAI預訓練的運行邏輯,明晰數據訓練中潛在的侵權風險,并對比評估了三種法律適用路徑的可行性。研究表明,合理使用制度是當前應對這一挑戰最為理性的解決路徑。作為新質生產力的典型代表,人工智能產業的發展需要制度創新。我國應當及時完善相關立法,為GAI產業清除發展障礙,從而提升在全球人工智能競爭中的優勢。
參考文獻:
[1]吳漢東.論人工智能生成內容的可版權性:實務、法理與制度[J].中國法律評論,2024(3):113-129.
[2]謝宜璋.生成式人工智能作品訓練的版權爭議與解決[J].中國編輯,2024(11):38-46.
[3]林秀芹.人工智能時代著作權合理使用制度的重塑[J].法學研究,2021,43(6):170-185.
[4]張潤,李勁松.利益平衡視角下人工智能編創使用行為的法律定性與保護路徑研究[J.出版發行研究,2020(11):72-79.
[5]馬忠法,肖宇露.論人工智能學習創作的合理使用[J].山東科技大學學報(社會科學版),2020,22(5):32-38,47.
[6]吳漢東.人工智能生成作品的著作權法之問[J].中外法學,2020,32(3):653-673.
[7]吳漢東.著作權合理使用制度研究[M].4版.北京:中國人民大學出版社,2020.
[8]周千惠.生成式人工智能數據預訓練的著作權法規制[J].傳播與版權,2025(2):103-107.
[9]曹新明,范曄.生成式人工智能數據訓練的合理使用規則研究[J].中國版權,2024(4):20-35.
[10]魏遠山.生成式人工智能訓練數據的著作權法因應:確需設置合理使用規則嗎?[J].圖書情報知識,2025,42(1):78-88.
[11]姚葉.論“文本與數據挖掘”的合理使用規則建構[J].科技與法律(中英文),2024(1):32-42.
[12]劉禹.機器利用數據行為構成著作權合理使用的經濟分析[J].知識產權,2024(3):107-126.
[13]張平.人工智能生成內容著作權合法性的制度難題及其解決路徑[J].法律科學(西北政法大學學報),2024,42(3) :18-31.
[14]吳漢東.知識產權法學[M].8版.北京:北京大學出版社,2022.
[15]熊琦.著作權轉換性使用的本土法釋義[J].法學家,2019(2):124-134,195.
[16]張濤.生成式人工智能訓練數據集的法律風險與包容審慎規制[J].比較法研究,2024(4):86-103.
[17]劉云開.人工智能訓練作品的著作權合理使用進路[J].東北大學學報(社會科學版),2025,27(1):117-126.