試論生成式大語言模型預訓練活動中著作權人權益的保護

2025-06-22 00:00:00梁雪云

今古文創 2025年14期

【中圖分類號】G203 【文獻標識碼】A【文章編號】2096-8264（2025）14-0127-04【D0I】10.20024/j.cnki.CN42-1911/I.2025.14.037

2022年底，伴隨ChatGPT的橫空出世，人工智能技術的發展與應用重新進入大眾視野。此后，各類生成式大語言模型不斷迭代，文心一言、通義千問等中國產品也緊追不舍，Midjourney、Sora等產品更是將人工智能的技術應用推向了文生圖、文生視頻等多模態領域的高速演進。

與此同時，人工智能技術對于人類現有生活的不斷滲入與影響，不得不引發嚴肅的討論與反思：現有的法律體系與監管規則，能否從容應對該類技術的發展與挑戰？本文僅從現有法律框架下，討論生成式大語言模型預訓練活動對于著作權人權益的可能侵犯，并試圖在鼓勵人工智能技術創新發展與尊重人類創作者的智慧財產間尋找平衡，提供解決之道。

一、從人工智能技術發展看預訓練活動的重要性

人工智能的概念最早可以追溯到20世紀50年代。1950年，計算機理論的奠基者阿蘭·圖靈提出了著名的“圖靈測試”]，由人類組成的評委會通過電傳設備與某一測評對象進行交流，如果評委們無法區分交流對象是機器還是人類，那就有理由認為這臺機器具有了人類智能。1956年，麥卡錫、明斯基等科學家在美國達特茅斯學院會議上首次提出“人工智能（ArtificialIntelligence，簡稱AI）\"這一概念[2]。

語言是人類表達和交流的一種重要能力，使機器自然地掌握以人類語言形式進行理解和交流的能力，一直是人工智能界共同努力的宏偉目標。語言模型（LM，LangrageModeling）是提高機器語言智能的主要方法之一，并先后經歷了統計語言模型（Statisticallanguagemodels，SLM。基于20世紀90年代興起的統計學習方法構建單詞預測模型，根據最近的上下文預測下一個單詞）、神經語言模型（Neurallanguagemodels，NLM。通過神經網絡來表征單詞序列的概率）等發展階段[3]。2017年，谷歌提出了基于自注意力機制（Self-Attention）的Transformer架構，實現了可并行優化的計算能力，大幅提升了模型的訓練速度和推理效率。

此后，研究人員發現，通過不斷擴展預訓練數據量能夠顯著提升模型的表現能力，并驅使其在解決一系列復雜任務方面展現出了令人驚訝的“涌現能力（EmergentCapacity）”[4]。以GPT模型為例，2018年GPT-1的訓練數據集約為5GB，至2023年GPT-4的訓練數據集達到了1PB，實現了五年內209715.2倍的驚人增長。由此可見，預訓練活動所需數據已成為決定生成式人工智能發展速度的關鍵因素。

二、從我國現有法律看預訓練活動所需數據的使用障礙

目前，大語言模型需要的預訓練數據主要來源于：一是網頁數據，包含網頁信息、論壇留言、新聞文章等，系主要通過技術手段，爬取獲得的大規模電子文本數據；二是對話數據，包括電影片段、電視劇劇本、即時通信工具中的對話等，涵蓋了各種語言風格和不同領域的對話情境；三是各類紙質書籍及其電子出版物，包括小說、散文、詩歌等文學作品，以及論文、教材、期刊等科學資源，希冀大模型具備豐富的語言模式、文化背景和堅實的知識基礎；四是計算機源代碼，其主要以結構化的編程語言來呈現，有助于提升模型的結構化語義理解與邏輯推理能力。

根據我國現行《著作權法》《計算機軟件保護條例》的規定，上述數據在構成作品時，未經著作權人許可而直接進行大模型訓練使用的，極有可能會落入復制權侵權范疇，對作品著作權人的合法權益造成侵害。2023年8月15日起施行的《生成式人工智能服務管理暫行辦法》也要求生成式人工智能服務提供者在開展預訓練、優化訓練等訓練數據處理活動時，使用具有合法來源的數據和基礎模型，涉及知識產權的，不得侵害他人依法享有的知識產權。

但遺憾的是，上述規則只是概括性地提出了需要尊重和保護著作權人合法權益的立法主張。具體到預訓練數據的實際使用環節，模型開發者應如何與作品著作權人進行協商溝通，并合法獲取相應授權。著作權人是否能夠從大語言模型的最終商業應用中取得經濟補償，并通過更為透明的方式了解權利作品被大語言模型訓練和調整的實際進程，均缺乏具體可行的規則指引。

三、從域外經驗看預訓練活動對已有作品的使用規則

放眼全球，面對生成式大語言模型的崛起，各國對預訓練活動所需數據與原作品著作權人權益保護間的動態調整，均采取了不同的法律框架和應對規則。

歐盟于2019年通過《數字化單一市場版權指令》（Directive on Copyrightin the Digital Single Market，“DSMDirective\"），其第3條、第4條分別對“文本和數據挖掘”（textanddatamining，“TDM\"）中未經著作權人許可復制作品的行為規定了例外情形。其中，非商業目的使用，其主體僅限于大學、研究所、圖書館、博物館，以及其他以科學研究或開展涉及科學研究的教育活動為主要目的的實體組織，且文本和數據挖掘活動的目的必須限于科學研究。而在商業性使用時，除規定對作品應用的限度原則，避免著作權人權益不合理侵害外，還特別規定，著作權人可以通過協議、單方聲明等手段保留其對作品的復制權利，阻正和排除第三方的文本和數據挖掘活動。

2024年歐盟通過的《人工智能法案》（AIAct）延續了這樣的立法思路，再次強調除“DSMDirective”規定的例外情形外，對受著作權保護內容的任何使用都必須獲得相關權利人的授權。此外，法案還強調了透明度的重要性，要求人工智能模型的提供者應就預訓練中所使用的內容制定并公開足夠詳細的摘要，以方便著作權所有人行使和執行歐盟法律下的權利，并監督人工智能開發者對相關著作權規則的有效執行。

美國作為生成式大語言模型最早商業應用的國家，也是最先爆發著作權人與人工智能開發者間的論戰。例如：紐約時報以及原始故事媒體（RawStoryMedia）等媒體，對OpenAI提起著作權侵權訴訟，指控OpenAI用其發表的文章訓練數據構成對其合法著作權權益的侵犯。面對這些指控，作為被告的人工智能公司往往援引著作權法中的“合理使用”原則，證明自己的行為雖未經著作權人授權，但屬于法律規定的例外情形可以獲得豁免。然而，預訓練數據的使用是否屬于合理使用，目前尚無明確的司法判例，需要結合使用目的和性質、受著作權保護作品的性質、與整個作品相比所使用部分的數量，以及對原作品市場價值的潛在影響等因素進行具體分析。實踐中，法官個人裁量對個案最終結果的走向起到至關重要的作用。

此外，從已有案件的判決思路出發不難發現，在美國，人工智能公司“合理使用”的抗辯很難被支持：（1）人工智能公司開發大語言模型的目的很難被界定為非商業目的使用；（2）如前文所述，預訓練所使用數據的質量越高，其訓練效果和最終的表現能力越強，同理，高質量數據所表達的獨創性也就越明顯，對于這些作品使用行為的認定，也就需要采取更為嚴格審慎的標準[5]；（3）預訓練往往系對作品實質內容的完全復制，其使用數量對著作權人權益影響通常都會較為明顯；（4）海量人工智能創作物涌入現有作品市場，會沖擊人類同類型作品的市場價值、市場份額，使著作權人的經濟利益受到嚴重影響[]。比如，前述紐約時報訴OpenAI著作權的案件中，原告就指出被告的侵權行為導致了紐約時報讀者的大量流失，這些讀者不再訪問紐約時報的線上渠道，轉而閱讀OpenAI所輸出的內容。

四、從實際出發看鼓勵發展與維護著作權權益間的平衡

還有學者以2015年的“Authors Guildv.Google案”中，法院認定谷歌進行的文本與數據挖掘行為具有“轉換性”意義，可以構成合理使用，作為支持大語言模型預訓練活動構成合理使用的理由[8]。該案件中，法院認為谷歌使用圖書的目的不是向公眾提供圖書的完整內容，而是通過在數字圖書館中展示圖書的事實類信息便于公眾進行搜索查詢，由于公眾無法直接閱讀圖書的主要內容，該行為不會對著作權人的利益造成實質性損害。但生成式大語言模型的最終自的是利用原作品獨創的表達方式，生成對原作品具有市場替代性的新作品，“機器學習并不是從作品中獲得不受著作權保護的事實，而是從人類作者表達思想的具體方式中獲取有價值的信息，能夠體現出作者個性化表達的那些特征被提取和模仿，具有著作權”[9]。因此，這種“表達性使用”不具備目的上的轉換性，不能構成合理使用[6]。

日本在2018年修訂《著作權法》，新增第30-4條（非表達性使用）和第47-5條（計算機信息分析使用少量作品），允許為信息分析目的復制受著作權保護的作品，且無須獲得權利人許可。這一修訂為人工智能開發者提供了更為寬松的法律環境，使日本成為人工智能發展的“天堂”[10]。但是，法律也同樣沒有忽視預訓練活動中對著作權人應有的保護：（1）數據來源上，《著作權法》第113條第六款明確，在權利人已采取技術措施防止他人使用數據集訓練人工智能時，大模型持有人如果仍舊利用該數據集進行深度學習，則不屬于非表達性使用允許的范圍，需要承擔侵權責任。第113條第三款嚴格打擊盜版網站向公眾提供侵權作品的行徑，使用盜版內容進行訓練也同樣不屬于合理使用。（2）目的限制：非表達使用限定為不涉及感知作品思想情感表達的使用行為。此類使用不具備市場替代效應，不會實質影響著作權人的市場利益。如果大模型基于預訓練結果所輸出的內容中包含受著作權保護作品的內容，則不符合非表達使用的限定。（3）合理報酬請求：《著作權法》第12-2條明確了數據庫作品的獨立保護地位，數據庫著作權人可以通過合理報酬請求權，要求大模型訓練主體支付對價。此種制度設計既承認數據挖掘技術對作品使用的必然，又通過法定許可機制保障權利人獲取經濟利益，在技術發展與著作權保護之間形成規范性協調[11]。

正如前文所述，海量數據資源使得大語言模型超越了既往技術的發展，多領域、多視角、多類型的高質量信息供給，不但能消除“偏見”，使得大模型能夠產出更為準確、全面，符合人類邏輯的專業答案，更能推動人工智能向縱深應用不斷探索，顯著提高勞動生產率和產業進步。此外，面對國際科技與技術競爭，支持和鼓勵人工智能等新興信息技術的發展，也有利于國家更好地搶占發展先機，維護戰略安全。

但同樣也應看到，著作權制度的價值在于鼓勵創新，通過賦予權利人一定時期的專有權利可以使其創作權益得到保障，激勵更為豐富、更具價值的作品不斷問世，促進人類社會不斷向前。人工智能技術通過不斷的數據訓練，可以匯總、歸納、提煉已有的知識內容，減輕人類重復性的復雜勞動，但其并不能自發創造和產生新的知識源，仍需要人類智慧結晶而成的作品進行充分“投喂”。所以，我們仍需延續著作權保護的基本原則，尊重權利人的專有權利，保障各類作品的傳統市場不因人工智能的發展而被蠶食、被替代，預防和避免新的、高質量數據資源走向枯竭。通過合理的制度建設，公平的利益劃分，有效的科學監管，維持人工智能賴以生存的“數據生態”良性運轉，實現鼓勵人工智能技術發展與保護著作權人合法權益間的充分平衡。因此，本文提出如下政策建議。

（一）將生成式大語言模型預訓練活動納入法定許可范疇

我國《著作權法》分別在第二十四條、第二十五條，通過合理使用和法定許可的制度設計，從維護社會公共利益角度出發，對著作權人的權利進行了限制和讓渡。各國學者在討論生成式大語言模型預訓練活動可能的侵權行為時，也曾嘗試通過合理使用條款，對該行為的違法性予以豁免。但從合理使用條款的設立初衷和衡量標尺等維度進行討論，都不免陷入困境，尤其是難以將人工智能公司的預訓練活動目的單純解釋成公益性的非商業行為。

此外，合理使用下的免費規則，顯然對作品著作權人權益造成不公平侵害，無法實現人工智能開發者、著作權人以及社會權益的多方共贏。兩相對比，通過法定許可，創設新的應用場景，可以減輕人工智能開發者的訓練成本和合規風險，并為著作權人帶來合理的商業利益，有利于實現產業生態的平衡發展。

（二）增加預訓練活動的透明性，并允許著作權人自愿退出

為切實保護原作品著作權人的權益，及時掌握作品的實際使用情況，減少維權成本。可以借鑒歐盟與美國的立法實踐，確立人工智能開發者對所使用訓練數據的披露義務，公開其訓練數據集的來源和組成，增加透明度。同時，允許著作權人通過事先聲明或選擇適度合理的技術措施，拒絕或防止其未經授權的作品被人工智能開發者訓練使用。

（三）建立著作權人參與的收益獲取與分配機制

可以根據人工智能生成內容的商業價值，要求人工智能開發者向預訓練數據的著作權人支付一定比例的報酬，動態補償著作權人的智力勞動付出和被替代的市場收益。同時，由于預訓練活動中所面對的海量作品授權和權益分配問題，可以鼓勵充分發揮著作權集體管理組織的優勢，通過批量授權與付費，以降低人工智能開發者的交易成本。此外，著作權人也可以通過技術手段，如數字水印或區塊鏈等，有效標記數據來源和使用情況，確保有效識別受保護作品的實際權益。

（四）建立跨境許可協調機制，擴大預訓練數據來源范圍

人工智能的發展是全球性的，其預訓練所需數據來源廣泛，實際使用時會面臨不同國家對著作權不同的管理方式和要求，造成合規成本的顯著上升。為推動人工智能產業發展，各國應加強合作，制定統一標準，以促進跨境數據共享和著作權保護。（1）加強WIPO（世界知識產權組織）等國際組織的協調作用，推動制定生成式大語言模型預訓練數據使用的全球指南。（2）制定全球統一的預訓練數據使用規則，確保各國在數據挖掘和使用上有一致的法律框架，減少法律沖突。（3）建立國際著作權數據庫，便于人工智能開發者查詢和獲取授權，構建形成國際著作權集體管理組織，人工智能開發者、著作權人各方共贏的報酬分配機制。

參考文獻：

[1]A.M.Turing，\"Computing machineryand intelligence\"，Mind，vol.LIX，no.236，pp.433-460，1950.

[2]譚鐵牛.人工智能的歷史、現狀和未來[J].智慧中國，2019，（Z1）：87-91.

[3]W.X.Zhao，K.Zhou，J.Li，T.Tang，X.Wang，Y. Hou，Y.Min，B.Zhang，J.Zhang，Z.Dong，Y.Du，C.Yang， Y.Chen，Z.Chen，J.Jiang，R.Ren，Y.Li，X.Tang，Z.Liu， P.Liu，J.Y.Nie，J.R.Wen，\"A Survey ofLarge Language Models\"，arXiv：2303.18223.

[4]J.Wei，Y.Tay，R.Bommasani，C.Raffel，B. Zoph，S.Borgeaud，D.Yogatama，M.Bosma，D.Zhou，D. Metzler，E.H.Chi，T.Hashimoto，O.Vinyals，P.Liang，J. Dean，W.Fedus，\"Emergent abilities of large language models\"，arXiv：2206.07682.

[5]馬忠法，肖宇露.論人工智能學習創作的合理使用[J].山東科技大學學報（社會科學版），2020，（5）：32-38.

[6]賀瓊瓊，岳春曉.生成式人工智能創作中的著作權風險及其化解[J].浙江樹人學院學報，2025，25（01）：70-81.

[7]王佐發.生成式人工智能公司官司不斷，技術創新與法律如何再平衡[N].澎湃新聞，https：//www.thepaper.cn/newsDetail-forward-30122296，2025-2-11.

[8]AuthorsGuildv.Google，Inc.，804F.3d202，（2d Cir.2015）.

[9]Benjamin L.W.Sobel，Artifi cial Intelligence'sFairUseCrisis，41 TheColumbiaJournalofLawamp;the Arts45，57-59（2017）.

[10]上野達弘.情報解析と著作權：「機械學習ラタイス」としての日本[].人工知能：人工知能學會誌，2021，36（6）：745-749.

[11]李可心，肖冬梅.日本生成式人工智能訓練數據合理使用規則及其啟示[J/OL].圖書館論壇.https：//link.cnki.net/urlid/44.1306.g2.20250224.1351.004.

[12]盧炳宏.論人工智能生成物的著作權保護[D].吉林大學，2021.

[13]陶乾.基礎模型訓練的著作權問題：理論澄清與規則適用[J].政法論壇，2024，（5）.