[中圖分類號]D63 [文獻標識碼]A
[文章編號]1673-0186(2025)007-0006-012
[DOI編碼]10.19631/j.cnki.css.2025.007.001
習近平總書記指出,“人工智能是引領這一輪科技革命和產業變革的戰略性技術,具有溢出帶動性很強的‘頭雁'效應”1]。人工智能正以前所未有的方式助力各行各業的快速發展,為產業創新注入了強勁動能。隨著算法能力的不斷提升以及大語言模型的持續優化,其在推動具身智能等前沿應用場景方面展現強大潛力。尤其是在數字內容需求持續攀升的背景下,生成式人工智能已逐步演進為知識與創意內容的重要生產工具[21。生成式人工智能具備跨領域知識整合的能力,能夠根據不同場景需求自動生成多樣化的解決方案,實現數字內容的高效、智能化產出[3]。這種變革性能力不僅提升了內容生產的效率和質量,而且重塑了多個行業的運作模式,為智能化轉型開辟了全新路徑。2025年初,深度求索(DeepSeek)以開源之態勢橫空出世,旋即引發全球頭部科技公司、通信公司及政府部門大量接人DeepSeek 模型,進一步加速了人工智能在千行百業的普及。可以預見,生成式人工智能在不遠的將來會成為人們主要的信息來源。
然而,伴隨生成式人工智能的快速崛起,版權侵權問題愈發凸顯。2025年3月,法國多家出作者簡介:劉誠,中國社會科學院財經戰略研究院研究員,中國社會科學院大學應用經濟學院教授、博士生導師,研究方向:數字經濟和制度經濟。
版商和作家協會起訴美國科技公司Meta,指控其大規模使用受版權保護的內容來訓練其人工智能系統,認為其不公平地從未付費的內容中獲取經濟利益,屬于“經濟寄生\"行為。究其根源,是傳統版權保護制度的滯后與人工智能新興科技的勃興發展間的利益博弈所致。盡管全球范圍內關于人工智能監管的法律體系正逐步完善[4],但在人工智能訓練數據的使用過程中,如何有效保護原創作品的版權,依然是一個尚未達成廣泛共識的關鍵難題[5]。
鑒于此,本文對生成式人工智能數據訓練過程中涉及的版權侵權問題進行剖析,進而從法律實踐維度探究版權保護的國際經驗,并著重辨析“文本與數據挖掘(Text and Data Mining,TDM)例外\"前沿規則在落實保護和推動發展方面的適用性,藉此提出政策建議。相比已有研究,本文主要貢獻體現在兩個方面:一是結合全球各國經濟和法律實踐分析生成式人工智能發展與版權保護的邏輯關系,認為多數國家采取的政策是在發展導向下落實版權保護并通過版權保護助推發展;二是試圖更清晰地指出需要保護哪些作品的版權,并探究國際社會如何通過限定生成式人工智能法律豁免規則適用范圍及設置保留權利,以實現對版權的保護。
一、文獻綜述
生成式人工智能的“原罪\"根植于其機器學習過程之中。機器學習算法和數據之間會以循環往復的方式持續進行交互[6],但未經授權的機器學習或數據挖掘行為可能損害版權所有者的合法權益。其悖論在于:在海量數字資源中一味苛求每位版權所有者的合法授權,抑或是囿于高昂的數據交易成本無法獲得高質量訓練數字資源,將制約人工智能創新發展;反之則侵犯版權所有者合法權益。在探討人工智能訓練數據中如何確保原創版權的問題時,存在多種爭議,這些不同的視角揭示了科技創新、經濟發展以及法律規范間的復雜互動。
從對數據和資料的使用來看,有觀點認為AI查詢、編輯使用版權作品無可厚非。也即,訓練大模型不構成侵權。有學者認為,人工智能在進行大規模數據訓練時,并未對作品的“表達\"部分進行復制或傳播,而是利用了作品所承載的“思想\"或事實信息[7]。根據著作權法中的“思想一表達”二分法原則,即法律只保護具體表達而不保護抽象的思想、事實或方法,因此這種使用方式不應被認定為侵權行為。此外,訓練過程本質上是一種技術性、非消費性的使用,其目的在于提取語言結構、語義關系等隱含知識,而非供人閱讀或欣賞。因此,有學者認為應將這類使用歸人公共領域范疇[8],不屬于著作權保護的控制范圍。
從歷史上各國對互聯網領域的保護來看,有文獻提出AI應適用“避風港原則\"予以免責。這一立場強調的是實踐操作中的困難與不確定性。由于生成式人工智能的“黑箱”特性,使得其訓練數據來源難以追溯、輸出內容是否受特定作品影響亦難以判斷,導致傳統的版權侵權認定標準難以直接適用[9]。在此背景下,“避風港原則\"被視為一種可行的責任豁免機制。該原則原本適用于網絡服務提供者,旨在保護其在不知情情況下因用戶上傳內容而引發侵權責任的情形。將其擴展至AI訓練場景中,意味著只要平臺盡到合理注意義務,即可在一定程度上免除因使用版權內容進行訓練而可能產生的法律責任[10]。
考慮到人工智能這一新的領域,有觀點建議在“避風港原則\"基礎上進一步構建文本與數據挖掘例外制度。此類觀點著眼于制度創新與國際經驗借鑒,主張通過立法手段設立專門的“文本與數據挖掘(TDM)例外條款”,允許以科研、技術創新為目的的數據使用行為[1]。這不僅有助于推動人工智能的發展,而且能在一定程度上回應版權保護的需求。例如,歐盟《數字單一市場版權指令》已明確賦予科研機構在特定條件下進行數據挖掘的權利;日本則在其著作權法中引入了較為靈活的“柔性例外條款”。中國也可考慮在《中華人民共和國著作權法》(以下簡稱《著作權法》)中增設類似條款,結合本國產業特點和發展需求,構建符合國情的TDM合理使用制度[12]。
還有觀點認為建立數據可追溯機制與“合理的人工智能\"標準。除了對現有法律規則進行調整外,也有學者提出應從技術和制度雙重角度人手,推動構建一個更加透明、可控的人工智能訓練體系[13」。核心思路是實現訓練數據來源的可追溯性,確保每一份用于訓練的數據都有據可查,從而在發生爭議時能夠明確權責歸屬。同時,建議引入“合理的人工智能\"標準,即在評估AI系統是否侵犯版權時,不僅要考慮其技術行為本身,而且要綜合考量其目的、使用方式、是否造成實質性損害等因素[14]。這一標準兼具規范性和靈活性,有助于在版權人、技術開發者和社會公眾之間實現利益平衡。
綜上可知,人工智能訓練數據是否構成版權侵權,在理論上存在較大爭議,部分觀點陷入保護與發展的兩難困境。與此同時,對人工智能數據訓練豁免規則的相關研究觀點則顯得更加務實,認識也較為統一。在當前階段,全球各國對人工智能的發展普遍優先于保護,更期待通過寬松的監管環境換取更大的創新空間。豁免規則并非否認版權保護,更不是任由人工智能野蠻生長,而是在發展中探索具體的豁免對象、范疇、條件等規制條款。換言之,豁免規則既能釋放人工智能發展活力,又可通過限定合理使用范疇降低潛在的侵權風險。
二、版權保護與豁免的辯證關系
伴隨生成對抗網絡、強化學習、流模型以及擴散模型等技術的加速“涌現”[15],生成式人工智能技術體系得以形成,實現了從理論到實踐的迅速躍升。從技術層面來看,生成式人工智能是自動化生成內容的一類技術合集[16],是基于機器學習(深度學習)及大模型技術對數字內容的提取、加工和輸出過程[17],其中涉及原創作品的版權問題。簡言之,生成式人工智能版權保護與豁免的關系主要涉及三個要因,包括版權侵權表征、版權保護對象及版權豁免規則。
(一)生成式人工智能版權侵權的表征
生成式人工智能的運作過程主要歷經三個階段,包括準備階段、運算階段、生成階段[18],而每個階段都可能涉及版權侵權風險。
準備階段即機器學習與人工標記階段。根據大語言模型縮放定律(ScalingLaw),在構建高性能的人工智能模型時,開發者需收集海量且多樣的訓練數據[19],這些數據來源廣泛,包括網絡爬蟲抓取、第三方數據購買、企業間數據共享及用戶授權采集等[20]。然而,隨著數據集的擴展,涉及復雜的版權和授權機制,預處理階段如數據清洗、標注等操作可能因編輯修改原始數據而構成侵權[21]。特別是生成式人工智能運用TDM技術在進行“信息抽取—語義分析一關系計算一知識發現\"的過程中,若未獲得版權所有者明確授權或不符合豁免規則,可能會因復制、提取、重構內容而導致侵權風險[2-23]。因此,確保數據使用的合法性成為人工智能開發中不可忽視的關鍵環節。
運算階段即運用算法程序處理數據階段。深度學習技術可以模擬構建包括輸入層、輸出層及中間若干隱蔽層在內的人工神經網絡。當將數據輸入該網絡的輸入層后,在輸出層會顯現相應的結果[24]。人工智能開發者為了精調模型,特別是在有監督學習(Supervised Learming)過程中,會將訓練數據多次“投喂”給模型,以提升神經網絡內部的參數優化和泛化能力,直至模型正常擬合。然而,當前大多數人工智能開發者并未公開其算法的內部機制與訓練流程,導致算法運行過程如同“黑箱”一般,監管機構難以直接理解和評估其具體運作原理。這種缺乏透明度的現象不僅阻礙了對人工智能系統行為的監督與控制,而且使得版權問題的追溯和判定變得更加困難[25]。在生成式人工智能廣泛應用的背景下,若無法掌握數據來源、使用方式及生成邏輯,實現版權保護與合規管理將無從談起。
生成階段即根據用戶指令自動化、智能化輸出內容階段。生成式人工智能能夠快速、靈活地生成包括文本、圖像、音頻、視頻等多種形式在內的多模態內容,極大提升了內容創作的效率與表現力。但如果生成式人工智能生成的文本、音視頻等內容與受版權保護的原創作品相似度過高,或是對未獲授權的原創作品進行了衍生與改編,盡管生成內容并未完全復制原創作品,但人工智能開發者通過調整模型參數引致核心元素進行重組,該行為可能構成對“改編權\"的侵犯[26]。特別是,倘若將生成式人工智能生成的作品用于商業用途牟利,可能導致在復制、傳播和商業銷售中出現署名錯誤、歸屬混淆等情況,侵犯原創作者的署名權等權利。
(二)版權保護的對象
根據版權保護對象的內在屬性和特征將其分為三類,即傳統資源數字化、原創數字內容及人工智能生成物。
1.傳統資源數字化
傳統資源數字化通常涵蓋公共領域和私人領域。一是公共領域。由于公共領域的網絡信息真實性較低且權威性不同(如意見領袖言論和普通網民言論的權威性不同),將其數字化之后,或為生成式人工智能訓練過程提供大量低質數據。故需在數字化過程中作出一定的標識,從而為錯誤內容的溯源和替換提供便利。二是私人領域。一般情況下,私人領域的知識文化資源已有版權保護,但經數字化后在線上易遭受侵權風險。同時,傳統版權保護可能抵制了人工智能利用其作品進行訓練,比如人工智能無法直接訪問收費數據庫,導致無法使用這些高質量資源來加工。換言之,或是無法使用這些資源,或是使用過程易構成侵權。對此,要有條件地合法獲取。例如,通過付費訂閱期刊或數據庫,通過知識共享許可協議、數據開放或開源,以及政府信息公開等途徑獲取。值得關注的是,部分國外圖書館通過設立“版權圖書館員”27]或推動機構間授權內容共建共享[28]等方式,積極探索有效的版權管理新路徑,以在規避版權風險的同時提升資源利用與共享效率。
2.原創數字內容
隨著互聯網普及率的提高以及數字技術的廣泛運用,短視頻、網絡游戲等數字內容形式如雨后春筍,但質量良莠不齊,甚為堪憂。一方面是因為版權保護的缺失,高質量內容創作者逆向選擇、創作意愿下降;另一方面則是因為“博眼球”“賺流量\"等低質量內容制作成本低、創作更快、傳播更廣。
還有值得關注的問題是,低質量原創數字內容使得國內外相關數字產品中較少使用中文資料。當前,數字經濟新業態和數字產品相對缺乏文化素養,陷入金錢至上、智能拜物教幻想,是一種文化失序、社會失信的表現,不利于新質生產力的長期有序發展。更需關注的是,受限于現有數據庫中相對單一且西方中心化的基礎資源,Sora 等文生視頻模型生成的視頻場景和人物原型整體基調顯著偏向歐美審美趣味,對中國文化存在一定的漠視和認知偏差。
3.人工智能生成物
人工智能生成物是否具有版權?目前,學術界、司法機關和行政機關的主流判斷,大都認為借助機器且以隨機或自動運行的機械過程所生成的內容,因為其中缺乏人類智力活動的直接參與,故不得被視為作品,也就不具有版權。有學者認為,對于人工智能生成物,從人類給出創意到生成式人工智能給出表達的過程無法清晰體現“思想一表達”二分法,因此人類不能成為人工智能生成物的版權所有者[2]。并且,主流觀點大都堅持只有人類才能擁有作者身份,這從根本上否認了機器、計算機和人工智能本身成為版權所有者的可能。即便是主張將人工智能生成物作者認定為人工智能設計者的觀點,也僅是對生成式人工智能初始權利配置上的安排。換言之,設計者具有對生成式人工智能相關軟件、App 和技術等的所有權,但并非對真正的人工智能生成物具有版權。
圖1顯示了三類版權保護對象的邏輯關系。從傳統資源數字化、原創數字內容、人工智能生成物三者的關系來看,前兩者是原始的、初級的,第三者則是加工的。前兩者還是第三者的數據訓練集,決定了第三者的準確性和合法性。本文側重研究數據訓練過程中的版權問題,故而將版權保護對象局限為傳統資源數字化和原創數字內容兩類。
(三)國際通行的豁免規則
當前全球科技競爭加劇,各國生成式人工智能的發展刻不容緩,但版權保護問題亦須作出監管回應。國際通行的經驗做法是,通過豁免規則在發展中落實保護、在保護中規范發展。
圖1版權保護對象的內涵特征

1.在發展中落實保護
近年來,全球各國或地區大都以科技創新發展為導向,紛紛出臺鼓勵(生成式)人工智能發展的監管政策。僅2024年就發布多個相關法規和指南,如歐盟《人工智能法案》正式生效,英國發布《生成式人工智能框架》,美國發布《國家安全人工智能備忘錄》,韓國通過《人工智能基本法》,巴西通過《人工智能法》等等。
與此同時,對于人工智能發展可能涉及的版權侵權問題,各國普遍采用的做法是設定豁免規則給予人工智能合理使用相關版權的法律權利,并對相關條款設定明確的適用范圍、保留權利和行為限制,試圖在發展中落實保護或降低侵權危害。豁免規則的現實原因是,由于人工智能技術發展需要依靠大量數據運算,傳統的“先授權后使用\"的作品使用方式難以滿足人工智能技術發展的需要,產業發展的現實需求與版權保護制度產生了客觀矛盾。
2.在保護中規范發展
通過制定明確的豁免規則,在促進發展的同時,也限定了豁免的范疇和條件,降低了版權侵權危害,在事實上起到了版權保護的效果。并且,這種版權保護機制不僅規范了人工智能的發展路徑,而且為其技術創新提供了制度保障,推動了二者之間形成相互促進、動態平衡的螺旋式正向發展格局。
一方面,版權可以提高人工智能生成內容的質量。當前,低質量數據量大、占比高且使用門檻低,其對生成式人工智能“投喂\"過多,導致輸出端不斷有低質量內容被生產出來,進而繼續被用來生產更多低質量內容,形成惡性循環,造成模型自噬。版權保護有助于激勵原創作者提高創作質量,形成良性循環。同時,通過對版權的確權和溯源,可以及時發現數據訓練中的錯誤和漏洞,糾正“模型幻覺\"現象,提高人工智能生成內容的可信度。可以說,唯有版權昌明,才能實現數據確權,以充分激勵原創作者輸出優質數據文本;唯有版權昌明,才能實現數據溯源,以發現生成式人工智能錯誤或虛假內容之后及時更正;唯有版權昌明,才能實現數據價值,以激勵人工智能在各垂直領域規范發展。
另一方面,數據訓練的合法化可以促進數據流通和使用,釋放數據價值。版權能夠明晰數據權利歸屬和使用權限,為生成式人工智能的訓練提供合法合規的數據來源。通過版權的規范,數據所有者可以將有版權的數據以合法的方式(如授權使用、數據共享協議等)提供給人工智能開發者。有研究發現,歐盟《通用數據保護條例》的執行使消費者可以通過直接拒絕提供數據的方式來取代以往不完美的信息隱藏措施(如刪除網絡痕跡),雖然企業可獲取信息減少但贏得更加干凈的數據環境以及更高的使用效率[30]。
三、國際經驗與中國探索
全球各國或地區,尤其是歐盟、英國和日本對生成式人工智能(及其他人工智能相關領域)紛紛立足實際國情,做出了大量法律實踐。
(一)典型國家或地區的豁免規則
歐盟善于制定數據及數字經濟發展相關規則,在\"TDM例外\"的法律實踐上也居全球前列,相關規則較為細致,也較為保守。具體而言,“TDM例外\"是在版權法律框架下針對文本和數據挖掘行為設定的特殊規定,允許對受版權保護的作品進行復制和提取等行為。2019年歐盟出臺《數字單一市場版權指令》,為TDM設定了版權例外與限制規則。其中第3條提出允許“研究機構和文化遺產機構\"以“科學研究”為目的進行TDM,但限定了行為主體和行為目的。第4條為所有受益者提供更廣泛的例外,未限定行為主體和目的一適合任何類型的受益人并用于任何用途(包括商業領域),但給予了版權所有者“選擇退出\"這一保留權利[31],即版權所有者有權利提出反對并阻止他人對其作品進行文本和數據挖掘。換言之,第3條限定特定行為主體和目的,但不受保留權利限制;第4條不限定行為主體和目的,但受保留權利限制。值得一提的是,歐盟《人工智能法案》于2024年8月正式生效,是全球首部全面監管人工智能的法規,其中界定了通用人工智能模型提供者在責任主體、TDM許可與例外等維度所需履行的合規義務。歐盟相關法規將進一步發揮“布魯塞爾效應”,影響全球人工智能監管治理格局。
與歐盟不同,英國采取了反復咨詢這種更加務實的法律探索,以求得社會更大共識。英國是率先以立法形式制定“TDM例外\"法案的創始國,于2014年6月修訂《版權法》制定了文本與數據挖掘例外條款,允許對版權作品進行復制以進行計算分析,但僅限于非商業領域。2021年,英國政府推出《國家人工智能戰略》,旨在大力促進人工智能生態系統在本土商業化發展、確保人工智能為各行業產生裨益并建立有效的人工智能治理機制。作為該戰略的一部分,英國知識產權局(UKIPO)啟動了一項“人工智能和知識產權互動以及人工智能對知識產權制度的影響\"咨詢活動。2024年12月UKIPO開啟新一輪咨詢活動,再次對擴大“TDM例外\"開展咨詢,旨在降低反對聲音的同時有效推進文本與數據挖掘例外的適用范圍。
日本為促進人工智能的發展,2018年對《著作權法》修訂時增加對機器學習合理使用知識產權的豁免規則,允許人工智能在未經版權所有者許可的情況下,自由使用受版權保護的作品。2024年6月,日本知識產權戰略本部發布《知識產權推進計劃2024》,促進人工智能相關各方共同努力,實現促進技術進步和知識產權保護并存的生態系統。日本與歐盟及英國的不同在于:其一,版權所有者作出的保留聲明不能抗衡“TDM例外”,即作品“選擇退出\"機制在文本與數據挖掘領域失靈。其二,未明確設定“合法訪問\"要求,即使是從非法網站下載的內容,出于TDM目的的復制和提取也是被許可的。
總體上,歐盟、英國和日本均側重發展,但歐盟相對保守、英國相對務實、日本相對開放,如表1所示。換言之,歐盟更強調對數字版權的保護,英國和日本依次次之。
表1歐盟、英國和日本“TDM例外\"的比較

(二)豁免規則的再思考:版權保護的實現
如前所述,全球各國或地區普遍采用務實的豁免規則,以促進生成式人工智能在更加寬松環境下快速發展。但豁免規則并非放任自流,而是尋求一種長期規范的監管方式,內含一種合理化、合法化和規范化的數字版權保護制度建構過程。其中,涉及如下三個問題:
第一,生成式人工智能領域對數字版權保護的豁免規則,適用于哪種法律原則?出于發展的目的(以及監管難度等原因),各國或地區對生成式人工智能運行過程中出現的部分行為“侵權不究”,這必然要求其在法律體系上作出明示,否則將是違法的。以往,全球許多國家和地區都采取了避風港原則及“通知一刪除\"機制。
然而,在應對生成式人工智能版權糾紛時,使用避風港原則折射出諸多掣肘,如侵權主體與責任界定模糊、主觀過錯認定難等。隨即各國或地區如歐盟、英國、日本將“TDM例外\"逐步納入其版權法,以實現對版權所有者的保護,并為TDM行為提供合法性支持。“TDM例外\"與避風港原則的差異如表2所示。
表2“TDM例外\"與避風港原則的差異比較

第二,如何設定豁免規則的適用范圍及保留權利,以促進版權保護?誠然,豁免是為了更好的發展,但其有具體的適用范圍。較早的“通知—刪除\"機制,其實是用“刪除\"來限定豁免帶來的版權侵權的危害。部分國家的“TDM例外”機制,也制定了一些保留權利,如對生成式人工智能在商業領域的使用作出了一些限制。簡單來看,設定豁免規則是當前各國的務實做法,但隨著人工智能生成內容的增多甚至成為全社會主要的數據、信息及資料來源,這種處理方式就顯得“無政府主義\"或“虛無主義\"了,不利于各行業健康有序發展。因此,隨著相關豁免規則適用范圍及保留權利的細化,基礎制度及正規監管將逐步確立,各市場主體在生成式人工智能領域的權責將愈發明晰,數字版權侵權的危害將日趨降低。
第三,如何從技術上確權和追溯,從而為版權保護提供依據,并為人工智能高質量發展提供改進機會?我們需要依靠最新數字技術確認版權,并對人工智能生成內容的真實性進行記錄和保障,對其中發生的侵權和虛假等問題及時溯源、糾正和問責。從而,規避傳統的“先授權后使用\"的復雜過程,不阻礙人工智能的快速發展,又對人工智能使用的訓練數據的版權進行保護。可以說,如果沒有技術上的支持,多數情況下個人很難辨別生成式人工智能的侵權事實,也很難與生成式人工智能平臺進行司法抗辯。
(三)中國的本土探索
在版權保護方面,中國于2020年修正的《著作權法》擴大了對作品的定義,如涵蓋視聽作品以及計算機軟件等,且第二十四條明確規定12種“合理使用\"的類型。2024年更新《中華人民共和國著作權法實施條例》,進一步探索規范人工智能相關版權規則。但目前人工智能數據訓練不能依據“合理使用\"條款尋求豁免。
在人工智能監管方面,中國于2021年和2023年分別出臺《互聯網信息服務算法推薦管理規定》和《生成式人工智能服務管理暫行辦法》。其監管思路是,以風險治理為基本準則,當發展自由與安全沖突時依據不同的風險等級作出處理。當風險等級較低的人工智能致損時,由于其可能產生的財產及人身損害后果都較為輕微,合理使用標準更偏重于發展自由;否則,更偏重于安全。2025年3月,國家網信辦等部門印發《人工智能生成合成內容標識辦法》,以保護公民、法人和其他組織合法權益,并促進人工智能健康發展。但也有學者指出,當前基于風險的法律治理路徑存在“簡單化\"傾向,難以有效回應人工智能技術發展所帶來的復雜性與不確定性[32]。
與此同時,一些企業也自主探索人工智能領域的版權保護方案。特別是,人工智能技術革新浪潮正吸引愈來愈多的具有版權作品的科技平臺公司接入,如視覺中國接人大模型DeepSeek-R1,并計劃基于版權視覺數據集研發視覺創意行業大模型。該大模型不僅會提高生成內容的商業化能力,而且將強化其可追溯的特性,確保每位創作者都能獲得應有的回報。這種“可商用+可追溯”的模式,為建立健全數字內容創作與交易的法律規章提供了一種可能路徑。
四、結論與啟示
生成式人工智能與各產業的融合滲透,賦予內容創造和知識供給全新技術路徑,提高了生產效率。本研究發現,人工智能生成內容的全過程“準備階段一運算階段一生成階段”,皆可能侵犯傳統資源數字化或原創數字內容的版權。通過設置合理的豁免規則,可以營造版權保護與生成式人工智能規范發展的雙贏態勢。從國際經驗來看,歐盟、英國、日本等國家或地區著力加強在發展中落實保護、在保護中規范發展的法律實踐,其中較為普遍的做法是通過\"TDM例外\"為大模型文本與數據挖掘版權筑牢權責保障和基礎制度規則。具體政策啟示如下:
一方面,明確傳統資源數字化和原創數字內容的版權歸屬。當利用人工智能生成內容時,通過版權的界定,可以清晰地劃分是原創作者、軟件設計者、使用者,還是人工智能系統本身,在何種程度上擁有對人工智能生成內容的版權。例如,在一些圖像生成軟件中,軟件設計者可能依據版權規定,在用戶協議里明確表明用戶使用軟件生成圖像的版權歸屬及使用權限范圍,是僅供個人使用還是可用于商業用途且需遵循一定的署名等要求,這樣就建立起一種基于版權的契約規范,避免后續因版權歸屬不明而引發糾紛。
另一方面,完善數字版權法治建設提升版權保護力量。在網絡空間共建、共治、共享的時代背景之下,人工智能開發者、研究機構在全球范圍內進行協作(如開源項目、企業合作以及學術研究等)和共享數據資源。但各國版權法的差異(諸如不同的法律框架、對“TDM例外”的不同解釋等)在無形中為知識和創新設立了圍欄。鑒于此,應當充分結合中國實際國情,有的放矢地提出中國版權法制度框架內對TDM技術的應對之策,明確生成式人工智能領域應具有一定的版權“例外”,并適度拓寬適用范圍。例如,可以賦予人工智能初創企業、互聯網科技企業以及致力于科學研究的機構和個人一定的“TDM例外\"豁免權利。同時,中國需要進一步在知識產權體系上進行調整,以促進跨境數據流通和數字版權貿易。
參考文獻
[1]習近平在中共中央政治局第九次集體學習時強調加強領導做好規劃明確任務夯實基礎推動我國新一
代人工智能健康發展[N].人民日報,2018-11-01(1).
[2]李白楊,白云,詹希旎,等.人工智能生成內容(AIGC)的技術特征與形態演進[J].圖書情報知識,2023(1):66-74.
[3]米加寧.生成式治理:大模型時代的治理新范式[J].中國社會科學,2024(10):119-139,207.
[4]張笑塵.人工智能生成物的可版權性問題——日本經驗與中國鏡鑒[J].現代日本經濟,2025(1):81-94.
[5]PEUKERT C,WINDISCH M.The economics of copyright in the digital age[J]. Journal of Economic Surveys,2025(3): 877-903.
[6]LEHR D,OHM P. Playing with the data: What legal scholars should learn about machine learning[J]. UCDavisLawReview,2017(2):653-717.
[7]商建剛.數據訓練的著作權法分析[J].法學論壇,2025(2):68-78.
[8]黃匯,翟鵬威.公共領域視野下大模型數據使用行為的著作權定性[J].知識產權,2025(1):94-110.
[9]聞天吉.駁人工智能“創作工具說”[J].知識產權,2024(1):85-105.
[10]黃玉燁,楊依楠.論生成式人工智能版權侵權“雙階\"避風港規則的構建[J].知識產權,2024(11):37-58.
[11]單曉光.新科技革命背景下人工智能知識產權問題的立體因應[J].知識產權,2025(1):33-50.
[12]熊琦,張文窈.人工智能生成內容著作權規制的全球趨向與本土路徑[J].知識產權,2024(11):59-76.
[13]蔡琳.生成式人工智能語料來源可追溯義務的法律構造[J].江蘇社會科學,2025(2):161-169,243-244.
[14]陸小華,陸賽賽.人工智能侵權中過錯要件的再思考——以“合理的人工智能”為標準[J].河北法學,2025(5) :93-114.
[15]李旭光,胡奕,王曼,等.人工智能生成內容研究綜述:應用、風險與治理[J].圖書情報工作,2024(17):136-149.
[16]中國信息通信研究院,京東探索研究院.人工智能生成內容(AIGC)白皮書(2022年)[R/OL].(2022-09-02)[2025-04-15].https://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf.
[17]尤麗娜,周詩涵,周榮庭.“ AIGC+ ”:虛擬現實媒介內容生產機制研究[J].出版科學,2024(3):32-41.
[18]馬羽男.生成式人工智能的風險與治理——以ChatGPT為例[N].中國社會科學報,2024-05-15(7).
[19]KAPLAN J,MC CANDLISH S, HENIGHAN T,et al. Scaling Laws for Neural Language Models.[R/OL].(2020-01-23)[2025-04-24].htps://arxiv.0rg/pdf/2001.08361.
[20]祝建軍.生成式人工智能著作權侵權問題研究[J].知識產權,2025(2):44-60.
[21]中國信息通信研究院知識產權與創新發展中心.人工智能知識產權法律問題研究報告(2023年)[R/OL].(2023-12-14)[2025-04-17].htps://www.caict.ac.cn/kxyj/qwfb/ztbg/202312/P020231214536394565312.pdf.
[22]羅嬌,張曉林.支持文本與數據挖掘的著作權法律政策建議[J].中國圖書館學報,2018(3):21-34.
[23]吳高,黃曉斌.人工智能時代文本與數據挖掘合理使用規則設計研究[J].圖書情報工作,2021(22):3-13.
[24]李開復,陳楸帆.AI未來進行式[M].杭州:浙江人民出版社,2022:20.
[25]徐小奔,薛少雄.生成式人工智能服務提供者版權注意義務的法律構造[J].科技與出版,2024(7):48-58.
[26]吳何奇,方正.生成式人工智能涉著作權犯罪的歸責思路[N].檢察日報,2025-04-09(3).
[27]陳傳夫,汪曉方,符玉霜.國外版權圖書館員崗位設置及其對我國的啟示[J].國家圖書館學刊,2009(2):39-42.
[28]邱奉捷.國內外圖書館數字資源共建共享版權解決實踐調研[J].圖書館學研究,2017(11):92-97.
[29]壽步.人工智能生成內容:可版權性和版權人問題[J].科技與法律(中英文),2024(4):60-72.
[30]JOHNSON G A,SHRIVER SK,GOLDBERG S G. Privacy and market concentration: intended andunintended consequences of the GDPR[J].Management Science, 2023(1O): 5695-5721.
[31]THONGMEENSUK S.Rethinking copyright exceptions in the eraof Generative AI: Balancing innovation andintellectual property protection[J].The Journal ofWorld Intellectual Property,2024(2):278-295.
[32]張凌寒.人工智能法律治理的路徑拓展[J].中國社會科學,2025(1):91-110,206.
Copyright Protection and International Experience of Generative Artificial Intelligence Training Data
Liu Cheng
(National Academy of Economic Strategy, Chinese Academy of Social Sciences,Beijing 100006)
Abstract: Generative artificial intelligence has disrupted the way knowledge content is produced and has become a key force driving innovation and development in various industries.Exploring the copyright issues in its data training process can provide policy references for the standardized development of artificial inteligence.This article delves into the dialectical relationship between copyright protection and exemption for generative artificial intelligence from aspects such as the manifestations of copyright infringement, the objects of copyright protection,and the internationally accepted exemption rules. The research finds that copyright infringement issues may occur at all stages of the operation of generative artificial inteligence.Therefore,it is necessary to strengthen the copyright protection of traditional resources digitization and original digital content.A practical approach is to implement protection through exemption rules during development.Moreover,based onproblem-oriented analysis,this article examines the copyright legal exemption rules of the European Union,the United Kingdom,and Japan,and finds that the specific practices of these countries are to establish \"TDM exceptions\". China can draw on these practices and embed exception rules based on specific behavioral purposes within the current legal framework to balance copyright protection and innovation development.
Key Words: Generative Artificial Intelligence; Data Training; Copyright Protection; ExemptionRules; International Experience
(責任編輯:楊果)