


【摘 要】AI大模型技術迭代發展加速了出版語料的野蠻使用,而針對AI大模型訓練語料侵權的法律監管則相對保守。面對新挑戰,美國出版業明確表達了對邊界限制與過程透明的AI版權規制訴求,出版商通過司法訴訟與商業合作維護AI訓練語料使用權益,并且發布退出AI訓練使用選擇的版權聲明以減少灰色空間。我國出版業可通過堅持“先授權后使用”原則、完善“選擇—退出”機制、明確AI訓練語料披露責任來推進AI訓練侵權的司法規制環境建設,同時通過完善版權聲明和版權合同、提升技術對抗能力、建立系統維權機制來加強出版企業應對AI訓練侵權的維權能力。
【關" 鍵" 詞】AI訓練;版權;AI訓練侵權;出版語料;美國出版業
【作者單位】王志剛,中國海洋大學文學與新聞傳播學院;吳璨,中國海洋大學文學與新聞傳播學院。
【基金項目】國家社科基金一般項目“人工智能驅動下出版產業版權管理創新研究(24BXW089)”的階
段性成果。
【中圖分類號】G239.3 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2025.02.011
在大數據技術與硬件算力顯著提升的協助下,以DeepSeek、ChatGPT、Sora為代表的人工智能(AI)能夠用人類標準實現文生文、文生圖和文生視頻,人類社會也從機器代替體力勞動時代加速進入到機器代替腦力勞動時代[1]。充斥于網絡信息空間的各類AI生成物,在放大用戶生成內容既有版權問題的基礎之上,也催生了AI大模型機器學習環節的訓練侵權問題[2]。作為AI技術全球領先的國家,美國人工智能市場規模2024年達到501.6億美元,市場規模年增長率為28.30%,預計到2030年市場規模將達到2237億美元 [3]。斯坦福大學人工智能研究所(Stanford HAI)發布的《2024年人工智能指數報告》顯示,美國共有61個知名人工智能大模型,遠遠超過世界其他國家[4]。AI大模型領域的迅猛發展,讓美國率先面臨AI訓練侵權等版權保護治理難題,《紐約時報》等出版機構不斷對OpenAI等科技公司提起版權訴訟。然而,面對生成式人工智能帶來的版權沖擊,美國更多是借助判例法傳統,秉持以市場為主導的“柔性規制模式”[5],讓傳統出版業與AI科技公司雙方博弈,期待二者在充分表達利益的基礎上實現合作途徑的創新。
這種AI版權規制思路雖然客觀上有助于美國AI大模型技術進化和全球市場擴張,但卻對美國出版業抵抗AI科技公司非法使用出版語料問題制造了現實困難。當下的美國出版業既要面對科技公司AI大模型這一語料吞噬怪獸不斷張開的血盆大口,又要面對司法保護實踐的“猶抱琵琶半遮面”。本文以美國出版業抵抗AI訓練侵權的相關案例和文本為分析對象,系統總結美國出版業的具體應對措施,以期對我國出版業應對AI大模型訓練侵權問題有所鏡鑒。
一、美國出版業抵抗AI訓練侵權的現實困境
美國AI技術的飛速迭代與訓練數據需求的急劇增長如同熊熊火焰,不斷吞噬著版權保護的邊界,同時美國司法實踐對AI版權規制卻仍然堅持鼓勵技術創新的傳統法律慣習,導致美國出版業面臨AI訓練侵權的嚴峻挑戰。
1.AI大模型技術迭代發展加速了出版語料的野蠻使用
(1)AI大模型技術迭代需要訓練數據集不斷拓展
研究表明,自2020年以來,用于訓練大語言模型的數據增長了100倍,并且AI訓練數據集的規模每年翻倍[6]。隨著AI技術的不斷發展和應用場景的不斷拓展,AI大模型迭代更新速度加快,新的AI大模型不僅涉及文本生成、圖像識別、自然語言處理等多個領域,還涵蓋越來越豐富的多模態功能,如語音與視覺的結合、跨領域推理等,這使得訓練數據集的更新和擴展成為一個持續性任務。AI科技公司不僅要擁有海量語料庫,還要跟進最新的知識和趨勢,不斷優化和擴展數據源,以提升AI大模型的功能,應對更為復雜的任務。由于數據的數量與質量被視為衡量AI大模型成功與否的重要指標,各大科技公司紛紛加碼研發,通過不斷擴大其數據集以提升模型的語義理解和生成能力,從而保持自身競爭力。這是大模型技術快速發展的關鍵,也是導致美國出版業遭受AI侵權訓練的現實原因之一。
AI大模型的急速增長促進了語料需求的增加,直接導致出版行業所面臨的版權問題。在眾多語料中,經過知識沉淀的出版內容成為AI大模型訓練的優選語料,尤其是一些學術出版物和專業書籍,因其數據密度和知識深度而備受許多AI科技公司訓練模型青睞,大模型的迅速技術迭代更是加劇了對出版內容的“掠奪”。
隨著新一代大模型的發布,其訓練數據集的規模都要比前一代更大,因此對數據的獲取速度也加快。以GPT系類為例,GPT-4總共包含1.8萬億參數,而GPT-3只有約1750億個參數[7],這種快速迭代和數據擴展的需求對出版行業產生了深遠的影響。由于傳統出版物的出版周期相對較長,而AI大模型的訓練需要不斷吸收最新的內容和知識。這就意味著出版商在這種高速發展的AI訓練環境中處于被動地位——出版商不僅要面臨出版周期長和人工成本高的問題,還要應對AI科技公司不斷擴展訓練數據集所帶來的侵權問題。
(2)AI大模型公司在技術優勢掩護下對出版語料進行非法使用
面對日趨膨脹的需求和日漸耗盡的數據資源,在AI大模型的訓練過程中,美國部分科技公司為了低成本高效能擴充數據集,在數據處理和去標識化等技術的掩護下,選擇未經授權的盜版網站或非法內容源進行數據抓取和模型訓練。2023年10月,Meta的內部通訊顯示,其在訓練其AI大模型時使用了受版權保護的數據并試圖掩飾這一事實。Meta產品總監索尼·特哈卡納特(Sony Theakanath)在發給AI研究副總裁喬爾·皮諾(Joelle Pineau)的電子郵件中表示,GenAI已獲準使用LibGen(一家擁有海量盜版圖書和學術資源的網站)進行訓練。Meta公司內部設立了一系列“緩解措施”,以減少這種數據可能帶來的法律和輿論風險,其中包括刪除數據中明確標注為侵權的內容,避免公開承認數據來源,并在必要時對大模型進行全面風險評估[8]。由此可見,雖然美國大多數AI科技公司聲稱其數據來源公開且合法,但實際上盜版內容和未經授權的資源在訓練數據集中占據了重要地位。
AI科技公司依靠技術掩護對出版語料數據的非法使用行為,直接侵犯了出版商和內容創作者的知識產權,進一步加劇了出版行業版權保護的困境。這種“數據掩飾”的手段使盜版內容在數據集中變得“無痕跡”且不易識別,即使出版商意識到其內容被盜用,往往也很難追蹤到AI訓練數據集中的具體應用,從而使得內容維權變得更加復雜。出版商在訴訟過程中,常常因為無法證實特定內容的非法來源,或缺乏足夠的證據支持,導致維權成本極高且效果有限。
此外,AI科技公司使用盜版網站內容進行AI大模型訓練,不僅侵犯了版權持有者的經濟利益,也對整個出版行業的健康生態構成了威脅。由于出版商依賴版權收入來維持生計,當這些潛在版權收入被非法使用的數據源和盜版內容所侵蝕時,不僅會影響出版商的正常運營,也導致創作者失去創新的動力和收益,從而對整個版權運營鏈造成根本性破壞。
2.針對AI訓練語料侵權的法律監管相對保守
美國作為AI技術領先的國家,面對AI大模型的訓練侵權行為并未采取嚴厲的版權規制措施,而是在立法、司法層面保持一個相對保守的態度。
(1)AI訓練數據披露相關立法仍在襁褓之中
在立法層面,針對AI訓練行為可能存在的風險,美國有意識地引入人工智能法律監管機制,相繼推出一系列強調AI大模型透明度的立法提案。如:2023年12月12日,《2023年AI基金會模型透明度法案》[9]提出,授權聯邦貿易委員會(FTC)要求基礎模型開發人員發布有關訓練數據、算法和模型性能的信息;2024年11月26日,《人工智能網絡透明度和責任 (TRAIN) 法案》[10]提出,允許法院向模型開發者發出傳票,要求他們披露是否使用了版權持有者的內容來訓練模型,以協助版權所有者確定哪些受版權保護的作品已用于AI大模型的訓練;2024年4月9日,《生成式人工智能版權披露法案》[11]從主體歸屬、程序化管理和算法透明的角度出發,要求AI科技公司在發布新的生成式人工智能系統之前,必須向版權登記處提交一份包含用于訓練數據所用的受版權保護作品的通知,以通過開創性立法的形式使相關公司在訓練其AI大模型時保證完全透明。
以上立法提案表明,美國立法層面通過要求AI科技公司披露用于訓練人工智能系統的數據,有意識地保護受到人工智能浪潮沖擊的版權所有者。但是上述立法仍然處于提案階段,不具備真正的法律效力,只能從側面反映出美國立法者對于既存問題的態度,真正發揮司法規制效力的時間仍然難以確定。
(2)轉換性使用認定標準延展了AI訓練語料的合理使用邊界
從司法層面來看,嚴格的侵權責任認定會對產業主體造成過度威懾[12],在價高者得的市場邏輯主導下,往往會誘發大型企業獨占相關作品進行模型訓練的反競爭效果[13]。在調和AI技術發展與版權關系的問題上,美國延續其版權合理使用制度中的轉換性使用策略,肯定文本數據挖掘的合理使用,對抓取數據用于AI大模型訓練的態度較為寬松。
在20世紀90年代首次確立轉換性使用的坎貝爾訴阿卡夫—羅斯公司案中,法院認為被告在使用原作品時增加了“新表達、新含義或信息”,應視為轉換性使用,不構成侵權[14]。在應對“二次創作”的不斷變形中,轉換性使用的認定標準逐步放寬,即使是不加變化的直接使用,只要使用目的不同,也可歸屬于合理使用,而無須考慮使用行為是否具備“營利性”[15]。如威廉姆斯、威爾金斯公司訴美國案中,科研人員未經授權復制了出版商科學期刊中的照片,但僅供個人在科研工作中使用而未用于商業用途。法院據此認定,該復制行為并未對原告產生嚴重不利影響,符合轉換性使用標準,并判定科研機構的使用行為不構成侵權[16]。無獨有偶,在美國作家協會訴谷歌圖書館案中,法院允許谷歌制作未經授權的、以數字副本形式呈現的版權作品,認為其實現搜索功能并顯示作品片段的行為具有變革性,即使谷歌是在營利性目的驅動下利用其在圖書搜索方面的主導地位來鞏固自身競爭優勢,由于涉及高度轉換性使用情況,也不妨礙合理使用的認定[17]。
這些版權司法實踐表明,美國并未對轉換性使用標準中的商業性和非商業性要素作出嚴格要求,當語料使用符合轉換性使用要求時,就可納入合理使用范圍。人工智能公司雖然出于營利目的訓練AI大模型,但由于輸入階段的作品利用指向生成程序的形成,不會對原作品形成市場替代,具有認定為合理使用的空間[18]。如果AI生成內容顯著改變了原作品的表達方式或目標受眾,或通過新的視角對原作品進行批判性使用,那么AI訓練行為的目的就可以被理解為催化知識生產,或者被定義為更深遠的公益目的,極可能在司法實踐中被視為一種延展的合理使用行為,從而成為科技公司繼續無償使用訓練語料的抗辯武器。
二、美國出版業應對AI訓練侵權的主要措施
美國出版業作為全球出版行業的領頭羊,率先遭遇AI技術對出版產業版權保護的挑戰。在此背景下,美國出版業采取了一系列積極有效的措施來應對AI訓練中可能出現的版權侵權問題。
1.明確表達對AI訓練的版權規制訴求
面對AI訓練侵權,美國出版業積極表達自身訴求,尋求建立一個語料使用邊界清晰、過程透明的AI版權規制環境。
(1)堅持邊界限定:拒絕未經授權的使用行為
面對AI訓練侵權方的“合理使用”抗辯理由,美國出版業要求在新的法律框架下重新確定合理使用邊界,以適應AI技術對內容創作和使用方式的改變。當前,傳統的合理使用原則在面對AI技術時顯得力不從心:一方面,AI的“學習”和“創作”過程難以用傳統的“三步檢驗法”來界定其是否構成合理使用;另一方面,AI生成的內容可能與原作品高度相似,從而引發版權糾紛[19]。若支持原有合理使用制度的主張,現有條款就可能成為生成式人工智能規避支付許可費用的侵權工具,由此減少了版權所有者的正常許可收益。而實際上,不論是學習特定作品的表達進行內容輸出,還是學習海量作品的表達進行內容輸出,都是對版權作品的消費性使用,都理應支付相應的報酬。美國出版業認為,如果人類不可以未經授權使用作品,那么機器也不存在任何類似的借口,因此亟須明確合理使用邊界,以規制AI訓練侵權。
美國出版業相關行業協會紛紛表達上述AI版權規制訴求。如美國出版商協會(AAP)堅持認為,未經許可攝入受版權保護的材料用于AI大模型訓練不符合合理使用的條件 [20],科技公司在訓練AI系統時,其所用的版權作品需要獲得版權所有者的同意或許可,過往未經許可而使用的版權作品應向版權所有者進行賠償,不應為人工智能公司創造法律豁免權[21]。美國新聞媒體聯盟(NMA)稱,版權法必須保護而不是傷害內容創作者,合理使用原則并不能證明生成式人工智能產品未經授權使用出版商內容、檔案和數據庫是正當的,未經許可的任何以前或現在使用的此類內容均違反版權法[22]。美國作曲家、作家和出版商協會(ASCAP)也宣稱,堅決反對任何將受版權保護的內容用于訓練AI大模型在美國視為“合理使用”的建議[23]。相關行業協會的集體發聲,形成了抵抗AI訓練侵權的巨大輿論場,為維護美國出版業的相關權益提供了有力支持。
(2)強調過程透明:監督落實信息披露的義務
信息披露義務所帶來的使用透明度是實現雙方交易互信和版權所有者能夠維權的必要前提。只有履行信息披露義務、保持足夠的透明度,生成式人工智能使用者、版權所有者和相關監管機構才能判斷人工智能的可靠程度,確保生成式人工智能所提供的服務不會損害社會的利益[24]。
美國出版業強調,AI科技公司在其產品和服務中使用人工智能時,必須履行信息披露義務,確保所有用戶及相關利益方充分了解AI系統的運作方式及其影響。這一要求的核心目標是保障公眾的知情權,避免技術濫用,促進出版行業的健康發展。美國新聞媒體聯盟(NMA)明確表示,出版商有權知道誰復制了其出版的內容以及用于什么目的。生成式人工智能廠商應對用戶透明,使用戶能夠明確辨識信息內容的生成方式,即哪些文本段落是經由AI自動生成的,并追溯至其原始的數據或信息源[25]。美國數字媒體許可協會(DMLA)認為,“要確保所有訓練內容均通過合法途徑獲取,用于模型訓練的素材必須具備較高透明度。具體而言,這些素材不僅要附有詳盡的可供隨時查閱的維護記錄,同時也要清晰標識出模型訓練過程中所使用的具體內容。”[26]
對AI科技公司信息披露義務的監管也成為美國出版業相關行業協會的關注焦點。美國新聞媒體聯盟(NMA)認為,監管機構應確保生成式人工智能產品的設計、部署和使用符合競爭法和原則,開發人員和部署人員應盡最大努力確保生成式AI大模型不被用于反競爭目的[22]。美國出版商協會(AAP)的相關主張更為全面,其要求對AI在出版業的應用進行程序化管理,確保落實AI使用中的問責制以實現公平競爭,以及建立完善的侵權追溯和取證機制以確保有效識別和追溯AI生成的侵權內容。同時,美國出版商協會(AAP)還對監管主體提出,既要發揮企業在技術使用過程中自我糾察管理的能動性,又要發揮相關司法部門對AI規制的強制性力量,尋求建立包括知識產權、國家安全、隱私、消費者保護和人權等多種權益的前瞻性法律規則,保護相關者的權利不被侵犯[27]。
2.通過司法訴訟與商業合作維護AI訓練語料的使用權益
除了表達對AI版權規制的訴求,在產業實踐中,美國出版企業還通過發起司法訴訟、商業合作等多種方式維護自身權益。
(1)提起司法訴訟維護權益
相比于立法和行政的“剛性”治理,司法以其參與性、協商性的“柔性”治理極大地緩解了社會利益沖突[28]。美國出版業應對AI訓練侵權行為的訴訟實踐在一定程度上體現了這一特點,司法在應對美國出版業與AI科技公司的矛盾治理上扮演著關鍵角色。
傳統的出版業版權利益維護以“許可制度”為保障得以實現,而AI大模型的出現打破了原有的版權許可模式,其訓練所需的海量作品授權難題將使出版業面臨嚴重的市場收益損失。因此,出版業針對AI大模型的訴訟行為,實質上是AI發展之下出版業和科技企業之間利益失衡所引發的對抗。
表1是近年來美國出版商訴訟AI科技公司的代表性案例匯總。從表1可知,美國出版商紛紛指控AI科技公司侵犯其版權,尤其是通過抓取新聞文章、圖書內容等受版權保護的內容來增強AI產品的功能,而這些內容應由創作者或出版商授權使用。出版商在訴訟中強調,AI科技公司在使用這些內容時并沒有支付許可費用,也未提供相關補償,導致其未能從中獲得應有的經濟回報。這種做法不僅影響了出版商的權益,也使得AI科技公司以不公平的方式獲取競爭優勢,需要司法介入以維護版權秩序。
表1中的部分案件還涉及AI生成內容的誤用或錯誤歸屬問題,尤其是當生成內容包含虛假或錯誤信息時,出版商的品牌信譽可能因此遭受損害。因此,出版商通過訴訟手段力求維護其知識產權、經濟利益及品牌聲譽,以確保創作者的作品不被濫用,并尋求獲得合理的補償。通過法律途徑,出版業不僅回撥了失衡的版權利益天平,而且推動了對AI技術合理使用的法律規范和倫理界限進行界定的進程。
(2)通過商業合作實現效益共享
在提起訴訟的同時,美國出版商也積極與以OpenAI、Microsoft等為代表的頭部企業開展商業合作,以維護自身權益。合作的達成并非單方的“一廂情愿”,在某種程度上也體現了雙方的意愿。美國作家協會向版權局提交的意見表示,希望建立一個私人的、高效的、具有成本效益的集體許可制度,為AI科技公司提供適當的權利,以換取公平的補償[29]。可見,出版商與AI科技公司的矛盾具有協調的可能性,行業之間的磋商和合作將發揮關鍵作用。通過合作,出版商可以確保其作品在被AI使用時得到適當的授權和補償,AI科技公司也能夠通過合作獲得合法的訓練數據,為其技術的持續發展提供必要的資源。
表2是近年來美國出版商與AI科技公司合作的代表性案例匯總。從表2不難發現,商業合作模式不僅能夠在一定程度上解決版權爭議,還能為整個出版產業的發展提供創新的解決方案。美國出版商與AI科技公司之間的合作雖然源于當前的矛盾和沖突,但在共同推動技術創新的同時,也可為雙方創造長遠的互利共贏局面。隨著版權法律和技術的不斷進步,出版業與AI產業將形成更加緊密的合作關系。
(3)發布退出AI訓練使用選擇的版權聲明,減少灰色空間
除了采取司法訴訟進行維權,美國出版商還在新書和重印書籍中發表聲明,明確提出不允許其作品用于AI訓練。如企鵝蘭登書屋(PRH)的版權聲明規定:“不得以任何方式使用或復制圖書的任何部分用以訓練人工智能技術或系統”[30],并且明確此聲明包含所有新書和任何重印的舊版書。除此之外,企鵝蘭登書屋還明確表示將通過具體的執行細則來實施這一決策,以確保其作品不會被用于未經授權的AI訓練。美國作者許可和集體管理協會(ALCS)首席執行官Barbara Hayes就此表示:“主要出版商在其印刷材料中采用新措辭,明確禁止在人工智能培訓中使用受版權保護的作品,這是保護知識產權的關鍵一步,希望越來越多的出版商能夠跟隨企鵝蘭登書屋的腳步,也希望科技公司能夠了解這一版權新標準。”[31]
美國出版商更新針對AI訓練的版權聲明,意味著出版行業可以采取一種更加自主和靈活的版權管理方式,避免因缺乏清晰規定而導致的版權侵權風險。這種在版權聲明中“選擇退出”AI訓練使用的表達,能夠有效減少AI訓練語料使用中的版權灰色空間。通過退出AI訓練使用的版權聲明,美國出版商能夠在技術變革的浪潮中主動保護自己的權益,避免陷入被動的法律糾紛。同時,這種自我約束的版權聲明作為一種司法管控之外的補充措施,避免了過度依賴立法和司法裁決的風險,有助于出版商在技術發展的同時保護出版業的內容生產版權生態。
三、美國出版業應對AI訓練侵權對我國的啟示
美國作為人工智能技術和出版產業領先的國家,其出版業在應對AI訓練侵權問題時所采取的策略和方法,對我國出版業應對相應問題有著一定啟示。
1.積極推進AI訓練侵權的司法規制環境建設
(1)堅持“先授權后使用”原則以杜絕出版語料的野蠻濫用
針對未經授權使用出版語料的行為,“先授權后使用”原則的核心在于要求AI科技公司在使用任何版權作品之前必須合法地獲取授權,不能通過技術手段或其他不正當手段擅自獲取出版語料。踐行AI訓練出版語料“先授權后使用”原則的途徑,包括但不限于基于訂閱行為獲取、基于許可協議獲取、基于作品在線免費提供獲取(權利人作出保留聲明的除外)和基于國家發展需要或社會公共利益需要的獲取等[32]。
一方面,很多出版物、學術論文或新聞都已經通過訂閱平臺提供給用戶,AI科技公司若想使用這些內容,就應當通過合法的訂閱途徑獲取授權。特別是當版權方明確要通過許可協議提供數據時,AI科技公司必須遵循約定的條款,在獲取數據的同時支付相應的版權費用。
另一方面,若某些作品是基于在線免費提供的形式發布,AI科技公司也應當確保版權方沒有對其內容作出保留聲明,確保自己所使用的作品是可以合法使用的。此外,雖然某些出版語料在促進社會公共利益方面具有重要價值或處于公有領域,但AI科技公司在獲得這些出版語料時,也要兼顧版權方的利益與社會公共利益,在AI訓練使用以及內容生成時堅持遵守相應的版權規定。
“先授權后使用”原則的意義,在于明確出版業獲取版權資源使用收益的法律地位,從而促使AI科技公司將其利用版權內容而獲得的廣告收益進行合理分配,保護出版商的權益。除此之外,考慮到AI科技公司獲取海量內容版權許可的實際困難,也可以允許其在獲取授權成本較高時適用“通知屏蔽規則”,采用版權過濾技術以避免承擔侵權責任,促進各方利益平衡。[33]。
(2)完善“選擇—退出”機制以實現技術變革下的版權利益均衡
為避免版權主體的利益受到過分侵害,應完善作品“選擇—退出”機制,適當提高出版業版權主體的議價能力。“選擇—退出”機制介于數據訓練使用作品的授權模式和傳統合理使用模式二者之間,是人工智能時代加強版權所有者權利保護與促進產業發展二者之間相互妥協的方案。引入作品“選擇—退出”機制,意味著允許權利人通過協議、聲明、單邊宣言等方式保留權利。換言之,版權所有者可以不允許基于文本與數據挖掘目的復制、提取其作品內容,以及將其內容用于AI訓練的行為[34]。
“選擇—退出”包含兩種形式。一是版權所有者在其作品公開發表之前,針對將其作品用于AI訓練的行為作出聲明,拒絕將其作品用于任何大模型的訓練。此時,作為開發主體的AI科技公司應當尊重版權主體的聲明,主動回避該版權作品。二是版權所有者收到通知或在AI科技公司所搭建的平臺及版權作品檢索渠道中了解到其版權作品被使用時,可以在一定時間內享有保留、刪除或屏蔽其作品的權利。版權所有者未在規定期限內作出明確拒絕的,可以默認其允許相關版權作品用于AI大模型的訓練;版權所有者在規定期限內作出明確拒絕的,開發主體應當及時刪除或屏蔽侵權內容。
這一機制不僅保障了版權所有者的權利,從某種程度上也促進了AI技術的發展創新。因為除非版權所有者主動行使“選擇—退出”權,否則作品原則上可被用于數據訓練而無須個別授權,由此降低了版權許可的高昂成本,緩解了因獲得許可困難而導致的訓練語料匱乏,以及因此加劇的算法偏見等問題。
(3)明確AI訓練語料披露責任以實現版權知情和司法追溯
“對作者精神權利的承認和尊重,是證立人工智能訓練數據版權信息披露義務的一個重要法理邏輯。”[35]因此,要求模型提供者公開其訓練內容以提升數據訓練過程的透明度尤為重要,即AI科技公司必須披露其訓練數據的版權信息。強調信息披露責任,不僅能夠有效保障權利人對其作品使用情況的知情權,也是權利人有效行使“選擇—退出”權的重要前提。換言之,只有權利人充分了解其作品被用于AI訓練后,才能作出是否允許其作品被用于此類用途的決定。
此外,訓練內容的公開披露還有助于簡化輸出端可能出現的侵權判斷過程。當監督機構或權利人需要判斷某一作品是否被非法地用于生成實質性相似的表達時,公開的訓練內容將成為重要的參考依據,由此大大降低了侵權判定的難度和復雜性。因此,模型提供者履行披露訓練內容的義務,不僅是保障透明度和知情權的體現,也是維護創作生態健康、促進技術創新與版權保護和諧共生的關鍵一環。
值得注意的是,強調訓練語料披露責任,并不意味著一刀切式地要求AI科技公司履行語料的披露義務,否則要么失之于寬,要么失之于嚴。唯有寬嚴并濟地履行訓練語料披露義務,才能實現在保護出版業主體權利的同時促進科技創新。因此,可以適當放寬內容披露標準,即不要求提供詳細清單,僅要求綜合性的概要,允許敘述性披露。對于通過互聯網獲取的數據信息,可以對作品合法來源進行限定性解釋,或要求使用者采取注明出處等措施。
2.提升出版企業應對AI訓練侵權的維權能力
面對AI技術的沖擊,我國出版企業必須在維權策略、維權機制等方面積極創新,以適應這一新事物帶來的新要求。
(1)完善針對AI訓練侵權的版權聲明與版權合同
為了更好地保護版權,出版企業應在版權聲明和合同條款中進行關鍵性的修訂,確保其對出版內容的占有權,維護版權所有者和消費者的利益。
首先,出版企業應在版權聲明中明確規定其作品能否被用于AI大模型的訓練。出版企業可以在版權聲明中出具補充條款,對在AI訓練中的使用范圍和條件進行限制,包括允許用于訓練數據的類別、訓練的目的、使用的時長等。針對非表達型AI、大眾表達型AI、個人表達型AI等大模型訓練,出版企業可以從自身企業利益的角度出發分梯度予以授權。此外,出版企業授權其作品用于AI訓練時,還可以加強對訓練數據的透明度要求。這意味著,出版企業可要求在使用其作品進行AI訓練時,必須披露訓練數據的來源、范圍、使用方式以及處理過程。這不僅能夠保障作品的使用不侵犯版權,也能幫助創作者了解其作品在AI訓練中的實際應用,避免其作品被誤用或濫用,維護版權所有者的權益。
其次,出版企業還應針對AI訓練的具體問題,完善與作者簽訂的合同條款。由于出版企業與作者簽訂的舊有合同往往不涉及AI版權內容,也未明確作品在AI訓練中的授權和賠償機制。因此,出版企業需要及時修訂作者授權合同,尤其是重點補充涉及AI生成內容、模型使用以及數據處理等方面的條款,確保版權歸屬清晰公正。具體而言,出版企業應明確規定在AI訓練過程中,如果AI生成的內容與原作品高度相似,或能夠追溯到原作品,出版企業是否應與作者協商進行收益分配,且如果AI生成內容侵犯了第三方的版權,版權責任將由哪一方承擔,等等。這種明確的合同條款有助于避免因版權糾紛而產生的法律風險,確保雙方在技術變革中共同獲益。
(2)提升針對AI訓練語料侵權的技術對抗能力
面對科技公司對AI訓練語料數據的瘋狂掠奪,出版企業要不斷提升技術對抗能力,創新和優化反抓取技術、取證技術以及侵權監控系統。其中,反抓取技術被視為針對AI訓練侵權的首要防線。出版企業可在其網站和數字平臺上增加機器人協議(robots.txt)文件的應用,限制AI訓練系統或爬蟲對受版權保護的作品進行自動抓取;通過監控和分析流量模式來識別異常抓取行為,避免作品被非法用于AI訓練。取證技術對于AI訓練中的版權侵權行為追溯與維權也至關重要。出版企業可以使用數字水印或數字指紋標記技術將版權信息嵌入文本、圖像或音頻內容,為后續的侵權維權提供證據,提升維權的效率和成功率。同時,出版企業還應加強與技術提供商、專業法律團隊的合作,建立完善的侵權監測系統,對AI訓練侵權問題進行常態性監測。
技術對抗能力的提升不僅能夠保護出版企業的合法權益,還能推動出版行業版權保護標準的不斷提升,通過不斷創新和優化反抓取技術、取證技術以及侵權監控系統,為版權持有者提供更加可靠的保障,讓出版企業在面對AI訓練帶來的復雜版權問題時,能游刃有余地維護自己和創作者的利益,并確保在技術發展的洪流中掌握法律和經濟的主動權。
(3)建立針對AI訓練侵權的系統維權機制
由于傳統版權管理體系在面對AI快速發展時的適應性較弱,出版企業必須通過創新和自我完善;建立一套既能快速反應又能系統化管理的維權框架機制。圖1是出版企業應對AI訓練侵權維權機制的初步設想。
針對AI訓練侵權行為,出版企業可以憑借自身掌握的技術,監控AI訓練數據的使用情況,通過數字指紋、水印識別等技術手段實時監測侵權行為。一旦發現侵權,出版企業即可借助區塊鏈和時間戳技術進行證據保全,記錄侵權細節以確保法律效力,同時向侵權方發送通知,要求其立即停止使用并刪除相關數據。如果侵權方積極配合,雙方可以開展協商談判,通過授權或補償協議建立合作關系,實現合作共贏;如果侵權方拒絕配合,出版企業可啟動法律訴訟程序,通過法庭舉證維護自身權益,爭取獲得相應補償。行業聯合維權在這一過程中能發揮重要作用,出版企業可以通過共享侵權線索和分攤維權成本形成行業合力,降低單個企業的維權難度和成本。
系統維權機制的建立為出版企業提供了強有力的法律和技術保障,使出版企業可以有效應對AI訓練中的侵權行為。標準化的維權流程和行業聯合維權,不僅提高了維權的效率和成功率,還降低了單個企業的維權成本,使得中小型出版企業也能夠參與維權行動,形成行業合力,推動行業制定統一的授權標準和補償機制。通過技術手段與法律手段的結合,出版企業能夠在AI時代更好地保護自身權益,推動行業的可持續發展,同時為其他內容創作行業提供可借鑒的維權模式。
四、結語
在AI訓練侵權的問題上,所有國家都面臨同樣的挑戰。美國作為AI技術革新和出版產業發展領先的國家,其出版商在應對AI訓練侵權問題時所采取的策略和方法,為其他國家提供了有價值的經驗和啟示。盡管中美在AI技術發展階段和司法環境方面存在顯著差異,但在出版內容方與平臺使用方之間的博弈上,雙方面臨的根本問題具有共通之處,即如何有效規制AI技術的使用,以保障創作者和版權持有者的合法權益。因此,我國出版業在應對AI訓練侵權問題時,可以參考美國在AI訓練合法性爭議方面的相關經驗,明確著作權人與技術開發者之間的利益分歧,積極推進AI訓練侵權的司法規制環境建設,同時快速提升出版企業應對AI訓練侵權的維權能力,促進生成式人工智能數據獲取與訓練的規范化發展,營造適應AI技術革新與出版產業發展的良好版權生態環境。
|參考文獻|
[1] 熊琦,張文窈. 人工智能生成內容著作權規制的全球趨向與本土路徑[J]. 知識產權,2024(11):59-76.
[2] 蔡元臻. 機器學習著作權法定許可的適用基礎與規則構建[J]. 知識產權,2024(11):77-93.
[3] STATISTA. Artificial Intelligence-United States[EB/OL].(2024-11-03)[2025-01-23]. https://www.statista.com/outlook/tmo/artificial-intelligence/united-states.
[4] STANFORD UNIVERSITY. The AI index report Measuring trends in AI[EB/OL]. [2024-11-07]. https://aiindex.stanford.edu/report/.
[5] 史鳳林,張志遠. 論人工智能的公法規制:美歐模式與中國路徑[J]. 理論月刊,2023(8):127-139.
[6]JONES, N. The AI revolution is running out of data. What can researchers do?[J]. Nature,2024(8042):290-292.
[7]SEMIANALYSIS. GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE//Demystifying GPT-4: The engineering tradeoffs that led OpenAI to their architecture[EB/OL]. [2025-01-23]. https://semianalysis.com/2023/07/10/gpt-4-architecture-infrastructure/#.
[8]MILES Klee. Zuckerberg Appeared to Know Meta Trained AI on Pirated Library[EB/OL]. (2025-01-14)[2025-01-23]. https://mena.rollingstone.com/culture/zuckerberg-appeared-to-know-meta-trained-ai-on-pirated-library/.
[9]CONGRESS. H. R. 6881 - AI Foundation Model Transparency Act of 2023[EB/OL].(2024-12-25). https://www.congress.gov/bill/118th-congress/house-bill/6881/text.
[10]CONGRESS. S. 5379 – TRAIN Act[EB/OL]. (2024-11-21)[2024-12-23]. https://www.congress.gov/bill/118th-congress/senate-bill/5379/text.
[11]CONGRESS. H. R. 7913 –Generative AI Copyright Disclosure Act of 2024 [EB/OL]. [2025-02-06]. https://www.congress.gov/bill/118th-congress/house-bill/7913/text.
[12] 徐偉. 生成式人工智能服務提供者侵權歸責原則之辨[J]. 法制與社會發展,2024(3):190-204.
[13] 黃玉燁,楊依楠. 論生成式人工智能版權侵權“雙階”避風港規則的構建[J]. 知識產權,2024(11):37-58.
[14]CAMPBELL v. Acuff-Rose Music, Inc. , 510 U. S. 569, 579 (1994) [EB/OL]. [2025-02-07]. https://supreme.justia.com/cases/federal/us/510/569/.
[15]NETANEL, NEIL WEINSTOCK. Making sense of fair use[J]. Lewisamp;Clark Law Review,2011(15):715-771.
[16]WILLIAMS amp; WILKINS Co. v. United States,420 U. S. 376(1975)[EB/OL]. [2025-02
-07]. https://supreme.justia.com/cases/federal/us/420/376/.
[17]AUTHORS GUILD v. Google, Inc. ,No. 13-4829-cv(2d Cir. Oct. 16,2015) [EB/OL]. [2025-02-07]. https://www.copyright.gov/fair-use/summaries/authorsguild-google-2dcir2015.pdf.
[18] 韓榮. 生成式人工智能作品利用的“合理使用+單純獲酬權”模式探析[J]. 出版廣角,2024(19):75-80.
[19] 林秀芹. 人工智能時代著作權合理使用制度的重塑[J]. 法學研究,2021(6):170-185.
[20]EILEEN BRAMLET. Generative AI, Copyrighted Works, and the Quest for Ethical Training Practices[EB/OL]. [2025-01-25]. https://copyrightalliance.org/generative-ai-ethical-training-practices/.
[21]AAP. Publishers Submit Reply Comments to Copyright Office in Artificial Intelligence Proceeding[EB/OL]. [2025-01-24]. https://publishers.org/news/publishers-submit-reply-comments-to-copyright-office-in-artificial-intelligence-proceeding/.
[22]STAFF. News/Media Alliance AI Principles[EB/OL]. [2025-01-25]. https://www.newsmediaalliance.org/ai-principles/.
[23]ASCAP. comments of the american society of composers, authors and publishers on artificial" intelligence and copyright[EB/OL]. [2025-01-24]. https://www.ascap.com/~/media/files/pdf/articles/2023/ascap-comments-to-us-copyright-office-on-generative-ai.pdf.
[24 VON ESCHENBACH, W. J. Transparency and the black box problem: Why we do not trust AI[J]. Philosophy amp; Technology,2021(4):1607-1622.
[25]STAFF. News/Media Alliance AI Principles[EB/OL]. [2025-01-25]. https://www.newsmediaalliance.org/ai-principles/.
[26]EILEEN BRAMLET. Generative AI, Copyrighted Works, and the Quest for Ethical Training Practices[EB/OL]. [2025-01-25]. https://copyrightalliance.org/generative-ai-ethical-training-practices/.
[27]AAP. Nobel Laureate Maria Ressa Headlines AAP’s Annual Meeting[EB/OL]. [2025-01-28]. https://publishers.org/news/nobel-laureate-maria-ressa-headlines-aaps-annual-meeting/.
[28] 肖啟賢. 大語言模型發展的版權掣肘及其治理:以美國版權集體訴訟的實踐為視角[J]. 電子知識產權,2024(9):74-83.
[29] The Authors Guild. Comments of the Authors Guild Artificial Intelligence and Copyright[EB/OL]. [2025-01-26]. https://authorsguild.org/app/uploads/2023/10/Authors-Guild-Comments-AI-and-Copyright-October-30-2023.pdf.
[30]BELEN EDWARDS. Penguin Random House copyright pages will now forbid AI training[EB/OL]. [2025-01-27]. https://mashable.com/article/penguin-random-house-ai-protections-copyright-page.
[31]MUHAMMAD ZULHSN. PRH takes a stand: Copyright pages updated to ban AI training[EB/OL]. [2025-01-27]. https://techhq.com/2024/10/prh-moves-to-restrict-ai-training-with-new-copyright-statement/.
[32] 關春媛. 生成式人工智能訓練版權合理使用探究:國際趨勢、本土發展與規則構建[J]. 出版發行研究,2024(12):91-97.
[33] 孫靖洲. 人工智能訓練的版權困境及其出路:模塊化許可機制探析[J]. 知識產權,2024(11):94-111.
[34] 司曉,曹建峰. 歐盟版權法改革中的大數據與人工智能問題研究[J]. 西北工業大學學報(社會科學版),2019(3):95-102.
[35] 李安. 人工智能訓練數據的版權信息披露:理論基礎與制度安排[J]. 比較法研究,2024(5):136-152.