摘" " 要:人工智能模型依賴于對大量作品的復制分析,從而導致傳統版權業者與人工智能訓練需求之間的緊張關系。目前模型訓練合理使用爭議的原因,在于著作權人對人工智能模型訓練方式認識不足以及對技術驅動下新興市場收益預期未能達成。在美國的司法實踐中,合理使用已被廣泛適用于從廣播時代到互聯網時代的諸多使用行為,在歷史上具有典型意義的索尼案、谷歌數字圖書案和坎貝爾案中給利用新技術的新興產業拓展了發展空間。盡管美國法院在人工智能模型訓練的合理使用問題上仍在繼續要求各方補充證據,但其合理使用條款解釋的豐富歷史經驗已經提供了諸多可供參考的答案,對我國調整版權產業與人工智能產業的關系具有參考意義。
關鍵詞:人工智能;模型訓練;合理使用;非表達替代
中圖分類號:D 923" " " 文獻標志碼:A" " " " " 文章編號:2096-9783(2024)06?0011?13
一、問題的提出
生成式人工智能的產生,使得計算機能夠創造出與人類可受版權保護的表達方式大致相同的數字作品,成為新內容創造的引擎。從文生文、文生圖,再到文生視頻,人工智能在創新和藝術表達方面展現了巨大的潛力。然而,人工智能的潛力只有在海量人類創作的作品的支持下才能實現。以大型語言模型為例,要訓練其生成類似人類表達的文本輸出,唯一的方法就是復制和分析大量不同的人類撰寫的文本1。在大型語言模型的訓練過程中,輸入的數據至少經過了數字化的復制。這些數據往往包含了豐富的詞匯、語法結構、語境使用等語言特性,而許多這樣的高質量數據則直接來源于受版權保護的文學作品、新聞報道、學術文章等。因此,沒有大量受版權保護的素材輸入,就不會有大型語言模型的存在。
美國法院已受理多起指控人工智能開發商著作權侵權的案件,且訴求主要分為兩個方面:一是開發者復制了著作權人的作品以訓練能夠根據用戶提示生成文本、圖像或軟件代碼等輸出的模型;二是生成的輸出結果以訓練模型所依據的作品為基礎,是侵權衍生作品。盡管案件具體事實存在差異,但模型訓練階段的爭點是一致的。在2023年4月開始的許可談判失敗后,《紐約時報》起訴OpenAI和該公司最大的投資者Microsoft侵犯版權2。盡管這只是OpenAI所面臨的眾多訴訟中的一個,但該案件具有特殊意義。不僅涉及高達數十億美元的經濟利益,更象征著出版界巨頭與人工智能領域的領軍企業之間的較量。《紐約時報》指控OpenAI通過建立包含數百份《紐約時報》作品的訓練數據集,包括直接從《紐約時報》網站上抓取受版權保護的作品,以及從第三方數據集中復制此類作品,直接侵犯了《紐約時報》對其版權作品的專有權利3。而以OpenAI為首的人工智能開發商卻一致抗辯稱,他們的行為依賴于長期以來形成的合理使用判例。這些判例表明如果使用受版權保護的內容是為了開發具有創新性和獨特性的新技術,那么就屬于合理使用4。如果《紐約時報》勝訴,它很可能會獲得有史以來最大的知識產權侵權賠償判決,并迫使大型語言模型的制造商重新思考他們的運作模式5。如果OpenAI勝訴,則廣大人工智能開發者將能夠繼續無償使用所抓取的內容。與此同時,另一場可能重塑音樂產業未來的人工智能版權之戰也正式打響。三大唱片公司對音樂生成服務Suno和Udio提起的訴訟中,被告同樣提出了合理使用的抗辯,稱長期的先例表明為創造最終不侵權的產品,在公眾不可見的技術流程中復制作品屬于合理使用6。這體現了傳統版權業者與強大、尖端的生成式人工智能需求之間的緊張關系。正如歷史上的索尼案、谷歌數字圖書案等一樣,合理使用的認定再次深刻影響著新興產業的未來。
在人工智能模型訓練的合法性問題上,我國與世界上的其他國家,尤其是人工智能產業相對發達的國家,都面臨著同樣的挑戰,缺乏成熟的應對經驗。因此,一方面有必要緊跟人工智能產業領先的發達國家在模型訓練合法性爭議方面的最新進展,明確著作權人與技術開發者之間的利益分歧所在。另一方面,在美國版權歷史上,為開發新技術而復制受版權保護的素材往往屬于合理使用。復制電子游戲以創造競爭產品7、復制互聯網上的圖像以創建圖像搜索工具8、復制學生論文以創建剽竊檢測工具9、復制數百萬受版權保護的書籍以創建檢索數據庫10,以及使用受版權保護的計算機軟件創建競爭性智能手機平臺11等均被認定為合理使用。幾乎所有的討論者都認為人工智能模型訓練的合理使用問題主要取決于這些先例。在人工智能技術帶來的全新挑戰之下,重新梳理歷史上應對新技術的合理使用認定路徑顯得尤為重要。這些判例資源能夠幫助我們厘清如何平衡技術創新與版權保護的關系,調和新舊產業間的關系。盡管我國著作權限制與例外的立法體例與美國存在較大差異,但二者在制度價值表達與合法性判斷上仍具有共通之處。因此,本文首先將剖析生成式人工智能模型訓練帶來的關鍵性爭議。其次,梳理美國法院在類似爭議中的判決,特別是涉及技術進步對作品使用方式產生根本性變化的案例。探究美國如何透過合理使用制度處理平衡技術創新與版權保護之間的關系,以及所體現的特定價值取向。最后,結合我國合理使用制度體系,總結美國經驗如何為我國應對生成式人工智能提供借鑒。
二、美國人工智能模型訓練的合理使用認定爭議
近兩年圍繞人工智能訓練合法性問題,出現了大量的訴訟。藝術家們擔心人工智能無償復制他們的作品,可能會威脅到他們的生計和文學藝術的未來。其一,人工智能僅是依賴人類智慧的工具。為人工智能創造捷徑只會削弱人類的創作動力,因為人工智能本身正是依賴于這些作品12。其二,人工智能反過來剝奪了創作者的市場。人工智能公司能夠從藝術家和創作者的辛勤勞動中獲得數十億美元的資金和利潤,同時占領這些藝術家和創作者賴以生存的市場,難謂公平13。然而,每一項新技術的誕生往往伴隨著類似的擔憂。歷史經驗告訴我們,這些憂慮并不總是成為現實。正如照相機以及后來引入的許多其他創造性工具一樣,生成式人工智能有望成為推動而非取代人類創造力的引擎14。合理使用原則可能成為平衡人工智能領域利益沖突的最佳方式。因此,有必要回歸事實本源,厘清現有人工智能訓練的合理使用認定爭議。在美國版權法中,合理使用的判定特別依賴于第一因素(使用目的及性質)和第四因素(對市場的影響)。因此,本部分將以此展開分析。
(一)是否符合目的轉換性使用
人工智能模型訓練并非新事物。隨著計算機技術的拓展與普及,我們早已進入數字版權作品自動化處理的時代。從訓練數據獲取的角度來看,模型訓練所依賴的文本數據挖掘技術早已應用于逆向工程、互聯網搜索引擎等領域。與個性化、私人化的人類閱讀相比,此類對版權作品的批量復制早期被學者稱為機器閱讀[1]。機器閱讀涉及大量的逐字復制,且未對原始作品中的表達方式進行任何有價值的評論或修改,這似乎難以符合傳統意義上的轉換性使用。然而,隨著“轉換性使用”的概念逐漸擴展,這一概念也被用來解決由技術發展帶來的版權作品新使用方式的爭議[2]。即使新技術對作品進行完整且未經修改的使用,但亦可因其目的具有高度轉換性,而被認定為合理使用。基于如此的合理使用慣例,人工智能開發者認為模型訓練必然屬于轉換性使用的范疇15。然而,生成式人工智能模型訓練與過往的批量復制技術仍存在差異,其生成性特征為合理使用再次帶來了挑戰[3]。首先,以往的批量復制技術往往并不會直接促進人類對作品表達的參與。其次,這些技術的最終用途不會影響作品的潛在市場。而生成式人工智能模型正是圍繞人類的表達開展訓練,其所具有的生成性特征,使其產生了合理使用的認定爭議。以最為典型的大型語言模型和圖像模型為例,在音樂出版商訴Anthropic公司一案中,原被告雙方就使用歌詞訓練人工智能模型是否具有轉換性展開了討論。出版商主張,模型主要是從作者表達方式中提取有價值的信息。其對版權作品的使用不以信息分析為終結,而是可以響應用戶請求,輸出原作品或衍生作品的逐字復制。無論其輸出結果最終是否侵權,復制受版權保護作品作為訓練數據的目的與作者將作品授權給他人創作的目的是一致的。開發者創造了原作的替代品,從而排除了其使用具有轉換性的結論16。而Anthropic公司則認為將歌詞作為數據集一部分,用于訓練理解關于世界和語言如何運作的生成式人工智能模型,符合轉換性的定義。Anthropic公司使用這些歌詞的目的與作者創作這些歌詞的目的并不相同,它不是為了占用歌曲中的表達元素,而是為了一個全新的目的:訓練人工智能模型識別語言模式17。與此類似,視覺藝術家訴Stable Diffusion圖像生成器侵權的案件中,被告DeviantArt也提出了合理使用抗辯,認為對圖像的使用是為創建一個“全新的平臺”,該平臺不會以任何方式向用戶展示任何底層訓練圖像的表達18。
人工智能模型訓練是否符合目的性轉換使用的爭議實際上來源于轉換性使用概念的模糊性,以及利益雙方對人工智能模型訓練方式的認知差異。目的轉換性使用具有高度的抽象性與主觀性,使得著作權人、開發者對模型訓練的目的各執一詞而難以定分止爭。然而,合理使用的核心并不是創作者或者原作者的目的,而是受眾的認知[4]。任何一種論述在缺乏讀者視角的考察下都難以獲得有效支撐。目前,權利人對生成式人工智能模型的誤解大致有如下幾種:其一,模型是簡單的拼貼工具。開發者僅僅是下載并復制了圖像,并選擇其中的一兩個圖像進行復制或拼貼。然后創造出一個“新”作品,其中往往包含了所使用的可受著作權保護的部分19。其二,無論是圖像還是文字模型,本質上都是復印機。當一個圖像生成系統在數十億張圖片上訓練,并且該系統能創造出與訓練集中的圖像類似的新圖像時,這表明訓練數據中的某些圖像已經被系統復制或模仿[5]。而大型語言模型不僅可以提供原作品重要部分的逐字副本及摘要,還可以根據要求生成模仿特定作者寫作風格的段落。因此,其保留了訓練數據集中特定作品的知識,并能夠輸出類似的文本內容20。這兩種觀點都是對模型訓練過程的誤解,錯誤地將訓練視為一種單一且孤立的活動21。實際上,模型訓練是一個復雜的過程,它涉及多種因素和步驟,包括數據的收集處理、模型的構建、算法的應用以及模型性能的評估優化。在這個過程中,模型通過學習大量數據的特征來提高其生成新內容的能力,而不是簡單地復制或重復訓練數據中的單一實例。有必要澄清模型訓練過程,以判斷其是否符合轉換性使用的認定標準。
(二)是否構成對原作市場的實際替代
生成式人工智能模型能夠根據用戶的提示生成相應的內容,展現出極高的表現力。這種能力使得模型的市場在某種程度上與原作的市場存在相似性,可能會對原作的市場產生替代效應。因此,除轉換性與否的爭議外,生成式人工智能模型所具有的生成特性要求對其市場因素的影響進行更為細致的分析。著作權人普遍認為人工智能模型破壞了現有和潛在的作品銷售、許可和發行的商業市場22。因此,有兩方面對合理使用的認定存在不利。首先,人工智能模型直接輸出原作或衍生作品,可能造成對原作的替代。其次,訓練數據市場正在形成。這要求劃定潛在市場的邊界,即富有表現力的模型是侵占了作者有可能參與的市場,還是創造了一個作者權利不應壟斷的新市場。
針對問題一,模型訓練是否會剝奪作者目前所占據的市場。著作權人對于其高質量作品內容在未經許可的情況下被用于訓練人工智能系統,并被用來制造具有替代性和表現力的“產出”表示擔憂23。在音樂產業領域,出版商稱他們授權數字音樂網站、搜索引擎等服務商向用戶顯示歌詞,而人工智能模型與這些授權網站的功能完全相同,允許用戶查找和訪問出版物上的歌詞,形成了直接替代關系24。然而,這實際上是著作權人對模型訓練周期存在的誤解。模型可以被應用于多種用途,包括在搜索引擎中輔助搜索,根據用戶提示顯示檢索結果。這可能導致模型直接剝奪音樂出版商授權數字音樂網站、搜索引擎等服務商向用戶顯示歌詞的許可費用。但這種影響并非模型訓練本身直接造成,而是模型部署于具體應用程序中所導致的結果。不應無限制地延伸因果鏈,將任何模型應用不當都簡單歸咎于模型訓練。因此,對模型訓練更有力的挑戰是,著作權人聲稱生成結果是原作的直接替代品,導致了作品市場價值的損失。在《紐約時報》一案中,原告極力強調了其在制作高質量、原創性和獨立性新聞內容上的顯著投入,并解釋了通過實施付費訂閱墻和商業使用許可來回收這些成本的必要性。這些許可對使用內容和方式有嚴格要求,并為報社帶來顯著收益。而人工智能開發者卻無需承擔任何成本,就可以利用這些有價值的成果并從中獲利,這對新聞媒體造成了巨大的市場損害25。這無疑是對模型訓練最有力的抨擊。盡管模型訓練和模型輸出的合理使用分析需分別進行26,但模型的直接輸出會影響訓練階段合理性的判斷。即使模型訓練是為了有價值的轉換目的,這種使用也可能損害受版權保護的原創作品的價值。因為使用的方式可能導致原創作品中核心部分的廣泛傳播,從而使人們可以獲得一個具有重大競爭性的替代品。模型生成的侵權內容,究竟是訓練所導致的普遍結果,還是用戶在使用技術時的不當指示所導致的罕見錯誤,決定著模型訓練的合理性。
針對問題二,模型訓練是否構成潛在市場的威脅。在人工智能模型訓練當中,訓練數據的質量直接影響著訓練效果。基于此,著作權人主張應當采取自由市場談判的方式。人工智能開發者不僅要獲得事先許可,還要對創作者進行補償27。目前許多人工智能開發者未就其模型訓練中使用的表現性內容開展授權談判或獲得相應的使用許可,扼殺了作品作為人工智能訓練輸入的新興市場28。這實際上將模型訓練視作了人類創作的延伸。然而模型訓練與人類創作之間存在根本性的差異。人類創作的創作者通常會在獲得授權的基礎上,以現有作品為參照,創作衍生作品,這遵循一種明確的一對一、多對一或多對多的創作流程。相比之下,人工智能模型依賴于大量且多樣化的數據,這些數據不局限于特定的創作領域,表明訓練本質上是一個復雜的多對多的輸入輸出過程。若苛求模型訓練以許可為前提,那么勢必導致模型訓練市場的高成本、高壁壘,乃至阻礙整個市場的發展進程。目前僅存在許可市場的推測性證據,無法影響合理使用的認定。著作權法并沒有賦予著作權人利潤最大化的權利。權利人不能簡單主張對模型訓練收費的權利是一種可認知的傷害,因此為了避免此種傷害,他們必須被賦予對模型訓練收費的權利。同樣地,開發者也不能僅僅通過證明如果勝訴,他將無須向權利人支付費用,來證明潛在市場的影響不存在29。這種循環論證對任何一方都沒有任何好處,并將導致爭議的極端化。“潛在市場”不能被理解為版權作品的所有可能用途。如果每一種使用都被視作潛在市場的一部分,那么合理使用原則將會變得難以界定和應用。只有在市場是“傳統的、合理的或可能開發的”,而不是受保護的轉換性使用時,才會對被告的許可收入損失產生不利影響。這一點在Connectix案例中得到了體現,法院認為Connectix的虛擬游戲站提供了一種轉換性使用,它創造了一個新的市場,而不是簡單地取代了索尼PlayStation游戲機。盡管這可能會對索尼的銷售和利潤造成影響,法院仍然認為Connectix的產品是合法的市場競爭者。這表明著作權法并沒有給予索尼對播放其生產或授權游戲的設備市場的壟斷權30。同理,在人工智能模型的開發訓練中,權利人不能僅因為已經占據了書籍、繪畫、音樂等表達市場,就拒絕人工智能等新型表達工具的參與。開發者是否需要獲得許可取決于模型訓練是否能夠形成一個合理的、可能開發的市場。如果開發者使用作品的方式是著作權人本身不愿或無法采用的,那么這種使用不會對其造成損害[6]。因此,面對生成式人工智能對創作市場帶來的沖擊,我們仍需回應的是著作權法的核心宗旨是否僅限于保護傳統創作者的利益,還是應包容人工智能在創作過程中的角色。
三、美國人工智能模型訓練合理使用的解釋路徑梳理
美國多次運用合理使用原則以應對新技術所帶來的挑戰。合理使用的先例經驗使得美國技術開發市場更具有活力,促使技術公司和資本家對新技術進行投資,而無需擔心陷入著作權糾紛的風險。當然,部分案例則相反。對Napster這樣的點對點音樂共享技術,法院認為不屬于合理使用,而是剝削性的使用31。因此,有必要探討美國在認定創新技術整體復制作品構成轉換性使用時的標準與價值基礎。在此基礎上,進一步探究生成式人工智能模型訓練與其他作品使用行為的異同,找到生成式人工智能模型訓練合理使用的解釋路徑。
(一)模型訓練非以表達使用為目的
即使生成式人工智能的興起引發了對著作權法的挑戰,但該問題本質上并不是全新的。計算機技術的發展早已徹底改變了作品使用的方式。作品并不像以前那樣只能被人類復制、傳播,而可以被作為計算機技術開發的素材。在數字化的背景下,作品一旦被計算機復制,就會被用于一系列不同的目的。Kelly訴Arriba Soft Corp一案,Kelly所拍攝的照片被納入Arriba搜索引擎數據庫中,使用戶可以通過搜索查詢到這些圖片的“縮略圖”。法院認定Arriba對圖片的使用與Kelly對圖片的使用具有不同的功能,構成轉換性使用。攝影圖片是藝術作品,旨在為觀眾提供信息,讓觀眾獲得審美體驗。而在縮略圖中使用該攝影圖則與任何審美目的無關32。作家協會訴HathiTrust一案中,HathiTrust將數字化圖書用于三種不同用途:全文檢索功能、向閱讀障礙者提供原文、數字化保存。針對全文檢索功能,法院認為通過創建整本圖書的數字副本以允許用戶查找特定圖書中出現的單詞或短語屬于轉換性使用。一個單詞搜索的結果在目的、特征、表達、意義和信息上都與它所在的頁面和書籍不同。作者寫作的目的并不是使他們的書能夠進行文本檢索。因此,搜索功能不會取代原文表達33。馬修薩格(Matthew Sag)教授將此類使用稱之為“非表達性使用”。所謂的非表達性使用,指的是對作品進行的復制,其目的在于實現與作品的表達元素無關的特定功能,即這種復制不是為了創作、消費或傳播作品的表達內容34。與一般的轉換性使用不同,非表達性使用并不向公眾傳播原始表達,因此可以被視為目的轉換性使用的下位概念[7]。在合理使用第一要素的判斷下更強調使用目的的獨立性與正當性,即其目的完全脫離于原作表達價值,而不涉及對使用內容的判讀。在Thomson Reuters訴Ross Intelligence一案中,法院駁回了當事方要求對合理使用辯護進行簡易判決的交叉動議,并認為相關事實問題必須由陪審團決定。關于Ross使用Westlaw材料的目的和性質,法院認為這更類似于谷歌一案的技術背景。合理使用將取決于一個有爭議的事實:如果Ross通過研究Westlaw標題的語言模式以學習如何出具司法意見書,那么就是轉換性的復制。而如果Ross只是單純通過復制來達到表達再現的目的,則難以符合世嘉案、索尼案等確立的判例法。其次,即便Ross進行了全文逐字復制,合理使用的認定仍需進行具體分析。若整體復制與轉換性目的相關聯,且復制件不向公眾傳播,那么也利于合理使用認定35。這意味著,法院構建的合理使用評估框架基本與非表達性使用的判例相符。理解生成式人工智能模型的訓練方式對于合理使用的評估至關重要。
非表達性使用之所以構成合理使用,核心在于其并不妨礙版權旨在保護的原創表達利益。區別于作品的傳統用途,非表達性使用并未使人類從表達中直接獲得藝術體驗或知識增值,而是將作品轉換為素材,以非交流、非表達的方式使用作品。此種使用對技術開發尤為重要,最早出現于軟件逆向工程的合法性判斷中。正如世嘉一案法院所強調的,逆向工程是獲取軟件功能元素所必需的,并且復制世嘉公司代碼以符合游戲兼容要求,能夠促使Genesis游戲機上獨立設計的視頻游戲程序數量的增加。這就使得創造性開發與單純利用他人創造性努力的行為區分開來36。類似地,剽竊檢測工具iParadigms雖依賴于對學生論文的全部復制,但其對原作的使用與作品的比較價值有關,并沒有削弱對學生的創作激勵。在搜索引擎引發的系列案件中,法院強調作品被轉換為引導用戶訪問信息來源的指針,而不是復制作品作為供人欣賞的審美對象37。這些使用方式旨在實現作品本身所不具備的新用途,而這通常依賴于技術的顛覆性突破。人工智能模型訓練與以往的非表達性使用案例具有相似性。即使生成式人工智能本身具有強大的表現力,但模型訓練的提取目的有利于生成式人工智能的合理使用辯護。人工智能對作品進行復制是為了訓練模型,使其能夠進行預測、分類、標記、排序或生成內容。人工智能模型的搭建往往需經過較長的周期。開發者首先在大型數據集上進行預訓練,以創建基礎模型。而后,在更小、更優質的數據集上訓練,以適應特定的任務38。在預訓練期間,模型從輸入數據中學習基本模式,其目的是讓系統能夠執行一些基本的通用任務。例如,大型語言模型的預訓練任務包括“填空”,即向模型展示一份訓練文檔,并在文檔中遮蔽一個或多個單詞,模型需要學會準確預測這些被遮蔽的單詞。另外,還可以是“預測”任務,即給定一個句子,模型必須從多個選項中選擇出實際跟隨的下一句話。圖像生成模型則在訓練圖像中添加噪音,然后讓模型嘗試去除噪音以還原真實圖像。除此以外,模型還會學習如何將圖像標簽中的單詞與圖像中的相應物體聯系起來。正如谷歌數字圖書案一樣,模型并不是簡單地對所接觸的數據進行機械記憶。相反,它們從數據中學習潛在的模式、關系和結構,進而生成全新的句子、圖像等多樣的內容39。因此,模型并不是為了再現受版權保護的表達而設計的,而是利用訓練數據中所得出的抽象信息來創建新的、非侵權的內容。對人工智能而言,書籍在訓練過程中轉化為學習人類如何使用語言的“數據”,而非供人欣賞的“作品”[8]。這就無礙于原作品作為人類消費品的初始價值,并且能為人工智能創造力賦能。
(二)模型訓練非以表達傳播為結果
著作權法不是對表達的唯一的、專制的支配,而是為了防止原創表達在未授權或補償的情況下傳播給新的公眾[9]1906。美國聯邦最高法院在戈德史密斯案中對合理使用界限的重新審視體現出對表達替代的重視,要求評估被告的使用是否可能替代作者的原始表達,并以此作為衡量使用是否具有足夠轉化性的標準40。聯邦最高法院引用了谷歌圖書案的判決,稱重要的是使用目的是否有別于原作。僅僅在他人作品上添加一層新的表達或審美,并在商業背景下向公眾傳播,而沒有進一步的理由,不足以構成合理使用41。合理使用的抗辯與表達替代的風險相關,表達替代的可能性越大,越不可能構成轉換性使用。若將表達替代的風險視作一個可滑動的標尺,表達轉換性使用因其內容直接面向公眾,而具有較高的表達替代威脅,要求對其使用的數量和市場效果進行更詳細的分析。而非表達性使用既不以使用原作的表達價值為目的,又未向公眾傳播任何初始表達內容,表達替代威脅則相對低。作家協會訴谷歌一案中,第二巡回法院認為谷歌與HathiTrust的使用目的與行為效果相同,均在不傳播原作表達的情況下實現了作品新的功能。搜索與片段視圖功能僅能顯示有限的信息,無法成為原作的實質替代品42。因此,在審視非表達性使用的案例時,法院傾向于認為這類使用具有顯著的轉換性。主要是因為它們不向公眾傳達原作品的表達內容,從而不滿足公眾對這些內容的需求。與此相反,那些僅改變了作品傳播途徑的使用則具有高度表達替代風險。以Meltwater案為例,該公司在網絡上搜索新聞報道,并向其用戶提供報道節選的行為難以構成合理使用43。盡管Meltwater辯稱其將網絡上獲取的新聞用于信息定位工具,與其他非表達性使用案例具有相似性。但法院認為其實際上提供的是新聞剪報服務,而非旨在改善互聯網內容訪問的工具。其直接面向用戶轉載美聯社的文章,具有高度的表達替代性。另外,TVEyes錄制多個電視和廣播頻道的視聽內容,將這些內容導入數據庫,使其客戶能夠觀看、存檔、下載十分鐘的片段,并通過電子郵件發送給他人。第二巡回法院僅認可TVEyes為搜索而復制符合合理使用,而其觀看功能則超出了合理使用的范圍44。由此可見,法院在處理那些看起來與先前案例相似的案件時,對行為效果進行了區別評價。一些技術工具的具體使用對原作品的二次傳播性過于顯著,足以影響原作的市場或價值,而無法認定構成合理使用。
著作權法并不天然意味著對創新技術的否定。在諸多情況下,技術可以在內部利用現有作品,即不傳播作品以達到新的使用目的,從而在不削弱作品市場潛力的情況下推進著作權法的基本目的[9]。人工智能與以往的非表達性技術不同之處在于其直接向公眾提供輸出表達。這便要求對模型輸出究竟是全新的非侵權表達,還是對原始表達的替代進行判斷。然而,正如文本數據挖掘和其他非表達性使用的情況,模型訓練通常不影響著作權人向公眾傳播作品的權利45。這種使用方式更側重于從數據中學習模式和結構,而不是直接復制或傳播原始表達。在訓練過程中,訓練數據與模型最終生成的結果之間的聯系逐漸被淡化,使得模型能夠將所學知識轉化為創新的文本輸出。因此,輸出與任何給定輸入相似的情況將是罕見的[10]。人工智能模型不應被視為下一個Napster,一個簡單將作品輸入輸出的中間服務器。相反,它對輸入進行分析和理解,并生成獨特的內容。盡管人工智能模型能夠更高效、低成本地生成作品,并且進一步地與人類作者相競爭,但是新的表達輸出并非問題所在。人工智能模型更應被視為技術中立的工具。當用戶通過提示語反復誘導生成式人工智能生成特定作品的副本或衍生品時,應當是用戶而非開發者直接為該行為負責。相反,如果人工智能模型訓練后能夠復現訓練數據中的原始表達,且此種復現是普遍的和可預見的使用結果,那么模型訓練構成合理使用的辯護將不再成立[11]。基于模型通常不向公眾傳播原始表達,復制的全面性并不對合理使用的認定產生實質影響。大規模復制是訓練優質生成式人工智能模型的必要方式。在2017年Transformer模型發布之前,模型訓練都是在較小的數據集上進行的。例如,常用的判別式深度學習基準MNIST和CIFAR-10,包含6萬張標記圖像。相比之下,生成式人工智能的訓練數據集,如LAION-5B,則擁有數十億個訓練樣本。訓練數據越廣泛,越有助于降低生成式人工智能的錯誤率。當模型在大量相同作品的復制品上進行訓練時,由于重復性數據的強化,模型更容易學習到這些作品的特征,導致訓練結果的反芻[11]。因此,為解決該問題,人工智能開發者反而需要確保訓練數據集的足夠多元化,而非局限于公有領域。這為人工智能模型大規模復制提供了合法依據。
四、美國新興技術環境下合理使用認定的經驗總結
在人工智能生成作品的背景下,成功訓練一個人工智能模型需要使用數十億條內容。這比美國版權史上任何類似技術所涵蓋的作品數量都要多出許多數量級。與傳統的合理使用案件相比,模型訓練合理使用的認定對經濟的影響更大。合理使用制度無疑將決定人工智能的未來。然而,目前難以預測生成式人工智能究竟是成為人類創作的新工具,還是會導致創作的平庸化和單一化。盡管美國的合理使用體系與我國的制度存在顯著差異,但其在應對創新技術時開放與審慎并包的做法,對我們具有參考意義。
(一)開放立場:靈活解釋以適應技術創新
事實上,這不是合理使用制度第一次站在技術變革的交叉路口。1984年,錄像機的命運掌握在了美國最高法院手中。索尼案是一個標志性的法律案件,它不僅涉及消費者使用當時新興的錄像機技術在家中錄制電視節目以供日后觀看,即“時移”的合法性,而且還觸及了錄像機作為一種新技術在市場上流通的合法性問題。若法院支持電影制片廠的立場,索尼將不得不停止錄像機的生產,或者必須為每臺售出的錄像機支付版稅給電影制片廠。然而,美國最高法院并沒有這樣做。相反,其認定錄像機技術進行的是“大量非侵權使用”,家庭錄制是允許的合理使用46。雖然家庭錄像機已經過時,但索尼案為合理使用制度應對重大的技術變革奠定了基礎,促進了錄像市場幾十年的繁榮。
合理使用原則是協調著作權法和新技術有效的、靈活的工具。合理使用的重要功能之一是在著作權法中提供一種平衡機制,使其能夠解決新技術帶來的問題,而這些問題是立法機構無法或沒有考慮到的。在坎貝爾案之后,許多涉及新技術的版權案件中,法院通常對轉換性進行更寬泛的解釋,以涵括為新的目的而使用整個作品的行為。這是因為被告使用作品的目的并不是為了替代原作表達,而是為了實現一些原作所不能提供的新功能,這樣的使用不會損害原作的市場或價值。例如,Accolade公司復制世嘉公司的整個軟件程序;Arriba公司復制數百萬張圖片和網頁的全部內容;iParadigms復制大量書面作品的全部內容。這些行為均未產生表達替代效果,無礙于合理使用。而其他直接向公眾傳播原創表達的技術,法院往往認定整體復制難以構成合理使用。以“Napster案”為例,Napster服務器并沒有改變版權作品的使用,而是直接讓用戶通過交換獲得所需購買的MP3文件。因此,用戶大量且完整地復制版權作品更不利于合理使用的認定47。這表明如果將技術對作品的使用分為輸入和輸出兩個階段,輸入階段往往被允許使用的范圍更廣。具體在人工智能領域,則表現為:相比于模型生成階段,不以原作表達輸出為結果的模型訓練,可能被賦予更廣泛的作品使用自由。這是由于技術開發具有顯著的公共利益。為了給顛覆性技術開發留足充分的空間,在法律適用存在模糊性時,美國傾向于根據版權法的根本宗旨來解釋合理使用條款。合理使用原則的解釋適用呈現出對新技術的寬容態度,能夠避免在新技術造成的不可預見的情況之下對創造力的扼殺。
技術開發被給予喘息空間的同時,進一步為公眾帶來了巨大的利益。正如戈德史密斯一案法院所強調的,具有獨特目的的使用是合理的,因為它促進了版權的目標,即促進科學和藝術進步,同時又不削弱創作的積極性48。新技術通常對大量使用該技術的用戶的言論自由產生影響。相比于傳統的表達性使用,如批判、引用等,非表達性使用對創作激勵的影響更為間接和滯后,但同時也更加深遠。公眾不僅能直接受益于創新技術本身,還能在技術應用過程中獲得新的知識增值[12]。以圖像搜索引擎為例,其主要作用在于對互聯網及其相關網站上的圖片進行索引,并簡化用戶訪問和查找特定圖片的過程。通過高效的搜索機制,用戶可以快速定位到所需的視覺內容,從而極大提高了圖片資源的可用性和便捷性。隨著搜索引擎用戶基數指數級增長,這種技術應用又進一步推動了新知識的創造和積累。與搜索引擎類似,人類可以通過與人工智能互動獲取常識性知識。但人工智能的潛力遠不止于此。它還能夠極大激發和增強人類的創新能力。一是人工智能可以突破人類的慣性認知,提升藝術創作的想象力和創新性。二是作為先進的輔助創作工具,幫助提升藝術創作的效率,并使得更多的人參與到創作中來。更進一步地,人工智能,特別是生成式人工智能已經被視為了繼計算機之后的又一項革命性通用技術49。它所具有的快速迭代能力、廣泛的適用性、補充性創新的潛力將深刻地改變眾多產業格局,并成為推動整個經濟增長的新引擎。
新技術在對現有市場造成沖擊的同時,也帶來了新的機遇。新技術催生的作品市場常常成為版權所有者和技術開發者爭奪的對象。從歷史經驗看來,每當新技術出現、改變作品的使用方式從而使創新者獲益的同時,著作權人也意圖從創新性技術中獲得分配利益。然而,新技術開發往往不是從傳統版權產業開始的。著作權人在無法證明創新技術所帶來的直接市場替代效應的情況下,通常會主張自己因開發者未能支付許可費而遭受損失。即便如此,法院往往也會否認著作權人對新技術的壟斷權。以谷歌案為例,谷歌大規模數字化工作與傳統版權業者利益以及商業模式相沖突。作家協會認為谷歌侵占了他們進入許可市場的機會。然而,第二巡回法院駁回了該指控,并稱原作許可市場涉及的功能與谷歌提供的功能大不相同,原作市場不及于轉換性使用50。合理使用的靈活解釋能夠給予模型訓練市場充分的發展空間。目前,人工智能模型訓練建立在兩個前提之上。其一,算力的顯著提升,為人工智能模型的訓練提供了必要的計算資源。其二,關鍵技術的突破,使得人工智能能夠高效地處理和學習大型數據集,從而不斷優化模型的性能。因此,模型的整體能力并不是訓練數據中任何一個單詞或圖像的結果。人工智能模型依賴于訓練數據,但其生成的內容早已超越了訓練數據的范圍。互聯網上信息的多樣性和龐大規模既是訓練一個優質模型所必需的,同時也意味著對其中包含的每一個受版權保護的作品進行許可幾乎是不可能的。許可的交易成本過高,且難以確定單個作品作為訓練數據的價值。因此,人工智能模型訓練通常不被視為對現有市場的直接競爭,而屬于轉換性使用所創造的新市場的一部分。著作權人必須面對由人工智能所帶來的市場變革。盡管如此,合理使用原則也為著作權人提供了一定的靈活性。目前,多數國家在承認模型訓練屬于合理使用范疇的同時,也在探討如何彌補版權持有者可能遭受的損失。基于各自的司法傳統,這一實施路徑上呈現出差異化,但本質上具有相同的價值指向。對模型訓練持保守態度的歐盟為營利性的數據挖掘情形設定了選擇保留的機制。而以判例法為傳統、合理使用更為靈活的美國,在過往的判例中也將數據獲取的合法性納入合理使用評估之中51。面對人工智能所帶來的新挑戰,美國正致力于探究降低模型訓練侵權風險的技術風險緩解策略。這些措施旨在確保模型訓練順利通過判例法所形成的合理使用標準[13]。而對于那些高質量、難以公開獲取的數據,開發者也在謀求與版權持有者的合作之道。目前,谷歌已經與Reddit達成協議52,允許谷歌使用在線討論網站上的帖子來訓練其人工智能模型。通過谷歌產品匯集信息,使用戶能夠更便捷地訪問Reddit內容。同時,OpenAI與新聞集團達成合作53,獲得新聞集團主要新聞和信息出版物的訪問權限。除了提供內容外,新聞集團還將分享新聞專業知識,以幫助確保OpenAI的產品中呈現最高的新聞標準。二者的合作范疇不僅限于模型訓練,還包括了優質內容的生成傳播。不同于原有的二次創作市場,該市場的核心驅動力在于優化模型和增強用戶體驗。
(二)審慎考量:著作權人利益的必要保護
目前,關于人工智能模型訓練是否屬于合理使用的分歧較大,其本質上源于傳統版權業者對創新技術可能替代人類創作的擔憂。此種擔憂在傳統版權業者的利益驅動下被夸大化。《紐約時報》訴塔西尼一案中,《紐約時報》未經作者同意授權第三方將文章放入電子數據庫中,使用戶既能檢索文章,又能查看、打印或下載檢索到的文章。面對作者的指控,《紐約時報》警告稱,數據庫提供了長期累積的完整報紙內容。如果法院支持作者的主張,將導致電子歷史檔案中出現重大缺失,造成“災難性”的影響54。而如今《紐約時報》站在了技術發展的另一端。其在訴狀中極力強調新聞報道的創新難度與高昂成本,而將生成式人工智能視為威脅高質量新聞的侵權產品,特別還要求開發者承擔數十億美元的損害賠償責任,并銷毀所有包含《紐約時報》作品的訓練數據集和模型。《紐約時報》的態度轉變說明它并不總是重視技術的發展或者強調對著作權人的保護,而是將此作為一種推動商業利益的訴訟策略55。因此,任何制造緊張氣氛的擔憂都不應產生對合理使用判斷的實質性影響,對技術替代人類創造力的擔憂不應完全由著作權法來處理。在版權局最近發布的《版權和人工智能:數字復制品》報告56中,該機構承認人工智能的風格模仿能力對創作者可能造成的影響,但報告同時指出,目前沒有必要通過新的版權立法予以保護。同時,判例法中也體現審慎的態度。安迪沃霍爾基金會曾稱,如果法院要求其必須向戈德史密斯支付許可費用,則將阻礙新思想的表達和新知識的獲得,造成創造力的匱乏57。此種論斷被視為對原創作品價值的忽視。即使二次使用能夠帶來新的價值,但這并不意味著賦予使用人無視或損害著作權人利益的權利。轉換性使用一度被視為促進表達自由、豐富公眾認知的工具。美國聯邦最高法院在戈德史密斯案中的判決,傳遞了一個重要的信號,即對那些利用轉換性使用進行肆意藝術價值評判的判例進行糾偏。盡管沃霍爾的作品對當代藝術有著顯著貢獻,但這并不是決定性的。正如坎貝爾案所強調的58,重要的并不是二次使用所新增的表達,而是使用服務于一個完全不同的目的,否則任何二次使用都具有轉換性。同時,轉換性使用也并非判定合理使用的唯一標準,而是需要與其他因素綜合考量。合理使用仍應基于對作品表達替代的全面審查上。
技術本身的價值可能對合理使用產生影響,但并不是決定性因素。毫無疑問,生成式人工智能模型訓練構成合理使用有很好的政策理由。然而,合理使用并不是簡單作為實現更大利益的公共政策工具。合理使用的判斷應基于連貫的法律原則,而不是抽象的政策判斷[9]。目前,爭議雙方均能找到政策支撐,進行純粹的政策評估將使得合理使用的適用陷入過寬或過窄的境地。對創作產業而言,生成式人工智能是一把雙刃劍。生成式人工智能能夠提高創作的效率,為缺乏特定藝術能力的人提供創作的可能性。但同時,其又可能造成作品的同質化。然而,新技術本身就難以預測,甚至無法預測。尋求新的解決方案時應該保持謹慎,因為技術的迅猛發展可能使得這些方案很快變得過時或不切實際59。從技術發展視角出發,當出現新的技術時,美國往往遵循“先發展后治理”的路徑。面對模型訓練的合理使用爭議,美國不僅多次開展研討,給予利益相關者充分的表達空間,而且在訴訟中也多次要求當事人補充或修改訴狀以盡量還原事實細節。過往涉及創新技術的司法判例中,美國普遍強調法律的客觀性和一貫性,避免僅基于純粹的價值判斷來作出裁決。索尼案最深遠的影響在于拒絕以作品的使用是否能夠創造新的價值作為判斷“合理使用”的決定性標準,而承認純粹為個人欣賞而復制作品可以構成合理使用。HathiTrust案中第二巡回法院再次強調使用并不是因對“科學進步和藝術培養做出‘無價的貢獻’”而具有轉化性。轉換性是指提供與原作品不同的新功能,而不是替代原作品的作品60。這一點已經被應用于人工智能模型訓練的爭議案件中。Ross案法院承認在保護創作者和復制者之間做出選擇,以確定哪種做法更符合公眾利益,是一個復雜且具有挑戰性的問題。盡管人工智能技術帶來了顯著的利益和風險,但單獨評估這些利益可能并不充分。法院最終將該問題交由陪審團決定61。
盡管創新技術具有為社會帶來重大利益的潛力,法院仍需審慎地進行權衡,確保這些技術的應用不會侵犯著作權人的合法權益。第二巡回法院認為谷歌制作數字化副本提供搜索功能是一種轉化性使用62。一方面,該搜索服務通過向公眾提供有關原告書籍的信息,豐富了公眾的知識基礎。另一方面,盡管谷歌復制了原告作品的內容,但其目的并非取代原作的閱讀體驗或內容,而是為了實現不同的功能和效果。復制的方式并沒有造成原創作品中核心部分的廣泛傳播,從而使人們獲得實質性替代品。相反,一些表面上構成非表達替代的技術,實際上只是轉換了作品的傳播途徑。以非表達替代為核心的合理使用要求對使用行為進行更加細致、審慎的分析。由于生成式人工智能能夠像人類一樣輸出表達,表達替代的風險更大。并非所有生成人工智能模型訓練均能直接推定為合理使用。相較于傳統技術,生成式人工智能模型的訓練過程更為復雜且耗時更長,涵蓋了多個階段和眾多不同的參與者。區分訓練數據的不同用途及其在人工智能供應鏈各階段的作用變得尤為重要。相比于預訓練所形成的基礎模型,微調階段所使用的數據集往往更小,且通常是專門為特定應用任務特別定制的數據集。如果微調模型被明確設計為生成與訓練數據非常相似的內容,其結果可能會產生利用受保護表達方式的內容,從而侵犯該特定表達方式的市場。同時,基礎模型與微調模型的開發者可能為不同主體,其行為的目的存在不同。模型微調者可能消除基礎模型中設置的反侵權保護措施,造成模型高度預見性的侵權輸出,這就超出了合理使用的范疇。因此,透過合理使用原則,司法機構需對每個涉及人工智能模型訓練的案例進行細致的個案分析,并在必要情況下為創作者提供適當的補償。這比無條件地將所有人工智能模型訓練視為侵權行為更為合理和靈活。通過這種方式,法院可以更有效平衡版權保護與技術創新的需求。
五、結語
數字技術極大改變了作品的復制和傳播方式,也改變了作品的使用方式。在算力與技術的深度融合下,作品不再只能被人類復制并閱讀,從而導致傳統版權業者與技術開發者的利益分配之爭。人工智能模型以其對用戶定制化、交互性的需求響應,以及能夠創造出廣泛多樣、表現力豐富的內容,進一步加劇了這一矛盾。模型訓練的合理使用爭議本質上反映出傳統版權產業主體對模型訓練方式的認知偏差以及對市場收益的預期落空。為了使人工智能模型訓練的法律地位更加明確,可以將其納入美國判例法中已經形成的分析框架,特別是那些涉及非表達性使用的案例之下。人工智能模型訓練既不以表達使用為目的,也未向公眾傳播原作表達,難以構成對原作表達市場的替代。這一分析框架既摒棄了對商業性整體復制的一刀切否定,又保證了著作權人在原有表達市場的經濟效益,兼具靈活性與審慎性。同時,非表達性使用也與三步檢驗法具有一致性。以非表達為目的的使用,難以對原作品所形成的表達市場產生影響,也因交易成本過高而難以形成著作權人應當控制的新市場,因此不影響作品的正常使用。另外,其限于非向公眾傳播表達的技術使用,兼具公共利益,損害不至于達到不合理的程度。目前,人工智能模型訓練難以被直接解釋納入我國現有的合理使用法定類型中。與人工智能模型訓練相近的條款僅有“個人學習、研究”型與“科學研究”型合理使用。“個人學習、研究”型中的“個人”難以擴張至企業,商業性使用也無法歸屬于學習、研究的目的。雖然“科學研究”型合理使用限定了復制行為應在“少量”的范圍內,但并未提供具體的量化標準。可以考慮將“少量”擴張解釋為符合使用目的的有限使用,同時將“科學研究”的范疇擴展至以營利性為目的的使用,并通過三步檢驗法的后兩步對其加以限制。但此種解釋路徑可能會導致法律條文內部的矛盾和法律體系的不穩定,僅能作為臨時應對之策。我國可以在《著作權法實施條例》中增設計算機分析的合理使用類型,并通過三步檢驗法予以限制,以實現著作權人利益與技術開發者利益的平衡。
參考文獻:
[1] GRMMELMANN J. Copyright for literate robots[J]. Iowa Law Review, 2016, 101(2): 657?81.
[2] SAMUELSON P. Unbundling fair uses[J]. Fordham Law Review, 2009, 77(5): 2602.
[3] SOBEL B L W. Artificial intelligence's fair use crisis[J]. Columbia Journal of Law and the Arts, 2017, 41(1): 57.
[4] HEYMANN L A. Everything is transformative: fair use and reader response[J]. Columbia Journal of Law and the Arts, 2012, 31(4): 448.
[5] MURRAY M D. Generative AI Art: copyright infringement and fair use[J]. SMU Science amp; Technology Law Review, 2023, 26(2): 264.
[6] SAG M. God in the machine: a new structural analysis of copyrights fair use doctrine[J]. Michigan Telecommunications and Technology Law Review, 2005, 11(2): 93?392.
[7] SAG M. The new legal landscape for textm mining and machine learning[J]. Journal of the Copyright Society of the USA, 2019, 66: 320.
[8] LEVENDOWSKI A. How copyright law can fix artificial intelligence's implicit bias problem[J]. Washington Law Review, 2018, 93(2): 625.
[9] SAG M. Fairness and fair use in generative AI[J]. Fordham Law Review, 2024, 92(5): 1899?1906.
[10] LEMLEY M. How generative AI turns copyright law upside down[J]. Science and Technology Law Review, 2024, 25(2): 192.
[11] SAG M. Copyright safety for generative AI[J]. Houston Law Review, 2023, 61(2): 312?327.
[12] LEE E. Technological fair use[J]. Southern California Law Review, 2010, 83: 820.
[13] HENDERSON P, LI X C, JURAFSKY D, et al. Foundation models and fair use[J]. Journal of Machine Learning Research, 2023, 24(400): 1?76.
The American Experience of Measuring Fair Use in AI Model Training
Xiong" Qia,b, Chen" Ziyia,b
( a. Law School; b. Research Center for Judicial Protection of Intellectual Property, Huazhong University of Science and Technology," Wuhan 430073, China)
Abstract: AI models rely on the replication and analysis of many works, which has led to conflicts between copyright holders and the demands of AI training. The reason for the current controversy lies in the lack of understanding of artificial intelligence model training and the failure of copyright owners to achieve profits in emerging markets driven by technology. In U.S. judicial practice, the fair use doctrine has been applied in areas such as software reverse engineering and full-text digitization. This experience of interpreting new technologies in a way that allows room for development reflects a judicial tolerance for innovation. Although the United States has not yet come to a definitive conclusion on the controversy over AI model training, its historical experience suggests a trend towards adjudicating it as fair use. Such experience can help us balance the relationship between technological innovation and copyright protection, and reconcile the relationship between old and new industries.
Keywords: artificial intelligence; model training; fair use; non-expressive substitution