關鍵詞:生成式人工智能;數據訓練;合理使用;版權侵權
一、問題的提出
近年來,方興未艾的人工智能技術發揮出“頭雁”效應,引領著新一輪的科技革命和產業變革。生成式人工智能并非對現有數據進行簡單的分析或分類,而是能夠獨立生成并創建全新內容。從運作機制來看,生成式人工智能通過數據的投喂和訓練建立算法模型,并在迭代訓練的過程中不斷完善輸出結果,最終形成滿足用戶需求的架構設計。以ChatGPT為例,其使用的“大型語言模型”在Common Crawl等大型數據集的基礎上,對語言規則、語義知識和上下文語境等因素進行學習。經過預訓練、優化訓練等數據處理后,ChatGPT能夠掌握數據蘊含的結構和規律,并完成各種文字和推理任務,如問答、寫作、翻譯等。因此,海量數據的輸入是釋放人工智能的潛力的先決條件,其不僅有助于搭建基礎模型本身,還能用于模型的優化微調,以貼合廣泛的下游任務。自2022年底以來,包含OpenAI公司、谷歌公司在內的生成式人工智能運營商(AI運營商)投身于AI研發,利用大規模和高質量的數據訓練大型模型,并在此基礎上構建ChatGPT和Bard等產品。現階段的生成式人工智能不僅能生成文本、音頻、圖像和視頻四種基本內容形式,還能在此基礎上進行跨模態生成,帶來創新應用藍海。
隨著生成式人工智能處理信息方式的多元化,模型訓練過程涉及到的數據數量和種類也日益增多。然而,訓練數據中的大部分材料來自于受版權保護的作品,AI運營商在利用作品時存在版權侵權風險。具言之,在輸入階段,AI運營商需要將他人文字、聲音或圖像等多種版權作品輸入到數據庫,以供人工智能復制并輸送給模型學習。該過程受到版權人復制權的控制。在輸出階段,通過算法設計和程序運行,生成式人工智能模型對版權作品進行綜合性的使用,實現“洗稿”“重混”“融梗”“拼湊”等創作物生成活動。此時如果生成物包含了他人作品或者作品片段的獨創性表達,AI運營商則涉嫌侵犯版權人的復制權和傳播權。
至今,已有相當一部分AI運營商被卷入版權爭端的漩渦。2023年1月,漫畫家莎拉·安德森(Sarah Andersen)聯合另外兩位藝術家向美國加利福尼亞北區聯邦地區法院提起訴訟,追究Stability AI等公司的版權侵權責任(以下簡稱安德森案)。原告在起訴狀中指稱,StableDiffusion等AI繪圖軟件先對作品進行了復制,再均勻擴散到最終的生成圖像的畫素之上,從而生成了與原作具有競爭關系的演繹作品。因此,被告涉嫌侵犯原告作品的復制權、演繹權、發行權、表演權和展示權。該案發生后,其它知名AI運營商也相繼深陷集體訴訟和作家的個人起訴,包括崔布雷等訴OpenAI案(以下簡稱崔布雷案)、蓋帝圖像公司訴Stability AI案(以下簡稱蓋帝圖像案)、J.L.等訴谷歌案、環球音樂集團訴Anthropic案(以下簡稱環球音樂案)、紐約時報訴OpenAI案、哈姆扎等訴Dudesy公司等案。與“安德森案”類似,這些訴訟的指控內容和舉證過程也主要集中在AI運營商對版權作品的非法使用。
可以預見的是,隨著生成式人工智能行業的不斷發展,大量此類版權侵權訴訟將涌入我國司法領域。2024年2月,我國廣州互聯網法院已針對一起AI運營商侵犯他人版權的糾紛(以下簡稱奧特曼案)作出判決,認定被告侵犯了作品的復制權、改編權和信息網絡傳播權。基于生成式人工智能的技術特性,訓練數據的質量直接關系著其最終的性能。數據的自由獲得和使用是通過深度學習來發展人工智能的前提和關鍵。為避免法律對市場競爭與技術發展造成過度制約,有必要從科技向善的角度出發,分析數據訓練過程中的版權侵權風險。鑒于此,本文試圖從生成式人工智能數據訓練的版權法正當性出發,分別探討數據輸入階段使用作品的合理使用認定,以及數據輸出階段AI運營商的侵權責任問題,進而對我國司法實踐提出相應建議,以期實現版權保護與公共利益之間的平衡,并為生成式人工智能治理提供有益思路。
一、生成式人工智能的數據訓練在版權法中的合法性
版權法除保護作者版權和版權有關的權益之外,還旨在鼓勵作品的創作和傳播,并促進社會主義文化和科學事業的發展與繁榮。從功利主義的角度出發,版權法的首要目標是實現社會整體福祉的最大化。版權法的經濟合理性不在于一味地對創造者的勞動進行獎勵,而在于通過適當的激勵來確保人們從事創新活動。正是出于社會利益最大化的考量,版權法通過合理使用、法定許可等制度對版權人的權利進行限制。適當的限制不僅能夠激勵作品的創作和傳播,還能夠保障公眾獲取作品的能力,進而維系版權人與公眾之間的利益平衡。
生成式人工智能的發展演進和應用現狀亦體現了數據訓練對公共利益的促進。龐大的數據賦予了生成式人工智能強大的語言理解和生成能力。通過即時的數據分析和信息傳遞,數據訓練能夠有效促進智力成果的轉化和技術的進步,從而推動社會繁榮。例如,ChatGPT在對維基百科、Common Crawl等數據集學習后,能夠作為聊天機器人生成個性化回答,減少人類獲取優質信息所需的時間和精力。又如,Stable Diffusion等人工智能從訓練數據中提取作品的信息特征,從而根據用戶的提示詞生成文字、圖畫、歌曲等創意內容,極大地激發了人類的創新。目前,生成式人工智能已逐步滲透到人類生產和生活的各個環節,其大規模應用已成為一種必然趨勢。醫學、化學、物理學等領域都逐步建立高質量的專業數據集,并利用預訓練模型開展探索,在提高科研效率和準確性的同時催生更多創新。可見,數據訓練促進了知識的獲取、利用和傳播,并驅使科學、商業以及社會的變革,最終促進社會總體福利增長。
數據訓練是人工智能研究的核心階段,決定了算法模型的搭建和輸出內容的質量。無論是運用作品進行模型訓練,還是利用所得模型進行內容生成,都會產生相應的侵權風險。但是從維護版權人個人利益與社會公共利益間平衡的角度,授予版權人的專有權不應妨礙社會對作品傳播和利用的需求。缺乏優質的訓練作品會降低人工智能生成內容的質量和預測的準確率,嚴重制約技術創新與文化繁榮,進而減損社會福利。此時,適當限制版權人的專有權亦有利于彌合版權法保護版權人利益和促進公共利益的立法目標抵牾。
生成式人工智能的研究和創新在很大程度上依賴于文本與數據挖掘技術(Text and Data Mining,以下簡稱TDM)的應用。TDM是旨在從數字形式的文本和數據中提取信息的計算機處理技術。只有通過TDM對大量數據進行分析,人工智能才能挖掘數據中隱含的價值,從而實現深度學習。近年來,不少國家和地區都積極修訂法律.將滿足一定條件的TDM納入合理使用。例如,歐盟在2019年發布的《數字化單一市場版權指令》中新增兩項TDM例外,包括科研及文化遺產機構以科學研究為目的的TDM行為(第3條)和以TDM為目的復制和摘錄合法獲取的作品或其他客體的行為(第4條)。該兩項規定增強了科學研究中獲取版權作品的便利性,以此釋放文本與數據的潛力,并達到激勵創新的效果。又如,日本在2018年對《日本著作權法》進行修訂,旨在掃除法律對人工智能技術發展形成的阻礙,以確保AI和大數據行業的發展。該法確立了TDM例外的多項合理使用條款,包括“不以享受為目的的作品使用”(第30條第4款)、“計算機利用作品時的附隨性使用”(第47條第1款和第2款)和“利用計算機進行信息處理并向公眾提供處理結果時對作品進行的輕微使用”(第47條第5款)。考慮到TDM技術對人工智能應用與發展的重要性,英國在2022年公布的改革提案中也有意擴大TDM例外的范圍,將非商業性目的的TDM涵蓋在內,體現出了對新技術的包容和支持。
我國《著作權法》并沒有為TDM專門設立版權例外條款,因此,如何應對生成式人工智能數據訓練引發的一系列版權問題,并調和技術發展與權利人的利益沖突,是當前司法實踐亟待回應的問題。數據訓練的版權法正當性并非一概而論,而需要根據生成式人工智能的具體性質進行個案分析。AI運營商開發的人工智能產品可以包含版權合規型AI和版權違規型AI。版權合規型AI,通常指生成非侵權內容的生成式人工智能,其生成的內容往往與在先的版權作品不存在實質性相似。該類AI能夠實現社會福利的最大化,亦與版權法的立法目的相契合。版權違規型AI,通常指生成侵權性內容,且生成內容本身不構成特定合理使用情形的生成式人工智能。公共利益的實現并不意味著過多的讓步,而是對版權人的權利進行適當限制,最終實現版權人利益和公共利益的平衡。版權違規型AI的應用會對版權人造成實質性損失,這與版權法激勵創新的宗旨背道而馳,因而不具有版權法意義上的正當性。
三、數據輸入階段的合理使用認定
在司法實踐中,法院通常根據四要素標準對合理使用抗辯的有效性進行評估。四要素標準來源于美國版權法,其規定了四個在判斷合理使用時可供司法者考慮的要素,具有高度的靈活性。四要素標準包括作品使用行為的目的和性質、被使用作品的性質、被使用部分的數量和質量、使用行為對作品潛在市場或價值的影響。
(一)作品使用行為的目的和性質
1.對轉換性使用的分析
自坎貝爾訴艾克夫柔絲音樂公司案后,轉換性使用成為美國法院判斷合理使用的核心。轉換性使用的內涵被界定為:新作品的目的并非為了取代原作品,而是向原作品中加入了新表達、新含義、新信息,使其目的或性質得以轉變,以達到版權法擴充公眾知識的總體目的。換言之,如果被訴侵權行為對原作品添加了新的價值,那么這正是合理使用原則為了社會利益而要保護的行為。
就版權合規型AI而言,數據的輸入并非為了再現原作本身的文學或藝術價值,而是為了提取作品元素進行深層理解,通過學習、模仿人類作品以輸出不同于原作的新內容。該類人工智能的應用能夠繁榮文化市場,從而滿足社會公眾對知識和信息的需要。美國司法實踐已經明確,如果向機器輸入作品的目的是為實現不同于原作的公共利益功能,那么該數據輸入行為具有轉換性。在美國聯邦第二巡回上訴法院2015年判決的作家協會訴谷歌公司案(以下簡稱谷歌案)中,谷歌公司以提供檢索和片段瀏覽服務為目的將大量的圖書進行掃描和數字化,該數據輸入行為被認定為具有轉換性。通過掃描圖書得到的數據集可以實現檢索功能,使得用戶能夠對電子書中的特定詞匯或短語進行定位。片段瀏覽功能可以向用戶展示與搜索詞相關的上下文片段,進而評估這本書是否在用戶的興趣范圍之內。因此,法院認定谷歌公司向機器輸入版權作品的目的、性質、表達、意義和傳遞的信息都與原作有所不同,應構成轉換性使用。與谷歌數字圖書類似,版權合規型AI會將輸入的數據轉換為AI系統可讀取的格式,進而學習作品的語言模式、數據分布或曲式結構等特征,最終創造出新的信息。這種作品使用方式也被稱為“非表達性使用”,其復制目的并不是為了讓人類進行享受、欣賞或者理解,因而在目的和功能上發生了轉換。同時,在采取算法優化、關鍵詞過濾、結果過濾等版權過濾措施后,版權合規型AI的生成內容通常不會與原作構成相似,難以構成有競爭性的原作替代品。在此情況下的數據輸入行為是為了開發出一種接近人類的智能,讓更多的人能夠接觸和利用技術,進而實現公共利益的最大化,具有較高程度的轉換性。
目前來看,AI運營商開發的產品大多屬于版權合規型AI,其應用對創作方式的變革和信息傳播的促進都具有積極作用。例如,在蓋帝圖像案中,被告利用大量圖片對圖像生成式人工智能進行訓練,通過擴散和解碼等方式使模型學習與圖片描述相關的潛在特征。如果被告在作品知名度、主題多樣性和模型大小等方面采取了技術措施,那么輸出結果極小概率會與原作構成實質性相似。此時,作品的復制件與原作服務于不同的功能,且不會構成實質性的替代。數據的輸入是為了推出一個高性能的創作工具,并廣泛應用于圖像的生成、修復、去噪與超分辨率成像等領域,應構成轉換性使用。又如,在崔布雷案中面臨侵權指控的ChatGPT產品亦有可能屬于上述的版權合規型AI。該案中,OpenAI公司將原告作品作為ChatGPT訓練數據集的一部分,讓模型對其中蘊含的模式和特征進行記憶。這使得ChatGPT模型能夠有效理解人類語言和知識,進一步分析用戶需求并生成適當的回復。同時,在算法設計下,ChatGPT輸出文本時并不會照搬語料庫的內容,而是會進行重新表述。隨著ChatGPT逐步滲透到人類生產和生活的各個環節,它不僅為用戶帶來了個性化的內容服務,還提高了人類工作效率,節省了時間和人力成本。因而OpenAI公司的數據輸入行為應構成轉換性使用。
與版權合規型AI不同,版權違規型AI的生成內容大概率與原作構成實質性相似。這種作品利用行為可能對版權作品造成實質性的替代,因而不具有轉換性。例如,在環球音樂案中,Anthropic公司開發的人工智能Claude有可能屬于版權違規型AI。當Claude被問及歌曲的具體歌詞時,其通常輸出與原作歌詞完全一致的復制品。當用戶要求Claude創作歌曲時,Claude也并沒有生成原創的歌詞,而是生成了他人歌詞構成實質性相似的文本內容。這些事實表明,Claude生成的內容大概率會再現原作的表達。若生成物的侵權具有頻發性,則Anthropic公司的數據輸入行為不具轉換性。
2.對商業性要素的分析
第一要素還需考慮使用行為是否具有商業性。使用行為越具有轉換性,商業性因素在合理使用判斷中的重要性就會越小。同時,如果商業性使用行為有助于實現版權法所承認的公共利益價值,那么公共利益價值的保護位階優先于版權人的利益價值,足以減少商業性因素帶來的不利影響。在谷歌案中,谷歌公司能通過掃描圖書所實現的功能增強自身市場支配地位,從而獲取間接利益。但法院認為,當轉換性使用展現出社會效益時,谷歌公司的商業動機并不能撼動其合理使用的認定。AI運營商同樣具有商業性,能夠通過向用戶提供收費服務和銷售人工智能軟件等方式獲得豐厚利潤。但由于數據輸入行為的轉換性程度較高,并能為公眾帶來充分的社會利益,此時商業性不應當影響合理使用的認定。
綜上,在輸入階段,AI運營商在訓練版權合規型AI時的數據輸入行為通常具有高度轉換性。同時,生成式人工智能服務于公共利益的屬性也應足以壓倒商業目的帶來的不利影響,因此第一要素有利于合理使用的構成。
(二)被使用作品的性質
第二要素關注被使用作品的性質,包括作品屬于“事實性作品”抑或是“虛構性作品DbOlKPVDnSO+UY6mxzayZ1cJswaVPtFTmgzq05xV/Jg=”,以及屬于“已出版作品”抑或是“未出版作品”。但第二要素并非合理使用的決定性要素。該要素的判斷依附于使用行為的轉換性程度,當使用行為服務于高度的轉換性目的時,第二要素起到的作用微乎其微。在谷歌案中,法院認為由于谷歌公司的掃描行為具備轉換性,因而無論被掃描的圖書是小說作品還是事實作品,都不會影響合理使用的認定。與谷歌案相似,生成式人工智能獲取作品的途徑包括開放性數據庫、網絡爬蟲以及用戶上傳等,因而涵蓋了各種類型的作品。但是當數據輸入行為展現出較高程度的轉換性時,被輸入作品的性質不應當影響合理使用的認定。
(三)被使用部分的數量和質量
第三因素考慮的是作品被使用部分的數量和質量。對版權作品的使用應當以“沒有超過必要的限度”為標準。首先,合理使用不以少量使用為前提。如果使用行為是為實現轉換性目的所必需的,那么大量使用也能構成合理使用。其次,該要素關注使用行為令公眾接觸到的數量和實質內容,是否使其可能成為一個競爭性的替代品。在谷歌案中,法院認為就搜索功能而言,對書籍進行整體復制是必要的,否則搜索結果無法將關鍵詞出現的次數準確地告訴用戶。就片段瀏覽功能而言,谷歌公司通過黑名單的設置,確保了用戶所獲取的文本并不屬于作品“實質的內容”,即無法達到具有競爭性的程度。因此,谷歌公司的作品使用行為能夠通過第三要素的檢驗。同理,生成式人工智能對版權作品的整體復制也服務于其高度的轉換性。只有對版權作品進行盡可能完整的復制,才能夠確保輸出結果的準確性、適當性、安全性和實用性。不僅如此,人工智能并不能像人類一樣直觀地對信息進行判斷,只能將信息分解后再分析。為避免因樣本缺失而導致輸出結果出現算法偏見或過擬合現象,也有必要通過更加平衡和多樣化的訓練數據以提高生成物的質量和公平性。同時,版權合規型AI的生成內容和訓練數據之間通常不構成實質性相似。公眾通常無法接觸版權作品的表達性內容,輸出內容也難以成為針對原作的競爭性替代品。綜上,第三要素有利于數據輸入行為構成合理使用。
(四)使用行為對作品潛在市場或價值的影響
合理使用的第四要素不僅考慮被控侵權人特定行為對傳統營利市場造成的損害程度,還應考慮其行為是否會對原作潛在市場造成實質的不利影響。關鍵在于,若復制件為原作帶來了競爭性替代的風險,從而剝奪版權人的實質性收入,則使用行為不宜構成合理使用。同時,第四要素的分析與第一要素也密切相關,使用行為的轉換性程度越高,復制件構成實質性替代的可能性越小。
版權合規型AI生成物與原作之間的相似性很小,因而難以構成有競爭性的原作替代品,亦不足以減損版權收入。例如,ChatGPT的摘要功能只會對書本劇情進行簡單概括,而并不涉及完整的段落或章節。片段化的內容呈現無法向使用者傳遞作者的思想感情,在客觀上亦不足以對原作市場價值或產品銷路造成實質性影響。需要指出的是,“競爭性替代”是針對表達的替代,并非針對思想的替代。近年來,不少生成式人工智能具備模仿藝術家獨特風格進行創作的能力,但對于風格模仿是否會削弱原作市場的問題,始終存在一定爭議。在谷歌案中法院提出,原作的市場只會延及到版權保護的表達。當用戶試圖通過片段瀏覽功能了解歷史性事件時,作者的版權并不會延及到其書中所包含的事實,這不會讓谷歌公司的掃描行為構成侵權。同理,盡管人工智能會在學習過程中提取作品的風格與特定表達,但生成內容并不會涉及原作的獨創性表達。根據思想與表達二分法,風格等高度抽象的思想屬于非表達性要素,本應被劃定在公有領域并允許其他人自由使用。如果認為作品的原初價值涵蓋風格等作品內容,那么這會極大阻礙人工智能產業實踐的創新。因此,即便人工智能能夠輸出與特定作家風格相似的新內容,其亦不屬于原作市場的范疇,不能成為否認合理使用的理由。
判斷使用行為是否對原作潛在市場造成影響,還需要分析其是否會形成許可市場。作品的許可市場屬于潛在市場的一部分,若作品使用行為不會形成許可市場,則有利于合理使用的構成。在“谷歌案”中,假設谷歌公司需要向所有圖書的版權人尋求許可,所耗費的成本將導致該商業模式無法生存,進而阻礙公眾對信息的獲取,原告對于許可市場的主張也因此被法院否認。同理,機器學習所需的數據浩如煙海。若AI運營商需要針對數據庫中的每一件作品獲取許可并支付報酬,其中的費用成本過于巨大,且從現實角度出發也難以執行。因此,人工智能的數據訓練并不存在許可市場,引入合理使用規則亦不會影響到版權人通過許可獲得的經濟利益。
基于上述對合理使用四要素的分析,筆者認為,AI運營商為訓練版權合規型AI的數據輸入行為構成合理使用。同時,構成合理使用的關鍵在于使用行為對公共利益的實現。因此,版權法為權利人所提供的保護不應影響社會公眾及技術創新對作品的合理需求,訓練版權合規型AI時的數據輸入行為宜被認定為合理使用。
四、數據輸出階段的侵權責任認定
人工智能生成物的侵權判斷采用“接觸+實質性相似”規則,但生成內容與原作品構成實質性相似,并不意味著AI運營商必然構成侵權。首先,與生成內容存在實質性相似的作品可能是超過保護期限而進入公有領域的作品。其次,作品版權人可通過知識共享許可協議等方式許可他人在授權范圍內對作品進行使用。當版權人沒有明確做出許可的意思表示時,使用作品行為仍可能滿足適用默示許可的條件而無需版權人授權。最后,生成內容可本身構成特定的合理使用情形,諸如批評、評論、滑稽模仿、挪用藝術等。對于上述三種情形,即便生成內容和在先作品構成實質性相似,但都不構成侵權內容,AI運營商亦無需承擔責任。
在生成物構成侵權內容的情形下,AI運營商需承擔損害賠償責任,該責任的確定應適用過錯責任原則。如果AI運營商不存在過錯,那么法院可以免除其賠償責任。從促進人工智能行業發展和公共利益最大化的角度出發,使無過錯的AI運營商免于承擔賠償責任,也能夠避免給技術的應用和發展帶來不合理的經濟負擔。過錯的判斷需要考慮AI運營商是否盡到了合理的注意義務,包括是否采取了事前預防措施和事后糾正措施。
在事前階段,AI運營商應采取版權過濾措施,即在現有技術條件下對生成內容的質量進行把控以避免侵權結果發生。在利用過濾技術的情況下,人工智能生成侵權內容通常具有偶發性。即便輸入行為引發了侵權,但AI運營商已經做到在技術層面人為強化訓練數據和生成內容的差異,并不存在過錯。若AI運營商未盡到現有技術水平相應的結果避免義務,即未采取有效的版權過濾措施,則說明其應當能夠預知到潛在的版權侵權風險卻未加以防范。若生成內容大概率與版權作品構成實質性相似,法院甚至可能認定AI運營商存在侵權的惡意,從而適用懲罰性賠償。
要強調的是,版權過濾措施的采取應當以現有技術為標準。盡管企業能夠通過算法設計或訓練數據選擇等版權過濾措施盡可能避免侵權,但在算法黑箱下,企業只能通過觀測輸入和輸出結果判斷人工智能的合理運行。AI運營商無法對模型訓練涉及的數據進行精準審核,亦無法保障輸出內容百分之百的合乎版權法要求。考慮到輸入數據的龐大性和算力的復雜性,法院應當按照損害結果發生時的技術水平來判斷AI運營商是否盡到了必要的義務,以及是否排斥侵權結果的發生,而不宜過度加重AI運營商的義務。
在事后階段,AI運營商應盡的注意義務主要在于版權糾正措施的實施。第一,AI運營商在提供服務時應建立舉報投訴機制,從而更有效地預防侵權。人工智能可以在短時間內生成大量內容,直接進行人工審查的成本過高。考慮到技術的可行性,通過用戶或版權人發出侵權通知的方式來發現侵權情形,再由AI運營商采取相應措施,是必要的制止侵權方式。例如在“奧特曼案”中,被告經營的網站生成了與涉案奧特曼形象構成實質性相似的圖片,缺乏投訴舉報機制則是法院判定被告存在過錯的主要因素之一。法院認為,被告在經營網站時未能建立任何的投訴舉報機制,導致版權人難以通過投訴舉報的方式維護權利,這證明了被告作為服務提供者未盡到合理的注意義務。因此,在人工智能生成內容可能侵犯他人版權的情形下,AI運營商應建立舉報投訴的渠道,以保障版權人的利益,并盡可能地減少侵權行為帶來的不利影響。第二,在接到侵權通知后,AI運營商應在合理期限內進行相應的算法糾正。人工智能生成內容具有高度的隨機性,其很有可能會再次生成侵犯同一版權作品的新內容。僅僅移除特定侵權內容無法有效消除版權人的損害,只有采取相應的補救措施對算法進行及時修正,才能夠獲得相對穩定的輸出結果。基于此,為有效打擊反復侵權的問題,AI運營商的義務不能僅限于對侵權內容進行移除,還應當采取更為積極的管控措施。具言之,AI運營商應在接到侵權通知后運用刪除侵權數據、重新訓練、干擾學習等技術方法,以防止侵權內容的再次生成和擴散。
五、對我國司法實踐的建議
從上文的分析可得,輸入階段主要涉及AI運營商在訓練模型時的數據輸入行為,而合理使用制度是證成數據輸入合法性的重要支撐。基于生成式人工智能公共利益屬性,數據訓練可以通過四要素的檢驗方式構成合理使用。盡管我國《著作權法》第二十二條對合理使用采取半封閉式的立法,但司法實踐已展現了突破法律對合理使用情形進行適當擴展的可能。同時,最高人民法院也通過司法政策的頒布,允許法院在必要時借助四要素標準認定合理使用。為提高訓練數據質量、增強生成式人工智能實用性并促進相關產業的發展,我國法院應在司法實踐中進一步吸收和借鑒四要素判斷規則,辨明合理使用制度是否能成為輸入階段AI運營商侵害版權的抗辯事由。
目前,為適應時代要求并克服條文適用僵化的困境,已有部分法院引入四要素標準對合理使用行為進行靈活認定。例如,在北京市高級人民法院審理的王莘與北京谷翔信息技術有限公司等案中,法院運用四要素標準進行說理,包括使用作品的目的和性質、受著作權保護作品的性質、所使用部分的性質及其在整個作品中的比例等。據此,法院認為涉案網站對圖書采取的片段式使用方式不會再現原作的表意功能,還為公眾提供了更為便捷的信息檢索服務,因而在功能和目的上具有轉換性。盡管被告對圖書的使用未事先獲得原告許可,但其并不會損害原告的合法利益,也不會對原作市場造成不利影響,在充分考量公共利益后,應認定構成合理使用。從該案可見,我國法院在面對保護版權人利益和促進作品傳播的沖突時,將社會公共利益作為重點考量因素,從而滿足公眾對作品的合理需求。人工智能所發揮的社會功能也能夠極大地促進公共利益,人工智能的監管不能以犧牲或放棄技術發展為代價。為適應科技進步和經濟社會發展形勢需要,我國司法裁判應允許AI運營商在未經版權人同意的情況下,以訓練版權合規型AI模型為目的使用版權作品。
在基于四要素標準認定合理使用時,我國法院不應將使用目的嚴格限于“非商業性”。實踐中,商業性的公司AI運營商是開發和使用人工智能技術的主力軍。如果以商業性因素對主體范圍進行約束,則會極大地壓縮技術發展和創新的空間,影響人工智能產業的健康發展。同時,法院應利用轉換性使用的概念解釋數據輸入行為。目前我國法院借助轉換性使用概念進行審理的案件并不在少數。例如,在上海美術電影制片廠與浙江新影年代文化傳播有限公司等案中,法院認為被訴行為使原作的藝術價值功能發生了較高程度的轉換,因而屬于合理使用。在上海美術電影制品廠與廣州讀努門教育科技有限公司案中,法院還利用利益平衡原則對合理使用的結論進行補強解釋。法院指出,被告對作品的使用能夠促進知識傳播,因而從平衡公共利益和作者個人利益的角度考慮,該使用行為具有轉換性且構成合理使用。版權合規型AI的模型和功能設計各不相同,但數據輸入的目的都并非單純展示版權作品的美感或藝術價值,故在目的和功能上已發生轉換。同時,AI運營商將作品輸入模型還具備促進技術發展的價值,將其納入合理使用范疇有助于維持版權人個體私權與社會公共利益之間的生態平衡。可見,轉換性使用規則能夠對合理使用進行更富有彈性的解讀,從而為生成式人工智能技術的應用和發展提供良好環境。
在輸出階段,當法院判定輸出內容構成侵權后,還需認定AI運營商所承擔的責任。根據《民法典》和《著作權法》的相關規定,若生成內容侵犯版權,法院應按照具體情況要求AI運營商承擔停止侵害、消除影響、賠禮道歉、賠償損失等民事責任。此外,我國《生成式人工智能服務管理暫行辦法》也規定,生成式人工智能的服務提供者應對違法內容及時采取“停止生成”“停止運輸”“消除”“模型優化訓練”等措施。其中,在法院確定具體賠償數額時,根據《民法典》第一千一百六十五條,AI運營商存在過錯是承擔賠償責任的前提。
如今人工智能技術發展迅速,全球各國都在積極布局,希望在人工智能研究這一全球競爭賽道上占據有利地位。我國法院也應當充分考量版權保護和社會公共利益的關系,以包容的態度面對新技術。如果生成侵權內容就要求AI運營商承擔賠償責任,未免過于苛刻,其中的高昂成本也會阻礙該產業的發展。鑒于此,在判定損害賠償數額時,法院應充分考量AI運營商的過錯,減免采取合理措施的AI運營商的賠償責任。具言之,若AI運營商在事前階段已采取版權過濾措施,并在事后階段及時采取版權糾正措施,則法院可以認定AI運營商不存在過錯,同時無需對侵權行為承擔損害賠償責任。反之,若AI運營商沒有采取合理的事前預防和事后糾正措施,則法院應認定其存在過錯,并根據相應的過錯承擔損害賠償責任。例如在我國法院判決的“奧特曼案”中,由于AI運營商未履行合理的、可負擔的注意義務,不符合無過錯的標準,因此法院判決被告向原告賠償經濟損失。這既能實現對權利人的有力保護,也能對侵權者進行適當的懲戒。
六、結語
充分挖掘數據要素價值、學習數據并生成新數據,是生成式人工智能為人類經濟社會發展“賦能”的關鍵。人工智能有效運行所帶來的社會福利遠大于其中的弊端,為此不能因噎廢食,而應當充分運用合理使用和侵權責任減免制度打破版權壁壘,為生成式人工智能技術的進步和創新提供更為廣闊的發展空間。這也與版權法實現社會整體福祉最大化的目標相契合。
在輸入階段,基于生成式人工智能的強大公共利益屬性,偶發性的侵權不足以成為扼殺新商業模式的理由,以訓練版權合規性AI為目的的數據輸入行為通常構成合理使用。在輸出階段,若AI運營商盡到了合理的注意義務,即采取了應盡的事前和事后措施,應當免于承擔賠償責任。我國法院應以公共利益作為裁判重點,對輸入階段的各種作品使用行為,以及輸出階段的侵權責任進行認定,進而激勵創新并推動人工智能應用場景的拓展。