[摘要]文章從生成式人工智能數據預訓練入手,發現其存在諸多侵權風險,即復制權侵權,改編權侵權,廣播權及信息網絡傳播權侵權。基于此,文章結合國內國際針對生成式人工智能數據預訓練制訂的版權規制,提出“增設‘人工智能創作例外’合理使用新類型”“靈活使用三步檢驗標準”的風險治理策略,旨在為未來生成式人工智能領域的法律規制提供理論基礎和實踐指引,推動生成式人工智能在合法合規的框架內不斷演進。
[關鍵詞]生成式人工智能;數據預訓練;合理使用
一、生成式人工智能數據預訓練
(一)生成式人工智能的發展
當今社會,人類已從依賴傳統信息的時代邁入了由數據驅動的智能發展階段,在信息技術迅猛發展的今天,生成式人工智能正在深刻改變內容創作的方式。2022年11月,OpenAI公司推出了新型生成式人工智能—ChatGPT,這款預訓練的通用大型語言模型一經發布,即引發了強烈反響。相較早期僅用于輔助創作的人工智能技術,生成式人工智能已經能夠獨立生成高質量的文本、圖像和音樂等多種形式的內容,展現了前所未有的創造力。
人工智能初期發展主要集中在輔助創作領域,多被用于完成文本自動補全和語法糾正等簡單的自動化任務,雖然能夠提高創作效率,但是其功能和應用范圍都非常有限。深度學習和生成模型的快速演進使得人工智能逐步掌握自主生成內容的能力,能夠以極高的水準創作文章、視覺藝術和音樂等多樣化的作品。例如,AlphaGo通過運用深度學習技術,從海量圍棋歷史對局中學習棋步策略,并在自我對弈中進行強化學習,不斷優化其策略,從而戰勝了多位人類頂級圍棋高手。
在自然語言處理(NLP)技術實現突破的背景下,機器在理解和生成自然語言方面也取得顯著成績。Transformer架構的出現為大型語言模型的構建提供了關鍵性的支持和理論框架。生成式預訓練模型(GPT)的出現將生成式人工智能的能力提升到一個新的高度。例如,OpenAI公司推出的GPT-3模型配備1750億個參數[1],經由龐大語料庫訓練,采用了上下文學習機制(In-ContextLearning),ChatGPT憑借此機制能夠靈活應對多種下游任務,有效執行自然語言處理、圖像識別及語音處理等復雜任務,展現卓越的語言理解和生成能力。
(二)生成式人工智能數據預訓練的技術運行原理
生成式人工智能技術(GenerativeAI)依托深度學習模型來生成數據。以自然語言處理為例,ChatGPT構建了大型語言模型LLM(LargeLanguageModel)和強化學習微調訓練模型,采用了Transformer神經網絡架構,這些深度神經網絡模型擅長處理序列數據,通過自注意力機制捕捉輸入數據間的聯系,對用戶輸入的指令信息進行全面剖析,從而解析其具體意圖。同時,ChatGPT能夠依據數據庫中已有的文本語料,按照數字順序構建內容框架,最終將該框架轉譯為文本形式,生成滿足用戶需求的輸出結果[2]。
預訓練指在海量的數據上實施無監督學習,旨在預先構建一個數據模型或完成模型的訓練過程。生成式人工智能模型是一種參數龐大且需要在預訓練過程中使用大規模語料庫進行自監督學習的自然語言處理模型,要想在廣泛的應用場景中生成高質量的內容,大量的數據投喂或訓練十分必要[3]。數據預訓練是機器學習過程中的必要步驟,而機器學習是數據預訓練所需的核心技術,總的來說,數據預訓練分為數據輸入、機器學習與結果輸出三個過程[4]。以ChatGPT為例,這一生成式人工智能在數據訓練階段采用的數據收集途徑包括獲取政府、學術機構及公司公開發布的數據集,或者運用爬蟲技術從互聯網搜集文本、圖像等相關數據。然而,在收集用于模型訓練的數據時,如果人工智能未經授權就復制互聯網或其他來源上受著作權保護的文本、圖像、視頻等作品,就會面臨版權侵權的風險。
二、生成式人工智能數據預訓練中的版權風險分析
(一)復制權侵權
生成式人工智能在數據預訓練階段通常采用兩種手段進行數字化處理:第一,將以非數字方式記錄的知識和信息轉變為機器可解析的編碼格式;第二,通過API等接口工具,從外部來源調取已完成編碼轉換的數據內容。這些手段為人工智能技術獲取知識和處理數據奠定了基礎。《中華人民共和國著作權法》(以下簡稱“《著作權法》”)規定,除合理使用、法定許可等法定豁免規定外,未經著作權人許可擅自使用在著作權保護期范圍內的作品構成著作權侵權。當前,生成式人工智能所獲取的數據并非完全來自于公有領域,其在收集海量數據訓練模型時難免會復制已受版權保護的作品,而這種行為涉及對著作權人復制權的侵權風險。在最新修訂的《著作權法》中,我國將“數字化”新增為復制權的一種行為方式,使我國版權法中的復制行為從傳統的印刷、拓印等一經復制便被固定的形式擴展到有形載體和數字載體以及數字載體相互之間的復制。然而,無論復制的表現形式多么豐富,其本質始終是對既有作品的重新呈現[5]。在生成式人工智能采集數據的過程中,其收集的數據都會被先行復制后存入數據庫,復制是實現數據存儲的必要前提,那么在數據收集過程中爬取數據并將其存儲至數據庫的行為就構成著作權法上的復制行為。因此,根據我國著作權法的規定,如果該復制行為未經版權所有者授權且沒有特殊的抗辯理由,則生成式人工智能進行數據預訓練侵犯了著作權人的復制權。
(二)改編權侵權
改編權是賦予權利持有人允許他人在原作基礎上進行內容的調整和加工,以形成富有創意的全新作品的權利。在生成式人工智能數據預訓練階段,由于機器學習的需要,人工智能通常需要將收集的數據轉換為相應的結構化數據,而對數據的轉換修改、整理刪除等操作必然會涉及對原有數據內容的調整,進而可能引發侵犯著作權人改編權的風險[6]。要想分析數據預訓練的改編權侵權風險,我們要先從機器學習的方法入手。基于訓練數據是否包含特定作者的作品這一標準,機器學習被分為一般機器學習與特殊機器學習[7]。第一,一般機器學習指人工智能在由眾多作者作品構成的數據庫中,通過算法訓練來分析和選擇數據,再根據用戶的指令與數據庫內容進行匹配生成作品的過程。這類作品的風格和外觀具有一定的隨機性,往往難以被用戶所掌控,即使它們可能涉及改編權,但由于缺乏具體的比對標準,一般機器學習的侵權風險較低。第二,特殊的機器學習指相關主體通過使用某一特定作者創作的作品對算法進行訓練的學習過程。例如,巴黎索尼計算機科學實驗室的技術人員用300多首巴赫的作品訓練了人工智能系統,這些歌曲在訓練過程中被轉換成不同的音符,并最終生成了2500多首作品。這些作品使包括專業音樂家在內的眾多聽眾認為他們是巴赫本人創作的作品。根據著作權法的相關規定,大多數作品的保護期限在作者死亡50年后便終止,因此巴赫的作品現已成為公共領域的文化遺產,不再受版權約束。然而,如果作品仍處在版權保護期限內,使用這些作品進行算法訓練便會涉及版權侵權問題。在特殊的機器學習過程中,相關主體會從眾多作品中提煉屬于作者個性化表達的信息,并運用這些信息投喂人工智能進行數據預訓練,以高度模擬原作者創作風格為目標進行表達。作品是作者獨立構思的產物,其獨創性體現在個性化的表達方式,而人工智能生成的內容可能會展現類似的表達特征,進而對被學習的作品產生替代效果[8]。因此,基于預訓練數據來源的特定性,特殊的機器學習生成的作品存在侵犯原作品改編權的風險。
(三)廣播權及信息網絡傳播權侵權
“廣播權”在《著作權法》中的定義為以有線或者無線方式公開傳播或者轉播作品,以及通過擴音器或者其他傳送符號、聲音、圖像的類似工具向公眾傳播廣播作品的權利。在“央視國際網絡有限公司訴北京百度網訊科技有限公司侵害作品信息網絡傳播權案”中,法院判定互聯網傳播行為具有有線傳播的特征,因此依據《著作權法》,將其認定為信息網絡傳播權的一部分,作為財產權加以保護,并裁決被告向原告支付賠償款共計50.28萬元。在著作權法中,信息網絡傳播權作為一種財產權利,與廣播權具有相似之處,而該判決中提到的“有線傳播”概念,已被擴展為包括網絡形式的傳播方式。因此,從法律邏輯統一的角度來看,廣播權中的“有線傳播”理應包括基于互聯網展開的傳播行為。鑒于此,如果人工智能輸出結果與原作品存在實質性相似,并將該結果通過網絡向公眾傳播,那么生成式人工智能在進行數據預訓練時可能面臨侵犯原作品廣播權及信息網絡傳播權的風險。一般而言,人工智能生成作品涉及的廣播權及信息網絡傳播權侵權問題主要發生在數據輸出環節,但也有觀點指出,數據預處理階段同樣存在潛在的廣播權及信息網絡傳播權侵權風險。例如,在具體實踐環節,技術人員為了進行數據挖掘或機器學習,驗證研究結果的可行性,常常需要將數據上傳至云端或利用互聯網進行共享,這種方式可能存在侵犯原作品的廣播權及信息網絡傳播權的潛在風險[9]。
三、生成式人工智能數據預訓練的版權規制選擇
(一)域外制度借鑒
1.美國:轉換性使用的法律規則
在美國,人工智能在數據預訓練階段所面臨的版權及合理使用問題得以有效解決,主要歸因于轉換性使用理論的應用。該理論首次在“Campbellv.AcuffRoseMusic案”中被提出。根據這一理論,當原作品被以不同的形式進行重新詮釋,并被賦予全新的意義或功能時,這種改動可被視為對原作品的轉化性使用,并被認定為符合合理使用的法律規范。法院在判定生成式人工智能生成的作品是否構成轉換性使用時,主要依據是其是否具備足夠的“轉換性”特征,而非商業屬性。在司法實踐中,法院應用轉化性使用規則通常從兩個方面進行評估。第一,使用的內容與使用目的是否與原作品存在明顯的差別,作品的使用是否被賦予新的功能。當新作品的使用目的和性質發生較大轉變時,就不太可能對原作的市場產生直接的替代作用。在“AndyWarholFoundationfortheVisualArts,Inc.v.Goldsmith案”中,美國最高法院指出,判斷轉換性使用的核心在于新作品“是否以及在何種程度上”與原作品在目的和性質上存在相似,單純的形式或風格變化不足以證明其使用目的已完全轉換,必須綜合考慮使用背景等因素,以確定其使用目的是否具有創新性[9]。第二,使用作品是否具有不同的功能,這種功能轉換性是美國法院在司法實踐中確立的一種新形態,它擴展了原有轉換使用概念的范圍[10]。在“AauthorGuildv.HathiTrust案”中,美國法院認為,HathiTrust圖書館提供的全文檢索服務、面向殘疾人的圖書訪問權限以及數字化保存功能,將原作品單一的閱讀用途轉變為服務于研究、保存及具備社會公益性的多重功能,通過對原作品進行重新定位,賦予了其新的功能,這種使用方式具備高度的“轉化性目的”,因此可以被視為合理使用。從判決結果來看,美國法院對“轉化性使用”的闡釋采取了較為靈活的方式,為其提供了寬廣的解釋余地,以確保該理論得到更全面的應用。
2.歐盟:新增文本數據挖掘的例外規則
歐盟的早期版權立法,如1996年發布的《數據庫保護指令》和2001年的《信息社會版權指令》,因采用封閉式條款設計,未能契合文本與數據挖掘的需求,從而對人工智能技術的應用和推廣產生了不利影響。2016年,歐盟公布了《數字單一市場版權指令》(以下簡稱“《指令》”)的初版提案,旨在加強成員國間版權規則的一致性,將科研相關的文本與數據挖掘活動視作特定情況納入版權保護的例外范疇。2019年4月,經過修訂的《指令》正式生效。新《指令》在保留科研活動中文本與數據挖掘的特殊權利的同時,還增添了針對數據挖掘需求的相關例外規定。新《指令》第4條則進一步規定,出于文本和數據挖掘對合法獲取的作品或其他內容進行復制與提取的行為不構成侵權。新《指令》第4條則進一步規定,只要內容是合法獲取的,其用于文本與數據挖掘的相關行為則不構成侵權。考慮到現有的“基于科研目的的文本與數據挖掘例外條款”約束性較強,難以覆蓋商業決策支持、公共服務優化、應用程序開發或技術革新等非科研領域,且文本與數據挖掘行為并不符合2001年的《信息社會版權指令》中臨時復制的合理使用條件。對此,歐盟制定了新的“基于文本與數據挖掘目的的文本與數據挖掘例外”條款[11],允許行為主體在未被權利人明確禁止的情況下,對合法獲取的數據資源進行自由復制與提取,同時取消了主體資格限制,從而擴大了技術應用的靈活性和適用場景。
(二)我國制度選擇
1.三步檢驗標準的輔助性考慮因素
隨著生成式人工智能技術的發展,我國《著作權法》迫切需要解決因使用作品作為機器學習訓練數據而可能引發的侵權爭議。《中華人民共和國著作權法實施條例》(以下簡稱“《實施條例》”)通過制定三步檢驗標準,為相關判斷提供了明確的順序和參考依據。三步檢驗標準有助于法院在保護版權人利益和促進公共利益之間找到平衡點,使得合理使用制度在實踐中的應用變得更加清晰且具有可操作性。在我國司法實踐中,這一規則多被當作一種輔助性的參考工具,當遇到《著作權法》未具體規定的情況時,適用這一規則通常會變得非常困難,甚至無法實施。究其原因,法定情形提供了明確的法律依據和操作指南,而三步檢驗標準由于具有抽象性特征,在應用時需要綜合考量多方利益及具體情境,這種靈活性在特定情境下可能引發差異化解讀,進而增大了法律適用的不確定性和復雜性,加大了法院判決時的風險。基于此,為了在實際操作中有效保護版權人和用戶的合法權益,三步檢驗標準在我國主要作為輔助性考慮因素,而不是直接適用于所有合理使用情形。
2.合理使用制度無法提供適當的豁免
我國著作權法中有法定許可和合理使用兩種侵權豁免理由。在法定許可制度方面,我國著作權法當前規定的法定許可類型難以適用于人工智能的創作情境,盡管依據法定許可制度,使用作品不需要經過原著作權人許可,但是即便按照現行法定許可費的最低標準估算,在數據預處理階段使用作品所產生的潛在許可費用也極為龐大,讓從事人工智能研發的企業或者研究機構負擔如此高昂的許可費較為困難。在當前各國人工智能技術飛速發展的國際背景下,我國也在不斷提升人工智能技術水平,相關法律法規對數據輸入行為設置過多的限制和過高的成本,與鼓勵知識產權創新創造的宗旨相違背。因此,相對而言,人工智能供應商依據合理使用制度為其數據輸入行為主張免責具有一定的合理性。然而,現行合理使用制度難以滿足人工智能技術發展的需要,不能為生成式人工智能數據預處理階段使用作品的行為提供適當的版權豁免。我國《著作權法》明確列舉的合理使用情形也未涵蓋數據挖掘環節,合理使用條款中明確列舉的情形中也只有少數涉及數據挖掘環節。同時,相關主體在課堂教學或科學研究中將數據處理挖掘作為使用例外通常限于非商業目的,若某些數據預處理行為不屬于科學研究范疇,或含有任何商業性質,則該例外不適用。當前,軟件及互聯網公司致力于提升生成式人工智能技術,依據企業特性,難以將其數據挖掘行為限定為非商業用途。人工智能在創作過程中使用數據,完全是為了產生新的作品,并不符合上述《著作權法》中規定的合理使用情形。而生成式人工智能在創作過程中需要用于訓練的數據作品,其使用范圍顯然已經超出了《著作權法》第二十四條規定的合理使用的適當性標準[12]。除了先前提到的例外情況,現有法律并未明確列出可為數據挖掘提供合法依據的其他情形。《著作權法》在第三次修訂時不僅保留了現有的合理使用條款,還新增加了相關的兜底條款,以應對其他合理使用的可能情況。盡管這種做法看似能夠滿足將合理使用制度應用于新型作品的需求,然而,它并未實現將合理使用制度由封閉性立法模式轉變為更加開放靈活體系的轉變。這導致法官在缺乏明確法律授權的情況下,依然無法創立新的合理使用類別。因此,這一調整可能無法有效擴大裁量空間,也未必能真正推動數據挖掘的發展[13]。
四、生成式人工智能數據預訓練階段的著作權風險治理
(一)增設“人工智能創作例外”合理使用新類型
我國可以參考歐盟增設“文本數據挖掘”例外,以體現我國大數據、人工智能的時代特征。同時,我國通過引入這一條款,不僅能克服生成式人工智能作品生成過程中的數據獲取難題,還能降低人工智能在使用有版權保護作品時的法律風險,進而提高人工智能作品的整體水平,推動新興領域的健康發展。我國新修訂的《著作權法》第二十四條中新增加了合理使用的兜底法律條款,這進一步擴展了文本數據挖掘行為被視為合理使用的可能性,為相關實踐提供了更多的法律保障。第一,當前我國進行人工智能的研究主體大多是大型互聯網企業,這些企業為生成式人工智能的研發投入了大量資金和高技術人才,因此該條款的適用主體應擴展至為發展人工智能而需要使用數據的公司及企業,這種不限定適用主體的做法更加符合我國國情。技術的快速發展使得互聯網與軟件企業在應對市場動態變化方面具有顯著優勢,其在文本與數據挖掘方面的能力通常超過部分科研組織。鑒于此,立法機關若僅將研究主體限定為學術機構或文化組織,則可能會限制文本與數據挖掘技術的廣泛使用和持續進步。第二,只有當文本與數據挖掘符合“出于科學研究目的”時才符合合理使用的標準。文本與數據挖掘合理使用的目的要件應確保挖掘行為符合規定。“以科學研究為目的”的數據挖掘能夠限制使用主體利用文本與數據挖掘技術實施可能損害權利人合法權益的行為,這符合著作權法促進科學和文化的繁榮發展的宗旨,有助于防止文本數據挖掘技術的商業化濫用。當文本與數據挖掘技術服務于科研工作時,其產生的最終效益歸屬于社會公眾利益。基于此,適度犧牲著作權人的部分利益,以增進社會公共利益符合《著作權法》立法目的[14]。
(二)靈活使用三步檢驗標準
我國著作權法長期采用封閉式立法模式,具體規定了12種著作權法例外類型。從法律解釋角度看,《實施條例》所確立的三步檢驗標準對《著作權法》中規定的12種具體例外條款的適用起到了限制作用。因此,如果某一行為構成合理使用,它必須既屬于《著作權法》中規定的12種具體例外之一,又需通過三步檢驗標準的評估[15]。在現行著作權法體系下,三步檢驗標準僅適用于評估《著作權法》第二十四條所列舉的具體情形是否符合各項規定,這加強了對合理使用條款的限制,導致包括生成式人工智能數據預訓練在內的多種數字時代新型使用場景無法被納入合理使用條款的范疇。為了推動技術革新,立法機關有必要賦予人工智能開發者更大的發展空間,使其能夠高效使用現有材料,并通過編輯和整合構建新的數據庫。因此,立法機關應在肯定三步檢驗標準立法價值的基礎上,探索其對新興領域著作權法的適用空間;通過采用較為開放的模式規定人工智能數據預訓練適用合理使用的具體要件,再依據三步檢驗標準進行個案判定。而司法機關通過在司法實踐中靈活有效地應用三步檢驗標準,可以在保障著作權人權益的同時促進創新和公共利益的發展。因此,立法機關圍繞三步檢驗標準,結合人工智能技術的特點和我國著作權法的相關規定,將數據預訓練過程中涉及作品的使用行為納入合理使用的范疇具有一定的可行性。在司法實踐中,部分法院也認為,只要相關行為未妨礙原作品的正常使用,且未對著作權人的合法權益造成不合理的損害,即可被視為合理使用,而不必拘泥于《著作權法》第二十二條所列舉的具體例外情形。
五、結語
生成式人工智能技術的迅猛發展為國家經濟和科技進步注入了新的動力,但其在數據預訓練過程中涉及的著作權問題備受重視。綜上所述,生成式人工智能所推動的技術革新正在塑造前所未有的創作方式,并伴隨著一系列與版權相關的復雜問題。以ChatGPT為代表的生成式人工智能在數據預訓練和內容生成過程中面臨復制權、改編權和廣播權及信息網絡傳播權等方面的版權風險,美國和歐盟的版權法制改革為我國提供了有益的借鑒。生成式人工智能的發展需要在版權保護和技術創新之間找到平衡,我國立法機關可在保護版權人利益的同時促進人工智能技術的創新發展,為數字經濟和智能社會的建設提供堅實的法律保障。這需要立法機關不斷完善法律制度和應用技術手段,有效規制生成式人工智能數據預訓練過程中的版權問題,促進其在合法合規的框架內健康發展。
[參考文獻]
[1]陸偉,劉家偉,馬永強,等.ChatGPT為代表的大模型對信息資源管理的影響[J].圖書情報知識,2023(02):6-9.
[2]王瑤,李勝利.生成式人工智能的版權風險及其應對:以ChatGPT為視角[J].海南金融,2023(10):49-58.
[3]丁道勤.生成式人工智能訓練階段的數據法律問題及其立法建議[J].行政法學研究,2024(06):16-28.
[4]吳漢東.人工智能生成作品的著作權法之問[J].中外法學,2020(03):653-673.
[5]馮曉青,付繼存.著作權法中的復制權研究[J].法學家,2011(03):99-112.
[6]張平.人工智能生成內容著作權合法性的制度難題及其解決路徑[J].法律科學(西北政法大學學報),2024(03):18-31.
[7]詹愛嵐,田一農.生成式人工智能機器學習中的著作權風險及其化解路徑[J].電子知識產權,2023(11):4-14.
[8]李安.機器學習作品的著作權法分析:非作品性使用、合理使用與侵權使用[J].電子知識產權,2020(06):60-70.
[9]萬勇.人工智能時代著作權法合理使用制度的困境與出路[J].社會科學輯刊,2021(05):93-102.
[10]謝琳.論著作權轉換型使用之非轉換性[J].學術研究,2017(09):61-67.
[11]吳高,黃曉斌.人工智能時代文本與數據挖掘合理使用規則設計研究[J].圖書情報工作,2021(22):3-13.
[12]焦和平.人工智能創作中數據獲取與利用的著作權風險及化解路徑[J].當代法學,2022(04):128-140.
[13]張惠彬,肖啟賢.人工智能時代文本與數據挖掘的版權豁免規則建構[J].科技與法律(中英文),2021(06):74-84.
[14]董凡,關永紅.論文本與數字挖掘技術應用的版權例外規則構建[J].河北法學,2019(09):148-160.
[15]萬勇.著作權法三步檢驗標準的誤解澄清與本土重塑[J].上海政法學院學報(法治論叢).2022(04):42-55.