[摘要]訓練數據已經成為生成式人工智能發展的核心,生成式人工智能通過對大規模訓練數據的學習生成新的內容,這在促進技術進步的同時,也給著作權法律制度帶來嚴峻挑戰。具體來說,生成式人工智能在輸入階段的數據獲取、訓練階段的“黑箱”現象以及輸出階段的內容相似性,均可能涉及著作權侵權。文章認為,生成式人工智能訓練數據合理使用的適用范圍應重點集中于輸入階段,并建議有關主體擴展合理使用的主體范圍,承認特定條件下的商業性使用,嚴格限定合理使用行為僅為復制行為,以期平衡技術創新與著作權保護,推動生成式人工智能產業的健康可持續發展。
[關鍵詞]生成式人工智能;訓練數據;著作權;合理使用
一、問題的提出
近年來,以機器學習技術為核心的生成式人工智能,引領各領域的新浪潮,為人工智能產業注入新的生機與活力。生成式人工智能的發展基礎包括訓練算法、訓練算力和訓練數據三大要素。其中,訓練數據是生成式人工智能的重要驅動力。根據我國《互聯網信息服務深度合成管理規定》,“訓練數據,是指被用于訓練機器學習模型的標注或基準數據集”。
生成式人工智能在創作過程中依賴大量的訓練數據,高質量的生成內容則建立在優質數據的基礎上。目前,這些優質數據通常受到《中華人民共和國著作權法》等的保護。在實際應用中,生成式人工智能未經授權獲取和使用受著作權法保護的作品,會引發侵權糾紛,導致權利關系失衡。例如,2023年Getty Images在美國特拉華州向Stability AI提起訴訟,指控其侵犯版權和商標權,該案件被認為是全球首例涉及“Stable Diffusion”算法模型及訓練數據的版權侵權案。在該案中,Getty Images起訴稱,Stability AI未經授權使用其擁有或代表的受法律保護的數百萬張圖像及相關元數據進行模型訓練,侵犯其版權。Stability AI則辯稱,其使用這些內容進行模型訓練屬于合理使用。然而,在全球范圍內尚無司法實踐對此類案件做出明確的定論[1]。該案件也使生成式人工智能訓練數據合理使用問題置于公眾視野。
基于此爭議,學界已經展開深入研究,并提出多元化的觀點。部分學者認為,生成式人工智能使用受著作權法保護訓練數據的行為可解釋為合理使用[2]。部分學者則主張,生成式人工智能對訓練數據的使用行為并不符合合理使用的條件,應通過許可形式來進行規范[3]。可見,學界針對這一問題尚未達成統一意見。因此,文章聚焦于生成式人工智能訓練數據可能出現的侵權風險,分析其合理使用的適用邏輯,并提出優化路徑。
二、生成式人工智能訓練數據的侵權風險
(一)輸入階段的確定侵權
生成式人工智能的學習、訓練和內容創作需要大量數據的支持,包括數據的獲取和使用。根據數據來源不同,其訓練數據可以大致分為三類。
第一類是公有領域的數據,生成式人工智能使用進入公共領域的數據即通過開放的共享平臺下載所需要的數據等,由于此類數據本身已不存在著作權保護問題,暫不進入著作權規制的范圍。第二類是以交易的形式,通過購買他人數據庫中的數據來獲取的數據。我國著作權法并未對數據庫做出專門的法律規定。然而,在通常情況下,數據庫的所有者需要向權利人支付報酬,并獲得授權,才能將數據庫中的內容進行傳播。因此,數據庫所有者可被視為內容的傳播方,并享有傳播這些內容的權利。若生成式人工智能開發者通過繞過技術保護措施的手段,免費獲取有償提供的數據,則這類行為會構成對數據庫所有者傳播權的侵犯。第三類是將非數據形式的作品轉化為數據形式,即將原始數據轉換為模型可處理格式的數據。生成式人工智能訓練數據的輸入過程必然伴隨著相應的復制。根據我國著作權法,復制權是著作財產權中最為核心的權利,任何人未經許可復制他人作品的行為,均構成侵權行為。將非數據形式的作品轉化為數據形式,即為復制,這種復制行為屬于著作財產權中復制權的控制范圍。只要沒有獲得權利人的授權,無論這種非數據形式的作品是通過合法還是非法手段獲取的,都構成侵權。
(二)訓練階段的疑似侵權
當前,生成式人工智能訓練過程存在“黑箱”現象。生成式人工智能通過自然語言處理技術對大量數據進行學習訓練,從中挖掘統計規律,以實現深度學習并優化決策。然而,這些統計規律并非以傳統數據存儲的方式存在,而是被編碼在數以億計的模型參數中,這使得外部人員無法直接了解相關的內部工作原理,甚至連生成式人工智能開發者也難以詳細理解。這一不公開、不透明的算法運行過程便是“算法黑箱”。因此,生成式人工智能訓練過程受技術影響較大,且缺乏可解釋性,導致該過程中的侵權界定復雜。
學界對生成式人工智能訓練數據在訓練階段是否構成侵權也有不同觀點,有學者主張,生成式人工智能在訓練階段主要從大量數據中學習和提取特征,而不涉及對原始數據中表達性內容的直接使用或展示,屬于典型的非表達型機器學習,不構成侵權[4]。還有學者主張,生成式人工智能訓練過程需要對數據進行智能識別以及轉碼,期間的轉化關系也需要進行設定和調整,經過轉碼過后的內容具有新的原創性表達,那么此時的轉碼行為完全可能符合侵犯權利人改編權的構成要件[5]。然而,筆者認為,以上觀點均有較大局限性,有關主體需要對生成式人工智能訓練數據在訓練階段進行一定的技術預設,認定生成式人工智能訓練過程是基于特定技術運行下的生成過程。
(三)輸出階段的客觀侵權
生成式人工智能訓練數據輸出階段是否侵權,需要有關主體將被控侵權的人工智能生成物與權利人作品進行客觀對比,按照實質性相似原則進行判斷。而該階段合理使用規則的適用仍然需要有關主體判定生成式人工智能在輸入階段是否將權利人的作品納入訓練樣本。
從已有產業實踐來看,生成式人工智能輸出階段的生成物一般分為兩種:第一種是人工智能生成的不同于以往權利人作品的“創新”表達;第二種是人工智能生成的與權利人作品相同或者存在一定相似的“非創新”表達。前者難以追究法律責任,后者受到權利人的侵權追訴。侵權指控的核心在于是否構成著作權法中的“表達性使用”,即利用原作品的獨創性表達,并基于此創作出與原作品相關的新作品。這類衍生作品不僅可能直接復制、改編或模仿原作品,還可能在市場上與原作品形成競爭,從而影響權利人應得的經濟利益。有關主體對此類侵權行為的認定需要遵循“接觸+實質性相似”“思想與表達二分法”等判定標準。具體而言,生成式人工智能在內容表達上若一旦落入原作品的表達范疇,與原作品構成實質性相似,則可以被判定構成侵權。
三、生成式人工智能訓練數據合理使用的適用邏輯
(一)適用范圍:限于輸入階段
生成式人工智能訓練數據合理使用問題的研究應區分具體侵權階段,只有厘清不同階段的侵權形態及其關系,才能準確探尋合理使用規則適用的邏輯和范圍。在生成式人工智能創作過程中,其輸入階段的數據未經許可使用則明確構成侵權。訓練數據的輸入是生成式人工智能創作的基礎和前提,而大量數據構成機器學習的訓練數據庫,成為其創作的主要素材。即使算法先進,如果輸入的數據不完整,則輸出的結果也可能存在一定的缺陷,而要經權利人許可后再使用,這種“海量性”與“隨機性”使數據使用的自愿許可幾乎不可能,且交易成本較高,因此如果不將其納入合理使用的范圍,會嚴重阻礙生成式人工智能的發展[6]。生成式人工智能的機器學習過程技術結構復雜,算法更新速度較快,被認為存在不可追溯、不可解釋性。具體來說,生成式人工智能訓練數據的侵權論證難度較大,且存在諸多不確定性。生成式人工智能在輸出階段的數據則可以通過客觀標準判定是否構成侵權,且其的生成原理決定自身無法在輸出階段單獨主張適用合理使用規則。因為如果一方想主張生成式人工智能訓練數據適用合理使用以形成侵權抗辯,仍需要證明自身在訓練數據的輸入階段沒有將權利人的作品納入訓練樣本,或者在輸入階段已構成合理使用。綜上所述,合理使用規則的適用判定主要集中于生成式人工智能訓練數據的輸入階段。
(二)適用目的:符合利益平衡
著作權制度作為典型的利益平衡機制,旨在調和權利人和社會公眾等多方主體之間的不同利益。作為著作權法中的權利限制與例外制度之一,合理使用制度的設計反映這一平衡。具體而言,著作權法通過授予權利人對作品的排他性控制,防止他人未經許可侵犯其智力勞動成果,從而保障權利人能夠通過許可他人使用作品獲取合理的經濟回報,并激勵創作。然而,生成式人工智能的發展則傾向于自由、大規模地獲取數據,推動公眾對知識的廣泛接觸和傳播,從而促進科學文化的發展。兩者之間的矛盾和沖突逐漸加劇,有關主體亟須尋找到一條平衡的路徑[7]。換言之,實現生成式人工智能發展與著作權保護之間的平衡,既有助于激勵創作,又能促進技術發展。在此背景下,合理使用制度的設計尤為重要,而生成式人工智能訓練數據納入合理使用范疇,成為調和技術發展與著作權保護之間沖突的有效機制。
在數字技術快速發展的背景下,學者提出“技術性合理使用”的概念,認為機器學習等技術在帶來經濟利益或積極社會效應的同時,應該傾向于被認定為合理使用[8]。此外,一些國家和地區已經通過立法或司法判例明確在特定條件下生成式人工智能訓練數據構成合理使用的相關規定,為其發展和應用提供法律指引。例如:日本著作權法將生成式人工智能訓練數據使用歸入“計算機信息處理”行為,納入合理使用范疇,以立法之舉釋放出推動該國生成式人工智能產業發展的強烈信號;美國雖并未通過正式的法律條文確認數據使用的正當性,但在一系列司法判決中通過“四要素分析”和“轉換性使用”標準,判定數據使用行為符合合理使用的條件,從而為相關技術應用提供法律支持。在我國,《中華人民共和國人工智能法(學者建議稿)》第二十四條對數據合理使用做出規定,這可以為判斷生成式人工智能訓練數據是否構成合理使用提供法律依據[9]。綜上所述,有關主體通過對合理使用條款的詳細解釋,明確生成式人工智能訓練數據是否符合合理使用的具體標準,這不僅有助于實現數字時代利益的合理分配,還能夠進一步平衡技術發展與著作權保護之間的矛盾。
(三)適用效果:不構成市場替代
生成式人工智能在輸入階段的復制行為并不會直接影響原作品的市場。在這一階段,生成式人工智能訓練數據的使用主要發生在模型的內部處理過程中,并未以可獲取的復制件形式對外公開或分發內容。因此,權利人并未失去對其作品的控制權,也未失去作品的市場份額。簡言之,生成式人工智能在輸入階段對原作品的復制并不會對其商業價值或市場需求產生實質性替代作用,因為這一過程并未直接影響消費者對原作品的需求或供應。盡管生成式人工智能訓練數據可能包含某些特定的作品,然而在輸出階段,生成式人工智能與數據輸入之間通常并不構成實質性相似,即生成式人工智能輸出的內容并不會與原作品直接進入同一市場,也不會替代或侵占原作品的市場需求。
從長期的角度來看,如果有關主體不將生成式人工智能在輸入階段對作品的使用納入合理使用的范疇,雖然短期內可能有助于保護權利人的利益,但會導致權利人壟斷其作品,限制競爭[10]。
四、生成式人工智能訓練數據合理使用的優化路徑
(一)行為主體:應作擴大解釋
筆者認為,有關主體對合理使用的行為主體應作擴大解釋。我國著作權法中的合理使用制度對使用主體存在嚴格限定。然而,隨著生成式人工智能的迅猛發展,現代科研活動的主體已經不再局限于傳統的個人、科研機構或非營利組織。以阿里巴巴、騰訊、百度等為代表的大型科技企業,已經成為科研創新的重要力量,并在生成式人工智能領域取得大量具有市場價值和廣闊前景的科研成果。因此,過于嚴格的主體限制不僅可能抑制科研活動的整體社會效益,還可能削弱我國在相關高新技術產業中的國際競爭力,進而對社會利益造成不利影響。
基于上述考慮,筆者認為,有關主體不應對生成式人工智能訓練數據合理使用的主體范圍進行過度限制。具體而言,在適用主體的限定上,有關主體應借鑒國際相關做法,任何從事科研活動并符合相應條件的主體都應被視為生成式人工智能訓練數據合理使用的適用對象,無論其身份背景或所在機構的性質如何[11]。同時,有關主體也應放寬合理使用主體的限制,從長遠來看,這不僅能夠為中小型企業提供更多機會,還能夠更大限度地推動生成式人工智能的開發與應用,進而促進該領域的經濟增長和產業發展。
(二)行為目的:承認特定條件下的商業性使用
在當前法律框架下,合理使用的適用目的通常僅限于非商業性使用。然而,隨著生成式人工智能的商業應用日益廣泛,其對訓練數據的依賴已成為推動企業創新和社會進步的關鍵因素。尤其商業性科研活動取得的創新成果,不僅具有顯著的市場價值,還為社會帶來諸多積極的效益。若僅因為這些研究活動的商業目的,有關主體就將生成式人工智能訓練數據排除在合理使用之外,則不僅可能遏制企業的創新動力,而且與國家鼓勵科技創新、推動產業升級的政策目標相悖。因此,筆者認為,有關主體應當在特定條件下允許生成式人工智能出于商業目的使用訓練數據,在合理使用判斷中將公共利益納入考量,確保數據來源的合法性與透明度,并不得影響原作品數據的正常使用或者不得不合理損害權利人的合法權益。其中具體措施可以包括要求生成式人工智能在使用數據生成內容中明確標記原作品的權利主體,并通過數字水印等技術永久嵌入標記,維護權利人的權益[12]。實踐證明,有關主體承認特定條件下的商業性使用,更符合我國科技創新的政策,有利于促進生成式人工智能研究成果的落地與轉化,提高我國在生成式人工智能領域的競爭力。
(三)行為方式:僅限復制行為
關于生成式人工智能訓練數據的合理使用行為,當前國際上相關法規存在較大差異。歐盟將其合理使用限定于復制和提取,排除信息網絡傳播與改編等行為,而英國要求在其進行復制時,必須明確標注原出處。在我國,一些學者認為立法應對其傳播行為加以限制,也有學者主張將合理使用的行為要件擴展至傳播權。然而,筆者認為,若將生成式人工智能訓練數據合理使用的行為延伸至傳播權,可能會引發一系列問題。傳播行為具有公開性,且借助互聯網,傳播行為的影響力將會迅速擴展,甚至是無限擴展。如果不對這種傳播行為進行適當控制,可能會導致原作品被濫用,進而使生成式人工智能在使用作品時享有過多豁免,這不僅損害權利人的利益,還可能影響知識產品的創作與共享,造成“超人類待遇”的局面[13]。此外,復制行為是生成式人工智能應用中的基礎性行為,也是對合法獲取的數據進行深度學習的前提。如果有關主體不允許對合法獲得的數據進行復制,生成式人工智能將無法開展有效的訓練,科研活動也將受到嚴重制約。因此,有關主體對生成式人工智能訓練數據的合理使用,應限制于復制行為,而不應涉及其他權利,特別是傳播權、改編權等。
五、結語
生成式人工智能的快速發展及其廣泛應用,雖然為社會發展帶來新機遇,但也使著作權保護面臨嚴峻風險,給我國現有著作權制度帶來前所未有的挑戰。因此,針對生成式人工智能訓練數據合理使用的適用問題,有關主體要對相關法律框架進行必要的調整和完善,以便保障權利人的權益,促進技術創新。實踐證明,將生成式人工智能訓練數據納入合理使用范疇,不僅能夠促進我國數字產業的發展,提升相關產業的國際競爭力,還能夠為生成式人工智能的合法合規運用提供助力,并有助于構建更為公平的利益分配機制,平衡生成式人工智能與權利人之間的利益關系。
[參考文獻]
[1]管育鷹.生成式人工智能相關版權爭議焦點問題探討[J].北京工業大學學報(社會科學版),2025(01):103-111.
[2]丁曉東.論人工智能促進型的數據制度[J].中國法律評論,2023(06):175-191.
[3]高陽,胡丹陽.機器學習對著作權合理使用制度的挑戰與應對[J].電子知識產權,2020(10):13-25.
[4]魏遠山.生成式人工智能訓練數據的著作權法因應:確需設置合理使用規則嗎?[J/OL].圖書情報知識,1-11[2024-12-20].http://kns.cnki.net/kcms/detail/42.1085.G2.20240515.1112.002.html.
[5]彭飛榮.論算法創作中涉數據的著作權侵權風險及其化解[J].法律適用,2023(04):46-55.
[6]林秀芹.人工智能時代著作權合理使用制度的重塑[J].法學研究,2021(06):170-185.
[7]沈玥.人工智能深度學習的合理使用研究[J].湖北經濟學院學報(人文社會科學版),2023(07):72-77.
[8]萬勇.人工智能時代著作權法合理使用制度的困境與出路[J].社會科學輯刊,2021(05):93-102.
[9]楊曦,鄧臻宇.AIGC創作適用著作權合理使用的困境與出路[J].出版廣角,2024(17):75-80.
[10]來佳洋.機器學習輸入階段的著作權侵權風險及應對策略[J].中阿科技論壇(中英文),2024(10):161-165.
[11]王文敏.文本與數據挖掘的著作權困境及應對[J].圖書館理論與實踐,2020(03):28-34.
[12]顧男飛,方舟之.ChatGPT等生成式人工智能使用作品的合理邊界與侵權規制[J].數字圖書館論壇,2023(07):1-8.
[13]王楷文.人工智能數據輸入與著作權合理使用[J].文獻與數據學報,2021(02):110-118.
[作者簡介]支雪婷(2001—),女,陜西銅川人,西安財經大學法學院碩士研究生。