摘要:生成式人工智能數據訓練過程涉及對作品、資料、文獻等數據的獲取和利用,可能引發版權侵權。為避免版權侵權,人工智能開發者或者事前獲得授權許可,或者依法獲得侵權豁免。然而,傳統許可模式在實踐中難以支撐海量數據學習模式的需要;法定許可方案也面臨交易成本和管理成本高昂的問題。以博弈論視角進行分析得出,合理使用是配置作品數據資源的較優路徑,也是協調著作權人和人工智能開發者利益沖突的理性選擇。對此,建議以《著作權法》第二十四條第一款第(十三)項的“兜底條款”為接口,在《著作權法實施條例》中引入生成式人工智能數據訓練的合理使用專門例外。該條款應適當放寬適用條件,通過“三步檢驗法”的后兩步進行限制,以此增加適用的彈性。
關鍵詞:生成式人工智能;數據訓練;合理使用;版權;博弈論
一、問題的提出
近年來,以ChatGPT為代表的生成式人工智能(Generative Artifcial Intelligence,以下簡稱GenAI)被廣泛應用于各類創作場景中,其創作能力和交互能力的提升依賴于大語言模型的訓練,海量數據輸入是形成理想的訓練效果的基礎,也是人工智能技術升級迭代的必由之路。在所需的海量數據中,作品數據作為高質量的數據資源,具有較大的算法訓練價值,其中就包括處于權利保護期的版權作品。根據《著作權法》一般原理,除了合理使用和法定許可的特定情形外,任何人使用他人作品應當獲得授權許可并支付報酬,否則屬于侵犯版權的行為。2023年國家互聯網信息辦公室等七部門聯合頒布的《生成式人工智能服務管理暫行辦法》第七條規定,生成式人工智能服務提供者應當依法開展數據訓練處理活動,使用具有合法來源的數據,不得侵害他人依法享有的知識產權。然而,為海量數據獲取權利人的授權并不現實,“事前授權”模式的高成本與訓練數據的海量特征之間形成張力。正是由于高許可成本和作品數據海量需求之間的沖突,導致版權糾紛頻發。如在程序員們訴GitHub和OpenAI公司案中,原告指控被告未經許可使用其代碼用于訓練Codex程序,構成版權侵權;在美國藝術家群體訴Midjourney公司案中,原告聲稱被告未經版權人許可擅自爬取數十億張圖像用于模型訓練,構成版權侵權;在Getty圖片社訴Stability AI案中,原告控訴被告擅自從Getty圖片庫中復制超過1200萬張圖片以及圖文配對信息用于模型訓練,侵犯其版權;在《紐約時報》訴微軟和OpenAI案中,原告主張被告未經許可將報刊上的數百萬篇文章用于訓練ChatGPT的行為構成版權侵權;在AlterNet等新聞媒體訴OpenAI案中,原告指控被告在訓練ChatGPT的過程中,未經許可使用其新聞作品,違反《數字千年版權法》。在“全球AIGC平臺著作權侵權第一案”中,我國法院認定某平臺因其提供的AIGC服務在用戶輸入指令后生成了侵害原告奧特曼形象的作品,構成侵權。相關案件頻發,促使GenAI數據訓練的版權合法性問題成為全球關注的焦點。
針對該問題,國內學者大多主張調整合理使用規則,以比較法研究為基點,提出借鑒歐盟《數字單一市場版權指令》(以下簡稱《DSM指令》)“文本與數據挖掘”專門例外規則,或借鑒日本《著作權法》中的“計算機信息分析”合理使用條款,或采用美國靈活開放的合理使用模式。也有部分觀點提出法定許可方案,少數觀點提出遵循授權許可模式。可見,我國學界對解決該問題提出了各種可能的選擇,但尚未達成共識。有鑒于此,本文首先明確GenAI數據訓練的具體過程及其侵權風險,繼而針對授權許可、法定許可以及合理使用方案的適用障礙進行詳細的闡述,并以博弈論視角分析相關利益主體的策略選擇,得出采用合理使用制度可能是較為合理的選擇。最后,以《著作權法實施條例》(以下簡稱《實施條例》)修改為契機,對GenAI數據訓練的合理使用條款進行設計,以期對相關立法的完善提供參考。
二、GenAI數據訓練的版權侵權風險
為了明晰GenAI數據訓練過程中哪些作品使用行為涉及版權侵權,以及侵犯哪些權能,有必要對GenAI數據訓練的技術原理進行剖析,總結出誘發侵權風險的原因,并明確具體的侵權情形。
(一)GenAI數據訓練實例
知識、數據、算力和算法是建構GenAI的四個關鍵要素,其中數據是關鍵核心要素。GenAI數據訓練其實就是機器學習的過程,通過對大量數據進行分析建模,在掌握人類語言的基本規律后,理解用戶指令并自主創建新內容。為了辨明此過程中哪些行為可能涉嫌侵犯版權,具體侵犯什么權能,需對其技術原理進行剖析。
以ChatGPT為例,其主體架構遵從“語料體系+預訓練+微調”的基本模式。語料體系是模型的基礎,包括預訓練語料與微調語料兩個部分。前者是從期刊、百科、論壇等渠道收集并經過初步清理后形成的海量無標注文本數據;后者是從開源代碼庫爬取、專家標注以及用戶提交等方式收集加工的高質量有標注的文本數據。這些文本數據為ChatGPT學習過程提供了堅實的語料基礎,是保證其技術應用和升級的關鍵要素之一。ChatGPT對海量數據進行大規模生成式預訓練的過程采用自回歸的訓練策略,訓練順序按一般語言文字的順序從左向右進行,訓練內容為基于序列中當前的元素來預測下一個元素。通過大量訓練可形成規模達千億乃至萬億級別的參數,從而確保大語言模型對人類語言的理解和文本生成能力。在預訓練之后,結合特定任務和專業知識庫進行微調模型訓練。在這個過程中,通過對高質量有標注的文本數據進行學習訓練,不斷調整自身參數,保證其產出與人類認知、需求和價值觀一致,提升人機對話的順暢性以及生成內容的準確性。數據貫穿機器學習的始末,被稱為大語言模型的核心驅動力,其質量和容量不單單影響其生成能力的強弱,更決定了模型運行的成敗。
GenAI數據訓練的整個過程大體上可以分為數據輸入、模型訓練和結果輸出三個階段。在數據輸入階段,主要的工作是獲取數據并進行轉碼處理。獲取的數據不僅需要大量的作品、資料等,而且需要大量示例信息,比如文本與圖像、視頻的對應關系等。在Getty Images v.Stability AI案中,原告就指出Stability AI不僅擅自復制其圖像作品,而且利用了數十億個詳細的文圖配對信息,這樣的信息對于模型訓練至關重要。數據收集、處理完畢后,將其輸入計算機進行模型訓練。以現下較火爆的“文生圖”和“文生視頻”軟件為例,其在訓練階段廣泛應用了擴散模型,擴散原理是“先增噪后降噪”,模擬一個從有序到無序再到有序的過程。具體來說,先給現有圖像逐步施加高斯噪聲,直到圖像被完全破壞,然后再去噪還原圖像。在這個過程中不斷優化自身參數,以通過用戶指令生成符合“文本與圖像對應”的內容。在輸出階段,模型基于對訓練數據的提取和處理,通過理解用戶指令形成學習結果并予以輸出。值得注意的是,GenAI并不以文本數據的“復制”或“重新組合”為目標,而是在訓練過程中,將文本數據轉換為計算機模型的最小單元,在學習最小單元之間的關系后,基于對指令的理解,重新生成內容,因此通常來說輸出的形式與原作品可能具有相似性但并不完全相同。
(二)GenAI數據訓練的版權侵權緣由
第一,作品數據的使用貫穿GenAI數據訓練的全過程。在數據輸入階段,獲取的海量數據涵蓋公共領域的數據以及受版權保護的作品。前者包括超過權利保護期的作品、官方文件和事實信息等,可以為社會公眾自由使用;后者指向尚處于權利保護期的版權作品,若未經許可擅自使用就可能導致侵權。訓練數據可能涵蓋的版權有兩個層次:一是訓練數據集中單個作品的版權;二是訓練數據集作為整體匯編作品的版權。獲取作品數據后,需對其進行轉碼操作以形成適合機器閱讀的標準格式語料。在轉碼環節以作品形態區分兩種情形:一是非數字作品,應先進行數字化再進行轉碼;二是已數字化的作品,直接進行轉碼。兩種情形下,都涉及作品的復制權。數據的獲取和處理行為,是對作品的合法使用還是侵權使用,決定了GenAI數據訓練的整個過程是否正當。在模型訓練階段,對作品數據的學習和分析,是從大量表達中提取人類語言的基本規律和特征,再將其應用到具體場景中,學習的是作品的“表達形式”而非“思想”。在結果輸出階段,能夠生成具有作品外觀的形式,與原作品構成實質性相似的,就可能侵犯版權。綜上,數據輸入階段需獲取和使用受版權保護的作品,模型訓練階段是對作品“表達”的學習,輸出結果也是具有作品外觀的形式,因此GenAI數據訓練全過程都與作品利用有關,導致產生版權侵權風險。
第二,對作品數據的“作品性使用”,使GenAI數據訓練面臨版權侵權風險。作品的使用貫穿GenAI學習訓練的全過程,但針對知識產權對象的使用行為,并非均落入專有權的保護范圍,專有權只能規制“知識產權法律意義上的使用”。因此,有學者借鑒商標法領域的“商標性使用”概念,將對作品的使用行為區分為“作品性使用”和“非作品性使用”,只有前者才可能屬于侵犯版權的使用行為。GenAI本質是AIGC,是在學習海量作品的“表達”的基礎上,不斷訓練“創作”能力,從而智能化生成特定內容,對作品的使用應當認為屬于“作品性使用”。有學者以是否具有表達性內容的輸出為標準,將機器學習分為“表達型”和“非表達型”兩種。非表達型機器學習雖然在訓練過程中復制、存儲、匯編了作品數據,但不以使用作品的表達性內容為目的,通常是對事實信息的采集和分析,并且也無表達性內容的輸出,因此不受版權專有權控制,不構成侵權。如人臉識別技術,該技術對照片的采集和訓練旨在實現身份驗證和安全監控等功能,并不包含用于人工智能訓練的原始照片的任何表達性內容,屬于非表達型機器學習。而GenAI對作品數據的使用并非針對原作品的事實信息,而是原創性表達,其輸出的結果也并非實現目的性或功能性轉換,而是形成了與原作品有關聯的表達形式。在此意義上,可以認為GenAI數據訓練屬于“表達型”機器學習,對作品的使用屬于“作品性使用”,因此可能構成對版權的侵犯。
(三)GenAI數據訓練的版權侵權情形
GenAI數據訓練的版權法律后果,實際上分別由數據輸入階段和結果輸出階段所吸收。在數據輸入階段,對作品的轉碼以及在監督學習的情況下人工對數據進行標記、整理和匯總的行為,可能涉及作品的復制權、翻譯權、改編權和匯編權。對作品數據進行轉碼的過程是以“機器語言”重現作品,對作品的標記、整理和匯總也涉及對作品的全文復制,因此可能侵犯復制權。但這些行為不會侵犯權利人的翻譯權、改編權和匯編權。原因在于:第一,將作品轉碼為機器語言,并非“翻譯”行為,機器語言也并非“語言文字”的一種,因此與翻譯權無關;第二,轉碼和標記行為不涉及任何獨創性的表達,也未對作品內容進行改動,故而不會侵犯改編權;第三,對作品數據的整理和匯總僅作為訓練數據使用而不對外發布,不會侵犯匯編權。同樣地,上述行為也不會侵犯權利人的修改權和保護作品完整權。修改權和保護作品完整權屬于“著作人身權”,在于保護作品不被擅自修改或歪曲篡改,以保證作者本意與作品意思的同一性。因此,構成侵權的前提在于修改后的內容與原作產生聯結,使讀者從作品聯系上作者的性格、思想和情感。然而,轉碼和標注等行為既未對作品的內容進行實質改動,又未將操作后的作品進行傳播,故而無關作品的修改權和保護作品完整權。
在模型訓練階段,對作品表達形式的利用可能涉及翻譯、改編和匯編等行為,若訓練數據是以非法方式獲取的,那么上述作品使用行為當然構成侵權,但若訓練數據是以合法方式獲取的則應結合輸出的結果予以分析。在輸出階段,生成的表達形式具有三種情形:一是全新作品;二是與原作品相同或相似的表達;三是保留原作品基本表達的具有獨創性的作品。第一種情形不構成侵權;第二種情形下,若生成與原作品完全相同的表達,或者構成“實質性相似”,則可能侵犯復制權;第三種情形可能涉及對改編權的侵犯。如果GenAI開發者為了進行機器學習,或者為了實現研究結果的可驗證性,將數據或文本上傳至互聯網,可能涉嫌侵犯廣播權或信息網絡傳播權。若將機器學習的數據分析結果在互聯網上進行傳播,也可能導致廣播權或信息網絡傳播權侵權。
三、GenAI數據訓練的版權合法性障礙
由上文分析可知,GenAI數據訓練行為可能侵犯復制權、信息網絡傳播權等權利。為消解版權侵權風險,可以選擇事前獲取作品的授權許可或者運用法定許可和合理使用條款依法獲得侵權豁免。但這三種選擇均具有實現和適用的障礙。
(一)GenAI數據訓練授權許可模式實現之障礙
在當前的法律框架下,使用他人受版權保護的作品,應當事前獲得授權許可并支付報酬。然而,訓練數據的海量特征與授權許可模式的高成本之間形成張力,傳統的授權模式在實踐中難以支撐海量數據學習模式的需要。首先,授權許可模式雖然充分尊重私主體的意思自治,但由于市場主體的有限理性以及契約不完備的固有困境,獲取授權往往需要經過反復的利益談判才能達成,這導致交易流程繁瑣,數據獲取效率低下。其次,遵循授權許可模式,使數據交易成本過高,可能導致市場失靈。若對機器學習所需的海量作品一一尋求許可,不僅需要精準識別作品的來源并確定權屬,而且需要就許可費和授權范圍進行多輪磋商,識別成本和談判成本較為高昂。在完美的市場上,如果在后使用作品產生的價值遠高于許可成本,那么由市場機制發揮作用即可。但GenAI數據訓練卻以較高的交易成本疊加較低的預期收益,這就導致了作品許可市場的失靈。此外,部分著作權人對GenAI使用其作品具有抵抗和排斥的心理,造成了更大的磋商障礙。他們一方面擔心人工智能技術的快速發展可能會影響自己的職業從而采取抵制態度,另一方面擔心人工智能創作能力的逐漸增強,會使人類越來越依賴機器而導致創作能力逐漸退化。
當前,GenAI開發者可以通過與互聯網平臺和數據庫服務商交易一站式獲取數據,在一定程度上提升了授權許可的效率,似乎可以有效降低作品的交易成本。但由于缺少作品絕對集中的網絡服務商,并且一攬子許可容易產生潛在的訴訟風險,導致交易成本高昂的問題仍難以克服。具體而言,無論是從互聯網平臺、公開網頁或是數據庫獲得作品,都無法避免與著作權人進行額外、分散、逐一地協商,談判和執行成本居高不下。一些互聯網平臺通過用戶服務協議集中了用戶發布的內容,并獲得對該內容進行免費使用、非獨家和分許可的權利。GenAI開發者可以直接與互聯網平臺進行談判,獲得授權后從平臺批量下載數據。但是用戶在服務協議中同意平臺免費使用和分許可自己發布的內容,應當限于為維持自身運營以及提升服務質量等目的而進行的使用。將這些內容許可給其他服務提供者可能超出用戶對服務協議的預期,潛在的侵權風險致使GenAI開發者無法掠過著作權人。對于數據庫而言,分為兩種情形:一是未經著作權人授權將作品數據一攬子許可給GenAI開發者的,若不額外與著作權人逐一協商,使用作品仍具有侵權風險;二是數據庫受到著作權人共同委托的,獲取作品數據集無須再向權利人獲取許可,但由于委托數據庫代理許可事宜的未必包含全部相關權利人,侵權風險仍然存在。即便順利達成大規模的作品數據交易,高昂的許可使用費也是壓在GenAI開發者肩上的“一座大山”。
(二)GenAI數據訓練法定許可方案運用之障礙
為了解決作品許可市場失靈的問題,實現技術發展和文化創新的平衡,有學者提出運用法定許可制度,規定GenAI開發者可以不事先獲取權利人的許可直接使用該作品,僅須向權利人支付合理報酬。這是通過立法預設交易條件替代私主體協商的方案,以弱化權利排他性的方式有效降低交易成本。滿足法定條件的,即可跳過協商環節,以法律規定的特定方式使用作品,既保證了著作權人從市場中獲取經濟收益,又能避免逐一許可,提升數據獲取效率。這一主張具有一定的意義,但是將GenAI數據訓練行為增設為一項新的法定許可使用情形,并不符合法定許可制度的立法價值,同時仍然難以跨越高成本的障礙。
首先,在擴大法定許可范疇時,應當從制度的立法價值出發,避免想當然地利用該制度扭轉作品許可市場的失靈。當前主張運用法定許可方案的觀點,僅以法定許可產生的正向效應為論證基礎,并未充分考慮GenAI數據訓練行為與該制度的契合性。通過追溯美國版權法定許可制度的立法定位,發現其立法價值是在新的作品傳播方式和傳播主體出現時,用以調和新舊產業主體之間的利益分配的權宜之計。以錄音制品的法定許可為例,起初音樂作品僅以樂譜的方式進行復制和發行,與圖書共同隸屬出版產業。隨著音樂作品新傳播載體的普及,音樂產業由樂譜發行向錄音制品發行轉型,由此出現了新的傳播主體“錄音制品制作者”。為了調和音樂作品傳統出版者和錄音制品制作者的利益分配矛盾,同時避免已取得授權的主體獲得壟斷地位,立法者賦予使用者在法律框架內平等錄制音樂作品的權利。這種基于產業利益協調的立法價值,被定位為私人授權許可的補充,其適用被視為一種臨時性、妥協性的制度工具,因此在立法設計上并未簡化許可程序,反而增加嚴格的適用條件。我國法定許可制度具有較強的公共屬性,其基本目標是促進作品的傳播,實現著作權人、傳播者以及公眾之間的利益平衡。針對GenAI數據訓練行為,運用法定許可方案的確能夠調和著作權人和人工智能開發者之間的利益沖突。但是反過來,為GenAI數據訓練行為設定法定許可規則卻難以實現促進作品傳播、保證公眾及時獲取作品等公共利益目標。原因是:第一,GenAI缺乏傳播作品的經濟誘因,其商業模式在于通過對大量作品的學習為公眾提供生成內容服務,生成的作品甚至與原作品形成市場競爭關系;第二,社會公眾并不依賴GenAI數據訓練獲取作品,公眾所享受的乃是技術進步帶來的作品創造力的提升。
其次,運用法定許可使用方案雖提升了獲取作品的效率,但并未解決交易成本高昂的問題。第一,由于訓練數據所需作品數量眾多,所需支付的法定許可使用費用依舊高昂。作為理性的經濟主體,當投資遠高于回報時,GenAI開發者必定望而卻步。在這種情況下,開發者可能放棄對GenAI技術的研發和應用,但更可能以承擔侵權風險為代價來換取技術的發展和應用。因為對作品數據的使用通常比較隱蔽,權利人也較難舉證證明。如此對于解決數據訓練的合法性問題并無半分增益。第二,法定許可定價難以適應市場的靈活多變。法定許可主要通過定價權的轉移,來實現財產權排他性的弱化。但無論定價權是通過代表談判的方式協商再經由版權主管部門批準,還是直接由版權主管部門確定,都難以克服法定價格機制的固有缺陷。定價靈活性的缺乏不僅可能阻礙作品價值的實現,而且限制了市場有效率的競爭行為。第三,法定許可費的收取和管理工作將耗費巨大的成本。其一,法定許可的推行建立在對使用的作品數據進行充分公開的基礎上;其二,要對數以萬計的作品進行權屬明晰以及分發許可費;其三,管理機構可能還需要代替權利人進行維權和應訴。上述過程,需要耗費巨大的人力、物力和財力,在扣除這些成本后,剩下的部分可能不足以實現對著作權人的激勵。總的來說,運用法定許可方案可能使社會整體福利呈現凈損失。
(三)GenAI數據訓練合理使用條款適用之障礙
為促進技術發展,讓GenAI開發者利用作品成為可能,將數據訓練行為納入版權合理使用制度也是一個選擇。當前各國的立法政策也傾向于采用合理使用制度解決GenAI數據訓練的合法性問題,如歐盟設定“文本與數據挖掘”的專門例外,日本規定“提供新的知識信息”的合理使用情形等。
我國《著作權法》規定的合理使用情形并不包括GenAI數據訓練行為,只能試圖通過解釋論的立場將其解釋為合理使用的特定情形之一。與GenAI訓練數據相關聯的合理使用情形主要有:個人使用、適當引用、科學研究的少量復制使用等。對于“個人使用”情形,使用作品的目的是“個人學習、研究和欣賞”,但這里的“個人”通常限于“自然人”,不能包括法人與非法人組織,更不能囊括人工智能系統。從歐盟《DSM指令》將“文本與數據挖掘”的主體限于“研究機構”和“文化遺產機構”可知,“個人”無法成為數據挖掘主體,“個人使用”也無法解釋為包括GenAI數據訓練行為;對于“適當引用”情形,首先要求對作品的使用是“適當”的,其次使用的目的在于“為介紹評論某一作品或者說明某一問題”,但數據訓練過程對作品的使用并非“引用”行為,也突破了“適當”的限制,故而無法適用;對于“科學研究的少量復制使用”,雖然GenAI對作品數據的分析、處理可以視為科學研究行為,但是作為合理使用的科學研究,不僅存在主體限制(限于公立學校、科研院所等),而且存在數量限制(少量復制),因此GenAI數據訓練行為也難以使用該情形進行抗辯。綜上,無法將GenAI數據訓練行為解釋為我國《著作權法》規定的特定合理使用情形,原則上應構成侵害版權的行為。雖然我國法院在實踐中吸收了美國合理使用的四要素標準,并在系列案件中突破了《著作權法》的封閉式規定。但這樣的突破實際上是于法無據的,同時也造成了司法適用標準的混亂。此外,為解決GenAI數據訓練的合法性問題而增設合理使用專門條款,受到過度偏向技術進步而忽略著作權人利益的批評。配置作品數據資源的方案選擇,不僅需要衡量立法技術,還需充分考慮各方利益訴求。
四、博弈視角下GenAI數據訓練相關利益主體的沖突和協調
GenAI數據訓練的版權合法性爭議,反映了著作權人(創作者)和GenAI開發者(使用者)的利益沖突。借用博弈論分析工具,能夠更好地研判博弈參與者的策略選擇,以探尋最優的解決方案。
(一)博弈論適用策略效用
博弈論是研究存在利益沖突與合作的主體在互動中作出理性選擇的一種分析方法。其總體邏輯是,博弈參與者在掌握博弈規則(包括行為、時間和信息)的基礎上,以自身利益最大化為目標作出決策選擇,在先決策會對在后決策產生影響,從而產生動態的決策改進。博弈參與者被假設為“理性人”,在進行決策時,能夠根據所掌握的信息以及其他參與者的決策實現目的最大化,把自身核心利益當作努力追求的最終目標。博弈論分析方法綜合考慮了各博弈參與者的預期和實際行為,其效用在解釋具有競爭性或利益沖突現象中尤其顯著。
著作權人與GenAI開發者之間的矛盾源于經濟利益沖突:GenAI開發者使用作品不僅不向著作權人尋求許可,而且生成的內容還可能影響原作品的市場利益。因此,著作權人希望維持對作品的嚴格控制,他人使用作品的必須獲得許可并支付報酬;而GenAI開發者希望可以通過合理使用制度,以最低成本獲取海量數據資源。二者作為理性人均以追求自身利益最大化為目標,其策略選擇不僅回應自身需求,而且受到相互之間行為決策的影響。比如,當著作權人不愿意放棄許可權或獲酬權時,GenAI開發者受制于過高的交易成本,要么選擇放棄技術的升級應用,要么只能選擇承擔侵權風險。這種以追求自身利益最大化為目的,并且策略又相互影響的過程,符合博弈論的基本分析框架。鑒于GenAI的技術水平、數據訓練規模、法律和政策導向以及市場現存作品等信息在一定程度上均是可公開獲取的,博弈參與者的決策可以基于博弈信息以及其他利益相關主體的行為作出適當調整。博弈論適用的效用體現在:一是通過博弈分析,研判創作者、使用者以及社會公眾在不同制度環境下作出的策略選擇,可以清晰地得出不同的制度設計對于參與者群體策略選擇的影響,從而衡量制度的激勵功能是否充分實現;二是基于博弈論分析框架,分析各利益主體可能作出的理性行為決策,有助于形成最優策略組合下的納什均衡。
(二)著作權人與人工智能開發者的博弈
從博弈論的視角出發,能為著作權人和GenAI開發者利益沖突的解決提供新的思路。在經典模型“囚徒困境”中,兩名共謀犯均以追求個人利益最大化為目標,從而都作出“招供”的策略選擇,但在該嚴格占優策略均衡下,雙方卻又陷入了對彼此來說都不利的局面。囚徒陷入困境的原因在于,一方從不招供轉變為招供,個人能夠獲得減刑。但同時會增加同伙的刑期,這是該囚徒施加于同伙的負外部性。而在“獵鹿博弈”中,合作會成為多數情況下的選擇。兩個博弈模型最大的區別就在于:“獵鹿博弈”模型中,雙方都選擇合作具有可預期性,從而形成穩定而持續的狀態;而在“囚徒困境”中,由于無法溝通且缺乏信任,導致難以形成穩定的狀態。“囚徒困境”所引發的集體理性和個體理性對立是人們在社會合作中不可避免的實際問題。著作權人與GenAI開發者之間的利益博弈實際上就是“囚徒困境”的表現,若博弈雙方均以自身利益最大化為目標進行決策選擇,最終將形成對彼此都不利的局面。但是,著作權人與GenAI開發者之間的博弈可以建立在協商的基礎之上,屬于動態博弈過程,當二者在經歷多次以“個人效用”為核心的策略后,發現還可能具有雙贏的局面,這比嚴格占優策略所形成的局面更佳,那么二者就會在之后的博弈過程中嘗試互建信任,驅使雙方都選擇合作策略。若假設博弈次數是無限的,商業往來也是無限的,那么二者的策略都將選擇持續的合作,由此形成納什均衡。
GenAI數據訓練的合法性爭議背后承載了人格利益、財產利益以及社會公共利益,不同利益之間的沖突和博弈,折射出“版權嚴格保護”與“作品自由使用”之間的緊張關系、“私人利益”與“公共利益”之間的權衡關系。在博弈參與者利益沖突的過程中,往往需要進行協調和妥協,以實現資源配置效益的最大化。對于著作權人而言,在保證合法權益(尤其是獲酬權)的情況下,實際上并不排斥作品被使用。其可能的擔心之處在十,作品被用于訓練后生成的內容對原作品的市場利益產生影響或對原作品市場產生替代作用。如在美國國會聽證會上,藝術家卡拉,奧爾蒂斯(Karla Ortiz)認為,藝術作品一經訓練就無法被機器遺忘,藝術家們被迫與建立在自己作品基礎上的人工智能模型競爭,對他們的權益產生很大的損害。但同時,GenAI服務能力的提升也會使創作者受益。創作者運用人工智能技術進行創作活動,能夠降低生產成本,提升創作效率和產量,從而獲得更多的市場利益,以此沖抵帶來的負面影響。對于GenAI開發者來說,其希望在合法合規的前提下,以較低的成本獲取大量作品;對于社會公眾而言,其既是GenAI技術的受益者同時也是創作者,不僅希望能獲得更好的內容生成服務,而且也希望生成的作品受到保護。這三方利益的調和以著作權人和GenAI開發者利益協調為前提,二者存在共贏的可能。在著作權人與GenAI開發者無法通過協商形成最優策略時,還可以通過法律法規對博弈的方式進行改變,從而達到帕累托最優。
(三)可能的博弈策略研析
當前,解決GenAI訓練數據版權合法性問題的方案主要有:授權許可、法定許可和合理使用。從價值衡量來說,方案的選擇需平衡“版權保護”“作品利用”和“技術進步”三項價值。上述三種方案,版權保護依次減弱,技術進步的促進逐漸增強。相較于授權許可方案,法定許可和合理使用都更加偏向技術進步,專有權效力被弱化;而授權許可模式是對版權的嚴格保護,但是限制了對作品的利用,不利于GenAI技術的進步。
在博弈過程中,若遵循授權許可方案,GenAI開發者將面臨兩種策略選擇:一是只使用部分具有合法來源的數據進行訓練,犧牲GenAI服務的質量;二是依舊使用海量數據,但以承受侵權風險支撐技術的應用和升級,背負作品數據非法使用的“原罪”。在進行風險和收益分析時,若技術升級應用所實現的價值遠高于承受侵權風險所帶來的成本,那么作為理性主體的GenAI開發者必定會選擇第二種策略。對于著作權人來說,拒絕自身作品被GenAI開發者使用的,只能通過起訴維護權利,但需要承擔訴訟成本和時間成本,對于個體而言并不具有與人工智能公司抗衡的能力,理性的著作權人通常只能選擇息事寧人。
對于法定許可方案而言,雖然對各方利益均有兼顧,但根據上文分析可知,其在技術支撐、法律規制和實施保證等方面實現難度過高,并非收益最大的方案。而對于合理使用方案,其不足之處在于過度偏向GenAI開發者,而可能有損著作權人的利益。但實際上大多數的機器學習行為并不會損害著作權人的市場利益,可以預見的是,隨著GenAI開發者對過濾技術的使用,不斷提升防御誘導式提問的能力,輸出與原作品實質性相同的情形逐漸減少。有觀點認為,GenAI模仿了某位作者的“風格”,將造成對作品市場利益的實質性損害。但《著作權法》并不保護“風格”,上述情形雖然可能會影響原作者的市場利益,但卻不是著作權法解決的問題。在博弈的過程中,已有作品數據的數量和質量是影響博弈策略的一個重要方面。當存在大量優秀的作品數據時,作品的合理使用對各方都有利;但當此類作品數據稀缺時,合理使用就可能損害創作者的利益。為更好地兼顧著作權人的利益,歐盟《DSM指令》為權利人設定了“選擇退出”機制。但以理性人的角度分析,合理使用并未將著作權人置于利益分享的范圍內,若權利人選擇退出無須承擔額外的成本,反而可以試圖獲取許可收益,那么著作權人可能都將傾向于選擇退出。
如前所述,解決GenAI訓練數據合法性的策略涉及三項價值。但從不同角度分析,價值側重有所不同。從產業政策角度來看,合理使用制度可以減輕技術研發負擔,促進產業發展,若要求逐一許可將承擔過高成本,可能造成“公地悲劇”。從全球制度競爭的視角來看,歐盟、日本、美國均規定了關于GenAI數據訓練或嚴或寬的版權舉措,為應對人工智能制度競爭浪潮,我國也有必要采取合理使用制度以營造良好的人工智能產業發展環境。因此,在博弈視角下,合理使用制度是解決著作權人和GenAI開發者利益沖突的較優選擇。
五、GenAI數據訓練的版權合理使用條款設計
合理使用是配置作品數據資源的較優路徑,也是協調著作權人和GenAI開發者利益沖突的理性選擇。但是難以通過解釋路徑將GenAI數據訓練行為納入現有的合理使用情形;若是適用由美國判例法發展而來的“轉換性使用”規則,可能存在適用范圍過于寬泛,司法適用標準不一的問題。因此,通過立法以體系性規范為基礎將GenAI數據訓練行為明確為特定的合理使用情形,不失為一種選擇。2020年我國《著作權法》第三次修改引人“三步檢驗法”,并新增“法律、行政法規規定的其他情形”這一兜底條款,為GenAI數據訓練行為納入合理使用范疇提供了制度空間。可以《實施條例》的修改為契機,增設GenAI數據訓練的合理使用情形。
(一)《實施條例》引入GenAI數據訓練合理使用條款的價值考量
首先,延續《著作權法》“寬進寬出”的分析框架,明確GenAI數據訓練行為受到版權專有權控制,并適當放寬合理使用的標準。有觀點提出,數據訓練行為應當界定為“非作品使用行為”,將其排除在版權權利范圍之外,這種做法優+“先進后出”的合理使用方案。也有觀點區分不同階段,認為數據輸入和訓練階段對作品的使用不落人版權專有權控制范圍。以上觀點有待商榷。若嚴格設定著作權法的準入門檻,將GenAI使用作品的行為均定義為“非作品性使用”,將計算機的“臨時復制”排除出“復制權”的控制范圍,可能導致大量信息成果無法適用版權的分析框架。版權分析框架相較于其他創新性利益分析框架的優勢在于,前者采取放寬準入的方式以應對海量信息成果帶來的界權挑戰。若過分限縮受《著作權法》控制的行為范圍,對海量信息成果進行“事前界權”,可能導致整體社會成本的提升,錯誤地拒絕保護更可能挫傷創新熱情。值得注意的是,將GenAI數據訓練行為納入《著作權法》的分析框架,也并不意味著讓大量利用作品的行為承擔侵權后果。通過合理使用規則,能夠在后端提供恰當的“出口”,對無損于社會利益和著作權人合法權益的行為以及在市場失靈情形下的作品利用行為予以免責。如此,既能發揮《著作權法》“事后界權”的優勢,對非典型作品使用行為予以足夠的關注,又能有效降低社會成本,維持《著作權法》的激勵功能。
其次,以利益平衡原則作為GenAI數據訓練合理使用情形的價值指引原則。GenAI數據訓練的合法性爭議突出表現在著作權人和GenAI開發者的利益沖突。由上文分析可知,兼顧各方利益是破局的關鍵。合理使用制度旨在維系著作權人與其他參與性主體(傳播者、使用者等)之間的利益平衡關系。隨著傳播技術的發展和數字環境下新作品使用方式的出現,在版權專有權效力得以延伸時,也應保障合理使用范圍得到必要的擴展。實現“促進社會主義文化和科學事業的發展與繁榮”的立法目標,不僅需要保護版權人的利益,而且要關注社會公眾的利益。公眾作為作品的使用者是《著作權法》上不可或缺的主體,保證公眾對作品的接觸、欣賞和學習是實現版權立法目標的重要環節。GenAI開發者亦屬于“公眾”中的一員,引入GenAI數據訓練合理使用條款,擴大訓練數據的獲取范圍,有助于避免產生算法偏見,提升生成內容服務的能力和水平,助力文化繁榮。
最后,對引入的GenAI數據訓練合理使用條款進行適當概括,賦予法官一定程度的自由裁量權。《著作權法》第三次修改引入“三步檢驗法”并新增“法律、行政法規規定的其他情形”這一兜底條款,但實際上對于合理使用依舊采取從嚴認定的原則,既要滿足特定情形,又要接受一般條款的檢驗。這次修改雖通過增加兜底條款,提升了合理使用認定在一定程度上的靈活性,但是現行規定的12種情形,不僅在數量上遠少于歐洲大陸法系國家著作權法規定的例外情形,而且寄希望于通過第13種情形不斷增加權利限制的情形并不現實。原因在于,《實施條例》等行政法規修改頻次較低,為配合《著作權法》實施修訂后短期內再次修訂的幾率并不大。因此,在此次《實施條例》修訂引入GenAI數據訓練合理使用條款時,對該條款的設計不應再設置過多的“限制條件”,應對其進行適當的概括,讓其接受一般條款的進一步限定,從而留給法官一定的裁量空間,方能更好地應對實踐需求。
(二)《實施條例》引入GenAI數據訓練合理使用條款的專門例外
為了解決作品許可市場失靈現象,促進GenAI相關產業的發展,協調著作權人和GenAI開發者的利益沖突,應當在《實施條例》中引人GenAI數據訓練合理使用條款的專門例外。
首先,就適用主體而言,我國應選擇不嚴格限定適用主體的立法模式。歐盟《DSM指令》第3條規定了“文本與數據挖掘”的強制性例外,適用于“研究機構”和“文化遺產機構”兩類主體。歐盟對適用主體的明確,雖然可以增強規則適用的預期,但因限定主體導致適用范圍過于狹窄而遭受批評。日本《著作權法》中“提供新的知識和信息”條款未限定適用主體。我國立法應選擇不限定適用主體的做法。原因在于兩個方面。其一,在GenAI技術應用中使用作品數據的主體,不僅包括高校、科研院所等教育和科研機構,而且包括社會機構和企業。企業作為提供CenAI服務的重要主體,不能忽略;此外,很多企業也成立了科研機構,若如歐盟一般將主體限定為研究機構,可能導致實踐中區分困難的情形。其二,不嚴格限定適用的主體,能使該條款具備一定的彈性空間。我國合理使用制度采用“三步檢驗法”,除屬于法定情形外,還需要接受一般條款的進一步限制。也就是說,在對作品進行商業性使用時,可能會因為影響了該作品的正常使用或不合理地損害著作權人的合法權益,而不構成合理使用。利用一般條款進行限制,可以賦予法官一定程度的自由裁量權,相對主體限定模式將更為科學,也更加合理地平衡了科學研究、產業發展和著作權人的合法權益。
其次,就適用條件而言,我國不應以非營利性目的作為適用條件。日本《著作權法》中“非享受性使用條款”適用于不涉及對作品思想或情感表達享受的情形,未排除以商業目的使用作品的行為;美國“四要素標準”雖然關注“作品使用目的與性質”,相較于非商業使用目的而言,商業性合理使用的認定可能需要更加正當的理由,但“轉換性使用”并不絕對排斥商業性合理使用。我國立法也不應以非營利性目的作為適用條件。原因在于以下幾個方面。一是相對于作品使用者獲得的經濟利益而言,著作權法更應注重所取得的社會利益。GenAI產業的發展關系國家戰略,技術的應用和發展能夠產生較大的社會效益,即便GenAI開發者具有直接或間接的商業利益驅動,也無法掩蓋其帶來的社會效益,適當犧牲著作權人的利益符合對價原則。二是為GenAI數據訓練使用作品大多出于商業目的,需要付出巨大的成本,雖然不排除為了公益目的而進行投資的情況,但毫無疑問,投資者所追求的是人工智能技術的應用價值和商業效益。若排除商業目的的合理使用,該條款所產生的實際效用將微乎其微。三是我國合理使用制度并不排斥商業性合理使用。諸如“適當引用”等情形并未明確“非營利目的”,在司法實踐中,也有法院認為對作品進行“適當引用”既可以是公益性的也可以是商業性的。如上文不限定適用主體的分析一般,放寬適用條件,通過一般條款進行限制,在實踐中將具有更強的適用性。
最后,就適用行為而言,應盡可能囊括GenAI數據訓練過程中涉及的作品使用行為。如上文分析可知,在GenAI數據訓練過程中可能涉及對作品的復制、改編、廣播和信息網絡傳播等行為。歐盟《DSM指令》僅將“文本與數據挖掘”的適用行為規定為“復制和提取”,無法囊括GenAI數據訓練所涉及的作品使用行為。2018年日本《著作權法》修訂,將侵權豁免的行為進行了擴大,刪除了信息分析結果利用行為的限制條件,不局限于“記錄”或“改編”,更改后的條款允許將信息分析結果進行發布、轉讓和公共傳播。我國可以考慮借鑒日本的做法,為GenAI數據訓練提供更為寬松的環境,將該條款適用的行為規定為復制、改編和向公眾傳播。
綜上,本文建議在《實施條例》中引入GenAI數據訓練的合理使用條款,將其設計為:“為生成式人工智能訓練數據,復制、存儲、改編他人已發表的作品以及將數據訓練成果向公眾提供。”
六、結語
GenAI技術的應用和升級以海量數據的“投喂”為基礎。為破除GenAI數據訓練的合法性障礙,域外多個國家和地區或引入專門例外規則,或通過司法實踐對該問題進行靈活處理。我國也應積極采取行動,為數據訓練合法性問題提供解決路徑。著作權人和GenAI開發者之間的沖突并非不可調和,兼顧各方利益是破局的前提,相互信任是合作共贏的基礎。通過對不同方案下博弈參與者的策略選擇進行分析,發現合理使用是協調二者利益沖突的理性選擇。從產業政策角度來看,合理使用制度能夠為技術研發和應用減負,促進GenAI產業發展;從全球制度競爭的視角來看,為應對人工智能制度的競爭浪潮,我國有必要積極采取措施,完善合理使用制度以適應人工智能產業發展。因此,我國應在《實施條例》修改之際,引入“生成式人工智能數據訓練”合理使用的專門例外,解決當下作品許可市場的失靈現象,協調相關利益主體的分歧與沖突,促進技術創新、文化繁榮與社會發展。
(作者曹新明系中南財經政法大學知識產權研究中心教授、博士生導師;范曄系中南財經政法大學知識產權研究中心博士研究生)
本文系教育部人文社會科學重點研究基地重大項目“建立科學高效的專利無效抗辯制度研究”(項目編號:22JJD820028)的階段性成果。