999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)圈地運動背景下人工智能訓練他人作品的合法性分析

2024-12-31 00:00:00陳棟
電子知識產(chǎn)權(quán) 2024年10期
關(guān)鍵詞:人工智能

摘要:人工智能和互聯(lián)網(wǎng)時代,機器訓練日益成為知識傳播和交流的重要方式。語料是影響人工智能能力和水平的關(guān)鍵因素,作品是不可替代、高質(zhì)量訓練語料,但面臨大量侵權(quán)指控和糾紛,缺乏針對性和明確的處理規(guī)則。機器訓練過程中,復(fù)制行為是必要行為和爭議焦點問題。當前TDM例外規(guī)則、合理使用規(guī)則、法定許可規(guī)則等難以妥善應(yīng)對訓練行為、對象和目的及后續(xù)行為的復(fù)雜性。本文源于訓練成本高、糾紛多的現(xiàn)實問題,嘗試以技術(shù)過程、創(chuàng)新激勵和數(shù)據(jù)公平為視角,在比較相關(guān)規(guī)則適用性基礎(chǔ)上,聚焦訓練中的復(fù)制行為,主張按照被訴行為過程、作品類型、訓練方式并結(jié)合后續(xù)行為進行分步驟、綜合性評價。

關(guān)鍵詞:人工智能;機器訓練;著作權(quán);合理使用;作品性使用;轉(zhuǎn)換性使用

一、引言

人工智能(AI)技術(shù)革新與產(chǎn)業(yè)發(fā)展,創(chuàng)造了新商業(yè)模式和競爭規(guī)則,催生了新利益主體和權(quán)利格局,引發(fā)了新制度調(diào)整和法律需求。15世紀的紡織技術(shù)進步和新航路貿(mào)易擴張,引發(fā)了“羊吃人圈地運動”,深刻改變了生產(chǎn)關(guān)系。21世紀的“數(shù)據(jù)驅(qū)動的人工智能”技術(shù)和產(chǎn)業(yè)模式創(chuàng)新,引起了機器訓練與作品著作權(quán)之爭,甚至引發(fā)“數(shù)據(jù)圈地運動”和AI產(chǎn)業(yè)“非法興起”之疑慮。據(jù)報道,因為機器訓練涉嫌侵犯作者權(quán)利,美國2024年1月出現(xiàn)了13起集體訴訟和3起其他訴訟,好萊塢的編劇群體、演員工會和廣播電視藝人聯(lián)合工會相繼發(fā)起了大罷工。同時,OpenAI等AI企業(yè)則堅持認為機器訓練構(gòu)成合理使用。而法國競爭管理局已經(jīng)就谷歌公司利用新聞平臺數(shù)據(jù)進行機器訓練行為開出了2.5億歐元的罰單。世界知識產(chǎn)權(quán)組織(WIPO)2024年2月的報告顯示,世界各地都有未決訴訟有待確定使用作品訓練AI是否構(gòu)成知識產(chǎn)權(quán)侵權(quán);并提到合理使用、文本和數(shù)據(jù)挖掘(TDM)以及臨時復(fù)制等例外規(guī)則缺乏協(xié)調(diào),且對AI的適用性尚不明確。因此,機器訓練是否侵犯在先作品著作權(quán)問題是AI產(chǎn)業(yè)面臨的普遍性和基礎(chǔ)性問題,需要回歸機器訓練技術(shù)原理,立足激勵創(chuàng)新、合理設(shè)定規(guī)則,以規(guī)范經(jīng)營模式、促進產(chǎn)業(yè)發(fā)展。

二、回歸技術(shù)原理:機器訓練中作品使用行為

AI大模型搭建后需要通過大量語料來訓練,稱為AI訓練、機器訓練或機器學習。

(一)機器訓練是形成參數(shù)的過程

人類學習是通過視覺、聽覺等感官器官獲取信息,通過語言和邏輯等標記和映射客觀世界,通過生物神經(jīng)系統(tǒng)分析和反思并形成記憶的過程。機器訓練是通過AI軟硬件模擬人類學習過程而進行獲取、處理和存儲的過程,并非簡單地、機械地復(fù)制和存儲過程,形成參數(shù)就是形成機器記憶。

首先,AI標記原理是通過自然語言技術(shù)以詞向量技術(shù)映射世界。語言是承載人類智能的載體,語言規(guī)律在很大程度上體現(xiàn)了客觀規(guī)律,機器訓練是通過語言學習來映射世界,主要依靠自然語言處理技術(shù)(NLP)中的“詞向量”給世界打標簽。“詞向量”是標記在單詞上的長串數(shù)字列,可以體現(xiàn)單詞之間關(guān)聯(lián)。例如,“踢”通過詞向量與“足球”關(guān)聯(lián),一般不與“鉛球”關(guān)聯(lián)。詞向量越復(fù)雜,關(guān)聯(lián)性越全面,詞預(yù)測越準確。

其次,AI運算原理是通過人工神經(jīng)網(wǎng)絡(luò)以數(shù)學運算方式模擬思考。人工神經(jīng)網(wǎng)絡(luò)是從信息處理角度對人腦神經(jīng)元網(wǎng)絡(luò)進行抽象并建立的系統(tǒng)或網(wǎng)絡(luò),本質(zhì)上是一種數(shù)學模型或計算模型。數(shù)學是AI的基礎(chǔ)和運行方式,模型是人類理解世界規(guī)律和聯(lián)系的橋梁。從1943年麥卡洛-皮茨神經(jīng)元嘗試通過數(shù)學和邏輯來解釋生物神經(jīng)元開始,科學家將統(tǒng)計學、概率論、微積分、線性代數(shù)等數(shù)學應(yīng)用于AI,出現(xiàn)了多種數(shù)學應(yīng)用模型,例如前饋神經(jīng)網(wǎng)絡(luò)處理直接信息流,卷積神經(jīng)網(wǎng)絡(luò)則擅長圖像處理,循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)適合序列數(shù)據(jù),另外生成對抗網(wǎng)絡(luò)、變分自編碼器、自組織映射、徑向基函數(shù)網(wǎng)絡(luò)等各有所長。

最后,AI記憶原理是通過信息權(quán)重值變化以形成記憶參數(shù)。構(gòu)成人工神經(jīng)網(wǎng)絡(luò)的數(shù)學模型由大量的節(jié)點(人工神經(jīng)元)相互連接構(gòu)成,每個節(jié)點代表一種特定的輸出函數(shù),每兩個節(jié)點間的連接存在信號權(quán)重。在機器訓練時,神經(jīng)網(wǎng)絡(luò)根據(jù)語料的結(jié)構(gòu)和模式調(diào)整連接權(quán)重值形成結(jié)構(gòu)化數(shù)據(jù),類似人腦的“記憶”。經(jīng)過訓練獲得的信號權(quán)重數(shù)量被稱為參數(shù)量,可以體現(xiàn)大模型的能力。這些信號權(quán)重數(shù)量被稱為參數(shù)量,例如OpenAI的GPT-1有1.17億個參數(shù),GPT-2增加到15億個參數(shù),GPT-3有1750億個參數(shù),GPT-4參數(shù)規(guī)模已經(jīng)達到1.8萬億,參數(shù)量越大則代表越“見多識廣”、功能越強。

因此,機器訓練以自然語言技術(shù)為信息載體,以人工神經(jīng)網(wǎng)絡(luò)為運行方式,以信息參數(shù)變化為記憶存儲方式,并非對語料進行簡單的復(fù)制和歸類,而是將文字、圖像等語料數(shù)據(jù)化和結(jié)構(gòu)化,在人工神經(jīng)網(wǎng)絡(luò)中用信息權(quán)重的方式提取和排列參數(shù),做到對語料“了然于胸”,并憑借巨大存儲實現(xiàn)“過目不忘”,同時根據(jù)新語料調(diào)整參數(shù)以實現(xiàn)“與時俱進”。

(二)作品是訓練語料的重要來源

如果認為“在機器訓練領(lǐng)域,權(quán)重便是一切”,那么語料就是養(yǎng)料和能源。狹義的語料指被預(yù)處理過、機構(gòu)化的“被用于訓練機器訓練模型的標注或者基準數(shù)據(jù)集”,簡稱為訓練數(shù)據(jù)。而廣義的語料是指“對行為、事實或者信息的數(shù)字表現(xiàn)形式以及對此類行為、事實或者信息的任何匯編,包括以聲音、視覺或音像記錄的形式”,既包含訓練數(shù)據(jù),也包括非數(shù)據(jù)形式存在的內(nèi)容,例如文本、圖片、音頻、視頻、代碼以及其他經(jīng)過傳感設(shè)備收集的信息或內(nèi)容。

質(zhì)量高的語料往往獲取難、成本高且數(shù)量有限。有研究發(fā)現(xiàn),到2026年高質(zhì)量數(shù)據(jù)(包括圖形)即將消耗殆盡,而低質(zhì)量語料不僅需要耗費更多的資源進行處理,更可能造成“垃圾進、垃圾出”的AI發(fā)展死局。作品是在一定期限內(nèi)具有獨創(chuàng)性的智力成果表達,是人類智慧的智力成果,其中小說、教科書、歷史記錄等圖書內(nèi)容是知識最密集、質(zhì)量最高的語料,是AI最為理想的訓練對象,也幾乎是唯一的長文本語料。互聯(lián)網(wǎng)上電子化內(nèi)容是最容易獲得和處理的語料,新聞文本和音視頻是確保AI新鮮度的關(guān)鍵語料,但這些語料均容易引發(fā)基于作品的著作權(quán)糾紛。在美國,OpenAI面臨包括代表創(chuàng)意行業(yè)工會Verdi、DGB以及攝影師、設(shè)計師、記者和插畫家協(xié)會、泰勒·布蘭奇和史戴西·希夫在內(nèi)的美國作家、《紐約時報》等主體針對其未經(jīng)許可使用作品訓練的控訴。2024年廣州互聯(lián)網(wǎng)法院作出了一例AIGC奧特曼圖片侵權(quán)的案例,盡管該案并未認定機器訓練中侵犯他人復(fù)制權(quán),但可以推斷出機器訓練過程中學習了原告的奧特曼圖片。

(三)作品復(fù)制是訓練的核心問題

機器訓練有監(jiān)督學習、無監(jiān)督學習、強化學習三種模式,監(jiān)督學習是人類強行地“用規(guī)則教”,無監(jiān)督學習是機器自主地“用語料學”,強化學習是實踐性地“用問題練”。其中,無監(jiān)督學習是AI語料訓練的主要過程,也是引發(fā)作品侵權(quán)糾紛最多的訓練方式。

在無監(jiān)督學習過程中,以訓練提取參數(shù)的不同,可以分為表達型機器訓練和非表達型機器訓練。自然語言處理、人臉面部識別、TDM等非表達型機器訓練,關(guān)注和提取的內(nèi)容并非人類“思想”呈現(xiàn)和固定下來的“表達”,而是作品中具有統(tǒng)計、挖掘意義的信息,因此該訓練不是著作權(quán)法意義上的使用作品的過程。而表達型機器訓練,會通過特定算法保持和捕捉作品表達本身的特點和風格,例如提取主謂賓順序、語序和重復(fù)特點、格式化而得到的魯迅文風、瓊瑤風格參數(shù),用于生成類似風格的文字型人工智能生成物(AIGC);再如通過特定技術(shù)捕捉個人音色、語言節(jié)奏、面部表情、色彩關(guān)聯(lián)風格等參數(shù),用于生成以假亂真的音頻和視頻AIGC。

在具體訓練時,機器訓練大致分為三步:訪問內(nèi)容,提取、復(fù)制內(nèi)容,挖掘文本、數(shù)據(jù)。在后兩步中,可能涉及與作品相關(guān)的機器行為包括:(1)復(fù)制行為,主要指為了學習而進行的包括翻錄、翻拍、數(shù)字化等方式將作品制作一份或者多份的行為,既包括永久性或長期性復(fù)制行為,也包括臨時性復(fù)制行為。(2)改編和匯編行為,例如通過關(guān)鍵詞提取、內(nèi)容摘要等方式對在先作品進行改編、匯編行為,這些行為并非機器訓練的必要行為,相對于普通改編或匯編行為沒有特異性,可以按照現(xiàn)有著作權(quán)法進行處理。而復(fù)制行為是其他行為的前提和基礎(chǔ),也是現(xiàn)實中著作權(quán)爭議最為集中、各國立法共同關(guān)注的行為,因此本文建議將復(fù)制行為作為機器訓練合法性問題的核心問題進行討論。

三、立足激勵創(chuàng)新:降低語料獲得成本的必要性

機器訓練是AI技術(shù)和產(chǎn)業(yè)發(fā)展的關(guān)鍵環(huán)節(jié),既涉及作品權(quán)利人權(quán)利保護,也涉及AI提供者的開發(fā)運營成本和效率,還關(guān)系到AI產(chǎn)業(yè)健康發(fā)展。AI占有的語料越多、質(zhì)量越高,功能越強大,對產(chǎn)業(yè)和社會來講意義可謂“數(shù)據(jù)圈地運動”。當前,機器訓練成本居高不下。據(jù)報道,OpenAI的GPT-4的訓練成本約為7800萬美元,GPT-4o大模型訓練花費約1億美元,而谷歌的Gemini Ultra則花費了1.91億美元。而且隨著算力提升和算法完善,以及互聯(lián)網(wǎng)內(nèi)容的爆炸式增加,AI對語料的需求不斷提升,相關(guān)成本還將繼續(xù)加大。巨大成本對后發(fā)國家、初創(chuàng)企業(yè)而言成為不可跨越的高墻。

(一)語料的全面性程度關(guān)系數(shù)字公平

首先,機器訓練逐漸成為提升知識傳播和利用的關(guān)鍵行為。作為人類通過智力活動創(chuàng)造或發(fā)現(xiàn)的成果,知識只有被傳播、使用和更新才能實現(xiàn)促進社會整體進步的價值,應(yīng)當允許每一代作者和創(chuàng)作者都可以像他們的前輩一樣,“使用已有作品作為積木來搭建新作品”。當前,AI已經(jīng)改變了人類獲取信息的方式,內(nèi)容聚合平臺憑借強大的信息抓取和統(tǒng)計匯總能力,使用戶省去了點擊和瀏覽原始資料的麻煩,實現(xiàn)了從“提供信息”到“呈現(xiàn)答案”的轉(zhuǎn)變。據(jù)調(diào)查,通過搜索引擎、社交媒體看新聞的歐洲人中,47%的人不會點擊原鏈接而僅僅是瀏覽摘要。這使得機器訓練不再是少量的、補充的、特殊的或狹窄的,已經(jīng)逐漸成為海量的、主流的、普遍的使用形式。

其次,機器訓練也是創(chuàng)造獨立數(shù)據(jù)價值的重要環(huán)節(jié)。數(shù)據(jù)作為新型生產(chǎn)要素,是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ)。機器訓練本質(zhì)是對分散信息、作品等知識相關(guān)內(nèi)容的數(shù)據(jù)化和要素化,是產(chǎn)生高質(zhì)量數(shù)據(jù)的過程。在此基礎(chǔ)上,AI生成內(nèi)容(AIGC)也將成為知識加工和傳播的重要渠道,有研究預(yù)期2026年AIGC將占據(jù)未來互聯(lián)網(wǎng)內(nèi)容的90%。這種背景下,機器訓練的過程日益成為知識數(shù)據(jù)化的價值創(chuàng)造過程的重要階段,日益具備獨立的社會生產(chǎn)價值。同時,機器訓練的合法性認定也將是盤活數(shù)據(jù)要素的突破口。例如,美國、以色列等對TDM使用作品持寬松態(tài)度的國家更容易吸引到AI產(chǎn)業(yè)的投資,進而進一步擴大數(shù)據(jù)要素市場。

再者,機器訓練是追求和構(gòu)建數(shù)字公平的重要前提。海量數(shù)據(jù)不僅對于AI的訓練與發(fā)展具有重要作用,而且對于其AI公平性與社會治理也具有重要意義。例如,全面的語料有利于減少語料差異導(dǎo)致的數(shù)據(jù)資本壟斷和權(quán)力私化。AI提供者具有實施壟斷的天然傾向,如果在機器訓練中出現(xiàn)“作品城堡”,就會出現(xiàn)資金充裕、算力強大的大型AI企業(yè)通過著作權(quán)許可甚至是獨家許可來獲取作品,進而對中小研發(fā)企業(yè)形成實質(zhì)上的資源壟斷,形成贏者通吃的壟斷局面。與此同時,在“代碼即法律”的時代,“技治主義”使得數(shù)據(jù)科技巨頭在社會治理、公共管理、政府決策等方面取得實質(zhì)性的權(quán)力。歐盟《人工智能法案》第60g條明確要求對于小微型企業(yè),包括初創(chuàng)企業(yè),可以在控制成本、進行簡化方式處理版權(quán)問題,也是基于數(shù)據(jù)公平的考慮。

最后,機器訓練也是國家科技和產(chǎn)業(yè)競爭的基礎(chǔ)環(huán)節(jié)。AI技術(shù)正在潛移默化地改變著世界格局底層運行邏輯。聯(lián)合國秘書長古特雷斯曾表示,AI很可能會加劇全球不平等 。2024年世界經(jīng)濟論壇《首席經(jīng)濟學家展望報告》顯示,近75%的受訪經(jīng)濟學家預(yù)計,AI將進一步擴大不同經(jīng)濟體之間的經(jīng)濟和技術(shù)鴻溝。一方面,機器訓練通過語料控制會從底層影響AI的文化傾向。據(jù)報道,ChatGPT的訓練語料集96%來自英語文本,甚至我國國內(nèi)的某大模型會在輸入“土耳其”(Turkey)時會出現(xiàn)“火雞”(turkey)圖片,在輸入“仙鶴”(crane)時會輸出“起重機”(crane)圖片。這正如英偉達的黃仁勛提出的“主權(quán)人工智能”概念,并認為“每個國家都需要擁有自己的AI,因為它可以編纂整個國家的文化、社會智慧、常識、歷史等各類數(shù)據(jù)”。另一方面,通過語料控制的AI已經(jīng)成為意識形態(tài)和國家競爭的重要工具。從2023年七國集團聯(lián)合聲明以價值觀劃線來阻止中國參與AI等技術(shù)標準的制定,到Chatgpt限制中國使用,在一定程度上是降低某國文字和文化在機器訓練時代的分量,進而壓縮話語權(quán)和影響力。

因此,數(shù)據(jù)訓練的范圍和效率已經(jīng)成為AI時代企業(yè)、產(chǎn)業(yè)、國家、文化競爭的關(guān)鍵。歐洲和部分亞太地區(qū)的國家的立法規(guī)定,盡管都考慮到了數(shù)字環(huán)境下TDM技術(shù)和產(chǎn)業(yè)發(fā)展問題,但在行為主體、行為性質(zhì)、行為目的、行為對象、行為類型和限制條件等具體規(guī)則方面還存在區(qū)別。這些差異,實質(zhì)上是對AI企業(yè)和在先權(quán)利人的利益平衡,是本國AI治理政策的體現(xiàn)。如果限制了在先權(quán)利人的保留權(quán)利自然有利于AI企業(yè),但如果像歐盟明確賦予權(quán)利人確保作品完整性和安全性權(quán)利,或?qū)Ψ强茖W研究目的的TDM聲明保留的權(quán)利,則可能影響歐盟AI企業(yè)發(fā)展或處于“戰(zhàn)略劣勢”。美國、以色列等對文本與數(shù)據(jù)挖掘使用作品持寬松態(tài)度的國家更容易吸引到AI產(chǎn)業(yè)的投資。

(二)語料的合法性成本影響數(shù)字競爭

實現(xiàn)語料的全面性需要巨大成本。除了大模型的構(gòu)建和運營,機器訓練成本比例越來越高。有研究認為,TDM成本涉及語料的接入成本(版權(quán)許可費用)、交易成本(挖掘許可費用)、進入成本(技術(shù)開發(fā)成本)和人員及架構(gòu)成本。除此之外,實際上還需要承擔發(fā)現(xiàn)和收集、提煉和整理、更新和糾錯、監(jiān)管和侵權(quán)等各方面的成本。主要包括:其一,解決語料分散的成本,包括人與人、人與物、人與計算、物與物(物聯(lián)網(wǎng)、區(qū)塊鏈等)、思想與思想(腦機接口)等方面的信息收集和互通。其二,解決語料質(zhì)量的成本。數(shù)據(jù)處理需要大量成本,在收集到各類型數(shù)據(jù)之后,需要通過質(zhì)量過濾、冗余去除、隱私消除、詞元切分等幾個步驟對數(shù)據(jù)進行處理;即使是知識密集、質(zhì)量相對較高的教材、論文、百科等科學文本,由于專業(yè)性強、數(shù)據(jù)特點差異大,需要專業(yè)人員對公式、化學式等采用特定的符號標記進行預(yù)處理,工作量和難度均較大。其三,解決語料滯后的成本。AI不知道學習之后的情況,總是存在滯后性,機器訓練也存在學無止境、與時俱進的現(xiàn)實需求。

最為復(fù)雜的是解決語料合法的成本,即機器訓練合法性成本。在個人信息保護、數(shù)據(jù)爬蟲、著作權(quán)等領(lǐng)域,現(xiàn)行立法在具有其自身合理性的同時,對AI訓練所需的大數(shù)據(jù)形成帶來了不少挑戰(zhàn)。傳統(tǒng)立法依存于契約社會,規(guī)范的是人類的個別行為,強調(diào)的是權(quán)利主體的自決。但在大數(shù)據(jù)時代,存在作品類數(shù)據(jù)許可市場總體上處于失靈狀態(tài),存在規(guī)模過大、主體不明、機制困難等系列問題,AI提供者無法就數(shù)以萬億計的訓練數(shù)據(jù)逐個、事先取得許可合約。尤其在著作權(quán)領(lǐng)域,獲得每項作品的著作權(quán)許可極其困難,需要陷入大量的迷宮般的許可協(xié)議談判;很多作品的作者難以直接聯(lián)系到,還有很多“孤兒作品”則可能完全找不到作者,但事后又存在侵權(quán)指控的風險。有調(diào)查顯示,為實施挖掘行為而從出版商處獲得授權(quán)占據(jù)了研究者近62%的時間。在處理糾紛時,訴訟成本或禁令威脅往往遠高于版權(quán)許可費。另外,市場上許多數(shù)據(jù)提供商收集并提供的數(shù)據(jù)集也會存在侵權(quán)風險。例如,ChatGPT利用BookCorpus免費開源數(shù)據(jù)集進行訓練,該數(shù)據(jù)集聲稱所有電子書都是“尚未發(fā)表的免費書籍”,但事實上囊括了很多已發(fā)表的書籍,且并未獲得相關(guān)作者授權(quán)。

(三)作品作為語料需要調(diào)整保護邊界

傳統(tǒng)權(quán)利保護思路是私法思考模式,以傳統(tǒng)契約社會為基礎(chǔ),以個人權(quán)益的合意變動為基本遵循。而數(shù)字經(jīng)濟背景下,數(shù)據(jù)治理體系則是尊重數(shù)據(jù)特征和數(shù)據(jù)運作模式,以發(fā)揮數(shù)據(jù)要素潛能為目的,平衡權(quán)利保護與數(shù)據(jù)利用的綜合制度體系,不能將負載在先權(quán)利的數(shù)據(jù)視為完全的私有權(quán)益,并由此導(dǎo)向“私權(quán)絕對”的保護模式。弱化個人控制,強化數(shù)據(jù)資源屬性,調(diào)整作品的絕對性保護成為時代需求和發(fā)展趨勢。在著作權(quán)制度不斷完善過程中,合理使用制度、法定許可制度、“轉(zhuǎn)換性使用”規(guī)則等,均是以實現(xiàn)公共利益為核心,推動著作權(quán)主體保護與促進知識廣泛傳播的雙向平衡。

在數(shù)據(jù)圈地運動背景下,機器訓練合法性制度的建構(gòu),也要尊重數(shù)據(jù)特征,突破傳統(tǒng)立法范式,以追求數(shù)據(jù)要素作用發(fā)揮為目標。過于強調(diào)和加強原創(chuàng)作者權(quán)利保護,不可避免的會降低機器訓練效率,增加交易成本,不僅影響公共利益,還會帶來更多的社會矛盾和糾紛,出現(xiàn)“權(quán)利人的市場利益得以保全,但以剝奪社會收獲更明顯的價值為代價”的結(jié)果。

不管主觀愿意如何,作品權(quán)利人和社會可能需要在以下幾方面進行理解和調(diào)整:一是作者和著作權(quán)人需要加大對作品被復(fù)制的理解和容忍。今后,網(wǎng)頁瀏覽、數(shù)據(jù)處理、機器訓練均不可避免地對作品進行復(fù)制以達到呈現(xiàn)、處理和分析的目的,即在數(shù)字技術(shù)下臨時復(fù)制具有不可避免性,在機器訓練過程中更是如此。二是作者和著作權(quán)人要逐步接受作品被非作品性使用的方式。在大數(shù)據(jù)時代,無論是否意識到,人人都是信息和數(shù)據(jù)提供者,不僅有隱私權(quán)、知識產(chǎn)權(quán)等保護,也有貢獻信息和數(shù)據(jù)的義務(wù)。尤其是隨著TDM、人工智能的廣泛適用,作品超出預(yù)期表達范圍的深度挖掘或利用,應(yīng)當予以許可。三是整個社會要有利益格局調(diào)整和重新定位的預(yù)期和應(yīng)對。技術(shù)發(fā)展引發(fā)產(chǎn)業(yè)變革,人的勞動技能和工作狀態(tài)也在不斷發(fā)生變化,新的產(chǎn)業(yè)與工作崗位不斷涌現(xiàn),手工勞動者逐漸變?yōu)闄C器操作者,蒸汽機車讓許多馬車夫可以成為火車司機。AI可能讓許多創(chuàng)作者的原有利益受到損失,甚至工作崗位發(fā)生變化,但不是直接導(dǎo)致其喪失勞動機會和生活來源,而是要積極適應(yīng)和利用人工智能進行創(chuàng)作和盈利的新模式。否則,在人工智能加持下搜索和提供作品模式下,拒絕人工智能可能意味著放棄作品收益。

四、比較不同模式:現(xiàn)有規(guī)則制度的適用性分析

以保護智力成果的方式激勵創(chuàng)新,是知識產(chǎn)權(quán)法尤其是著作權(quán)法的立法目的。在處理機器訓練中的著作權(quán)問題時,當前主流的立場也是堅持對在先作品的必要保護。《伯爾尼公約》第9條所規(guī)定的復(fù)制權(quán)及其所允許的例外,同樣適用于數(shù)字環(huán)境。歐盟《單一數(shù)字市場版權(quán)指令》在規(guī)定文本和數(shù)據(jù)挖掘(TDM)例外的同時,也提出了互聯(lián)網(wǎng)平臺盡最大努力獲得版權(quán)方的許可,重申其版權(quán)保護立場。中國在《生成式人工智能服務(wù)管理暫行辦法》和《生成式人工智能服務(wù)安全基本要求》等法律法規(guī)和行業(yè)標準中明確提出機器訓練要尊重在先知識產(chǎn)權(quán)的規(guī)定。但學術(shù)理論和立法及司法實踐中,針對AI技術(shù)和互聯(lián)網(wǎng)環(huán)境下作品保護的必要范圍和方式,出現(xiàn)了大量理論爭論和實踐差異。

(一)主張構(gòu)成侵權(quán)的觀點

該觀點認為,著作權(quán)法是通過保護成果的方式激勵創(chuàng)新,機器訓練中對他人作品復(fù)制并商業(yè)使用的行為,不僅違反現(xiàn)有著作權(quán)法律規(guī)定,也與著作權(quán)立法目的背道而馳。在侵犯著作權(quán)權(quán)項認定方面,包括復(fù)制權(quán)、改編權(quán)、翻譯權(quán)、匯編權(quán)等;也有學者認為出于驗證挖掘與學習結(jié)果、開展關(guān)聯(lián)合作研究以及幫助開展非相關(guān)研究等目的,還可能通過信息網(wǎng)絡(luò)向不特定的多數(shù)人傳播作品復(fù)制件,進而侵犯信息網(wǎng)絡(luò)傳播權(quán)、發(fā)行權(quán)或廣播權(quán)。實踐中,法國競爭管理局經(jīng)過多年的程序后于2024年對谷歌公司利用媒體平臺和新聞機構(gòu)的數(shù)據(jù)進行訓練的行為開出了2.5億歐元罰單。

筆者認為,應(yīng)當正視數(shù)據(jù)和數(shù)字時代發(fā)展需要和趨勢。傳統(tǒng)權(quán)利保護思路是以私法保護和契約自由為基礎(chǔ)的模式,公共利益讓位于個人權(quán)益,發(fā)展思維讓位于權(quán)利保護。事實上,著作權(quán)制度的發(fā)展和完善是在前述背景下逐步重視公共利益和發(fā)展思路的過程,合理使用制度、法定許可制度、轉(zhuǎn)換性使用規(guī)則等,均是以實現(xiàn)公共利益為核心,旨在推動著作權(quán)主體保護與促進知識廣泛傳播的雙向平衡。在數(shù)字經(jīng)濟時代,應(yīng)進一步根據(jù)數(shù)字技術(shù)、人工智能等發(fā)展進行調(diào)整,更加注重尊重數(shù)據(jù)特征和數(shù)據(jù)運作模式,以發(fā)揮數(shù)據(jù)要素潛能為目的,平衡權(quán)利保護與數(shù)據(jù)利用的綜合制度體系。在機器訓練合法性問題上,更需要促進數(shù)據(jù)要素作用發(fā)揮。因此,需要在一定程度上、在特定領(lǐng)域逐漸弱化個人控制,強化數(shù)據(jù)資源屬性。過于強調(diào)和加強原創(chuàng)作者權(quán)利保護,不可避免的會降低機器訓練效率,增加交易成本,不僅影響公共利益,還會帶來更多的社會矛盾和糾紛。而且,在許多國家和地區(qū)通過立法、司法確認TDM例外、非作品性利用等規(guī)則的趨勢下,一刀切認定機器訓練構(gòu)成著作權(quán)侵權(quán)的做法已經(jīng)不能被時代接受。

(二)主張豁免或例外的觀點

該觀點目前占據(jù)主流地位,主張考慮到國際競爭、產(chǎn)業(yè)發(fā)展、版權(quán)保護、激勵創(chuàng)作和技術(shù)創(chuàng)新、公共價值和市場許可機制可行性等因素,機器訓練應(yīng)當給予豁免或例外對待。同時,從著作權(quán)人利益角度出發(fā),認為“生成式人工智能(GenAI)應(yīng)用對著作權(quán)人并未造成整體激勵的削弱,只是導(dǎo)致了激勵行為的結(jié)構(gòu)性調(diào)整,因而不需要將著作權(quán)保護延伸至數(shù)據(jù)訓練來予以補償”。該觀點并不否認機器訓練中的復(fù)制等行為落入復(fù)制權(quán)等著作權(quán)權(quán)項范圍,但出于鼓勵技術(shù)和產(chǎn)業(yè)發(fā)展角度出發(fā),應(yīng)當減輕甚至豁免機器訓練中AI服務(wù)提供者的責任,其主要路徑可以分為合理使用路徑、TDM例外路徑、法定許可路徑等。

1.“合理使用”路徑

合理使用制度最早起源于英國普通法,理由在于“當?shù)诙€作者以創(chuàng)造和創(chuàng)新的方式使用他人受保護的作品時,其結(jié)果是學術(shù)的進步而非剝削第一個作者”。目前,合理使用制度已經(jīng)被廣泛認可和實施。《伯爾尼公約》(1979年)第9條第2款規(guī)定了關(guān)于復(fù)制權(quán)項下合理使用的條件,類似的規(guī)定還可以在《與貿(mào)易有關(guān)的知識產(chǎn)權(quán)協(xié)定》(TRIPs)第13條和《世界貿(mào)易組織版權(quán)條約》第10條,其適用條件被稱為“三步檢驗法”。其中,對“某些特殊情況”一般理解為要求不能濫用合理使用制度的原則性條款;作品的正常利用可以理解為欣賞、閱讀、研究等利用,而數(shù)據(jù)訓練中的復(fù)制行為顯然不屬于該情形;而不得不合理地損害版權(quán)持有者的合法利益,一般指向為公共利益限制著作權(quán),機器訓練是否具備該要件存在較大爭議。在美國,其版權(quán)法第107條規(guī)定了合理使用制度,法院通過谷歌圖書館案和TVEyes案確立了“轉(zhuǎn)換性使用”的判例標準。基于此,面對系列訴訟,OpenAI堅持認為數(shù)據(jù)訓練行為構(gòu)成合理使用。

中國合理使用條款吸收了三步檢驗法的精神實質(zhì),同時采取列舉和兜底條款的方式限制范圍,包括個人研究、適當引用、新聞報道、時事和講話轉(zhuǎn)載、教學科研、執(zhí)行公務(wù)、陳列收藏、免費表演、公共藝術(shù)、少數(shù)民族語言翻譯、去除閱讀障礙和其他法律、行政法規(guī)規(guī)定的其他情形。另外,上海知識產(chǎn)權(quán)法院審理在“《80后的獨立宣言》案”甚至引用了“轉(zhuǎn)換性使用”的概念并將其解釋進合理使用條款。但對機器訓練而言,其行為目的、主體、性質(zhì)、程度等因素使得難以直接適用前述條款,兜底條款“其他法律、行政法規(guī)規(guī)定的其他情形”有待于相關(guān)立法予以明確。例如,機器訓練一般被定性為商業(yè)行為,為了防止AI偏見往往需要對作品進行全文復(fù)制更非適當引用。因此,多數(shù)觀點認為我國現(xiàn)行著作權(quán)法的合理使用條款不能很好地適應(yīng)AI發(fā)展需要,主張應(yīng)當單獨增設(shè)有關(guān)AI的合理使用的條款或是采取開放式的合理使用條款。

筆者認為,當前合理使用制度并不符合中國實際。首先,如前所述,現(xiàn)有法律規(guī)定沒有可以將機器訓練解釋適用的空間。其次,轉(zhuǎn)換性使用思路也有明顯的問題,該規(guī)則源于美國判例,本身適用范圍尚未經(jīng)過更多情況案例的檢驗,在成文法國家的適用存在困難。同時轉(zhuǎn)換性使用在操作中存在標準不清晰的問題,何謂變革難以把握,更容易引起爭議。再次,在新技術(shù)、新產(chǎn)業(yè)和新利益背景下,鑒于機器訓練的規(guī)模和重要性,應(yīng)當賦予其正常使用或合法使用的定位。目前國內(nèi)外合理使用制度是以作者中心主義、私權(quán)絕對保護為前提。但隨著技術(shù)和產(chǎn)業(yè)發(fā)展,機器訓練已經(jīng)逐漸成為海量的、主流的、普遍的使用形式,不宜再被稱為“例外”。

2.“TDM例外”路徑

TDM技術(shù)和概念出現(xiàn)于20世紀末,是指從大量信息中運用技術(shù)以獲取模式、趨勢及其他有用的信息的過程,分為文本挖掘和數(shù)據(jù)挖掘。數(shù)據(jù)挖掘以數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)為對象,是抽取基本已知的或可預(yù)料的知識過程。文本挖掘以文本、圖片或音視頻等半結(jié)構(gòu)化或非結(jié)構(gòu)化材料為對象,是抽取事先未知的知識的過程。截至目前,歐盟、英國、法國、德國、日本、韓國和新加坡等國家和地區(qū)都在立法中明確了TDM例外規(guī)則。2014年修訂的《英國版權(quán)法》新增第29A條、歐盟《數(shù)字單一市場版權(quán)指令》第3條和第4條、歐盟《人工智能法案》第60i條和第60g條、德國著作權(quán)法第60(d)條等規(guī)定了TDM例外。我國現(xiàn)行《著作權(quán)法》的合理使用條款不包括明確的TDM相關(guān)內(nèi)容,但司法實踐走在了前面。在“讀秀網(wǎng)”案中,法院認為被訴行為旨在為讀者了解圖書內(nèi)容和作者的基本思路、表達方式提供便利,極少量的正文閱覽未超過合理范圍,并沒有對原告作品市場價值產(chǎn)生任何負面的影響,也沒有對其作品的正當使用產(chǎn)生任何不正當?shù)膿p害,構(gòu)成合理使用。在制度完善方面,有觀點認為應(yīng)當以“法律、行政法規(guī)規(guī)定的其他情形”為依據(jù),通過《著作權(quán)法實施條例》等規(guī)定引入數(shù)據(jù)挖掘?qū)iT例外;有學者認為應(yīng)當明確引入“文本和數(shù)據(jù)挖掘”(TDM)例外規(guī)則并將機器訓練納入該規(guī)則。

(1)TDM和機器訓練的關(guān)系

有觀點認為,TDM通常是機器訓練的必需步驟,機器訓練是數(shù)據(jù)挖掘的內(nèi)在技術(shù),如果為數(shù)據(jù)挖掘制定了相關(guān)例外,該例外也可以適用于機器訓練。甚至有觀點認為機器訓練就是TDM,故機器訓練應(yīng)完全適用TDM例外。另一種觀點認為,AI機器訓練和TDM并不完全相同,同時為了增加針對性,可以單獨設(shè)立AI訓練作為合理使用的一種新增方式。

TDM與機器訓練存在共同點和密切聯(lián)系。首先,兩者功能上互相支持。在TDM技術(shù)中,自然語言處理技術(shù)是文本挖掘的主要技術(shù)手段,可以增強TDM的質(zhì)量和效率。在機器訓練中,TDM可以為機器訓練提供豐富的結(jié)構(gòu)化數(shù)據(jù)。其次,兩者技術(shù)上互相融合。TDM的經(jīng)典算法中,C4.5、CART屬于典型的決策樹算法,k-Means是典型的神經(jīng)網(wǎng)絡(luò)算法,這些算法也是機器訓練的常用算法。

但同時,機器訓練和TDM存在諸多區(qū)別:

一是功能和目的方面,TDM擅長提取和統(tǒng)計,以服務(wù)智能決策為目的,在設(shè)定算法下進行“挖掘”,以超越人工精度和效率的優(yōu)勢發(fā)現(xiàn)隱藏的模式、趨勢和規(guī)律,并利用數(shù)據(jù)庫技術(shù)進行數(shù)據(jù)管理,例如通過廣泛或定向讀取社交平臺的內(nèi)容和評論實現(xiàn)輿情分析。而機器訓練擅長吸收和學習,以增強AI能力為目的,以訓練機器模型或算法標注數(shù)據(jù)的方法,通過量化數(shù)據(jù)中的最優(yōu)參數(shù)來提升機器模型完成任務(wù)質(zhì)量與效率。因此,TDM是挖掘語料得出隱藏的規(guī)律,機器訓練是吸收語料實現(xiàn)模擬的目的。

二是行為和過程方面,有研究將TDM過程歸納為抽取、清洗轉(zhuǎn)換和加載數(shù)據(jù)倉庫的過程,細分為:關(guān)鍵詞提取和文本摘要、文本分類和聚類、生成主題、觀點抽取和情感分析。另外,為了存儲TDM形成的成果,還涉及TDM成果的存儲、公開等行為。在國外TDM例外規(guī)則中,除了共同涉及復(fù)制行為外,一些國家還涉及改編、匯編、公開和傳播等行為。從行為過程看,TDM涉及著作權(quán)問題的環(huán)節(jié)主要有數(shù)據(jù)收集和文本預(yù)處理階段和挖掘出內(nèi)容的利用階段。數(shù)據(jù)收集和文本預(yù)處理階段,主要涉及復(fù)制和匯編等行為,易引發(fā)TDM侵犯他人作品復(fù)制權(quán)等著作權(quán)的指控。挖掘出內(nèi)容的利用階段,例如,挖掘出的結(jié)論能否向公眾或特定第三方公開或提供等。而機器訓練行為涉及的著作權(quán)問題主要集中在抽取、清洗轉(zhuǎn)換階段,一般不考慮利用和生成。這種過程和行為的差別,使得TDM例外規(guī)則中關(guān)于長期保存以及向獨立第三方公開等不適用于機器訓練。

三是后續(xù)行為對作品權(quán)利影響的區(qū)別。盡管TDM也存在輸出內(nèi)容,但其輸出內(nèi)容往往以數(shù)據(jù)庫、簡單文本和數(shù)據(jù)的形式存在,一般不會影響著作權(quán)保護。在GenAI中,尤其是表達型機器訓練的后續(xù)行為包括文本、圖片、視頻等內(nèi)容的輸出,極有可能出現(xiàn)與學習過的作品存在“實質(zhì)性相似”的問題。對于立法而言,歐盟等國家在主體、目的、行為等方面進行了限定,但很明顯并未充分考慮機器訓練的技術(shù)特點,不少機器訓練行為并未被TDM行為所涵蓋,這使得機器訓練中表達型訓練行為等存在立法空白。

3.“法定許可”路徑

該觀點認為,基于互聯(lián)網(wǎng)共享共建的特點和數(shù)據(jù)資源互聯(lián)互通的需要,默示認可將作品放入了一種不可控的狀態(tài),而要實現(xiàn)控制需要付出一定成本。尤其是在互聯(lián)網(wǎng)環(huán)境、機器訓練大背景下,著作權(quán)從“未經(jīng)許可而使用即構(gòu)成侵權(quán)”轉(zhuǎn)變?yōu)椤白髌芬坏┥蟼鞯交ヂ?lián)網(wǎng)即推定允許爬蟲抓取和搜索索引,除非設(shè)置有技術(shù)措施”的狀態(tài)。法定許可制度允許可以不經(jīng)著作權(quán)人允許而匯編他人作品的行為,但限定了行為目的、范圍和方式,且規(guī)定了應(yīng)當署名并支付報酬。相對于合理使用制度,法定許可更加尊重著作權(quán)人的財產(chǎn)權(quán)利。因此,有觀點認為在AI機器訓練中適用法定許可優(yōu)于合理使用制度,并認為待區(qū)塊鏈技術(shù)發(fā)展到一定階段,機器訓練訓練素材的使用規(guī)則可以逐漸轉(zhuǎn)向法定許可。同時,為了增強法定許可背景下收取費用的可操作性,學者建議兩種途徑:其一,對TDM行為征稅,進而通過財政支出的方式解決。其二,建立集體管理組織統(tǒng)一收費來補償訓練數(shù)據(jù)的著作權(quán)人,或建立一個類似于歐盟在《數(shù)據(jù)治理法》中設(shè)想的“個人數(shù)據(jù)共享中介機構(gòu)”。

筆者認為,我國著作權(quán)法關(guān)于法定許可的規(guī)定顯然無法解釋和適用于機器訓練行為。另外,盡管法定許可思路可以消除交流傳播壁壘,一定程度上降低交易成本,同時也能滿足著作權(quán)人的財產(chǎn)權(quán)益,但不可否認的是一些著作權(quán)人可能擔心作品使用失去控制而損失利益,進而選擇逃避而不將作品在互聯(lián)網(wǎng)公開,這必然會導(dǎo)致互聯(lián)網(wǎng)上高質(zhì)量內(nèi)容的減少或質(zhì)量下降,反而有悖于互聯(lián)網(wǎng)共享共建、互聯(lián)互通的初衷。

4.“數(shù)據(jù)權(quán)益”路徑

該觀點認為,機器訓練語料中數(shù)據(jù)占據(jù)主要部分,無論AI立法還是數(shù)據(jù)相關(guān)立法,都應(yīng)當把數(shù)據(jù)的應(yīng)用場景作為立法研究的對象,進而能夠使AI立法和數(shù)據(jù)立法更為科學化。類似的觀點認為,應(yīng)打破著作權(quán)、隱私權(quán)等權(quán)利領(lǐng)域的限制,基于各項權(quán)利內(nèi)容數(shù)據(jù)化后的共性,設(shè)立訓練數(shù)據(jù)獲取的有限許可豁免規(guī)則。甚至有觀點主張可以將“合法獲取”作為數(shù)據(jù)訓練、流媒體翻錄等行為的合法要件。

筆者認為,該路徑當前缺乏操作性。暫不論數(shù)據(jù)相關(guān)制度的建立存在較大爭議,成熟實施之日尚不可期,該思路繞開了現(xiàn)有著作權(quán)制度,但難以和著作權(quán)制度進行協(xié)調(diào),可能存在制度和法律沖突。另外,機器訓練的對象不僅包括數(shù)據(jù),還包括大量非結(jié)構(gòu)化、非電子化的文本、音視頻等內(nèi)容,數(shù)據(jù)權(quán)益思路的適用顯然不具有通用性。

(三)主張不構(gòu)成侵權(quán)的觀點

主張不構(gòu)成侵權(quán)的觀點集中在認為機器訓練屬于“非作品性使用”。所謂作品的非作品性使用,也稱非表達性使用或非展示性使用,是指使用原作品的目的并非為了利用其具有獨創(chuàng)性的表達,而是將其作為一種事實性信息進行功能性利用,在使用結(jié)果上也未再現(xiàn)原作品。作品性使用,也稱表達性使用或展示性使用,則是利用作品獨創(chuàng)性表達,再現(xiàn)了其藝術(shù)價值。實踐中,日本著作權(quán)法將使用作品區(qū)分為為了享受目的而使用作品和為了非享受目的而使用作品兩種形式,該法第30條第4款明確表述為“不以享受作品思想或感情為目的的利用”,在列舉的情形中包括:“用于信息分析的情形”和“在電子計算機信息處理過程中對作品表達所進行的不被人類感知和識別的使用情形”。日本文化廳對此的解讀為:擴大了對于著作權(quán)的限制,迎接以人工智能、物聯(lián)網(wǎng)和大數(shù)據(jù)為代表的第四次產(chǎn)業(yè)革命。

關(guān)于非作品性使用的與合理使用的關(guān)系。一種觀點認為,將“非作品性使用”作為合理使用的一種情形。例如,除了日本著作權(quán)法也將非作品性使用作為合理使用的一種情形加以規(guī)定外,在“美國作家協(xié)會訴谷歌公司著作權(quán)侵權(quán)糾紛”一案中,法院認定被訴性構(gòu)成轉(zhuǎn)換性使用,進而援引其版權(quán)法中合理使用條款。另一種觀點則將其作為獨立的一種侵權(quán)抗辯理由,類似于商標法領(lǐng)域的“非商標性使用”,有學者建議著作權(quán)法宜明確規(guī)定復(fù)制權(quán)只控制出于欣賞作品的目的而進行的復(fù)制行為,進而排除非表達性使用過程中復(fù)制行為的違法性;有贊成該觀點的學者認為,這種方案從權(quán)利范圍“直接排除”保護的方案總體上優(yōu)于“先進后出”的合理使用方案。

關(guān)于“非作品性使用”是否適用于機器訓練。肯定性觀點認為,機器訓練“既不關(guān)心作品的特定表達,也不關(guān)心作品通過表達所傳遞的特定信息或者思想,是將作品的表達全面打碎之后,從中計算和分析人類語言的規(guī)律”;另外,從對作品價值影響角度看,即使控制相關(guān)數(shù)字化復(fù)制行為也不能起到促進其與社會公眾對話交流的作用,對影響作品價值和市場收益營銷很小。

筆者認為,機器訓練中對作品的使用包括所謂“非作品性使用”,也包括“作品性使用”。正如前文分析, GenAI的機器訓練可以分為非表達型和表達型機器訓練,其中表達型學習會通過特定算法保持和捕捉作品表達本身的特點、風格等,涉及對文學、藝術(shù)甚至是科學作品表達的作品性使用。因此,“非作品性使用”理由不完全適用于機器訓練的全部行為,不足以將機器訓練從侵權(quán)嫌疑中置身事外。

五、探索現(xiàn)行方案:機器訓練合法性的判斷思路

無論是合理使用制度、TDM例外制度還是非作品使用制度,在AI機器訓練中的適用均存在不完善之處。由于機器訓練的技術(shù)復(fù)雜性、內(nèi)容特點的多樣性和證據(jù)取得困難性,難以建立統(tǒng)一、可操作性的機制或制度處理在先著作權(quán)問題。

(一)機器訓練合法性判斷要點分析

1.區(qū)分永久復(fù)制和臨時復(fù)制進行分別處理

復(fù)制行為是機器訓練過程中主要被訴侵權(quán)行為。在機器訓練過程中,除了收集階段之后可能出現(xiàn)的永久復(fù)制行為,在數(shù)據(jù)處理環(huán)節(jié)也存在臨時復(fù)制行為。對于永久復(fù)制行為的評價,機器訓練與其他復(fù)制行為并無差別,屬于著作權(quán)人的著作財產(chǎn)權(quán)控制范圍。問題主要集中在數(shù)據(jù)處理環(huán)節(jié)的臨時復(fù)制行為。

《伯爾尼公約》第9條所規(guī)定的復(fù)制權(quán)及其所允許的例外,同樣適用于數(shù)字環(huán)境。但其復(fù)制權(quán)的概念并不清晰。在1996年《世界知識產(chǎn)權(quán)組織版權(quán)條約》(WCT)議定過程中,美國和歐盟堅持將臨時復(fù)制和永久復(fù)制同時明確納入其中復(fù)制權(quán)的范圍條款,但并未成功。因此,國際條約上的臨時復(fù)制行為是否具有永久復(fù)制行為相同的法律效果尚無明確標準,而是交由各成員國自行決定,主要兩種方式處理:一是以歐盟為例將臨時復(fù)制權(quán)歸于著作權(quán)人,但通過例外或合理使用的制度給予豁免。《歐盟議會和理事會關(guān)于協(xié)調(diào)信息社會中版權(quán)和相關(guān)權(quán)某些方面的指令》(又稱《信息社會版權(quán)指令》)明確將各種暫時復(fù)制排除在復(fù)制權(quán)范圍之外。第2條規(guī)定了作者就其作品享有授權(quán)或禁止直接地或間接地、臨時地或永久地以任何方式或形式全部或部分復(fù)制的專有權(quán),但第5條規(guī)定了如果是短暫的或偶然的[以及]是技術(shù)過程中必要的不可分割的組成部分,在特定目的下應(yīng)免除復(fù)制權(quán)。二是不將臨時復(fù)制權(quán)歸于著作權(quán)人,臨時復(fù)制行為不存在侵權(quán)問題。例如,英國1988年《版權(quán)、外觀設(shè)計和專利法》第28A條規(guī)定,臨時、短暫復(fù)制文藝作品,這種復(fù)制是網(wǎng)絡(luò)傳輸技術(shù)過程不可或缺,并有合法使用目的且不具有獨立經(jīng)濟意義,則不侵犯版權(quán)。

筆者認為,在數(shù)字技術(shù)背景下,網(wǎng)頁瀏覽、數(shù)據(jù)處理、機器訓練過程中均不可避免對作品進行臨時復(fù)制以達到呈現(xiàn)、處理和分析的目的,即在數(shù)字技術(shù)下臨時復(fù)制具有不可避免性,在機器訓練過程中更是如此。因此,根據(jù)現(xiàn)實技術(shù)需要,參考國外立法例,應(yīng)將明確排除機器訓練過程中的臨時復(fù)制行為的侵權(quán)性。

2.根據(jù)作品類型和使用方式進行具體分析

著作權(quán)法意義上的作品主要分為文學、藝術(shù)和科學作品。其中文學作品包括文字作品和口述作品,藝術(shù)作品包括音樂、戲劇、曲藝、舞蹈、雜技藝術(shù)作品、美術(shù)作品、建筑作品、攝影作品、視聽作品等,科學作品包括工程設(shè)計圖、產(chǎn)品設(shè)計圖、地圖、示意圖等圖形作品、模型作品以及計算機軟件等。對文學和藝術(shù)作品而言,使用者意在欣賞和享受的價值,獲取這種價值的方式是閱讀、觀看、聽取等感官方式;作者的著作權(quán)是基于欣賞和享受而獲取財物對價和精神自尊及商譽。而對于科學作品而言,使用者意在使用符合自然規(guī)律的設(shè)計價值,獲取這種價值的方式是閱讀并通過實施、模仿等再現(xiàn)方式使用;作者的著作權(quán)是基于這種實用性和科學性而獲取財物對價和精神自尊及商譽。

作者在提供各種作品的利益應(yīng)當有邊界,這個邊界就是作者對其作品價值的預(yù)期利益,包括享受內(nèi)容、使用方式等。如果使用者通過特定方式在該預(yù)期中獲得價值,就應(yīng)當獲取許可并支付對價。例如,文學和藝術(shù)作品通過閱讀獲得故事情節(jié)最終實現(xiàn)精神對話或感動,這種作品行使方式是著作權(quán)可以控制的方式;但如果對文學藝術(shù)作品通過數(shù)據(jù)分析、信息提取等方式進行科學研究,就不是文學藝術(shù)作品的作者可以控制的方式,也可以稱為非作品性使用。

首先,對文學和藝術(shù)作品而言,其主要價值是被人類受眾欣賞和享受,作者或權(quán)利人的預(yù)期和權(quán)利邊界也應(yīng)當限于此。如果機器訓練過程中采取表達性訓練,捕捉和提取其表達特征,例如文字的主謂賓特點、美術(shù)作品的色彩和線條特點、音樂作品的旋律關(guān)聯(lián)性、舞蹈作品的連續(xù)性動作和標志性動作等,可能用于生成AIGC,該行為一般認定為作品性訓練或表達性訓練,可能構(gòu)成侵權(quán)行為。如果僅進行非表達訓練,如對《紅樓夢》中人物數(shù)量、態(tài)度、行為、情節(jié)等信息進行提取和統(tǒng)計,則認定為非作品性訓練或非表達性訓練,不宜認定為侵權(quán)行為。

其次,對科學作品而言,圖形作品和模型作品的設(shè)計受功能性影響而設(shè)計和表達空間相對有限,其表達幾乎完全可以被機器模仿或重新排列組合。而對科學作品中的計算機軟件而言,鑒于計算機軟件的特殊性,一般無法區(qū)分作品性使用和非作品性使用。因此,科學作品的訓練應(yīng)當視為是作品性訓練或表達性訓練。

3.關(guān)聯(lián)復(fù)制行為與后續(xù)行為進行綜合評價

永久或長期復(fù)制在機器訓練中時常發(fā)生。在機器訓練中,除了進行正常訓練外,還需要進行驗證,或者在強化訓練階段通過互動對已有參數(shù)進行調(diào)整。這種技術(shù)客觀需求也得到了部分立法的支持。在與機器訓練具有技術(shù)交叉關(guān)系的TDM例外規(guī)則中,歐盟、英國、德國、法國、日本、新加坡等已經(jīng)在TDM例外中明確將復(fù)制作為例外情形,且沒有明確區(qū)分永久復(fù)制和臨時復(fù)制,其中歐盟允許保留用于驗證成果,也可以保留到必要時為止,德國甚至允許對數(shù)據(jù)庫作品“允許傳送給圖書館、檔案館、博物館及教育機構(gòu)進行長期保存”。

在機器訓練中,永久復(fù)制行為是否侵權(quán)應(yīng)當結(jié)合其后續(xù)行為一并評價。有學者認為,復(fù)制行為如果失去作為后續(xù)傳播的預(yù)判功能,本身已難以成為判定侵權(quán)的合理依據(jù)。也有學者認為,如果在復(fù)制后產(chǎn)生了出售、展覽等變現(xiàn)行為獲取收益,才屬于著作權(quán)法所明令禁止的復(fù)制行為。甚至有學者主張,宜明確規(guī)定復(fù)制權(quán)只控制出于欣賞作品的目的而進行的復(fù)制行為。中國司法實踐中已經(jīng)出現(xiàn)類似案例,在2013年“《鹽酸情人》案”中,作家王莘起訴稱谷歌公司的谷歌數(shù)字“圖書搜索”行為侵害了其對《鹽酸情人》一書的著作權(quán)。法院便將谷歌公司的復(fù)制行為視作合理使用的前置行為,不再單獨予以評價。在AI領(lǐng)域,有學者認為,如果在生成內(nèi)容時發(fā)現(xiàn)對于在先作品的利用僅限于事實性,可以視為合理使用;而如果在生成內(nèi)容時發(fā)現(xiàn)機器提取其表達,就是在以AI的名義對原始作品進行簡單剪切和拼接,在先訓練語料的行為也不能再視為合理使用。

作品被數(shù)據(jù)化“復(fù)制”行為更不宜單獨評價。如果臨時復(fù)制后并進行長時間或永久保存,或進行實質(zhì)性相似的呈現(xiàn),或生成內(nèi)容完全替代了原作品價值進而導(dǎo)致作者利益受損,認定后續(xù)行為與臨時復(fù)制行為均構(gòu)成侵權(quán)。而如果僅僅是出于機器訓練目的,并未發(fā)現(xiàn)其他侵權(quán)行為或結(jié)果,則不宜單獨評價臨時復(fù)制行為。事實上,這種臨時復(fù)制行為也是難以被發(fā)現(xiàn)和舉證的,往往在后續(xù)行為出現(xiàn)侵權(quán)之后才可以推定或證明臨時復(fù)制行為的存在。所以,從應(yīng)然和實然角度來講,機器訓練中的復(fù)制行為應(yīng)當關(guān)聯(lián)后續(xù)行為進行綜合評價。

(二)機器訓練合法性判斷邏輯建議

第一步,根據(jù)證據(jù)判斷被訴行為的種類,包括復(fù)制行為和匯編行為、改編行為。對于匯編行為和改編行為按照普通著作權(quán)侵權(quán)進行認定,對于復(fù)制行為進入下一步。

第二步,判斷復(fù)制行為是永久復(fù)制行為還是臨時復(fù)制行為,臨時復(fù)制行為不認定為侵權(quán),永久復(fù)制行為問題進入下一步。

第三步,對于永久復(fù)制行為,區(qū)分作品是文學作品、藝術(shù)作品和科學作品。對于科學作品,進入下一步;對于文學和藝術(shù)作品,需要根據(jù)訓練目的和訓練行為判斷是作品性訓練還是非作品性訓練;對于非作品性訓練,建議參考TDM例外規(guī)則或轉(zhuǎn)換性使用規(guī)則,明確其合法性;對于作品性訓練行為而言,進入下一步。

第四步,對于作品性訓練行為,關(guān)聯(lián)復(fù)制行為與后續(xù)行為進行綜合評價。

六、結(jié)語

機器訓練合法性問題交織著稀缺性的爭奪,也存在權(quán)益的爭奪,需要在鼓勵創(chuàng)新和發(fā)展的“指揮棒”下平衡多方利益,尤其是著作權(quán)人應(yīng)當適用人工智能和數(shù)字經(jīng)濟時代數(shù)據(jù)圈地運動背景下對著作權(quán)邊界的調(diào)整和生產(chǎn)關(guān)系的變更。在現(xiàn)有TDM例外規(guī)則、合理使用規(guī)則、法定許可規(guī)則等具有可借鑒之處,但缺乏對機器訓練的貼合性和適用性。同時,機器訓練的行為、對象、目的具有多元性和復(fù)雜性,難以進行一刀切的評判。應(yīng)當根據(jù)行為對象、目的、性質(zhì)和作品類型以及對著作權(quán)人的利益沖擊等因素進行合法性判斷。對于機器訓練過程中的其他行為,應(yīng)當按照普通著作權(quán)侵權(quán)規(guī)則處理。對于復(fù)制行為,大部分應(yīng)當具有合法性,而侵權(quán)的認定有賴于生成內(nèi)容的侵權(quán)認定,進而推斷出復(fù)制行為與生成行為關(guān)聯(lián)侵權(quán)。這既符合侵權(quán)行為結(jié)果作為侵權(quán)要件,也符合實踐中侵權(quán)證據(jù)發(fā)現(xiàn)的規(guī)律。

Legality Analysis of Artificial Intelligence Training Other People’s Works under the Background of Data Enclosure Movement——From the Perspective of Technological Process, Innovation Incentive and Data Equity

Abstract: In the era of artificial intelligence and the Internet, machine training has increasingly become an important way of knowledge dissemination and exchange. Corpus is a key factor affecting the ability and level of artificial intelligence. Works are irreplaceable and high-quality training corpus, but they are faced with a large number of infringement allegations and disputes, and lack of targeted and clear handling rules. In the process of machine training, copying behavior is a necessary behavior and the focus of controversy. The current TDM exception rules, fair use rules and statutory licensing rules are difficult to properly cope with the complexity of training behavior, object and purpose and subsequent behavior. Due to the practical problems of high training cost and many disputes, this paper tries to focus on the replication behavior in training from the perspective of technical process, innovation incentive and data fairness, and on the basis of comparing the applicability of relevant rules, advocating a step-by-step and comprehensive evaluation according to the process of the accused behavior, the type of work and the training method combined with subsequent behaviors.

Keywords: Artificial Intelligence; Machine Training; Copyright; Fair Use; Creative Use; Transitional Use

猜你喜歡
人工智能
我校新增“人工智能”本科專業(yè)
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業(yè)
基于人工智能的電力系統(tǒng)自動化控制
人工智能,來了
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
學與玩(2017年12期)2017-02-16 06:51:12
主站蜘蛛池模板: 九色视频最新网址| 黄色网址免费在线| 久久久久人妻一区精品色奶水| 亚洲乱亚洲乱妇24p| 91丝袜在线观看| www精品久久| 中文字幕啪啪| 综合五月天网| 日本精品αv中文字幕| 色欲色欲久久综合网| 国产午夜福利亚洲第一| 国产精品成人AⅤ在线一二三四 | 手机成人午夜在线视频| 亚洲第一成年免费网站| 色偷偷综合网| 麻豆精品国产自产在线| 97色伦色在线综合视频| 午夜啪啪网| 国产高清免费午夜在线视频| 久热99这里只有精品视频6| 在线观看网站国产| 亚洲一级毛片| 91在线中文| 久996视频精品免费观看| 在线观看无码av五月花| 久久中文电影| 91久久国产热精品免费| 亚洲av无码人妻| 精品91在线| 久久黄色毛片| 亚洲性网站| 久久免费视频6| 国外欧美一区另类中文字幕| 2024av在线无码中文最新| 欧美伦理一区| 青青青国产视频手机| 亚洲高清在线播放| 国产日韩久久久久无码精品| 直接黄91麻豆网站| 亚洲一级毛片在线观播放| 午夜a视频| 亚洲欧美精品一中文字幕| 99热国产在线精品99| 波多野结衣中文字幕一区二区| 国产激情无码一区二区APP| 91精品日韩人妻无码久久| 91久久夜色精品国产网站| 2021国产乱人伦在线播放| 57pao国产成视频免费播放| 亚洲网综合| 黄色网站在线观看无码| 国产区在线观看视频| 亚洲 欧美 日韩综合一区| 色天堂无毒不卡| 亚欧美国产综合| 综合色88| 久久国产乱子伦视频无卡顿| 国产福利影院在线观看| 国产95在线 | 91精品人妻互换| 国产xxxxx免费视频| AV在线麻免费观看网站| 日本五区在线不卡精品| 91青青草视频在线观看的| 成年午夜精品久久精品| 亚洲另类色| 国产91久久久久久| 亚洲天堂777| 波多野结衣在线se| 色偷偷男人的天堂亚洲av| 色天天综合久久久久综合片| 久久综合色视频| 天天色天天综合| 日韩午夜福利在线观看| 尤物午夜福利视频| 人人看人人鲁狠狠高清| 色综合中文| 免费看av在线网站网址| 亚洲男人在线天堂| 亚洲欧洲日韩综合色天使| 在线观看的黄网| 26uuu国产精品视频|