人工智能模型訓(xùn)練的版權(quán)困境及其破解：聚焦數(shù)據(jù)獲取階段

2024-02-26 00:00:00肖如意張今

電子知識(shí)產(chǎn)權(quán) 2024年12期

摘要：人工智能模型訓(xùn)練是推動(dòng)人工智能技術(shù)進(jìn)步的重要引擎，然而，這一過(guò)程正面臨著版權(quán)困境。當(dāng)前，現(xiàn)有解決上述版權(quán)困境的研究著眼于人工智能模型訓(xùn)練行為的整體法律定性，卻忽視了人工智能模型訓(xùn)練在數(shù)據(jù)獲取之初，便遭遇了如數(shù)據(jù)投毒工具等新型技術(shù)措施帶來(lái)的技術(shù)障礙，以及法律適用上的空白。為解決上述困境，應(yīng)在版權(quán)保護(hù)技術(shù)措施制度的特定領(lǐng)域保持法律沉默，以松綁對(duì)技術(shù)措施的過(guò)度限制；基于技術(shù)中立理論，明確界定并規(guī)制技術(shù)措施的濫用行為，確保將其排除在著作權(quán)保護(hù)范圍之外；在現(xiàn)行的技術(shù)措施規(guī)避制度的例外與限制情形中嵌入兜底條款，為未來(lái)技術(shù)發(fā)展可能面臨的版權(quán)困境提供法律依據(jù)，助益版權(quán)保護(hù)與技術(shù)創(chuàng)新產(chǎn)業(yè)的平衡發(fā)展。

關(guān)鍵詞：人工智能生成內(nèi)容；技術(shù)措施；數(shù)據(jù)投毒工具；數(shù)據(jù)模型訓(xùn)練；合理使用

基金項(xiàng)目：本文系國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“作品類(lèi)型擴(kuò)張下獨(dú)創(chuàng)性理論構(gòu)建與適用研究”（項(xiàng)目批準(zhǔn)號(hào)為：19AF017）的階段性研究成果。

一、引言

在數(shù)據(jù)時(shí)代的浪潮下，生成式人工智能已發(fā)展成為推動(dòng)人類(lèi)創(chuàng)造力發(fā)展的新引擎。使用者幾乎只需動(dòng)一動(dòng)手指，基于人工智能的算法與數(shù)據(jù)處理能力，便能在短時(shí)間內(nèi)生成全新的，甚至具備“創(chuàng)造性”的產(chǎn)物，包括文字、圖片、音樂(lè)和視頻等1。這一技術(shù)革新在著作權(quán)領(lǐng)域產(chǎn)生了新的問(wèn)題。具體而言，人工智能公司為了提升模型的智能化水平，通常需要利用大量的現(xiàn)有素材對(duì)模型進(jìn)行深度訓(xùn)練，即“人工智能模型訓(xùn)練”。這一訓(xùn)練過(guò)程背后的技術(shù)原理分為三個(gè)階段：人工智能公司先通過(guò)購(gòu)買(mǎi)數(shù)據(jù)庫(kù)、公開(kāi)爬取，甚至竊取等渠道獲取海量數(shù)據(jù)內(nèi)容，并將這些數(shù)據(jù)儲(chǔ)存于自身的服務(wù)器的“庫(kù)”中；而后，人工智能對(duì)內(nèi)容數(shù)據(jù)進(jìn)行分析、優(yōu)化和轉(zhuǎn)變等處理等待調(diào)取使用；最后，在收到客戶(hù)端指令后按用戶(hù)需求輸出特定結(jié)果。2盡管人工智能技術(shù)在某些方面似乎展現(xiàn)出令人驚嘆的“智能”，但在著作權(quán)視角下，其本質(zhì)更像是一個(gè)高度依賴(lài)基礎(chǔ)數(shù)據(jù)的“模仿者”。然而，海量數(shù)據(jù)背后的獲取、儲(chǔ)存和處理等過(guò)程難以通過(guò)傳統(tǒng)的“事先授權(quán)許可”模式實(shí)現(xiàn)。故此，在人工智能模型的深度學(xué)習(xí)過(guò)程中，所獲取的數(shù)據(jù)可能未經(jīng)原作者授權(quán)，這種非法獲取的“臟數(shù)據(jù)”3，極易引發(fā)版權(quán)糾紛。4

為了有效阻止個(gè)人作品被納入人工智能模型訓(xùn)練的數(shù)據(jù)池，著作權(quán)人亦采取防范措施。在傳統(tǒng)法律框架下，著作權(quán)人通常依賴(lài)于事后救濟(jì)的方式，但這種模式往往反應(yīng)遲緩且效力有限。即便維權(quán)成功，很多時(shí)候市場(chǎng)機(jī)會(huì)已經(jīng)喪失，這無(wú)疑對(duì)著作權(quán)人的利益保護(hù)構(gòu)成了障礙。版權(quán)保護(hù)技術(shù)措施作為一種前瞻性的私力救濟(jì)手段，在著作權(quán)保護(hù)領(lǐng)域發(fā)揮著重要的作用。以新型技術(shù)措施數(shù)據(jù)投毒工具為例，它是一種源自計(jì)算機(jī)與人工智能領(lǐng)域的技術(shù)工具，其核心在于通過(guò)向數(shù)據(jù)集中故意引入虛假、惡意或有害的數(shù)據(jù)，以污染模型的初始或微調(diào)訓(xùn)練過(guò)程，進(jìn)而損害或誤導(dǎo)機(jī)器學(xué)習(xí)模型的性能與輸出結(jié)果，最終達(dá)到保護(hù)作品的目的。5這種技術(shù)措施的應(yīng)用，有效地從“源頭”遏制潛在的著作權(quán)侵權(quán)行為。6

然而，在中國(guó)當(dāng)前的版權(quán)保護(hù)技術(shù)措施制度的框架下，技術(shù)措施在防止未經(jīng)許可使用作品的同時(shí)，也阻礙了人工智能技術(shù)的正常發(fā)展。人工智能產(chǎn)業(yè)作為新質(zhì)生產(chǎn)力的代表，其所展現(xiàn)的巨大價(jià)值理應(yīng)得到認(rèn)可和鼓勵(lì)。對(duì)此，業(yè)內(nèi)專(zhuān)家學(xué)者們的研究主要聚焦于人工智能模型訓(xùn)練行為的整體的法律定性，普遍秉持包容審慎的態(tài)度，并致力于對(duì)該行為的正當(dāng)性分析和合法性證成。7而對(duì)于人工智能模型訓(xùn)練行為初期階段的“數(shù)據(jù)獲取”這一關(guān)鍵環(huán)節(jié)，卻鮮有關(guān)注。具體而言，“數(shù)據(jù)獲取”面臨著由版權(quán)保護(hù)技術(shù)措施所帶來(lái)的數(shù)據(jù)不可及、數(shù)據(jù)質(zhì)量下降、數(shù)據(jù)模型崩潰等問(wèn)題。在此背景下，本文以數(shù)據(jù)投毒工具為切入點(diǎn)，探析人工智能模型訓(xùn)練面臨的技術(shù)壁壘和法律規(guī)范缺失的困境，并嘗試通過(guò)優(yōu)化版權(quán)保護(hù)技術(shù)措施制度，化解人工智能模型訓(xùn)練在數(shù)據(jù)獲取過(guò)程中可能面臨的問(wèn)題，進(jìn)而為大數(shù)據(jù)時(shí)代下人工智能產(chǎn)業(yè)的持續(xù)創(chuàng)新與健康發(fā)展提供支持。

二、人工智能模型訓(xùn)練數(shù)據(jù)獲取困境之技術(shù)分析

版權(quán)與利用版權(quán)作品的新技術(shù)之間的關(guān)系常常被認(rèn)為是版權(quán)與進(jìn)步的對(duì)立。8我國(guó)的版權(quán)所有者享有“三層累積式”9的保護(hù)機(jī)制。第一層是著作權(quán)法所提供的基礎(chǔ)法律保障，為創(chuàng)作者的作品提供明確的權(quán)益界定和維權(quán)途徑。第二層則通過(guò)技術(shù)措施對(duì)作品實(shí)施技術(shù)性防護(hù)，遏制非法復(fù)制和傳播行為。第三層作為新增的保護(hù)層面，致力于通過(guò)法律手段防止規(guī)避或破壞用以保護(hù)作品的技術(shù)措施，為版權(quán)所有者提供更為全面和堅(jiān)實(shí)的保障。也有學(xué)者認(rèn)為，版權(quán)所有者還享有第四層保護(hù)，即版權(quán)所有人還可以利用合同保護(hù)其權(quán)利內(nèi)容。10這些多重保護(hù)機(jī)制的相互補(bǔ)充和強(qiáng)化，共同構(gòu)成了現(xiàn)代版權(quán)保護(hù)體系的核心要素。

技術(shù)與法律共同構(gòu)成了版權(quán)保護(hù)的二元格局。隨著技術(shù)的發(fā)展，版權(quán)保護(hù)技術(shù)措施呈現(xiàn)出多樣化和智能化特征。從最初的如版權(quán)標(biāo)記、水印等簡(jiǎn)單物理手段，到如今數(shù)字水印、加密技術(shù)、數(shù)字權(quán)利管理系統(tǒng)（ DRM）、區(qū)塊鏈技術(shù)等各種新型技術(shù)措施的出現(xiàn)，這些愈發(fā)先進(jìn)的技術(shù)給版權(quán)保護(hù)提供了難以攻破的技術(shù)支持。以與時(shí)俱進(jìn)的新型技術(shù)措施？數(shù)據(jù)投毒工具為例，該工具在技術(shù)上已經(jīng)相對(duì)成熟，具備一定的難以規(guī)避性。例如，美國(guó)芝加哥大學(xué)計(jì)算機(jī)軟件團(tuán)隊(duì)最新研發(fā)了圖像型數(shù)據(jù)投毒工具？ Nightshade11。為防止作品被未經(jīng)許可地使用，在作品公開(kāi)前，作者可利用該工具在作品中嵌入精心設(shè)計(jì)、像素級(jí)別的微妙改動(dòng)。這些改動(dòng)對(duì)于人類(lèi)肉眼而言幾乎無(wú)法察覺(jué)，也不會(huì)影響作品的欣賞價(jià)值，但對(duì)于人工智能而言，卻足以產(chǎn)生足夠的混淆效應(yīng)，從而影響人工智能訓(xùn)練模型的性能并誘導(dǎo)其產(chǎn)生一系列“文不對(duì)題”的混亂圖片，從而使得人工智能失去其基本功效。更為嚴(yán)重的是，倘若這些生成的混亂圖片再次納入模型訓(xùn)練的數(shù)據(jù)庫(kù)中，而數(shù)據(jù)模型在訓(xùn)練過(guò)程中不加選擇地再次使用模型自身生成的內(nèi)容進(jìn)行迭代，這將引發(fā)連鎖疊加反應(yīng)，導(dǎo)致模型出現(xiàn)不可逆的缺陷，進(jìn)而觸發(fā)模型崩潰（model collapse）效應(yīng)。12

此外，合理使用制度在技術(shù)措施面前也面臨實(shí)施障礙。從價(jià)值定位來(lái)看，技術(shù)措施與合理使用具有天然的對(duì)抗性。前者是版權(quán)保護(hù)的延伸與擴(kuò)張，是版權(quán)人利益的捍衛(wèi)者；而后者的目的是版權(quán)保護(hù)的例外與限制，代表更為廣泛的公眾利益。根據(jù)我國(guó)《著作權(quán)法》，合理使用制度的內(nèi)容既詳盡又完善，它采取了一種“開(kāi)放式列舉模式”，涵蓋了多達(dá)12種適用情形并配備了兜底條款。13我國(guó)的合理使用制度已融合了國(guó)際上通行的“三步檢測(cè)法”原則，合理使用儼然已成為國(guó)際社會(huì)對(duì)版權(quán)的一種普遍限制。然而，我國(guó)的版權(quán)保護(hù)技術(shù)措施在限制作品未經(jīng)許可的訪問(wèn)或使用時(shí)，往往采取“全有或全無(wú)”的限制方式，缺乏精細(xì)化的區(qū)分，難以根據(jù)具體情況作出靈活調(diào)整。這意味著，當(dāng)前的技術(shù)措施并不能智能識(shí)別其他主體對(duì)作品進(jìn)行的“合理使用”，并且可預(yù)見(jiàn)的是，由于合理使用具有較強(qiáng)的主觀性和不確定性，未來(lái)的技術(shù)措施亦難以實(shí)現(xiàn)智能識(shí)別的功能。

實(shí)踐中，隨著版權(quán)保護(hù)技術(shù)措施日益精密，合理使用制度與技術(shù)措施之間的沖突也日趨激烈。譬如，全球頂尖的科學(xué)與醫(yī)學(xué)信息服務(wù)機(jī)構(gòu)Elsevier與專(zhuān)業(yè)醫(yī)學(xué)人工智能公司OpenEvidence聯(lián)合開(kāi)發(fā)的ClinicalKey AI，通過(guò)整合Elsevier豐富的臨床證據(jù)醫(yī)療信息與先進(jìn)的生成式人工智能技術(shù)，為醫(yī)生在臨床決策過(guò)程中提供準(zhǔn)確、可靠的醫(yī)學(xué)信息支持。14然而，若醫(yī)學(xué)研究人員希望利用ClinicalKey AI進(jìn)行科學(xué)研究，卻面臨其依賴(lài)的模型訓(xùn)練數(shù)據(jù)來(lái)源受到如數(shù)據(jù)投毒工具等技術(shù)措施干擾和破壞的問(wèn)題，導(dǎo)致他們無(wú)法獲取可信賴(lài)的醫(yī)學(xué)信息，也難以有效“清洗”這些被污染的數(shù)據(jù)。15盡管這種情況屬于著作權(quán)法規(guī)定的合理使用范疇，但在技術(shù)層面上，合理使用的實(shí)際應(yīng)用卻無(wú)法繞過(guò)技術(shù)措施的障礙。換句話(huà)說(shuō)，要實(shí)現(xiàn)合理使用，仍然依賴(lài)于規(guī)避者具備相應(yīng)的技術(shù)能力。與此同時(shí)，在法律規(guī)范層面，合理使用在本質(zhì)上僅是一種“法定權(quán)益”或“特權(quán)”，而非一種法定權(quán)利，即使用者不能聲稱(chēng)自身享有“合理使用的請(qǐng)求權(quán)”去要求版權(quán)所有人“提供作品”，而只能將合理使用作為違法阻卻事由。16故此，合理使用無(wú)法對(duì)抗以保護(hù)版權(quán)為目的的技術(shù)措施。實(shí)務(wù)中，當(dāng)二者出現(xiàn)沖突時(shí)，司法實(shí)踐中的處理方式也是如此。17可以看到，合理使用制度難以突破技術(shù)措施制度的技術(shù)壁壘，立法層面也存在難以提供有效救濟(jì)的局限，法定許可制度的適用也面臨同樣的問(wèn)題。18

三、人工智能模型訓(xùn)練數(shù)據(jù)獲取困境之規(guī)范分析

我國(guó)現(xiàn)行版權(quán)法律框架中關(guān)于規(guī)避技術(shù)措施制度的例外與限制的法律規(guī)范，缺乏適應(yīng)性和彈性。對(duì)比2006年首次系統(tǒng)性規(guī)定技術(shù)措施的《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》與最新的2020年《著作權(quán)法》相關(guān)內(nèi)容，不難發(fā)現(xiàn)在科學(xué)技術(shù)迅猛發(fā)展的時(shí)代，我國(guó)在這15年間的相關(guān)立法幾乎未有實(shí)質(zhì)性更新，這與科技進(jìn)步的趨勢(shì)顯然不符。對(duì)于規(guī)避技術(shù)措施制度的例外與限制，我國(guó)一直采取的是單一式列舉的立法模式，即明文設(shè)定了5種特定的例外情形19，這種方法雖然清晰易懂，但缺乏必要的開(kāi)放性條款來(lái)應(yīng)對(duì)新興技術(shù)挑戰(zhàn)。這種封閉式立法無(wú)法滿(mǎn)足日益增長(zhǎng)的技術(shù)更迭性的要求，產(chǎn)生的法律適應(yīng)性問(wèn)題變得突出。例如，目前生成式人工智能面臨著產(chǎn)生偏見(jiàn)、歧視等有害內(nèi)容的問(wèn)題20，據(jù)此，相關(guān)研究人員已提出對(duì)人工智能數(shù)據(jù)模型中的固有偏見(jiàn)進(jìn)行安全研究的規(guī)避例外的請(qǐng)求21。同樣，在新興的3D打印、智能汽車(chē)、植入式人體設(shè)備等全新技術(shù)領(lǐng)域中，對(duì)于規(guī)避技術(shù)保護(hù)措施的需求也客觀存在，這些領(lǐng)域也迫切需要相關(guān)的例外規(guī)定來(lái)支持其發(fā)展。然而我國(guó)立法未將這些領(lǐng)域設(shè)立為例外情形，司法實(shí)踐中亦缺乏對(duì)個(gè)案進(jìn)行認(rèn)定的類(lèi)似兜底性條款的法律依據(jù)。概言之，我國(guó)著作權(quán)立法在數(shù)字版權(quán)的技術(shù)措施保護(hù)方面表現(xiàn)出法律供給不足的狀況。

此外，版權(quán)保護(hù)技術(shù)措施的濫用行為缺乏規(guī)制依據(jù)。技術(shù)措施的范圍很廣，著作權(quán)法不可能保護(hù)所有的技術(shù)措施。受著作權(quán)法保護(hù)的技術(shù)措施內(nèi)含兩個(gè)基本要求，一為目的正當(dāng)性，二為客觀有效性。如果將作品比作室內(nèi)的財(cái)物，那么版權(quán)就是房屋，而技術(shù)措施就是保護(hù)院內(nèi)財(cái)產(chǎn)的柵欄，該柵欄的目的是保護(hù)房屋，進(jìn)而保護(hù)院內(nèi)財(cái)產(chǎn)（目的正當(dāng)性），也需具有能防御入侵者所需的必要的高度（客觀有效性）。以數(shù)據(jù)投毒工具Nightshade為例，該工具的創(chuàng)始團(tuán)隊(duì)在最新的論文中介紹，談及Nightshade的緣起，人工智能公司常在未經(jīng)許可的情況下，罔顧藝術(shù)家的知識(shí)產(chǎn)權(quán)，肆意使用藝術(shù)家的作品來(lái)訓(xùn)練自己的圖像生成工具。22一方面，Nightshade的研發(fā)初衷在于能夠幫助制約人工智能公司這種不尊重藝術(shù)家知識(shí)產(chǎn)權(quán)的行為，使權(quán)利的天平重新往藝術(shù)家的方向傾斜；另一方面，從Nightshade的客觀效果來(lái)看，該工具能夠達(dá)到使生成式人工智能產(chǎn)生不受歡迎的輸出，從而讓生成的圖像偏離用戶(hù)需求的效果。概言之，從Nightshade的研發(fā)目的和實(shí)際效果來(lái)看，該數(shù)據(jù)投毒工具尚在受版權(quán)保護(hù)的技術(shù)措施范圍之內(nèi)。

在厘清為保護(hù)版權(quán)而采取的技術(shù)措施的邊界之后，超越該邊界或超出保護(hù)范圍的行為則往往落入“濫用技術(shù)措施”的范疇，任何與實(shí)現(xiàn)權(quán)利人正當(dāng)權(quán)益無(wú)關(guān)的技術(shù)措施應(yīng)當(dāng)被排除于著作權(quán)法的保護(hù)范圍。然而，我國(guó)技術(shù)措施的濫用行為尚未得到有效遏制，實(shí)務(wù)中的相關(guān)案例時(shí)有發(fā)生。例如，在2015年4月最高人民法院發(fā)布的指導(dǎo)性案例“精雕案”中，法院認(rèn)定原告將軟件輸出的數(shù)據(jù)設(shè)定為特定的文件格式，以實(shí)現(xiàn)軟件與設(shè)備的捆綁銷(xiāo)售的行為不符合著作權(quán)法所規(guī)定的為保護(hù)版權(quán)而采取的技術(shù)措施。23再如2018年10月得力富公司訴前職員未清華侵犯其計(jì)算機(jī)軟件著作權(quán)一案，本案的爭(zhēng)議焦點(diǎn)為被告是否實(shí)施了未經(jīng)許可故意避開(kāi)或破壞技術(shù)措施的行為。解決這一爭(zhēng)議需要先明確原告所采取的技術(shù)措施是否構(gòu)成有效的技術(shù)保護(hù)手段，抑或已經(jīng)超出了合理范圍，構(gòu)成了技術(shù)措施的濫用。這一前置判斷對(duì)于整個(gè)案件的定性和裁決結(jié)果具有決定性的影響。24又如，2020年12月，北京市第四中級(jí)人民法院審判的消費(fèi)者訴愛(ài)奇藝超前點(diǎn)播的案例，其中關(guān)于“超前點(diǎn)播”的法律性質(zhì)，即為濫用版權(quán)保護(hù)技術(shù)措施。25如果說(shuō)在既往的技術(shù)措施濫用案例中受損害的多為商業(yè)利益，那么“超前點(diǎn)播”案件則傳遞出一個(gè)新的信號(hào)？技術(shù)措施濫用的危害已逐漸從商業(yè)領(lǐng)域蔓延到與個(gè)人權(quán)益息息相關(guān)的領(lǐng)域。這一趨勢(shì)表明技術(shù)措施濫用造成的法益侵害范圍正在逐漸擴(kuò)大，規(guī)制技術(shù)措施濫用的必要性與日俱增。

然而，在我國(guó)法律體系中，關(guān)于“濫用技術(shù)措施”的法律規(guī)定尚屬缺失。盡管部分地區(qū)已制定了早期的響應(yīng)文件26，最高法也出臺(tái)了指導(dǎo)性案例27，但是這些司法文件的適用范圍局限于特定區(qū)域，并且法規(guī)效力相較于法律而言級(jí)別較低。此外，指導(dǎo)性案例中指示仍不夠明確，未能提供清晰的司法判決指導(dǎo)。因此，在缺乏明確立法的情況下，法院在審理相關(guān)案件時(shí)不得不依賴(lài)對(duì)立法目的與精神的解釋?zhuān)@種解釋往往具有一定的主觀性，這就導(dǎo)致了在司法操作過(guò)程中出現(xiàn)了較大的不確定性，給法律實(shí)施和司法裁決帶來(lái)了難度。

隨著技術(shù)的迭代更新，未來(lái)濫用技術(shù)措施的相關(guān)事例會(huì)層出不窮地涌現(xiàn)。比如，上述的數(shù)據(jù)投毒工具雖然主要出現(xiàn)在美術(shù)作品中，用于對(duì)抗非法獲取和利用數(shù)據(jù)的人工智能公司，似乎即使出現(xiàn)濫用也不會(huì)造成危及人身安全的嚴(yán)重危害。然而，正如微軟研究院所證實(shí)的，人工智能的潛力和能力遠(yuǎn)超我們的想象：除了精通語(yǔ)言，最新開(kāi)發(fā)的GPT-4模型還能夠解決涉及數(shù)學(xué)、編碼、視覺(jué)、醫(yī)學(xué)、法律等多個(gè)領(lǐng)域新穎且復(fù)雜的任務(wù)，且GPT-4在這些任務(wù)中的表現(xiàn)已經(jīng)接近甚至超越人類(lèi)水平。28因此，如果行為人利用數(shù)據(jù)投毒工具對(duì)數(shù)據(jù)進(jìn)行篡改成為常態(tài)，可能會(huì)超出人工智能公司訓(xùn)練大型模型所承受的合理限度，從而影響到最初設(shè)定的AIGC領(lǐng)域的使用群體。例如，在自動(dòng)駕駛汽車(chē)領(lǐng)域，經(jīng)過(guò)數(shù)據(jù)投毒工具處理過(guò)的地圖、示意圖或其他圖形，被智能的自動(dòng)駕駛計(jì)算機(jī)系統(tǒng)獲取，基于此類(lèi)錯(cuò)誤數(shù)據(jù)，這可能導(dǎo)致系統(tǒng)生成并作出偏離客觀實(shí)況的駕駛決策，例如無(wú)法正確識(shí)別障礙物或交通信號(hào)，從而引發(fā)交通事故；在更為專(zhuān)業(yè)的智慧醫(yī)療領(lǐng)域，患者的醫(yī)療圖像如被數(shù)據(jù)投毒工具事先處理，而這樣的圖像會(huì)影響醫(yī)療圖像分析儀器的性能，進(jìn)而造成醫(yī)療圖像分析的失誤或疾病診斷的錯(cuò)誤，這將直接威脅患者的生命健康。此外，Open AI作為GPT-4的研發(fā)公司也指出，由于訓(xùn)練數(shù)據(jù)出現(xiàn)偏差等原因，智能的GPT-4亦可能會(huì)得出不正確、不真實(shí)和誤導(dǎo)性的答案。29由此可見(jiàn)，數(shù)據(jù)投毒工具如被濫用則會(huì)產(chǎn)生普遍且客觀存在的后果。正如美國(guó)斯坦福大學(xué)的網(wǎng)絡(luò)法學(xué)家Lawrence Lessig教授所言：“原先，著作權(quán)法如同一面盾牌，用于保護(hù)權(quán)利人免遭侵害，但現(xiàn)在，一些著作權(quán)人卻利用這份保護(hù)，將其作為武器肆意揮舞。”30因此，從立法層面規(guī)制技術(shù)措施濫用行為，是對(duì)現(xiàn)實(shí)社會(huì)需求的響應(yīng)，也是適應(yīng)技術(shù)發(fā)展所需的必要措施。

四、人工智能模型訓(xùn)練版權(quán)困境的破解路徑探析

人工智能模型技術(shù)依托于龐大的多模態(tài)數(shù)據(jù)集，其發(fā)展水平與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量緊密相關(guān)。31關(guān)于人工智能模型對(duì)數(shù)據(jù)使用行為的法律性質(zhì)，學(xué)界尚未達(dá)成共識(shí)。有學(xué)者主張，在數(shù)據(jù)挖掘與訓(xùn)練過(guò)程中涉及的作品使用應(yīng)當(dāng)被視為合理使用32；也有觀點(diǎn)認(rèn)為，生成式人工智能在數(shù)據(jù)訓(xùn)練中的作品使用具有非特定性，而將其視為“非作品性使用”，排除在著作權(quán)保護(hù)之外。33還有觀點(diǎn)認(rèn)為，為了化解數(shù)據(jù)訓(xùn)練的合法性危機(jī)，須依托于與合理使用制度同屬“卡-梅框架”下的責(zé)任規(guī)則，通過(guò)法定許可使用制度進(jìn)行解決34；此外，有學(xué)者強(qiáng)調(diào)，需從根源上實(shí)現(xiàn)數(shù)字技術(shù)時(shí)代下作品保護(hù)治理邏輯的深刻轉(zhuǎn)型，即要擺脫“過(guò)度保護(hù)”的慣性思維，邁向“適度財(cái)產(chǎn)化”的理性軌道，從而實(shí)現(xiàn)從“過(guò)度保護(hù)”向“適度財(cái)產(chǎn)化”的糾偏。35可以看出，不論采取何種方式，各方的目標(biāo)是一致的，即找尋一種給人工智能模型訓(xùn)練解除障礙的路徑，進(jìn)而為AIGC的創(chuàng)新發(fā)展賦能。然而，在中國(guó)高水平保護(hù)的技術(shù)措施制度與日益復(fù)雜的技術(shù)措施的雙重影響下，這些措施幾乎形成了一道難以逾越的屏障。這意味著，在人工智能模型訓(xùn)練的數(shù)據(jù)獲取階段即面臨數(shù)據(jù)不可及、數(shù)據(jù)質(zhì)量下降、數(shù)據(jù)模型崩潰等問(wèn)題，更不用說(shuō)在數(shù)據(jù)處理、數(shù)據(jù)輸出以及大模型深度學(xué)習(xí)等后續(xù)環(huán)節(jié)中的質(zhì)量保證。因此，人工智能模型訓(xùn)練源頭環(huán)節(jié)所面臨的版權(quán)困境，亟待解決。

（一）法律沉默下的市場(chǎng)自我規(guī)制

技術(shù)措施是協(xié)調(diào)版權(quán)人利益與公眾利益、平衡創(chuàng)新激勵(lì)與傳播促進(jìn)的著作權(quán)法價(jià)值取向的調(diào)度器。根據(jù)技術(shù)措施功能的不同，技術(shù)措施劃分為兩大類(lèi)：接觸（access）控制技術(shù)措施和使用（use）控制技術(shù)措施；針對(duì)規(guī)避技術(shù)措施的行為，分為故意避開(kāi)或者破壞技術(shù)措施的“直接規(guī)避技術(shù)措施”，以及向他人提供避開(kāi)技術(shù)措施的技術(shù)、裝置或部件的“間接規(guī)避技術(shù)措施”。我國(guó)著作權(quán)法對(duì)技術(shù)措施的保護(hù)水平相對(duì)較高：既保護(hù)接觸控制技術(shù)措施，又保護(hù)使用控制技術(shù)措施，并未對(duì)二者進(jìn)行保護(hù)水平的區(qū)分；而在禁止規(guī)避技術(shù)措施方面，我國(guó)采取了一種全面禁止間接規(guī)避技術(shù)措施和原則禁止與有限例外的直接規(guī)避技術(shù)措施的封閉模式。在國(guó)際等級(jí)分類(lèi)上，我國(guó)對(duì)于技術(shù)措施的保護(hù)水平等級(jí)被劃定為第三等級(jí)，即高度保護(hù)，甚至高于美國(guó)、歐盟等發(fā)達(dá)國(guó)家或地區(qū) 。36這種嚴(yán)格的規(guī)定在很大程度上限制了合理使用的空間，使得公眾在獲取和使用作品時(shí)面臨較大的限制。

解決當(dāng)前技術(shù)措施過(guò)度限制作品可及性的困境，可采取一種“法律沉默”的立法策略，即在技術(shù)措施制度的特定領(lǐng)域有意識(shí)地保持法律上的不明確或留白。37法律沉默蘊(yùn)含兩層含義：其一，它可能意在傳達(dá)，在特定情境下，法律并無(wú)意進(jìn)行規(guī)制，從而將該領(lǐng)域劃定為“法外之地”，即法律不予直接干預(yù)的范圍；其二，則是通過(guò)特定法律構(gòu)成要素的設(shè)定，暗示對(duì)于未明確列出的另一情形，法律并未預(yù)設(shè)相應(yīng)的法律后果，這構(gòu)成了一種“反面推理”。38

面對(duì)技術(shù)更迭，法律的立法進(jìn)程難以全面覆蓋，法律沉默在特定情境下構(gòu)成了一種策略性的、隱性的應(yīng)對(duì)機(jī)制。譬如，美國(guó)《千禧年數(shù)字版權(quán)法案》（Digital Millennium Copyright Act of 1998，縮寫(xiě)為DMCA）直截了當(dāng)?shù)匚唇怪苯右?guī)避“使用控制技術(shù)措施”。換言之，DMCA法案對(duì)于該領(lǐng)域規(guī)范保持了法律沉默，進(jìn)而合理利用與直接規(guī)避使用技術(shù)措施的沖突自始不存在。美國(guó)版權(quán)局指出，DMCA法案之所以不禁止直接規(guī)避使用控制技術(shù)措施，就是為了保證公眾繼續(xù)擁有對(duì)作品進(jìn)行合理使用的能力。39但對(duì)于間接規(guī)避技術(shù)措施的行為，由于其嚴(yán)重性遠(yuǎn)超直接規(guī)避技術(shù)措施。前者涉及向他人提供規(guī)避工具或服務(wù)，這種行為的危害隨著接受者人數(shù)的增加而累積，可能給權(quán)利人帶來(lái)更大的利益損失；而后者則僅限于個(gè)人使用，對(duì)權(quán)利人利益的影響，相對(duì)可控。

類(lèi)似地，日本在技術(shù)措施保護(hù)亦相對(duì)有限。40首先，日本立法體系在應(yīng)對(duì)規(guī)避行為時(shí)，僅對(duì)具有顯著商業(yè)利益及公開(kāi)性質(zhì)的規(guī)避活動(dòng)施以法律禁止，而對(duì)于私人領(lǐng)域內(nèi)、非公開(kāi)性質(zhì)的規(guī)避行為并未進(jìn)行法律規(guī)制；其次，在規(guī)避行為的種類(lèi)上，日本版權(quán)法僅將間接規(guī)避行為納入法律禁止范疇，即明確禁止交易、租賃以規(guī)避技術(shù)措施為主要設(shè)計(jì)目的的裝置或軟件。進(jìn)一步地，在禁止規(guī)避技術(shù)措施的條款中的“技術(shù)措施”，僅限于旨在保護(hù)版權(quán)的技術(shù)手段，而將控制訪問(wèn)權(quán)限的技術(shù)措施排除在外。不難看出，日本著作權(quán)法在特定情境下采用了法律留白的立法技術(shù)，通過(guò)限縮性規(guī)定與排除性條款，既在一定程度上限制了版權(quán)保護(hù)的范圍，又維護(hù)了公眾在合理范圍內(nèi)的使用自由。

當(dāng)前人工智能技術(shù)發(fā)展如火如荼，人工智能模型訓(xùn)練不僅是人工智能技術(shù)發(fā)展的基石，也是推動(dòng)其不斷前進(jìn)的引擎。現(xiàn)階段法律在進(jìn)行干預(yù)性調(diào)整時(shí)，應(yīng)當(dāng)秉持一種審慎而克制的態(tài)度。相較而言，市場(chǎng)作為資源配置的決定性力量，具有一定的能動(dòng)性，能夠在一定程度上消化和吸收由技術(shù)創(chuàng)新引發(fā)的初期爭(zhēng)議與不確定性。41故此，在涉及“直接規(guī)避使用技術(shù)措施”的特定領(lǐng)域，中國(guó)宜采用法律沉默的立法策略，以確保合理使用和法定許可存在適用的空間。這種處理方式，雖看似靜默，實(shí)則蘊(yùn)含了法律體系的智慧與彈性，旨在平衡技術(shù)創(chuàng)新與版權(quán)保護(hù)之間的微妙關(guān)系。

（二）技術(shù)中立理論在立法技術(shù)層面的應(yīng)用

技術(shù)中立是關(guān)于技術(shù)本質(zhì)的理論，即技術(shù)本身被視為一種無(wú)價(jià)值取向的中性工具，強(qiáng)調(diào)在其運(yùn)作的過(guò)程并未預(yù)設(shè)或內(nèi)嵌特定的價(jià)值判斷。42換言之，“技術(shù)的影響和目的，并非技術(shù)本身所固有，而取決于人們的選擇與應(yīng)用”。43技術(shù)中立原則根植于技術(shù)與法律的復(fù)雜關(guān)系，本質(zhì)是技術(shù)與法律體系間博弈的產(chǎn)物。沿襲自康德（Immanuel Kant）對(duì)人的理性的強(qiáng)調(diào)44，至凱爾森（Hans Kelsen）堅(jiān)持法律具有明確規(guī)則和程序的技術(shù)系統(tǒng)的哲學(xué)脈絡(luò)45，法律逐步被視作一種特殊且專(zhuān)門(mén)的技術(shù)形態(tài)加以理解。這種技術(shù)性不僅體現(xiàn)在法律規(guī)則的明確性和可操作性上，還體現(xiàn)在法律制定和執(zhí)行過(guò)程中對(duì)人類(lèi)理性的依賴(lài)和運(yùn)用上。在這種理解下，法律不再僅僅是道德或倫理的附屬品，而是一種具有自主性和獨(dú)立性的社會(huì)技術(shù)系統(tǒng)。若將法律視為規(guī)制技術(shù)演進(jìn)過(guò)程的“技術(shù)之技術(shù)”，則法律本身可視為一種元技術(shù)層面的存在。

立法程序所構(gòu)建的規(guī)則具有規(guī)范性偏見(jiàn)，這一術(shù)語(yǔ)并不帶有負(fù)面含義，而是強(qiáng)調(diào)法律旨在通過(guò)規(guī)范性的影響來(lái)實(shí)現(xiàn)其目的。46這種規(guī)范性偏見(jiàn)結(jié)合了法律的工具性維度（即法律在實(shí)現(xiàn)某些目標(biāo)上的有效性）和保護(hù)性維度（即法律必須確保的正義和法律確定性）。法律的這兩個(gè)維度共同構(gòu)成了其內(nèi)在的規(guī)范性偏見(jiàn)，這種偏見(jiàn)是法律設(shè)計(jì)時(shí)的初衷或本意。法律實(shí)證主義者哈特（H.L.A. Hart）強(qiáng)調(diào)法律由一系列規(guī)則構(gòu)成，同時(shí)他亦承認(rèn)法律規(guī)則的社會(huì)事實(shí)性基礎(chǔ)。47哈特的“開(kāi)放性條款”（Open Texture）理論指出，鑒于法律規(guī)則的有限性，制定者無(wú)法預(yù)見(jiàn)所有未來(lái)可能發(fā)生的情境，因此法律應(yīng)當(dāng)具備容納未預(yù)見(jiàn)情況的靈活性。48技術(shù)中立立法49可視為此類(lèi)開(kāi)放性條款的具體體現(xiàn)，它關(guān)聯(lián)到特定立法行為的可持續(xù)性要求。

面對(duì)技術(shù)變革引發(fā)的新議題，立法規(guī)范應(yīng)定位于解答人類(lèi)與社會(huì)行為規(guī)范中的“緣由”（whys）與“路徑”（hows），致力于三大核心目標(biāo)：首先，達(dá)成既定的社會(huì)效果；其次，確保技術(shù)間無(wú)歧視性對(duì)待，即賦予各技術(shù)同等法律地位；最后，促進(jìn)技術(shù)與法律的和諧共生，避免法律因頻繁修訂而滯后于技術(shù)發(fā)展的步伐。50以歐盟的《通用數(shù)據(jù)保護(hù)條例》（ General Data Protection Regulation，簡(jiǎn)稱(chēng)“GDPR”）為例，技術(shù)中立原則作為歐盟委員會(huì)始終遵循的立法精神，貫穿于該條例的多項(xiàng)規(guī)定中。例如，第32條“處理安全（Security of Processing）”要求數(shù)據(jù)控制者和處理者根據(jù)風(fēng)險(xiǎn)級(jí)別采取適當(dāng)?shù)募夹g(shù)和組織措施，以確保數(shù)據(jù)處理的安全性。措施包括但不限于加密、偽匿名化等。但條例并未限定具體的技術(shù)手段，而是要求這些措施符合技術(shù)發(fā)展水平和實(shí)施成本的考量，并適應(yīng)風(fēng)險(xiǎn)的不同層次。這種方式不僅凸顯了技術(shù)中立原則的重要性，也體現(xiàn)了歐盟對(duì)數(shù)據(jù)保護(hù)立法的前瞻性思維。

對(duì)于當(dāng)下人工智能模型訓(xùn)練所面臨的技術(shù)措施濫用問(wèn)題，亦可通過(guò)技術(shù)中立立法進(jìn)行規(guī)范。例如，澳大利亞版權(quán)法在定義“技術(shù)措施”時(shí)，便界定了版權(quán)法保護(hù)的技術(shù)措施的邊界，并明確排除了技術(shù)措施濫用行為：“（技術(shù)保護(hù)措施）不包括以下設(shè)備、產(chǎn)品、技術(shù)或組件？如果作品或其他客體是電影或計(jì)算機(jī)程序（包括計(jì)算機(jī)游戲），通過(guò)阻止在澳大利亞播放在澳大利亞境外獲得的作品或其他目標(biāo)的非侵權(quán)復(fù)制品來(lái)控制地理市場(chǎng)劃分；或如果作品是機(jī)器或設(shè)備中的計(jì)算機(jī)程序，限制使用與機(jī)器或設(shè)備有關(guān)的商品（作品除外）或服務(wù)。”51換句話(huà)說(shuō)，如果一種技術(shù)措施（在效果上）限制了正版作品的跨區(qū)域使用，或者（在目的上）是為了將機(jī)器、設(shè)備與其他產(chǎn)品或服務(wù)進(jìn)行綁定銷(xiāo)售，那么這種技術(shù)措施將不被視為澳大利亞版權(quán)法所保護(hù)的“技術(shù)措施”。因此，針對(duì)那些不符合著作權(quán)法目的、超越技術(shù)措施所需效果限度的技術(shù)措施，中國(guó)立法亦應(yīng)通過(guò)明確條款進(jìn)行排除，以確保此類(lèi)措施的應(yīng)用不會(huì)阻礙數(shù)據(jù)的合法獲取和使用。這種以目的和效果為導(dǎo)向的立法方式，可達(dá)到無(wú)論法律適用于何種技術(shù)環(huán)境，其規(guī)范性效果都能保持一致的效果。

（三）構(gòu)建定期審查的動(dòng)態(tài)調(diào)節(jié)機(jī)制

技術(shù)措施的上位體系是“知識(shí)產(chǎn)權(quán)”，知識(shí)產(chǎn)權(quán)無(wú)疑是時(shí)代進(jìn)步的鮮明標(biāo)志，其與科學(xué)技術(shù)的演進(jìn)緊密相連，知識(shí)產(chǎn)權(quán)體系的“開(kāi)放性”與時(shí)代的“更迭性”相輔相成。知識(shí)產(chǎn)權(quán)體系展現(xiàn)出開(kāi)放性特質(zhì)，主要體現(xiàn)在其客體種類(lèi)的持續(xù)擴(kuò)充上，例如商業(yè)秘密和計(jì)算機(jī)軟件等新型權(quán)益的涌現(xiàn)，以及可版權(quán)作品類(lèi)型從“法定模式”到“開(kāi)放模式”的轉(zhuǎn)變52，新型商標(biāo)類(lèi)別的出現(xiàn)，例如聲音甚至氣味53等。同樣地，版權(quán)保護(hù)的技術(shù)措施形式、內(nèi)容、復(fù)雜程度等也緊密跟隨技術(shù)發(fā)展的步伐在不斷變化，作為知識(shí)產(chǎn)權(quán)體系的重要組成部分，其體系構(gòu)建亦應(yīng)展現(xiàn)開(kāi)放性和靈活性，以適應(yīng)不斷變化的技術(shù)環(huán)境和權(quán)益保護(hù)需求。

定期審查的動(dòng)態(tài)調(diào)節(jié)機(jī)制作為一種高度靈活的立法策略，美國(guó)DMCA法案是構(gòu)建該機(jī)制的立法典范。為減少該法案在數(shù)字版權(quán)管理及其他技術(shù)層面版權(quán)保護(hù)上的“失靈”，美國(guó)對(duì)于規(guī)避技術(shù)措施采取的是原則性普遍禁止的方式，同時(shí)設(shè)定了7種永久例外情形，并賦予美國(guó)國(guó)會(huì)圖書(shū)館（Library of Congress，美國(guó)立法機(jī)構(gòu)研究中心）通過(guò)行政立法每三年確定臨時(shí)例外的權(quán)力。即，通過(guò)集中修正和頒發(fā)免責(zé)令的方式，對(duì)這一法案進(jìn)行周期性審查和更新。這一獨(dú)特的制度框架巧妙地結(jié)合了規(guī)則主義和因素主義的立法模式，達(dá)到了多重效果。

一方面，與上述通過(guò)立法直接界定并排除技術(shù)措施濫用的路徑不同，該法案采取了更為靈活的臨時(shí)例外機(jī)制對(duì)該行為實(shí)施規(guī)制。例如，蘋(píng)果公司的iPhone手機(jī)通過(guò)設(shè)定“軟件鎖”技術(shù)措施，限制用戶(hù)僅能通過(guò)App Store下載和安裝軟件，以此捆綁用戶(hù)軟件消費(fèi)渠道并衍生商業(yè)利益。為突破此限制， “越獄”行為應(yīng)運(yùn)而生，它改變操作系統(tǒng)管理權(quán)限，允許自由安裝第三方軟件，但未復(fù)制操作系統(tǒng)本身。該行為被視為破壞蘋(píng)果版權(quán)保護(hù)措施并引發(fā)爭(zhēng)議。54

2010年，美國(guó)版權(quán)局敲定修改DMCA法案，豁免了為使操作系統(tǒng)與獨(dú)立軟件兼容的“越獄”行為，但未涉及其他設(shè)備。55此后，美國(guó)電子前沿基金會(huì)、軟件自由保護(hù)協(xié)會(huì)等機(jī)構(gòu)呼吁擴(kuò)大該豁免范圍至平板、智能電視等設(shè)備，以促進(jìn)設(shè)備與軟件的互操作性。56根據(jù)美國(guó)版權(quán)局公布的最新的臨時(shí)例外57，最新豁免延續(xù)了此趨勢(shì)，旨在明確軟件著作權(quán)保護(hù)邊界，防止技術(shù)措施濫用。

另一方面，美國(guó)DMCA法案的臨時(shí)例外機(jī)制有效地回應(yīng)了新興技術(shù)對(duì)規(guī)避技術(shù)措施的現(xiàn)實(shí)需求。2021年10月28日，美國(guó)國(guó)會(huì)圖書(shū)館發(fā)布了第8次17種技術(shù)措施規(guī)避豁免的臨時(shí)例外，其中包括6項(xiàng)現(xiàn)有豁免的擴(kuò)展、7項(xiàng)全新的豁免，以及4項(xiàng)結(jié)合新舊豁免的組合型豁免。根據(jù)國(guó)會(huì)圖書(shū)館的規(guī)定，提出豁免申請(qǐng)者需證明因技術(shù)措施限制訪問(wèn)受版權(quán)保護(hù)的作品，已導(dǎo)致或可能導(dǎo)致非侵權(quán)使用受到不利影響。58對(duì)于即將來(lái)臨的2024年第9次臨時(shí)例外，美國(guó)版權(quán)局已收到多項(xiàng)請(qǐng)?jiān)笗?shū)，反映了當(dāng)前技術(shù)發(fā)展帶來(lái)的規(guī)避技術(shù)措施的新需求。59例如，一項(xiàng)關(guān)于人工智能研究的請(qǐng)?jiān)笗?shū)提議允許規(guī)避生成式人工智能平臺(tái)的訪問(wèn)控制，以便研究和解決這些模型中的固有偏見(jiàn)。如果該項(xiàng)提議獲得通過(guò)，該例外還將包括共享研究成果、披露和解決人工智能模型中偏見(jiàn)相關(guān)的方法和技術(shù)。該請(qǐng)?jiān)笗?shū)指出，生成式人工智能模型中的固有偏見(jiàn)“有可能延續(xù)甚至加劇與種族、性別、民族和其他敏感因素相關(guān)的系統(tǒng)問(wèn)題。”60有理由預(yù)測(cè)，國(guó)會(huì)圖書(shū)館將在2024年頒布新的臨時(shí)例外，以回應(yīng)AIGC等新興技術(shù)的發(fā)展。可以看出，美國(guó)DMCA法案在技術(shù)保護(hù)措施制度中采取的定期審查動(dòng)態(tài)調(diào)節(jié)機(jī)制的立法模式，具有較高的技術(shù)適應(yīng)性，達(dá)到了應(yīng)對(duì)技術(shù)進(jìn)步和推動(dòng)創(chuàng)新的效果。

（四）破解人工智能模型訓(xùn)練版權(quán)困境的路徑選擇

基于上述分析，本文建議我國(guó)著作權(quán)法應(yīng)在規(guī)避技術(shù)措施的特定領(lǐng)域采取法律沉默的方式，以解除對(duì)直接規(guī)避使用技術(shù)措施的限制，從而為合理使用和法定許可制度的適用提供空間。這意味著，無(wú)論人工智能模型訓(xùn)練行為被界定為合理使用范疇，還是納入法定許可框架，均不再受限于嚴(yán)苛的技術(shù)措施桎梏。此外，應(yīng)基于技術(shù)中立理論，對(duì)技術(shù)措施的濫用行為進(jìn)行法律規(guī)制，明確排除偏離版權(quán)保護(hù)初衷、超出合理效果界限的技術(shù)措施。比如那些旨在污染數(shù)據(jù)庫(kù)、干擾和攻擊數(shù)據(jù)模型等濫用技術(shù)措施的行為，均不應(yīng)受到法律的保護(hù)。最后，定期審查的動(dòng)態(tài)調(diào)節(jié)機(jī)制雖然是為應(yīng)對(duì)技術(shù)發(fā)展而構(gòu)建，但其煩瑣的程序和高昂的立法成本與中國(guó)當(dāng)前的基本國(guó)情不符。相較而言，在技術(shù)措施規(guī)避制度的例外與限制情形中設(shè)置兜底條款的方式更為適宜，這樣可以為我國(guó)司法實(shí)踐提供更大的靈活性，使司法人員在應(yīng)對(duì)人工智能模型等前沿技術(shù)帶來(lái)的挑戰(zhàn)時(shí)，能夠迅速找到相應(yīng)的法律依據(jù)，從而更加高效、公正地解決新興技術(shù)帶來(lái)的版權(quán)保護(hù)與技術(shù)創(chuàng)新之間的沖突與矛盾。

五、結(jié)語(yǔ)

盡管人工智能的發(fā)展伴隨著些許侵權(quán)擔(dān)憂(yōu)，但其通用性和社會(huì)普惠性仍激發(fā)著人們的積極探索。在人工智能前進(jìn)的道路上，基于海量數(shù)據(jù)的模型訓(xùn)練成為不可或缺的關(guān)鍵。人工智能模型訓(xùn)練的版權(quán)困境，交織著技術(shù)變革和社會(huì)發(fā)展的復(fù)雜議題。著作權(quán)法需精妙平衡版權(quán)人、人工智能研發(fā)者和社會(huì)公眾三方的利益，既要促進(jìn)社會(huì)文化繁榮，又要靈活應(yīng)對(duì)科技飛躍，避免成為技術(shù)進(jìn)步的絆腳石。面對(duì)人工智能模型訓(xùn)練數(shù)據(jù)獲取階段所面臨的版權(quán)困境，應(yīng)在特定領(lǐng)域?qū)Π鏅?quán)保護(hù)技術(shù)措施實(shí)施法律沉默，并基于技術(shù)中立立法將技術(shù)措施濫用行為排除在著作權(quán)保護(hù)范圍之外。與此同時(shí)，通過(guò) 在現(xiàn)行的技術(shù)措施規(guī)避制度中嵌入兜底條款，使之能夠更好地適應(yīng)技術(shù)的發(fā)展需求。上述措施不僅能夠賦予我國(guó)著作權(quán)立法更強(qiáng)的前瞻性和靈活性，還能有效實(shí)現(xiàn)版權(quán)保護(hù)技術(shù)措施的目標(biāo)，推動(dòng)版權(quán)保護(hù)與技術(shù)創(chuàng)新產(chǎn)業(yè)之間的平衡發(fā)展。

The Copyright Dilemma of Artificial Intelligence Model Training and Its Cracking： Focusing on the Data Acquisition Phase

Abstract： Artificial Intelligence （AI） model training is an important engine for advancing AI technology， however， this process is facing a copyright dilemma in China. Most existing solutions focus on analyzing the overall legal nature of AI model training， but neglect the fact that AI model training encounters technical obstacles brought about by new types of technological measures， such as data poisoning tools， at the very beginning of the data acquisition process and triggers gaps in the application of the law. In this regard， legal silence should be maintained in specific areas of the technological measures system of copyright protection to loosen the excessive restrictions of technological measures； at the same time， based on the theory of technology neutrality， the abusive behaviour of technological measures should be clearly defined and regulated to ensure that they are excluded from the scope of copyright protection； finally， the catch-all clause should be embedded in the exceptions and limitations of the existing technological measures circumvention system， to provide a legal basis for the copyright dilemma that may be faced by future technological development， thus contributing to the balanced development of the copyright protection and technological innovation.

Keywords： AIGC； Technological Measures； Data Poisoning Tools； Data Model Training； Fair Use

1.參見(jiàn)《生成式人工智能服務(wù)管理暫行辦法》第22條第1款。

2. See Rishi Bommasani et al， On the Opportunities and Risks of Foundation Models， arXiv preprint arXiv：2108.07258， 2022.

3. The Washington Post： Inside the secret list of websites that make AI like ChatGPT sound smart， at https：//www. washingtonpost.com/technology/interactive/2023/AI-chatbot-learning/， last visited on May 20， 2024.

4. 國(guó)內(nèi)外已出現(xiàn)多起AIGC大模型訓(xùn)練引發(fā)的著作權(quán)侵權(quán)案件。See New York Times Company v. Microsoft Corporation et al， No. 1：23-cr-11195； Authors Guild et al. v. OpenAl， Inc. etal.， No. 1：23-cv-08292； Alter et al. v OpenAl， Inc. et al， No. 1：23-cv-10211： Andersen v Stability AI Ltd， 3：23-cv-00201； Concord MusicGroup， Inc.v.Anthropic PBC， No. 3：23-cx-01092.

5. See W. Ronny Huang et al， Metapoison： Practical General-Purpose Clean-Label Data Poisoning， Advances in Neural Information Processing Systems， Vol.33， p.12080-12091 （2020）.； See Fahri Anl Yerlikaya and ？erif Bahtiyar， Data Poisoning Attacks Against Machine Learning Algorithms， Expert Systems with Applications， Vol.208， p.118101 （2022）.

6. See Shawn Shan et al， Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models， arXiv.org， 2024.

7. 參見(jiàn)王志文：《AIGC大模型數(shù)據(jù)訓(xùn)練版權(quán)規(guī)制的終端轉(zhuǎn)向》，載《北京理工大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版）》2024年第5期，第64-75頁(yè)；張濤：《生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風(fēng)險(xiǎn)與包容審慎規(guī)制》，載《比較法研究》2024年第04期，第86-103頁(yè)；劉曉春：《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》，載《法學(xué)論壇》2024年第03期，第67-78頁(yè)；張吉豫、汪賽飛：《大模型數(shù)據(jù)訓(xùn)練中的著作權(quán)合理使用研究》，載《華東政法大學(xué)學(xué)報(bào)》2024年第4期，第20-33頁(yè)；孫山、張?chǎng)骸渡墒饺斯ぶ悄茴A(yù)訓(xùn)練中權(quán)利限制制度的選擇與建構(gòu)》，載《科技與出版》2024年第07期，第6-15頁(yè)；See Stephen McJohn and Ian McJohn， Far Use and Machine Learning， NEULR 12， 2020， p. 99； Peter Henderson et al， Foundation Models and Fair Use， Journal of Machine Learning Research， Vol：24， pp.1-79（2023）.

8. See Jane C. Ginsburg， Copyright and Control Over New Technologies of Dissemination， Law and Society Approaches to Cyberspace， Routledge， 2017， p. 385.

9. See Jacques De Werra， The Legal System of Technological Protection Measures Under the WIPO Treaties， the Digital Millennium Copyright Act， the European Union Directives and Other National Laws （Japan， Australia）， Al Congress： Adjuncts and Alternatives to Copyright， 2002， p. 179-279.

10. 參見(jiàn)朱理：《版權(quán)技術(shù)措施法律保護(hù)的三個(gè)等級(jí)——兼談我國(guó)的技術(shù)措施保護(hù)立法》，載《網(wǎng)絡(luò)法律評(píng)論》2005年第6卷，第44頁(yè)。

11. See Shawn Shan et al， Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models， arXiv.org， 2024.

12. See Ilia Shumailov et al， AI Models Collapse When Trained on Recursively Generated Data， Nature （London）， Vol. 631， p.755–759 （2024）.

13. 參見(jiàn)《中華人民共和國(guó)著作權(quán)法》（2020修正）第二十四條。

14. Elsevier， at https：//www.elsevier.com/products/clinicalkey/clinicalkey-ai， last visited on May 20， 2024.

15. See W. Ronny Huang et al， Metapoison： Practical General-Purpose Clean-Label Data Poisoning， Advances in Neural Information Processing Systems， Vol.33， p.12080-12091 （2020）.

16. 參見(jiàn)王遷：《技術(shù)措施保護(hù)與合理使用的沖突及法律對(duì)策》，載《法學(xué)》2017年第11期，第9-25頁(yè)。

17. 參見(jiàn)《北京市高級(jí)人民法院侵害著作權(quán)案件審理指南》第7.10條：被告未經(jīng)許可通過(guò)信息網(wǎng)絡(luò)向他人提供作品，其提出屬于“為個(gè)人學(xué)習(xí)、研究或者欣賞使用他人已發(fā)表作品”的合理使用抗辯，不予支持；See RealNetworks， Inc. v， DVD Copy Control Association， 641 F. Supp. 2d 913， 942 （N. D. Cal. 2009）.

18. 常見(jiàn)的版權(quán)限制有地域性、保護(hù)期限、公共秩序保留、合理使用和法定許可等，其中，合理使用是國(guó)際層面對(duì)版權(quán)的一種普遍限制。

19. 參見(jiàn)《中華人民共和國(guó)著作權(quán)法》（2020修正）第五十條。

20. See Reva Schwartz et al， Towards a Standard for Identifying and Managing Bias in Artificial Intelligence， US Department of Commerce， National Institute of Standards and Technology， 2022.

21. U.S. Copyright Office， at https：//www.copyright.gov/1201/2024/petitions/proposed/， last visited on May 20， 2024.

22. See Shawn Shan et al， Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models， arXiv.org， 2024.

23. 參見(jiàn)北京精雕科技有限公司與上海奈凱電子科技有限公司計(jì)算機(jī)軟件著作權(quán)侵權(quán)糾紛案，最高法院指導(dǎo)案例48號(hào)（2015年）。

24. 參見(jiàn)得力富企業(yè)股份有限公司訴未清華侵害計(jì)算機(jī)軟件著作權(quán)糾紛案，最高人民法院（2020）最高法知民終1206號(hào)民事判決書(shū)。

25. 參見(jiàn)北京愛(ài)奇藝科技有限公司與吳聲威網(wǎng)絡(luò)服務(wù)合同糾紛案，北京市第四中級(jí)人民法院（2020）京04民終359號(hào)民事判決書(shū)。

26. 參見(jiàn)北京市高級(jí)人民法院關(guān)于印發(fā)《關(guān)于審理涉及網(wǎng)絡(luò)環(huán)境下著作權(quán)糾紛案件若干問(wèn)題的指導(dǎo)意見(jiàn)（一）（試行）》的通知（2010）。

27. 同前注23。

28. See Sébastien Bubeck et al， Sparks of Artificial General Intelligence： Early Experiments with GPT-4， arXiv.org， 2023.

29. Open AI， at https：//openAIia.com/index/chatgpt/， last visited on Sep 20， 2024.

30. See Lawrence Lessig， How Big Media Uses Technology and the Law to Lock Down Culture and Control Creativity， Retrieved December 5， 2004.

31. See Jason Wei et al， Emergent Abilities of Large Language Models， arXiv.org， 2022.

32. 參見(jiàn)張吉豫、汪賽飛：《大模型數(shù)據(jù)訓(xùn)練中的著作權(quán)合理使用研究》，載《華東政法大學(xué)學(xué)報(bào)》2024年第4期，第20-33頁(yè)；參見(jiàn)魏遠(yuǎn)山：《生成式人工智能訓(xùn)練數(shù)據(jù)的著作權(quán)法因應(yīng)：確需設(shè)置合理使用規(guī)則嗎？》，載《圖書(shū)情報(bào)知識(shí)》2024年。See Stephen McJohn and Ian McJohn， Fair Use and Machine Learning， NEULR， Vol.12， p.99（2020） See Peter Henderson et al， Foundation Models and Fair Use， Journal of Machine Learning Research， Vol. 24， pp.1-79（2023）.

33. 參見(jiàn)劉曉春：《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》，載《法學(xué)論壇》2024年第03期，第67-78頁(yè)。

34. 參見(jiàn)孫山、張?chǎng)骸渡墒饺斯ぶ悄茴A(yù)訓(xùn)練中權(quán)利限制制度的選擇與建構(gòu)》，載《科技與出版》2024年第07期，第6-15頁(yè)。

35. 參見(jiàn)孫山：《數(shù)字技術(shù)時(shí)代作品“過(guò)度保護(hù)”現(xiàn)象的治理邏輯》，載《科技與出版》2024年第02期，第101-112頁(yè)。

36. 參見(jiàn)王煜：《構(gòu)建我國(guó)版權(quán)合理使用制度與技術(shù)措施協(xié)調(diào)機(jī)制》，載《出版發(fā)行研究》2018年第8期，第83-85， 27頁(yè)。

37. See Peter Tiersma， The Language of Silence， Rutgers Law Review， Vol. 48， p.1（1995）.

38. 參見(jiàn)【德】克勞斯-威廉·卡納里斯：《法律漏洞的確定》，楊旭譯，北京大學(xué)出版社2023年版，第24頁(yè)。

39. Sce Copyright Office ofthe United States， The Digital Miliennium Copyright Act of 1998， p. 4.

40. 參見(jiàn)日本《著作權(quán)法》第120條。

41. 參見(jiàn)李琛：《文化產(chǎn)業(yè)的發(fā)展需要市場(chǎng)與法律的良性互動(dòng)》，載《群言》2017年第7期，第7-10頁(yè)。

42. See Brad A. Greenberg， Rethinking Technology Neutrality， Minnesota Law Review， Vol. 100， p.1495（2015）.

43. See Emmmanul G. Mesthene， Technology Change： Its Impact on Man and Society， New American Library， 1970， p. 60.

44. 參見(jiàn)【德】伊曼努爾·康德著，藍(lán)公武譯：《純粹理性批判》，天津人民出版社2023年版。

45. 參見(jiàn)張書(shū)友：《凱爾森——純粹法理論》，黑龍江大學(xué)出版社2013年版。 .

46. See Mireille Hildebrandt and Laura Tielemans， Data Protection by Design and Technology Neutral Law， The Computer Law and Security Report， Vol. 29：5， p.509-251（2013）.

47. See Herbert Lionel Adolphus Hart and Leslie Green， The Concept of Law， Oxford University Press， 2012.

48. Ibid.

49. 技術(shù)中立立法是指法律應(yīng)盡可能避免依賴(lài)特定的技術(shù)或技術(shù)手段，而是以功能和目的為導(dǎo)向進(jìn)行規(guī)范，以化解技術(shù)更迭與法律固化的矛盾。

50. See J. Drexl， Position Paper of the Max Planck Institute for Innovation and Competition， International Review of Intellectual Property and Competition Law， Vol. 46， p.707-711（2015）.

51. Interpretation Part II Section 10 Australia Copyright Act 1968 （ Revised 2019）

52. 參見(jiàn)王遷：《<著作權(quán)法>修改：關(guān)鍵條款的解讀與分析（上）》，載《知識(shí)產(chǎn)權(quán)》2021年第1期，第22頁(yè)。

53. See Prerna Wahi， Comparative Analysis of Sound and Smell Trademark， Jus Corpus Law Journal， Vol.3，p.1089（2022）.

54. Iphone在其《iPhone使用手冊(cè)》中明確載明禁止未經(jīng)授權(quán)修改iOS，蘋(píng)果將越獄視為違反最終用戶(hù)許可協(xié)議，并強(qiáng)烈警告設(shè)備所有者不要試圖通過(guò)利用漏洞來(lái)實(shí)現(xiàn)Root訪問(wèn)。

55. See 75 FR 43825.

56. See 37 CFR 201.

57. See 86 FR 59627.

58. See U.S. Code §1202 （b）.

59. See U.S. Copyright Office， at https：//www.copyright.gov/1201/2024/petitions/proposed/， last visited on May 20， 2024.

60. Ibid. Class 4：Computer Programs——Generative AI Research.

電子知識(shí)產(chǎn)權(quán)2024年12期

電子知識(shí)產(chǎn)權(quán)的其它文章: 機(jī)遇、挑戰(zhàn)與對(duì)策：算法時(shí)代虛擬主持人及其播報(bào)內(nèi)容的版權(quán)問(wèn)題探究; 知識(shí)產(chǎn)權(quán)制度賦能新質(zhì)生產(chǎn)力發(fā)展的優(yōu)化路徑; 比例原則與知識(shí)產(chǎn)權(quán)懲罰性賠償?shù)谋稊?shù)認(rèn)定方法研究; 論數(shù)據(jù)資源持有權(quán)的基本范疇：法律釋義與體系形塑; 新質(zhì)生產(chǎn)力賦能出版業(yè)的學(xué)理闡釋、法律困境與紓困之道; 商標(biāo)混淆可能性的規(guī)制范圍：類(lèi)型演進(jìn)與適用規(guī)則