999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型發展的版權掣肘及其治理

2024-12-31 00:00:00肖啟賢
電子知識產權 2024年9期

摘要:生成式人工智能大語言模型的訓練和應用在美國引起大規模版權集體訴訟,版權問題成為大語言模型發展的首要障礙。在風險類型上,大語言模型版權集體訴訟引發了伴生性的法律風險、經濟風險以及創新風險。以公開聽證凝聚社會共識,以能動司法緩沖版權矛盾,以行業自治消弭版權風險,是美國應對大語言模型版權集體訴訟的三種重要策略,體現了創新優先的治理思路。我國大語言模型正處于研發和應用的關鍵階段,目前已面臨類似風險。美國經驗作為“前車之鑒”,對我國大語言模型版權治理具有重要的參照意義。我國的版權治理對策在宏觀層面應當堅持“創新優先”的價值導向,在中觀層面應當采取“多元協同”的治理模式,在微觀層面則應當引入“人工智能訓練合理使用”類型。

關鍵詞:生成式人工智能;大語言模型;版權集體訴訟;美國經驗

一、引言

ChatGPT等生成式人工智能引發了新一輪知識革命,推動知識生成由“智慧驅動”向“數據驅動”的邊界延展。1大語言模型是促成這一歷程的關鍵技術,其以“大算力驅動強算法處理大數據”2的方式學習現有知識,從而獲得強大的自然語言處理能力,具備文本、圖片、音視頻以及代碼生成等功能。當前,大語言模型已成為一種基礎設施,并以賦能一切行業的強勢表現,展現出顯著的技術效用。然而,技術浪潮之下人類知識秩序也面臨著重構的機遇和風險,新舊秩序之間的協調成為現實而急迫的問題。3版權作為調整知識秩序的核心制度,首當其沖成為新技術挑戰的領域。

近日,廣州互聯網法院審結了被媒體稱為“全球人工智能生成內容(以下簡稱AIGC)平臺侵權第一案”的奧特曼圖片版權糾紛。4該案原告為奧特曼系列作品的版權獨占授權人,被告則是提供人工智能圖片生成服務的公司,原告發現當在被告經營的網站中輸入生成奧特曼圖片的相關指令時,該網站所生成的圖片與原告享有版權的奧特曼圖片具有實質性相似。法院最終判決被告侵犯了原作品版權人的復制權和改編權。與此同時,小紅書旗下的人工智能繪畫產品Trik所生成的圖片因與平臺用戶的原創作品高度相似,而被多位創作者提起訴訟。5自大語言模型面世以來,美國大規模版權集體訴訟不斷發生,這些訴訟一致指向大語言模型訓練和生成過程中對版權作品的擅自復制和利用。版權人和人工智能企業之間的紛爭愈演愈烈,版權風險成為大語言模型發展的首要障礙。我國大語言模型的研發和落地正處于關鍵時刻,以百度“文心一言”和阿里“通義千問”等為代表的大語言模型不斷涌現,但總體而言與美國尚存在技術差距。美國大語言模型版權集體訴訟的困境具有重要的警示意義。我國版權制度如何因應未來可能發生的類似糾紛,協調技術發展和版權保護的沖突,成為亟需回答的難題。美國經驗作為“他山之石”,可以為我國提供參照。

二、現實表征:大語言模型下版權集體訴訟的發生

集體訴訟(Class Action)是美國司法領域的一項重要制度,是指由一個或數個代表人為了集體全部成員的利益而代表集體成員提起的訴訟。6通過集體訴訟解決糾紛需要具備“代表性”和“典型性”兩項條件。7所謂“代表性”是指訴訟人數眾多,單獨提起訴訟不具有現實性,而集體代表人能夠較好代表集體成員的利益,有能力提起和參與訴訟。“典型性”則指集體訴訟的請求是集體成員的典型主張,即使單獨提起訴訟也會提出類似請求。在集體訴訟程序中,如果集體成員未明確表示退出,則視為默認其集體成員身份,訴訟的結果不僅對參與訴訟的代表人有效,也約束其他被代表的集體成員。通過分擔訴訟成本,共享訴訟利益的制度性設計,集體訴訟最大程度發揮了規模效應,因而成為解決群體性利益糾紛的重要手段。自2022年以來,各類大語言模型紛紛發布并投入應用,大規模版權抗議和訴訟亦紛至沓來。集體訴訟成為版權人解決大語言模型版權糾紛的重要手段。近一年時間里,美國境內版權人對大語言模型開發者等提起了近10起版權集體訴訟,引起全球高度關注。從所代表的利益團體來看,可以分為以下三類:

(一)代碼開發者代表的集體訴訟

2022年11月3日,兩名匿名代碼開發者在美國加州北區地方法院對GitHub、微軟及其人工智能技術合作伙伴OpenAI提起集體訴訟。8 GitHub是全球最大的開源代碼托管平臺,代碼開發者可通過“通用公共許可證”(以下簡稱GPL)的方式將其軟件作品在平臺上發布。基于GPL發布的軟件代碼允許他人學習、復制、修改和傳播且不收取許可費,從而鼓勵衍生軟件作品的開發。但GPL也具有一定的條件,當復制或傳播該軟件時必須附載有關該軟件的某些信息:①在每份副本上顯著和適當地標注版權聲明和免責聲明;②完整保留所有涉及本GPL協議和無擔保聲明的通知;③向任何其他接受者提供本GPL協議的副本。GPL模式是一種介于嚴格版權保護和自由使用之間的折衷方案,旨在推進軟件代碼的開源與協作。使用者違背GPL的許可條件進行使用則不僅違反合同,也面臨侵犯版權的風險。9此外,還存在其他類型的許可證如MIT許可證和Apache許可證等,但均具有相似的功能。微軟于2018年收購了GitHub,其后GitHub和OpenAI于2021年推出了人工智能編程模型Copilot以及Codex。Copilot由Codex提供支持,可以根據用戶輸入的文本提示,直接在程序員的代碼編輯器中生成和推薦代碼行。該起訴訟的原告是根據GPL等協議在GitHub上發布軟件作品的作者,其代表所有在美國具有相同情況的成員提起集體訴訟。起訴的主要理由是Copilot和Codex的訓練使用了大量來自GitHub上公開可訪問的數據,并將其中的代碼提供給用戶且未按照GPL規定的許可條件載明版權聲明等相關信息。該起訴訟被認為是美國第一起挑戰人工智能系統訓練和輸出的集體訴訟案件,涉及大規模的軟件盜版指控。

(二)視覺藝術家代表的集體訴訟

2023年1月13日,三名視覺藝術家在美國加州北區地方法院向AI繪圖軟件服務商Stability AI、Midjourney和DeviantArt提起集體訴訟。10被告分別是AI繪圖軟件Stable Diffusion、Midjourney和DreamUp的開發和運營企業。Stable Diffusion等大語言模型的訓練需要龐大的圖片數據庫作為支持,原告認為其訓練數據庫大部分是通過網絡爬取而來,并且具有數十億張圖片的規模。當用戶提示模型生成圖像時,模型看似生成了新的圖像,但這些新圖像完全是基于訓練圖像而來,是模型根據提示提取的特定圖像的衍生作品。因此,被告不僅擅自復制和使用了原告的作品進行模型訓練,而且模型生成的圖片與原告作品具有相似的風格,對原告作品形成了市場替代。原告所代表的是版權作品被擅自用于模型訓練的美國視覺藝術家群體。因此,起訴書在開篇即嚴厲指出AI圖像生成器是21世紀的拼貼工具,侵犯了數百萬藝術家的權利。實際上,早在2022年12月,AI繪圖軟件在全球爆火后就引起了藝術家群體的大規模抗議,原因是其訓練圖片抓取自藝術家們的版權作品且未經許可。與此同時,全球知名圖片服務商Getty Images也在英國法院對Stability AI提起版權侵權訴訟,指控其在未經許可的情況下使用Getty Images的圖像。美國該起版權集體訴訟引起了全球廣泛關注,其訴訟走向和結果將對后續案件的裁判產生深遠的意義。

(三)文學作品作者代表的集體訴訟

自今年6月以來,美國作家群體提出了多起針對生成式人工智能大語言模型的版權集體訴訟。其中包括:美國喜劇演員兼作家Sarah Silverman等對Meta和OpenAI的訴訟;11暢銷書作家Paul Tremblay等12和普利策獎得主Michael Chabon等13對OpenAI的訴訟;以及《紐約時報》記者等對谷歌的訴訟14。這些訴訟的被告均是美國目前實力最強的科技巨頭,Meta的“LLaMA”、OpenAI的“ChatGPT”以及谷歌的“Bard”代表了美國乃至全球大語言模型的最先進水平。原告則是以美國知名作家為代表的文學作品作者陣營。上述訴訟指出,雖然大語言模型是一個軟件程序,但它并不是由人類軟件工程師創造的,而是通過從不同來源復制大量文本并將這些文本輸入模型來“訓練”的。訓練數據庫則是通過網絡爬取或直接來自“Libgen”等盜版圖書網站,其中包含了原告的版權作品。在訓練過程中,大語言模型復制訓練數據庫中的每一段文本,并從中提取表達性信息。當用戶輸入提示后,大語言模型不僅可以輸出原告作品的摘要或片段等內容,還能夠對原告作品進行深入的分析。因此,原告認為被告利用了其版權作品且擠占了其市場份額,構成版權侵權。此外,被告還存在刪除原告作品名稱、書號、版權號、作者和版權人等版權管理信息的行為。書籍和報刊等文字作品是大語言模型訓練的最重要原始材料,對于大語言模型的輸出質量具有關鍵性的價值。因此,上述案件的裁判結果不僅牽涉大語言模型企業的利益,也將對相關技術的發展產生顯著影響。

三、影響機理:大語言模型下版權集體訴訟的風險

從社會系統理論的視角而言,科技創新實際上涉及三方社會子系統——科學系統、經濟系統與法律系統,系統之間相互刺激和互動。15大語言模型版權集體訴訟實際上是顛覆性科技創新所引發的經濟和法律風險的表征,并可能帶動經濟和法律系統的變革。在這一框架之下,大語言模型版權集體訴訟的風險可以細分為以下三個層面:

(一)法律風險

法律風險處于最表層,是版權集體訴訟本身所反映出的版權規則和制度困境。大語言模型所帶來的法律風險大部分屬于技術過程所伴生的結構性風險。其與大語言模型具有共生性,無法通過技術的調整加以避免。從現實情況來看,大語言模型版權集體訴訟展現出的版權法律風險主要包括:

一是大語言模型訓練過程中使用版權作品引發的版權侵權。無論使用何種方式訓練模型,均需要建立訓練數據集,重復訪問和讀取數據,然后進行分析以提取信息。16在這一過程中存在大量復制、改編、匯編等行為。二是大語言模型生成內容中再現版權作品引發的版權侵權。研究表明,大語言模型存在“記憶現象”,即當訓練數據中某些特定的表達或作品出現的次數過多時,導致大語言模型直接輸出該表達或作品的原始片段的現象。17在上述集體訴訟中,不少案件正是因為大語言模型的輸出結果復現了原作品或與原作品相似,引起版權人的不滿。三是刪除作者姓名、名稱以及作品版權管理信息等引發的版權侵權。作品信息以及版權管理信息不僅關系到作者署名權等人格利益,而且是確定版權歸屬的重要依據。大語言模型根據用戶的提示生成所需內容,一般是直接使用版權作品,而沒有附隨相關信息。如果按照美國法院以往的觀點,即“版權管理信息需要與作品一起傳播”,則大語言模型目前可能不符合《數字千年版權法》(以下簡稱DMCA)的規定。18四是版權合理使用制度遭遇變革難題。美國學者指出,人工智能面臨“合理使用”危機,因為機器學習模型可以創造出與人類版權表達大致相當的內容,因而無法滿足“非表達性使用”的要求。19大語言模型所輸出的內容極有可能對人類作品造成市場替代,進而影響原作品版權人的利益。

(二)經濟風險

大語言模型版權集體訴訟實質上是科技發展之下版權人和科技企業之間利益失衡所引發的集體對抗。在傳統上,版權利益以“許可制度”為保障而得以實現。任何傳播技術的應用,須以對版權的尊重和許可收益的同步提高為前提。20大語言模型的出現打破了原有的版權許可模式,海量作品授權的難題將導致版權法面臨嚴重的市場失敗。動輒代表數百萬版權人提起的版權集體訴訟則更能說明這一問題——版權許可模式難以滿足大語言模型海量作品使用的需求。以追求技術發展和傳播效率為目標,決定了大語言模型企業必須挑戰這一既有規則,才能獲得充分的發展空間。因此,目前大語言模型的訓練數據主要依賴于互聯網公開資源,其中包括了大部分的版權作品。

另一方面,隨著大語言模型性能的提升,更廉價、高效且優質的人工智能生成內容逐漸成為用戶的首選,傳統作品的競爭優勢將蕩然無存。在多起訴訟中,原告均表示出對其技能和工作機會被AI替代的擔憂。世界經濟論壇(World Economic Forum)于2023年9月發布的《未來就業:大語言模型與就業》白皮書指出:“雖然大語言模型的應用可能會顯著提高生產力和創造新的就業機會,但也有可能取代現有的角色,加劇社會經濟差距”21。大語言模型時代,AIGC成為內容生產的新范式,一定程度上預示了專業生成內容(以下簡稱PGC)和用戶生成內容(以下簡稱UGC)的式微。無論是PGC還是UGC,其背后都是以作者為代表的版權人群體,他們首當其沖成為內容生產模式變革下最可能被取代的利益人群。

然而,AIGC需要以PGC和UGC的專業化和多元化內容作為數據學習和模型優化的資源。22這一方面顯示出新技術發展之下,經濟利益分配的失衡;另一方面也體現了內容生產模式演變的延續性和依賴性。因而版權人在大語言模型時代不得不抓緊“版權許可”這一救命稻草,并且奮力一搏。在版權集體訴訟中,原告的重要訴求之一便是要求被告使用版權作品必須經過授權,并支付費用。版權產業是美國的支柱性產業,美國從新千年以來版權產業就占GDP的11.07%以上,每年提供就業崗位超過1000萬個,版權人群體的經濟和社會影響不容小覷。23糾紛雙方的僵持局面對版權產業以及互聯網等新技術行業的發展存在諸多不利。

(三)創新風險

在大語言模型版權集體訴訟中,除了主張版權侵權損害賠償之外,另一普遍的訴求是“禁令救濟”(Injunctive Relief)。如在普利策獎得主Michael Chabon等對OpenAI的訴訟中即提出:除非永久禁止被告的侵權行為,并停止繼續使用和分發(未經許可利用原告版權材料訓練的)GPT模型,否則不足以補救原告的損害。這一訴求存在三個方面的困難:一是除非整體上禁止該模型,否則不太可能在技術上將已訓練完成的模型與原始數據剝離;二是即使技術上可以排除使用未經許可的版權作品進行訓練,但可能影響模型的質量,產生內容偏見等現象24;三是版權許可的規模和成本過高,導致技術創新的“寒蟬效應”。因此,版權法層面的嚴格限制可能會阻礙大語言模型這一關鍵技術的進步甚至社會的整體發展。25從科技發展史來看,每一次新技術的出現必然伴隨著反對的聲浪。17—18世紀的工業革命進程中,由于機器對工人的大規模替代,引發了工人反抗以及破壞機器的運動。這一浪潮的帶頭者是英國一位名叫盧德的工人,因此這些反對者被稱為“盧德派”。26在版權利益和工作機會急劇減少的情況下,版權人成為大語言模型時代的“盧德派”并扛起對抗技術創新的大旗,亦是可以預料的事情。已有美國科學家預測,OpenAI可能會因為這些數據問題而被迫刪除部分模型。27正如美國版權學者所言,“我們正在經歷一場生成式人工智能的技術革命,我們不知道它會采取什么形式,但有一件事是明確的——訴訟已經開始蔓延了”28。

四、治理策略:大語言模型下版權集體訴訟的因應

任何顛覆性技術創新的治理實際上均面臨著所謂的“科林格里奇困境”,即如果因為擔心不良后果而過早實施控制,那么技術很可能就難以爆發,而如果控制過晚,已經成為整個經濟和社會結構的一部分,就可能走向失控。29因此,技術治理的時間和手段對于一項新技術的發展和規制具有關鍵影響。總體來看,美國應對大語言模型版權集體訴訟的思路延續了拜登政府“保證創新優先”30的一貫風格。2023年7月13日,美國聯邦貿易委員會(FTC)首次對ChatGPT的開發商OpenAI開展風險調查。調查主要針對消費者的隱私和數據安全問題,對ChatGPT訓練數據的來源和訓練方法等也有所涉及。此次調查也引發了反對的聲音,被認為可能會帶來扼殺創新的后果。相比于其他領域,版權問題的處理對技術創新的影響更為深遠。因此,美國政府在版權問題上并未急于介入,而是采取觀望的姿態。目前,美國版權行政部門、司法部門、學界以及相關行業等正處于一種磋商和共識建立的階段。其主要的應對策略體現在以下幾個方面:

(一)版權聽證凝聚共識

從以往的經驗來看,以聽證會的形式確立人工智能公共政策的方向是美國政府的重要手段。2016年,美國政府圍繞“人工智能”主題共組織了五場研討會,并以此為基礎形成了《國家人工智能研發戰略規劃》等重要文件。31面對大語言模型引發的大規模版權糾紛,美國版權局也采取了同樣的策略。2023年4月至5月期間,美國版權局接連舉行了四場關于“人工智能與版權”主題的公開聽證,包括“人工智能與文學作品”“人工智能與視覺藝術”“人工智能與視聽作品”以及“人工智能與音樂和錄音”四個分議題。參與聽證的代表來自律師行業、計算機與通信行業協會、版權聯盟、法學界、圖書館版權聯盟、作家協會、微軟公司代表等,研討的范圍涵蓋了版權侵權、合理使用、監管策略、技術緩解措施等版權法律和政策問題。行政決策聽證的功能在于為理性論辯提供建制化空間以集結民意,制約行政決策。32美國版權局以公開聽證的形式為版權糾紛的各方利益代表提供了意見和情緒抒發的場所,同時又發揮了群策群力的作用,是一種“以商談求共識”的重要機制。在技術發展和應用初期,行政權力保持謙抑和積累知識具有重要的意義,公開聽證則為此提供了保障。此外,公開聽證參與主體的代表性和廣泛性、議題設置的有效性、辯論和協商的深度性等也是版權聽證凝聚共識的重要基礎。

(二)能動司法緩沖矛盾

“從現代民主國家治理的歷程來看,國家治理大致會經歷從以立法為中心的治理到以行政為中心的治理的轉化,并最終轉向以司法為中心的社會治理。”33美國的版權治理實踐在一定程度上體現了這一規律,司法在版權問題的治理上扮演著關鍵角色。近年來,由新技術引發大規模版權糾紛的最典型例子是“谷歌數字圖書館”系列案件。谷歌自2004年實施數字圖書館計劃,其與美國各大圖書館合作將館藏書籍進行掃描和數字化,并匯編為一個巨大的數據庫以供后續的文本與數據挖掘(以下簡稱TDM)。34由于谷歌的大規模復制行為,導致該計劃從一開始就遭到了普遍的反對,并引發諸多訴訟。最終,美國法院力排眾議在多起判決中支持TDM屬于合理使用。35因此,學界認為美國通過法院解釋版權法中的合理使用規則,為人工智能的發展開辟了空間。36相比于立法和行政的“剛性”治理,司法以其具有參與、協商與靈活特性的“柔性”治理緩沖了社會沖突,并為技術的發展提供了保障。

如果說TDM代表了分析式人工智能的技術特質,大語言模型則是生成式人工智能的技術基石。大語言模型版權集體訴訟也許只是“谷歌數字圖書館”系列案件在生成式人工智能時代的延續。因此,OpenAI和Meta等被告均提出了“合理使用”作為辯駁的依據。基于《美國版權法》上合理使用規則的開放性和靈活性,美國學者指出:“訴訟的影響將取決于法院選擇在多大范圍內解釋作者提出的挑戰以及其他類似案件的結果。”37針對視覺藝術家群體對Stability AI、Midjourney和DeviantArt提起的訴訟,法官在一場聽證會中表示傾向于駁回藝術家們對人工智能公司提起的大部分訴訟,但也允許其繼續提起該類訴訟。原因是該案關于版權侵權的事實不夠清楚,是否存在“實質性相似”也存疑。38雖然這些早期案件的結果還遠未確定,但初步跡象表明,法院并沒有屈服于輿論炒作和原告的辭術,而是對原告的主張抱以適當程度的懷疑。39美國版權司法的能動性是其司法社會功能發揮的基礎,其優勢在于以“柔性”的方式既貫徹了公共政策,又減小了劇烈社會沖突的可能性。

(三)行業自治消弭風險

在積極應訴的同時,OpenAI以及微軟等企業也通過行業對話等方式尋求合作。OpenAI在遭遇訴訟之后向媒體表示正在與世界各地的創作者和作家協會進行富有成效的對話,并將繼續尋找互惠互利的方式,幫助作者們利用新技術。實際上,這一表態并非OpenAI一廂情愿,一定程度上也是作者群體的意愿。在美國版權局舉行的第一場公開聽證上,作家協會的首席執行官明確表達并不希望阻礙人工智能的發展,只是希望“集體許可”能夠實施,以補償作者利益。上述事實反映出訴爭雙方的矛盾具有協調的可能性,行業的磋商和合作將發揮關鍵的作用。此外,版權侵權的技術緩解措施是行業自治的重要手段。造成AIGC版權侵權的關鍵原因是記憶現象的產生,減少記憶現象的技術措施主要有兩種:一是合理設置模型的溫度(Temperature)參數;二是清除訓練數據中重復出現的作品。通過“人類強化反饋學習”以及“版權過濾”等技術的投入也可以大幅降低大語言模型輸出侵權內容的概率。40版權人所要求的“選擇退出”(Out put)機制,也需要大語言模型企業予以技術支持。目前,已有不少企業表示可以進一步研究和增設相應技術措施,包括允許版權人排除其作品被納入訓練數據庫等。

五、經驗啟示:大語言模型下版權集體訴訟的治理

隨著大語言模型的發展和應用,大規模版權訴訟和抗議在我國爆發的風險不可忽視。目前,我國司法機關已逐步面臨AIGC版權侵權糾紛審理的難題。實際上,版權人與科技企業對抗的情況在我國互聯網發展史上亦多有發生,最為典型的是“百度文庫案”。2011年,賈平凹、劉心武、韓寒等50位知名作家共同簽署了《“三一五”中國作家討百度書》,劍指百度文庫未經授權收錄作家作品(約278萬份),并向公眾免費提供的行為。41雙方在后續進行了相關談判,但未達成一致認識,最終演變為一系列版權訴訟。美國大語言模型版權集體訴訟作為“前車之鑒”,對我國新科技背景下的版權治理具有重要的參照意義。

(一)創新優先的價值導向

人工智能領域目前已成為大國博弈的新邊疆,在國際權力結構的重構中發揮著決定性作用。42大語言模型作為新一代人工智能的底層技術,具有基礎設施地位。從國家安全的角度而言,不發展才是最大的不安全。版權制度構成人工智能發展的基礎性法律環境。從美國經驗來看,“創新優先”是其版權治理的首要價值追求。研究指出,《美國版權法》在全球創新競爭中提供了一種競爭優勢,因為其靈活的合理使用規則允許研究人員對任何可以訪問的材料進行計算機分析。43從谷歌數字圖書館案到大語言模型版權集體訴訟,《美國版權法》的合理使用制度很可能再次為其科技的發展創造條件。法官的能動司法則體現在不固守成規,在合適的時機創造新的合理使用類型,從而提供科技發展所必要的版權環境。另一方面,與歐盟對立法的狂熱追求相比,美國具有更強的戰略定性和務實性。在新技術發展的初期,面臨“科林格里奇困境”時,美國立法、行政等剛性手段并不過早介入,以避免對新技術和新業態的不當干擾。此舉為科技的發展提供了必要的自由度,充分體現了“創新優先”的策略。當前,我國與美國的情況高度相似,均處于生成式人工智能技術研發和應用的第一梯隊。堅持“創新優先”的價值導向,不僅是促進科技發展的需要,更是避免在中美科技競爭中落入下風的必要舉措。

(二)多元協同的治理模式

新技術具有高度專業性和復雜性,其治理需要多方主體的共同參與,包括政府部門、行業組織、標準組織、科研機構以及公眾等44,即所謂“多元協同”的治理模式。從美國的情況來看,其并沒有將大語言模型版權集體訴訟的解決限制于司法領域,而是將其視為重要的社會問題加以治理。在治理手段上,通過公開聽證凝聚社會共識,將版權管理部門、版權人群體及其組織、科技企業以及學術團體等置于公眾的監督之下進行充分協商,為利益的再平衡提供了重要的民主機制。在具體問題的解決上,則又充分依賴于行業自治以及司法能動性的發揮,將問題控制在發生的起點。無論是行業合作的達成還是技術緩解措施的應用均具有復雜性,行業本身最具有解決問題的專業能力和現實意愿。2023年7月10日,國家互聯網信息辦公室等七部門聯合發布了《生成式人工智能服務管理暫行辦法》,其中第5條第2款指出:“支持行業組織、企業、教育和科研機構、公共文化機構、有關專業機構等在生成式人工智能技術創新、數據資源建設、轉化應用、風險防范等方面開展協作。”該規定表明我國在政策層面對多元協同治理模式的認可。但從實踐層面觀之,我國版權管理部門等所采用的政策工具則較為單一,缺乏深度了解行業訴求以及提供溝通平臺的措施。美國版權局通過公開聽證促進行業協商合作,釋放社會意見及情緒的做法值得我國參考。

(三)合理使用制度的完善

我國大語言模型版權風險的治理,除宏觀層面堅持“創新優先”的價值導向以及中觀層面采取“多元協同”的治理模式之外,在微觀層面亦需要版權法律制度的配合。美國的合理使用制度采用“開放式”立法模式,即規定判斷合理使用情形的四個基本條件,允許法官根據該“四要素標準”自主判斷是否屬于合理使用。45我國《著作權法》第24條對合理使用的規定則屬于“封閉式”立法,除規定的13種法定情形之外,法官無權另行創設新的合理使用類型。因而,在大語言模型等人工智能訓練過程中,對版權作品的利用無法由法官靈活作出合理使用認定,版權侵權風險可能嚴重阻礙科技創新。從合理性來看,大語言模型訓練中對版權作品的使用屬于“非表達性使用”,是將作品作為一種事實信息進行的功能性利用,其結果并沒有再現原作品的藝術價值。46該種使用不會為版權人帶來市場替代,進而影響其版權利益。因而,根據版權法的理論,該種使用不應當由版權人所壟斷,可以納入合理使用范圍。從比較法的角度而言,歐盟、日本等發達國家和地區均構建了與人工智能訓練相關的作品合理使用制度,體現了人工智能時代版權法對科技創新的一致態度。我國《著作權法》可借鑒相關立法經驗,增設一項新的合理使用類型——“人工智能訓練合理使用”,在制度上為大規模版權侵權的治理開辟出一條促進創新的道路。而在人工智能內容輸出階段,由于AIGC可能再現原作品的價值,則仍應當堅持版權侵權認定的基本規則,通過“接觸+實質性相似”的方法加以認定。

六、結語

版權作品是大語言模型獲取智能的最寶貴“糧食”,美國大語言模型版權集體訴訟提出了一個最根本的問題——究竟誰應當為科技的進步“買單”?大語言模型的開發和應用目前仍處在起步階段,對于一個國家而言,首要任務是促進創新和發展產業生態,以確保在全球競爭中贏得優勢。版權制度是科技創新的基石,堅持“創新優先”則是版權制度對時代需求的回應。美國的經驗表明,“法律的不完備不是一種缺點”,相反,其可以為不同的價值理念和治理措施開辟空間。合理的版權政策、多元協同的治理架構、靈活的版權規則共同構成未來防范大語言模型下大規模版權糾紛的關鍵策略體系。

1基金項目:本文系重慶市社會科學規劃一般項目“美國經濟制裁介入知識產權領域的影響與應對”(課題編號:2023NDYB35)的階段性研究成果。

作者簡介:肖啟賢,西南政法大學博士研究生。

. 參見張新新:《生成式智能出版:知識生成原理、沿革與啟迪——從智慧驅動到數據驅動》,載《編輯之友》2023年第11期,第36-44頁。

2. 支振鋒:《生成式人工智能大模型的信息內容治理》,載《政法論壇》2023年第4期,第34-48頁。

3. 參見高奇琦:《知識革命還是知識墮化——ChatGPT與知識生成秩序》,載《中國社會科學評價》2023年第2期,第8-13頁。

4. 參見廣州互聯網法院(2024)粵0192民初113號民事判決書。

5. 《多位創作者起訴小紅書偷畫師作品“煉”AI模型涉侵權,已獲立案》,載微信公眾號“知產前沿”, 2023年11月30日上傳。

6. 參見孫放:《公地悲劇理論下集體訴訟的經濟邏輯與制度構建》,載《學術交流》2019年第7期,第74-83頁。

7. 參見郭雪慧、李志敏:《擴散性利益保護訴訟制度研究——以訴訟保障為視角》,載《河北法學》2017年第6期,第88-100頁。

8. See DOE 1 v. GitHub, Inc., 4:22-cv-06823, (N.D. Cal.).

9. 參見何煉紅:《從Copyright到Copyleft:作者觀念的反思與超越》,載《甘肅社會科學》2005年第5期,第61-67頁。

10. See Andersen v. Stability AI Ltd., 3:23-cv-00201, (N.D. Cal.).

11. See Kadrey v. Meta Platforms, Inc., 3:23-cv-03417, (N.D. Cal.).

12. See Tremblay v. OpenAI, Inc., 3:23-cv-03223,(N.D. Cal.).

13. See Chabon v. OpenAI, Inc., 3:23-cv-04625,(N.D. Cal.).

14. See J. L. v. Alphabet Inc., 5:23-cv-03440,(N.D. Cal.).

15. 參見劉岳川:《科技創新的法律規制》,載《華東政法大學學報》2023年第3期,第37-46頁。

16. See Guadamuz Andres, A Scanner Gloomily: Copyright Liability and Exceptions inbound Artificial Intelligence Inputs and Outputs, at https://ssrn.com/abstract=4371204, last visited on August 22, 2024.

17. See Sag Matthew, Copyright safety for generative AI, Houston Law Review, Vol.61:295, p.310 (2023).

18. See Peter Henderson et al, Foundation Models and Fair Use, at https://arxiv.org/abs/2303.15715, last visited on August 22, 2024.

19. See Benjamin L. W. Sobel, Artificial intelligence's fair use crisis, Colum. JL amp; Arts, Vol.41:45, p.51 (2023).

20. 參見熊琦:《互聯網產業驅動下的著作權規則變革》,載《中國法學》2013年第6期,第79-90頁。

21. See 2023 World Economic Forum,Jobs of Tomorrow:Large Language Models and Jobs,at https://www3.weforum.org/docs/WEF_Jobs_of_Tomorrow_Generative_AI_2023.pdf,last visited on August 22, 2024.

22. 參見何哲、曾潤喜、秦維等:《ChatGPT等新一代人工智能技術的社會影響及其治理》,載《電子政務》2023年第4期,第2-24頁。

23. 參見余冬林:《2002~2012年美國版權產業發展變遷及其原因》,載《中國出版》2015年第10期,第57-61頁。

24. 參見劉艷紅:《生成式人工智能的三大安全風險及法律規制——以ChatGPT為例》,載《東方法學》2023年第4期,第29-43頁。

25. 參見朱鴻軍、李辛揚:《ChatGPT生成內容的非版權性及著作權侵權風險》,載《新聞記者》2023年第6期,第28-38頁。

26. 參見於興中:《數字素養:從算法社會到網絡3.0》,上海人民出版社2022年版,第4頁。

27. See Sharon Goldman, What Sarah Silverman's lawsuit against OpenAI and Meta really means, at https://venturebeat.com/ai/what-sarah-silvermans-lawsuit-against-openai-and-meta-really-means-the-ai-beat/, last visited on August 22, 2024.

28. See Guadamuz Andres, A Scanner Gloomily: Copyright Liability and Exceptions inbound Artificial Intelligence Inputs and Outputs, at https://ssrn.com/abstract=4371204, last visited on August 22, 2024.

29. 參見鐘祥銘、方興東、顧燁燁:《ChatGPT的治理挑戰與對策研究——智能傳播的“科林格里奇困境”與突破路徑》,載《傳媒觀察》2023年第3期,第25-35頁。

30. See Hodan Omaar, U.S. AI Policy Report Card,at https://www2.datainnovation.org/2022-ai-report-card.pdf, last visited on August 22, 2024.

31. 參見賈開、郭雨暉、雷鴻竹:《人工智能公共政策的國際比較研究:歷史、特征與啟示》,載《電子政務》2018年第9期,第78-86頁。

32. 參見薛冰、鄭萍:《以商談求共識:行政決策聽證中公共意愿的形成》,載《北京行政學院學報》2011年第2期,第38-42頁。

33. 陳星儒、周海源:《司法參與社會治理的正當性進路分析》,載《湖北社會科學》2018年第4期,第170-176頁。

34. 參見張惠彬、肖啟賢:《人工智能時代文本與數據挖掘的版權豁免規則建構》,載《科技與法律(中英文)》2021年第6期,第74-84頁。

35. 參見羅嬌、張曉林:《支持文本與數據挖掘的著作權法律政策建議》,載《中國圖書館學報》2018年第3期,第21-34頁。

36. 參見林秀芹:《人工智能時代著作權合理使用制度的重塑》,載《法學研究》2021年第6期,第170-185頁。

37. Max Zahn, Authors' lawsuit against OpenAI could 'fundamentally reshape' artificial intelligence,according to experts,at https://abcnews.go.com/Technology/authors-lawsuit-openai-fundamentally-reshape-artificial-intelligence-experts/story?id=103379209,last visited on August 22, 2024.

38. See Blake Brittain, US judge finds flaws in artists' lawsuit against AI companies, at https://www.reuters.com/legal/litigation/us-judge-finds-flaws-artists-lawsuit-against-ai-companies-2023-07-19/, last visited on August 22, 2024.

39. See Christopher J. Valente et al, Recent trends in generative artificial intelligence litigation in the united states,at https://www.klgates.com/Recent-Trends-in-Generative-Artificial-Intelligence-Litigation-in-the-United-States-9-5-2023,last visited on August 22, 2024.

40. See Sag Matthew, Copyright safety for generative AI, Houston Law Review,Vol.61:295, p.338 (2023).

41. 參見林凌:《百度文庫侵權案引發的思考》,載《編輯學刊》2011年第4期,第29-32頁。

42. 參見余南平、張翌然:《ChatGPT/生成式人工智能對教育的影響:大國博弈新邊疆》,載《華東師范大學學報(教育科學版)》2023年第7期,第15-25頁。

43. See Michael W. Carroll,Copyright and the Progress of Science: Why Text and Data Mining Is Lawful,UC Davis Law Review,Vol.53:893, p.893 (2019).

44. 參見郭小東:《生成式人工智能的風險及其包容性法律治理》,載《北京理工大學學報(社會科學版)》2023年第25卷第6期,第93-105頁。

45. 根據《美國版權法》第107條的規定,四要素包括:(1)使用的目的與特點,包括該使用是具有商業性質還是為了非營利的教學目的;(2)該版權作品的類型;(3)被使用的作品部分與整個作品的比例;(4)該使用對版權作品之潛在市場或價值所產生的影響。

46. 參見焦和平:《人工智能創作中數據獲取與利用的著作權風險及化解路徑》,載《當代法學》2022年第4期,第128-140頁。

The Copyright Constraint and Governance of the Development of Large Language Model——From the Practice of Class Copyright Action in the United States

Abstract: The training and application of generative artificial intelligence large language models have caused large-scale copyright collective lawsuits in the United States and other regions, and copyright issues have become the primary obstacle to the development of large language models. In terms of risk types, the copyright class action lawsuit of the large language model has triggered accompanying legal risks, economic risks, and innovation risks. The three important measures taken by the United States to respond to collective lawsuits over copyright in large language models are to consolidate social consensus through open hearings, buffer copyright conflicts through active judiciary, and eliminate copyright risks through industry autonomy, reflecting the innovative governance approach of prioritizing innovation. The big language model in our country is currently in a critical stage of research and application, and is facing similar copyright risks. The experience of the United States serves as a valuable reference for copyright governance in China’s large language models. Our country’s copyright governance measures should adhere to the value orientation of “innovation first” at the macro level, adopt a governance model of “diverse collaboration” at the meso level, and introduce the type of “reasonable use of artificial intelligence training” at the micro level.

Keywords: Generative Artificial Intelligence; Big Language Model; Copyright Collective Litigation; Innovation Priority

主站蜘蛛池模板: 成人伊人色一区二区三区| 国产欧美日韩资源在线观看| 狼友视频一区二区三区| 亚洲av无码专区久久蜜芽| www.99精品视频在线播放| 亚洲黄色成人| 国产精品露脸视频| 不卡国产视频第一页| 亚洲人成高清| 国产午夜精品一区二区三| 欧美一区精品| av天堂最新版在线| 国产美女在线免费观看| 青青草国产免费国产| 九色在线观看视频| 日本高清有码人妻| 九九九国产| 亚洲第一av网站| 国产乱码精品一区二区三区中文 | 思思热在线视频精品| 国内精自视频品线一二区| 久久www视频| 亚洲成肉网| 手机在线国产精品| 欧美日韩国产精品va| 72种姿势欧美久久久久大黄蕉| 亚洲人成色在线观看| 国产乱子伦无码精品小说| 国产成人一区| 色香蕉影院| 中国成人在线视频| 亚洲妓女综合网995久久| 韩日无码在线不卡| 91成人在线免费视频| 色婷婷电影网| 欧美啪啪网| 国产第一福利影院| 99久久国产精品无码| 色综合a怡红院怡红院首页| 久久无码免费束人妻| 国产在线观看99| 亚洲精选高清无码| 东京热一区二区三区无码视频| 2020久久国产综合精品swag| 在线观看免费国产| 国产高清无码第一十页在线观看| 高清无码手机在线观看| 久久亚洲黄色视频| 四虎成人精品| 国产产在线精品亚洲aavv| 国产男人的天堂| 99精品免费欧美成人小视频| 久久五月天国产自| 九色在线观看视频| 亚洲av无码片一区二区三区| 青草视频网站在线观看| 久久国产香蕉| 国产亚洲欧美在线专区| 亚洲香蕉久久| 88国产经典欧美一区二区三区| 婷婷综合色| 国产在线无码一区二区三区| 色婷婷综合在线| 欧美日韩资源| 日本伊人色综合网| 国产精品露脸视频| 国产制服丝袜无码视频| 欧美黄网站免费观看| 欧美日韩一区二区在线免费观看| 欧洲高清无码在线| 久久免费视频6| 亚洲视频无码| 免费观看国产小粉嫩喷水 | 国产成人a毛片在线| 啊嗯不日本网站| 日本AⅤ精品一区二区三区日| 精品日韩亚洲欧美高清a| 热九九精品| 日本在线免费网站| 国产一区二区免费播放| 茄子视频毛片免费观看| 波多野结衣爽到高潮漏水大喷|