關鍵詞:強人工智能;生成式人工智能;人工智能生成物;版權風險;技術治理;合理使用
中圖分類號:D923.4 文獻標識碼:A DOI:10.3969/j.issn.1003-8256.2024.06.005
美國人工智能實驗室Open AI于2022年11月上線了一款新型生成式預訓練變換模型(Chat GenerativePretrained Transformer),即ChatGPT,這一模型屬于自然語言處理(Natural Language Processing,NLP)領域的模型之一。此模型一經問世便引發了各界的廣泛關注,短短5天時間便突破了百萬用戶,發布2個月以后月活用戶便已過億,用戶增長速度打破了抖音用戶創下的增量記錄①。內容生成式語言模型將在未來顯著改變人類的生活方式,在不同的領域激發創造活力,甚至可能獲得突破性發展,引領數字時代的“科技革命”[1]。各大科技巨頭也對GPT模型發表了自己的評價,例如,微軟總裁比爾·蓋茨(Bill Gates)對ChatGPT模型在未來可能產生的影響做出了高度贊譽與評價:“ChatGPT 的影響不亞于互聯網和個人電腦的誕生!”②。《中國科學報》刊載的文章也將ChatGPT 的產生評價為“繼AlphaGo 之后,人工智能的又一重要突破,標志著以大模型為核心的智能計算范式的確立”③。
然而,技術的發展往往伴隨著法律風險的產生。生成式人工智能的發展固然會為人類社會帶來巨大變革,但是對基于ChatGPT 模式的技術原理進行分析,可以發現人工智能技術對于版權制度的沖擊隨著生成式人工智能的問世上了一個臺階。雖然ChatG?PT 問世時間不長,但是學界已經產出大量研究成果:有學者認為要對生成式人工智能構建專項法律規制體系[2];有學者主張對原有版權制度進行再解釋以適應“強人工智能”時代的技術發展[3];有學者從版權歸屬界定要素出發,對版權主體、客體等進行微觀調適,以期通過對現有法律的最小更迭來應對生成式人工智能對版權制度的沖擊[4-5]。但是現有的研究或對版權制度進行重構或對現有制度進行微調,都是在版權領域內部進行一定的遷移,從而應對生成式人工智能所帶來的制度沖擊。應當看到,引進技術以規制算法模式是未來在“強人工智能時代”可以廣泛借鑒的先進經驗,把技術方案引進法律規制框架能夠有效緩解生成式人工智能發展所帶來的負面影響。本文從生成式人工智能的技術原理出發,結合現有版權法律結構中關于合理使用制度、合理使用界定標準等要素,對類GPT 模型“輸入”端的文本抓取數據庫侵權風險進行分析,并對最終“輸出”端的生成物“獨創性”以及“可版權性”進行論證,同時對數字版權管理技術以及數字水印等技術管理手段引進生成式人工智能版權規制框架的可行性進行討論。
1 祛魅ChatGPT:發展態勢及技術原理分析
ChatGPT 的“爆火”引發了社會層面對語言訓練模型與生成式人工智能服務的熱議,國家互聯網信息辦公室緊急起草《生成式人工智能管理辦法(草案)》,并于2023年4月面向社會征求意見,且于短短數月內出臺了暫行辦法。由此可以看出政府也開始重視不斷迭代更新的人工智能模型,并從頂層設計維度防患于未然,以防止開啟“強人工智能”時代的“潘多拉魔盒”。基于其理論架構與技術原理,GPT 模型被廣泛應用于各個領域,諸如金融測算、代碼編寫、文章續寫等。不同于“弱人工智能”時代算法系統的簡單分析與重述,GPT模型所輸出的結果具有高質量性:經過Open AI實驗室的測試,ChatGPT模型能夠順利通過美國的部分司法考試以及法學院期末考試,甚至還通過了谷歌18萬美元崗位年薪的軟件工程師入職測試。迭代更新以后的GPT-4在各類考試中不僅僅只追求“通過”,更是取得了排名的突破:在律師職業資格考試中取得了前10%的優異成績④。其所具備的多場景、多業態的應用前景與落地可能性決定了GPT 模型勢必將在未來引發一場新的“語言訓練模型變革”。
美國人工智能實驗室Open AI團隊研發組曾對GPT模型的實現路徑進行了技術上的解釋:我們引入了一個框架,通過生成性的預訓練和辨別性的微調,用一個單一的任務診斷模型實現強大的自然語言理解;通過對具有長篇連續文本的多樣化語料庫進行預訓練,我們的模型獲得了重要的世界知識和處理長距離依賴關系的能力,然后成功地轉移到解決諸如問題回答、語義相似性評估、尾隨確定和文本分類等鑒別性任務上⑤。質言之,GPT模型通過對現有的文本數據庫進行無監督的自主分析與學習,通過對文本語義之間的關系、上下文的聯系以及口語化表達等內容進行分析,再以Transformer模型(以避免在訓練過程中NLP 模型應具有海量且高質的標注數據與泛化能力不足等一系列缺陷)構建具備邏輯性的類似于人類自然語言表達的算法模型,以此算法模型來分析提問者的問題,從而生成數字序列,最后通過特定的算法將數據序列轉化成文本針對提問進行“回答”。
ChatGPT 模型的底層技術邏輯是深度合成技術(deep synthetic),此技術興起已久,近年來數據資源的指數型增長使得人工智能生成物(AI Generated Con?tent,AIGC)與語言訓練模型飛速發展。ChatGPT模型根據用戶所輸入的提問,模擬人類的聊天行為,通過其深度學習技術與海量語料庫按照相關性進行文本抓取,生成一份“全新”的答案,并用人類可理解的自然語言進行輸出,進而與提問者進行“對話”,其已經具備“強人工智能”的顯著特征。
從ChatGPT模型的運行原理來看,其訓練途徑主要是大型語料庫與深度學習算法,通過自然語言處理模型與集成性搜索引擎構建一個“輸出型”智能系統,其使用深度學習算法對大型語料庫中存儲的海量數據進行“無監督的自主學習”,最終使其擁有語言理解和文本生成的能力,能夠完成用戶指令的任務。質言之,ChatGPT模型的基本原理是采用了預訓練(pre-training)和微調(finetuning)相結合的方法,通過大規模的語言數據集對神經網絡進行訓練,從而使其能夠模仿人類的語言思維、語言表達方式。依托于生成式人工智能(GAI)以及大型語言處理模型(LLM),ChatGPT 模型不僅可以深度學習各類知識,將復雜的人機互動加以“智能化”,同時還可以模擬各種場景,幫助人類處理各類語言和文字工作。在數據庫構建的過程中,Open AI公司并未公示其來源以及授權,在現有的GPT模型語料庫中,包含了大量維基百科、論文數據庫等必然受版權法保護的內容。如何在GPT模型發展的同時保護現有版權者的利益也屬于“強人工智能”時代需要關注的問題。
2 ChatGPT 模型引發的版權法律風險分析
從人類技術發展史來看,任何技術的創新都會有風險與之伴生[6],ChatGPT模型也不例外。ChatGPT作為一種大型語言模型(LLM),有著固有的顯著特點,這些特點也與下文分析的GPT模型所面臨的版權風險息息相關。
大型語言模型一般都屬于代碼層面的基石性模型(foundational model),可以廣泛地應用于搜索引擎等下游產業,具有強大的市場支配力;同時也有可能應用于公共領域,助力我國數字政府規劃建設[7]。但是這種廣泛應用有可能帶來一系列問題,必須通過相關的法規予以約束,同時要有相關政策與行業標準加以引導。此外,GPT模型具有生成性,其本質是人工智能生成作品產業的重要組成部分。這類具有“生成性”的人工智能不同于“弱人工智能”時代對大數據進行分析預測的“分析性”人工智能,其通過學習后“創造”的不具有重復性的全新作品有可能對現有版權體系造成沖擊。
2.1 ChatGPT 在數據獲取階段面臨版權侵權風險
承前所述,GPT 模型可以理解為一種大型語言模型,當前數據時代產生的數據爆發效應為GPT 模型提供了大量的訓練學習數據。據Open AI公司宣稱,GPT模型的訓練數據庫早已超過千億級別,不過在驚嘆AI模型發展迅速的同時也應當看到巨量數據的背后所隱藏的版權侵權風險⑥。目前,Open AI公司并未就巨量數據集的來源進行公示,相關數據庫的使用是否獲得授權還存在疑問。
ChatGPT通過對互聯網現有數據與知識進行學習,再通過一系列算法模型對現有內容進行解構重塑,最終輸出全新的觀點并用人類可理解的方式表達。這一內容生成模式的底層邏輯便是數據庫的文本挖掘,OpenAI公司所使用的訓練數據庫包括維基百科、各大期刊數據庫等,其中蘊含的巨量數據勢必包含受現行版權法所保護的內容,如果使用這些數據進行模型訓練時未通知版權所有人,那么一定會造成版權領域侵權頻發的現象,沖擊現有的版權保護體系。以對數據庫文本的復制使用為例,這一行為會造成版權侵權、二次創作許可等問題。或許Open AI公司會以合理使用來對抗版權所有人的侵權主張,認為ChatGPT的運行并非以盈利為目的,所以應當落入合理使用范圍以規避法律制裁,這也是歐盟于2019年頒布《數字化單一市場版權指令》后的全新司法實踐標準[8]。但是我國現行版權法體系對合理使用采取封閉模式規制,在2020年修訂《著作權法》時仍舊沿用“三步檢驗法”對合理使用的適用情形進行界定,并從法律文本維度劃定十三種合理使用的范圍,文本挖掘并不屬于法定合理使用情形中的任何一種[9],且在我國的司法實踐中并未將營利性使用認定為侵權要件[10]。故而GPT模型的“文本挖掘+轉化輸出”的內容生成模式并不能落入我國版權視域下合理使用的范疇[11]。
在實踐中,文本挖掘侵權早有處罰先例。丹麥最高法院就DDF公司與Infopaq公司的糾紛向歐洲法院請示處理方案的核心問題便是文本抓取的合理性問題。歐洲法院就此糾紛明確了文本抓取行為的版權侵權性質。美國集體訴訟案Andersen et al v.Stability AI Ltd案中也提到了AI抓取文本的侵權問題:以Andersen為首的美籍藝術家們表示DeviantArt 在未經藝術家個人或者集體管理組織許可的情況下將受版權保護的超過50億張網絡圖片作為“原料”用于AI模型的深度學習,這一行為是影響惡劣的版權侵權行為。藝術家們就此提出了包括涉嫌直接和替代侵犯版權、違反《數字千年版權法》、違反《加州反不正當競爭法》在內的七項侵權與違法指控⑦。
2.2 ChatGPT 在內容生成階段面臨權屬爭議
我國知識產權法學界對于人工智能生成作品的權屬爭議從未停止。對于是否應當將其納入版權保護領域存在較大的爭議,大多數學者認為人工智能算法系統僅僅是服務于人類創造的工具[12],人工智能生成物的本質還是人類創造的產物[13],其生成內容在版權法視域下近似于算法編寫者或者模型訓練者的智力成果創造行為[14],只要符合作品的構成要件即可獲得版權法的保護[15]。也有少數學者認為人工智能生成物僅僅是算法程序獨立創造的結果[16],其產生過程并沒有人類的主觀參與,不符合國際保護知識產權協會(AIPPI)關于人工智能生成物“可版權性”的認定標準,故而不應當將其納入版權保護領域。還有學者認為雖然人工智能生成物與人類創作作品有相似之處,但是不能因此便判定人工智能生成物享有與人類智力成果等同的地位,應當溯源人工智能生成物的生產過程,以此來判斷其是否落入我國版權法的規制范圍,是否能稱之為“作品”[17]。對ChatGPT模型來說,其在內容生成階段的爭議主要集中于生成物的“獨創性”以及“可版權性”兩大維度。
2.2.1 GPT模型生成回答的“獨創性”分析
以往的人工智能大多為“應用算法、規則和模板的結果,不能體現創作者獨特的個性”。但隨著ChatGPT的問世,許多學者認為人工智能逐漸步入“強人工智能”時代,具備了一定的自主創作以及信息重構能力,其輸出的文字具備了高度的“類人性”,擺脫了單純信息索引以及單句問答的局限性,故而“使得程序算法和獨立思考的界限進一步模糊”。但是仍有學者堅持不應將ChatGPT生成作品當作傳統的智力成果加以保護,因為ChatGPT作為一種大型語言模型,在本質上仍屬于“智能搜索引擎+智能文本分析器+洗稿器”的結合,內容生成不具有版權法語境下的“獨創性”[18]。不過也有學者對這種分類方式持否定意見[17]。
著作權法所保護的文字作品,并不局限于提出了新觀點的文字內容,也關注其文字組合、遣詞造句是否為獨創[19]。換言之,只要這些文字源于本人,且能表達一定的思想情感和傳遞較為完整的信息,無論質量如何都可以作為作品受到著作權法的保護。從這個角度來看,ChatGPT模型所生成的答案無疑是符合“獨創性”標準的,故而具有成為作品的可能性。但是AI生成物的“可版權性”在根本上要解決的是AI所輸出的內容是否具有賦予其法律保護的必要性,而非單純判斷其產物是否符合“獨創性”標準。
2.2.2 GPT模型生成回答是否具備版權保護的必要性
有學者認為人工智能生成物應當賦予著作權予以保護[14];也有學者認為鄰接權保護是一個不錯的規制路徑[20]。結合我國《著作權法》的設立目的⑧,版權保護是為了給予創作者一定的激勵以促進文化市場的繁榮與社會文化的發展。從實用主義的邏輯來分析,如果對AI主體的激勵無法促進作品的產生與文化的發展,那么也沒有必要對人工智能主體賦予著作權或者鄰接權。有研究者認為不賦予人工智能生成物以版權保護將導致人工智能生成物的無償使用,在利益的驅使下將擠占人類作品的生存空間,極大地打擊人類作者的創作積極性,進而導致我國版權市場的凋零[21]。從這個邏輯倒推的話,對人工智能生成物進行版權保護在“強人工智能”時代具有極其重大的現實意義。
學術觀點的爭鳴離不開現有法律文本體系。雖然英國的《著作權法》規定了計算機生成內容可以作為作品獲得版權保護,且國際上許多國家與地區均采用此類保護方式。但是我國并無此類法律規定。此外,我國《著作權法》第2條第1款明確規定:“中國公民、法人或者非法人組織的作品,不論是否發表,依照本法享有著作權”。從法律主體的維度來看,人工智能并不能作為版權所有主體納入現有版權法律保護體系。雖然有學者主張應當對人工智能采用一種類似于“法人作品”法律擬制的保護模式,但是也有學者對此觀點提出批駁,認為這種主張是顛倒版權法邏輯的:因為法人作品擬制與作品的認定并無關系,只有先將人工智能生成物認定為作品才能通過法律擬制將法人視作版權所有人[17]。不過前述內容也論證了人工智能生成物被賦予作品地位的可行性,故而此種觀點也值得業界人士深入探索,或許是將人工智能生成物納入現行版權法領域的一個有效進路。
人工智能生成物的“可版權性”爭論在實務領域也有所體現。2016年的“獼猴自拍案”在一、二審中均采用“作者中心主義”,認定只有人類才能被賦予作者的地位。“《通向天堂之近路》繪畫登記案”中的判決法院也采用了類似的認定標準⑨。2022年10月,美國版權局收回了由AI程序Midjourney生成的漫畫《黎明里的扎里婭》(Zarya of the Dawn)的版權登記,并要求版權申請者提供“人類實質性參與”的證據⑩,因為AIPPI于2019年頒布了《人工智能生成物的版權問題決議》,其中對人工智能生成物的可版權性做出了認定標準:人類干預+符合版權法視域下對“作品”的認定條件。從這一角度出發,或許又為人工智能生成物納入現有版權法規制范圍提供了一種進路:有一定的人類干預。我國于同年裁判的“騰訊公司訴被告盈某科技侵害著作權及不正當競爭糾紛一案”中認定了人工智能生成物的可版權性,不過這一判決在理論界并未獲得廣泛支持?。且中國不同于英美法系國家以判例作為法源,所以前述判決在我國并沒有普遍的適用空間。因此,不管在我國的理論界還是實務界,關于人工智能生成物的性質及知識產權歸屬仍待解決。
此外,Open AI公司就ChatGPT 生成回答的商業化利用制定了《使用協議》:使用者向GPT 模型輸入的文本與接收的GPT 模型輸出的文本應當稱為“內容”,用戶就所有的輸入內容享有所有權利,并對內容負責,保證其不能違反法律條文規定以及本協議的相關規定。根據《使用協議》的相關規定,用戶享有“內容”的所有權利,但是GPT模型的用戶量基數巨大,所以在實踐過程中可能會導致版權權屬糾紛等問題。
3 “野蠻生長”的ChatGPT 模型的法制因應
目前學界對于ChatGPT模型的發展與應用持謹慎態度,而現實社會也面臨ChatGPT被濫用的諸多風險,因此相關領域的法制因應刻不容緩。有學者主張應當對GPT模型進行單獨立法或制定具有針對性的政策措施。本文認為目前的GPT 模型仍處于“野蠻生長”階段,并非是一種成熟的技術方案,其仍存在算力消耗巨大、輸出內容的準確性無法保證以及單一模態化等問題。監管機構與立法部門不應當把現階段的版權治理與網絡空間安全治理的重心任務放在一種不完善的技術方案上,否則便有可能陷入“一項技術對應一條法律制度”[6]的結構性立法弊端之中。目前仍應當探究現有法律制度來規制GPT模型的多元風險。
承前所述,ChatGPT模型的版權風險主要集中于文本抓取的版權侵權風險以及生成回答的版權保護問題。應對數據挖掘的侵權風險可以嘗試采用技術手段,通過對上傳網絡空間的原始數據進行標記等手段來辨別數據是否受版權保護、使用哪些數據會面臨侵權之虞;對于生成回答的版權保護問題或可參考國內學者關于人工智能生成物的保護路徑。
3.1 GPT 模型文本挖取的DRM規制進路
GPT模型的訓練數據主要來源于互聯網,在萬物互聯的時代,其挖取并應用于模型訓練的數據極有可能是受版權保護且未經許可的內容。但是數據量過大的現實問題使得確定數據版權狀態成為一個難題,在這種情況下,數字版權管理(Digital Rights Management,DRM)或可發揮積極作用。DRM分為水印與密碼兩種保護進路[22]:水印技術主要是指通過技術手段將普通人無法感知、只能由某種特定技術設備認證的帶有創作者個人信息的內容嵌入文本載體[23]。密碼保護技術主要是以加密手段保護數據在傳輸過程中無法被不法分子竊取,以密鑰等作為唯一認證方式的數字版權管理方式。
從DRM的技術架構可以看出,這是一種極其契合大數據時代海量數據版權保護的技術模式。具體而言,可以在將享有版權保護的數據內容上傳至互聯網時便在原始腳本上標記水印、robots協議或者添加密鑰,GPT模型應當內置特定的數字識別技術,以此來確保其抓取的文本不會存在版權侵權爭議。除了隱性的數字水印以及顯性的數字密碼,還可以對侵權風險較大的數據文本通過“貼標簽”等明示形式加以警示[24],保障GPT模型訓練過程中使用數據來源的合法性。
3.2 GPT 模型生成物“可版權性”及其權屬規制進路
這一領域的爭議主要集中在GPT生成的回答是否符合作品的構成要件以及生成回答的版權所有爭議。本文更傾向于多數觀點,將人工智能生成作品納入現有版權保護體系,以發揮版權法激勵創造、繁榮文化的目的,但是具體的實施進路還需要進一步討論。通過前文的分析,基本可以認定在“強人工智能時代”AI模型的生成物符合我國版權法領域中對作品認定的要件。從這一維度來看,我國或許可以借鑒英國法律以及與AIP?PI相關規定,在設置限定條件的前提下將計算機生成物的“可版權性”擴張至人工智能生成物,對其進行版權保護。但是在面對新事物時不宜過早變更傳統規則,否則將對法律體系造成沖擊,不利于法律的穩定。在這種情況下可以采用現有法律保護機制(如鄰接權)[20]加以保護,待到時機成熟再進行法律的修訂,如此方可保證法律體系在穩定的前提下實現迭代更新。
解決了“可版權性”的問題以后,還面臨GPT 生成內容的權屬爭議,有學者通過闡釋法人擬制的法律文本邏輯來論證GPT回答內容不宜通過法律擬制的方式加以保護。且ChatGPT 作為一種AI模型,不屬于私法視域下的法律關系主體,故而不能對其通過版權法領域的“委托作品”或者“職務作品”等方式加以保護,因為兩者的前提是合同關系的存在。此外GPT作為AI模型并不像自然人一樣有可處自由刑以及罰金的可能性,故而不具備刑法上的可罰性[25]。還有學者認為,從私法領域看,GPT模型主要發揮“工具”價值,只能通過既有數據庫進行抓取、分析與輸出,并無自主能力決定自己的回答結果[26],且無自主意識,運行構造均受算法設計師的控制與支配[27]。所以從民法、刑法、法律文本等維度來看,均不宜直接認定GPT 模型獨立享有版權。我們應當探索一種全新的合理的版權權屬分配路徑。
從邏輯本質來看,人工智能生成物涉及三方主體:人工智能算法設計者、人工智能享有者、內容輸入者[28]。三方主體的交叉造就了人工智能生成物版權權屬的歸屬難題,算法設計者可以從職務作品維度分享一定的收益,但是算法在被設計出以后便開始獨立運行,其輸出內容并不受算法設計者的控制,算法設計者也無法預見其生成內容,故而不宜認定為其設計的機械延伸[29]。人工智能的所有權人與內容輸入者也面臨權屬的沖突。本文認為,在這種情況下應該回歸私法領域“意思自治”的原則,由人工智能所有權人與人工智能使用者在內容輸出之前或者之后自行協商,如Open AI公司的《使用協議》,如此便可杜絕內容生成以后面臨的版權爭議。但是實務中也會出現沒有明確約定的情況,這時應當重視內容輸入者的版權[30],因為人工智能算法生成物的直接指揮者是用戶,所有權人并不參與到內容的產生過程中;此外所有權人已經通過用戶的付費使用等方式獲得了一定的收益。例如,近期Open AI 公司與使用者訂立ChatGPT 付費使用合同,產生債權僅涉及系統本身的租金或使用費,不包括使用者利用系統再次創作的利益。這種付費行為本身就是對所有權人的一種認可與激勵,再將人工智能生成物的版權賦予所有權人有違法律公平性。
本文認為,GPT模型的廣泛應用是千載難逢的統一人工智能生成物可版權性與版權歸屬爭論的契機。涉足人工智能生成物的互聯網企業應當主動制定行業規范,提高行業自律。最高法也可以抓住機會出臺相關指導案例,從官方層面形成統一的裁判觀點,并對實務操作給予既定的裁判指引。
4 結語
任何新技術的產生與發展都有可能帶來全新的法律風險與道德倫理風險。ChatGPT開啟了人工智能新紀元,從此人類社會將逐步進入“強人工智能”時代,未來AI技術的發展勢必影響社會發展的方方面面。在此情況下,多元法律風險接踵而來,如何在保證技術促進人類文明進步的前提下,對其加以適當限制以保障社會秩序的協調統一,是法學領域應當關注的問題。法律應當參與到技術改革的過程中,在版權領域,應當及時更新法律適用要件以適應“強人工智能”的技術背景,要正確評估AIGC的“可版權性”,并從“輸入”端與“輸出”端兩個維度對文本挖掘以及生成物權屬做出相應的調適。同時要重視“技術規制算法”理念在生成式人工智能領域的運用,在法律不能完全規制其風險時采用先進的技術手段對生成式人工智能的風險點進行監控調整。生成式人工智能的發展已勢不可擋,傳統版權法的封閉式合理使用是否契合時代發展有待商榷,傳統的賦權界定標準也應當進行重塑。如何實現AIGC“輸入”端海量數據原料的合法化、如何對“輸出”端生成物進行合理賦權并設定公平的利益分配范式是未來應對生成式人工智能對于版權領域沖擊應當討論的重要議題。