趙宏偉,茹克婭·霍加
(新疆師范大學 政法學院,新疆 烏魯木齊 830017)
人工智能作為經濟發展的新引擎,將成為新一輪產業變革的核心驅動力,并進一步釋放歷次科技革命和產業變革積蓄的巨大能量[1]。隨著以GPT為首的生成式AI技術的逐漸成熟,利用該技術所生成的內容已然流入到了市場當中。技術的發展永遠都是與風險相伴的,在生成式AI技術被人類應用到各個領域的同時,與之有關的著作權風險問題也引起了越來越多的學者重視,但有關生成式人工智能的著作權侵權問題卻鮮少有人討論。相關立法的缺失以及相關學術研究的不足,使得對于生成式AI技術挑戰背景下著作權侵權問題的研究變得非常有價值。為了平衡作品的原著作權人獲得預期收益與保障生成式AI技術穩步發展之間的利益,筆者將從以下三個部分(如圖1所示)對生成式AI技術挑戰背景下著作權侵權風險問題進行全面分析:首先,將對生成式AI技術的運行原理進行解析,闡明其對現存著作權制度的沖擊;其次,對生成式AI技術的侵權樣態進行全面的分析;最后,從數據輸入、數據分析和數據輸出三方面,提出平衡生成式AI技術與原版權人之間利益的措施。

圖1 論文整體框架圖
生成式AI不同于以往的專家系統那樣只進行簡單的系統分析或者只關注現有數據,而是可以生成新穎內容的人工智能。生成式AI屬于目前最先進的人工智能之一,以前的人工智能專家系統一般會包含一個知識庫和一個基于if-else規則數據庫生成內容的推理引擎,而現在的生成式AI會包含一個能夠在語料庫或數據集上訓練的,并且將輸入信息映射到更高維空間的鑒別器或變換器模型,以及一個能夠在每次新的試驗甚至相同的提示下生成隨機行為的生成器,可以執行無監督、半監督或監督學習。
通常來說,生成式AI技術的工作原理包括三個階段(如圖2所示),即數據采集、數據分析、數據輸出。而在數據采集階段,輸入的數據越多,越有利于人工智能在訓練階段對數據信息特征的提取,以及對初始模型的完善;數據分析階段,也叫機器學習階段,生成式AI技術與以往需要依靠人力提取數據特征的專家系統不同,在此環節,生成式AI更多依靠的是“深度學習”,通過對海量信息數據的原始特征進行組合,形成更高層級的屬性類別或特征,如此便利于算法模型的構建和輸出數據的最優化;輸出階段,則是以前兩個階段為基礎,在算法模型不斷優化后,最后輸出相應的內容,也就是人們口中的生成物。

圖2 生成式AI工作示意圖
以往的科學技術對著作權的影響主要作用于作品的傳播權問題中,會對作品的存在形式、權利類型和權利限制造成影響。而如今的生成式AI技術不僅僅影響到創作者的傳播權,而且已經對著作權人的復制權、改編權和匯編權均造成了損害風險。著作權法的目的在于保障著作權人對作品的專有權,保護其人身和財產權益的同時,又通過對優秀作品的傳播使社會大眾也能夠學習到作品內容,促進文化市場的繁榮發展。但上述問題的產生,打破了個體與共體之間的利益平衡,阻礙了著作權的發展。
就生成式AI技術而言,其著作權侵權樣態若無法確定,專門的監督管理者若未明晰,那么對于著作權利人的作品在未經其許可的情況下,極有可能會被用于AI的深度學習,亦或超出著作權人的許可范圍而被AI控制者所使用。由于相關立法的缺失,對著作權人的權利救濟便難以實現,其經濟利益將會受到損失,挫傷其創作的積極性。對于社會公眾而言,雖然生成式AI技術能在短期內能生成大量的作品內容,但從長遠上看,生成式AI技術所生成的作品是通過機械式的算法不斷優化推演而來的,該過程缺乏人類所特有的主觀能動性,沒有人類感情的投入,這樣的生成內容,尤其是在文化藝術領域,很難與社會大眾產生情感上的共鳴,而對于社會大眾的精神需求更是難以滿足,從而形成惡性循環:受生成式AI技術的影響,缺乏人類感情的機械式的生成內容會不斷增多,而人工智能在吸取這些“缺陷”作品數據的基礎上進行“再創作”之后,又返回來以同樣的方式再次影響人類文化市場。
我國《中華人民共和國著作權法》(以下簡稱《著作權法》)第10條第2款第(五)項明確規定了數字化他人作品屬于復制行為,因此在數據輸入階段,對他人作品直接數字化的行為,當然地屬于侵權行為。生成式AI雖然屬于目前最先進的AI技術之一,但其仍然不屬于強人工智能的范疇,其算法程序并不能與人類一樣依靠自主閱讀的方式來獲取所需要的信息,仍然需要依賴數據的輸入,而數據獲取的來源一般包括三種:直接通過開放的數據共享平臺獲取數據;以交易的方式,購買他人的數據信息庫來獲取數據;通過“爬蟲協議”[2]等其他方式獲取數據。通過以上三種途徑,將所輸入的信息轉化為算法程序可以理解的數據格式,一般會包括對非數字作品的數字化以及對數字化作品的直接復制,傳感器在數據自動收集過程中無法準確分辨所有海量數據的權利狀態,在涉及他人享有著作權的作品,且未獲得授權時,必然會造成對著作權人復制權侵犯的風險。
我國《著作權法》并沒有哪一個條款明確規定了演繹權,演繹權只是在學理上,學者對改編權、翻譯權和匯編權的總稱。在生成式AI技術的數據分析階段,根據是否對輸入的數據進行了標注,可以將數據訓練(或者叫機器學習)分為監督、半監督、無監督學習。雖然生成式AI所使用的生成式對抗網絡(GANs)屬于無監督學習,不涉及對數據的標注,在數據分析階段也就不會侵犯著作權人的改編權,但無論是監督、半監督還是無監督學習,均涉及對數據的選擇、整理和匯總,可以將其視為一種“匯編行為”[3]。
2.2.1 確定受損主體
在傳統的著作權侵權案件中,侵權客體一般都是單一且確定的現實作品。在司法實踐中,對于侵權行為的認定,會將受著作權保護作品和侵權作品在獨創性上進行比對,如果侵權作品在未獲得版權人許可的前提下擅自使用了該版權作品的獨創性,那么該侵權行為便成立。然而,生成式AI時代背景下,人工智能所侵犯的著作權客體具有一定的特殊性:生成式AI在進行“創作”過程中,其侵犯的客體不一定是某一個著作權人的單一作品,也可能是多個著作權人的單一作品或多個著作權人的作品合集。生成式AI在數據分析階段,需要對海量的信息數據進行標注,并進行學習,提取其特征,很顯然這并不是對某個作者的單一作品進行的簡單的復制,而是對多個作者或者某個作者作品集中具備獨創性的作品進行的侵權性使用。生成式AI所侵犯的著作權客體的特殊性直接增加了著作權人在權利受到侵害時提取證據的難度,而法官在認定侵權的過程中,認定程序也變得更加繁瑣,增加了受損主體的認定難度。
2.2.2 界定受損權利
對復制權的侵權界定。生成式AI在數據分析階段的“深度學習”之前,需要通過前文所述的三種途徑獲取大量的信息,并將這些信息進行數字化處理,從而轉化為生成式AI能夠理解的標準格式[4]。這三種方式在數據輸入階段均是以全文復制或原文再現的方式,這些數據輸入行為均屬于《著作權法》第10條第2款第(五)項的復制行為,在未經得著作權人同意的情況下,則會對其復制權造成侵犯。在數據輸出階段,依據“接觸+實質性相似”的侵權規則,若生成式AI所產生的生成物與其輸入的數據存在實質性相似,則同樣會侵犯著作權人的復制權。
對侵犯改編權和匯編權的界定。生成式AI所產生的的生成物無非會有三種:生成物與輸入的原作品完全不同;生成物與輸入的原作品實質性相似;生成物是在保留輸入作品的表達方式基礎之上,兼具獨創性的新作品。這三種生成物中,第一種當然地不構成著作權侵權;第二種依照“思想/表達二分法”,若實質性相似的是“表達”,則構成復制權侵權;第三種則很明顯侵犯了原作品的改編權。有學者認為將第三種生成物視為對改編權的侵犯并不準確,其認為人工智能“不是實質性地以某個作品為基礎所進行的再創作,不是對某個作品的演繹”[5]。事實上從已有的生成式AI創作實例來看,生成式AI均是在已有的作品基礎上生成的新作品,若被學習和模仿的作品處于《著作權法》的保護期限內,則構成對他人作品改編權的侵犯。有的學者將數據分析階段的“深度學習”分為“表達型機器學習”和“非表達型機器學習”,若生成物具備獨創性,則“表達型機器學習”期間的匯編行為就會對原作品的匯編權構成侵犯[6]。
我國現行的《著作權法》并沒有對傳播權的權利內容進行明確的法條規定,在學理上認為,傳播權是指不依賴有形載體,而以無形的方式進行傳播的過程中所產生的權利總稱[7]。傳播權一般包括信息網絡傳播權、表演權、放映權和廣播權,生成式AI技術在輸出階段,依據輸出的方式和是否即時發布的不同,會分別對原作品的信息網絡傳播權(通過網絡延時發布)和作品的廣播權(通過網絡即時發布)造成侵權風險。
傳統學說上,對于侵權責任的因果關系認定有條件說和原因說,相當因果關系理論、近因理論和法規目的等多種區分。筆者認為,鑒于生成式AI侵權行為的復雜性、責任后果的隱蔽性、責任主體的多樣性和概率性,以相當因果關系理論作為判斷生成式AI著作權侵權的主要標準較為合適,且我國民法在因果關系的認定上,以“相當因果關系”作為通說[8]。
相當因果關系理論是由德國心理學家馮·克里斯于19世紀80年代首創,他認為作為損害的相當原因,必須滿足:(1)屬于損害發生的必要條件;(2)極大地增加損害發生的客觀蓋然性。對于第一個條件,應用到生成式AI技術著作權侵權中,可以理解為生成式AI技術的應用行為與版權作品著作者的復制權、翻譯權、改編權、匯編權受損之間,形成了事實上的因果關系。對于第二個條件,應用到本文中,則應理解為生成式AI技術的著作權侵權行為增加了著作權受損發生的客觀蓋然性。
因此,在生成式AI技術屬于版權人著作權受侵犯的必要要件,且生成式AI技術的著作權侵權行為極大地增加了原版權人著作權受損發生的客觀蓋然性時,可以認定生成式AI的“創作”行為與原版權人著作權受損之間存在因果關系。對于因果關系的證明責任問題,由于生成式AI侵權主體的復雜性,不同的侵權主體其歸責原則亦有所差別,相應的因果關系證明責任也有所不同(詳見下節關于過錯的認定)。
與生成式AI著作權侵權行為的判斷不同,對于生成式AI技術挑戰背景下著作權侵權的過錯判斷,需要依托數據輸出階段的生成物具體屬性而展開,根據輸出結果的不同分為直接侵權和間接侵權兩種。筆者將堅持人本主義面向,以生成式AI的生成物與原來的版權作品存在實質性相似為前提,對設計者和控制者的著作權侵權過錯加以分析。
2.4.1 設計者的過錯推定
“將規制重點從損害賠償轉向侵權預防,是人們應對風險社會的經驗結晶。”[9]生成式AI的設計者,作為著作權侵權預防的第一環,理應對生成式AI負有“防抄襲設計義務”,該義務的思想設計來源于“隱私設計”概念。在信息數據利用與數據保護之間的沖突不斷加劇的當今社會,有學者提出可以讓網絡產品的設計者在其所服務的信息系統中,將隱私保護條款的要求嵌入其中,是隱私保護作為項目設計與適用過程中不可缺少的組成部分。雖然其制度目的與“防抄襲義務”有所不同,但“隱私設計”制度的落實,對于生成式AI設計者的“防抄襲設計義務”的設定,無疑具有很強的借鑒意味,這不僅符合現行《著作權法》的立法目的,以及現實的著作權保護需求,在技術實現上也具備可行性[10]。生成式AI的設計者若無法證明其在設計過程中在機器中嵌入了最先進的防抄襲設計,則認定其存在過錯。
2.4.2 控制者的過錯推定
在生成式AI的運行層面,生成式AI的控制者對生成式AI的“創作”行為具有啟動和暫停的權利,并對其使用的時間長短、使用的方式和場景都具有直接的決定作用。因此,基于致險可能性和權責一致性的理念,使生成式AI的控制者肩負注意義務具有一定的必要性?!吨腥A人民共和國網絡安全法》(以下簡稱《網絡安全法》)第37條和第43條對于網絡經營者和個人用戶之間的權利義務規定,與生成式AI的控制者和設計者之間的注意義務具備一定的相似性:生成式AI的控制者在發現設計者未盡到“防抄襲設計義務”,以至于大量侵犯著作權的生成物被生產出來時,應當履行注意義務,及時按下“暫停鍵”,停止對侵權生成物的生產;在原版權著作權人發現生成式AI的生成物侵犯其著作權并予以通知后,根據侵權作品的相似性和對侵權作品刪除的及時性,來判斷控制者是否盡到了注意義務,該注意義務應由控制者加以證明,若不能證明,則推定其有過錯。
規制生成式AI技術的著作權侵權風險,對于平衡社會公眾利益和著作權人個人利益,激勵著作權人創作,促進生成式AI技術穩定發展具有重要意義。通過對生成式AI技術的侵權樣態進行分析之后,可以從數據輸入、數據分析和數據輸出三個階段對生成式AI技術的著作權侵權風險加以治理。
在數據輸入階段,應對生成式AI著作權侵權最方便快捷的方式就是利用現有的《著作權法》制度,建立合法獲取信息數據的途徑。若生成式AI的控制者能夠與原版權作品的著作權人協商一致,給付一定的對價,獲取著作權人的授權許可,這自然是雙贏的方法。還有學者提議,增加 “計算機信息分析” 的合理使用條款或擴大合理使用兜底條款的適用,將人工智能使用作品的行為認定為合理使用[11]。雖然我國《著作權法》第24條第2款規定了12種合理使用的具體類型,以及一個兜底條款,且并未明確規定以商業性為目的的使用不能作為其構成要件,但在我國,無論是業界還是學界,均認為合理使用制度內含非商業性使用之構成要件[12]。生成式AI的控制者多為大型互聯網公司,其使用生成式AI多以盈利為目的,具有商業性質,縱然控制者或使用者為個人,那也屬于少數部分。將其納入到合理使用規則中,會打破公共利益與個人利益之間的固有平衡機制,損害原著作權人的預期利益,不利于《著作權法》激勵作用的發揮。
歐洲議會在其2017有關機器人問題報中指出,人工智能企業將其一部分稅收用以補償文化創作者具有一定的必要性[13]。將數據輸入階段納入到法定許可范疇中,對于平衡著作權人、社會大眾和互聯網公司之間的利益,以及避免以損害著作權人的利益為代價,來推動產業發展的情況出現均具有重要意義。我國現行《著作權法》中所規定的的四種法定許可類型并不包括生成式AI控制者對于海量數據的輸入,因此,在將來的《著作權法》修訂中,需要將此類型列入其中。根據前文對侵權樣態的分析可知,受到侵權風險的主體眾多,若控制者對其進行一一聯系,將增加巨大的時間和金錢成本。為了解決此問題,就需要借助集體管理組織和區塊鏈技術,結合區塊鏈技術去中心化、匿名性、獨立性、可信賴的特點[14],當生成式AI技術一旦使用了原著作權人作品的主要內容,符合第二部分侵權樣態的,區塊鏈平臺將會詳細、完整地記錄在分布式賬本上[15],之后由集體管理組織代為收取報酬。而關于法定許可的費率,則可以借鑒日本的動態費率標準[16]。
著作權雖然屬于公民民事權利中的私權,但同時還兼具著促進社會主義文化繁榮發展的公益目標[17]??茖W技術本身就是把雙刃劍,對其不加合理的利用,便會對公民個人的合法權益造成損害。2017年國務院在其發布的《國務院關于印發新一代人工智能發展規劃的通知》中提到,對于人工智能發展,不僅要“建立安全監管和評估體系”,還要“實現從設計到人工智能應用的全流程監管”。因此,加強設計者與控制者個人監管的同時,還應強化對生成式AI技術數據分析階段的行政監管。
在監管體系上,可以實行分層次的監管。在監管對象方面,對于那些相較于其他模型,具有更高的著作權侵權風險的,應當成為行政監管的重點關注對象,監管者應主動采取強度較大的監管措施,例如要求其使用主體定期發布自檢報告、查封和扣押侵權機器等。而對于那些風險較小的生成式AI模型所在的互聯網公司,則采取設計者、控制者自主履行義務為主,行政監管為輔的監管政策;在實施監管的措施方面,一方面,嚴格落實《網絡安全法》第24條關于網絡實名制的規定,從而方便在出現著作權侵權的情況下,主管機關可以迅速查明侵權主體的真實信息。另一方面,要及時制定有關互聯網平臺的著作權管理規則,依據侵權主體的侵權次數和數量,給予其不同程度的處罰,對嚴重者實施懲罰性賠償措施;在監管的媒介方面,鼓勵技術人員針對兼具AI模型評估、備案、倫理規范審核等多種功能的監管工具的研發。促使該AI模型的評估功能向可評估算法的潛在風險和預期的社會影響、備案功能向增強對著作權侵權風險的預防、倫理規范審核功能向完善生成式AI所在企業的內部管理三個方向不斷發展。
僅從單一平臺內部的技術管理措施來看,利用生成式AI技術所生成的內容在大型互聯網平臺上進行傳播時,對其傳播內容的著作權侵權風險的預防,可以借鑒YouTube 平臺的版權監視(Copyright Watch)和內容識別(Content Id)技術手段,通過此種算法過濾手段篩查出有可能侵犯他人著作權的內容,并對其做進一步處理。但通?;ヂ摼W平臺的管理能力與技術水平是成正比的關系。[18]對于不具備算法過濾能力的互聯網平臺,監管者可以通過實施《信息網絡傳播權保護條例》第14條規定的“避風港原則”,即“通知+刪除”的規則,來促進互聯網平臺的合規運營。待版權監視和內容識別技術比較成熟后,將該技術的使用作為互聯網平臺的法定義務,這將是互聯網平臺和生成式AI技術發展道路上的必經之路。從多個互聯網平臺的交互式合作來看,一方面不同平臺的生成式AI模型之間可以通過相互授權的方式來提高工作效率。另一方面,生成式AI技術的控制者可以通過與互聯網平臺簽署授權協議,從源頭上致力于內容傳播的合法化。各個網絡平臺是使用者對其利用生成式AI技術所生成的內容進行傳播的主要途徑,在完善法定許可制度、加強行政監管制度、設定控制人和AI設計人的“防抄襲設計義務”和及時制止侵權結果發生的注意義務之外,具備著作權自治能力的網絡平臺,也應當率先從“治理受體”向“治理主體”轉變[18]。
在著作權保護體系中,對于侵權行為的界定一直處于核心地位,具備著保護著作權人的合法權益、保障公共利益與個人利益之間的平衡、激勵創作者創作的重要功能。在人工智能技術迅速發展的今天,法律的滯后性愈發凸顯,因此立法者要緊跟時代發展的步伐,主動關注人工智能發展的最新動向,采納司法實踐中的有益經驗,杜絕“冥想式的法學研發”[19],并立足本國國情,參考國外立法文本,完善法定許可制度,制定針對人工智能、具有實踐意義且與國際接軌的法律;理論學者則應當對生成式人工智能著作權侵權問題給予足夠的關注,針對司法實務中的具體問題做積極探討,實現百家爭鳴,進而推動實務界的發展;司法實務者則應當在現有法律框架下靈活適用現有法律,并加強監管,對相關案件實施公平合理的判決,作為對新興技術所產生的的法律風險的回應;產業界則應當在法律規定的框架下,以利用生成式AI技術創造出質量高、數量足、滿足社會大眾需求的生成物為目標,同時積極配合監管機關的工作,加強符合《著作權法》的AI模型開發,提升自身的算法過濾能力。如此,才能充分發揮《著作權法》著作權保護、激勵創作者創作和促進社會主義文化市場繁榮發展的重要作用,進而推動我國不斷向人工智能強國邁進。