【摘要】在我國,人工智能寫作領域引起的著作權糾紛層出不窮,司法機關做出的不同判決也體現出了當下法律界對其生成文字內容性質的差異化認識。ChatGPT的文字性表達是否具備被認定為作品的基礎要件?若賦予其作品的定義,由其產生的著作權又應當賦予哪個主體?抑或是被擬制了法律人格的ChatGPT本身?在當前制度環境下,如何定義、保護ChatGPT生成文字內容所涉及的各方權利,這種處理方式又如何才能滿足科技倫理、社會道德的保守性表達,都是需要解決的問題。
【關鍵詞】ChatGPT;人工智能;著作權;可版權性
21世紀,信息網絡科技飛速發展,并在神經網絡算法、人工智能領域取得巨大突破,生成式人工智能逐漸在研究領域中成為熱點并不斷滲入普通網絡用戶的日常生活中,其中ChatGPT自推出以來,備受關注。ChatGPT,全稱為“生成性預訓練變換器”(Generative Pre-trained Transformer),是由OpenAI于2022年11月推出的一款基于對話形式實現人機交互的生成式人工智能模型。[1]短短兩年多的時間,ChatGPT已經迭代至GPT4.5,整體性能相較之上一代的GPT4.0有了顯著的提升。截至2025年2月,ChatGPT的周活躍用戶數量已達4億,其用戶數量和營收在激烈的競爭中仍在快速增長。同時,依據AIPRM對ChatGPT的統計,利用ChatGPT執行文章撰寫、創意性寫作、課程作業及考試的用戶分別達到了6.1%、4.1%以及0.9%,此類型的文字性生成在用戶的使用率中達到了10%以上,幾乎是其他特定任務的使用率總和。
依照其設計者——OpenAI為ChatGPT所設置的基礎倫理限制,ChatGPT確實守住了常規理性人類認知當中的道德基準,但隨著ChatGPT在文字生成領域的近乎全方位應用,其中立的技術立場卻在龐大的用戶使用量下出現了不可避免的動搖。自ChatGPT發布以來,多所高校陸續對ChatGPT在課程教學中的使用進行限制,以應對學生利用ChatGPT生成內容交付課程作業甚至是用于考試的問題。僅從這個領域進行評價,ChatGPT本身已經對學術道德領域造成了嚴重的沖擊,甚至對教育本身及其實效產生了不良影響。除此之外,本文主要聚焦ChatGPT文字生成本身帶來的法律問題,即ChatGPT所生成的文字是否可以被認定為作品?倘若是作品,其著作權本身應當賦予哪個主體?基于這兩個基本問題,本文將對ChatGPT生成文字內容的可版權性進行研究。
在當下中國的制度環境下,若要對ChatGPT所生產的文字內容進行可版權性探討,則必須符合著作權相關法律法規的基礎性規定。在作品的定義上,要求滿足《中華人民共和國著作權法》(以下簡稱《著作權法》)第三條以及《中華人民共和國著作權法實施條例》(以下簡稱《實施條例》)第二條所規定的獨創性、可復制性以及在文學、藝術和科學領域內的智力成果等要件,并且能夠將其文字生成內容納入《著作權法》及《實施條例》所規定的作品類別當中。在作品判別條件當中,可復制性以及文字所涉領域基本不會形成阻礙,其爭議點應當聚焦在ChatGPT所生成的文字內容本身是否具有“獨創性”以及是否屬于“智力成果”之上。而對其進行判別,前提在于對ChatGPT的文字生成原理進行了解并定性。
一、ChatGPT生成內容之獨創性
(一)ChatGPT之基本原理
ChatGPT之所以能夠滿足多元化的文字生成需求,其底層支撐在于大型語言模型,LLM(Large Language Model)作為其整個通用人工智能的搭建基礎。LLM為ChatGPT構建了一個囊括內容極廣、開發及部署成本極高的龐大底層數據庫,通過基礎設施及服務的模式為ChatGPT提供多用途應用的支持。在LLM的支撐下,輔以OpenAI為ChatGPT開發的具有相當程度仿真性且舒適的人機交互模式,ChatGPT得以將LLM的數據優勢盡情發揮。[2]
除此之外,ChatGPT的關鍵技術在于其算法對于模型自身的不斷優化,“利用人類反饋強化學習”(RLHF)的訓練方式是其生成內容優化的核心。我們可以將RLHF極為概括地描述為:首先調用LLM內容生成一個基礎的未經反饋和潤色的語言模型,再通過內置的打分模型評估該輸出內容及方式是否符合人類的滿意標準,并借由該反饋模型提出的微調任務對原先的語言模型進行對策性優化。即這一核心學習方法的大數量級重復才使得ChatGPT迭代到當下更為“智能”且符合用戶需求的狀態。
由此,ChatGPT才得以展示出其強大的三個文字基本功能。第一,語言生成能力。該能力使得ChatGPT能借由用戶提供的提示詞,遵循數據所提供的推演習慣補完用戶所需內容,這也是ChatGPT最為常用的一種交互方式。第二,上下文學習能力。其可以通過用戶給定的數個文字范例作為其新生成內容的引導基準,進而為其他的新測試提供解決方法。第三,構建世界知識的能力。包括對事實性知識和常識的學習。在三個基本功能當中,上下文學習才是ChatGPT的主要功能,其目的還是在于通過這一學習方法對自身的模型進行優化。[3]
(二)作品要件之獨創性判別問題
保護表達而非其思想,這是著作權法的基礎原則,同時這一點也在《著作權法》和《實施細則》的具體保護范圍上得到了確認。ChatGPT在文字領域所生成的內容確在其形式上完成了相對獨立的表達,即滿足了判別作品的最基礎要件——具有具體的表達形式。但隨之而來的重要問題便是,該表達是否具有獨創性?
根據上文對ChatGPT的底層架構和內容生成機制的基本研究,我們可以先通過假設其“不具備獨創性”的關鍵性理由入手,由此進行獨創性內容的判斷。筆者認為,能對其獨創性進行抗辯的核心理由是:ChatGPT生成文字內容時所調用的數據,必然包括了作為其底層數據源的LLM模型所囊括的其他主體所創造的被賦予著作權的作品,因而其生成的文字不過是對他主體創作內容的一種“復制”和“傳播”,ChatGPT本身不過是承擔了對內容進行整理和針對性的反饋工作,更像是“檔案管理員”的工作。也正如王遷教授所認為的,人工智能的“創作行為”本質上是以數據為“源頭活水”,算法為“機械手臂”的計算行為。[4]如果這一理由得到技術上的證實,則ChatGPT生成內容的“獨創性”將受到嚴重質疑。
想要回答這一問題,必須對LLM模型本身以及ChatGPT的訓練語料進行溯源。對于LLM而言,進行數據的溯源幾乎是一個不可能完成的工作,GPT-3.5模型誕生時的LLM,是一個擁有3000億單詞的語料基礎,并在其基礎上預訓練了約1750億參數的龐大模型。其囊括了CommonCrawl語料庫、WebText語料庫、書籍與報紙雜志、維基百科,僅僅是CommonCrawl這一數據來源,就包含了這一機構自2007年以來儲存的網絡爬蟲數據庫。[5]必須承認,對如此龐大的數據量進行版權相關的溯源,在客觀上幾乎是完全無法實現的,對ChatGPT所擁有的LLM模型,筆者更愿意用一個抽象的表達進行形容:“GPT-4時代的LLM將更像是個不可具象的圖書館,囊括了‘網絡’這一人類歷史上最大互聯網平臺上能為人所探尋到的所有知識。”由此,對LLM溯源的意義便沒有那么大了。
那么退而求其次,從其訓練語料上如何界定其獨創性?ChatGPT的一個主要功能,便是由關聯文段進行邏輯推演,進行上下文的學習。這一由使用者以及開發者角度提供的具備特定表達、思想的文段,筆者認為是具備一定“學習價值”的文字,也即為了滿足ChatGPT當前的深度學習需要,其學習文段的思想表達應當是具備一定獨創性的。而模仿這一系列具備獨創性的文字所產生的文字,在“模仿”其獨創性的過程當中,在理性上也應當被認定是產生了相應的獨創性的——即便這樣的表達是通過對所學習文檔之外,以及該文檔之外的若干模型的訓練所達成,也不得不承認這一種表達在形式上的獨特。
由此進行延伸,若將其生成內容認定為作品,在法律上又該如何界定范圍?筆者認為,若僅僅從特定文段的上下文學習當中達成的文字,已經脫離了原本文字的思想表達范圍,更像是一種“續寫”行為。若生成文字與學習文段結合,其文字生成程序本身可能涉及對所學文檔的“改編”,但很難界定為“復制”,筆者更傾向于把ChatGPT所生成的文字內容歸納到“演繹作品”的范疇,只是這種“演繹行為”本身所改編的對象龐大到難以計數,在只言片語之中精準追尋其最初的模仿對象在客觀上已經是無法實現的了。
(三)作品要件之智力成果定性
ChatGPT本身可以定義為OpenAI這一研究機構的智力成果,與傳統的專利、著作權等知識產權相比,其作為一種相對獨立的“生成型工具”,具有少有的內容生成能力。其生成功能與其制作者,也即OpenAI有直接的因果鏈條聯系,但其生成內容同制作者本身的關聯并沒有那么明晰,相對而言,作為直接交互端的用戶對生成內容反而具備更直觀的影響力。[6]基于這一使用現狀,本文根據ChatGPT所生產文字內容源自對LLM模型巨量數據的學習和演算的事實,認為ChatGPT所生成內容的決定性因素還是包含了百萬億級數據的LLM模型本身,而非進行內容引導的交互端使用者。由此,對ChatGPT的文字生成內容進行定性,則只需討論LLM模型數據以及產生內容便可以得出結論了。
LLM模型中的數據是否屬于人的智力成果?本文認為,答案是肯定的。如前文所述,其數據當中囊括的龐大語料的一部分近乎當然的具備智力成果的屬性,且由于通用人工智能生成的內容天然的具備嚴謹的邏輯性——這是基于編寫人工智能的程序所具備的邏輯性決定的,無邏輯、隨機生成、無意義的文段對ChatGPT的學習幾乎毫無意義,這一點可以通過ChatGPT并不能對失語癥患者(語言功能遭到損傷)的話語進行有效理解、學習和模擬得到證實。因此,調用自LLM,借由ChatGPT的內置模型生成的文字內容應當具備基礎的智力成果屬性。
但值得注意的是,由于ChatGPT本身的運行機制限制,其生成文字內容的思想和表達并不來源于ChatGPT本身,同時也不來源于其創作者OpenAI,而是一個抽象的、近乎整個信息網絡時代的可供模型攝取的知識,在只做基礎道德倫理限制的情況下,幾乎可以認定ChatGPT根據用戶指令生成的文字內容代表了一個“客觀理智人”依照用戶需求做出的最符合公眾認知的回答。即暫且不論這一內容是否屬于“客觀事實”等不為著作權保護的公有領域的表達,其基礎的文字生成內容在不做刻意引導的前提下(諸如,用戶要求以極端保守政黨支持者的身份或遵循安那其主義者的主張所生成的具備特定傾向性的內容),應當將其看作是抽象的人類整體智力成果(或者細致地說,是信息網絡時代的人類整體智力成果),這一智力成果具備相當的代表性,且與制作者、交互端用戶沒有決定性關聯。
在得到此結論的同時,結合前文對于獨創性的論述,筆者認為ChatGPT所生產的文字內容,一般具備了被承認為作品的要件。
二、ChatGPT的著作權賦予問題
(一)分歧——否認與轉移
在我國當前的制度環境下,對人工智能所生成文字內容的著作權賦予問題是存在空缺的,這一情況在整個世界范圍內普遍存在。但實務問題并不會因此消失,早在ChatGPT問世以前,我國司法實踐就已對“人工智能是否具備法律主體資格”問題做出了具有分歧性的處理。
2019年4月,北京知識產權法院在“北京菲林律師事務所訴北京百度網訊科技有限公司著作權糾紛案”中對被告方使用的人工智能及其生成內容做出了如下論述:“人工智能所生成的涉案文章在內容、形態以及表達形式上與自然人的表達已經非常相似,但不滿足‘自然人創作’的基本要素,因而不應當被賦予作品資格。同時由于《著作權法》第二條之規定,不應當將人工智能認定為可被賦予著作權的‘自然人、法人及非法人組織’,同樣不宜對民法規定的基本權利主體進行突破。由此,涉案作品無法構成《著作權法》保護的作品。”[7]同年12月,深圳市南山區法院宣判的“深圳市騰訊計算機系統有限公司與上海盈訊科技有限公司著作權權屬、侵權糾紛、商業賄賂不正當競爭糾紛案”做出了完全相反的裁判內容。南山區法院認為,涉案文章雖同樣來自計算機軟件的自動生成,但其外在表現形式上符合文字作品的形式要求,且用戶的個性化選擇與安排同樣對涉案文章的生成具有直接聯系,可以認定為計算機軟件生成的作品為《著作權法》意義上的作品。此外,通過涉案人工智能——Dreamwriter的軟件著作權歸屬(該軟件由騰訊主創團隊開發)以及其生成文段末尾注明的“本文由騰訊機器人Dreamwriter自動撰寫”內容,南山區法院認為以上理由可以作為權利指向的完整推演路徑,由此說明了騰訊公司將對涉案作品以及其他涉案AI生成作品承擔責任,并依照《著作權法》類推適用為法人作品。[8]
簡短地分析兩個案件中法院作出判決的主要分歧點,也即著作權法意義上的作品應當至少具有自然人參與的“高度聯系”創作行為。北京知識產權法院認為人工智能調用數據的行為將這種“聯系”阻斷,因而不產生具有實質意義上的創作;南山區法院則認可了人工智能所調用的數據庫,仍然在實際上搭建了同他人碎片化創作中體現的獨創性之聯系,只不過由于這一聯系在技術手段中的關聯度確系薄弱,則更適宜以通過賦予其開發者——騰訊公司著作權,進而認可該AI生成文字的作品屬性。僅從這兩個判例可以看出,在人工智能技術高速發展下的制度真空期,各地司法對于人工智能生成文字內容的作品資格認定仍然存在較大分歧。這一問題的解決仍需進一步等待生成型人工智能的技術發展趨于穩定,更需要在當下制度環境下做出相應的回應,以對調用信息中涉及的著作權人、生成型AI開發者、使用者以及其他權利人的利益進行取舍和平衡。
(二)ChatGPT主體資格賦予的探索與障礙
不止是在我國,全世界范圍內對人工智能的權利資格認定都處在廣泛的探索過程中。首先達成共識的是,作為技術性工具的人工智能在當前技術水平下不存在能被認知為生物學意義上的“人”,自然也無法通過這一渠道賦予其私權[9],則賦予其權利的方法僅剩余擬制法律人格一途,但是筆者認為,通過法律賦予當下的人工智能以擬制人格并不是合理的制度發展路徑。且不論《著作權法》以及其上位法《民法典》對民事主體資格的原則性規定,賦予人工智能以類似法人的權利能力和行為能力并不能更好地對人工智能及其生成內容進行保護——人工智能當前仍然是一種需要人為交互才能進行動作的科學技術,并不具有法人、非法人組織所具有的能夠作為法律主體采取行為的“獨立性”。[10]將主體資格賦予不給予指令便無法行動的人工智能,僅僅是在形式上完備的法律,實質上卻使得人工智能這一“擬制人”的權利被徹底地放在被隨意侵害的角度上,法律不能指望一個沒有自主意識的個體去維護自身的權利,不如將維護生成內容的權利賦予人工智能的實際擁有者,在實務上則更具操作性一些。[11]并且,在我國當前的民法體系以及著作權保護體系下,賦予自然人、法人與非法人組織以外的“計算機程序”以擬制人格的行為是具有極高立法成本的,至少在短期內,人工智能及其生成物的權利保護不會以賦予人工智能以法律人格的方式實現。
三、ChatGPT及其生成內容的權利平衡
綜上所述,本文堅持如下基本立場:ChatGPT所生成的文字內容是基于對龐大人類知識進行學習、調用的成果,即使主觀上不能認為ChatGPT具有創造行為,但其調用的信息本身可以推定具有相當程度的獨創性,因而可以以作品認定的方式保護ChatGPT所生成的文字內容。同時,由于ChatGPT本身的工具屬性,且目前的ChatGPT仍然只是消極接收信息并輸出反饋的程序,不應當被賦予主體資格以保護其所生成的作品權利,轉而將生成內容的著作權賦予ChatGPT之擁有者才是最為有效的方案。
本文想要解決的最終問題:ChatGPT的文字生成內容應當是“可被版權化”的,但是基于當前環境,是否“應該被版權化”?對此,雖然筆者認為ChatGPT生成內容可以被視為作品,同時其產生的著作權應當為ChatGPT的擁有者OpenAI所享有,但筆者同時也對著作權的賦予行為本身持反對態度。如前文所述,包含百萬億級數據的LLM模型是ChatGPT迭代、發展至今的最堅實基礎,可以毫不夸張地說,LLM的存在本身就是一個違反法律倫理的龐然巨物,其內里囊括了不可計量、不可追溯的公共領域知識以及碎片化的被侵權信息。即ChatGPT充盈的知識量與為人稱道的表達的LLM模型,是建立在無底線違反科技倫理基礎上的產物。它運用爬蟲技術等暴力信息手段強行將不可計數的應得到著作權法保護的作品強行整合,消極且無意識地將若干信息推入了如“公共領域”一般的境地——任何用戶都可以利用ChatGPT將其他自然人的表達“演繹”為自己的表達,無關乎這一表達是否受到著作權法的保護,無關乎這一表達的創作者是否知曉,也無關乎其表達是否完整到能被識別,它都在事實上成為科技進步的燃料。因而,對ChatGPT此類突破了技術中立性而近乎于“不道德”的生成行為,即便其形式上滿足了為著作權法保護的可能,也不應當對其賦予等同于其他著作權主體的保護水平——至少在其付出了足以補償被侵害的權利人的相應代價之前,不應當對其進行保護。
總的來說,ChatGPT在事實上已經形成了對LLM模型內信息的“公有化”,對被隱性公開的諸多具備著作權“碎片化信息”及其表達而言,賦予其具備專有性的保護是顯著不公于社會以及其他智力創作者的。因而,目前法律不應當對ChatGPT以及OpenAI進行太過嚴格的保護,更適宜以一種消極的態度去應對ChatGPT本身的法律風險,并對其生成內容侵害其他主體權利的行為進行積極的干預。正如《生成式人工智能服務管理暫行辦法》第四條所規定的遵守法律、行政法規,尊重社會公德和倫理道德,以此為發展和應用中的底線,方為平衡當下ChatGPT與社會公共利益、他人合法利益的抽象但必須的支點。
參考文獻:
[1]蘇穎,汪燕妮.生成式人工智能時代的政治傳播走向:基于ChatGPT的討論[J].黨政研究,2023(3):34-41.
[2]朱光輝,王喜文.ChatGPT的運行模式、關鍵技術及未來圖景[J].新疆師范大學學報(哲學社會科學版),2023(4):113-122.
[3]朱光輝,王喜文.ChatGPT的運行模式、關鍵技術及未來圖景[J].新疆師范大學學報(哲學社會科學版),2023(4):113-122.
[4]王遷.論人工智能生成的內容在著作權法中的定性[J].法律科學(西北政法大學學報),2017(5):8.
[5]劉嘉文.生成式AI的風險挑戰與敏捷治理:以ChatGPT為分析起點[J].通信與信息技術,2025(1):113-116+131.
[6]胡翼青,胡欣閱.作為語言基礎設施的ChatGPT[J].新聞記者,2023(6):21-27.
[7]梅傲,鄭宇豪.人工智能作品的困境及求解:以人工智能寫作領域第一案為考察中心[J].出版發行研究,2020(12):50-56.
[8]梅傲,鄭宇豪.人工智能作品的困境及求解:以人工智能寫作領域第一案為考察中心[J].出版發行研究,2020(12):50-56.
[9]梅傲.“人本”語境下的規則沖突與沖突規則[J].現代法學,2012(4):143-150.
[10]易玲,尹絲媛.我國著作權法中人工智能主體資格之否定[J].科技與法律(中英文),2021(4):66-72+148.
[11]朱夢云.我國著作權法視域下的人工智能法律主體資格論證[J].電子知識產權,2021(8):63-75.
作者簡介:呂冬娟,澳門城市大學法學院助理教授(澳門 999078);梅彥錚,澳門城市大學法學院碩士生(澳門 999078);原平方(通訊作者),中國政法大學政法宣傳與輿情研究中心特聘研究員(北京 100088)。
編校:董方曉