摘 要:ChatGPT和文心一言不僅實現了自然語言處理的多任務、多功能集成式變革,還帶來了模型“輸入端”學習數據“指數化”和“輸出端”內容生成“擬人化”的新趨勢。基于此,新一代大規模語言模型“輸入端”面臨著預訓練學習難以納入合理使用的版權壁壘困境。“輸出端”則面臨著生成內容不具有可版權性的版權荒漠困境。為順應生成式AI的技術演進趨勢,激勵技術創新和智能創作,宜基于“寬進寬出”原則分別從“輸入”和“輸出”兩端調整著作權規制。一是打破封閉式立法的“合理使用”制度架構,構造義務規則下的“選擇退出”機制。二是構建“法人視為作者,版權歸于法人”—“AI視為作者,版權歸于法人”—“AI即為作者,版權歸于AI”的漸進式、縱深式版權主體權利歸屬機制。三是消除“作品”的價值評價維度,構建客觀性審查。
關鍵詞:生成式人工智能;ChatGPT;文心一言;版權壁壘;可版權性
中圖分類號: D 923 文獻標志碼: A 文章編號:2096?9783(2023)05?0086?11
一、新一代大規模語言模型的技術原理與特征
(一)新一代大規模語言模型的技術原理
曾有學者預言“AI蘇醒,并不存在不可逾越的天花板” [1]3。從新一代大規模語言模型(Large LanguageModel,LLM,以下簡稱大模型)雨后春筍般的產業態勢來看,人類確實大踏步走在“逾越天花板”的路上。Open AI開發的ChatGPT實現了單模態下自然語言處理的多任務高效集成。GPT-4和百度文心一言則突破了單模態限制,實現了大模型對文本、圖像、語音、視頻等理解生成的多功能集成。新一代大模型在自然語言理解和反饋上展現出革命性進步和極高的處理水準。“ChatGPT+”模式更被認為將在全社會各領域掀起一場智能化浪潮[2]。
熱問題還需冷思考。撥開技術迷霧,祛魅智能面紗,才能見新一代大模型真身,探生成式AI 法理。ChatGPT和文心一言的出現對于自然語言處理技術(Natural Language Processing,NLP)發展具有里程碑意義。所謂自然語言處理,即機器理解和運用人類語言的過程[3]。17世紀哲學家萊布尼茨在跨語言交流的“摧毀巴別塔”構想中提出了“普遍代數學”和“普遍字符”概念。隨后闡述了基于數學、語言學、字符學、密碼學的自然語言處理哲學方法[4]。囿于時代限制,這一思想直到1950年基于人機對話的“圖靈測試”理論提出后才走下哲學神壇,成為指導現實的技術理論[5]。
隨著計算機硬件和機器學習算法的迭代發展,基于人工智能技術的自然語言處理逐漸成為主流。但是卷積神經、循環神經的“千層餅”構造使得傳統神經網絡語言模型構造復雜且效率低下,而且語言模型與任務模型之間存在一一對應關系,無法做到一個模型處理多種任務[6]。2017年谷歌的基于自注意力機制的Transformer模型極大改善了模型任務用途單一問題,并極大提升了輸出語句的情感表達準確性[7]。2018年,OpenAI公司在Transformer的基礎上開發了生成式預訓練Transformer(Generative Pre-TrainedTransformer,GPT)。隨后OpenAI又在GPT的基礎上迭代了GPT-2、GPT-3、GPT-3.5、ChatGPT 和GPT-4。百度也在此技術思路下開發了文心(ERNIE3.0 Titan)大模型。
GPT 和文心都是采用預訓練技術的大模型,而ChatGPT和文心一言是最具技術顛覆性的一代。相較于以往幾代預訓練大模型,ChatGPT和文心一言除了使用超大規模語料數據進行訓練外,還通過人工標注的指示學習和近端策略優化學習大幅提升了學習實效[8]。其中指示學習(Instruct Learning)通過專業人員進行人工標注的方法為基礎預訓練模型給出高質量答案范式,幫助其理解人類各類語言指令的內涵與意圖[9]。強化學習則為ChatGPT和文心一言輸出高度擬人的文本提供技術支持。在強化學習階段,Chat‐GPT和文心一言首先采用來自人類反饋的學習方式(Reinforcement Learning from Human Feedback,RLHF)進行反饋判斷訓練。該階段同樣通過人工標注的方式,對預訓練模型生成的不同文本答案進行排序標注,并按照排序結果訓練獎勵模型(Reward Mode,RM)。隨后,獎勵模型會按照標注習慣對預訓練模型的后續生成文本質量進行判斷,從而控制預訓練模型的文本生成并使其符合人類習慣[10]。例如,ChatGPT在獎勵模型訓練過程中聘用了40名專業技術人員進行標注工作,使得ChatGPT的對話內容更加像人類。最后采用近端策略優化學習(Proximal Policy Optimization,PPO)對大模型進行迭代訓練,通過迭代修正的方式,使輸出文本不斷優化[11]。
(二)新一代大規模語言模型的“兩端”特征
1.輸入端:訓練數據“海量”化
從大模型發展歷程來看,其輸入端呈現出顯著的訓練數據規模“海量”化特點[12]。例如,第一代GPT的預訓練參數量為1.11億,數據量僅為5 GB。GPT-2的預訓練參數量為15億,數據量為40 GB。相較于第一代GPT,GPT-2參數量增長了近15倍,數據量增長了近8倍。如果說GPT-1到GPT-2的規模增量只是倍數級,那么GPT-3的誕生則直接將這一規模增量拉升到了指數級。GPT-3 的預訓練參數量達到了1 750億,數據量達45 TB,無論是參數量還是數據量都達到了海量規模[13]。其中,參數量增長了近117倍,數據量則增長了1 152倍。百度開發的文心一言更是包含了2 600億個參數,冠絕中國乃至全球。此外,從以往的大模型研究來看,在指示學習模式下,數據量與模型輸出準確性呈現正相關。這意味著學習數據規模越大,模型對自然語言的理解與模仿效果就越好。大模型的開發也會不斷追求更大的參數和數據量。
2.輸出端:生成內容“擬人”化
相較于傳統的大規模語言模型,ChatGPT和文心一言在語言生成上展現出高度智能化色彩,具有強“擬人”化特征。具體來說,一是展現出了一定的自我認知能力。例如,ChatGPT在遇到專業問題提問時會主動承認自身知識水平的有限性。在《時代周刊》與ChatGPT的訪談中,ChatGPT對記者關于語言模型的局限性的提問回答道:“是的,像我這樣的大型語言模型有很多局限性”。二是展現出了一定的自我反思能力。例如,ChatGPT會主動承認錯誤,并對用戶指出的錯誤和意見進行判斷、采納、吸收和優化。三是展現出了一定的質疑能力。例如,ChatGPT會對錯誤提問進行質疑。在訪談中,ChatGPT對記者關于意識的提問提出了質疑:“不,說我有知覺或意識是不準確的。”四是展現出了一定的思維推理能力。例如,ChatGPT允許任意任務模式的自然語言輸入,并能結合上下文對語言任務進行回答,開展多輪語言對話[14]。在訪談最后,ChatGPT對記者關于前述問答的真實性提問時回答道:“你不應該把我所說的都當成真實和準確的。在做任何重要決定或采取任何行動之前,運用自己的判斷和常識核實多方信息,才是重要的。”
二、新一代大規模語言模型面臨的著作權困境
如前所述,以ChatGPT和文心一言為代表的大模型在自然語言處理過程的輸出與輸入兩端展現出顛覆式的變化。一是輸入端的訓練數據規模空前“海量化”;二是輸出端的語言文本高度“擬人”化。大模型兩端的顛覆式變化同時帶來了相應的著作權難題。一是規模化數據使用難以納入合理使用范疇的難題;二是擬人化生成內容不具有可版權性的難題。
(一)輸入端困境:訓練數據的合理使用難題
1.合理使用難以涵蓋為訓練挖掘使用作品數據的行為
《中華人民共和國著作權法》(以下簡稱《著作權法》)第二十四條第十三款新增了合理使用的兜底條款,在原《著作權法》十二項合理使用的基礎上新增了“法律、行政法規規定的其他情形”。對于這一兜底條款的認識,學界分為三大流派:一是半封閉論,認為第十三款在立法模式上屬于封閉式立法,但在司法活動上存在突破空間[15]。二是全封閉論,認為第十三款完全倒回了傳統的封閉式立法模式上,并評價其為“貌似開放,實則封閉” [16]。三是對立統一論,認為第十三款在立法模式上具有封閉性,但在合理使用的立法本身上留下了開放空間[17]。盡管上述三者在第十三款的封閉性認識上存在差異,但都認為其立法模式屬于封閉式。事實上,第十三款是《著作權法》修訂時立法開放與司法開放爭論的妥協產物。這一妥協結果就是將合理使用解釋的開放性留給了立法者,而把封閉性留給了司法者。這意味著司法者在第二十四條列舉的具體情形外解釋適用合理解釋或司法創設新情形的空間被牢牢限制。因此,從法律規定的角度來看,為訓練大模型挖掘使用作品數據的行為不屬于合理使用范疇。其難以解釋入兜底條款之中,也無法適用關于研發合理使用的第二十四條第一款和第六款。因為大模型訓練不屬于個人行為,主體不屬于大專院校、科研院所,訓練所需使用的數據量也顯著不滿足少量要求。
此外,在我國司法活動中,司法者對合理使用的認定雖然具有靈活性,但是合理使用的司法解釋仍須遵循“三步檢驗法”之限制。從法律適用角度來看,“三步檢驗法”首先要求其適用于“特定且特殊情形下”,其次應符合“正常使用”,最后“應不得不合理損害著作權人合法利益”。但是從立法目的來說,“三步檢驗法”作為《伯爾尼公約》的宣示條款,旨在為各國立法做出原則化指示,而無統一明確法律內涵之目的。因此,“三步檢驗法”的三要件缺乏明確、細致可直接適用的法定內核[18]。目前,國內學者多認為“特定”“特殊”的指代情形以《著作權法》第二十四條所列舉的情形作為特定法源,對于“特定”“特殊”的理解適用,司法者只能“找法”不能“造法” [19]。此外,對于“三步檢驗法”三大要件的適用順序和相互關系也有學者提出了“遞進累積關系論” [20]。因此,對于“正當使用”和“不得不合理損害著作權人合法利益”的理解與適用不得脫離“特定且特殊情形”的底層邏輯限定,不得進行先行判斷或者獨立判斷,也不可以相對獨立地以“少數服從多數”的方式認定。這就使得為訓練挖掘使用作品數據即便可以解釋進“正常使用”的文義射程,并在“轉換性使用”理論和“市場中心”理論中具有合理正當性,但是依然不能在司法活動中基于“三步檢驗法”解釋為合理使用。
2.缺乏合理使用適用空間的作品數據挖掘使用行為面臨版權壁壘困境
針對新一代大模型而言,大規模數據訓練是模型搭建與效果產出的剛需。因此,大規模作品數據使用剛需與著作權保護之間存在天然張力。而大模型生成所需的作品數據挖掘使用無法納入合理使用之中,所以,挖掘使用行為必須獲得版權方的授權。以GPT-3為例,其訓練數據主要來自維基百科(Wikipedia)、書籍(Books)、期刊(Journals)、Reddit 社交新聞站點、Common Crawl和其他數據集[21]。其中CommonCrawl、維基百科等開源免費,對其文本數據的使用一般不需要獲得特別授權。但是書籍、期刊和網絡新聞文章只要其還在版權保護期內,毫無疑問需要版權方授權甚至付費使用。而超大規模的書籍、期刊和網絡新聞文章文本數據的使用將不可避免地面對“版權壁壘”問題。“版權壁壘”問題由來已久,且與大規模作品使用似乎是一對“雙生子”。2004年,Google啟動了人類歷史上規模最大的數字圖書館計劃,計劃通過掃描成千上萬冊圖書將海量書籍知識數字化。然而,這場理想遠大的知識工程卻在世界各國版權方的口誅筆伐中變成了苦難行軍。2011年,美國第二巡回上訴法院駁回了Google的圖書和解協議,歷時7年的“版權戰爭”以Google功虧一簣告終[22]。
海量的數據使用意味著需要獲取海量的版權主體授權并承擔天價的交易成本。針對大規模授權問題,Google 曾在圖書和解協議中提出了“選擇退出(opt-out)”規則。“選擇退出”規則是一種先使用、先付費,授權后置的“默示授權”規則。該模式允許使用人在正常支付版權費用的前提下先行使用版權文本,但版權人有退出選擇權。當版權人告知使用人不同意使用意圖后,使用人應當停止使用[23]。不幸的是,包含這一模式的圖書館和解協議最終被裁定駁回,未能經由英美法系的判例法制度成為一項法定模式。此外,“選擇退出”模式也違反了版權授權的一般慣例。以我國為例,《著作權法》第二十六條明確了以訂立合同形式的許可使用規則。該規則實際上暗含了版權使用的授權前置要求。我國學界在研究Google數字圖書館案例時也認為“選擇退出”規則的退出后置做法違反了版權授權的國際慣例[22]。
由于版權使用問題上缺少“默示授權”規則,在面對海量版權授權時,版權實際上如同一道壁壘擺在使用者面前。且不說面對海量版權主體進行單獨授權所需消耗的人力成本與時間成本,單就交易成本而言都是難以估量的。而高交易成本會顯著降低協議達成效率,甚至可能遭到權利人的劫持談判策略損害。此外,資本的逐利性會驅使使用者最大限度繞開壁壘,減少交易成本,造成侵權風險。GPT大規模語言模型本身具有算法黑箱屬性,當前Open AI并未公布所有文本數據授權,且種種證據表明Open AI存在未授權先使用的風險[24]。
(二)輸出端困境:生成內容的可版權性難題
大模型生成活動中,信息首先被轉化為數據用以大模型訓練,隨后數據作為一種暫存態用以機器學習,最后通過機器學習再將數據重組為信息文本用以輸出。在信息文本轉化的輸入階段,大模型面臨著大數據來源的版權合法性問題。在機器學習階段,數據的暫存態與《著作權法》中復制行為的穩定持久態相抵觸,因此該階段通常不存在顯著的著作權法律困境。需要進一步討論的是,作為數據形式存在的輸出文本是不是“作品”,即是否具有可版權性。
1.新一代大規模語言模型版權主體不適格
無論是大陸法系還是英美法系均對“作者”作了人類限定。例如,《德國著作權法》嚴格恪守“創作者為作者原則”,作者只能是自然人[25]。又如,美國版權局在最新版權登記指南中再次重申了“作者”的自然人屬性①。我國現行《著作權法》雖然采納了“視為作者”規則,而未明確“作者”的自然人屬性,但對“作者”依然有主體資格要求。無論當前學術界對人工智能體的主體資格有何爭議,都無法影響新一代大模型在現有技術環境下不具有主體資格這一事實。過于關注抽象語境以及未來不確定的科學技術,只會讓法學研究走上科幻歧路[26]。人工智能體主體資格肯定說或有限主體資格說普遍認為,生物特征或生理結構從來不是民事法律主體資格的判斷依據[27],且“人類中心主義”本身具有不合理性[28]。因此,只要人工智能體擁有人類智慧特征,具有自主性,能夠自我運行、自我學習、推理結果并做出合理決策,它就能夠擁有主體資格或至少擁有有限主體資格[29]。從其論述來看,人工智能體主體資格肯定說或有限資格說具有合理性且完全能夠自洽,但其唯一的缺點是陷入了“科幻論證”的窠臼。“擁有人類智慧”“強自主”“類人推理”等特征顯然不符合當前人工智能發展水平,這一描述更符合“強人工智能”階段的人工智能體。
首先,大模型不具備“類人智慧”,前文已經詳細闡釋了大模型的生成原理。其“擬人”化的生成內容完全是價值模型的控制結果。不重復的對話內容完全是隨機輸出的機制作用。大模型的“智慧”表象僅僅是一個被精巧設計過的工具,與“類人智慧”有著云泥之別。其次,新一代大模型的學習生成過程仍然依賴人類監督。其語言風格及文本輸出結果的準確性完全依賴于人類的訓練素材選擇和數據標注。從素材選擇到數據標注,每一步都是人為主動介入的結果,而非自主意識做出的。換言之,模型從第一步學習素材選擇開始就不具有完全的強自主性。最后,新一代大模型在創作過程中的根本推理邏輯是數學推理,其創作過程是對高價值語句的判斷與輸出。盡管數學可能是藝術,但藝術絕對不是數學。人類對文學藝術創作的邏輯推導不是理性的數學判斷,而是感性的美學判斷。因此,新一代大模型在藝術創作領域完全不具備“類人推理”。
2.新一代大規模語言模型生成內容不具有一定的思想和情感表達
“思想與表達二分法”是識別版權客體的重要基本原則之一。1994年世界貿易組織《知識產權協定》明確“版權延及表達,而不延及思想”,1996年世界知識產權組織《版權公約》則規定著作權不保護純粹的思維活動②。基于“思想與表達二分法”的共識,法律含義下的“二分”即思想不受保護而表達受到保護。但是從語義學層面理解,思想與表達難以二分,因為思想是表達的內在基礎,表達是思想的外在表現,脫離思想的表達真實存在嗎?一種可行的路徑是跳出語義層思維,而“將其理解為著作權法中受保護的部分與不受保護的部分的隱喻” [30]。因此,“思想與表達二分原則”依然具有著作權保護層面的法律合理性。綜合其語義關系和隱喻關系來看,受保護之客體為經由思想產生的表達,而非單純割裂于思想的“表達”。進而,就新一代大模型的“思想”與“表達”判斷而言需要討論以下兩個問題。問題1:何為“思想”,以及學習活動是否屬于“思想”范疇?問題2:何為表達,以及生成活動是不是基于思想的“表達”?
“思想”一詞在《著作權法》中被提及卻未有一個明確的定義。思想與表達二分原則最早來源于美國1976年《著作權法》第102條(b)款,該款中對思想一詞的表述是“idea”,隨后TRIPs 協議第9 條第2 款和WIPO 版權條約第2 條都使用了“idea”一詞③。從“idea”一詞的判例法來源看,該詞來源于美國聯邦最高法院貝克訴塞爾登侵犯著作權案④。
在貝克訴塞爾登案中,法院認為書中的創意方法及創意思想不受著作權法保護。因此,從判例法淵源角度對“idea”一詞進行解讀,將其解讀為“一種創造性想法”較妥。在創作過程中,無論是文學創作還是藝術創作,作者總是基于一定的創造性想法進行創作的,而其最終作品便是這一創造性想法的外化表現。因此,思想一詞做“創造性想法”解讀更為貼切。解決了“思想”一詞的定義問題,又一新問題縈繞心頭,何為“創造性想法”?馬克思主義認識論揭示了人思想上推陳出新的本質規律,即“否定之否定”。基于馬克思主義認識論,可以將“創造性想法”再拆解為三步,第一步“基于客觀存在的抽象認識”,第二步“對認識的批判”,第三步“對批判的批判”。在日常生活中,論文寫作是這一規律的真實寫照。至此,“思想”一詞已經具象化為人類的認識規律。下一個問題是新一代大模型對自然語言的理解與處理是否符合這一規律?目前來看,其只具有“基于客觀存在的抽象認識”形式,而不具有認識實質,同樣不具有批判和對批判的批判。首先就認識而言,“中文屋子問題”形象地解釋了語言模型對自然語言的所謂“認識”。在“中文屋子問題”中,語言模型被假設為一個坐在放有中英對照語法規則和對照詞典中的英語使用者。英語使用者只是遵照規則和詞匯匹配將英語短句重組為中文短句,其既不認識每個中文詞匯的意思,也不理解所表達句子的內涵[31]。其次就批判而言,新一代大模型雖然展現出了人類獨有的質疑、認錯、更正等類人批判思維,但其只具有類人批判思維的形,而不具有類人批判思維的實。從原理上看,質疑、認錯、更正等僅是基于人類反饋的強化學習技術實現的對人類智慧活動的形式模仿,是一種對人類批判認識規律的逆向工程表現,而非對錯誤的反思。最后,不存在對認識的批判,自然也不存在對批判的批判。由于“思想/表達二分原則”僅是一種隱喻,因此不具有思想前提也沒有必要再討論表達之結果。
3. 新一代大規模語言模型生成內容不具有獨創性
我國《著作權法》中的獨創性包含“獨”和“創”兩個維度。其中,“獨”是“獨創性”有無的性質門檻,而“創”則是“獨創性”高低的程度門檻[32]。我國著作權法既需要對“獨創性”的性質門檻認定,也需要對程度門檻的判斷[33]。
回到新一代大模型來看。就“獨”而言,其要求“獨立完成”和“個性化表達”。當前新一代大模型生成難以滿足上述兩點。一旦離開數據標注員的參數標注和訓練員的文本數據輸入,大模型不可能生成任何其他類型的新作品。因此,新一代大模型自身不滿足“獨立完成”要件。此外,ChatGPT 和文心一言的“個性化表達”也非AI本身的個性化體現,而是創作者對大模型訓練的特定體現。就“創”而言,其生成成果可以很好地滿足客觀主義下的“最低限度創造”的形式要求。因此,新一代大模型在客觀主義下不存在顯著的創造性障礙。但是,當前我國對獨創性之“創”還存在隱含的價值判斷,這一點在學界和司法實踐中十分顯見。例如,有學者認為“作品”應有文藝和科學美感[34]。又如,司法者在涉藝術品司法判決中對獨創性施加了藝術審美要求⑤。這一隱含的價值判斷與著作權法對獨創性的要求有關。價值判斷的本質是對作品內涵一定思想深度的要求,新一代大模型的生成本質是參數標注與概率計算,由于其不具備人類思想因此不可能滿足一定思想深度的潛在要求,進而難以符合價值判斷要件。綜上所述,新一代大模型生成內容不具有獨創性。
三、大規模語言模型“兩端”的著作權制度回應
(一)輸入端知識產權制度回應
1.構建更加開放的合理使用制度
合理使用作為版權的權利限制制度,設計之初本用于抵消版權權利可能產生的壁壘效用,從而起到鼓勵驅動創新[35]、激勵創作、促進知識公眾傳播等作用[36]。基于壁壘破除效用,有學者得出克服市場失靈才是合理使用制度的核心價值,并提出了合理使用的審視等式。該等式認為當使用者獲取許可的交易成本顯著高于利用行為產生的社會福利時,這一使用行為就應納入合理使用制度的審視范疇中來[16]。
回到大模型的發展態勢來看,首先,大模型的研發訓練日益依賴大數據的“滋養”。但在數據日益版權化的今天,數據版權與大模型研發之間正呈現出難以調和的張力。而根據版權保護與創新之間的“負相關性”原理,易知合理使用在數據挖掘上的嚴格限制勢必對大模型研發創新形成阻力,且數據需求規模越大,阻力越大[37]。其次,ChatGPT和文心一言正開啟智能互聯時代的新階段,嚴格合理使用將有損社會總體福利。以ChatGPT為代表的大規模語言模型將實現對人類社會的又一次重大賦能賦權,將產生革命性影響[38]。大模型具有突破人機溝通“巴別塔”語義鴻溝的底層技術價值,有望成為打開智能數字互聯社會的鑰匙,具有不可估量的潛在社會價值。最后,世界主要數字經濟體均在為數據與文本挖掘行為松綁。
美國早在2017年《人工智能未來法案》中就已表明了其對大模型開發和數據共享的支持立場⑥。歐盟長期以來的強監管態勢使其在大模型研發領域已實際上落后于中美,為實現技術追趕,歐盟也在《數字化單一市場版權指令(歐盟第(EU)2019/790號指令)》中為數據與文本挖掘松綁,為其創設法律例外⑦。韓國也表示正考慮修改《著作權法》允許使用各種出版物進行數據分析,加快本國大模型研發,增強本國科技競爭力⑧。因此,順應技術趨勢與時代潮流,將大模型研發訓練的數據挖掘使用納入到合理使用審視中來正當其時。
綜上所述,可以在兼顧社會整體利益、科技創新能力、產業競爭能力和著作權主體合法權益的基礎上,構建更加開放的合理使用制度。一是可以對合理使用本體條款即《著作權法》第二十四條第一款和第六款進行升級擴容,分別突破第一款下“個人”和第六款下“大專院校、科研院所”的主體限制;二是可以對合理使用的非營利性目的進行進一步解釋。對其解釋可分為兩種路徑。其一是在不突破非營利性目的的限制下,將非營利性目的限于直接目的之下,將雖用于企業經營,但主要為研發創新所需的數據與文本挖掘間接性行為排除在外。其二是直接突破非營利性的目的限制。三是可以用好合理使用兜底條款即《著作權法》第二十四條第十三款,通過制定生成式人工智能行政法規的形式為大模型研發所需的數據文本挖掘合理使用提供制度空間。
2.構建義務規則下的默示許可制度
隨著信息革命所帶來的影響,學界對版權制度的認識正悄然發生變化。早期人們對著作權的認識是類物權,并傾向基于“未得同意,不得使用”的“財產規則”構建著作權規則[39]。1972年,一篇載于《哈佛法律評論》的文章總結了著作權的“財產規則”“義務規則”和“不可讓與規則”并開啟了“財產規則”與“義務規則”的“三十年戰爭” [40]。2006年,“Field v. Google”案將基于“義務規則”的“選擇退出”制度推上了輿論的風口浪尖⑨。承載該構想的和解協議雖然被司法否決,但卻拉開了互聯網時代“選擇退出”制度適用的序章與慎思。2011年,我國“葉根友訴無錫肯德基”案中,法院實際認為權利人將其“葉根友行書庫”免費上傳網絡并不限制使用的行為構成“默示許可”⑩。
此外,也有學者認為我國《著作權法》和《信息網絡傳播權保護條例》實際已經開始了“選擇退出”默示許可制度的探索,只是制度設計不夠明顯[41]。此后,有學者認為“默示許可”能較好地匹配網絡時代大規模作品使用的特殊情形[42]。可見信息革命正不斷掏空“財產規則”下“選擇進入”制度的正當性根基。這一進程是必然的,因為產權保護規則有效性的基本邏輯是規則是否有利于促進交易[39]。
在人工智能與大數據時代以千億計的數據參數面前,放寬著作權使用標準,構建“義務規則”下的“選擇退出”機制具有法經濟價值的合理性。此外,進入Web3.0數字經濟時代。傳統經濟的三大假設理論基石已經發生動搖,其中基礎性的資源稀缺假設已經被共享經濟所動搖。理性經濟人的“自利”思維已經被網絡社會的“利他”思維所動搖[43]。共享思維與網絡文化傳播的邊際效用遞增效應正成為Web3.0數字經濟時代的底層邏輯。基于“財產規則”的“選擇進入”模式正愈發與“共享”背離。構建“義務規則”下的“選擇退出”機制具有數字經濟時代底層邏輯的合理性。最后,互聯網時代面臨的“版權蟑螂”問題已經十分突出,“選擇進入”模式下,大模型的數據規模化和剛需化只會招致更嚴峻的“版權蟑螂”問題[44]。因此,構建“義務規則”下的“選擇退出”機制還具有工具主義的實用性。
綜上所述,可以在《著作權法》第二十六條的基礎下,通過制定生成式人工智能行政法規的形式,為大模型研發所需的數據與文本挖掘設計“選擇退出”許可制度。但也要注意到,“選擇退出”機制會將原本由使用人承擔的特定義務轉換到權利人身上,增加權利人版權利益的實現負擔,降低使用人的侵權風險[45]。因此,“選擇退出”機制應嚴格限定使用范圍及適用情形。
(二)輸出端知識產權制度回應
1.構建縱深式、漸進式“作者”及版權歸屬制度
布萊克斯通法律思想認為,法律的變革是遵從穩定性基礎上的變革,要在秩序的維持與延續狀態下進行。同時還認為,對法律系統的考察應嵌入當時的社會環境之中[46]。因此,《著作權法》的作者內涵及其權利安排應順應生成式AI發展趨勢,構建“法人視為作者,版權歸于法人”—“AI視為作者,版權歸于法人”—“AI即為作者,版權歸于AI”的縱深式、漸進式制度安排模式。
一是在弱人工智能階段構建“法人視為作者,版權歸于法人”的主體權利構造。首先,我國《著作權法》已有法人“視為作者”的具體規定,這一構造在當前《著作權法》體系面前不存在法律障礙。其次,在司法實踐中,這一構造也獲得過支持。在“騰訊訴上海盈訊公司”案中,涉案文章雖然是AI生成創作,但可將法人視為作者。最后,著作權保護的實質是作品背后的獨創性智力勞動。《著作權法》的立法目的在于鼓勵創作,而獨創性智力活動才屬于創作,才可能受法律所鼓勵[34]20。美國版權局在最新版權登記指南中認為,創作勞動的貢獻是考察版權的重要因素,而用戶使用生成式AI的行為不存在實質性貢獻。因此,為AI生成提供集體智力勞動的法人才是這一階段中的合理作者。
二是在生成式AI由弱及強的迭代時期構建“AI視為作者,版權歸于法人”的過渡式主體權利構造。在這一階段,可版權性的主體要件需要做出“去人類中心主義”的邁步。縱觀人類歷史,作者作為人之主體的消解并非當下產物,早在1968年法國文壇領袖羅蘭·巴特就得出了“作者之死”的結論[47]。盡管這一結論并非直接宣告作者作為創作主體地位的消解,但也給世人帶來了作者能不能死的討論,至少讓作者的主體性在哲學層面變得不再具有“神權天賦”般的應然性[48]。如果說羅蘭·巴特的“作者之死”只是在哲學層面第一次消解人類作者的主體應然性,那么大模型則在現實層面對其進行二次消解。羅蘭·巴特把文學藝術創作的焦點從作者拉到文本上,大模型則證明這一轉變的可行性。文學也好,繪畫也罷,其總能被類型化、模塊化。從結果來看,大模型創作在效率層面顯著優于人類,其僅在非理性表達上不及人類。盡管由于AI無法良好計算更為抽象的意識表達,文學界尚不愿意承認AI的作者主體性,而更愿意將其視為“他者”,但是巴特的“作者之死”和大模型高度“擬人化”的作品削平了文學的深度,對何為文學意義上的作者帶來了二次拷問[49]。在迭代時期,可以預見生成式人工智能將展現出真正的“類人”智能水準,以及“以假亂真”的生成成果。其生成內容的客觀外在表現將與人類作品無異,甚至在創作思維與智力活動上都與人類相似,僅在主體的意識活動能力上尚不具有自主性,只在意識自主上尚屬于背后團隊的“意識奴隸”。在這一階段,可以采取名義權利主體與實際權利歸屬相分離的構造,開放作者的去人類空間,將AI視為作者。同時,基于民事法律主體和權利歸屬要求以及著作權雇傭作品權利歸屬理論將作品著作權歸于法人。
最后,在強人工智能階段,宜構建“AI即為作者,版權歸于AI”的版權主體權利結構。首先,從法律淵源角度出發,康德雖然創設了“倫理人”,但是作為大陸法系民法濫觴的德國民法卻沒有采納“倫理人”構造,而是選擇了基于“權利能力”的“形式人”構造[50]。換言之“形式人”因具有“權利能力”而成為法律主體,而不因是“倫理人”成為法律主體。回到強人工智能上,這一階段的AI在思想上已經與人類無異,甚至擁有獨立自主意識。這意味著其能夠獨立做出意思表示,并承擔相應的法律后果,具有一定的“權利能力”,自然應因視為民法上的“形式人”。其次,從工具主義角度出發,賦予AI 版權主體地位可以有效解決“AIGC”所面臨的“行動之法”與“紙面之法”相偏離的問題。最后,保守主義論者認為“一旦賦予人工智能民事主體地位,意味著兩種智能主體的并存”,進而導致民事法律關系被顛覆[51]。但是,“倫理人”不是因為寫入法律而存在,強人工智能也不會因為不寫入法律而不存在。法律只是“實然”的“應然”映射。
2.實現版權法轉向,建立客觀性審查
“AIGC”時代的客體要件回應主要包括兩個方面,一是將作者權法轉向版權法,二是將獨創性的主客觀一體審查改為客觀審查。AI的發展正將作者中心主義轉向作品中心主義,而作品的價值在于交易,有學者認為著作權制度的功能在一定程度上在于促進作品的商品化[52]。如果恪守作者中心主義,要求作品必須體現一定的思想意志表達,那么“AIGC”將無法納入商品化的進程中來。這既不符合“AIGC”的發展業態,也不利于保護和鼓勵技術創造。因此,更可行的做法是伴隨著作品中心主義的轉向,推動以人格權為出發點的作者權法向以財產權為出發點的版權法轉向,消除一定的思想意志表達的要求,同時也迎合作者主體的“去人類中心化”改造。
客觀審查并不意味著不審查主觀方面,而是將主觀方面作進一步隱喻化處理。從立法的目的來看,獨創性之“獨”旨在保護獨立創作這一事實,而將抄襲、剽竊、篡改等廣義復制行為剔除出去[53]。由于上文已經討論了“作者”主體的擴容,因此不必再拘泥于獨立創作是人類做出、AI做出還是人類借助AI做出,只要考量其形式上滿足獨創即可。只要不是借助AI 抄襲、剽竊、篡改等“創作”就符合“獨”之要件。再者,客觀審查還需要對“創”進一步改造,消除價值維度。從哲學上看,“休謨之問”將哲學上的事實維度與價值維度一分為二。由于法學的奧秘蘊含于哲學,因此事實與價值二分原則也被很自然遷移到法哲學之中。法哲學上認為“事實與價值分屬兩個領域,事實問題以客觀標準驗證某一事物是否為“真”;而價值問題則是人基于特定需求對事物善惡、美丑之主觀評價” [54]。在這一法哲學思想上,人們對著作權的“創作高度”認識也發生了改變。例如,德國發展出的小硬幣理論認為著作權的“創作高度”標準很低,達到一枚小硬幣的厚度即可[55]。事實、價值二分原則和小硬幣理論的發展標志著獨創性不必再具有“創作高度”的價值判斷維度[56]。從現實來看,“AIGC”要想生成具有高度思想深度的仿真作品需要對大規模模型進行難以估量成本的調試。這在技術上存在難度,在經濟商用上更沒有“錢”途。而這一沒“錢”途的價值追求又與知識產權立法之基“是一種經濟需要” [57]背道而馳。因此,無論從法哲學層面的獨創性理論發展來看,還是從“AIGC”的商用權利保護現實需要來看,獨創性之“創”都應消除價值判斷,回歸“最低限度”判斷。
參考文獻:
[1] 張鸝. AI蘇醒: 科幻電影的思想實驗室[M]. 北京: 新星出版社, 2020: 3.
[2] 鄭世林, 姚守宇, 王春峰. ChatGPT新一代人工智能技術發展的經濟和社會影響[J/OL]. 產業經濟評論: 1-20[2023-05-11]. https: //doi. org/10.19313/j. cnki. cn10-1223/ f.20230310. 002.
[3] 俞士汶, 朱學鋒, 耿立波. 自然語言處理技術與語言深度計算[J]. 中國社會科學, 2015(3): 127-135.
[4] 段德智, 萊布尼茨. 語言哲學的理性主義實質及其歷史地位研究[J]. 武漢大學學報(人文科學版), 2013, 66(5): 54-63.
[5] TURING A M. Computing machinery and intelligence[J].Mind, 1950, 59(236): 433-460.
[6] BENGIO Y, SCHWENK H, JEAN-SEBASTIEN S, et al.Neural probabilistic language models[J]. The Journal ofMachine Learning Research, 2003, 3(6): 1137-1155.
[7] VASWANI A, SHAZEER N, PARMAR N, et al. Attentionis all you need[R]. arXiv, 2017.
[8] 郭全中, 張金熠. ChatGPT的技術特征與應用前景[J].中國傳媒科技, 2023(1): 159-160.
[9] WEI J, BOSMA M, ZHAO V Y, et al. Finetuned LanguageModels Are Zero-Shot Learners[J]. ArXiv abs/2109.01652, 2021, [2023-04-11]. https://doi.org/10.48550/arXiv.2109.01652.
[10] OUYANG L , WU J , JIANG X , et al. Training languagemodels to follow instructions with human feedback[OL/J]. ArXiv abs/2203.02155, 2022, [2023-04-11]. https://doi.org/10.48550/arXiv.2203.02155.
[11] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. ProximalPolicy Optimization Algorithms[OL/J]. ArXiv abs/1707.06347, 2017, [2023-04-11]. https://doi. org/10.48550/arXiv.1707.06347.
[12] 王海寧. 自然語言處理技術發展[J]. 中興通訊技術,2022, 28(2): 59-64.
[13] BROWN T B , MANN B , RYDER N , et al. Languagemodels are few-shot learners[OL/J]. ArXiv abs/2005.14165, 2020, [2023-04-11]. http://doi. org/10.48553/arXiv. 2005.14165.
[14] 馮志偉, 張燈柯, 饒高琦. 從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J]. 語言戰略研究, 2023, 8(2):20-24.
[15] 王遷.《 著作權法》修改: 關鍵條款的解讀與分析(上)[J].知識產權, 2021(1): 20-35.[16] 蔣舸. 論著作權法的“寬進寬出”結構[J]. 中外法學,2021, 33(2): 327-345.
[17] 詹啟智. 論新著作權法合理使用的“其他情形”——兼與王遷、蔣舸、劉佳欣同志商榷[J]. 三峽大學學報(人文社會科學版), 2023, 45(2): 94-99.
[18] RETO H, CHRISTOPHE G, JONATHAN G. Towards abalanced interpretation of the 'three-step test' in copyrightlaw[J]. European Intellectual Property Review,2008: 489-496.
[19] 劉宇暉. 論著作權合理使用擴張適用的路徑選擇[J].知識產權, 2018(10): 59-65.
[20] 熊琦. 著作權合理使用司法認定標準釋疑[J]. 法學,2018(1): 182-192.
[21] 姚前. ChatGPT類大模型訓練數據的托管與治理[J].中國金融, 2023(6): 51-53.
[22] 肖冬梅. 谷歌數字圖書館計劃之版權壁壘透視[J]. 圖書館論壇, 2011, 31(6): 282-288.
[23] 梁志文. 版權法上的“選擇退出”制度及其合法性問題[J]. 法學, 2010(6): 84-94.
[24] 陳永偉. 超越ChatGPT: 生成式AI的機遇、風險與挑戰[J]. 山東大學學報(哲學社會科學版), 2023(3): 127-143.
[25] 李偉民. 視聽作品著作權主體與歸屬制度研究[J]. 中國政法大學學報, 2017(6): 87-160.
[26] 趙精武.“ 元宇宙”安全風險的法律規制路徑: 從假想式規制到過程風險預防[J]. 上海大學學報(社會科學版), 2022, 39(5): 103-115.
[27] 石冠彬. 人工智能民事主體資格論: 不同路徑的價值抉擇[J]. 西南民族大學學報(人文社科版), 2019, 40(12): 94-102.
[28] 郭萬明. 人工智能體有限法律人格論[J]. 廣西社會科學, 2020(2): 127-132.
[29] 郭少飛.“ 電子人”法律主體論[J]. 東方法學, 2018(3):38-49.
[30] 馮曉青, 刁佳星. 從價值取向到涵攝目的:“ 思想/表達二分法”的概念澄清[J]. 上海交通大學學報(哲學社會科學版), 2021, 29(2): 27-39.
[31] 馮志偉, 張燈柯, 饒高琦. 從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J]. 語言戰略研究, 2023, 8(2): 20-24.
[32] 李曉宇. 元宇宙下賽博人創作數字產品的可版權性[J].知識產權, 2022(7): 20-46.
[33] 魏永征. 新聞傳播法教程[M]. 北京: 中國人民大學出版社. 2019: 200.
[34] 王遷. 著作權法[M]. 2 版. 北京: 中國人民大學出版社. 2023: 19.
[35] 秦儉. 創新驅動背景下我國互聯網合理使用制度研究——兼論《著作權法》第24條修訂建議[J]. 科技與法律(中英文), 2022(5): 76-122.
[36] 刁佳星. 算法時代合理使用制度的困境與紓解[J]. 中國出版, 2023(3): 33-38.
[37] 彭飛榮. 論算法創作中涉數據的著作權侵權風險及其化解[J]. 法律適用, 2023(4): 46-55.
[38] 喻國明. ChatGPT浪潮下的傳播革命與媒介生態重構[J].探索與爭鳴, 2023(3): 9-12.
[39] 魏建, 宋微. 財產規則與責任規則的選擇——產權保護理論的法經濟學進展[J]. 中國政法大學學報, 2008(5): 133-160.
[40] CALABRESI G, MELAMED A D. Property rules, liabilityrules, and inalienability: one view of the cathedral[J].Harvard Law Review, 1972, 85(6): 1089-1128.
[41] 王國柱. 著作權“選擇退出”默示許可的制度解析與立法構造[J]. 當代法學, 2015, 29(3): 106-112.
[42] 李捷. 論網絡環境下的著作權默示許可制度[J]. 知識產權, 2015(5): 67-108.
[43] 許紅, 焦靜娟, 唐永忠, 等. 基于時空經濟理論的共享經濟理論內涵解析[J]. 云南財經大學學報, 2018, 34(9): 3-12.
[44] 孫昊亮, 張倩. 作品“寬容使用”引發的問題及其解決路徑[J]. 法學雜志, 2021, 42(8): 113-122.
[45] 馮愷. 個人信息“選擇退出”機制的檢視和反思[J]. 環球法律評論, 2020, 42(4): 148-165.
[46] 李杰賡. 布萊克斯通法律思想研究[D]. 長春: 吉林大學, 2010.
[47] ROLAND B. La mort de l'auteur, le bruissement de lalangue[M]. Paris: Seul, 1984: 61.
[48] 張江. 作者能不能死[J]. 哲學研究, 2016(5): 3-128.
[49] 鄭鵬. 人工智能創作、“作者之死”與人的主體性之反思[J]. 安徽大學學報(哲學社會科學版), 2020, 44(3):67-74.
[50] 朱振, 都本有. 人格權的倫理分析[J]. 法制與社會發展, 2005(3): 54-63.
[51] 王艷慧. 人工智能民事主體地位的論證進路及其批判[J]. 華東政法大學學報, 2020, 23(4): 83-92.
[52] 李琛. 質疑知識產權之“人格財產一體性”[J]. 中國社會科學, 2004(2): 68-78.
[53] 郝江鋒. 法哲學視域內關于人工智能作品獨創性的思考[J]. 中北大學學報(社會科學版), 2022, 38(4): 59-64.
[54] 熊文聰. 作為認識論的事實與價值二分法——兼論自然權利與法定權利之爭[J]. 法律方法, 2013, 14(2):167-177.
[55] 盧海君. 著作權法語境中的“創作高度”批判[J]. 社會科學, 2017(8): 95-104.
[56] 付繼存. 作品獨創性功能的反思與重塑——基于著作權法結構與價值目標的雙重視角[J]. 湖南大學學報(社會科學版), 2022, 36(5): 147-155.
[57] 鄭萬青. 中國傳統文獻中的所謂“作者”與“創作”[J].中國出版, 2010(21): 71-73.