摘要:生成式人工智能在使用版權作品進行數據訓練時,不可避免地會引發侵權問題。同時,作為技術支持者和服務提供者的技術企業,也面臨著版權挑戰。首先,輸入端的文本和數據挖掘內容往往難以構成合理使用。其次,輸出端生成物的版權歸屬問題也難以明確。隨著企業對數據依賴程度的不斷加深,版權風險和合規問題也日益突出。本文旨在探討生成式人工智能企業所面臨的版權風險,并提出相應的合規的風險防范策略,以期在人工智能技術蓬勃發展的背景下,促進這些企業的進步與創新。
關鍵詞:生成式人工智能、訓練數據版權、合理使用、企業合規
引言
《生成式人工智能服務管理暫行辦法》(以下簡稱《暫行辦法》)定義了“生成式人工智能服務提供者”,即那些運用生成式人工智能技術,通過提供可編程接口等方式,提供服務的組織或個人。國內學者進一步區分了技術支持者這一概念,強調其與服務提供者在版權侵權風險上的不同[1]。以OpenAI公司的發展為例,可以看出這兩類主體往往存在重疊。技術支持者可能專注于算法或語言訓練規則方法的研究與創新,而另一類企業則在此基礎上提供服務,這已成為一種趨勢。由于大公司能夠購買和使用龐大的受訓數據庫,并擁有廣泛的用戶群體,其研發的人工智能受訓效率自然更高。同時,大企業資金雄厚,能夠同時進行研發和服務提供。在當前人工智能時代,生成式人工智能技術企業無疑會關注技術應用中的版權風險,并迫切需要法律合規的解決方案。本文旨在分析在掌握研發人工智能技術的同時作為服務提供者所面臨的版權風險,并探討相應的合規路徑。
一、生成式人工智能的技術原理
生成式人工智能是指基于深度學習模型與人類反饋強化學習等技術,通過學習大量數據來生成新的、與原始數據相似但不完全相同的數據。其典型應用包括文本生成、圖像生成以及音頻生成等。新一代大規模語言模型,如GPT-4,采用多層Transformer模型嵌套的方式來捕捉文本中的長距離依賴關系。Transformer架構完全基于注意力機制,摒棄了傳統的循環遞歸和卷積結構。在此模型中,每個詞或子詞都能從輸入序列的任何位置獲取信息,從而增強了模型對文本上下文關系的理解能力。總之,新一代大規模語言模型通過利用Transformer架構和大量文本數據進行訓練,學會了理解和生成人類語言,并在多種任務上展現出了卓越的性能。
二、生成式人工智能企業的版權風險樣態
生成式人工智能企業,在作為該技術的開發者和服務提供商的角色中,無論是在研發的初期階段還是在產品投入使用的階段,都不可避免地遭遇版權風險。在輸入端,這些企業使用海量訓練數據時,引發了關于學習數據是否能被合理使用的討論。而在輸出端,它們則面臨關于生成內容版權歸屬的爭議。
(一)輸入端的版權侵權風險
在使用生成式人工智能時,用戶僅需輸入指令或關鍵字詞,即可獲得包括文本創作、技術方案、問題解答在內的全面回復。例如,ChatGPT能夠根據上下文推理,從而推斷出相應的答案。這種功能強大的人工智能之所以能夠實現,是因為它依賴于大量的創作素材[2]。企業收集了海量的文獻數據,并用這些數據來訓練人工智能,這引發了文本與數據挖掘合理使用的問題。現實中,《紐約郵報》等新聞集團正準備通過法律途徑向技術制造商,如OpenAI、微軟和谷歌,提出賠償要求。隨著AI時代的進步,類似的訴訟已經擴展到在AI模型訓練中使用圖像和代碼數據的問題[3]。法律判決的關鍵在于,AI公司是否有權從互聯網上抓取內容,并將其用于訓練模型。
1.數據采集時面臨侵權風險。生成式人工智能企業進行數據采集時,采用的是文本與數據挖掘技術(TDM)。根據歐盟《單一數字市場版權指令》的定義,TDM是指任何旨在分析數字形式的文本和數據,以便生成包括但不限于模型、發展方向以及相互關系等有益信息的計算機分析技術[4]。
我國《著作權法》雖然增設了合理使用的兜底條款,但生成式人工智能企業所實施的TDM行為并不符合其中的“個人使用”例外規定。因為TDM的實施需要大量技術和資金支撐,個人通常無法成為TDM的主體,因此“個人使用”的例外規定很難為企業的數據挖掘行為提供法律依據。
此外,TDM行為也不符合“教學或科研少量復制使用”的例外規定。一方面,生成式人工智能企業的主要宗旨是追求商業利潤,而非進行科研活動;另一方面,即使是以科研為目的,TDM技術“全數據采樣”的特點也難以滿足“少量復制”的要求。另外,《信息網絡傳播權保護條例》規定,未獲許可擅自傳播作品時應當標明“作品來源”,但目前TDM技術難以辨識挖掘對象的權利屬性,這也增加了企業在數據采集過程中面臨的侵權風險[5]。
2.數據分析過程中的侵權風險不容忽視。在數據處理階段,企業需對數據進行復制、翻譯、標記、分析等一系列操作。然而,即便數據集是公開獲取或已購買的,企業在使用時也必須確保遵守版權法的相關規定,因為學習對象的版權壁壘往往較高。在訓練過程中,大量語料庫內容被復制到數據庫中,這在現行著作權法下可能構成對復制權的侵犯。此外,如果生成式人工智能經過機器學習、數據分析后生成的最終內容與先前學習的作品存在實質性相似,那么還可能侵犯著作權法中的演繹權。
從ChatGPT的運作原理來看,其在進行深度自主學習之前,會先對知識與信息內容進行數字化處理,并轉化為數據格式進行存儲。這兩種數字化處理方式實際上都是在不改變內容的情況下對作品進行復制,并且復制的內容會永久存儲在ChatGPT的系統中。從著作權法的角度來看,ChatGPT的這種數據挖掘行為屬于“復制”行為,存在侵犯復制權的風險。雖然演繹權在法律條文中沒有明確列出,但我國《著作權法》已將演繹權進一步細分為改編權、翻譯權、攝制權和匯編權等。在生成式人工智能的數據分析階段,開發人員需要對海量的信息數據進行標注、翻譯、標記、整理、匯總等操作。這些操作并非針對某個作者的單一作品進行的簡單復制,而是涉及多個具備獨創性、受版權保護的作品的侵權性使用,因此存在侵害演繹權的風險。
(二)輸出端的版權侵權風險
1.“版權主體不適格”問題。目前,學界普遍認為作品是作者人格的體現。然而,人工智能的生成內容雖然具備人類作品的形式要件,但在創作過程中缺乏主體意識,不具有內在的人格基礎,因此不符合作品的構成要件。當前,亟須解決的問題是,生成式人工智能的人格權能否被承認?若其人格權得到承認,其生成內容是否屬于作品?以及版權權利應如何歸屬?
2.生成式人工智能所生成的作品,是通過其算法不斷優化推演而來。然而,該過程缺乏人類所特有的主觀能動性及情感投入,尤其在文化藝術領域,這樣的生成內容往往難以與社會大眾產生情感上的共鳴,更難以滿足其深層次的精神需求。
著作權法保護的是對思想觀念的獨創性表達,而非思想觀念本身。其中,“獨”是判斷作品是否具有獨創性的性質門檻,而“創”則衡量獨創性的高低程度。生成式人工智能無法獨立完成創作,它既依賴于海量信息數據的輸入,也需要使用者提供具體指令才能生成內容。因此,其創作能力的真實性值得懷疑。此外,生成式人工智能的輸出內容完全基于其學習材料(即訓練集),這導致輸出內容很可能與已受版權保護的作品存在相似性。
3.版權信息標注存在挑戰。《暫行辦法》已規定生成式人工智能在創作作品時需添加標簽,注明其為人工智能生成。然而,對大語言模型所生成的文本進行顯著且有效地標識,在技術上存在較大難度。全國信息安全標準化技術委員會發布的《網絡安全標注實踐指南——生成式人工智能服務內容標識方法》中,多數方法僅適用于圖片、音頻和視頻等類型的內容,并未涵蓋文本。因此,由于這一技術局限,生成式人工智能有可能使企業面臨版權侵權的風險。
4.作品的傳播權可能受到侵害。生成式人工智能企業在進行數據挖掘、機器學習或實現研究結果可驗證性時,需要將數據或文本通過互聯網進行傳輸。然而,這一過程中可能夾雜著受版權保護的作品,從而可能侵犯著作權人的向公眾傳播權。此外,在人工智能投入使用后,使用者輸入指令生成與版權相關的回答內容,并將這些內容上傳至網絡或出于經濟利益進行其他使用,這一行為同樣可能侵害著作權人的傳播權。
三、生成式人工智能企業的合規路徑建議
(一)企業前期風險把控階段
1.風險預期與管理。根據國家網信辦等頒布的《暫行辦法》第4條規定,企業應在開展相應的運營活動之前,切實做好可控風險的測試、預估和預防措施。在技術條件尚不成熟、無法有效控制相關風險的情形下,不得貿然將人工智能技術投入運營。
2.信息真實性審查。生成式人工智能在訓練過程中依賴海量信息作為參數,但現有技術無法完全剔除輸入程序中的虛假信息,這必然導致人工智能學習錯誤知識并得出錯誤結果。為應對這一問題,企業應對數據處理過程進行全面記錄和管理,確保數據的可追溯性和可信度。鑒于當前生成式人工智能的技術水平無法有效甄別虛假信息,企業難以完全識別并阻止虛假信息的輸入。因此,企業應借鑒ChatGPT團隊的做法,建立專業小組,采用一系列“檢測和刪除不當內容的技術組合”來解決這個問題。這一過程應包括預審核、過濾等關鍵技術環節。
(二)輸入過程中企業風險規避
1.文本與數據挖掘行為應尊重作品的合理使用原則。在進行此類活動前,應確保所使用的數據和文本來源合法,并充分尊重版權所有者的權益。若需對特定文本數據進行付費使用,而未獲得相應許可,則必須遵守相關法律法規和倫理規范,以確保文本與數據挖掘行為的合法性和合規性。例如,在預處理階段,可以采取去除特殊字符、轉換為小寫字母、去除停用詞等措施。同時,建議相關企業和研究人員密切關注國際上關于文本與數據挖掘的版權規定和最新動向,以便及時調整策略,有效保障自身的合法權益。
2.優化算法方面,我們應在算法模型上減少對單一在線版權作品的依賴,并降低訓練數據對生成物的影響。針對不同領域的文本,我們應采用不同的預處理方法和技術。具體而言,根據文本的領域分類,選擇相應的預處理策略,并運用不同的特征提取方法,將文本轉換為模型能夠處理的向量表示。此外,我們還應通過調整不同的超參數設置和優化算法,來進一步提升模型的性能和精度。
(三)輸出內容后企業風險規避
1.在服務提供領域,生成式人工智能產生虛假信息的原因不僅限于服務提供者,還包括用戶的行為。然而,用戶通常不具備相關專業知識和能力,更難以理解和評估人工智能產品的算法及其可解釋性,以及相關的風險預防問題。因此,責任應當倒置,即由具備技術和信息優勢的企業承擔充分提示使用要求、盡到風險告知義務的責任。
2.針對生成虛假內容的補救措施,企業應確保對生成式人工智能輸出的信息作出必要標識。例如,為這類信息添加水印,以避免使用者因過度信任人工智能產品而遭受損害。對于涉及真實人物或可能引發爭議的圖片、視頻內容,應明確規定產品必須自動并明顯地標注“深度合成”等提醒字樣。在對話聊天型的生成式人工智能中,若涉及查詢類問題,應強制要求其在回答中提醒用戶答案可能不準確。在此方面,生成式人工智能企業至少應承擔起警示的義務。此外,還應加強對服務提供平臺的監管,通常而言,互聯網平臺的管理能力與其技術水平成正比。
四、結語
我國正處于從人工智能大國向人工智能強國邁進的過程中,科技的快速發展往往伴隨著法律規范的滯后。不僅技術需要在法律的框架下不斷突破,支撐技術開發背后的生成式人工智能企業的法律合規問題也值得我們高度重視。因此,我們不僅要鼓勵生成式人工智能企業的創新和發展,還要監管并督促這些企業采取必要的技術措施,預防侵權行為的發生,降低損害的風險,從而推動我國人工智能產業健康、合規地發展。
參考文獻:
[1]邵紅紅.生成式人工智能版權侵權治理研究[J].出版發行研究,2023(06):29-38.
[2]馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J].語言戰略研究,2023,8(02):20-24.
[3]文巧.訓練ChatGPT模型不付錢?文字版權商要與OpenAI法院見[N].每日經濟新聞,2023-03-28(005).
[4]司曉,曹建峰.歐盟版權法改革中的大數據與人工智能問題研究[J].西北工業大學學報(社會科學版),2019(03):95-102+3.
[5]馬治國,趙龍.文本與數據挖掘對著作權例外體系的沖擊與應對[J].西北師大學報(社會科學版),2021,58(04):107-115.
〔基金項目:本課題獲得西安財經大學研究生創新基金項目資助,項目名稱“人工智能技術下文本與數據挖掘的版權合理使用問題研究”(22YC045)〕
(作者簡介:戴心遠,西安財經大學研究生。喬瑜,西安財經大學副教授。)