摘 要:【目的】探討人工智能(AI)深度學習應用與著作權保護的沖突與協調機制,以平衡技術創新與權益保護的關系,提出合理的著作權法應對策略。【方法】通過對AI深度學習的應用現狀進行分析,結合著作權法的相關規定,研究AI創作過程中的著作權侵權風險形成機制。并且,以百度文心一言等為例,詳細研究了AI創作的3個階段。【結果】著作權侵權風險主要來源于數據輸入和輸出階段。在AI創作的數據輸入階段,對既有作品的搜集和處理可能涉及侵權問題;在輸出階段,AI生成的作品著作權歸屬復雜,涉及AI模型與人的獨創性輸入。此外,不同數據來源也帶來了不同的侵權風險。在已有制度的框架下,AI創作很難避免違法利用數字作品。【結論】建議對合理使用條款加以修改,將AI創作納入合理使用的框架內,將灰色地帶的AI產業合法化。
關鍵詞:人工智能;著作權;合理使用
中圖分類號:TP18;D923.41" " 文獻標志碼:A" "文章編號:1003-5168(2024)24-0105-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.24.020
Risks and Solutions of Copyright Infringement in Artificial Intelligence-generated Creations
Abstract: [Purposes] This paper aims to explore the conflicts and coordination between the application of Artificial Intelligence(AI) deep learning and copyright protection, in order to balance technological innovation and rights protection, and propose reasonable copyright law countermeasures.[Methods] By analyzing the current application status of AI deep learning and combining relevant provisions of copyright law, the mechanism of copyright infringement risk formation in the AI creation process is studied. Taking examples such as Baidu's Wenxin Yiyan, the three stages of AI creation are studied in detail.[Findings] It is believed that the main risks come from the data input and output stages. In the data input stage of AI creation, the collection and processing of existing works may involve infringement issues. In the output stage, the copyright ownership of AI-generated works is complex, involving the originality input of AI models and humans. In addition, different data sources also bring different infringement risks. At the same time, within the framework of existing systems, it is difficult to avoid illegal use of digital works in AI creation.[Conclusions] It is suggested to modify the fair use terms to include AI creation in the fair use framework, thereby legalizing the gray area of the AI industry.
Keywords: AI; copy right; fair use
0 引言
隨著科技的飛速發展,人工智能(Artificial Intelligence,AI)技術已經逐漸滲透到人類社會生活的各個方面。其中,深度學習作為AI領域的重要分支,應用日益廣泛,尤其在圖像識別、自然語言處理、語音識別等領域取得了顯著成果,但也帶來了前所未有的法律挑戰,特別是在著作權保護方面。隨著AI深度學習技術的廣泛應用,其與著作權之間的關系日益復雜,引發了廣泛的關注和討論。
著作權作為知識產權的重要組成部分,旨在保護創作者的創作成果,鼓勵創新和促進知識傳播。在AI深度學習的應用過程中,如何界定和保護著作權成為亟待解決的問題。AI深度學習的訓練和推理過程涉及大量的數據輸入和學習任務,這些數據可能包含了諸多受著作權保護的內容,如文字、圖片、音頻等。AI模型在學習這些數據的過程中,不可避免地會涉及對這些內容的復制、修改和使用,這可能引發著作權侵權問題。
此外,AI深度學習生成的作品,如AI創作的畫作、文章等,其著作權歸屬也是一個復雜的問題。一方面,作品的主體部分是由AI模型獨立生成的;另一方面,作品的生成也包含AI使用人對AI模型提供提示詞等作為人的獨創性的輸入。
因此,探討人工智能深度學習與著作權之間的關系具有重要的理論意義和現實意義。本研究旨在通過分析當前AI深度學習的應用現狀,結合著作權法的相關規定,探討AI深度學習與著作權之間的沖突與協調,針對如何在新的時代背景下平衡技術創新與權益保護,提出合理的著作權法應對策略,以期為推動AI技術的健康發展提供有益參考。
1 AI創作中著作權侵權風險的形成
邁入新時代,廣義上的數據是否能由著作權法進行保護仍然存在爭議,但狹義上的數據即數字化作品能得以保護已經是社會的共識[1]。數字化載體并不會對其圖像或文字等具體表達產生影響,其性質沒有發生根本性的改變。
而AI創作主要是基于狹義上的數據并且通常需要經歷3個階段,即數據輸入、學習及最終的輸出階段。以百度文心一言為例,在數據輸入階段,需要從各種渠道,如互聯網、書籍、新聞報道、學術論文等,搜集大量的數據。在搜集到原始數據后,經過一系列預處理操作,如去除噪聲、分詞、詞性標注等,剔除無用數據。在學習階段,需要利用處理后的信息進行模型訓練,這是一個逐步迭代的過程,模型會不斷嘗試從數據中學習相應的規律和模式。在訓練過程中通常會有人為操作,根據模型的性能表現調整相應參數,優化模型學習成果,一般需要復雜的數學計算和算法優化。在最后的輸出階段,系統通過對用戶輸入信息的理解和解析,提取相應關鍵信息,在已學習的知識庫中進行相應檢索,進行推理和判斷,生成相應的輸出。
數據在AI創作的3個階段中并不都存在相應的著作權侵權風險。學習階段是對輸入階段的工作成果以數學模型進行處理,Chat GPT及文心一言這類大語言模型都是使用基于Transformer的自然語言處理模型,Google的bard使用的是BERT模型,此外,在細分領域也使用視覺處理的卷積神經網絡(Convolutional Neural Networks,CNN),語音識別的循環神經網絡(Recurrent Neural Network,RNN)和長短期記憶人工神經網絡(Long Short-Term Memory,LSTM)等。這些模型通常僅是計算機程序語言及相應數學模型的結合,并不存在通常意義上的著作權侵權風險。風險通常來源于數據的輸入階段及數據的最終輸出階段。
輸入階段的主要工作內容是搜集并處理數據,這一步驟是整個流程的基礎,為后續建立模型提供了必要的素材和支撐。通常情況下是由專門的程序員來完成。在搜集數據的過程中,需要廣泛收集各種來源的信息,其中包括數字作品及經過數字化處理后的實體作品。這些數字作品可能涉及各種形式,如文本、圖像、音頻和視頻等,而數字化后的實體作品則是通過掃描、拍攝或其他技術手段將傳統形式的作品轉化為數字化的形式。在搜集和處理這些數據的過程中,不可避免的問題是對既有作品的搜集及處理是否涉及侵權。
根據相關調查報告,AI行業從業者的數據來源有以下5種情況。第一是自行搜集,在相關人員自愿的前提下對其進行數據采集,或在公開場合主動收錄、拍攝;第二是從公開平臺獲取,如Kaggle、OpenML、UCI機器學習庫、TensorFlow Datasets、Google Cloud Public Datasets等開源平臺,平臺所有人既有高校,也有商業公司;第三是數據爬蟲技術搜集;第四是向市場中的商業團隊購買;第五是模擬數據[2]。從以上5種情形來看,第一至第四的4種獲取途徑均有可能產生法律風險。而一旦該階段的行為被定性為侵權,那么基于這些數據所建立的模型,就如同“毒樹之果”一般,其合法性也會受到嚴重質疑。
在AI創作的輸出階段,系統對用戶請求的響應構成了該流程的核心環節。這一階段不僅涉及數據的生成與內容的呈現,更要求系統能夠精準捕捉用戶的個性化需求,并據此進行定制化輸出。在前期階段嚴格遵循了版權法規,確保了數據的合法性與合規性的基礎上,輸出階段仍可能因用戶請求的特殊性而帶來潛在的侵權風險。具體而言,當用戶請求AI模仿某一特定作者的作品風格進行創作時,系統需要理解并再現該作者的創作特征。這一過程中,AI需要對原作進行深入分析,提取其風格元素,并在保證原創性的前提下進行模仿。但由于風格模仿本身涉及對原作一定程度的復制與借鑒,因此在實際操作中難免會越過合法使用的界限。此外,用戶請求與現有作品特征的相似性也是導致侵權風險的重要因素。在AI創作過程中,系統可能因未能準確識別用戶意圖與現有作品之間的區別,在輸出結果中呈現與已有作品相似的表達方式、情節設置等。這種相似性可能構成對原作的實質性相似,從而引發侵權問題。
2 AI創作侵權之法理分析
2.1 著作權侵權種類及法理論證
AI創作的數學基礎是運用向量與矩陣理解和操作大規模數據集,并用概率論與數理統計輔助計算理解數據中的不確定性,從而進行預測和決策。在此過程中,會不可避免地收集大量已有數字化作品。同樣以文心一言為例,其通過網絡爬蟲或API接口快速獲取大量數據,與其他平臺公司交換數據,通過公開渠道搜集開放數據集,如學術數據、政府公開數據、傳感器數據、社交媒體數據,以及收集用戶在使用其公司的其他產品、服務時所產生的數據。在這些過程中,AI所收集的數據會保存在其服務器內幾乎形成永久性復制品,在著作權法意義上屬于復制行為,存在侵犯復制權的風險[3]。
從創作結果來看,AI創作的結果與人類創作的結果別無二致,同樣是3種情形:其一是與已有作品構成實質性相似的作品;其二是雖有已存作品的相似點,但有完全不同的表達,此類仍是具有獨創性的作品;其三是與已有作品完全不同的全新作品。人工智能的思想是人類無法判斷的,因此在第一種情形下,毋庸置疑會構成對原著作權人權益的侵犯;第二種情形與第三種情形下通常不會構成著作權侵權。
AI創作的侵權盡管不只發生在輸出階段,但通常只有在輸出創作結果之后才會產生對現有作品的直接侵害,因此可以說該階段是糾紛發生的主要階段。針對是否侵權的判斷,學界也有提出以“表達性使用”與“非表達性使用”對輸出結果進行區分[4]。表達性使用強調對作品本身內容的呈現和傳播,包括其文字、圖像、聲音等具體表達形式。如果AI創作結果涉及對作品獨創性表達的復制、展示或演繹,那么這種使用方式就構成了表達性使用,存在侵權風險。而非表達性使用主要關注的是作品所承載的事實性信息或思想,這種使用方式并不涉及對作品獨創性表達的復制或展示,而是將作品作為信息或數據的來源,用于研究、分析或其他非創造性目的。如果AI創作的結果構成非表達性使用,則不具有侵權風險。
以“接觸+實質性相似”規則進行判斷時,在AI創作時代出現了其他判定方法所不具有的優勢。以往的判例通常會要求證明被告有接觸在先的情形,如2022年“皮革納福兔”玩偶侵權案,以及2020年最高人民法院駁回再審申請的潘某某音樂抄襲案等。但如果是AI作品則只需要調查AI的輸入數據是否有相應作品即可,這將是最直接的證明材料。
“實質性相似”則存在不同的認定方法。在以往的實踐過程中,各地裁判的認定方法相差極大,但總體可以概括為整體觀感法、抽象測試法及二者的結合。在抄襲比較明顯的情況下,將采用整體觀感法進行判斷;如果作品相似度難以判斷,則會采用抽象測試法劃分作品獨創性,并進行單獨對比分析。
2.2 AI創作侵權豁免困境
為平衡著作權人利益與社會公共利益,各國在著作權立法上都會規定相應的法定抗辯理由。在我國現行法律中,著作權法侵權豁免的法定理由僅有合理使用與法定許可兩種類型。
法定許可的4種類型雖然不是必然不適用于AI創作的場合,但基于社會發展現狀,不具備現實可能性,不予討論。因此本研究主要討論以下幾種有可能適用于AI創作的合理使用條款。
第一是《中華人民共和國著作權法》(以下簡稱《著作權法》)第24條第1款第1項的規定:為個人學習、研究或者欣賞,使用他人已經發表的作品。AI使用他人作品的場合當然屬于為學習、研究而使用他人作品,但AI不屬于個人,創造AI的組織機構也不能屬于個人的范疇[5]。不過此條依然有適用的場景,即AI是由自然人單獨創造的。從信息技術的發展現狀來看,已經出現由個人創造的AI,因此該條款有適用的可能性。當然,此種情形下依然要求以學習、研究為目的,不能有商業利益的追求。
第二是《著作權法》第24條第1款第2項的規定:為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品。AI是在深度學習已有作品之后進行獨立創作的,因此對已有作品的引用是不可避免的,同時AI創作并不會只對單一來源作品進行引用,而是會大量參考同類數據,所以屬于適當引用情形。但AI創作的目的不僅僅包括條款列舉的“介紹、評論某一作品或者說明某一問題”,AI創作的目的基于用戶的需求,而用戶需求的不確定性使該條款的適用變得具有相應的不確定性。
第三是《著作權法》第24條第1款第6項的規定:為學校課堂教學或者科學研究,翻譯、改編、匯編、播放或者少量復制已經發表的作品,供教學或者科研人員使用,但不得出版發行。AI創作中對數字作品的使用應當屬于科學研究活動,但用此條進行抗辯時,會受到目的限制和數量限制。在AI創作活動中,需要大量復制已有作品,并且其使用目的包羅萬象,顯然超出條款列舉的目的要求,因此,該條款的適用性較低。
3 AI創作社會利益衡量與相關立法建議
AI產業將會是下一個國與國之間競爭激烈的產業,但AI的發展需要工業硬實力與文化軟實力的共同推進。芯片作為現代工業皇冠上的明珠,雖然與法學看似無關,但在如何促進文化軟實力與AI產業的配套方面,法學義不容辭。
目前,處于AI產業發展頭部的日本與美國均采用柔性立法,以減少對AI產業的限制[6]。以日本為例,日本的立法總體上是對計算機程序后端的限制簡單化及靈活處理,也就意味著對AI的輸入階段與學習階段幾乎不作任何限制[7]。在這種情況下,日本的相關研發機構及商業公司可以全力發展AI技術,因此在市場上可以看到細分領域內充斥著大量的日本AI模型,日本柔性立法在其中發揮的指引作用功不可沒。
而我國現在推出的AI大模型在數據的來源上存在非常大的著作權侵權風險,其中充斥著大量授權不明的作品,但AI大模型可以說是人類集體智慧的產物,對每個單獨作品的利用屬于低密度利用,雖然幾乎可以忽略不計,但又不可或缺。目前我國的著作權并沒有對AI對作品的利用作出規定,AI產業目前仍處于灰色地帶,但很顯然無論法律是否允許,該產業依然會使用數字作品進行AI深度學習。
著作權法不僅要保護著作權人的合法權益,同時也肩負著平衡社會公共利益的任務。基于新興技術產業發展需求,為鼓勵技術創新與發展,促進作品高效利用,我國應將AI對作品的利用納入合理使用范疇,消除技術創新主體的顧慮,推動AI技術向前發展。
但目前我國著作權法對此的規定仍是全封閉式的,即采用有限列舉的方式列明可以適用合理使用的情形并嚴格限制兜底條款的適用。如果要從我國現行全封閉式的剛性限制直接轉換為美國和日本開放式的柔性限制也存在直角轉彎的問題,即在社會層面可能會經歷法律規定大幅度轉變與當下經濟產業不相適應而導致的陣痛。因此,作為過渡階段,本研究建議在合理使用條款中增加對應內容以促進AI對數字作品的利用,待社會條件成熟或其他合適時機再將立法轉為柔性立法或半開放式立法。
4 結語
AI時代的到來,引發了一系列法律問題。著作權法現有規定與人工智能對大量數據的使用需求之間的矛盾是一個亟待解決的問題。基于AI產業的發展需求出發,借鑒他國先進實踐經驗,以促進我國法治進步是可行之道。由于立法模式的不同,我國需要針對AI產業適用特殊的法律規制模式,采用事前保護、事中監督與事后救濟三管齊下的方式,更好地平衡產業創新發展與著作權權益保護之間的關系。
參考文獻:
[1]彭飛榮.論算法創作中涉數據的著作權侵權風險及其化解[J].法律適用,2023(4):46-55.
[2]高澤晉.潘多拉的魔盒:人工智能訓練數據的來源、使用與治理:面向100位AI開發者的扎根研究[J].新聞記者,2022(1):86-96.
[3]高陽,胡丹陽.機器學習對著作權合理使用制度的挑戰與應對[J].電子知識產權,2020(10):13-25.
[4]王文敏.人工智能對著作權限制與例外規則的挑戰與應對[J].法律適用,2022(11):152-162.
[5]焦和平.人工智能創作中數據獲取與利用的著作權風險及化解路徑[J].當代法學,2022,36(4):128-140.
[6]劉湘麗,肖紅軍.軟法范式的人工智能倫理監管:日本制度探析[J].現代日本經濟,2023,42(4):28-44.
[7]鄭重.日本著作權法柔性合理使用條款及其啟示[J].知識產權,2022(1):112-130.