999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能訓練數據合規性探析

2024-10-31 00:00:00鄒海陽畢夢婷浦繼堯趙露鄢龍
現代商貿工業 2024年19期

摘要:在當今數字化時代,人工智能技術的快速發展為社會帶來了巨大的變革和機遇。然而,隨著人工智能應用的廣泛普及,人工智能訓練數據的合規性問題日益受到關注。人工智能模型的訓練離不開大量的數據,而這些數據的獲取、處理和使用往往涉及諸多方面的考量。在這樣的背景下,探討人工智能訓練數據的合規性問題,不僅是確保人工智能技術可持續發展的關鍵,也是維護個人權利和社會公正的重要舉措。文章將對人工智能訓練數據的合規性進行探討,分析現有問題及挑戰,提出相關解決方案和建議,旨在為人工智能技術的健康發展和社會的可持續進步提供參考和借鑒。

關鍵詞:人工智能;訓練數據;合規性

中圖分類號:F2文獻標識碼:Adoi:10.19311/j.cnki.16723198.2024.19.011

1AI技術底層邏輯

AI大模型是當前AI技術發展的重要領域之一,不同于以往僅能進行分類、預測或實現特定功能的模型,生成式人工智能大模型(LargeGenerativeAIModels,LGAIMs)經過訓練可生成新的文本、圖像或音頻等內容,且具有強大的涌現特性和泛化能力。

其中文生文工具ChatGPT是基于Transformer的語言模型,Transformer架構能夠應用于自然語言處理(NLP)。以GPT-3(GenerativePre-trainedTransformer3)為例,其擁有超過1750億個參數,僅需很少的輸入就能生成高度逼真和復雜的文本。因此,Transformer模型的出現徹底改變了AI生成,并引發了大規模訓練的可能性。

文生圖工具DELL-E則是基于CLIP的語言模型,CLIP是ContrastiveLanguage-ImagePre-Training的縮寫,是由OpenAI在2021年發布的一種預訓練模型。CLIP旨在將文本和圖像結合起來進行預訓練,從而讓模型具備理解圖像和文本之間的關系的能力。它的訓練數據包括來自互聯網的大量圖像和文本,通過對圖像和文本之間的關系進行學習,使得模型能夠理解自然語言描述并生成相應的圖像。

文生視頻工具Sora是一個擴散模型,同時采用了Tranformer架構。這種架構能夠將隨機噪聲逐漸轉化為有意義的圖像或視頻內容。Sora模型通過訓練,學會了理解和處理文本提示,將用戶的描述轉化為視頻內容。具體來說,Sora模型首先接受用戶的文本描述作為輸入,然后利用擴散型變換器生成一系列潛在表示(latentrepresentations),這些潛在表示逐漸接近于真實的視頻數據。在這個過程中,Sora模型通過不斷地迭代和優化,逐漸生成出與文本描述相符合的視頻內容。

總之,無論是Sora還是ChatGPT、DELL-E3等生成式AI都是基于大模型技術研發改進而來,它們本身只是模型而沒有數據,因此生成式AI天然地要求有大量文本、圖像和視頻數據的“投喂”訓練。在經過大量數據訓練之后,用戶只需輸入少量文本,AI就可以快速生成符合要求的文本、圖像和視頻。

2訓練數據侵權挑戰

由前文所述,AI訓練所需的大量數據(包括文本、圖片和視頻)是基于大模型技術的天然需求,其具有一定的正當性。但在AI訓練過程中,也出現了對他人著作權(包括文字、圖片和視頻)的侵權可能,由此也帶來了一定的挑戰。

2.1訓練數據不可控

生成式人工智能數據收集和語料庫構建高度依賴數據爬蟲,其訓練數據除了人為建立數據庫對人工智能進行“投喂”外,人工智能還可以利用數據爬蟲自動在網絡上爬取數據來供自己訓練。對于訓練數據我國《生成式人工智能服務管理暫行辦法》第七條規定,生成式人工智能預訓練,優化訓練的數據需滿足一系列合法性要求,包括來源合法性,不得侵犯知識產權,個人信息權益等。但生成式人工智能爬取的數據在范圍、數量、質量等都是不可控的,其可能突破網站經營者設置的保護措施,爬取具有知識產權保護的作品,造成對著作權人的侵權。此外,生成式人工智能還可能爬取到他人的個人信息和商業秘密,造成很嚴重的侵權。這些自動爬取都是依賴于具有高度自主學習技術的“算法黑箱”,其行為很難控制。

2.2訓練數據缺乏透明度

基于AI訓練過程的復雜性、技術性和未知性,普通民眾和相關部門很難深入了解AI公司的訓練數據來源和使用情況,也無法知曉哪部作品以何種方式被使用。其次,現階段,人工智能采用“算法黑箱技術”,其使用的數據內容并未公開,同時人工智能生成的內容是向特定的使用者提供的,本身并不具有直接公開性,即使人工智能使用了受著作權保護的作品,著作權人也難以發現自己的原創內容可能被大模型訓練使用,而且隨著人工智能的不斷更新,其生成物獨創性越來越高,僅憑生成內容人們無法判斷出其內容是由自己作品經訓練后產出的。這給監管部門在執法過程中帶來了困難,也給著作權人維權帶來了挑戰。

2.3訓練數據侵權難以舉證

近期,美國媒體《紐約時報》將OpenAI和微軟公司訴至法院,指控二者未經授權使用《紐約時報》數以萬計文章訓練ChatGPT等人工智能。這一爭端引發了公眾對于大模型訓練數據版權的關注,同時也反映出大模型數據侵權認定存在的難點。目前我國的法律在舉證責任方面一般遵循“誰主張誰舉證”的規則,著作權人需自己尋找證據證明人工智能訓練數據侵犯了著作權人的利益,而該舉證過程基于以下因素往往是困難的。

首先,人工智能訓練數據來源不明確。許多訓練數據可能來源于多個渠道,其中可能包括版權保護的內容,但數據的具體來源往往并不清晰。在這種情況下,確定侵權責任人及其行為成為一項極具挑戰性的任務。其次,數據轉化難以追蹤。在人工智能訓練過程中,原始數據經過多次轉化、處理和組合,最終形成用于模型訓練的數據集。這一過程中的數據流動路徑復雜,難以追蹤特定數據的來源和使用方式,進而增加了侵權舉證的難度。最后,證據不完整。著作權人即使發現了侵權行為,為獲取足夠的證據來支持起訴也是一項艱巨的任務。許多數據可能被多次重復使用,其中的原始數據可能已經難以追蹤,使得著作權人的舉證過程變得異常困難。

3訓練數據侵權規制路徑

3.1訓練數據不應納入“合理使用”范圍

在新時代大數據背景下,共享經濟是現在的主流,越來越多的人在主張“個人主義讓步于集體主義”。作為新崛起的生成式人工智能,它的快速發展可以極大地促進人類的進步,便利人們的生活。在這樣的背景下,為了推動人工智能進一步地發展,一些學者提出將為了訓練人工智能而使用現有作品進行訓練的行為納入“合理使用”范圍,犧牲著作權人的部分財產權(如,復制權),讓人工智能可以免費使用現有的作品進行訓練,使得訓練數據合規。這樣的主張確實可以促進人工智能的發展,但是筆者認為該觀點過分強調“讓步”,未充分考慮人類著作權人的利益。首先,人工智能確實可以促進人類社會進步,但是現階段,人工智能主要是AI公司用來獲利的工具。AI公司運用大量的數據進行訓練,使得人工智能不斷完善,生成物質量越來越高,進而吸引更多的客戶使用人工智能來進行創作,讓自己獲取更多的利益,其本質上并不是為了“公共利益”或“集體利益”,而是為了“商業利益”。在這樣的情況下,產生利益沖突的就是AI公司和著作權人,相對于AI公司而言,著作權人處于弱勢地位,此時還要讓著作權人作出讓步明顯不合理。其次,對于著作權人而言,他們的作品是個人花費了大量時間和精力完成的,作品本身就具有很高的價值。如果將其免費作為數據提供給人工智能進行訓練,則會打擊人類創作者的積極性,導致人類創作者的創作減少,反而違背了《著作權法》“鼓勵創作”的初衷。因此,把“為了訓練人工智能而使用現有作品進行訓練”的行為歸為合理使用并不合理。

3.2訓練數據不應完全遵循“用必授權”原則

對于人工智能自動抓取著作權保護的作品進行訓練造成侵權的問題,有學者認為人工智能對于訓練數據的使用應遵循“用必授權”的原則,即人工智能公司只要使用受著作權保護的作品,就需要得到著作權人許可并向其支付合理費用。但是筆者認為該觀點依舊不合理。目前人工智能主要使用“算法黑箱”,基于其數據不可知、不可控的特點,著作權人依舊無法知道自己的作品是否被使用,甚至連人工智能開發者和公司也難以知曉訓練數據庫中哪些資料是受著作權保護的;就算人工智能公司知道其未經授權使用了他人作品,但出于利益和成本的考慮,其也有可能會選擇不告知著作權人。這不僅不能讓著作權人的權利得到實現,還會使得該制度“形同虛設”,不能解決實際問題。其次,人工智能數據庫中的數據非常之大,如圖表1所示,LLaMA已知的訓練數據已達4828.2GB,其還未包括人工智能自動爬取的數據。面對如此大的數據,如果要支付費用,并征得著作權人的同意,不僅耗費巨大,且效率低下。在該產品上市之后,其昂貴的成本費用也會分攤在每一位用戶身上,不利于AI為各行各業賦能加速。此外,如果找不到著作權人或著作權人不同意授權,人工智能訓練的數據將會大量減少,不利于人工智能自身的發展。

3.3納入法定許可范圍

對于人工智能數據問題,筆者認為不能過度保護任何一方,要找到合理的方式平衡人工智能與人類作者間的利益,使兩者都能更好地發展。在解決數據侵權問題時,筆者認為應從以下幾方面進行考慮。

首先,針對訓練數據不公開透明的問題,應要求人工智能公司公開相關的訓練數據來源。在《人工智能法案》就有相應的規定要求人工智能模型的提供者應發布關于用于訓練的內容(數據)的足夠詳細的摘要。我國的《生成式人工智能管理暫行條例》雖然沒有直接規定人工智能提供者應對訓練數據進行公開,但在行業部門的監管責任中提到有關主管部門依據職責對生成式人工智能服務開展監督檢查,提供者應當依法予以配合,按要求對訓練數據來源、規模、類型、標注規則、算法機制機理等予以說明,并提供必要的技術、數據等支持和協助。基于人工智能“算法黑箱”技術,外界難以知曉具體訓練數據,但是對于人工智能開發者而言,大部分訓練數據是可以溯源的。在解決數據侵權的問題上,筆者認為可以借鑒歐盟《人工智能法案》的相關規定,在我國現有的法律基礎上要求人工智能公司對相關訓練數據公開。一方面可以加強對人工智能公司的監管,使其提起對內部合規性的重視,減少侵權行為的發生;另一方面通過透明訓練數據,可以極大地保護著作權人的合法利益,減輕著作權人維權的難度。這能很好地解決基于訓練數據缺乏透明度帶來的挑戰,降低了著作權人進行侵權舉證的困難,能夠較好地保護著作權人的合法權益。

其次,在數據公開的基礎上,可以將“為了訓練人工智能而使用受著作權保護的作品進行訓練的行為”納入法定許可范圍內,AI公司僅需支付一定的報酬,無須征得著作權人的同意就可以將其作品用作訓練。據有關消息報道,OpenAI正在與數十家出版商洽談內容授權協議。且在去年12月,OpenAI宣布與德國媒體巨頭阿克塞爾·施普林格達成了“里程碑式”合作。根據協議,OpenAI將付費使用施普林格旗下出版物的內容,施普林格將提供其媒體品牌的內容,作為OpenAI公司大型語言模型的訓練數據。OpenAI公司的做法正是基于雙方簽訂的公開協議,通過支付合理報酬從相關平臺獲取大量高水平數據,從而將其投入大模型訓練。這種做法正符合“法定許可”的法律情形。

綜上所述,“法定許可”一方面讓人工智能訓練使用的數據合規,有效解決了數據侵權的問題;另一方面更好地保護了著作權人所享有的權利,兩者的利cQyWHxx7FquA5u2OV6viUJ7g4NpAhsaKsBDzvINH00g=益得到了更好的平衡。此外,在基于“法定許可”而使用訓練數據時,應當排除侵害人格權等原就屬于侵權的作品,在涉及個人信息的情況下,開發者必須保證在充分利用這些信息資源的同時,保護信息主體的合法權益。因此,應將訓練數據納入法定許可范圍,與將訓練數據納入“合理使用”的方法相比,“法定許可”實現了著作權人與人工智能公司二者利益最大化的平衡。

4結論

在公開數據來源的基礎上,將使用受著作權法保護的作品進行訓練的行為納入“法定許可”范圍內,同時加強對個人信息的保護。這樣不僅降低了AI公司的成本,同時滿足人們的需求,促進AI產業的發展,實現兩者的平衡,加快為各行各業賦能增速,提升各行業社會生產力,為包括著作權人在內的人民群眾創造更多的社會財富,進一步激發全社會創造活力,也符合共享集體主義的理念趨勢,推動創造出更多更好的作品,最終形成正向循環。

參考文獻

[1]張欣.生成式人工智能的算法治理挑戰與治理型監管[J].現代法學,2023,45(3):108123.

[2]鈄曉東.風險與控制:論生成式人工智能應用的個人信息保護[J].政法論叢,2023,(4):5968.

[3]AlanD.Thompson“What’sinMyAl”2023.HugoTouvtonetai.“LLaMA:OpenandEfficientFoundationLanguageModeis”2023,華泰研究.

[4]吳葉凡.“投喂”大模型如何規范授權[N].科技日報,20240209(005).

[5]張春春,孫瑞英.如何走出AIGC的“科林格里奇困境”:全流程動態數據合規治理[J/OL].圖書情報知識,112[20240311].http://kns.cnki.net/kcms/detail/42.1085.G2.20240305.1852.006.html.

[6]李彤.生成式人工智能技術提供者侵權免責事由的識別重整[J].南京社會科學,2024,(02):8697.

[7]劉金瑞.生成式人工智能大模型的新型風險與規制框架[J].行政法學研究,2024,(02):1732.

主站蜘蛛池模板: 91麻豆精品国产91久久久久| 午夜日本永久乱码免费播放片| 精品久久久无码专区中文字幕| 亚洲国产成熟视频在线多多| 亚洲国产精品人久久电影| 国产对白刺激真实精品91| 欧美午夜久久| 看国产毛片| 午夜色综合| 国产精品女熟高潮视频| 亚洲美女操| 国产性生交xxxxx免费| 国产精品性| 欧美精品影院| 亚洲啪啪网| 国产99视频免费精品是看6| 人妻夜夜爽天天爽| 国模极品一区二区三区| 伊人成人在线视频| av手机版在线播放| 日韩天堂视频| 在线国产综合一区二区三区| 亚洲女人在线| 97精品伊人久久大香线蕉| 久久激情影院| 亚洲国产中文综合专区在| 天天摸夜夜操| 玖玖精品在线| 免费毛片全部不收费的| 国产成人精品视频一区二区电影| 欧美三级不卡在线观看视频| 日韩中文精品亚洲第三区| 欧美日韩另类国产| 欧美激情第一欧美在线| 日本一本在线视频| 天堂岛国av无码免费无禁网站 | av一区二区无码在线| 国产剧情一区二区| 无码精品国产VA在线观看DVD| 美女免费精品高清毛片在线视| 国产精品2| 国产精品一区在线麻豆| 9啪在线视频| 成人午夜亚洲影视在线观看| 99精品视频在线观看免费播放| 国产一级片网址| 国产成人精品男人的天堂| 一边摸一边做爽的视频17国产| 国产高清在线观看91精品| 国产丝袜第一页| 国产69精品久久久久孕妇大杂乱 | 国产色网站| 亚洲黄网视频| 亚洲一区波多野结衣二区三区| 日本尹人综合香蕉在线观看| 国产国模一区二区三区四区| 国内精品一区二区在线观看| 嫩草国产在线| 91福利免费| 国产本道久久一区二区三区| 国产在线观看91精品亚瑟| 午夜不卡视频| 思思热精品在线8| 日韩黄色大片免费看| 久久综合久久鬼| 91亚洲国产视频| 国产精品视频第一专区| 国产成人高清精品免费软件| 欧美人与牲动交a欧美精品| 五月天婷婷网亚洲综合在线| 少妇精品在线| 99久久这里只精品麻豆| 日本免费新一区视频| 亚洲综合婷婷激情| 日本三级精品| 亚洲中文字幕23页在线| 日韩av资源在线| 五月婷婷伊人网| 999国内精品久久免费视频| 国产色爱av资源综合区| 亚洲水蜜桃久久综合网站| 午夜天堂视频|