祝洛斌
青島科技大學,山東 青島 266061
2023 年由OpenAI 發布的ChatGPT 在互聯網中大火,將生成式人工智能一時間推上風口浪尖,ChatGPT 在2022 年推出之初,并未如此引人關注。同時期的生成式人工智能軟件還有Midjourney,該兩款軟件為當下生成式人工智能的代表作品,一款為語言對話類軟件,另一款為畫圖類軟件。令人驚訝的是無論對話類還是畫圖類軟件,生成式人工智能的發展遠超乎我們想象。
OpenAI 對ChatGPT 的研究發展實則早已于2018 年開始,彼時的人工智能軟件多數處于大數據訓練階段,從ChatGPT3.0 版本面世后,才開始真正引發大家關注。該語言對話模型的智能程度雖然未能和人類相似,但也遠超于之前所有的對話類人工智能軟件。用戶不僅僅可以與其正常對話,也可以糾正其錯誤,并且引導其學習,最終獲得更為智能的問答。例如,可以讓其模仿寫作、撰寫代碼等。之后發布的ChatGPT4.0 版本中,其智能程度愈加先進,在與其對話時,其所展現的不再是之前大多數對話模型所產生的割裂感,而是向世人展示出相當于人類的對話思路、答案。
生成式人工智能的發展速度是讓人驚訝的,每一次的模型迭代升級,都會默默改變我們未來的生活,但同時其帶來的風險也不容小覷。2023 年3 月,包括特斯拉創始人埃隆·馬斯克在內的千名專家公開呼吁暫停訓練ChatGPT4.0 后續數據模型至少6個月并簽署公開信,其后,同年4 月11 日我國國家互聯網信息辦公室公開發布《生成式人工智能服務管理辦法(征求意見稿)》。我國各大科技公司在ChatGPT 爆火后,陸續公布自身旗下的生成式人工智能產品,但是該類型產品未來會發展到何種程度,我們不得而知,不過其已對目前已有的法律體系造成了重大的影響。本文將從生成式人工智能的工作原理簡要剖析,進一步分析可能產生的法律風險,并提出應對措施。
生成式人工智能采用深度合成技術,其基于機器學習方法從海量的數據庫中學習,同時進行糾錯訓練,再從數據庫中選擇并生成相對應的內容。根據OpenAI 公司官網介紹,ChatGPT 是一個大型的語言訓練模型產生的內容生成器,工作時首先通過其核心算法模擬人類語言規則,其次便是在該算法的基礎上進行神經網絡深度學習,在學習的過程之中利用海量的數據輸入進行訓練,最終達到當下可以在人類語言規則基礎上輸出內容的目的。通過與用戶對話的方式可以糾正其錯誤,最終用戶便可得到其想要的相關答案,使用ChatGPT 時輸入的資料可以是語言文本、圖片圖像、計算機代碼等。自ChatGPT 爆火以來,國內外互聯網公司的很多軟件都宣傳接入其端口,大量學者盛贊其足以改變世界,但在其飛速發展的背后,存在的風險被提及的少之又少。眾所周知,法律的現實問題之一就是具有滯后性,目前科技所帶來的挑戰正在浮現,各國已經陸續開始針對生成式人工智能進行一定的規制,因此,以下將針對生成式人工智能的主要工作原理對其風險進行簡要分析。
1.侵犯個人網絡數據及商業秘密安全
規避生成式人工智能所帶來的風險可以從生成式人工智能的工作原理下手。首先從其輸入信息開始,ChatGPT 的對話水平能達到現在的擬人程度,其需要海量的數據進行訓練,對于該訓練數據以及使用時其作出的多數回答,都需要引用現成的網絡數據,但該訓練數據OpenAI 公司并沒有披露其來源。在當下的互聯網時代,我國對于個人網絡數據的保護,主要依靠于《網絡安全法》、《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》),其中《個人信息保護法》第十三條規定,處理個人信息需要取得本人同意。而目前生成式人工智能的特點便是前期需要海量數據訓練,如果其在網絡數據中搜集個人信息進行訓練,則不可能獲得每個人的同意,若訓練所用的數據為公共網絡平臺的開放數據,其也可能侵犯《個人信息保護法》中第二十七條、第三十五條等規定,原因在于,其對于公開個人信息的訓練使用是否在合理范圍內、是否會對個人權益造成重大影響等均是不可知的,因為生成式人工智能存在算法黑箱,無法得知其所搜集的數據來源,包括我國已經公布的生成式人工智能平臺也未對訓練數據的出處做出詳細說明[1]。
除去關乎個人隱私的數據之外,還有多數公司的商業秘密同樣可能受到侵犯。用戶在使用ChatGPT 時,通常是通過對話交互的方式來進行,而與其交流時用戶所提供的信息同樣會變成其學習的資源。之后其他用戶再使用ChatGPT 時,其可能會借助于以往用戶所輸入的信息進行回答,同時根據OpenAI 中ChatGPT 使用協議第3(c)條“為了幫助OpenAI 提供和維護服務,您同意并指示我們可以使用內容來開發和改進服務。您可以在這里閱讀更多內容,了解如何使用內容來提高模型性能”,表明了OpenAI 對用戶所輸入的信息會進行訓練利用。若用戶在使用ChatGPT時輸入相關公司商業秘密,便有可能出現泄露的風險。例如,2023 年4 月某星電子公司在引入ChatGPT 不到20 天便發生了3 起相關的商業秘密泄露事件,其中包括半導體相關代碼以及會議記錄。該次事件體現了目前生成式人工智能對數據使用的規范存在漏洞。當此類應用開始大規模推廣,更多公司機構開始接入ChatGPT 時,必然出現更多的商業秘密或是國家機密泄露的風險。
2.侵犯他人知識產權風險
根據《中華人民共和國著作權法》中的相關規定,著作權的創作主體為自然人,因此,依據現有法律規定,ChatGPT 等生成式人工智能無法取得著作權[2]。但是,在學界中針對這一問題尚存在相當的爭議。同時在實務當中,以廣東省深圳市南山區人民法院(2019)粵0305 民初14010 號判決書為例,2019 年某訊訴上海某盈科技有限公司,法院認定某訊旗下D 軟件所生成的文章具有獨創性,即在獨立創作及外在表現上是否與已有作品存在一定程度的差異或具備最低程度的創造性上進行分析判斷,該文章具有獨創性,故承認其受到相應的著作權保護。對于生成式人工智能是否能取得著作權,實踐中存在較多爭議,本文便不做討論,此處僅從其使用過程中可能造成的對著作權等知識產權的侵犯風險進行分析。
按照生成式人工智能的工作原理,整個運行流程由三方共同參與,即軟件方平臺方、訓練該軟件者或者是提供生成特殊圖像文字作品的代碼提供者以及最終的使用方。若最終的作品存在侵權,則很難對這三方進行責任劃分。在訓練與使用生成式人工智能軟件之時,通常我們會使用大量現成的圖像或者是文字作品;對于已經發行的作品,若人工智能自行索取或是被人惡意進行投放訓練,這是否會侵犯該作品作者的著作權、其產生的作品又是否與其用于訓練的作品版權相關等問題都值得深思。
3.生成內容虛假、違法風險
自從互聯網時代蓬勃發展開始,網絡謠言、網絡暴力等不良現象層出不窮。生成式人工智能所產出的作品,因其特點所產生的虛假違法信息的傳播風險更大。依然從ChatGPT 的運行機制來看,使用大量數據進行訓練時,若對數據信息沒有強有力的監管,輸入進行訓練的數據存在違法違規,那所得出的內容也常常存在著虛假違法的風險。雖然OpenAI 在宣傳ChatGPT 時特別說明了其核心算法處于中立,并且屏蔽了色情、暴力、歧視等內容[3]。但在實際使用之中,使用者依然可以通過誘導等手段,使ChatGPT 輸出不良信息,突破本身算法所約束的規定。同時,ChatGPT 在遇到部分問題時,可能會直接編造答案,讓人真假難辨,該類信息若經過傳播極有可能造成大規模虛假信息蔓延。隨著生成式人工智能的不斷發展進步,類似的風險若沒有及時得到規避,可能會讓網絡環境愈發糟糕。
若國外生成式人工智能全面進入我國開展經營活動,或是我國同類軟件可以達到相近的智能程度,其產生的各類風險是不可避免的。因此,現階段應當依據生成式人工智能的特點,作出針對性的規定,對相關法律解釋進行詳盡的規制。下文將對可能存在的問題提出相應的解決思路。
對于生成式人工智能所帶來的挑戰,我們應當積極應對。由于法律具有滯后性,這導致當下多數生成式人工智能都缺乏法律的規制,因此我們應當從立法入手。2023 年4 月,國家互聯網信息辦公室發布了《生成式人工智能服務管理辦法(征求意見稿)》,這是我國首部針對生成式人工智能制定的法律法規,但其中多數細則是引用當下現成的法律,這對于復雜新穎的生成式人工智能是遠遠不夠的。例如其中第二條提到,“本辦法所稱生成式人工智能,是指基于算法、模型、規則生成文本、圖片、聲音、視頻、代碼等內容的技術”。根據該條我們不難看出,是對于幾乎所有類型的生成式人工智能類型統一進行規制,但文本圖片與代碼的生成邏輯、技術等具有非常大的差別,因此對生成式人工智能的規制需要分類進行。從技術角度出發,針對每類不同的特點進行更加細致的規定,以保障生成式人工智能的平穩發展;也可以從整個產業鏈進行分區治理,生成式人工智能主體為內容生成者、內容服務平臺、內容服務使用者,對于生成式人工智能的立法規制,絕不是一部法律就可以完成的。對于產業鏈中的各個環節,應當詳盡分類考究。法律規制是對其發展的保駕護航,同時也需要掌握好限度,過于嚴格的規制反而會限制其正常發展。
生成式人工智能能夠達到目前的智能化、擬人化程度,有一點不可忽略,那便是其通過大量數據進行訓練。為保證訓練數據的精準度,目前甚至催生出相對應的人工智能訓練師崗位,主要職責是精準訓練生成式人工智能大模型。無論是文本圖像還是代碼生成,生成式人工智能在經過數據訓練后依然可能出現錯誤,此時就需要糾正其錯誤并進行相對應的專項數據指導。我國目前生成式人工智能行業仍處在大模型進行數據訓練的環節,對于其訓練使用的數據則是整個生成式人工智能發展的重中之重。對于該部分法律保護通常依托于《個人信息保護法》,再者便是還處于征求意見階段的《生成式人工智能服務管理辦法(征求意見稿)》,其中第七條規定,平臺訓練生成式人工智能的數據中涉及個人信息的應當取得信息主體同意。但從實際情況來看,該規定很難被遵守。
利用海量數據訓練人工智能是當下共識,若每一次涉及個人信息都需要完全許可,便如同天方夜譚。因此,對于當下需要的訓練數據和使用時所需要投入的數據,首先,應當明晰其特殊屬性,在保證個人信息安全的前提下,讓其保持在類似于“沙盒”(是一種安全機制,能夠為運行中的程序提供隔離環境)的特定分區中進行單獨訓練;其次,在使用軟件中用戶投入數據進行對話操作,該步驟有強烈的主觀性,故應當詳細說明并告知使用者風險;最后,平臺服務商應當在程序中提高數據敏感度,防止違法違規數據被運用到訓練中。
生成式人工智能與之前各類新技術不同,具有更強的專業性、自我學習能力,這使得監管難度提高。首先,應當確定監管主體范圍,目前法律法規中監管主體龐雜,涉及部門眾多,反而可能無法有效進行管理[4]。對于新技術的態度應當更加寬容,對生成式人工智能發展狀況進行全程的監督,尤其是核心算法部分,應當及時在國家備案,必要時對其進行跟蹤研究,以備不時之需;其次,監管機構應當與業界保持聯動,從專業角度評估風險,并以更全面的方式指導實施;最后,監管部門應引導該行業制定其行業標準,形成行業內部制約,進一步規范行業行為。
生成式人工智能的發展是大勢所趨,科技的發展無法完全被掌控。針對這一問題,我們可以做好準備迎接其挑戰。從目前主要的生成式人工智能工作原理來看,生成式人工智能依然處于“野蠻發展”階段,主要存在訓練數據來源不清晰、算法“黑箱”難以明晰、缺乏體系的整體監管等問題,全球各國對其都處于一個監管的起步期,對于其可能存在的風險,我們應當積極應對,從源頭入手,具有針對性地進行逐一破解。總之,生成式人工智能的發展壯大是一個必然趨勢,我們需要積極應對其中的挑戰和風險,同時也要充分挖掘其潛力和優勢,促進生產力的不斷提升和社會的發展進步。