孔祥承
在人類發展史上,第一次工業革命將水蒸氣變成動力,實現了生產的機械化。第二次工業革命通過電力實現了大規模的生產。第三次工業革命使電子與信息技術得到普及,實現了生產自動化。①參見商周刊編輯:《聚焦“第四次工業革命”》,載《商周刊》2016 年第3-4 期。當下,人類社會正在經歷第四次工業革命,此次革命的典型代表便是人工智能。②參見孫繼榮:《責任時代:變革與創新》,中國經濟出版社2018 年版,第615 頁。1956 年,美國達特茅斯學院“如何用機器模擬人的智能”研討會首次提出“人工智能”這一稱謂,標志著人工智能學科的誕生。③參見國家網信辦:《人工智能的歷史、現狀和未來》,http://www.cac.gov.cn/2019-02/16/c_1124122584.htm,2023 年4 月27 日訪問。當時,對人工智能的基本設想是一種描述智能,并據此制造仿真機器。雖然后續各界對于人工智能概念的定義不盡相同,如有的學者將人工智能定義為由人類所制造的智能(機器的智能)。④參見鐘義信:《人工智能:概念·方法·機遇》,載《科學通報》2017 年第22 期。但是,無論采取何種定義方式,算法、算力與數據始終是人工智能的核心要素,在它們不斷迭代的基礎上,人工智能展現出與人類相近的直覺、靈感與想象,對各類問題能夠作出更為精準的回答。⑤參見崔鐵軍、李莎莎:《人工系統中數據—因素—算力—算法作用及相互關系研究》,載《智能系統學報》2022 年第4 期。
近年來,人工智能技術快速發展,深度學習技術被引入人工智能領域,生成式對抗網絡(GAN)應運而生。在此背景下,生成式人工智能開始出現。與傳統人工智能按照預設算法運行不同,生成式人工智能可以利用海量數據進行分析,通過機器學習自主地生成具備一定價值的內容。目前,為公眾所熟知的ChatGPT 便是一種典型的生成式人工智能,它可以對文本等內容進行分析,并據此生成學術論文、文學作品、新聞稿件等材料,極大地提升了工作效率。OpenAI 公司的ChatGPT 一經問世便吸引了全球目光,并迅速成為人工智能領域的新寵。與此同時,各大科技公司也紛紛跟進,積極研發能夠與ChatGPT 競爭的產品,例如百度公司的文心一言、谷歌公司的Bard 等產品??梢灶A見,這類生成式人工智能在未來必將成為新的產業熱點。隨著ChatGPT 等生成式人工智能的蓬勃發展,這類技術所伴生的問題也逐漸浮出水面,數據泄露、算法歧視、虛假信息、思想陷阱等問題開始顯現。⑥參見於興中、鄭戈、丁曉東:《生成式人工智能與法律的六大議題:以ChatGPT 為例》,載《中國法律評論》2023 年第2 期。由于當下人工智能的規制主要針對的是傳統人工智能,此時制度秩序與技術發展之間產生了脫節,人們在使用ChatGPT 等生成式人工智能時隨時面臨技術“反噬”的風險。
當前,多數國家已經意識到ChatGPT 等生成式人工智能背后潛藏的風險,嘗試對其進行規制。從現有規制路徑來看,大多以隱私安全或知識產權為視角,從算法規制與數據監管兩方面入手對人工智能進行監管。⑦參見本報記者:《涉嫌侵犯隱私,意大利禁用ChatGPT》,載《南國早報》2023 年4 月3 日,第10 版。但是,與傳統人工智能不同,ChatGPT 等生成式人工智能的風險并非僅限于算法或數據本身,還涉及到用于訓練的基礎數據以及生成的內容等多個方面。而且,多數生成式人工智能并非針對特定的環境或使用條件而設計,它們的開放性和低門檻性使其得以被大規模使用,其所蘊含的風險呈幾何式擴張,有時甚至直接關涉國家安全。這類基于個人安全或產業安全而形成的“算法+數據”雙重規制路徑或許與生成式人工智能的監管需求不相匹配。
與此同時,我國對于ChatGPT 等生成式人工智能的規制也進行了有益嘗試。國家網信辦在2023 年4月發布《生成式人工智能服務管理辦法(征求意見稿)》(以下簡稱《征求意見稿》),開始探索建立生成式人工智能的監管體系。需要注意的是,從《征求意見稿》文本來看,這種規制仍未擺脫基于個人安全或產業安全而形成的“算法+數據”雙重規制的基本框架。實際上,ChatGPT 等生成式人工智能的出現已經引發了新一輪的技術革新,未來將會改寫全球產業格局,重構各國科技競爭版圖。早在2016 年,美國國家科技委員會(NSTC)便牽頭起草并發布了《為人工智能的未來做好準備》《國家人工智能研究與發展戰略計劃》等重要報告,將人工智能的發展上升到國家競爭層面。⑧參見荊林波、楊征宇:《聊天機器人(ChatGPT)的溯源及展望》,載《財經智庫》2023 年第1 期。筆者認為,國家安全是個人安全與產業安全的前提,在討論生成式人工智能的規制路徑時,應當跳出個人安全或產業安全的固有思維,重點從國家安全的角度平衡發展和治理問題。按照《征求意見稿》的定義,生成式人工智能含義較廣,遍及文本、圖片、音頻、視頻、代碼等諸多領域,涉及到ChatGPT、Stable Diffusion、Synthesia、MusicLM 等相關產品。相較于其他生成式人工智能大多應用于專業領域,ChatGPT 以其適用的廣泛性與低門檻性而備受矚目。有鑒于此,筆者嘗試以ChatGPT 為視角拋磚引玉,從歷史、技術、風險等多個向度,厘清生成式人工智能的基本特征,并對其可能帶來的國家安全風險進行系統全面剖析,重點從國家安全的角度探索生成式人工智能的法治應對策略,以期為后續政策制定提供有益參考。
ChatGPT 的發展并非是一蹴而就的,而是經歷了數個階段的發展歷程。自然語言處理是人工智能領域的一個重要組成部分,包括語音識別、網絡搜索、自動問答和機器翻譯等多個應用場景。無論是何種場景,考慮到語言本身充滿歧義,且依賴于語境與交談人的背景,如何理解和使用自然語言成為當時人工智能發展面臨的一項重要挑戰。在最初的幾十年間,自然語言處理的相關研究主要集中在符號化與規則化等方面,即給定語法和其他語言規則,要求機器將這些規則運用到用戶輸入的語句上,達到機器能夠“讀懂”語言的效果。從成效來看,這些方法在效果上并不盡如人意。一方面,規則和語法的輸入難以解決語言中的情感傾向、背景知識等問題。另一方面,傳統的自然語言處理模型采用一種記住已閱讀上文的同時,理解正在閱讀的下文的方式來進行語言讀取,亦即要求機器通過每一個單詞的讀取和反饋來提取總結整個句子的含義。這種方式使得在處理較長句子時無法獲取單詞或短語之間的語義關系,難以捕獲長句的重點。盡管OpenAI 公司在2016 年便提出制造“通用”機器人的構想,但實際上并未取得實質性的進展。⑨參見網易科技:《OpenAI 宣稱將制造“通用”機器人》,https://www.163.com/tech/article/BQ2HQGHC00097U81.html,2023 年3 月21 日訪問。2017 年谷歌公司推出了Transformer 訓練模型才使得該構想成為可能。不同于以往的自然語言處理模型,Transformer 引入了自我注意機制(self-Attention)使得機器在閱讀過程中能夠進行并行化運算,擺脫了以往“斷章取義”的尷尬境況。
在Transformer 模型基礎上,2018 年OpenAI 公司推出了GPT-1。該產品主要在算法設計思路上有所創新。在GPT-1 之前,傳統的自然語言處理模型通常采取有監督學習的方式,但是這種學習模式存在兩個缺點。其一,需要大量高質量的標注數據,而實際上這類優質的標注數據往往難以獲取,且耗費成本較大。其二,任務方向偏重專業化,難以推廣至其他相關領域。GPT-1 則采取了一種類似半監督學習的方式,利用多層神經網絡技術,通過在大規模無標注數據上進行預訓練,形成生成式自然語言處理模型,然后再根據特定任務對其進行微調。⑩參見林懿倫、戴星原、李力、王曉、王飛躍:《人工智能研究的新前線:生成式對抗網絡》,載《自動化學報》2018 年第5 期。在這種模式下,僅需要技術人員的微調而非對數據進行逐個標注,就能實現語言訓練的效果,極大提升了學習效率。不過,此時的GPT-1 尚不成熟,其處理能力與有微調的有監督學習相比并未取得明顯優勢。
2019 年,OpenAI 公司推出了GPT-2,目標在于訓練一個適用任務范圍更為廣泛的模型。GPT-2 并沒有對GPT-1 的進行更多“革命性”的結構創新,只是使用了更多的參數和更大的數據集。?參見鄧莎莎、李鎮宇、潘煜:《ChatGPT 和AI 生成內容:科學研究應該采用還是抵制》,載《上海管理科學》2023 年第2 期。GPT-2 更多強調通過無監督學習的預訓練模型,完成有監督的任務。換言之,研發者認為所有的有監督學習都是無監督語言模型的一個子集,當一個語言模型的容量足夠大時,它就足以覆蓋所有的有監督任務。在海量數據集的加持下,GPT-2 確實比GPT-1 表現的更為出色,甚至可以生成虛假新聞、釣魚郵件或用于在線角色扮演。?參見荊林波、楊征宇:《聊天機器人(ChatGPT)的溯源及展望》,載《財經智庫》2023 年第1 期。2020 年,OpenAI 公司又推出了GPT-3,其以搶眼的表現成功吸引了人工智能產業界的關注。GPT-3 與GPT-2 的架構基本一致,但是在參數、文本長度方面都有了顯著提升,其中參數高達1750 億。同時,在機器自主學習的基礎上,加入人工因素來監督機器學習。即在機器給出結果后,由訓練人員對結果做出評價并展開優化,使之更貼合對話內容。在數據、算法雙重加持下,GPT-3 在各種測試中表現優異,已經可以完成絕大部分自然語言處理任務。?Brown,et al.Language models are few-shot learners,Advances in neural information processing systems,2020,33。2021 年,OpenAI 公司又推出了GPT-3.5 作為GPT-3 的升級版本,其在模型大小、語言理解和生成能力等方面都有了較大提升,2022 年OpenAI 公司基于該模型發布了ChatGPT。不過需要注意的是,GPT-3.5 與GPT-3 并無代際差距,更多是為了未來更為先進的GPT-X進行預熱。2023 年,OpenAI 公司又繼續推出了GPT-4。雖然OpenAI 公司未再透露詳盡的技術細節,只是簡單描述GPT-4 模型與GPT 系列模型一致,使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。但是,OpenAI 公司也提到了幾個關鍵的改進,如智能程度大幅躍遷可以接受圖片輸入,看圖能力更強;輸入文本更長,可以處理文字長度顯著增加;等等。?參見OpenAI 公司:https://openai.com/product/gpt-4,2023 年3 月23 日訪問。可以想見,雖然GPT-4 不會擺脫既有GPT 系列模型框架,但是未來一定會在理解力、可靠性方面有著更為杰出的表現。
第一,訓練數據日趨龐大。數據是所有人工智能生發的基本“養料”,只有大量地投喂基礎數據,才能有效訓練人工智能并及時予以監督,以期不斷增進其生成能力。一般而言,數據量的多寡與生成內容的精準性成正比。前文述及,根據OpenAI 公司公布的數據,GPT-3 使用了1750 億的參數量,只有依靠這種愈發龐大的基礎數據才能使生成式人工智能“見多識廣”,更好地提升自身精準度。
第二,訓練模式發生變革。傳統的自然語言處理模型需要對數據進行大規模、高質量的標注,才能使機器了解詞語的大概含義。而這種訓練成本過高,且生成內容效果不佳。而ChatGPT 引入了RLHF(從人類反饋中強化學習),該方法通過在大數據預訓練下加強人類反饋,通過微調使得結果更具效率和針對性,使得ChatGPT 生成內容的范圍、有效性和準確度都有了大幅提升。?參見蔣華林:《人工智能聊天機器人對科研成果與人才評價的影響研究——基于ChatGPT、Microsoft Bing 視角分析》,載《重慶大學學報(社會科學版)》2023 年第2 期。詳言之,一方面,在初始情況下,它不需要任何人工標注的數據,而是通過對海量數據進行預測語言規則和模式來進行自我學習。另一方面,在自我學習的過程中,訓練人員會對ChatGPT 生成的回答進行評估和反饋,針對具體回答進行微調,以幫助模型進行強化學習和不斷優化。通過這種方式,ChatGPT 能夠逐步學習到人類習慣的語言表達方式,從而生成更加符合人類期望的回答。當然,“投喂”數據的質量基本依靠研發者和相關技術人員把關。換言之,ChatGPT“三觀”嚴重依賴研發者的形塑。而這種模式也帶來了一些隱藏風險,只要任何一個環節發生問題,都會使得生成內容出現不可控性。
通過對ChatGPT 的歷史回溯以及其基本特征的梳理不難發現,這類技術本質上是以海量數據為基礎,依賴相關算法得出運算結果,在基礎模型方面并不具備較多的創新性。但是,基于這種組合出現的產品卻降低了部分技術的使用門檻,一些技術不再是專業人員的禁臠,而為一般公眾所掌握。?參見張凌寒:《深度合成治理的邏輯更新與體系迭代——ChatGPT 等生成型人工智能治理的中國路徑》,載《法律科學》2023年第3 期。ChatGPT 等生成式人工智能將在公共管理、教育、司法、醫療、工業生產等眾多領域大有作為。就ChatGPT 的具體適用來看,其在私領域,可以輔助公眾進行文本寫作,在法律方面則可以為弱勢群體提供法律幫助,實現普惠司法。在公領域,其可以為公眾提供一般政府服務,具體到在法律層面,則可以促進司法機關智慧司法建設,輔助法官從事司法審判工作。同時,這種適用的廣泛性以及使用主體的非特定性,加之其可能帶來的不良影響,加深了公眾對ChatGPT 等生成式人工智能的使用憂慮,其內生的國家安全風險較為突出。
1.強人機交互加大政治安全風險
強人機交互性是ChatGPT 等生成式人工智能的顯著特征,意指用戶使用ChatGPT 等生成式人工智能的過程,同時也是人工智能自身不斷學習的過程。在ChatGPT 等生成式人工智能與用戶對話的過程中,會按照用戶的習慣來改進生成內容的質量,以便能夠更好地滿足用戶的使用習慣。換言之,ChatGPT 等生成式人工智能會根據用戶提出的要求來修正自己的運算結果,這在某種程度上使得每一名用戶都成為潛在的人工智能學習訓練人員。在使用ChatGPT 的過程中,如果用戶故意向ChatGPT“投喂”虛假、有害的信息,那么之后其他用戶在使用ChatGPT 獲取相關內容時,也會受到之前虛假、有害信息的影響。例如,如果有足夠數量的用戶在短時間內向ChatGPT 輸入“魯智深去西天取經”的虛假信息,那么ChatGPT 便會自行修正之前的正確答案,為之后的用戶生成“去西天取經的人是魯智深”這類虛假內容。
設若將類似的場景遷移至政治領域,那么后果將不堪設想。可以預見,在未來國家之間的競爭中,如果將ChatGPT 等生成式人工智能作為輿論工具,通過數據投毒的方式,生成包含“惡意”的內容,那么其帶來的危害將難以估量。實際上,這一預想正在逐漸轉化為現實。國內部分用戶將涉政治類信息輸入ChatGPT 后,發現其生成的內容以美國價值觀為導向,極力維護美國自身利益。如在如何看待朝鮮戰爭的問題上,ChatGPT 生成的內容便是褒揚美軍的行為,而對志愿軍持否定意見。?參見網易新聞:《國內不能用ChatGPT 是因為它危害國家安全???還真是!!》,https://www.163.com/dy/article/HT586OJV05434Z5U.html,2023 年3 月21 日訪問。從這一點來看,如果不對其進行嚴格監管,必將導致大量有毒信息出現,控制輿論導向,甚至影響公共決策。
2.人工智能對抗引發軍事安全憂慮
如前所述,世界范圍內的第四次工業革命發生在人工智能領域,與視覺識別、無人駕駛相比,可以多場景運用的生成式人工智能有著更加明朗的應用前景。未來各國無疑會將生成式人工智能作為軍事、經濟、教育等重要應用領域的關鍵,生成式人工智能的研發與應用程度必將成為衡量國家綜合實力的關鍵指標。一方面,發達國家希望捍衛自身的技術優勢,另一方面發展中國家則期望通過加緊開發生成式人工智能來實現彎道超車。這種國家之間的競爭態勢將進一步改變全球各個國家的強弱格局,觸發人工智能領域的軍事競爭。從經濟理性角度來看,各國為占據競爭優勢,可能會忽視其可能帶來的法律政策、科技倫理等問題,徑行將ChatGPT 等生成式人工智能用于情報戰與信息戰。而且,傳統人工智能本身就蘊含侵犯公民隱私等風險,在“生存性焦慮”被放大為“生存性威脅”的當下,這些固有風險將呈指數級增長。?參見張紀騰:《新局與危局:人工智能的國家安全問題思辨》,載《信息安全與通信保密》2021 年第5 期。甚至在未來,生成式人工智能或將被嵌入到無人機、自動制導或者其他戰略決策性武器之中,被創造成全新的“智能應答型武器”,進一步改變戰爭樣態,加劇地區安全風險。?The National Security Commission on Artificial Intelligence,AI's Final Report,https://digital.library.unt.edu/ark:/67531/metadc1851188/.
3.依靠海量數據訓練增加數據安全風險
數據安全風險同樣也是ChatGPT 等生成式人工智能技術不得不面對的問題。數據安全不僅與每一位公民切身利益相關,影響公民的幸福感與獲得感,更與國家安全息息相關。前文述及,ChatGPT 等生成式人工智能的學習需要依靠海量數據支撐,以此才能實現自身的不斷優化。尤其是,ChatGPT 等生成式人工智能具備強人機交互性,用戶的使用過程同時也是人工智能對數據的收集過程。傳統人工智能在用戶使用之前,雖然同樣需要使用大量數據,但是由于其多為“量身定做”,所以通常明確要求用戶需放棄一部分自身數據權利,在用戶同意放棄的基礎上,收集其聊天記錄、賬戶信息、上網記錄等信息,再通過數據聚合分析技術生成用戶畫像。但是,ChatGPT 等生成式人工智能更多的是在無形中收集有關數據,因為用戶的使用過程本身就是向其提供數據的過程。在數據采集范圍方面,與傳統人工智能必須獲得許可采集數據不同,生成式人工智能大都采取“原則+例外”的方式進行采集。即默認用戶同意在使用過程中采集相關數據,如果存在異議,需要單獨向有關機構申明。如根據OpenAI 公司的隱私政策,用戶在使用ChatGPT時,會被采集有關用戶訪問、使用或互動的信息,ChatGPT 會使用每個客戶的一小部分數據樣本來提高模型性能,用戶若不希望數據用于提高性能,需要單獨通過郵件向OpenAI 公司發送申請。?參見陳兵、林思宇:《如何看待ChatGPT 爆火背后潛在的法律風險》,https://www.yicai.com/news/101681506.html,2023 年3 月23日訪問。在這種情形下,數據安全泄漏的風險急劇增加。例如,向ChatGPT 詢問一道高考題目的解法,就有可能向其暴露了國籍、年齡等信息;要求ChatGPT 寫一篇論文的摘要,就可能暴露所學專業、工作單位等信息。而且,這些都是無須許可,在用戶尚未覺察之際已經完成數據采集。隨著未來ChatGPT 等生成式人工智能用戶數量的暴增,其采集和存儲的用戶數據將變得非常龐大,國家安全風險劇增。具體而言,一方面,數據跨境流動監管失序。如在使用ChatGPT 等生成式人工智能過程中,可以規避所在國數據監管機制,實現無限制的數據自由跨境移動。另一方面,泄漏國家重要數據。重要國家安全領域的相關人員使用ChatGPT 等生成式人工智能,可能將直接泄漏國家安全信息。
4.高度語料依賴性帶來文化安全危機
人工智能大多依賴基礎數據進行訓練,所以本身存在數據偏見的問題。所謂數據偏見,意指生成式人工智能所使用的基礎數據不客觀、不完整的問題,這將嚴重影響數據分析質量。?William S.Isaac,Hope,Hype,and Fear: The Promise and Potential Pitfalls of Artificial Intelligence in Criminal Justice,Ohio State Journal of Criminal Law,vol.15,No.2,2018,p553。如果將人工智能的運算過程看作“烹飪”,那么向人工智能提供的基礎數據就是“食材”,掌握客觀的基礎數據后才能烹飪出“色香味俱全”的結果。?參見王立、楊令一:《大數據背景下預測性警務的實踐樣態與風險規制》,載《警學研究》2022 年第5 期。但是,如果基礎數據本身就存在偏見,那么系統運行的結果也必然是歧視性的。如在基礎數據提供上,將某些種族、某些膚色或者有過某些經歷、較低學歷者等打上犯罪高發人群的標簽,那么即使算法中立,最終的運算結果也是充滿偏見的。“將貧困、家庭狀況、種族或民族、社會經濟地位等維度輸入進去……從這個角度說,犯罪人預測是顯失公平正義的,他們被預測是危險的‘犯罪人’并據此受到懲罰,不是因為他們做過什么,而是因為他們是誰、他們的家庭怎么樣以及他們的口袋里有多少錢?!?Sonja Starr,The Odds of Justice:Actuarial Risk Prediction and the Criminal Justice System,CHANCE,2016,29(1),p49-51.以偏見數據為基礎得到的結果,必然生成存在偏見的內容。
事實上,生成式人工智能在數據偏見上存在的問題較之以往可能更為突出。雖然傳統人工智能的發展也依賴于對數據的占有,但是生成式人工智能所占有的數據較之以往呈現出幾何級增長。?數據來源于騰訊《AIGC 發展報告 2023》。如果基礎數據存在問題,那么即使依據適當的算法也可能會生成有害或者有偏見的內容,尤其是這種算法偏見產生的負面影響會隨著技術的廣泛運用而不斷擴大。譬如,ChatGPT 給予的答復中存在性別歧視和種族歧視的問題,可能會誤導使用者將具有歧視性的回答視為“正確答案”而作出錯誤的決斷,進而對社會認知和倫理產生負面影響,甚至沖擊國家主流價值與文化。?同前注?。特別是在對基礎數據篩選的過程中,由于中西文化的根源及演進路徑不同,研發者可能會對體現西方立場的觀點和數據持肯定態度,而忽視來自其他不同立場的數據,這種源自于研發者的數據偏見會在生成式人工智能的加持下進一步擴張。尤其是,當這種歧視性觀點延伸至意識形態領域,那么這些蘊含西方意識形態的內容將通過隱性的方式傳播,使得我國原本的意識形態防范機制失效,對國家安全所帶來的危害后果將是難以估量的。?參見鐘祥銘、方興東、顧燁燁:《ChatGPT 的治理挑戰與對策研究——智能傳播的“科林格里奇困境”與突破路徑》,載《傳媒觀察》2023 年第3 期。
1.域外規制經驗
《歐盟人工智能法案》(Artificial Intelligence Act)設計了一種基于風險的分級規制模式,將人工智能分為禁止、高風險、中風險、低風險等類型,分別采取不同的數據與算法的規制方式。?參見曾雄、梁正、張輝:《歐盟人工智能的規制路徑及其對我國的啟示——以〈人工智能法案〉為分析對象》,載《電子政務》2022 年第9 期。在算法方面,該法案強化了透明度要求和問責機制,要求人工智能的研發者和使用者必須提供具備透明性與可解釋性的算法,一旦出現問題,相關人員應當承擔責任。在數據方面,該法案則再次重申了數據的隱私保護理念,對數據獲取、數據控制、數據安全和數據刪除等問題都做了較為細致的要求。
與之相應,近年來美國對人工智能的監管也采取較為積極的態勢。從旨在保護個人數據和限制監控的《人工智能權利法案》(AI Bill of Rights)到《平臺問責制和透明度法案》(Platform Accountability and Transparency Act),再到美國商務部下屬國家電信與信息管理局(NTIA)《人工智能問責政策征求意見》(AI Accountability Policy Request for Comment),不難發現美國與歐盟似乎在此問題的認識正在逐步趨同。?同前注?。特別是美歐貿易和技術委員會(TTC)成立以來,這種監管政策同標的情形日益明顯。
不過,前述模式在治理生成式人工智能方面的問題也較為突出。以《歐盟人工智能法案》為例,該法案過于倚重企業自治,強調對個人安全與行業安全的保障,缺乏從國家層面開展的外部監管。?同前注?。再如,該法案采取“數據+算法”雙重規制模式,忽視對兩者交叉領域的監管以及對生成內容的監管。
2.我國生成式人工智能規制現狀
早在2017 年,國務院便發布《新一代人工智能發展規劃》,明確了我國人工智能發展的基本框架。其后,為了應對人工智能帶來的治理難題,我國在2022 年出臺了《互聯網信息服務算法推薦管理規定》(以下簡稱《算法推薦規定》)《互聯網信息服務深度合成管理規定》(以下簡稱《深度合成規定》)等規定,通過對算法推薦以及深度合成技術的治理,嘗試對類生成式人工智能進行規制。就現有規制路徑而言,大都未能超脫以往算法規制的范疇。
2023 年《征求意見稿》對生成式人工智能服務提供者延續了此前《算法推薦規定》《深度合成規定》對算法推薦服務提供者以及深度合成服務提供者相類似的監管態度。與《歐盟人工智能法案》確立的分級管理不同,《征求意見稿》更多強調不區分具體應用場景,采取統一規制模式。雖然從文本來看,《征求意見稿》開始關切生成式人工智能的生成內容問題,但是仍未脫離“數據+算法”雙重規制模式,其重點依然聚焦于個人安全與行業安全的保障。然而,對于ChatGPT 等生成式人工智能而言,單純“數據+算法”的雙重規制模式忽視了數據與算法相互交融的階段。而且,單純從個人安全或行業安全角度進行規范未免較為狹窄。尤其是,在這種理念影響下,對于人工智能的監管由國家網信部門牽頭,缺乏系統性與體系性,應當從總體國家安全觀出發開展頂層設計,營造一個良好的人工智能發展環境。當然,安全與發展應當相協調,未來應當確立的是一種多元包容的生成式人工智能規制模式,既要滿足自身經濟發展需要,又要兼顧國家安全保障要求。?參見李曉楠、宋陽:《國家安全視域下數據出境審查規則研究》,載《情報雜志》2021 年第10 期。
我國高度重視人工智能發展,早在2017 年便明確提出“到2030 年,人工智能理論、技術與應用總體達到世界領先水平,成為世界主要人工智能創新中心”的發展目標,這充分表明了我國希望通過發展本國人工智能科技來提升國家綜合實力,實現中華民族偉大復興的美好愿景。?參見徐璐、朱炳元:《人工智能的馬克思主義分析和解讀》,載《廣西社會科學》2022 年第11 期。但從整個行業來看,目前我國人工智能發展主要集中在應用場域,在底層架構上并未有太多創新點出現。尤其是在生成式人工智能領域,國內百度、騰訊、科大訊飛等科技公司都跟風研發對標ChatGPT 的人工智能產品。但是無論是現在生成式人工智能最常用的各種訓練算法,還是 Transformer 等重要模型,不少都是出自于國外的研發團隊(尤其是大企業團隊),對比之下,我國在這些核心技術領域的貢獻則較少。?參見陳永偉:《超越ChatGPT:生成式AI 的機遇、風險與挑戰》,載《山東大學學報(哲學社會科學版)》2023 年第3 期。雖然所有的這些算法和架構都已作了開源化,可以供全世界研發者使用,但如果國際形勢發生變化,不難想象如今中國半導體行業所遭遇的“卡脖子”困境會再次出現。?參見武延軍:《開源軟件供應鏈重大基礎設施建設勢在必行》,載《中國科學報》2021 年5 月6 日,第3 版。而且,自微軟注資OpenAI 后,最新的技術已經不再進行開源共享,這就為我們敲響了警鐘。從整體國家安全戰略來看,如果我國在生成式人工智能領域缺乏核心技術資源,將難以應對國際競爭。如果防范國外技術壟斷是對未來風險的未雨綢繆,那么當下更加緊迫的問題是,避免陷入路徑依賴,力爭在生成式人工智能領域實現彎道超車。?參見黃蕊、徐倩、趙意:《“人工智能+”模式下我國傳統產業的效率鎖定與解鎖——基于路徑依賴理論視域》,載《經濟問題》2020 年第2 期。為此,可以從以下兩個維度予以完善:
第一,構建生成式人工智能研發許可制度,限定研發機構資格。應當避免在科技領域的各自為戰,擺脫注重短期激勵驅動的追趕模式,充分發揮我們的制度優勢,集中力量辦大事,許可部分有能力、可信賴的企業開展生成式人工智能的研發。同時,這種限制也可以確保監管質量,避免出現蜂擁而上、監管失序的情形。
第二,建立正向激勵機制,聚焦人工智能領域知識產權保護。對于人工智能發展而言,最急迫、最為有效的便是知識產權保護,因為保護知識產權就意味著保護創新。?參見中共中國科學院黨組:《保護知識產權就是保護創新》,載《求是》2021 年第3 期。只有在完善的知識產權體系的保護下,才能更好地促進生成式人工智能領域的科技研發。但在人工智能技術蓬勃發展的態勢下,我國仍存在知識產權整體質量不佳等問題。?參見易繼明:《新時代中國特色知識產權發展之路》,載《政法論叢》2022 年第1 期。為此,應著力做到以下幾點:
首先,要加強知識產權保護工作頂層設計。加強關鍵領域自主知識產權創造和儲備,將生成式人工智能領域的產權保護作為國家重點工程予以高度重視。其次,要完善現行法律規范體系。完備的知識產權法律法規體系、高效的執法司法體系,是強化知識產權保護的重要保障。要在嚴格執行《民法典》相關規定的同時,加快完善相關法律法規,通過相關專門性法律的修訂將生成式人工智能的相關產權保護問題納入到保護當中,構建完善的知識產權保護體系。?同上注。最后,維護知識產權領域國家安全。要加強事關國家安全的關鍵核心技術的自主研發和保護,依法管理涉及國家安全的知識產權對外轉讓行為。要完善知識產權反壟斷、公平競爭相關法律法規和政策措施,形成正當有力的制約手段。?參見習近平:《全面加強知識產權保護工作 激發創新活力推動構建新發展格局》,載《求是》2021 年第3 期。
在生成式人工智能的應用場域中,強人機交互特征使得生成式人工智能無時無刻不面臨著被信息投毒的風險,也進一步使國家時刻處于虛假信息傳播的風險當中。隨著人工智能的普及,生成式人工智能的用戶將呈現出爆炸性的增長趨勢。一種可行的規制路徑便是延續既有方式,打破目前存在的算法黑箱,對研發者的算法進行監管。自人工智能產生以來,算法黑箱便是一個不斷被提及的問題,而這次ChatGPT 等生成式人工智能更是將人們對這一問題的疑慮提到了一個新的高度。
所謂的算法黑箱是指在人工智能技術開發與應用過程中,用戶只能獲知運算結果,只有設計者本人才能知曉運算過程,雙方存在信息鴻溝。?參見[美]弗蘭克·帕斯奎爾:《黑箱社會:控制金錢和信息的數據法則》,趙亞見譯,中信出版社2015 年版,第6頁。換言之,由于算法黑箱的存在,用戶只能被動接受結果,但卻不知道結果是怎么產生的,這樣就使得用戶不易發現問題并對結果進行質疑和修正。由于算法具備極強的專業性,一般公眾難以對算法的正當性進行檢視。在某種意義上,算法應用的深入推廣無疑使得人類已經處于一個被“ 算法吞噬的世界”,不得不面臨算法黑箱帶來的算法歧視、算法偏見等問題。?B.Bodo et al.Tackling the Algorithmic Control Crisisthe Technical,Legal,and Ethical Challenges of Research into Algorithmic Agents,Yale Journal of Law and Technology,vol.19,no.1,2017,p136-138。研發者結合自身的經歷、主觀感知,在編寫算法的過程中會不可避免地融入自己的價值判斷或者偏好,這就使得算法偏見、算法歧視難以避免。?參見李訓虎:《刑事司法人工智能的包容性規制》,載《中國社會科學》2021 年第2 期。
在商業領域,研發者總是以商業秘密等理由拒絕公開算法,但是這些理由在國家安全面前都是不成立的。在國家利益面前,必須允許公權力為代表的國家機關對研發者的算法進行規制。?參見張凌寒:《算法規制的迭代與革新》,載《法學論壇》2019 年第2期。雖然《網絡安全法》《數據安全法》《算法推薦規定》以及《征求意見稿》都提到了算法規制,但是現有規范存在法律體系不統一、監管行政力量過于單薄的問題。筆者認為,為了從國家安全角度實現有效的算法規制,應當做到以下幾點:
其一,應當建立統一的人工智能算法規制法律體系。目前的法律雖然對算法問題有所提及,但是各個條文分散在不同法律當中,難免存在相互齟齬之處,無法形成制度合力。未來,應當制定專門的人工智能算法規制法律規范,對不同領域內人工智能的算法進行分級分類評估,然后按照成文法予以規范,要求行政部門按照法律對可能危害國家安全的算法予以監管評估,并有權要求平臺修正。?參見丁曉東:《論算法的法律規制》,載《中國社會科學》2020 年第12 期。其二,應當建立人工智能專責機關?,F有生成式人工智能的監管主體是網信部門,但是僅僅依靠網信部門力量難免會力有不逮。應當確立“一主多輔”的架構,吸納公安機關、市場監督管理機關、國家安全機關等部門參與到算法規制當中。將網信部門作為算法規制的牽頭部門,啟動進行各個領域內人工智能的算法規制。而各個行政監管機關也應當主動履行算法監管與規制的責任,在算法的設計、使用、反饋等關鍵環節,都要深度參與,對算法中可能影響國家安全的部分提前予以修正或刪除,防范虛假政治信息的傳播風險。此外,監管部門也應當充分利用行政手段或刑事手段,對拒不配合或不主動配合公開算法且可能危害公共安全的機構和個人予以嚴厲處罰,以最大程度地確保研發者在可能危害國家安全的情況下主動公開算法,接受政府監督。更為重要的是,未來待時機成熟,應當建立專門人工智能監管機構專事人工智能算法監管。其三,明確算法審查標準。對于算法的公開程度應當采取相對審慎的態度。以《征求意見稿》第17 條提供“必要信息”為例,當前公眾對生成式人工智能算法的憂懼大多源于無法探知機器學習的深層邏輯。無論研發者主動公開還是強制公開,其作用都非常有限,一味強調透明度要求,可能導致對知識產權保護的失衡。在此情況下,應當以算法一致性作為標準。即算法備案后,研發者應當保障備案算法與后續算法存在一致性,如有變化,應當及時告知有關部門。?參見劉東亮:《技術性正當程序:人工智能時代程序法和算法的雙重變奏》,載《比較法研究》2020 年第5 期。
首先,應當明確設置獨立、專門的數據監管機構,以使其能夠有效實施數據監管行為。目前我國《數據安全法》與《網絡安全法》均規定,國家網信部門對數據安全工作進行統籌協調。但是在實務中,許多數據來自金融、公共衛生領域,需要具有較高的專業知識才能進行識別和管控,由于網信部門工作人員缺乏這些專業知識,所以監管效果不佳?,F階段,可以考慮依托國家數據局進行統一監管。待未來條件許可,由前文提及的專門人工智能監管機構同時負責數據與算法的監管工作,避免出現相互掣肘的情形。
其次,建立完善的數據安全審查標準。在啟動方式上,可以采用有權機關依職權主動啟動審查與生成式人工智能研發者依申請被動啟動審查兩種方式,這樣能夠使啟動方式更加靈活,便于管理。另外,數據安全審查的啟動標準應當與數據安全審查標準相區分,啟動標準應當較審查標準更加寬松,采取“寬進嚴出”的方式。這樣在審查的啟動上,可以盡可能地將數據流轉、采集行為納入審查范圍,只要認為“有可能”侵犯國家安全便可以啟動審查程序。但在具體審查程序中,必須嚴格按照法律提前設定的標準如敏感信息種類、規模等進行審查,不得籠統地使用“有可能損害”的標準規制數據流通,減損數據自身價值。
最后,應當進一步重視完善數據監管行政處罰體系。在設計數據監管行政處罰體系時,應當嚴格遵循比例原則,明確行政處罰本身不是目的,減少使用刑罰工具,引導生成式人工智能研發者在數據處理中進行合規改造,更好地投入經濟生產才是最終目的。為了規范生成式人工智能研發者的數據處理行為,可以對主動申請數據審查的生成式人工智能研發者與被動接受審查的研發者予以不同對待,比如主動申請數據審查,如果被查出問題便可以通過事后的合規整改來避免行政處罰結果,另外也可以在項目建設、招投標等方面對主動接受數據合規審查的研發者予以適當的政策傾斜,以此來引導研發者主動參與其中。
由于生成式人工智能對海量數據的控制,在數據方面還會產生基礎數據存在偏見的問題。如果說數據泄露、重要數據跨境流動等屬于動態的風險,那么基礎數據訓練就是數據的靜態風險。如前所述,生成式人工智能的發展與傳統人工智能一樣依靠大規模的數據進行訓練,而且所需要的數據要遠遠超過傳統人工智能所需的數據規模,這也就導致了如果基礎數據出現問題,那么人工智能的輸出結果也會有問題。對于基礎數據的監管不宜采用之前的路徑交給行政部門履行國家義務,而應當結合公民私權利進行運作。其一,雖然基礎數據大多屬于公共領域,公權力機關能夠核實,但是逐一核實成本過于高昂,而公民因熟悉各自信息,方便行權。其二,基礎數據產生問題會導致輸出的結果產生爭議,該爭議在用戶使用的過程中最容易被發現,如果將規范的義務交給公權力機關可能產生監管不及時的問題。生成式人工智能需要算法和基礎數據相結合才能生成結果,對于用戶而言,也許對算法這樣“高深”的專業領域并不了解,無法提出意見,但對基礎數據這種常識水平的內容完全有能力進行討論與修正。
當然,強調賦予公民權利也并非是毫無限制的,過度賦權有可能會阻礙生成式人工智能的發展。所以必須尋找公民權利與人工智能發展的一個平衡點。筆者認為應當將“以人民為中心”的理念貫徹到生成式人工智能發展的過程當中。具體而言,便是著重保障個人用戶的知悉權與更正權。生成式人工智能的用戶作為服務消費者,理應有知悉結果產生過程的權利。就像購買食品,消費者當然有權利知悉購買食品的配料成分表,這樣才能使用戶有信心使用自己所購買的產品或者服務。如果公民對于生成結果存有異議,就有權利對人工智能生成的結果發起挑戰,如果基礎數據確實有問題,就應當由用戶對有問題的基礎數據進行更正。可以說知悉權與更正權二者是相互聯系相互依存的。對于生成式人工智能來說,知悉過程是用戶行使其權利的基礎,也是信息主體充分行使信息權的前提條件,是信息主體尋求法律救濟的基礎性權利。?參見程雷:《大數據偵查的法律控制》,載《中國社會科學》2018 年第11 期。而更正權產生于知悉權之上,是由用戶個體來確保數據質量的重要機制,知悉過程后對有問題的基礎數據予以更正,為此方可保障生成內容的質量。