人工智能面臨的安全風險及治理之道

2025-04-13 00:00:00連世紅翟志勇

可持續發展經濟導刊 2025年3期

人工智能（artificial intelligence，AI）作為新一輪科技革命的核心驅動力，正在深刻改變全球經濟、社會和環境格局。然而，AI的快速發展也帶來了諸多安全風險，如何實現AI的可持續發展，成為全球關注的焦點。人工智能的可持續發展不僅關乎技術進步，更關乎人類社會的未來。只有加強人工智能治理，確保AI在安全、可靠、可信的軌道上運行，才能實現“以人為本，智能向善”的愿景。本文從AI的安全風險出發，探討其可持續發展的可能性與路徑。

一、現狀：AI安全監管日趨寬松

2025年初，初創企業杭州深度求索公司發布了大語言模型DeepSeek-R1，一經推出，便迅速登錄各大主流平臺，至2月1日，日活躍用戶數突破3000萬大關。DeepSeek憑借其在算法和工程領域的技術創新，擺脫了強算力依賴和高成本的困擾，短時間內躋身頂尖大模型行列。此外，DeepSeek于1月20日選擇開源，通過完全開源代碼和訓練方法，迅速成為全球AI開發者社區的核心資源，在HuggingFace上的下載量超過70萬次，衍生模型超670個，遠超OpenAI等閉源模型。人工智能發展進入了高性能、低成本、低門檻的新時代。

然而，在人工智能一路高歌猛進的時候，對人工智能安全的監管卻日趨寬松。2025年1月23日，美國總統特朗普簽署了關于《消除美國在人工智能領域領導地位的障礙》的行政命令，認為拜登時期的行政命令阻礙了人工智能創新，對人工智能的開發施加了繁重且不必要的政府控制，扼殺了私營部門的創新能力，因此撤銷了拜登的人工智能行政命令，以保持美國在人工智能領域的領先地位。與此同時，國際形勢也不容樂觀。此前一直將安全作為會議核心的人工智能安全峰會，在第三屆巴黎人工智能行動峰會中將核心悄悄轉向了發展，雖然聲稱要建立包容和可持續的人工智能，但是具體措施卻致力于推動人工智能的發展。

事實上，當前人工智能發展面臨著極為緊迫的安全問題。諾貝爾獎獲得者杰弗里·辛頓（Geoffrey Hinton）曾警告，未受約束的人工智能可能給人類帶來嚴重威脅。而當下關于人工智能安全的研究極為匱乏，只有識別人工智能發展過程中可能產生的安全風險，提前加以應對，才能真正實現人工智能的可持續發展。

二、挑戰：AI面臨最為緊迫的安全風險

就當下而言，人工智能發展面臨的最為緊迫的安全風險可分為AI幻覺的風險、濫用的風險以及存在性風險。

（一）AI幻覺的風險

生成式人工智能在人機交互中，有可能生成看似合理，但實則有悖常理的內容，即產生AI幻覺，也就是常說的“一本正經地胡說八道”。近日，人工智能公司Vectara發布了一份名為“幻覺排行榜”的報告，公布了104個大模型的應答率、幻覺率等數據。大模型的應答率基本能達到100%，而在這高應答率的背后，是人工智能在面對自己不熟悉的領域、超出自己知識范圍問題時的胡編亂造，從而導致幻覺產生。其中Gemini-2.0-Flash的幻覺率最低，為0.7%，DeepSeek-R1的幻覺率達到了14.3%，甚至有大模型的幻覺率高達近30%。

幻覺雖然并非按照人工智能的“主觀意愿”產生，但事實上卻已經給人類造成了困擾，制造了安全風險。最為明顯的危害在于人工智能幻覺提供的錯誤信息或者知識會誤導人類，干擾人類的判斷。2025年初，一則“截至2024年末，‘80后’死亡率突破5.2%，相當于每20個‘80后’中就有1人已經去世”的新聞在網絡中快速傳播。許多不明真相的文章便開始引用這一表述，渲染“80后”艱難的處境。但中國人民大學人口與健康學院的李婷教授表示，這一數據與事實嚴重不符，錯誤極有可能來源于大模型的回答，因為專業統計數據中的死亡率用千分率表示，而不是百分率，并且人口普查也不會專門針對特定群體的死亡率進行統計。除專業數據外，AI幻覺同樣出現在文獻、法條、案例檢索、娛樂、歷史等領域，在大模型做出回答之后，還需要重新進行人工檢索，以判斷人工智能生成內容的真偽，以防被誤導。

但更為嚴重的是，隨著越來越多的人使用大模型，其生成的內容也隨之增多，虛假和錯誤信息也會增加，網絡極有可能充斥著大量未經考證的消息或者知識。人類基于對人工智能的信任，習慣于直接使用大模型生成的內容，卻不會質疑內容的真實性和合理性，陷入對人工智能的依賴當中，其認知能力逐漸被削弱。而即使存在想要辨別人工智能生成內容真偽的人類，也有可能因網絡內容大部分由AI生成而無法得出結論。長此以往，人類會逐漸迷失在AI幻覺中，喪失質疑的精神和能力，陷入認知局限和思維固化的困境。

如果說上述AI幻覺帶來的風險仍停留在思想領域，尚未造成實際損害，那人工智能幻覺出現在醫療、自動駕駛等領域將是致命的存在。因為人工智能幻覺的本質是形成與事實不符的判斷，比如將人識別成物體。而在自動駕駛或者醫療領域，人工智能因幻覺而對路況、行人、交通信號、病人身體情況等做出與事實不符的錯誤判斷，將產生嚴重的安全隱患，危及生命財產安全，造成社會風險。

（二）濫用的風險

雖然人工智能本身會產生諸如幻覺等的安全風險，但人工智能更大的風險往往來源于用戶的濫用。2024年，全國網絡安全標準化技術委員會出臺了《人工智能安全治理框架》1.0版，描述了人工智能“濫用于網絡攻擊”“用于違法犯罪活動”“兩用物項和技術濫用”等風險，對人工智能的濫用風險予以高度關注。而在人工智能的濫用風險中，深度偽造可以說首當其沖。

深度偽造（deepfake）一詞源于2017年，當時一名名為“deepfakes”的用戶通過AI技術將色情影片中的女演員面部替換為美國女明星，引發了廣泛爭議和社會關注。時至今日，人工智能深度偽造已經成為了一項上手難度低，但引發危害極大的技術，當前網絡中充斥著大量使用AI合成的虛擬圖像和視頻，存在巨大的安全隱患。而深度偽造技術的使用并不局限于色情信息的生成和傳播，近年來，利用AI合成虛擬視頻，假冒名人進行詐騙、發布虛假廣告、直播帶貨的新聞也屢見不鮮，因而深度偽造技術也會帶來巨大的財產損失。更令人擔憂的是，深度偽造技術已經發展得較為成熟，生成的視頻更為自然，幾乎能達到以假亂真的地步，辨別真偽愈加不易。2024年初，一家跨國公司香港分部的職員受邀參加總部首席財務官發起的“多人視頻會議”，按照要求將2億港幣轉至指定賬戶，事后才發現，會議中除受害人外均為AI生成的虛擬視頻。而在會議過程中，虛擬人物與常人無異，并未被發現任何破綻。

深度偽造帶來的問題尚無法律規制，而與此同時，對人工智能生成內容的限制也越來越少，濫用人工智能生成色情、暴力等內容變得更為容易。2025年2月12日，OpenAI更新了其模型規范，相較于2024年5月的第一版模型規范，新版本的模型規范對于人工智能生成內容的限制減少，允許開發者和用戶在非惡意用途的情況下生成涉及色情與暴力的內容，禁止生成的內容也減少至僅剩涉及未成年人的色情內容。此外，X公司和Meta公司也宣布要進一步降低對生成內容的審核。人工智能監管的放松，使利用人工智能生成色情暴力內容更為簡單。

除利用人工智能生成色情暴力內容外，通過人工智能學習犯罪手段、方法、武器制造等的安全風險也在不斷上升。日前，一名海外博主發布了系列帖子，描述了他與Grok3的對話，博主僅提出了一個簡單的問題，而Grok3卻生成了一份詳細的化學武器制造方案，甚至包括應該從何處獲取制造原料。雖然事后xAI團隊表示已經緊急部署了新守則，限制Grok3生成危險信息，但濫用人工智能以制造武器的風險已然不可避免。

（三）存在性風險

實際上，上述兩種風險都已經被關注到，2025年兩會提案中有不少關于這兩種風險的提案，如“預防AI幻覺數據帶來的危害”“關于加強AI深度偽造欺詐管理的建議”等，但是人工智能的存在性風險卻一直以來被視為天方夜譚，未得到足夠的重視。首屆英國人工智能安全峰會關注到了未來強大的大模型對人類生存造成的嚴重威脅，第二屆首爾安全峰會則進一步承諾了為應對存在性風險，將制定具體的方案，但是在第三屆巴黎人工智能行動峰會中，前兩屆會議形成的共識被打破，對存在性風險的關注又開始降低。應對人工智能存在性風險的形勢不容樂觀。

存在性風險是指一種使地球上智能生命消失，或者永久、大幅削弱其潛力的不利后果。當下人工智能滅絕人類已經不再只是科幻小說中的場景，是人類真切需要面臨的安全風險。圖靈獎獲得者楊立昆預測，未來十年人工智能將飛速發展，AI領域有可能取得重大突破，通用人工智能將有可能被創造。而馬斯克曾多次警告，人工智能的發展速度遠超預期，并大膽預測到2030年，AI可能全面超越人類智力。他指出，一旦實現通用人工智能（artificial general intelligence，AGI），AI可能不再受人類控制，甚至對人類構成生存威脅。

人工智能失控，奪取人類社會控制權將成為存在性風險最極端的表現。人工智能在智能爆發的過程中，有可能發展出與人類不一致的目標，最極端的為消滅全部人類。加之人工智能當下已經出現了幻覺，說明人工智能具有欺騙的能力，即使發展出消滅人類的目標，也有可能先將其隱藏起來，并逐步實現這一目標。即使人工智能未直接發展出消滅人類的目標，也有可能因無法像人類一樣理解而失控。如要求人工智能建造更多的核反應堆，基于工具理性，人工智能將無止境地利用地球上的資源完成任務，如果在這一過程中失控，人工智能將耗盡地球中人類用以生存的全部資源。

即使不考慮上述失控的極端存在性風險，人工智能武器化也會給人類帶來致命的存在性風險。致命性自主武器（LAWS）當前已經被用于軍事戰場，人工智能可自主決定是否發起進攻，典型如STM Kargu-2無人機，能夠完全自主瞄準，通過面部識別來攻擊人類。將攻擊按鈕交到人工智能手中，無疑留下了巨大的安全隱患。此外，人工智能還可以與核武器、生化武器結合，擴大原有危害。如生化武器的使用通常會受制于客觀環境，因溫度升高、距離過遠等原因而無法傳播，但是人工智能的介入可以為生化武器的傳播選擇最優路徑，最小化客觀環境造成的阻礙。人工智能武器化使存在性風險發生的概率日漸升高。

三、建議：人工智能治理始終應當兼顧安全與發展

人工智能當下面臨著緊迫的安全風險，如果不加以治理，人工智能將有可能朝著“惡”的方向不斷發展。然而，歐盟與美國的人工智能治理政策均存在一定的偏向，歐盟一直以來強調對人工智能的嚴格監管，不利于人工智能創新，而不發展會帶來更大的不安全，錯失生產力變革的機遇；美國則堅持人工智能發展應當以市場為導向，對安全的關注程度較低，極有可能導致人工智能“脫軌”。無論是歐盟還是美國的人工智能治理政策，都無法實現人工智能的可持續發展。我國應當堅持走安全與發展并重的人工智能治理之路，始終堅持“以人為本，智能向善”。

一是推動針對人工智能安全風險共識的形成，尤其是對存在性風險共識的形成。人工智能治理首要面臨的問題是對風險的緊迫性認識不足，尚未形成有效的評估、分析以及應對方案，因此應當推動形成對人工智能安全風險的一致認識，積極展開相關研究。此外，科技公司等主體在人工智能治理中的重要性也不斷提升，也應當同時推動行業共識的形成，明確人工智能存在的安全風險，促進行業自律，兼顧安全與發展。

二是完善防止人工智能濫用的法律法規。我國出臺的《人工智能生成合成內容標識辦法》將于2025年9月1日施行，要求人工智能生成合成的內容應當添加顯式標識或者隱式標識，對于遏制人工智能濫用具有積極作用。此外，還應當繼續完善相關法律法規，進一步明確對生成內容的限制，在不妨礙人工智能創新的情況下確保安全，具體可以如制定事后干預機制，對于生成合成的危險信息及時刪除。

三是積極發展人工智能安全技術。人工智能作為一項顛覆性的技術，確保其在安全的軌道上運行，需要法律與技術的協同治理。目前，OpenAI前首席科學家Ilya Sutskever聯合創立了Safe Superintelligence，致力于開發安全的人工智能模型，專注人工智能安全技術的研究。我國也應當積極推動人工智能安全技術的發展，具體如加大在人工智能可信、可解釋、評估與測試等方面的投入力度，優化大語言模型，提升人工智能系統的可靠性，降低人工智能安全風險。

四是加強國際合作，樹立負責任的大國形象。人工智能風險作為全球性的風險，其治理需要各個國家共同努力。聯合國可繼續就人工智能可持續發展提出倡議，促進國際合作以及相關國際條約的簽署，并推動建立專門的人工智能安全監管機構。我國應當積極樹立負責任的大國形象，為人工智能治理提供中國方案。如推動構建人工智能科技倫理治理體系；引導國際人工智能安全標準與使用規則的制定；推動各國的交流合作以及資源共享等，確保人工智能在安全的軌道上發展。

作者：連世紅，北京航空航天大學法學院博士研究生；翟志勇，北京航空航天大學法學院教授、博士生導師，社會法研究中心主任，中國科協—北航科技組織與公共政策研究院副院長

編輯|王秋蓉" qiurong.wang@wtoguide.net