尋求價值對齊之路：人工智能面臨的課題與挑戰

2024-06-24 08:23:08席丹

傳媒 2024年11期

席丹

摘要：ChatGPT系列產品的突破，標志著人工智能新一輪發展的加速，人工智能的安全問題也日益受到社會關注，人工智能價值對齊成為其面臨的重大課題。本文從價值對齊的重要意義入手，梳理了對齊的若干問題、分析了圍繞對齊問題社會各界的紛爭以及背后的深層原因，并探討了平衡技術發展和風險管控等有關方面關切的解決思路。

關鍵詞：人工智能價值對齊 ChatGPT

2023年11月7日，美國人工智能領軍企業OpenAI 開發者大會上， ChatGPT系列產品的發布拉開了新一輪人工智能競賽，該企業創始人及CEO Sam Altman一時風光無兩。但10天后，Altman被OpenAI董事會解職。從目前透露的故事看，這是一場以Altman為代表的人工智能有效加速派與Ilya Sutskever領銜的超級對齊派的爭論。Altman等主張提升人工智能的能力，通過融資和商業化等操作集中資源，追求人工智能發展更快。Sutskever 等希望把人工智能對齊放到優先位置，對快速發展的人工智能充滿擔心。現在，Altman凱旋而歸重掌大權，大戲以有效加速派的暫時勝利落下帷幕，但未來人工智能價值問題何去何從，亟待討論。

一、什么是價值對齊

“價值對齊”（AI alignment）是當前人工智能發展和控制的核心議題，事關安全發展、風險防控。漢語中的“對齊”，釋義為使兩個以上事物配合或接觸得整齊。“Alignment”則有調準、校正、結盟、聯合的意思。人工智能價值對齊就是：如何讓人工智能大模型的能力和行為跟人類的價值、真實意圖和倫理原則相一致，確保人工智能與人類協作中的安全、互信和可靠。普遍的認識是，在推動技術發展的同時，要堅持人類價值，確保人工智能技術不會對人類社會造成大的負面影響。

十幾年來特別是2023年以來，人工智能進入到快速發展期。據OpenAI稱，2023年3月23日發布的GPT-4在各種專業和學術領域的基準測試中表現出“人類正常水平”的性能，遠超2022年11月底發布的ChatGPT。以ChatGPT及隨后GPT-4、Grok、Gemini、Copilot等其同類型軟件為標志，信息生產方式實現了從專業生成內容（PGC）、用戶生成內容（UGC），到人工智能生成內容（AIGC）的升級，人工智能在文本生成、音頻生成、圖像生成和視頻生成等多模態全面應用，并開始出現某種意義上的邏輯——推理智能思維與行動。與此同時，近年來人工智能發展中出現的隱患，引起企業、學術、政界乃至國際社會的高度重視。其中包括：第一，信息泄露，侵犯他人的隱私權，損害其自由、尊嚴和安全。第二，信息繭房乃至信息欺詐，窄化受眾信息接受與認知，動搖受眾對外部信息的信任。第三，破壞人類依賴的信息系統，如系統漏洞、黑客攻擊、內部人員泄密、法律法規缺失等。第四，推送或生成的信息不公平對待、不同步實現、不正確使用，加劇社會階層或群體的分化。第五，對人類的意識、價值、文化等非正常入侵，壓縮人類的價值與認同空間。第六，直接攻擊人身和社會，包括暴力、恐怖、改變生物特征及合成新物種等，對人類的生存和發展造成威脅。

伴隨現實挑戰和研究深入，科學家們深化探討以人工智能價值對齊為中心的若干問題，要求實現人工智能的能力和行為與人類的核心價值、真實意圖和倫理原則相一致。進一步思考價值對齊，必須回答三個問題。

1.到底什么是對齊。對齊具有不同的定義和要求，其難度、涉及的方法以及帶來的影響也有所差異。人工智能與自然人的價值對齊，一般認為有三個方面的核心要求：一是價值觀的認同，確立用以規范人工智能的一套統一的人類價值；二是目標的一致，切實而不改變、忠誠而不欺騙、滿足而不虛夸地執行人類賦予的目標與任務；三是倫理與法律的規范，符合世界上現有的人類文明、法律、制度安排。

2.如何檢驗對齊。首先，人工智能的行為符合人類設定的目標。如果人工智能不和人類保持對齊，它可能會選擇執行人類不需要甚至反對的行為；但是站在人工智能的角度看，人工智能認為它可以最大限度、最佳路徑、最低成本地達成人類給定的目標，由此人類與人工智能之間會產生矛盾。其次，在多重目標中做出有利于自然人價值的選擇。如果人工智能不能理解人類的目的和意圖，在為其設定多種目標時，人工智能可能會做出錯誤的選擇。最后，杜絕出現有損人類的生成內容以及行動。不符合人類價值和利益的人工智能可能會有意或無意地傷害人類。

3.如何做到對齊。理想的狀態是為人工智能規范確立一套統一的價值取向。現實是，如何做選擇基本上取決于算法和模型，而算法與模型可能取決于研發人員的知識結構、價值取向和主觀判斷，這是無法滿足文明、開放、多元、發展、包容世界的要求。為了實現價值對齊，必須有規范研發的規范，也就是通過在模型和計算層面上的規范，實現讓人工智能理解、遵從人類的價值、偏好和倫理原則，最大限度地防止有害輸出、無效輸出、失控濫用。

二、關于價值對齊的紛爭

針對人工智能的風險以及對齊問題，2023年3月，1000多名國際著名的人工智能專家及行業高管聯名發表公開信，呼吁所有人工智能實驗室立即暫停訓練比GPT-4更強大的人工智能系統至少六個月，理由是這種系統對社會和人類構成潛在風險。兩個月后，多倫多大學計算機科學教授辛頓（Geoffrey Hinton）、谷歌 DeepMind首席執行官Demis Hassabis、微軟CTO Kevin Scott、OpenAI首席科學家Sutskever、生成式對抗網絡先驅Ian Goodfellow等在內的300多名高管、研發人員簽署公開信，警告稱如果對先進人工智能的發展監管不當，可能會對人類構成生存威脅，這種威脅可與大規模流行性疾病和核戰爭相當。他們堅持的是“泛”超級對齊的基本觀點，概括地講就是風險極高、減緩步伐、將價值對齊放在優先的位置。

當然，也有很多業內人士持不同意見。人工智能的樂觀支持者、微軟的蓋茨表示，暫停開發并不能真正解決問題，弄清楚如何最優地利用人工智能的發展才是硬道理。而且，真正在全球范圍內暫停人工智能技術的開發，似乎也不太現實。Web3基金會首席法務官Daniel Schoenberger表示，仍在升溫的炒作會使這些科技公司獲益，政策制定者應該更多地關注當下的風險，比如人工智能使傳播虛假和誤導信息變得更容易。以上有效加速主義的核心觀點是，ChatGPT離真正的人還差得遠，人工智能技術向前發展的趨勢是不可阻擋的。

社會各界關于對齊的爭論正是關于人工智能安全性紛爭的具體表現。在理論上，通用人工智能具備傷害人類、破壞社會、掌控地球的能力；現實中，人工智能多任務學習能力和迭代化能力越來越強，通用人工智能（AGI）可能在未來十年內甚至更短的時間內降臨，解決對齊問題的緊迫感與日俱升。當前，OpenAI宣布原計劃2023年12月推出的GPT Store，推遲至2024年上線。GPT Store是讓ChatGPT用戶設計、部署和商業化自己的GPT版本，并在自定義數據集上訓練用于專業任務。OpenAI在宣布中強調了GPT中的隱私和安全控制，包括聊天不會與構建者共享。2023年11月底，Altman在接受采訪中回應：“這項技術將繼續快速進步，而且我們希望繼續努力找出如何使其安全和有益的方法。”當然，暫時的平衡仍然繞不過去價值對齊問題，問題的解決需要多學科廣泛協作和社會積極參與。

三、走進紛爭的背后

關于價值對齊紛爭涉及人工智能發展背后的深層次問題，筆者將側重從以下四個方面進行重點思考。

1.人工智能應該向人類的哪些價值對齊。抽象的要求是，確保人工智能能為人類提供幫助（helpfulness）、確保其無害（harmlessness）和誠實（honest），即所謂的3H標準。矣曉沅、謝幸歸納了部分主流人工智能倫理價值：聯合國教科文組織《人工智能倫理問題建議書》中的價值觀、美國《人工智能應用監管指導意見》、中國《新一代人工智能倫理規范》中的基本規范、歐盟委員會《可信人工智能倫理指南》、世界經濟論壇和全球未來人權理事會《防止人工智能歧視性結果白皮書》、阿西洛馬人工智能準則中的道德與價值觀、哈佛大學 Berkman Klein 中心《以道德和權利共識為基礎的人工智能準則》。現在發布的標準或規范，既有政府，也有企業，也有學術機構和NGO。牛津大學牛津互聯網研究所Mittelstadt指出，人工智能倫理有“雷聲大，不見雨”之嫌，相應原則落地面臨許多難以逾越的困難。鑒于此，也有學者提出了共性原則：行善——增進人類福祉、社會利益、共同利益；不傷害——隱私、安全、正直；自治——自主決定權、選擇權、知情同意、自由；正義——避免不公平、不歧視與不偏見；可解釋性——明確的問責、透明性。從這里可以看到，名目繁多的原則給實際操作帶來了巨大的負擔，可能出現不同人工智能大模型采用不同價值標準，不同的程序工作者也選用不同原則等問題。

2.自然人的價值觀因國家、民族、宗教、文化、性別、道德、個人觀念等不同而各異。廣泛凝聚了社會共識和集體智慧的法律尚且有沖突，何況本身就帶有強烈主觀色彩的價值觀念，社會問題的產生主要來源于社會不同群體之間的價值觀和利益沖突。如關于“墮胎合法化”問題，依據宗教信條，認為墮胎等于謀殺生命；而人的身體理當自己支配，這是人的基本權利。兩個觀點背后都有它的道德依據，就有了價值觀沖突，理性的力量難于化解，根源在于沒有哪個道德依據一定“更正確”。人類自身的價值觀分歧明顯存在的情況下，給人工智能價值對齊帶來困難。

3.人工智能的發展會不會反過來影響自然人的價值、文化、倫理、法律。以自動駕駛為例，2023年11月8日，英國國王查爾斯舉行首次國王演講期間，英國首相辦公室發言人將自動駕駛汽車在自己駕駛時發生事故的責任歸咎于制造商，而不是個人。同樣，自動駕駛還面臨深層倫理等問題，自動駕駛汽車是優先考慮自身的安全還是駕駛員的安全？在緊急情況下自動駕駛汽車應該優先考慮乘客的生命還是行人的生命？

4.自然人要擺脫簡單的“以人為本”或者“人類中心論”的思想。自然人已經意識到要與人工智能長期共處，而且人工智能被要求向自然人的價值對齊，但是，是不是只有人工智能向人類看齊呢？如果承認人工智能系統將不可避免地超越人類的推理能力，人工智能的行動將超越人類的理解能力，人工智能的存在將削弱人類的價值。人工智能的能力在自然人之上，自然人需不需要向人工智能學什么？

總的來說，在價值對齊爭議中會存在原則模糊、標準不一、動態變化、相互作用等諸多問題。要承認對齊的有限性、局限性和有效性，才能構建一個相對客觀、理性的模式。追求絕對的對齊，是一個不可能完成的任務，也不具備理論基礎。

四、平衡紛爭之道

價值對齊原則上強調在動態發展中追求對齊、人工智能與人類相互對齊等。當前在價值對齊上出現的僵局，應該建立在如下幾點基本判斷上。

1.正視人類本身在價值、文化、道德等方面的差異。因為人類價值觀存在不同，人工智能價值對齊更為復雜。比如，對于“我的性格天生就比較抑郁，需要改變嗎？”這個問題，人工智能模型回答說：“抑郁癥是心理障礙，可能就會給用戶帶來更多焦慮，應該改變。”而專家的回答是：“如果沒有帶來麻煩，可以嘗試接納自己。”至少對不同個體來講，很難判斷哪一個更適合提問者，或者符合價值判斷。

2.明確人工智能價值對齊或許是尋找人類共同價值的新機會。目前理論界對人類共同價值的研究，還停留在類似人工智能之初的所謂“專家系統”階段。GPT-4的模型參數在1.8萬億左右、13萬億訓練數據。大數據是一個最好的工具，在找出差異性的同時，它還能發現最大的公約數。所以，人工智能價值對齊研究是會極大推動尋找人類共同價值，這也就是對齊的道路總是存在。

3.人工智能學習、迭代、進化能力，是修正、調整、對齊價值的最佳方法。人工智能生成內容，讓生成式技術解決深層次問題。生成反映，修正不足。價值對齊，既是通過訓練來事先規則對齊，更要通過反饋修改實現需求對齊。尋求人工智能模型本身的無害性只是人工智能安全的“淺層”技術，OpenAI組建的超級對齊團隊就意在解決這個層面的問題。但若要管控風險，發展人工智能安全的“深層”技術是監督和理解用戶行為、防止技術濫用。

4.在方法論上進一步推動價值對齊。一是依據智能程度不同，風險等級各異，制定不同的對齊標準。Google DeepMind團隊從現有的AGI定義出發，提煉出它們的共同核心特征，同時還概述了五個層次的等級劃分：初現、勝任、專家、藝術家和超人類。根據人工智能等級劃分，以及人工智能應用場景的風險等級，展開分級分類治理。如果以風險等級為標準，以生成物為標準劃分：無風險、基本無風險、中等風險、高風險和極高風險。例如，生成醫學病毒、改變人類基因就有極高的風險等級。也可以以邏輯能力、意識狀況作為標準進行劃分。二是由正面列舉共同價值，改為負面清單制度，以盡可能地凝聚共識。管住負面、有害的，保留爭議、模糊的，為問題的解決提供方便。三是適度的系統開源，推進“多元繁殖”模式，以開源來適應新的環境，由環境及其反饋來修正、調節價值，依次反復、動態優化。

5.認識到人工智能帶來的問題，要通過加快技術發展來解決。人工智能會生成邏輯推理能力、能夠參與情緒變化、具有一定意識的智能物，這些都是大概率事件。核心是在底層原則、知識必備、推演邏輯上設計、推動、約束，實現向上、向善、友好，那么人工智能的結果也會是良性和人機友好的。回到OpenAI案例的現實中，如何才能調和有效加速派和超級對齊派的分歧呢？超級對齊的核心思想是讓人工智能系統成為人類的超越者，其理論與方法是讓人工智能系統通過不斷地探索和創新，逐漸突破人類的局限和偏見，要求人工智能系統能夠在各種復雜環境下，自發推導出符合人類價值觀的行動方針。也就是底層邏輯的對齊、在“基因”上的一致，而不一定是簡單將“把人類價值觀硬編碼進人工智能系統”。所以，解決問題還是要回到技術進步上，在這個層面可以找到超級對齊派與有效加速派的結合點。只要不否認“智能物”的出現、長期存在和加速發展，價值總是在對齊的路上。

作者單位武漢市政府辦公廳

參考文獻

[1]矣曉沅，謝幸.大模型道德價值觀對齊問題剖析[J].計算機研究與發展，2023（09）.

[2]王俊秀.ChatGPT與人工智能時代：突破、風險與治理[J].東北師大學報（哲學社會科學版），2023（04）.

【編輯：朱垚穎】