人工智能體價值對齊的分布式路徑探賾

2024-01-01 00:00:00閆坤如

上海師范大學學報(哲學社會科學版) 2024年4期

摘 " 要：人工智能體價值對齊，源于人類的有限理性、人工智能體的自主性、不確定性和風險性。價值對齊需要在考察人工智能體的道德屬性與調節作用的基礎上，分析其必要性和可能性。為了實現人工智能價值對齊的目標，需要妥善處理好倫理共識與多元價值觀、抽象價值規則與具體人工智能技術應用場景、人類終極倫理目標與短期價值追求之間的關系。在此基礎上，應為人工智能體的研發設定基本的道德準則和倫理底線，明確人工智能體的設計邊界，確保其不對人類的價值和權利造成干擾和傷害，避免AI系統偏離人類價值觀，以引導和規范人工智能技術的發展方向。

關鍵詞：人工智能體；價值對齊；有限理性；自主性

中圖分類號：TP18 " 文獻標識碼：A 文章編號：1004-8634（2024）04-0131-（09）

DOI：10.13852/J.CNKI.JSHNU.2024.04.013

人工智能技術的迅猛發展深刻地改變著社會生產生活方式、思維模式和社會結構等。人工智能技術正在推動產業革命，重塑人類社會，改變人類理解世界的方式。布萊恩約弗森（Erik Brynjolfsson）和麥卡菲（Andrew McAfee）提出，人工智能技術是繼18世紀末蒸汽機發明之后的第二次機器革命。正如蒸汽機技術超越了當時其他技術，人工智能技術正在幫助人類突破各種能力限制，并可能改變人類歷史的發展軌跡。1 基辛格（Henry Kissinger）、施密特（Eric Schmidt）與胡騰洛赫爾（ Daniel Huttenlocher）在《人工智能時代與人類未來》中寫道：“人工智能很可能會改變社會的軌跡和歷史的進程。”2 人工智能技術除了具有革命性的影響外，也具有顛覆性作用，可能會引發隱私泄露、就業替代等問題，甚至導致學術研究范式革命。是否可以用人類的道德規范來引導人工智能技術的可控、向善發展，已引起學界的關注和討論，本文的旨趣正在于此。

一、自為之物：人工智能體價值對齊的必要性

人工智能技術作為一種自主性智能技術，是人類發明和研發的成果。如何將人類普遍接受的價值觀與道德標準轉化為可執行的程序化道德代碼，并將其嵌入人工智能系統，使其能夠按照人類預先設定的價值理念、道德規范和倫理導向來“行為”，這是人工智能技術研發中追求向善發展的重要方向，同時也是人工智能體價值對齊（AI Value Alignment）問題。一般認為，人工智能體價值對齊原則是由人工智能研究領域的計算機科學家羅素（Stuart Russell）教授開創的。2015年1月，他在瑞士達沃斯舉行的經濟論壇上提出“我們如何才能建立與人類價值對齊的自治系統”這一問題。1 人工智能體價值對齊就是人工智能技術符合人類價值觀，與人類價值觀保持一致。人工智能體價值對齊源于人類的有限理性，人工智能體的自主性、不確定性和風險性。

1.人類的有限理性需要人工智能體價值對齊

人工智能體是人類創造出來的，是具有某種智能屬性和智能行為的人工系統。人工智能體并非自然界本身所具有的“自在之物”，而是人類為了特定目的創造出來的自為之物。換句話說，它不是一種本來就存在的實體，而是人類通過科技和編程所創造出來的“自為之物”。人工智能體的設計和應用始終基于人類的意圖和目的，因此它具有明確的目的性和意向性。人工智能體是人類為了滿足自身需要而創造出來的人工物，在設計和應用過程中，人工智能技術不可避免地受到來自設計者、使用者以及學習數據偏見的影響。算法本身也是主體價值偏好以及決策偏見強化的結果。因此，人工智能體并非價值中立的，而是負載著人類的價值觀和決策偏見。機器學習、深度學習或強化學習等技術都是基于數據統計的，然而，統計方法本身就包含著隨機性，這導致人工智能算法在決策過程中產生偏好，這些偏好進一步使得人工智能體具有人類價值的負載性。

人類的有限理性進一步強化了人工智能體價值對齊的必要性。有限理性理論指出，由于認知能力的局限性、決策過程的復雜性以及環境因素的繁雜性，人類決策往往處于完全理性和不完全理性之間的中間狀態，這意味著人類無法總是做出完全理性的決策。認知主體的理論框架、思維方法、認知結構的差異，以及價值取向、主觀態度在認識過程中都可能導致認知偏差。人類還容易受到情緒和知識的有限性的影響，加上處理信息的能力有限，決策效率相對較低，也可能導致決策的公正性和準確性偏差。相比之下，人工智能體沒有人類的偏見、情緒和欲望，它通過龐大的數據庫和計算機技術，能夠進行更加精細的掃描、研究和分析，從而做出更高效、準確和公正的決策。2這也意味著人工智能體具有自我決策和推理能力，與傳統的機器或工具不同。由于人工智能體的這一特性，開發和使用過程中需要引入社會倫理和道德治理機制。這不僅涉及模擬人類智能，還需要確保人工智能體的“價值追求”與人類價值觀相匹配，即“價值對齊”。“價值對齊”除了人工智能體與人類價值觀相匹配外，還需要不同群體的價值對齊，以在自我決策系統中規避人類有限理性的弊端。在人工智能體中體現人類價值追求和道德素質是至關重要的。總之，人工智能技術不僅需要實現社會價值、環境價值的和諧統一，還應與人類的道德標準相匹配。人類在創造和應用人工智能體的過程中，應承擔起相應的責任，包括研發責任、認知責任，以及倫理影響評估和規避風險責任。

2.人工智能體的自主性需要價值對齊

人工智能之所以被稱為智能，其核心在于人工智能體的自主性。這種自主性使人工智能體能夠根據其強大的數據分析、機器學習與計算能力，輔助人類進行高效預測和決策。瓦拉赫（Wendell Wallach）等人提出了人工智能體的三個特征：互動性、自主性和適應性。其中，自主性指的是在沒有外部刺激的情況下，個體有能力改變自身的狀態，而不是直接響應外部的互動，這種自主性帶來了某種程度的復雜性和與環境的耦合。3 迪哥納姆（V. Dignum）也指出，自主性是人工智能體的一種識別屬性。只有當一個實體具備自主性時，它才能被視為人工智能體：“關于機器人權利的許多思想源于自主性概念，它是人工智能系統的一種識別屬性。”4 在哲學意義上，自主性指的是人類自行決定制定、思考和選擇遵循的規范、規則和法律的能力和權利。人工智能體的自主性由其自我決策的過程中是否需要人的參與來判定。如果需要人的參與，那么人在人工智能體的決策中發揮著重要作用，這被蒙納多（Robert Monarch）稱為“人在環路”（Human in the Loop）。1 如果不需要人的參與，人工智能體具有自我決策能力，那么它被認為具有自主性。人工智能的自主性還表現在它能夠獨立承擔責任。只要人工智能體能夠獨立決策，就應該考慮為其嵌入道德，這與人工智能體是否具有道德主體地位、是否能夠進行合乎道德的決策無必然聯系，也與人工智能體是否具有意識和情感無必然聯系。也就是說，只要人工智能體能夠獨立承擔道德責任，就應該為其嵌入道德，從而前瞻性地規避其決策的不良后果。考克伯格（Mark Coeckelbergh）提出了一個觀點：“不要問機器人是否有意識、理性、自由意志等，讓我們把注意力轉向機器人是如何表現的：它是否‘表現’出了人類應該具備的能力？如果是這樣，那么無論機器人是否真的具有這些能力和心理狀態，我們都應該將道德主體和道德責任賦予機器人。”2 可以說，人工智能體具有自主性是其不同于其他技術人工物的一個重要特征。由于人工智能體的自主性可能導致其行為偏離人類的控制，因此在人工智能技術研發初期符合人類價值觀成為確保其合乎倫理發展的關鍵一環。

3.人工智能體的不確定性和風險性需要價值對齊

人工智能技術作為顛覆性技術，是人類為了達到某種目的而創造出來的。由于人工智能系統內在的復雜性和不確定性，人類很難預測其發展趨勢及下一步行為。基于大量數據分析的人工智能技術具有多種技術路線，包括模擬人類推理的符號主義、基于控制論模擬人類行為的行為主義，以及基于大腦神經網絡的連接主義。這些路線和算法的多樣性，加上它們的復雜性和不透明性，使得人工智能技術在倫理上具有挑戰性，這日益成為需要前置性思考的問題。

人工智能體具有不確定性。西蒙（J. Simon）提出：“我們不知道它們是如何工作的，我們也無法評估它們對我們收到的信息的影響。機器具有不透明性，算法黑箱導致機器人的行為的不確定性。”3 由于社會中存在的偏見數據被帶入算法中，或者算法中的數據出現偏差、缺失，又或者算法本身的設計和參數設置有問題，導致算法難以避免的偏差出現：“算法不可避免地會做出有偏見的決定。一個算法的設計和功能反映了它的設計者和預期用途的價值，如果只是在某種程度上，一個特定的設計是首選的最佳或最有效的選擇。”4 算法黑箱和算法偏見的客觀實在性增加了人工智能體的不確定性。

當人工智能體被應用到經濟發展和社會生產、生活中時，它可能會催生大量的倫理風險，如公共安全、就業替代、算法歧視和隱私侵犯等。這些倫理風險可能會對社會的和諧與穩定產生負面影響。人工智能技術重塑世界的同時，也帶來了公共安全風險、算法歧視、數據泄露、責任倫理挑戰、人類主體性的喪失等一系列問題。這些風險是人工智能技術的本質屬性所致，具有普遍性、客觀性、必然性的特征。人工智能體的風險性是由多種因素決定的，包括技術因素如算法黑箱等，以及人工智能體作為可以自我推理和自我決策的技術所帶來的潛在倫理風險。人工智能技術是會聚性技術，其不可控性增強，使得風險概率增加。人工智能體的風險性不僅僅是其系統的本質屬性，也與相關主體的價值取向和價值選擇密切相關，這體現了不同利益相關者的價值傾向和利益考量。通過對人工智能體風險性的深入分析，可以明確倫理風險的必然性，以及風險主體之間的價值差異和價值沖突。如果人工智能體不嵌入倫理道德觀念，其行為不符合人類倫理道德，或者其行為結果不合乎人類道德標準，那么隨著其自主程度的提高，其潛在的倫理風險就會越來越大。這種背景下，人工智能體的不確定性和風險性更加凸顯了對其道德嵌入的必要性。

二、道德主體考察：人工智能體價值對齊的可能性

與必要性不同（對價值對齊的需求與人工智能體是否具有道德主體地位無關），對人工智能體價值對齊可能性的分析則必須考察人工智能體的道德主體地位問題。人工智能體能否嵌入道德，關系到其能否成為道德主體（Moral Agents，又譯為道德行動者、道德行為體、道德智能體或者道德代理等）。這不僅涉及對人工智能體潛在道德地位的考察，更需要對其道德調節作用進行分析。

1.人工智能體非人類主體但具有類主體地位

人工智能體（Artificial Agents）與人類主體（Subject）在許多方面存在顯著差異，人工智能道德主體地位中的“主體（Agents）”，指的是人工智能體可以成為道德行為體，或者可能具有代理人類道德行為的能力，可以代理人類行動。

第一，人工智能體可以按照人類的道德標準行動。當談到人工智能體是道德行為體時，通常是指那些受到一套道德規范指導的對象，并且它們可能不會改變這些道德規范。人工智能體雖然具有與人類主體同樣的按照道德規范行動的能力，但與人類主體的屬性截然不同，是因為人類道德主體依賴自己的獨特屬性，即具有意識和道德判斷能力。正如塞爾（J. Searle）所說：“機器人根本沒有意向狀態，它只是受電路和程序支配的簡單的來回運動而已。”1 并且，人類道德具有歷史傳承性，它是社會經驗和人類智慧的累積，受歷史文化的影響。相比之下，人工智能體沒有意識和意向狀態，人工智能體無法習得人類的社會經驗、無法受人類歷史文化影響，也無法累積人類智慧和道德規范。因此，在傳統的占主導地位的倫理框架內，人工智能體被普遍認為不具備道德主體地位。有學者站在工具論立場反對賦予人工智能體道德主體地位，認為人工智能體只具有工具性價值，其倫理和責任只能由人類主體來承擔，那么討論人工智能體的道德主體地位沒有意義。例如，約翰遜（D. G. Johnson）和米勒（K. W. Miller）指出，機器人技術的設計應確保責任分配仍然“與人掛鉤”。2 他們認為，“人工物能否成為道德主體”根本就是一個錯誤的問題。由于人工智能體由人類研制和使用，歸人類所有、所用，從這個維度而言，人工智能體與其他工具無異，因此，人類將對研制和使用人工智能體的后果負責。從這個意義來講，人工智能體僅僅是“高級工具”，“無論程序的機械特性在多大程度上是透明的，人們都會把機器人當作僅僅是工具”。3 人工智能體在很大程度上僅是人類決策的輔助工具，特別是在機器仍由人類來控制和干預的時候。當人工智能體“做出”不良行為時，人類可通過現有的道德和法律規則來約束自身而非人工智能體。這是因為，錯誤的決策實際上是由人做出的，而非人工智能體——人工智能體只是人的命令和指令的執行者而已。錯誤決策應該由人類負責，而非人工智能體。工具論者還認為，如果人工智能體不具有道德主體地位，則人類不可能為其嵌入道德，讓其符合人類價值觀。但人工智能體絕非一般人工物，其具有自我推理、自我決策、自我學習能力，并且能夠根據所學習的知識進行行動。因此，不能簡單地將人工智能體視為簡單的工具。盧西亞諾·弗洛里迪（Luciano Floridi）就反對工具論者的觀點，并提出了“人工道德主體（Artificial Moral Agents，縮寫AMAs）”的概念。這個概念包含兩層含義：一是探討一個人工系統是否有可能成為道德主體；二是探討構造具有倫理意義行為的人工智能體的可能性。弗洛里迪的觀點引起了學者對人工智能體的關注，機器倫理學（Machine Ethics）應運而生。機器倫理學是研究如何研發具有倫理意義和行為的人工智能體的學問，主張道德主體的行為受道德標準的支配，非道德主體的行為不受道德標準的支配，旨在論證人工智能體應該按照人類道德標準行動。有許多學者堅持認為人工智能體具有道德主體地位。比如，美國學者邁克爾·安德森（Michael Anderson）和蘇珊·安德森（Susan Leigh Anderson）夫婦提出，“賦予機器人倫理原則或者促進機器人解決可能預見的倫理困境，在機器人自主做決定的時候，提高它們的道德考量比重”。4 瓦拉赫（W. Wallach）也提出，“具有道德決策能力的機器人將成為技術上的必需品”。5 過去，關于技術和倫理關系的研究主要集中在人類負責任和不負責任地使用技術、機器設計中的設計主體責任以及機器應用帶來的社會倫理等問題。當人工智能體具有道德主體地位的主張引發關注后，人們意識到不僅人類才是道德主體，才具有道德推理能力，人工智能體也具有道德的主體地位，也可以受人類道德標準支配，即可以嵌入道德并按照嵌入的道德標準行動。簡言之，雖然人工智能體與人類主體不同，但由于它絕非一般人工物，具有類主體地位，可以按照人類道德標準行動，因此，人工智能體價值對齊具有可能性。

第二，人工智能體具有類道德主體地位。當談到人工智能體代理人類行動時，通常是指人工智能體代表人類實施道德行為并由人類承擔道德責任。隨著人工智能技術的迅猛發展，許多人開始質疑人類作為唯一道德主體的概念。“對許多道德哲學家來說，道德就是要求某人對自己的行為負責和對自己行為的正確性負責，然后關于道德地位和行為的問題才是核心。”1 丹尼爾森（P. Danielson）在1992年就提出“功能性道德”概念，2 他認為機器具有功能性道德。在《道德機器：如何讓機器人明辨是非》一書中，艾倫和瓦拉赫區分了三類道德主體：操作性道德（Operational Morality）、功能性道德（Functional Morality）與完全道德主體（Full Moral Agency）。人工智能體不是完全道德主體，但其具有操作性道德和功能性道德，從理論上講可以代理人類實施道德行為，從而具有潛在的道德主體地位。機器倫理學家將人工智能體視為實際的或潛在的道德主體，具有潛在的類道德主體地位。弗洛里迪和桑德斯（Jeff W. Sanders）在《論人工智能體的道德性》中指出，智能機器作為計算性的產物，與其他許多人工物不同，其行為具有某種程度的獨立性，使其可以充當“人工智能體”。3 溫斯伯格（A. Van Wynsberghe）和羅賓斯（S. Robbins）提出：“機器倫理學領域的行業領袖和學者會讓我們相信，機器人在我們生活中發揮更大作用的必然性要求賦予機器人道德推理能力。以這種方式被賦予的機器人可以被稱為人工道德主體（AMAs）。”4 美國學者摩爾（Jame H. Moor）將道德主體分為四類：道德影響主體（Ethical-impact Agents）、隱性道德主體（Implicit Ethical Agents）、顯性道德主體（Explicit Ethical Agents）以及完全道德主體。5完全道德主體可以做出明確的倫理判斷，并且通常有能力合理地證明這些判斷。盡管人工智能體并不屬于完全道德主體，也不是像人類一樣的道德主體，但隨著其自主性越來越高，具有類主體地位，可以按照人類的道德規范表現出合乎倫理的行為。在這種情況下，人工道德主體與人類道德主體在按照道德標準行動方面沒有顯著的本質差異，因此，人工智能體應被視為與人類同質的實體。人工智能體價值對齊的目的除了前文所述的引導和規范其行動外，還在于代表不同的人類共同體來行動，以實現這些共同體各自不同的利益訴求。機器倫理學家尋求一種方法來模擬人類的道德行為——實現對其主要特征的技術模仿，從而實現人工智能體的道德代理功能。總之，人工智能體具有潛在的類道德主體地位，作為道德載體能夠代表人類行動，增強了人工智能體價值對齊的可能性。

2.人工智能體具有道德調節作用

不少技術哲學家關注人工智能體的道德調節作用。技術后現象學為道德主體的構成增加了一個新的維度：它的技術中介特征。現象學是一場哲學運動，旨在分析人與世界的關系。后現象學家伊德（D. Ihde）認為，技術是人和世界的中介，基于技術在人與世界間中介作用的不同，伊德提出了“人—技術—世界”的關系類型：具身關系、詮釋學關系、它者關系和背景關系。6 荷蘭后現象學技術哲學家維貝克（Peter-Paul Verbeek）在技術中介論（Technological Mediation）基礎上，提出了道德中介（Moral Mediation）觀點。他認為，技術物調節著人的道德行為和道德決策，其不僅“具有”意向性，而且也可以成為“道德中介”。7 維貝克在《道德的技術中介——道德主體和道德客體的后現象學研究》1 中指出，人與世界的關系需要從“意向性”的角度來理解，即人類探索世界的直接性。人類和技術不再是分離的，而是以無數種方式相互影響。維貝克給出了超聲波的例子來說明人工智能體的道德中介作用。他指出，是否需要將某種形式的道德中介歸于像超聲波掃描儀這樣的設備，因為超聲波對道德具有積極作用。超聲波技術在孕婦和胎兒之間的關系中所起的中介作用的分析表明，技術有助于形成行動和對現實的解釋，而這些行動和解釋構成了道德決策的基礎。超聲波可以用來篩查唐氏綜合癥，在孕后期，它可用于檢測胎兒是否存在缺陷，因此，超聲波有助于父母或者醫生對胎兒的未來進行決策。超聲波的作用從“期待一個孩子”變成了“選擇一個孩子”。通過對超聲波在墮胎道德決策中的中介作用的后現象學分析，人們可以看出，超聲波成為有關未出生嬰兒生命的決策者。因此，人類的行為不是由技術決定的，而是由技術塑造的。倫理學主要不是關于我們需要遵循什么命令的問題，而是關于人類如何將自己建構為道德規范的“主體”的問題。倫理不僅僅是人類的事情，而且是人類和技術之間的一種關聯。人的行動受到技術的居間調節作用，因此，技術也是倫理空間的有機組成部分，倫理成為技術的內生要素，而不是技術的外部要素，這為人工智能體的道德嵌入提供了另一種可能性。換句話說，技術不僅僅帶來倫理問題，還可以解決倫理問題，因此，應該從正面角度肯定技術的積極倫理價值。既使不考慮人工智能體是否具有道德決策能力和道德行動能力，僅從其具有道德調節作用角度講，仍然可以為其嵌入道德內容從而讓其遵守人類道德規范。

隨著人工智能技術的飛速發展，人工智能體與人類的相似程度日益增加。對此，人們不能簡單地套用舊的倫理規范，而應隨著人工智能技術進步形成新的倫理共識，并習得新的道德規范。同時，人們還應注重在人工智能技術的發展中嵌入道德要素，使人工智能體具備道德調節的作用或者具有道德規范功能，從而有效規避人工智能體的應用可能帶來的負面效應。通過這種努力，人們不僅可以規范和引導人工智能技術的向善發展，還能確保其與人類的和諧共存。

三、分布式：人工智能體價值對齊的路徑

人工智能體價值對齊不能一概而論、一蹴而就，應采取分布式嵌入方式。首先，要明確工具性價值與內在價值的區分。例如，為了更好地與人類相處，狗會被訓練成具有一定程度的安全性和可靠性，但人們不會因此認為狗具有道德屬性。同理，當人們說人工智能體可以嵌入道德，可以達到價值對齊的目標時，是指其可以具有工具性價值或者可以按照人類的道德標準行動，但道德屬性未必是人工智能體的固有屬性。其次，要明確人工智能體價值對齊是一個規范性問題而非描述性問題。人工智能體價值對齊不是關于人工智能發展狀況的事實陳述，而是基于人類價值觀的判斷，引導人工智能體規范發展的規范性問題。人工智能體具體對齊哪些道德，是由人類的價值觀決定的。再次，人工智能體價值對齊需要平衡三種關系：其一，處理好構建倫理共識與不同價值觀之間的關系，平衡價值統一性和價值相對性、價值多元性之間的關系；其二，解決統一的價值標準與不同技術路線、不同應用場景之間的關系，以及道德嵌入的抽象價值標準與具體實踐之間的關系，旨在解決嵌入的抽象價值理念與具體的道德嵌入實踐之間的鴻溝如何填平的問題；其三，處理好人生終極倫理意義和短期價值目標之間的關系。

1.達成價值共識與尊重不同價值觀是價值對齊的前提和基礎

人工智能技術發展中的不同主體具有不同的價值取向和利益訴求，這些取向和訴求會對人工智能倫理風險中的價值排序和價值選擇產生影響。道德觀念不是先驗的，任何倫理學都無法提供終極的、絕對的道德真理體系。承認價值觀的多元化，尊重每個人的基本權利是一種道德義務，不同主體可以通過溝通達成倫理共識。明確價值訴求旨在使人工智能的發展更符合公眾利益和人類福祉。在面對倫理沖突、道德悖論和道德難題時，人們應努力尋求在不同主體間達成共識。許多國際組織或者行業協會制定了行業規范和技術標準，在人工智能價值對齊中起到了重要作用。例如，2018年歐盟執行《通用數據保護條例（GDPR）》，提出了數據保護理念；同年，又發布了《可信人工智能倫理指南草案》，規定了數據主體的權利，并強調倫理規范的重要性。英國標準學會（BSI）致力于為設計師提供道德風險評估標準。新加坡、印度、澳大利亞等國也提出或制定了有關隱私、安全和道德的行業準則。中國也積極參與到人工智能倫理規范的制定工作中。2019年，中國發布了《新一代人工智能治理原則——發展負責任的人工智能》，提出了人工智能治理的框架和行動指南。同年4月，中國騰訊研究院發布了《人工智能倫理風險分析報告》。5月，北京智源人工智能研究院聯合北京大學、清華大學、中國科學院自動化研究所等共同發布了《人工智能北京共識》，涵蓋15條有益于人類命運共同體構建和社會發展的原則。2021年，中國發布了《新一代人工智能倫理規范》，以引導和規范人工智能的發展。2022年 3月 20日，中共中央辦公廳、國務院辦公廳印發了《關于加強科技倫理治理的意見》，明確了治理要求和科技倫理原則：“倫理先行是治理要求”；“增進人類福祉、尊重生命權利、堅持公平公正、合理控制風險，保持公開透明”是科技倫理原則。1

國際組織和行業協會在人工智能體價值對齊方面的工作，主要是通過制定人工智能技術的實施細則和行業規范來推進的。這些細則和規范旨在引導人工智能技術從業人員遵守職業道德規范，約束個體行為和組織行為。與職業倫理相比，行業規范具有更強的約束性。通過提倡設計師的職業道德，明確其職業責任，并以行業規范形式規定實施步驟和設計標準，能夠有效地約束設計者的行為。最終目標是有效防控科技倫理風險，推動科技向善，讓科技真正造福人類。不同的國際組織、國家和行業協會制定了不同的倫理規范，例如，2019年，舊金山禁止政府使用人臉識別技術，而我國人臉識別技術卻在多種場合普遍應用。盡管如此，總的來說，人工智能技術的進步展現了人類共同的價值追求。在人工智能發展過程中，應始終維護人類的尊嚴，確保人工智能技術的透明性和可解釋性，守住人工智能發展的安全性、可控性底線：讓人工智能技術為人類服務，而不是相反，必須避免人類被人工智能體控制，甚至危害人類的安全。2023年11月1日，首屆全球人工智能安全峰會在英國布萊切利召開，28個與會國和歐盟簽署了《布萊切利宣言》。各國一致同意，通過國際合作建立人工智能監管方法。宣言提出了一系列需要解決的問題，包括保護人權、透明度和可解釋性、公平、監管、安全、適當的人類監督、公平、減少偏見、隱私和數據保護等。人工智能體價值對齊不僅受到主體價值觀和社會價值觀的影響，還涉及技術層面的設計規范和標準。在道德嵌入實施前，應首先就嵌入的道德原則達成共識，這是人工智能體道德嵌入的前提。與此同時，尊重不同的道德習慣和文化傳統，則是最終實現道德嵌入的前提和基礎。

2.人工智能體價值對齊的分布式路徑

把道德嵌入人工智能體中，以規范其應用，是至關重要的。這種價值對齊對人工智能技術的發展具有基礎性、全局性的影響，甚至可以被視為一種研究“范式”的轉換。目前，大多數道德研究主要集中在“人”的方面，而很少在“物”的方面，這意味著人們未能充分利用“物”的道德調節作用來引導人工智能技術的向善發展。人工智能體價值對齊，本質上就是用人工智能技術來治理人工智能技術，技術既是治理的手段，也是治理的目標，通過人工智能體對齊人類價值，引導人工智能技術合乎規范地發展。為了實現人工智能體價值對齊，需要遵循以下路徑：

首先，人們必須把價值共識嵌入人工智能體，使其行為始終符合道德要求。由于人工智能體沒有肉體，不具備人類的情感和主觀的私人偏好，人們可以通過價值對齊，避免其行為受到人類個人私欲的干擾。同時，人們也要確保機器人設計、制造、使用的整個過程具有公開性和透明性。在價值對齊過程中，道德訴求的多樣性導致道德選擇是一個普遍性問題。即使是相對簡單的人工系統，如吸塵機器人，也可能面臨道德的抉擇。當小昆蟲誤入其工作區域，吸塵機器人是否應殺死或者驅離它？因此，道德選擇對于人工智能體價值對齊來講是普遍性問題。隨著人工智能技術的不斷智能化和自主化，其所面臨的道德情境將變得越來越復雜。人們需要仔細考慮人工智能體對齊哪些人類價值，這是一個日益棘手的問題。對人工智能體價值對齊不能簡單地復制人類所有的價值觀，“用一整套人類價值觀對人工智能進行編程將被證明是一項極其困難的任務”，1 而是要確保人工智能的發展與人類的總體目標保持一致。人工智能體的道德嵌入并非意在賦予其與人類相同的道德觀念、價值理性和價值觀。相反，其目標是確保人工智能體能夠按照人類預先設計的價值理念、道德規范來行動，不偏離人類總的價值方向，也就是說，人工智能發展是一個規范性問題。面對價值沖突，人們需要對嵌入的道德進行價值排序，如數據共享與隱私保護之間可能存在矛盾，公平和效率之間也可能產生沖突等。家庭護理機器人應該如何平衡用戶的隱私和護理需求；當事故無法避免時，自動駕駛汽車應該如何“選擇”撞到什么或撞到誰？同樣的選擇困境還存在于人工智能促進經濟發展與破壞環境之間的矛盾、人工智能技術發展的短期效益與長遠利益、個人利益與社會利益之間的矛盾等。不同的利益相關者之間也具有不同的價值訴求，例如，人工智能算法工程師追求技術水平，人工智能企業關注經濟效益，政府關注技術使用的社會后果和社會效益等。這些矛盾和沖突凸顯了人工智能體道德嵌入在多元價值中的權衡難度。為了解決這些矛盾和沖突，人們需要對多元價值進行排序，并要避免價值偏見，保持價值之間的平衡。與此同時，面對不同的應用場景，還要對價值目標做出實時的動態調整，不能固守某種價值而忽視其他價值，必須在人工智能體價值對齊中堅持分布式對齊，根據具體的場景和具體的人工智能技術實踐，分析人類的當前需要和長遠目標，來確定對齊人類哪些價值。

其次，把倫理規定細化為具體的設計標準，使道德成為人工智能體的核心要素之一。價值目標的設定只是人工智能體價值對齊的第一步。具體來說，發展人工智能技術是為了實現增進人類福祉、維護人類的尊嚴和自由、安全可控、可解釋、公正等價值目標，在這些價值目標確立之后，還需要依據一定的方法，把倫理規范轉化為具體的設計標準，實現價值目標的具體場景落地，如人工智能系統的“安全性”價值目標需要轉化為“技術魯棒性”“安全可中斷性”等設計標準，人工智能系統在輸入錯誤、磁盤故障、網絡過載或被惡意攻擊情況下能否保持系統穩定，在具體的操作場景中，為人工智能系統設置緊急停止裝置或者終止設施，能夠中斷人工智能技術實施從而保障技術安全。同樣地，人工智能系統的“可解釋性”價值目標需要轉化為“故障透明性”“數據可追溯性”等設計標準，避免算法黑箱的出現；人工智能系統的“公正性”價值目標需要轉化為避免“算法歧視”“算法濫用”等設計標準；人工智能系統的“可控性”價值目標需要轉化為“系統可追蹤”“系統可追溯”等設計標準，能夠對系統的錯誤進行追蹤或者溯源，找到出錯原因，避免再犯同樣錯誤。為了實現人工智能體價值對齊，需要將基本價值目標分解為具體的技術設計標準。這一步至關重要，因為它保障了人工智能體價值對齊的可操作性，使人工智能體真正符合人類價值觀，如人類福祉、尊嚴、隱私安全和公平公正等。為人工智能體嵌入道德算法，將特定群體的價值觀和道德標準程序化為道德代碼嵌入人工智能系統的同時，通過內置道德決策場景的指導性抉擇標準或者對人工智能體進行道德訓練，可以使其具備道德推理能力。利用機器學習算法投射使用者的道德偏好，讓人工智能體具有復雜的功能性道德，并構建一種可執行的機器倫理機制，可以使其適時地自行做出倫理抉擇，進而用負載價值內涵的道德代碼實現人工智能體價值對齊。此外，通過提倡人類責任、制定職業規范和標準、設計道德機器等方式，把主體性價值嵌入人工智能體中，以規范AI行為并防范人工智能體的道德風險。通過內置的“機器倫理調節器”，也可防范人工智能體的道德風險。不但如此，對于人工智能體價值對齊，人們應該通過積極主動的前瞻性研究視角，把人工智能體作為道德進化的新引擎，以重塑社會新道德、構建人工智能時代新型的道德關系，以及重塑智能時代的道德行為。

3.協調好終極倫理目標和短期價值追求之間的關系

人工智能體價值對齊的高標準和終極目標是滿足人類的共同價值，是為了人類的共同福祉，為了人類最終的自由和解放。人類創造出人工智能體，目的是為人類服務的，因此，人工智能體的研發應該維護人類尊嚴，確保人類的主體性地位。人類短期價值追求和終極目標之間是有沖突的，比如，ChatGPT等人工智能技術可以減輕暫時的工作負擔，避免人類的重復性勞動，但長期使用可能侵占人類的工作機會，甚至導致失業等社會問題；人工智能簡單便捷的操作界面長久來看可能導致人類智力下降的風險；人工智能技術無處不在可能導致技術異化、技術上癮、喪失人類自由等問題。人工智能作為一種技術，如果不對它進行有意義的控制、調節和限制，它有可能作為異化的技術對人們產生威脅。隨著人工智能體自主性和學習能力的增強，人們擔憂智能機器人可能征服人類，這種擔憂源于人工智能技術對人類社會的革命性、顛覆性影響，這種影響挑戰了人類的主體性地位，關涉人類的命運、尊嚴和福祉。人工智能體的道德嵌入是規范性的。雖然人類的行為是基于自身的選擇和心理體驗，但人工智能體的道德嵌入卻是基于人類而非AI的道德觀念。人類要以負責任的態度研發與使用人工智能體，以控制其風險，并確保人的主體性地位。人工智能嵌入道德具有底線要求，這是確保人工智能技術安全、人的生命優先于所有功利性價值等具體要求的體現。在人工智能體創造過程中，讓其按照人類的價值觀去行動，讓其遵守人類道德準則，對其劃定適用邊界，守牢底線，以維護人的尊嚴和福祉。

綜上所述，人工智能體價值對齊既是一個規范性問題，需要人類為人工智能體劃定研發和使用范圍，并指引其發展方向；同時，它也是一個技術性問題，需要把待嵌入的道德規則轉化為具體的設計標準。在實現人工智能體的道德嵌入時，既要尊重人類倫理多元主義，也要兼顧價值的相對性，既要遵守人類共同規范，也要尊重不同的區域文化。為了充分發揮人工智能體造福人類的作用，人們需要綜合運用倫理和法律等手段，通過“物”道德和“人”道德的綜合作用，以及人的“自律”、人工智能體的“物律”和制度的“他律”等多方面的綜合運用，確保人工智能體的應用符合人類的共同價值和利益。

Exploration of Distributed Pathways for AI Value Alignment

YAN Kunru

Abstract： The value alignment of artificial intelligence stems from their autonomy， uncertainty， and risk attributes. Value alignment requires analyzing the moral attributes and regulatory role of artificial intelligence agents， as well as their necessity and possibility.In order to achieve the goal of value alignment of artificial intelligence， it is necessary to properly handle the relationship between ethical consensus and diverse values， abstract value rules and specific application scenarios of artificial intelligence technology， and the ultimate ethical goals of human beings and short-term value pursuits. On this basis， basic moral principles and ethical bottom lines should be established for the development of artificial intelligence agents， clarifying the design boundaries of artificial intelligence agents， avoiding interference and harm to human values and rights， avoiding AI systems deviating from human values， and guiding and regulating the development direction of artificial intelligence technology.

Key words： artificial agents；value alignment；limited rationality；autonomy

（責任編輯：蘇建軍）

上海師范大學學報(哲學社會科學版)2024年4期

上海師范大學學報(哲學社會科學版)的其它文章: 基于空間雙重性的全球城市功能建構; 人工智能與靈魂：超越科技的哲學追問; 學術期刊與中國近代法學自主知識體系的形成; 對中國古代法律體系的再認識; 置身巴黎大街上的實拍：好萊塢與新浪潮; 德國表現主義電影在中國