人工智能價值對齊的價值表征及倫理路徑

2024-09-11 00:00:00閆坤如

倫理學研究 2024年4期

[摘要]人工智能價值對齊是一個規范性問題，也是個技術性問題，既需要從倫理上論證對齊的可能性和合理性，也需要從技術上實現人工智能對齊的目標。為了實現人工智能價值對齊的目標，需要分析人工智能價值對齊的內涵要義、明確人工智能價值對齊的價值表征，通過分析人工智能價值對齊的原則和方法，在分析人工智能技術本性和倫理疑難的基礎上，堅持人工智能在社會中的地位是一個規范性問題，而不是一個描述性問題，是人決定人工智能技術的研發和應用，人為人工智能技術立法。此外，還需打通人工智能價值對齊的道德規范和設計的技術標準之間的邏輯鴻溝，從技術層面和規范層面給出人工智能價值對齊的倫理路徑。

[關鍵詞]人工智能對齊；價值對齊；價值表征

[作者簡介]閆坤如，華南師范大學哲學與社會發展學院教授，博士生導師。

*本文系國家社會科學基金重大項目“負責任的人工智能及其實踐的哲學研究”（21ZD063）的階段性成果。

人工智能技術迅猛發展，引發生產、生活方式變革，也改變人類理解世界的方式。同時，人工智能技術革命的顛覆性作用引發隱私泄露、數據鴻溝、就業替代等社會問題，因人工智能技術的自主性和算法不透明性等原因導致倫理風險劇增，為了人工智能技術的安全發展和應用，需要人工智能技術滿足人類的需求和期望，這就是人工智能價值對齊（Artificial Intelligence Value Alignment）。人工智能價值對齊是一個重要的領域，因為隨著人工智能系統變得越來越強大，它們可能以與人類目標不一致的方式行事。人工智能價值對齊成為人工智能安全發展的前提和基本要義，引發了理論界和產業界的關注。人工智能價值對齊是人工智能發展的根本性、基礎性工作，是需要優先考慮的問題，也是一項具有挑戰性的工作。

一、人工智能對齊的內涵要義與價值表征

人工智能對齊對于人工智能技術的發展和應用都是根本性的。在此語境中，澄清人工智能對齊的內涵、挖掘其技術的內在屬性，分析其價值表征顯得尤為重要。

1.人工智能對齊的內涵分析

人工智能對齊是一個新領域，研究如何使所創造的系統能夠滿足人類的需求和期望，人工智能對齊的目標是防止人工智能的運行違背特定個人、群體或整個社會的利益。1960年，“控制論之父”諾伯特·維納（Norbert Wiener）在著作《自動化的道德和技術后果》中指出，隨著機器學習進一步發展，它們可能會超出人類預期。“我們最好完全確定賦予機器的目標就是我們真正想要的目標。”[1]（1355-1358）這是人工值智能對齊的初步表達，人工智能對齊（AI alignment）就是人工智能價值對齊，維納認為研發機器的目標是最大限度地實現人的價值，是實現人類目標。布萊恩·克里斯汀（Brain Christian）在《人機對齊：如何讓人工智能學習人類價值觀》中對人工智能對齊給出的定義為：“如何確保這些模型捕捉我們的規范和價值觀，理解我們的意思或意圖，最重要的是，做我們想做的事，已經成為計算機科學領域最核心、最緊迫的科學問題之一。它就是：對齊問題。”[2]（11）2019年，弗吉尼婭·迪格納姆（Virginia Dignum）提出人工智能“以人類福祉為中心，并與社會價值觀和倫理原則保持一致”[3]（2）。人工智能對齊指的是人工智能系統的目標與人類利益與價值觀相一致，人工智能發展符合人類意圖。通過上述對人工智能對齊內涵要義的分析，我們可以看出，人工智能對齊是研究如何使人類創造的人工智能系統能夠滿足人類的需求和期望，讓人工智能技術的能力和行為與人類的價值、真實意圖和倫理原則相一致，目標是為了人工智能系統的安全應用，避免人工智能技術違背人類意愿。從這個意義上講，人工智能價值對齊是人工智能技術安全使用和規范發展的核心議題和最根本問題。

通過以上對人工智能對齊內涵要義的分析，我們可以看出，人工智能價值對齊既是一個過程也是一個結果。人工智能對齊的目標具有兩重性，對齊具有倫理目標和技術目標。人工智能對齊的出發點和落腳點是體現人類意愿，中期倫理目標是設計和使用過程中體現人類價值觀和道德規范，中期技術目標是人工智能系統的研發和運行安全可靠、值得信賴；人工智能對齊的終極倫理目標是人類福祉、社會公平公正、人類的自由解放等，人工智能對齊的終極技術目標是技術為人類服務而非技術控制人類，技術為“我”而非技術異“我”，更不是“我”為技術。

2.人工智能技術的工具性價值分析

人工智能技術應符合人類意圖，不違背人類發明和使用技術的初衷，符合人類意圖是技術價值的邏輯起點。一方面，技術是內在價值與工具性價值的統一體，首先，技術具有內在價值，技術能解決問題、提高效率、改善生活，是人類文明的標志和社會發展的重要驅動力；其次，技術具有工具性價值，它是為了滿足人類自身愿望、實現人類特定目的的工具。技術從研發開始就體現設計者的意志和愿望，負載了人類價值。技術在人類文明發展中發揮重要作用，技術工具史也就是人類文明史，沒有技術工具的發明和制造，就沒有人類文明的產生和發展。另一方面，技術也可能成為破壞環境、加劇不平等和威脅人類福祉的工具。如果人工智能技術不與人類的價值觀和根本利益對齊，則可能導致人工智能技術的行為不符合甚至違背人類意愿，不能體現人類的價值目標。技術的內在價值和工具性價值表明人工智能技術的價值表征是作為工具實現人類福祉而存在，是為了滿足人類的目的，是為人類的自由和幸福，技術發展也要接受人類的評估和考量。通過對技術價值表征分析，我們可以看出，無論人工智能技術是否具有智能、作用多么強大，都只是作為工具而存在，而技術工具必須滿足人類愿望，必須與人類價值觀和倫理原則保持一致，不對人類的價值和權利造成干擾和傷害，也就是說，人工智能技術發展必須堅持與人類價值對齊，而不能違背人類意志和愿望。

3.人工智能技術內在屬性是風險性

人工智能技術風險指的是人工智能技術研發和使用引起社會結構變化，在推動人類進步和為人類帶來福祉的同時，因其不確定性和復雜性造成各種損失的可能性。人工智能技術的風險屬性取決于其不確定性程度，人智能系統中存在的算法偏差、模糊邏輯和模糊集合等不確定性均可能偏離人工智能技術的初衷而引發風險，人工智能在給人類帶來福祉和便利的同時，也帶來了危害公共安全、隱私泄露、算法偏見、就業替代等一系列的倫理挑戰。英國巴斯大學的喬安娜·布賴森（Joanna Bryson）和艾倫·溫菲爾德（Alan Winfield）在《人工智能和自主系統的標準化倫理設計考慮》[4]（116-119）中指出，隨著人工智能發展到超過人類能力的程度，它可能會控制我們的資源并戰勝我們的物種，最終導致人類滅絕。機器取代人、控制人的后果引發人工智能技術應該以人類價值觀為目標的思考。首先，人工智能技術能力超過人類，它雖然是人類研發的工具，是對人類智力和體力的增強，也是人類肢體的延伸，但從研發之始，就預設了其能力超過人類，技術人工物超過人類能力是人類“善假于物”的表現。例如，阿爾法狗下圍棋戰勝人類說明機器人通過學習智能可能超過人類；運用人工智能技術的自動文本翻譯速度超過人類；運用自動駕駛系統的汽車決策和行動超過人類；機器算法的數據處理規模和速度遠超人類等。其次，人工智能技術作為工具有失控風險。人工智能技術發展難以控制，具有潛在的風險屬性。人工智能設計階段可能產生道德算法風險和道德決策風險；人工智能使用階段潛藏人類主體性地位被削弱的風險、數據隱私泄漏風險、算法歧視、道德標準固化等風險。人工智能技術風險的本質既具有客觀實在性，也與相關主體的價值取向和價值選擇相關，體現了不同利益相關者的價值傾向和倫理考量。再次，人工智能技術可能反過來控制人類。例如，決策中的數據依賴、個性化推薦中的算法控制、衛星導航的技術依賴、手機上癮、網絡沉迷等現象表現為人類生產生活依賴技術，甚至表現為技術操控人類，人被技術束縛甚至裹挾。隨著人工智能的進化，人的主體性有喪失的可能性。梅拉妮·米歇爾（Melanie Mitchell）在《AI 3.0》中闡述了人工智能失控風險，“從圖靈測試到奇點之爭，我們無法預測智能將帶領我們去往何處”[5]（47）。通過以上分析可知，人工智能技術具有風險屬性，為了保障人工智能技術的安全可靠，從研發的技術邏輯開端就必須要考慮人類價值觀和倫理規范。

二、人工智能對齊的思路、原則與方法

人工智能對齊要求人工智能根據人類意愿的設計，實現人類的意愿。學者從不同思路給出了人工智能對齊的原則和方法。

1.人工智能對齊的思路分析

學者從不同視角來分析人工智能對齊問題。迄今為止，為了避免人工智能失控，學者和產業界人士做了很多嘗試，歸納起來，規范人工智能技術發展主要有以下幾種思路。

第一種思路是不研發自主性人工智能機器，讓人工智能技術的發展局限在人類的工具層面；第二種思路是增強人工智能系統透明性，對其科學原理和技術手段、技術規則進行解釋；第三種思路是為人工智能嵌入人類道德。第一種思路不研發自主性人工智能會限制人工智能技術發展、阻礙人類文明進步。目前，各個國家把人工智能技術發展提升到國家戰略地位，成為國際競爭的核心技術，人工智能技術是社會進步的新引擎，阻礙或者限制其發展既不現實也不可能；第二種思路增強人工智能系統的透明性，打開算法黑箱，讓人工智能體的行為可以得到解釋。但如果不透明性或者自主性是人工智能系統的本質特征所在，正如人腦不是白箱一樣，不透明性也是人工智能系統的獨特性所在，打開人工智能技術黑箱之路既是不具有理論可能性也是不具有技術可行性的難題；第三種思路把人類道德嵌入人工智能系統，這種思路成為價值對齊的最佳選擇。文森特·邦尼曼斯（Vincent Bonnemains）、克萊爾·索雷爾（Claire Saurel）等人在《嵌入倫理：技術和倫理挑戰》[6]（41-58）中提出一種可以被人工倫理推理的形式化的方法，該方法包括用形式化的工具來描述一個情境和倫理原則模型，并解釋為什么一個給定的規定在倫理上是可接受的，或者說是不可接受的。納文·森達爾·戈文達拉朱魯（Naveen Sundar Govindarajulu）和塞爾默·布林斯霍爾德（Selmer Bringsjord）在其論文《道德規范必須嵌入機器人的操作系統》[7]（85-99）中提出通過設計把人類道德嵌入人工智能系統中，讓人工智能系統具有道德決策能力。嘗試將人類道德嵌入人工智能體，讓人工智能可以按照人類道德行動，從而讓機器行動符合人類價值觀，即發展人工智能技術是為了人類的福祉和價值目標。

2.人工智能價值對齊的原則

人工智能價值對齊原則的提出可以追溯到艾薩克·阿西莫夫（Isaac Asimov）。1942年，美國科幻作家阿西莫夫提出，隨著機器的自主性越來越強，要制定相應的原則維護人工智能技術安全，他提出了著名的機器人學三大法則，即：“一、機器人不得傷害人類，或因不作為而使人類受到傷害。二、除非違背第一法則，機器人必須服從人類的命令。三、在不違背第一及第二法則的情況下，機器人必須保護好自己。”[8]（1）阿西莫夫試圖提出的發展機器人的三大法則是人工智能價值對齊的最初原則，其他學者承繼阿西莫夫的機器人學法則，從不同視角對人工智能對齊的原則和方法進行探索。艾倫·J.湯姆森（Alan J Thomson）和丹尼爾·L.施莫爾特（Daniel L. Schmoldt）提出，計算機系統的開發本身就需要引入社會倫理和道德治理機制，提高代碼本身的質量[9]（85-102）。2006年，吉安馬爾科·維格（Gianmarco Veruggio）主張機器人的設計者、制造者、編程者和使用者應對機器人的社會后果進行控制監督，使機器人造福于人類[10]（2-8）。瑞安·湯肯斯（Ryan Tonkens）提出了什么樣的人工智能機器可以被創造的問題，分析了組織和個人應該承擔的道德責任[11]（421-438）。還有一些學者立足于人工智能價值對齊原則的具體可操作性內容進行分析。例如，2015年，美國人工智能專家斯圖亞特·羅素（Stu？ art Russell）、“開放慈善項目”（Open Philanthropy Project）的項目經理丹尼爾·杜威（Daniel Dewey）與麻省理工學院物理學教授、未來生命研究所（Future of Life Institute）創始人邁克斯·泰格馬克（Max Tegmark）提出人工智能價值對齊原則，將其表述為“我們如何建立與人類價值觀一致的自治系統？”[12]（105-114）2023年10月，北京大學、劍橋大學、卡耐基美隆大學等聯合發表《人工智能對齊：全面性綜述》[13]就如何確保AI系統的行為與人類的意圖和價值觀保持一致提出四個關鍵原則，即：魯棒性（Robustness）、可解釋性（Interpretability）、可控性（Controllability）、倫理性（Ethicality）原則（簡稱為RICE原則），其中魯棒性原則指的是人工智能系統具有穩定性，人工智能系統具有抵御外在或內在干擾而維持系統正常運行的能力；可解釋性原則指的是人工智能系統自主性、系統決策過程、推理方法、模型推理等具有透明性，可以被人類理解和解釋；可控性原則指人工智能系統的行為由人類指導，人類能夠對人工智能系統進行有效的監督、干預和糾正等；倫理性原則指的是人工智能系統堅持全球價值標準，符合人類社會的價值觀。這四個人工智能對齊原則指導人工智能系統與人類意圖和價值觀相一致。但總的來說，這四個原則只有倫理性涉及人工智能倫理對齊的原則，魯棒性、可解釋性和可控性屬于人工智能系統的安全性原則，且這四個原則本身并不是最終目標，而是服務于人工智能對齊的中間階段的目標，人工智能對齊的最終目標要符合人類價值觀，維護人類的尊嚴和福祉。

3.人工智能對齊的方法

只有指導性原則而沒有具體的實施方法也不能達到人工智能價值對齊的目標，學者意識到這個問題，紛紛給出人工智能價值對齊的方法。拉森·加布里埃爾（Lason GabrielIason）在論文《人工智能、價值與對齊》[14]（411-437）中給出了人工智能對齊的三種方法：（1）研究世界各地的人們持有的道德信仰之間是否有一種全球性的重疊的共識（global overlapping consensus）；（2）試圖用“無知之幕”（veil of ignorance）的理念為人工智能建立正義原則模型；（3）利用社會選擇理論來結合不同的觀點，滿足大多數人的偏好，通過社會選擇解決價值取向不同的問題。第一種方法面臨著人類多元價值觀融合難題，國際組織和行業學會從共同規范和職業道德方面關注全球重疊共識的形成，不同行業學會和職業群體積極參與，提出不同的價值對齊方案。有的行業學會或者組織從職業道德層面關注倫理對齊設計。例如，2015年，美國電氣與電子工程師協會（IEEE）提議了人工智能的“倫理對齊設計”（Ethi？ cally Aligned Design，簡稱EAD）的指導方針。2016年發布第一版“倫理對齊設計”倡議，2017年12月發布了《倫理對齊設計：將人類福祉與人工智能和自主系統優先考慮的愿景》報告，呼吁將人類規范和道德價值觀嵌入人工智能系統中。這些方案比較宏觀，缺少具體的技術要求和具體可實施的設計標準。加布里埃爾的第二種價值對齊方法涉及羅爾斯的“無知之幕”思想實驗。無知之幕要求規則制定者對于社會信息完全掌握且是基于完全理性的，并且要求規則制定者擁有相同的效用函數和風險偏好。人工智能系統不具有人類一樣的倫理主體地位，即便行為方式符合規范原則，但若對這些倫理規范的合理性缺少理解和把握，就不可能嚴格按照羅爾斯的“無知之幕”來運行。第三種方法是利用社會選擇理論滿足大多數人的價值目標和價值偏好，但利益相關者的不同價值訴求差異性以及價值觀的多元性和復雜性，也使得社會選擇具有盲目性，不同時期具有不同的價值共識、不同行業具有不同行業的道德共識，通過社會選擇理論難以真正實現人工智能對齊。

通過上述對人工智能價值對齊的思路、原則和方法的挖掘，我們可以看出，學者對于人工智能對齊的研究要么是基于人工智能體的技術規范的研究，缺少對設計者行為或者意圖的研究，缺少對人工智能設計者和人工智能系統的兩個維度的關注；要么是基于職業倫理進路分析人工智能價值對齊，缺少對人工智能技術的倫理困境的分析和哲學視角的反思，學者更多的是對人工智能對齊重要性的分析，缺少對人工智能對齊路徑的具體分析。如果想實現人工智能價值對齊，就必須分析人工智能系統的倫理地位，必須分析其對齊過程中的倫理疑難，必須把其倫理原則轉化為技術設計標準，從而真正達到人工智能價值對齊的目標。

三、人工智能的倫理疑難及其哲學路徑分析

人工智能對齊既是規范性問題也是技術性問題，規范性問題主要表現在人工智能需要對齊哪些人類價值，需要把哪些道德規范嵌入人工智能系統，技術性問題是人工智能價值對齊需要哪些技術設計標準。人工智能系統越復雜，其面臨的道德問題也越復雜，技術難度也就越高。如何通過技術手段讓人工智能系統體現人類意圖，與人類的價值觀和目標相一致呢？這是需要深入探討的問題。

1.人工智能技術研發和使用是一個規范性問題

人工智能技術發展的規范性是人工智能價值對齊的前提和基礎。人工智能對齊是一個規范性問題，人類決定研發和使用什么樣的人工智能技術，人工智能技術的適用范圍和應用場景，以及需要什么樣的人工智能由人類來決策。人類預先在人工智能技術研發之初對技術風險進行前瞻性評估，評估技術潛在風險和社會影響以及對人類主體性地位的挑戰，決定人工智能的研發可能性和使用范圍。雖然人工智能技術具有自主性，具有自我推理和自我決策能力，但人類是人工智能技術的“造物主”，人類可以選擇研發和使用人工智能系統的類型和屬性，可以決定具體的人工智能技術研發邊界，控制其使用規模，消除其負面影響和潛在風險。人工智能系統的道德地位由人類來選擇和決定。人類的作用還表現在不能把人工智能體看作完全依賴于自身自主性的獨立主體，具體的人工智能技術出現是人類基于自身利益進行選擇的結果。因此，人工智能技術的研發和使用是一個規范的問題，而不是描述性問題。

2.人工智能對齊的規范性分析

規范性分析涉及很多方面，首先是人類價值多元性問題。人類價值外延豐富，包括生命、健康、安全、自由、正義、平等、仁慈原則等。人類價值具有復雜性和社會性。其次，道德主體價值目標多樣性和價值訴求多樣性。不同道德主體具有不同的價值目標，不同利益相關者之間的價值訴求是不同的。例如，人工智能系統研發者注重算力，人工智能系統運用者注重效益，人工智能系統用戶注重系統的可信賴性，政府部門注重人工智能系統使用的公平性和社會影響等。再次，道德的動態性與人工智能程序的變動性，當價值本身保持不變時，對價值的理解或解釋可能發生變化。例如“安全”價值，在自動駕駛汽車設計中，可以指駕駛員和乘客的安全（乘員安全），也可以指路人的安全。最后，人工智能價值對齊實施過程中可能產生價值沖突或者陷入倫理困境，例如，自動駕駛汽車危急時刻的決策到底是以車內人優先還是以行人優先？我們不能因為價值多元性和變動性而否認全球價值共識的可能性，雖然各利益相關者價值訴求各有不同，但所有人都注重人工智能系統的安全性和可解釋性。

人工智能對齊是人工智能系統設計和發展的目標，也是人工智能技術發展的過程，就像在海上一直航行的特修斯之船一樣邊走邊修，在人工智能技術發展過程中糾偏正向，通過在設計中包含人類意圖，在算法運行中符合和體現人類價值觀，最終實現與人類根本利益一致的目標。為了實現這樣的目標，需要在設計中嵌入人類價值，需要在算法運行過程中協調不同利益相關者的利益。2017年，千名人工智能相關領域的專家聯合簽署了《阿西洛馬人工智能23條原則》，旨在指導全球AI技術的發展，其中重要的一條原則是倫理和價值原則，即AI系統的設計者和建設者有責任和機會塑造這些道德含義，確保其目標和行為與人類的價值觀相一致。AI系統應遵守人類的價值觀，包括尊嚴、權利、自由和文化多樣性。2023年11月1日，在首屆全球人工智能安全峰會中，中、美等28國通過《布萊切利AI宣言》（Bletchley Declaration），旨在表達對未來強大人工智能模型對人類生存造成威脅的擔憂，以及對當前人工智能增強有害或偏見信息的擔憂，希望通過法規等方式降低相關風險，同意通過國際合作，建立人工智能的監管體系。亞馬遜、微軟、谷歌、IBM、Facebook和蘋果聯合建立了人工智能行業聯盟，共同研究和制定人工智能技術的最佳實踐方案。

3.人工智能對齊的技術性問題分析

人工智能對齊需要將人工智能對齊的技術可操作性難題和人工智能對齊的價值目標轉化為技術標準進行分析。首先，人工智能對齊不同技術路線存在可操作性難題。人工智能技術有符號主義人工智能、聯結主義人工智能和行為主義人工智能等不同的技術路線。符號主義人工智能通過數理邏輯、啟發式算法等技術讓機器具有推理能力，讓機器具有計算智能；聯結主義人工智能利用仿生學模擬人類大腦生物結構和神經網絡，讓機器具有感知智能；行為主義人工智能通過像人一樣思考和行動讓機器具有了認知智能。技術路線的復雜性為人工智能對齊帶來技術可操作性難題。其次，技術的不透明性和算法黑箱帶來人工智能對齊的技術可操作性難題。人工智能系統具有復雜性和不透明性，算法黑箱是人工智能系統的固有問題，人工智能系統具有自主性和自我推理、自我決策能力，不受外界干擾，并非完全按照人類設計的算法來行動，因此，算法黑箱使得讓人工智能技術發展符合人類的價值目標遇到難題。最后，人工智能技術應用場景的多元性為技術可操作性帶來困難。不同場景有不同的技術要求和設計標準。例如，人工智能虛擬助手需要能理解并回答用戶的問題，執行一些簡單的任務，如設置提醒、播放音樂或提供天氣預報等。個性化推薦場景需要運用推薦算法進行商品推薦。自動駕駛場景需要識別路標、預測行為和進行決策等。人工智能技術應用場景的復雜性為人工智能對齊帶來技術難題。

人工智能對齊的倫理規范和具體的技術設計標準之間存在難以跨越的邏輯鴻溝，道德是人類的屬性，而設計需要具體的技術標準和技術規范，倫理規范如何轉換成設計標準是一個邏輯難題。如果不能搭建倫理規范與技術設計標準之間的橋梁，則無法跨越這個邏輯鴻溝，人工智能對齊的目標也就無法真正實現。為了實現人工智能對齊的目標，需要解決兩個問題。首先，技術具有道德調節作用是人工智能對齊的技術前提，如果技術不能調節道德，不能把道德嵌入物中，則不能實現人工智能價值對齊的目標。荷蘭特溫特大學的彼得-保羅·維貝克（Peter-Paul Verbeek）認為技術具有道德調節作用，人類可以把價值嵌入技術人工物中[15]（361-380）。其次，需要把價值目標轉化為具體的設計標準。價值對齊不是掛在嘴邊的口號，為了能成功落地，必須把不同場景的價值目標轉化為具體的設計標準，實現價值目標的具體場景落地，比如人工智能系統的“安全性”價值目標可以轉換為“技術魯棒性”“安全可中斷性”等技術設計標準；人工智能系統的“可解釋性”價值目標可以轉換為“故障透明性”“數據可追溯性”等設計標準；人工智能系統的“公正性”價值目標可以轉換為“避免算法歧視”“避免算法濫用”等設計標準；人工智能系統的“可控性”價值目標可以轉換為“系統可追蹤”“系統可追溯”設計標準等。只有這樣，才能實現真正的人工智能技術的價值對齊，才能安全地使用人工智能技術，才能把人工智能技術限制在可控范疇內。

結語

人工智能技術在社會中的地位是一個規范性問題，技術本身沒有道德性，使用技術的人的道德水平決定了技術發展的方向和可能性，是人類決定具體人工智能技術的研發和使用邊界，人為人工智能技術立法。人類研發和使用人工智能系統是為了減輕負擔，增強人類福祉，應該在研發和使用過程中體現人類意志和價值觀，但因人工智能系統的復雜性、自主性和算法的不透明性，人工智能價值對齊并非一蹴而就，人工智能價值對齊既是一個目標也是一個過程。為了實現人工智能價值對齊的目標，必須先對人類價值觀進行考量和分析，再在具體的人工智能技術發展過中實現價值對齊的目標。人類研發和使用人工智能系統必須尊重人類的選擇，符合人類的意愿和價值觀，維護人類尊嚴，確保人類的主體性地位，以實現人類的自由和解放為最終價值目標。

[參考文獻]

[1]WIENER N. Some Moral and Technical Consequences of Automation[J].Science，1960，131（3410）.

[2]BRIAN C. The Alignment Problem：Machine Learning and Human Values[M].Norton：W.W.Norton Compa？ ny，2020.

[3]DIGNUM V. Responsible Artificial Intelligence：How to Develop and Use AI in a Responsible Way[M].Swit？ zerland：Springer Nature，2019.

[4]BRYSON J，WINFIELDA F T. Standardizing Ethical Design for Artificial Intelligence and Autonomous Systems[J].Computer，2017，50（5）.

[5]梅拉妮·米歇爾.AI 3.0[M].王飛躍，李玉珂，王曉，等譯.成都：四川科學技術出版社，2021.

[6]BONNEMAINS V，SAUREL C，TESSIER C. Embedded Ethics：Some Technical and Ethical Challenges[J].Eth？ ics and Information Technology，2018（20）.

[7]GOVINDARAJULU N S，BRINGSJORD S.Ethical Regulation of Robots Must Be Embedded in Their Operating Systems[C]//TRAPPL R（ed.）. A Construction Manual for Robots’Ethical Systems：Requirements，Methods，Implemen？ tations.Springer International Publishing，2015.

[8]阿西莫夫.銀河帝國8：我，機器人[M].葉李華，譯.南京：江蘇文藝出版社，2013.

[9]THOMDON A J，SCHMOLDT D L. Ethics in Computer Software Design and Development[J].Computers and Electronics in Agriculture，2001，30.

[10]VERUGGIO G，OPERTO F. Roboethics：A Bottom-up Interdisciplinary Discourse in the Field of Applied Ethics in Robotics[J].International Review of Information Ethics，2006（12）.

[11]TONKENS R. A Challenge for Machine Ethics[J]. Minds and Machines，2009，19（3）.

[12]RUSSELL S，DEWEY D，TEGMARK M. Research Priorities for Robust and Beneficial Artificial Intelligence[J].AI Magazine，2015，36（4）.

[13]JI J，QIU T，CHEN B，et al. AI Alignment：A Comprehensive Survey[J/OL].[2023-10-30]. https：//arxiv.org/ abs/2310.19852.

[14]GABRIEL L. Artificial Intelligence，Values，and Alignment[J].Minds and Machines，2020（30）.

[15]VERBEEK P-P. Materializing Morality：Design Ethics and Technological Mediation[J].Science，Technology and Human Values，2006，31（3）.

（責任編輯：孫保學）

倫理學研究2024年4期

倫理學研究的其它文章: 社交媒體健康傳播的倫理問題及規制; 泰州學派“百姓日用即道”思想對生態倫理建構的現實價值; 羅爾斯式的職業選擇自由是一種基本自由嗎？; 電車難題再審視：從“悲劇性的”情形與后果評價談起; 算法主義的倫理批判; 德雷福斯解決文明間倫理沖突的方案