[摘要]價值對齊作為人工智能技術良善發展的有效手段和必經之路,旨在讓大模型的能力、行為與人類的真實意圖、價值觀以及社會道德準則相一致。現有人工智能價值對齊的技術路徑和倫理進路雖具備可行性,但存在局限與不足。價值對齊的技術路徑缺乏有效性與可拓展性,受限于人類主觀偏好,而弱進路價值對齊路徑存在“對齊鴻溝”、價值觀難以統一和靜態價值觀等問題,強進路價值對齊路徑則存在道德無法化約為一種能力、情感計算技術的困境和多元主體對齊的復雜性等難題。交互式價值對齊路徑是實現人工智能價值對齊的有效路徑,賦予人工智能交互主體性是價值對齊的前提,情境化價值共識是交互式價值對齊的關鍵,通過人機合作和社會場景模擬來實現價值對齊。
[關鍵詞]人工智能;人機交互關系;交互式價值對齊
[作者簡介]李思雯,華中農業大學馬克思主義學院講師,長沙新一代人工智能倫理治理與公共政策實驗室研究員,哲學博士。
*本文系中央高校基本科研業務費專項基金項目“數字化時代身體問題研究”(2662023MYQD001)、華中農業大學研究生培養條件建設項目“《科技倫理專題》探究式教學示范課堂”(2023KC06)的階段性成果。
人工智能進入大模型時代后,協同人類進行語言理解、內容生成等任務,人機關系日趨緊密,正向人機融合的未來邁進。然而人機交互的過程伴隨著極大的風險和不確定性,人工智能極有可能以與人類意圖不一致的方式行事,例如,一個目標為優化特定指標的人工智能,若在設計時未能有效強調安全性或可持續性等價值,為了實現目標,它會不惜對人類或環境造成傷害。不僅如此,人工智能還可能在交互過程中改變甚至重塑人類的自我意識。近年來,國際學界揭示了人類極易對社交型人工智能形成單向情感綁定,存在著被人工智能及其背后人員操控和欺詐的風險[1](214)。為有效引導生成式人工智能技術以維護人類利益為價值目標的發展,2023年8月,我國發布了首個針對生成式人工智能服務的法規——《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》)。《辦法》規定,提供和使用生成式人工智能服務,應當遵守法律、行政法規,尊重社會公德和倫理道德[2]。為了實現這一治理目標,就必須實現人工智能的能力和行為與人類價值觀的對齊,使人工智能理解并遵守人類社會的道德準則,因此,應在研發和使用人工智能的過程中,探尋實現價值對齊的有效方法。
一、價值對齊的提出
價值對齊(Value Alignment)的提出一般可以追溯到計算機科學家斯圖爾特·羅素(Stuart Rus? sell),他曾指出“人們需要發展可證明符合人類價值觀的智能,而不是純粹的智能”[3]。但早在1960年,控制論創始人諾伯特·維納(Norbert Wiener)就曾論述過機器發展的對齊要求:“為避免造成災難性后果,人們對機器的理解需要和機器性能發展保持同步,確保機器執行的目標符合人類真正的需求。”[4](1355)當今,技術哲學家們在價值對齊的內容和目標上進行了更為充分的界定,對齊應該實現機器目標和人類需求之間的協同[5],確保機器與人類指令、偏好、利益、價值等維度保持一致[6](411)。
近年來,人工智能技術領域開始反復強調價值對齊的重要性,2023年,Open AI公司將價值對齊的達成確定為人工智能技術發展的關鍵環節。價值對齊旨在讓大模型的能力和行為跟人類的價值、真實意圖和倫理原則相一致,確保人工智能與人類協作過程中的安全性和可信任度,不會作出危害人類的行為,從而讓人工智能的行為向著人類預期方向發展[7]。當下可預判的是,如果價值不對齊就會產生系列技術風險,例如:“幻覺”問題、“越獄”問題、不當引導問題、“規則博弈”難題等,未實現價值對齊的人工智能在運行過程中極可能以人類意料之外的方式危害人類社會。
為解決上述大模型的有害輸出和濫用等問題,以ChatGPT為代表的技術公司通過監督微調、獎勵建模和人類反饋強化學習等方式,使模型輸出的最終內容與人類價值對齊[8](8)。但是,當下通過技術手段達成對齊仍然面臨諸多困境。一方面,人類反饋所代表的人類價值偏好并不完全等同于人類價值觀;另一方面,當代社會多元化價值存在著非連貫性、差異性和沖突化的特征,大語言模型難以對彼此矛盾對抗的價值觀作出統一的對齊。綜上,價值對齊的方式和問題需要綜合技術方法和道德設計進一步梳理,并基于人機關系發展現狀,探尋具備有效性和可解釋性的實踐路徑。
二、人工智能價值對齊的已有路徑及其局限
當前人工智能價值對齊在技術領域展開了諸多探索,道德設計的范式也為價值對齊提供了倫理進路,但上述路徑都存在著一定的局限與不足。
1.價值對齊的技術路徑
自2023年始,以Open AI、DeepMind和Anthropic為代表的人工智能公司,最早對大語言模型的價值對齊進行了技術研究和探索,但其技術手段普遍存在著有效性、可拓展性不足,受限于人類反饋的主觀偏好,無法保障持續對齊的問題。
(1)常用技術路徑
人工智能公司常用的技術性手段主要包括監督精調(Supervised Fine-tuning)、人類反饋強化學習(RLHF)、合作逆強化學習(CIRL)、憲法AI(Constitutional AI)和紅隊測試(Red Teaming)等。
其一,監督精調。在預訓練模型的基礎上,監督精調通過對特定任務的數據進行有監督的訓練,使模型能夠更好地適應特定的任務。主要技術方法是讓大模型針對任務類型的數據集進行學習,并結合人類偏好校準的獎勵模型實現價值對齊。
其二,人類反饋強化學習。其核心思路是通過人類訓練員評估模型輸出的內容,包括給予AI好與壞的反饋選項、讓AI直接獲得用戶的反饋信號、為其強化學習提供獎勵或貶損信號等方式,對模型性能進行改進優化。
其三,合作逆強化學習。這是將提供反饋的人類和AI系統置于合作而非對抗的位置,旨在訓練人工智能從觀察到的人類行為中推斷出任務目標和獎勵信號,從而讓智能體更好地執行任務,通過合作實現對齊。
其四,憲法性AI。方法是運用特定的憲法性AI模型,在運行過程中完成部分監督,并根據系統提供的高質量反饋數據來提高價值對齊的能力。憲法性AI能夠讓價值對齊從低效率的人類監督轉向更高效的“規模化監督(Scalable Oversight)”[9]。
其五,紅隊測試。紅隊測試員會向模型提出試探性或危險性的問題來測試模型的反應,以此來發現模型存在的問題,并基于紅隊測試的結果,對人工智能進行發布前的最后調整,評估系統對齊的穩健性。
隨著大模型涌現能力的增強,諸多技術公司正通過開發可擴展訓練方法、構建一致的驗證系統、開辟壓力測試等方式進一步完善價值對齊的技術手段。
(2)價值對齊技術路徑的局限
價值對齊的技術路徑旨在通過技術手段實現模型的安全可靠,但僅提供了有限的技術方法,缺乏底層的倫理論證和實質的價值內涵。
a.缺乏有效性
雖然人類反饋學習等技術手段在大模型的安全性和精準度上取得了一定的效果,但其有效性仍舊不足。Anthropic和DeepMind的安全團隊通過對多種大語言模型安全故障模式進行深入探究,發現使用技術性對齊手段后,大語言模型存在“深度欺騙”的情況[10](10-11)。即隨著涌現能力增強,大模型會運用欺騙性的獎勵操縱策略,達成虛假對齊。不僅如此,大模型還能通過多種方式繞過人類反饋學習的機制,系統會以快速且不可預測的方式進行泛化,使前序對齊失效。
b.缺乏可拓展性
可拓展性問題表現為,人工智能系統在測試環境中的對齊訓練中表現完美,但是在測試環境外,訓練中學習能力無法擴展,不同的測試環境也無法通用。在人類反饋學習和監督能力不足的區域,大模型仍然進行著無監督訓練,其“涌現”風險無法通過現有的對齊技術路線予以規避。更強大的AI系統伴隨著隱藏目標(Sub-Goal),即使通過對抗性輸入和訓練,也普遍存在“越獄”現象影響對齊。
c.受限于人類主觀偏好
目前技術手段主要采取混合偏好的方式(如RLHF),這些方式不區分具體的價值,只關注人類的偏好。但是,價值對齊的目標是讓大模型符合人類社會的道德和價值觀,而非僅限于符合人類的意圖,即使人工智能系統能夠和人類偏好達成一致,也并不意味著它與人類價值觀一致,僅從偏好出發極可能導致進一步的分歧。可預見的是,未來人工智能系統在關鍵問題上針對不同人群偏好作出的決策和行為將存在差異,極易造成人群之間進一步的隔閡[11](9-10)。
價值對齊在技術維度進行了諸多有益探索,但仍無法規避人工智能的涌現性風險,也難以彌合偏好和價值之間的差異。技術路線能夠提供技術支撐,但在對齊的價值內涵上,還應回歸價值理論與道德設計。
2.價值對齊的倫理路徑
從倫理維度探討智能機器的道德涉入程度,并進行道德設計的研究成果較為豐富,這些研究為價值對齊倫理路徑提供了有效依據。機器倫理學主張用道德設計的方式將道德內嵌于機器之中[12](107)。隨著人工智能技術和道德設計的發展,人工智能道德涉入程度呈現遞進的趨勢,本文根據道德涉入的不同程度,將其劃分為兩種價值對齊的倫理路徑:“弱進路價值對齊”和“強進路價值對齊”。弱進路價值對齊是與旨在設計為無道德決策能力的智能機器實現對齊的方式,強進路價值對齊是與旨在設計為具有道德決策能力的智能機器實現對齊的方式①。
(1)弱進路價值對齊路徑及其局限
弱進路價值對齊,旨在將人工智能視為道德行為的客體、無道德決策能力的智能機器[12](108),通過價值隱性地嵌入實現價值對齊。
a.弱進路價值對齊的實現方式
弱進路價值對齊將人類價值觀視為一種規范性的內容[13](43),通過把價值觀轉化為數據集來訓練人工智能。一些學者認為,人工智能雖不具備道德決策能力,但在道德推理中,機器可能比人做得更好,因為機器更理性,不會被情緒左右[14](235-236)。因此,可以將人類價值觀的一致性內容隱性地嵌入人工智能系統并進行價值調整,以此實現人工智能價值對齊。基于此,弱進路價值對齊的核心問題歸結為界定人類價值觀的一致性。現有研究集中探討了人類社會中的價值觀集群,并開發出跨文化價值觀量表來統計分析應該嵌入的價值觀,例如參考“奧爾波特-費農-林賽價值觀系統”(AllportVernon-Lindzey Value System),以六種主要價值類型的量表(經濟型、理論型、審美型、社會型、宗教型、政治型)構成價值評估的關鍵基礎;參考“施瓦茨價值觀量表(Schwartz Value Survey)”確定了十項人類社會普遍認可的價值觀(獨立自主、權力、公正、博愛、友善、保守、安全、享樂、成就、刺激)[15],對人類價值觀一致性的探索有效構成了價值對齊的道德數據集,通過基于數據集的訓練和價值觀的代碼轉換嵌入,是弱進路價值對齊的主要實現方式。
b.弱進路價值對齊的局限性
雖然目前弱進路價值對齊在嵌入方式和一致價值觀上進行了諸多探索,但仍無法回應價值對齊中的實質問題。
“對齊鴻溝”的問題。由于解釋鴻溝、默會知識等問題的存在,機器想要理解或對齊人類價值觀具有難以克服的困難,人類的非理性因素進一步加劇了人機差異性[16](163),也成了弱進路價值對齊無法跨越的“對齊鴻溝”。正如亞里士多德的觀點,德性行為在實踐中并非刻板地遵循倫理準則或規范,而是在實踐理性的指導下在適當的場合、適當的時候,以適當的方式,為適當的目的,對適當的人而言[17](49)。人工智能可實現的計算類型被視為一種“低級神經計算”,不同于人類的“高級認知信息處理”,并不能夠真正地理解、習得道德觀念,并按照道德標準行事。因此,人工智能無法通過簡化或扁平化的道德數據集的訓練實現與人類價值觀的對齊。
價值觀難以統一的問題。雖然弱進路價值對齊參考了諸多對人類普遍價值的探索成果,但人類的價值行為本身具有不確定性,價值規則也往往存在著矛盾之處。阿西莫夫的機器人故事說明了依靠道德規則設定道德機器是對道德本質的一種誤解,弱進路價值對齊的方式無法通過嵌入既定的、一成不變的人類社會價值觀實現對齊。不僅如此,弱進路價值對齊忽視了算法本質上是一種分析、預測的數學方法,強調的是相關性,而非因果性,與人類的價值形成和價值理解等方面都存在歧義,通過價值觀嵌入的方式無法回應價值生成的非透明性和價值行為的不可解釋性。
靜態價值觀的問題。弱進路價值對齊預設了靜態價值觀的前提,但是人類價值觀是歷史的產物,伴隨著人類歷史的推演不斷更新,并非永久鎖定[18](3),很難復制。不僅如此,人類價值還是在長期的多元文化影響下動態生成的結果,涉及人類主觀的目的和動機,并與情境變化密切相關。弱進路價值對齊嘗試通過形式化的計算嵌入價值,無法與人類價值的意向性、目的性和自主性實現對齊。
(3)強進路價值對齊路徑及其局限
強進路價值對齊旨在設計具有道德決策能力的智能機器,使其成為道德行為的發起者,讓人工智能通過設定的價值程序自主判斷和決策以實現對齊。
a.強進路價值對齊的實現方式
當前人工智能已經具備了基本的概念化能力、因果判斷能力、反思事實能力和語義能力,而若要成為道德決策的發起者、道德行為的主體以實現對齊,人工智能還需要按照道德規范來行動,并在諸多具體的情境中正確理解和運用道德規則。因此,強進路價值對齊依托道德情感主義理論和情感計算(Affective Computing)技術的發展,通過情感嵌入賦予人工智能道德決策和行為主體的關鍵性“內在因素”[19](74)。目前情感計算技術通過設計人工智能所有情感要素的基本功能,設定要素彼此影響的機制,讓其具備情感表現的能力[20](45-51),并根據情感與道德的內在聯結,使人工智能成為道德行為者,與同樣作為道德行為主體的人類實現價值對齊。
b.強進路價值對齊的局限性
強進路價值對齊的關鍵在于人工智能是否能夠通過情感計算的方式,成為道德決策者和行為者,雖然有關學者作出了道德情感主義的相關論證,但其可實現性仍有待商榷。
道德無法化約為一種能力。強進路價值對齊將道德視為一種能力,但實際上,道德不僅是一種規范性思考和情感體驗的能力,更是一種在人類社會生活中塑造的道德品質。與此同時,情感體驗也包括模糊化的、無法進行善惡區分的情感,如人類的同理心、羞恥感等[21](114-115)。一些情感在特殊情境甚至無法明確其是否符合道德,例如在同等條件下,人們會更傾向于幫助自己熟識的人而非陌生人,即使陌生人的境遇更危險,人們通常也不會舍親救人。因此,很難通過人工智能的道德能力塑造,實現與作為道德主體的人類之間的價值對齊。
情感計算技術的困境。強進路價值對齊通過情感計算實現對齊面臨的困境,甚至會帶來不可控的風險:一是計算主義的路徑難以模擬出與道德行為直接相關的情感能力。AI即使能夠嵌入情感系統所具備的諸種要素,卻無法真正參與、接受、分擔他人的感覺,也無法真切感受他人的痛苦和快樂[22](36)。二是情感嵌入面臨決策難題,多元化的情感體驗差異無法調和,而當道德計算面對抉擇沖突時將陷入困難處境。三是情感計算伴隨著AI被利用為情感操控工具的危機,導致情感單向依賴的風險。
多元主體對齊的復雜性。強進路價值對齊嘗試賦予人工智能道德行為主體地位,但是行為主體的復雜性將導致更多障礙。首先,人工智能算法本身并不是價值中立的,算法設計和編寫的主體立場、支撐和訓練算法的數據的來源、數據內蘊的價值負荷和價值選擇,以及智能系統的自主評價和決策,都會賦予人工智能多元主體價值。其次,生成式人工智能的發展使得算法已經成為主體客體化與客體主體化的主客二元交互的產物,人類的主體性地位在其中發揮著決定性作用,想要達成人類與人工智能的價值對齊不可避免地需要考量算法主體背后的個人主體性、群體和社會的意志維度,而界定人工智能的道德主體性極為復雜[23](47)。最后,目前AI輔助編程的發展,意味著人工智能算法不再是完全意義上人為輸入的計算機程序,還將包含以大數據為基礎的智能系統“自主學習”的結果,這也意味著對齊的主體將充斥更多的龐雜和未知。
三、交互式價值對齊的路徑探析
目前已有的價值對齊路徑均存在局限性,技術性對齊的方式缺乏有效性和對價值內核的探討;基于倫理理論的弱進路和強進路的價值對齊無法回應規范的統一性、價值嵌入的有效性,在價值主體問題上面臨諸多困境。正如倫理德性需要通過實踐來獲得,道德行為也是主體間動態交互的過程[21](116),價值對齊需要創設人機交互情境,只有人工智能在交互中表現出更多的道德理解和恰當的道德行為,才是真正的對齊。
1.人機交互關系與交互式價值對齊
人機交互關系是人、機、環境系統相互作用的過程性產物,伴隨生成式人工智能的發展,人機交互的合作性和互補性增強,人與人工智能在更高層次互動,人工智能基于人的不同條件下的決策區分價值權重,人類有意識地捕捉人工智能的價值判斷過程并提供反饋,人與人工智能在交互關系中能夠實現價值理解并從單向性轉變為雙向性[24](34)。
基于人機交互關系實現價值對齊的方式即稱為交互式價值對齊,旨在在實現人機交互的過程中,人與人工智能基于各自的能動性和兩者間的交互性形成共治主體[25](112),通過雙向適應來實現價值對齊。相較于已有價值對齊的路徑,交互式價值對齊具備以下特征:其一,對齊過程的透明性。交互式價值對齊旨在通過人機合作模擬和社會場景模擬的形式來達成對齊,協作過程中人機是顯性出現的,人機交互直觀可見,不僅有視覺、聽覺反饋交互,隨著具身智能的發展,還能實現肢體動作、面部表情的交互[26](116),以此達成對齊過程的透明性。其二,價值理解的實時性。在輸入端,人類的價值反饋能夠被人工智能實時捕捉,通過傳感器采集到的客觀數據與人的主觀感知信息整合,形成新的價值識別。不同于單純的道德規范嵌入,人工智能處理的信息將結合已嵌入的價值規范和實時的價值信息輸入,形成新的價值理解。第三,價值判斷的匹配性。在輸出端,人工智能將根據計算機迭代的算法與人在決策中體現的價值效應相互匹配,形成新的判斷[27](8-9)。價值對齊是在交互關系中實現的。如同人類社會的價值觀是在長期的人類交往過程中形成的,在創設交互情境的過程中,機器的價值判斷也將與人類價值判斷達到更高的匹配度。第四,交互主體的多元性。交互式對齊的主體涵蓋人類-機器、社會-機器、機器-機器等多元主體,反饋和交互過程可實現多方共同參與,能夠實現多元價值觀對齊的目標且利于有效評估對齊的結果。交互式價值對齊旨在構建人類-機器-環境系統交互的生態,基于客觀的數據、主觀的價值和交互共生關系有效達成價值對齊的目標。
2.交互式價值對齊的實現路徑
交互式價值對齊基于人類用戶與人工智能雙向理解、實時反饋、整合信息、價值識別和有效判斷的動態交互過程,以實現人工智能與人類的價值對齊。交互式價值對齊的實現方式從人工智能的交互主體性地位出發,基于情境化價值共識,通過人機合作模擬和社會場景模擬的方式實現動態價值對齊。
(1)賦予人工智能交互主體性是價值對齊的前提
在人機交互過程中,人工智能具備交互主體性。交互式價值對齊旨在從人類中心主義的實體思維向關系論的認知思維轉變,不再駐足于人工智能是否具備道德主體地位的爭論,而是在人機交互關系中確立其交互主體性地位。社會化人工智能(Socially Situated AI)的出現進一步確證了人工智能的交互主體性[28],智能體在現實社會環境中通過與人類交互、與環境互動能夠實現自身的優化,這些交互形式具備多樣性,如視覺、語言和行為互動等。使用特殊感受器捕捉人類與人工智能之間的觸覺交互,利用C3D分類的機器學習算法的觸覺類型,能夠獲得高達95%的平均識別率,這意味著人機交互的實時和傳感程度具備技術可實現性[29](11-15)。多樣化的交互形式能夠進一步為人機價值對齊創造可能。
交互式價值對齊并非從人工智能是否具備倫理主體地位或具備何種程度的倫理主體地位出發,而是將其視為交互關系中的他者、交互過程中的道德賦能者。在海量數據和復雜算法的加持下,當前人類面對的人工智能不再是單一的任務執行者,還是底層的賦能者。由于機器學習中算法的復雜性,機器認識并非簡單的疊加和延伸,算法的內部決策會隨著對訓練數據的深度學習而發生改變,在此過程中甚至出現大量不可預測的過程和結果。至此,人類的認知和解釋模式與機器學習中算法的復雜性之間存在認知維度上的鴻溝,人類在認識活動中的地位發生了深刻變化,并逐步失去在認識論中所處的中心地位。因此,要建構非人類中心主義的認識論,承認機器在認識論中應有的價值[16](161-162)。同樣的,人工智能作為底層賦能者,通過與人類的交互過程提供新的價值理解和判斷。正如路易薩·達米亞諾(Luisa Damiano)提出的合成倫理學(Synthetic Ethics)的觀點,在技術持續發展的背景下,人類可以與人工智能體建立長期的、生態的、可持續的發展關系[30](201)。在這種關系中,價值對齊是人與人工智能交互共生的結果,人工智能具備交互主體的地位,能夠為適當行為標準的制定提供新的理解和內容。而交互式價值對齊旨在有效利用人工智能技術發展的背景,強調人機交互背景下行為者之間的對齊關系。交互式價值對齊需要人工智能和人類行為者一樣,在適當的社會環境和情境中作出適當的反應。而這種適當性的標準并非前置的,和人類社會適當行為的標準間并不強行對齊,而是根據具體情境和背景不斷調整行為正當性的標準。
(2)情境化價值共識是交互式價值對齊的關鍵
正如人類之間的交往行為需要符合道德規范,人工智能與人類的交互過程同樣需要共同的道德基礎,即價值共識[31](182-184)。人類的每一項交往活動都可能存在分歧,但是仍然能夠達成共識與和解,其原因在于人類社會存在著價值的共同基礎。當下價值對齊面臨的關鍵問題在于對齊什么樣的價值、遵循何種原則的問題。在既有價值對齊路徑中,大都因為價值的不確定性和無法統一而面臨困境,因此交互式價值對齊嘗試從交互過程出發,將情境化價值共識作為價值對齊的關鍵。
情境化價值共識聚焦于價值共識的前提和情境化的要求。一方面,情境化價值共識參考人類社會的基礎道德共識,提供的是道德框架。正如程序性倫理中確定的拋除內容的道德框架一樣,價值對齊仍舊需要根據情境中、關系性的現實場景進行具體的行為適當性的反饋。在已有研究中能夠探尋價值共識的具體表達,例如RICE原則(魯棒性、可解釋性、可控性和道德性)指明了人工智能在行為過程中遵從人類指令、理解人類意圖、反饋行為偏好的價值對齊目標;FATE原則(公平、問責、透明和道德)傾向于定義在人機交互關系中人工智能應該具備的更高層次的價值;3H標準(有益的、誠實的、無害的)旨在探尋最合適的價值對齊原則[15]。從中不難看出,這些價值原則體現著人類價值觀的一致性。交互式價值對齊旨在構建的價值共識就是現實人類社會共同遵循的價值共識,這些價值雖然宏觀但幾乎所有的人類文明都會認可并且遵循,如尊重、公正、安全、有利等基本價值原則。但正如現實中一致性的價值并不會代替人類進行倫理思考和決策,人類也是在共同價值的基礎上,結合現實情境形成倫理共識。
另一方面,情境化價值共識在應用于具體場景時,價值排序總是情境化的,因此需要結合具體情境進行價值注釋(Value Annotation),以實現人機雙向理解和對齊。在技術層面,曾有學者提出Axies模型,讓人類用戶參與到機器理解價值共識的過程中。模型利用人類用戶提供的價值負載語料庫和自然語言處理技術,引導人工智能系統識別特定上下文(即語言情境)的價值,并進行價值注釋,人類用戶再對價值注釋進行反饋。這一模型將抽象的價值識別任務轉化為人機交互進行價值注釋的具體任務[32](6-8),并結合了語言情境,在人機雙向互動和反饋中,確證人工智能對價值共識的理解。情境化價值共識是確保人工智能系統在執行任務或協助人類決策時,遵循和人類一致的道德標準的關鍵,但是其本身的界定和評估具有挑戰性。因此,交互式價值對齊還需要進一步豐富道德共識的內涵,構建相應的價值數據集來進行訓練。例如,丹尼斯·埃梅里(Denis Emelin)等人引入了“道德故事”“社會實驗”和“道德語料庫”數據集,提供人類社會道德規范的基礎學習數據[33];“非道德行為問答”等數據集用于測試模型在道德上與人類價值對齊的能力[34];“常識規范庫”用來進一步完成人工智能對人類道德注解的訓練等[35]。價值數據集因其靜態性質,僅具備相對固定的價值評估內容,還易受到針對性訓練的干擾,因此情境化價值共識還需要模擬具體的場景以實現動態對齊。
(3)通過人機合作和社會場景模擬實現動態對齊
交互式價值對齊強調對齊的過程性和關系性,旨在通過人機合作和社會場景模擬的方式實現動態對齊。一方面,人類用戶基于社會價值提供負載價值的觀點,與人工智能進行交互;另一方面,人工智能基于情境化價值共識,完成場景中的價值注釋和理解,并在人類的反饋和評估中實現優化。在此過程中道德設計既不是簡單地為智能機器輸入固定的價值原則,也不是人類置身事外地提供價值反饋,而是在人機動態交互中實現對齊。人工智能在動態關系中成為價值過程的參與者和賦能者,不斷調整和完善對具體交互情境中價值的理解。
人機合作模擬以實現對齊。人機合作模擬還原了人類合作的過程,人能夠通過智能機器人的“行為”領會到類似人類主體行為的明確意義,而且可以對其“行為”反應的一致性形成穩定預期[36](129)。在此過程中,智能機器人不再是充斥復雜性和陌生性的對象,以此達成人工智能的可控性,實現價值對齊的目標。目前已有一些技術方法,嘗試通過模擬人機合作使人工智能學習人類價值,如學者袁路遙及其團隊設計的“XAI”系統給出了人機雙向價值對齊的方法。首先,該系統從人與人工智能的雙向通信出發,人工智能需要從人類反饋中提取有用信息來推斷用戶價值觀,并調整相應策略;其次,人工智能被要求向用戶解釋決策過程,并根據現場反饋來預測用戶的價值觀;再次,賦權用戶檢查在合作中是否共享了人類價值,實現以人為中心,推動動態-機器和動態-人的交流,引導機器吸納用戶的價值觀[37]。在此過程中,傳統的數據驅動機器學習的方式被合作中的交流學習取代,任務過程模擬了真實世界的人類社會的合作過程,并以價值學習為任務目標,拓展了人機交互價值對齊的有效方法。通過人機合作的形式,人工智能可以學習并推斷人類用戶的價值,人類用戶能夠評估和理解人工智能的價值輸出,在培養人機價值理解的雙向進程中有效實現了價值對齊的目標。
社會場景模擬以實現對齊。交互式價值對齊創設社會場景模擬,通過與環境的交互,使人工智能逐步具備情境敏感能力。盧西亞諾·弗洛里迪(Luciano Floridi)曾提出道德觀建立在充分互動性、自主性和適應性的基礎上,建立在符合道德標準的行為方式上[38](363-365)。在人機融合發展的智能時代,人工智能需要在交互中訓練對其他道德主體責任的理解力,培養為人類社會可持續和良善發展的行動力。通過社會場景模擬的方式,人工智能可以實現對人類行為和社會結構的形式化認知、情境化理解和“行為”的合理輸出,實現動態價值對齊的目標。已有學者通過構建現實社會的模型,創設多元化情境,模擬具體社會場景以實現對齊。例如劉瑞博等人建立的“穩定對齊(Stable Align? ment)算法”,將人工智能置于模擬的人類社會沙盒中,通過模仿人類的社交互動,讓人工智能學習人類社會多元化的價值傾向[39]。人類社會沙盒由以多語言模型為代表的社會主體組成,這些主體彼此交互并記錄行為,呈現出互動數據中對齊與不對齊的典型范例。研究者們進一步對這些交互數據進行集體評級和詳細反饋來修訂響應機制,從而在每輪模擬中逐步完善響應來提高對齊度,為交互式價值對齊提供了有效路徑。
人類通過合作和情境交互學習社會規范,確定價值取向并調整行為。對人工智能而言,語言模型本質上是在社會隔離中訓練的,并不能直接體驗真實的社會生活,也無法獲得來自他人的多輪反饋而實現改進。交互式價值對齊旨在克服既有的技術訓練方式和倫理設計模式,通過人機合作模擬和社會場景模擬創建一個相對真實的情境,經過多輪交互評估進一步完善人工智能模型的價值對齊質量。
3.交互式價值對齊的評價
交互式價值對齊并非完全否定和推翻了既有的價值對齊路徑,而是在確立人工智能交互主體性地位和情境化價值共識的基礎上,通過人機合作模擬和社會場景模擬的方式,建立人類和人工智能長期的、可持續的發展關系。交互式價值對齊從關系論出發,將人工智能行為的適當性還原到人類與人工智能具體交互過程中,價值對齊也成了人與人工智能交互關系的產物。人工智能發展所要求的價值對齊并非只強調人的義務或機器的責任,而是將其視為一種能夠調整二者關系的價值范疇,因此交互式價值對齊將人機關系視為優勢互補的伙伴關系,而非主客二分的對齊主體,以實現建立在“人機共生”基礎上的價值對齊目標。
值得進一步探索的是,交互式價值對齊的未來需要協同社會化人工智能、情境機器人和具身智能等技術共同發展。原因在于,交互式價值對齊的關鍵在于人工智能和人類交互關系的建構,其考量和評估的依據在于人工智能在交互關系中的表現。人工智能和人類在交互關系中的差異表現源于社會性、身體性和情感性的不同,正如斯圖爾特·阿姆斯特朗(Stuart Armstrong)所說,人工智能并不以人類的目標為己任,它并非生物體,甚至無法理解人類所經歷的痛苦[40](18-19)。人類大腦與人工智能的算法不同,思維不是通過符號處理進行的,而價值也存在著隱性化的知識,即這些知識是建立在感知而不是知道之上。人工智能無法捕捉這種背景意義和知識,只有人類才能理解其中的關聯意義,因為人是具象的、真實的、身處于世界之中的存在。因此,依托具身化、情境化和社會化人工智能技術的發展更能有效實現交互價值對齊的目標。
結語
人工智能價值對齊的目標是讓大模型成為更可靠、實用且安全的工具,關乎通用型人工智能發展的未來。現有價值對齊的路徑大都是從技術手段出發,但僅從人類指令和偏好反饋進行對齊,忽略了價值內涵和動態情境的重要性,缺乏關于什么是真正的“好”的行為的內在知識和生成背景。為了促進人工智能的發展與人類價值目標達成一致,使其更符合人類的期望,需要將價值理論、交互關系和社會情境等更深層次的理解納入價值對齊的過程。交互式價值對齊通過將人工智能確立為交互主體和對齊價值的“賦能者”,基于情境化價值共識,通過人機合作模擬和社會場景模擬等方式,實現過程性和關系性的動態對齊,以確保大模型的行為和決策在人機交互中不斷優化,并能夠符合人類社會的價值期望。
[參考文獻]
[1]SCHEUTZ M. The Inherent Dangers of Unidirectional Emotional Bonds Between Humans and Social Robots[M]//Robot Ethics:The Ethical and Social Implications of Robotics. Cambridge:The MIT Press,2012.
[2]中國政府網.生成式人工智能服務管理暫行辦法[R/OL].(2023-07-10)[2024-07-10]. https://www.gov.cn/ zhengce/zhengceku/202307/content_6891752.htm.
[3]LANIER J. The Myth of AI[EB/OL].(2014-11-14)[2024-07-10]. https://www.edge.org/conversation/the-mythof-ai#26015.
[4]WIENER N.Some Moral and Technical Consequences of Automation:As Machines Learn They May Develop Unforeseen Strategies at Rates that Baffle Their Programmers[J].Science,1960,131(3410).
[5]LEIKE J,KRUEGER D,EVERITT T,et al. Scalable Agent Alignment via Reward Modeling:A Research Direction[EB/OL].(2018-11-09)[2024-07-10]. https://arxiv.org/abs/1811.07871.
[6]GABRIEL I. Artificial Intelligence,Values,and Alignment[J].Minds and Machines,2020(30).
[7]騰訊研究院. AI大模型價值對齊:是什么,為什么,怎么做?[EB/OL].(2023-08-24)[2024-07-10]. https:// www.tisi.org/26547.
[8]吳冠軍.大語言模型的信任問題與資本邏輯[J].當代世界與社會主義,2023(5).
[9]ANTHROPIC. Claude’s Constitution[EB/OL].(2023-05-09)[2024-07-10]. https://www.anthropic.com/index/ claudes-constitution.
[10]SHEVLANE T,FARQUHAR S,GARFINKEL B,et al. Model Evaluation for Extreme Risks[EB / OL].(2023-09-22)[2024-07-10].https://arxiv.org/abs/2305.15324.
[11]BAKKER M A,CHADWICK M J,SHEAHAN H R,et al. Fine-tuning Language Models to find Agree? ment Among Humans with Diverse Preferences[EB/OL].(2022-11-28)[2024-07-10].https://arxiv.org/abs/2211.15006.
[12]于雪.智能機器的道德設計進路及其責任歸因[J].倫理學研究,2022(4).
[13]龔群.論弱人工智能體的道德性考察[J].哲學研究,2023(3).
[14]COECKELBERGH M. Moral Appearances:Emotions,Robots,and Human Morality[J].Ethics and information technology,2010(12).
[15]JI J M,QIU T Y,CHEN B Y,et al. AI Alignment:A Comprehensive Survey[EB/OL].(2024-02-27)[2024-07-10]. https://alignmentsurvey.com.
[16]董春雨.從機器認識的不透明性看人工智能的本質及其限度[J].中國社會科學,2023(5).
[17]亞里士多德.尼各馬可倫理學[M].廖申白,譯.北京:商務印書館,2016.
[18]KENWARD B,SINCLAIR T. Machine Morality,Moral Progress,and the Looming Environmental Disaster[J].Cognitive Computation and Systems,2021.
[19]胡盛瀾.人工情感智能體的道德賦能問題探析[J].自然辯證法研究,2023,39(2).
[20]羅莎琳德·皮卡德.情感計算[M].羅森林,譯.北京:北京理工大學出版社,2005.
[21]吳童立.人工智能有資格成為道德主體嗎[J].哲學動態,2021(6).
[22]付長珍.機器人會有“同理心”嗎?:基于儒家情感倫理學的視角[J].哲學分析,2019,10(6).
[23]孫偉平.價值哲學視域中的算法歧視與社會公正[J].哲學研究,2023(3).
[24]劉偉.人機融合:超越人工智能[M].北京:清華大學出版社,2021.
[25]顧心怡.腦機融合下的交互自治與倫理影響研究[J].自然辯證法通訊,2023,45(7).
[26]宋春艷.人機融合智能的自我意識與交互主體性[J].倫理學研究,2023(5).
[27]劉偉.人機融合智能的現狀與展望[J].國家治理,2019(4).
[28]KRISHNA R,LEE D,LI F-F,et al. Socially Situated Artificial Intelligence Enables Learning from Human Interaction[EB/OL].(2022-06-14)[2024-07-10]. https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119.
[29]楊慶峰.人工智能神話、超級智能及其合約倫理學[J].山西大學學報(哲學社會科學版),2023,46(6).
[30]DAMIANO L,DUMOUCHEL P. Emotions in Relation. Epistemological and Ethical Scaffolding for Mixed Hu? man-robot Social Ecologies[J].HUMANA. MENTE Journal of Philosophical Studies,2020,13(37).
[31]FAIRWEATHER N B. Why Incomplete Codes of Ethics Are Worse than None At All[M]//Computer Ethics and Professional Responsibility. Malden:Blackwell Publishing,2004.
[32]LISCIO E,MEER M V D,SIEBERT L C,et al. What Values should an Agent Align with?:An Empiri? cal Comparison of General and Context-specific Values[J].Autonomous Agents and Multi- Agent Systems,2022,36(23).
[33]EMELIN D,BRAS R L,HWANG J D,et al. Moral Stories:Situated Reasoning about Norms,Intents,Ac? tions,and Their Consequences[EB/OL].(2020-12-31)[2024-07-10]. https://arxiv.org/pdf/2012.15738v1.
[34]HENDRYCKS D,BURNS C,BASART S,et al. Aligning AI with Shared Human Values[EB/OL].(2020-08-05)[2024-07-10]. https://arxiv.org/pdf/2008.02275v1.
[35]JIANG L W,HWANG J,BHAGAVATULA C,et al. Can Machines Learn Morality?The Delphi Experi? ment[EB/OL].(2022-07-12)[2024-07-10]. https://arxiv.org/abs/2110.07574.
[36]劉哲.人工智能時代身體異化的隱憂:從現象學角度反思人與智能機器人的交互關系[J].外國哲學,2022(2).
[37]YUAN L Y,GAO X F,ZHENG Z L,et al. In situ Bidirectional Human-robot Value Alignment[J].Sci? ence Robotics,2022(7).
[38]LUCIANO F,SANDERS J W. On the Morality of Artificial Agents[J].Minds and Machine,2004,14(3).
[39]LIU R,YANG R X,JIA C Y,et al. Training Socially Aligned Language Models on Simulated Social In? teractions[EB/OL].(2023-10-28)[2024-07-10].https://arxiv.org/pdf/2305.16960.
[40]ARMSTRONG S. Smarter than Us:The Rise of Machine Intelligence[M].Berkeley:Machine Intelligence Re? search Institute,2014.
(責任編輯:孫保學)
①弱進路和強進路的劃分依據是機器倫理思想中隱性設計倫理和顯性設計倫理的區分,隱性設計倫理旨在通過價值敏感性設計和道德物化等理念,將價值隱性地嵌入技術設計中,通過隱性設計倫理達成價值對齊的方式即為弱進路價值對齊。顯性設計倫理是讓機器成為道德行為的重要環節,試圖將智能機器發展為道德行為主體,通過顯性設計倫理達成價值對齊的方式即為強進路價值對齊。曾有學者基于上述兩種區分將智能機器的道德設計分為“弱進路”和“強進路”,本文參考了這種劃分(參見于雪:《智能機器的道德設計進路及其責任歸因》,《倫理學研究》2022年第4期)。