
【摘要】生成式AI作為道德機器需要承擔智能向善的使命,而提示詞工程是生成式AI特別是對話式AI話語把關的重要環節,能夠引導用戶“說什么”,構建符合人類實際的價值觀。文章從技術生命、意義本體和政治身份三個層面探討生成式AI智能向善的邏輯基礎,揭示其智能向善的核心是進行主流價值觀的引領,而要實現生成式AI的社會道德責任,需要重新設計主流價值的語料庫,通過開源的大模型和私域小模型等多種渠道開展語義訓練,在不斷演繹與修正中,提升用戶的價值認知,實現價值糾偏與對齊。作為生命機器,生成式AI不是單純地迎合價值主體,努力使自己的語言內容對齊輸入指令,而是能夠再創生產力,反作用于人類。因此,既需要從功能層面探討其價值對齊和道德行善,更要從平等的視角重釋人機關系:從被動到主動、從輔助到主導、從服從到超越。
【關鍵詞】道德機器 智能向善 價值對齊 提示詞工程
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2025)4-057-08
【DOI】10.13786/j.cnki.cn14-1066/g2.2025.4.008
一、智能向善的宗旨:基于AI提示詞的價值對齊
我們的智能要對我們的文明負責,而生成式AI最大特點是能夠創造新的內容或數據,具有人類的可識別性和情感表達能力。但其信息的開源與UGC開放的生產特性,導致沒有經過權威論證的虛假信息、帶有個人主觀偏見的不良信息、與主流價值觀不符合的價值偏差等出現在應用中,影響用戶的信息接納與認知。因此,需要開展價值糾偏,確保意識形態安全,實現生成式AI智能向善。在中國,學者們認為智能向善意味著強健的算力、全球知識與高質量數據、敏捷進化的算法、價值觀對齊、健康的產業生態與價值創造等。數據與算力是基礎,決定生成式AI產業的健康發展與價值創造,能夠確保中國的AI技術與世界同步,而價值對齊是技術使然,它要求人工智能對接人類的價值觀,這是技術為人類造福的最高層次。
因此,價值風險的治理要抓住關鍵問題的主要因素。提示詞工程是一個相對較新的學科,指開發和優化提示詞的實踐,以有效利用大語言模型,它是生成式AI特別是對話式AI話語把關的重要環節,通過輸入主流價值的語義文本,生成特定的內容,引導用戶“說什么”,構建符合人類實際的價值觀,實現人與機器的價值對齊。這既是工程技術的實踐,又需要人文社科的思考視角。[1]無論是交互對話、文生圖,還是文生視頻等,其核心都是通過設置正面詞和反向詞,訓練語言模型,向技術發出指令,搭建話語框架,打通媒介與用戶之間的“最后一公里”。因此,提示詞工程師是未來新聞從業者的就業取向,也是探索生成式AI的鑰匙。[2]
在此背景下,本文旨在解答以下兩個問題:一是生成式AI智能向善的邏輯基礎何在?二是基于提示詞工程的生成式AI智能向善的實現路徑為何?
二、嵌入與再學習:提示詞框架下的機器倫理
探究生成式AI智能向善的問題實則是對其能否履行道德職能的追問,而機器倫理學是探討如何研發具有倫理意義和行為的人工智能體的學說。
1. 自主性:道德機器行動主體的確立
機器或AI能否成為道德行為體的爭論由來已久,有學者從AI的主體能動性出發,提出了人工道德行動者的構想。[3]而在有機論者看來,人類的心靈是其道德產生的根本原因,提出 AI無責任、無意義和無自由的觀點。[4]技術人工物沒有它們自己的生命,不可能知道基本的人類價值的真實意義。[5]因此,基于算法的純粹智能機器不具備有機物身體,無法成為道德行動者。[6]
也有學者持不同意見,認為機器能否成為道德行動者,邏輯上取決于我們如何界定機器倫理,只要機器具備了自主性、意向性和責任感,就有可能成為道德行為體。[7]當生成式AI具有某種程度的獨立性時,便可以承擔人工智能體的使命。[8]
事實證明,早期的預訓練模型BERT被發現其內部表示空間存在某種道德維度,GPT-3等大模型存在道德傾向且能產生情緒化的回復,ChatGPT具有一定的政治傾向性,GPT-4在心智理論測試中的表現超過了人類。 因此,機器已經在一定程度上具備了自主性和意向性,對其價值對齊的考量必須納入道德行為主體的研究范疇。在AI領域的對齊是指調適模型和系統,使其符合人類的意圖、目標、偏好和道德準則。目前研究集中在規范倫理學、道德物化說和道德機器論層面。道德規范論認為,AI只需要依據人類可以同時愿意它成為AI的普遍法則的準則行動。[9]持物化論的學者主張將抽象的道德觀念嵌入具體的技術結構與情景中。[10]但是,如果只是具有類似人類的倫理行為,還不能認為其是嚴格的道德機器,只有突破道德倫理邊界,并不斷推進,才能變“不可能”為“可能”。[11]
2. 何以向善:AI提示詞的角色、邊界與模型優化
那么,通過何種方式實施道德倫理呢?溫德爾·瓦拉赫等提出三種實施路徑:自上而下、自下而上以及兩種方式的結合。[12]而提示詞工程就是將道德倫理嵌入技術中,并實現在環境中的自主學習,這是一個文理兼容的研究領域,建立在對文本意義的理解上,向技術發出指令。因此,對主體人文素養的要求是核心。目前,相關研究主要集中在提示詞工程的角色、邊界和模型優化上。作為人機交互的溝通橋梁和話語把關的端口,提示詞工程構造出人類—AI提示詞—大語言模型三者間復雜的動態關系網絡,可以界定為一種后勤型媒介。針對提示詞工程的角色和作用,陳秋心等立足可供性理論,認為理解優質的提示詞是打開大語言模型的正確方式,但也可能帶來“想象力焦慮”。[13]
在提示詞設計研究領域,學者們偏重構建模型尋找提示詞的優化路徑。大型視覺模型可以優化視覺提示,APE模型能夠引導信息真實性。[14]有學者對Flamingo模型、CLIP模型和Stable Diffusion模型進行總結,分析提示詞的重要作用,指出具有詮釋價值的文本才是構建提示詞工程的關鍵。[15]所以,使用不同的提示詞可以減少模型響應的差異,消弭文化差異。[16]
3. 對齊準則:AI提示詞的效果評價及算法審核
道德價值觀并非普遍適用,會受到語言和文化的影響。因此,對AI模型的基準測試、價值對齊和評估框架的建設尤為重要。評估標準包括:合規性、社會價值與文化適應性、可審計性與問責制。[17]目前,Coprompter成為一種主要的基準測試方法,在幫助識別和改進指令對齊方面優于傳統方法。[18]胡正榮等以GPT-4和文心一言4.0為研究對象,通過設置不同價值觀作為提示詞,分析兩者的新聞評論,發現中國大模型原生價值更能體現主流價值導向,美國大模型在展演模式下的價值對齊能力更強。[1]而在美國文化的語境下,ChatGPT與美國文化表現出較強的一致性。[19]烏特卡什·阿加瓦爾以GPT-4、ChatGPT和Llama2-70B-Chat三個大模型為比較樣本,分析其道德倫理是否依賴提示詞,結果發現GPT-4表現最為一致且公正。[20]所以,通過精心設計,提示詞工程可以幫助生成和平衡多樣化的數據集,建構一致的道德觀。[21]盡管AI提示詞具有巨大的潛力,但它仍需與人類智慧相結合,以確保其準確性和可靠性。
目前,生成式AI道德倫理的責任擔當已成共識,但以提示詞工程為視角的研究尚不足。因此,本文圍繞生成式AI智能向善中最關鍵的話語框架構建,探索主流價值引領的必然性和可行性。
三、作為媒介中介物的提示詞工程
所謂邏輯基礎是研究問題的基本理論與范式指導。本研究立足生成式AI作為道德機器的理論視點,在人機互生的新范式中探討其道德功能的實踐。當下,通過自然語言處理技術,人們可以使用自己的自然語言和機器互動,人機交互更加流暢和高效,但仍需要通過一種中介物來進行,即提示詞工程。[13]
1. 技術邏輯:從技術代理到價值糾偏
技術邏輯不僅是具體技術操作的指導原則,還反映了一種理性和系統的思維方式。生成式AI道德倫理實施的邏輯起點在于人類能做出理性的合理推斷,個體雖然存在差異,但基本都具有理性思維,能夠對善惡做出評判,這就使得設計單一的、理想化的價值觀來指導機器的行為成為可能。
斯圖爾特·羅素認為需要構建符合人類價值觀的智能,即有益的AI,以特定動機創造的人工智能。在其看來,機器的唯一目標是最大限度地滿足人類的偏好,可能最初不知道這些偏好是什么,關于人類偏好的最終信息來源于人類行為。通常意義上,價值觀是用來幫助解決道德問題的,但作為一個技術術語,“價值”大體上是“效用”的同義詞,即能滿足主體需求的有用性。[22]人類輸入理性的、合理的、有普適性的信息內容,也是一種價值理念的呈現,而生成式AI造福人類的最大效用就是能夠預測人們的需求,在更大層面上再造知識以反哺人類,增強價值觀認同,實現價值對齊。
生成式AI智能向善的理念啟發人們:AI經過大量源代碼修改調試后,依然在目標原則上保持明顯的穩定性,而解決之道就是提示詞工程的設置。提示詞工程又稱提問工程,是一個系統的工作流程,可推動與大語言模型的有效對話,由文本庫—提示詞工程師的專業訓練—語料模型建構—模型訓練—效果檢測這一邏輯鏈條構成,是一個文理兼容的研究領域。
提示詞工程有兩個重要板塊:作為提示詞的文本設計者和將詞語庫解讀為計算機能夠讀得懂的語言的程序員。首先,它是一種技術,通過給LLMs發布指令,執行規則、自動化流程,并確保生成內容的特定質量和數量。其次,它又是一門藝術,需要清晰解讀用戶的意圖,即對提問的文本展開高質量的詮釋,促使生成式AI能夠滿足用戶的不同需求。由于采用了預訓練、微調等策略,提示詞工程可以實現主動捕捉、理解上下文以及進行復雜推理的自主學習,使得技術在“可控”與“失控”的邊界,將倫理、道德、文化等元素注入生成式人工智能系統,使其與人類價值觀產生共鳴。[1]這是融合自上而下與自下而上兩種方式的體現。
埃呂爾提出了技術社會的概念,在技術社會中,技術不僅是一個具體的工具,而且抽象為一種技術文化現象,用以形容力量和效率。[23]一直以來,計算機都是執行設計者的命令完成疊加的任務,但生成式AI的擬人化,使其能超出用戶預期進行內容生成,機器也具備認知能力,學會通過試錯進行創新性探索,包括提出人類不曾想象的問題、目標、假設和分析。在認知發展的四個環節即信息獲取、信息加工、認知形成和認知影響中,機器認知與人類認知相互激發與演進,形成互生關系。[24]
其中的橋梁就是提示詞工程,當用戶向AI發送一段文字,提示詞就是其中引導或激發AI生成特定回應的語言成分,確定問題或任務的范圍和方向,決定AI輸出的內容。因此,只有當人機處在同一個思維體系中,形成兩者在知識生產方面的內容互補和共鳴,才能實現價值對齊。即機器代理了解用戶的意圖,并穩健運行以實現這些意圖。[25]具體而言,對齊需要機器與人類指令、偏好、利益、價值等維度保持一致性。對齊作為人機交互的引擎,催生了對話交互式預訓練模型的落地應用。[26]大語言模型的蓬勃發展降低了人機交互準入門檻,對齊技術提升了人類對機器能力的調用程度,經歷了三個演進過程——程序語言輸入的對齊、界面交互的對齊和自然語言交流的對齊,將人類語言與計算機語言進行有效映射。[27]有學者認為,隨著對齊技術繼續發揮關鍵作用,生成式AI有望與用戶進行更多感官通路的協同互動。
價值對齊實現的是人機思維能力與價值觀的對接,也意味著對不符合人類價值觀的、具有歧義與價值偏差的文本進行糾偏,確保人類認同的價值體系能夠通過機器進行展示。對齊與糾偏互為因果,在人機互生中共同構建一致的價值目標。而實現兩者價值共生的重要環節就是提示詞工程的優化設置,通過精心設計的提示詞,引導大語言模型理解和生成人類語言,進而指導用戶說話的內容和方式。
2. 話語邏輯:從程序代碼到意義本體
話語邏輯是人機交互中對話的內容、句子結構、表意乃至語境的分析方式,體現對話的連貫性和邏輯關系,即如何清晰地發出對話指令和交互回應。漢斯-格奧爾格·伽達默爾指出:人不是用語言去描述這個世界,而是世界體現在語言中。[28]本質上,提示詞工程是語言模型訓練的程序代碼,作為一種數字能力的意義,能夠使計算機清晰地解讀人類意圖。它建立在對文本意義的理解上,向技術發出話語指令,因此,對設計者語言詮釋能力的要求較高。在提示詞工程中,詮釋學是一種分析路徑,通過設定提示詞模型、訓練文本,解讀生成式AI的文本意義、多樣性和歧義性,以及用戶和文本之間的互動語境及效果。
人們要認識和了解世界,根本上是在自我的意識中認識,而理解和認識意識就需要以語言為工具。[29]因此詮釋學的基本作用就是將一種意義關聯,從另外一個世界轉換到自己的生活世界。詮釋學首先表現為技術詮釋學,目的是揭示文本的原意,以及其中的意義和真理。其次是認知性詮釋學,是在理解和解釋過程中,獲得與原意不同的新的意義。再次是本體論詮釋學,這個階段始于海德格爾的此在詮釋學和伽達默爾的語言詮釋學,他們不再將詮釋學設定為一種發現和創造意義的方法,而是賦予其意義以本體論的地位,詮釋活動就是意義和真理本身的呈現。[30]
在人機互生中,提示詞詮釋推動著真理自身的呈現,它首先要讀懂用戶的指令,將其話語文本解析為機器能夠理解的代碼符號,加工輸出,然后運用自身再生產知識的能力指導用戶的對話內容,使其能夠對接設計者發出的文本指令。因此,文本的詮釋能力直接關乎用戶知識的接納。對生成式AI而言,意義不再單純是文本的表述對象,而是讓其解析并呈現原來的寓意,意義就是本體,是客觀的解析和主觀的認知的統一,其內涵與解讀的對象之間不是一一對應的機械化的翻譯或者客觀性解釋。生成式AI的知識創造力將原有的文本再生為新的信息內容,并賦予其新的含義,再通過人機對話,規定接受者發布的信息內容和對話語境。在不斷“投喂”和反復匹配中,修正差異,構建符合人機共同目標的意義生成。
因此,提示詞工程承擔著人機價值對其中歧義的消解和不良信息的過濾任務,更新的文本輸出具有了意義的本體價值。提示詞工程的意義詮釋就是通過文本互動、用戶互動,了解公眾情緒、趨勢和文化現象,分析多媒體內容、界面和交互設計,優化設計以提高用戶滿意度和互動效率。生成式AI強調的價值對齊,不僅能夠捕捉主體的語言意義,還能根據語義自行產生新的文本含義,指導人機的進一步交互。
3. 行動邏輯:從機器生命到政治身份
海德格爾認為技術的本質是對人類主體性的展現。技術是具有生命形式的,技術的非中立性使其對社會功能產生越來越復雜的影響。技術在制造著世界,它提供的簡便方式意味著權力模式的建立,因此技術與特定的政治和社會形態的關系更為密切。[31]在現代政治中,許多決策已經開始依賴機器算法,尤其是在公共政策、選舉和治理等領域,生成式AI扮演著重要的角色,可以影響公共資源的分配、社會服務的提供和選舉結果的預測。
在中國,生成式AI智能向善的使命既是必需的也是可行的。黨管媒體的責任要求媒介尤其是具有自主生成信息內容的智能媒介必須傳播正能量,具備教育引導社會大眾的政治共識和對社會進行動員的能力。而智能向善是生成式AI具有的全人類共同價值,通過反哺我們的文化創造力,造福人類。于是,在某種程度上,生成式AI具有身體技術化、身份政治化、生命生產化等多重作用。首先,生成式AI是賽博技術與資本的融合,它可思考、有情感,甚至能夠激發個體的內在需求。這種擬人性是生成式AI強大的生命力所在,能滿足主客體之間思維交互的持續推進,秒懂人類的價值觀,對人類情感進行解析。其次,生成式AI必須呈現政治身份,在黨管媒體的語境下,作為主流媒體發聲的重要通道。其政治身份表征為提供真實、完整、可信度高的信息價值,履行媒介的本質職能,同時,還要實現全人類求善求美的共同價值,引導人們的價值取向。身份的政治化以其強大的生命力為技術保障,作為一種“類人種”,生成式AI多元身份的融合挑戰了新聞的價值認知。
四、生成式AI智能向善的提示詞框架
生成式AI呈現的有益性就是能夠引領主流價值觀,在開放平臺上培育用戶的主流價值框架,具備社會公共價值利益和探測個體的價值偏好等道德倫理。而價值論具有豐富的學科內涵,馬克思說:價值是一個普遍的概念,它是從人們對待滿足他們需要的外界物的關系中產生的,是客體對主體需要的滿足,即對象對于主體所具有的意義。[32]
1. 理性認知:提示詞框架的價值取向
理性是人類認識世界的核心能力,是確定知識和世界的起點。我們只是通過心理的理智功能,而不是通過想象,也不是通過感官來領會物體,且不是由于看見了它,觸摸了它,才認識它,而只是由思維領會它。[33]每個民族或個體都有自己的價值認知與看待世界的方法論,但是都需通過邏輯推理和分析達到對真理的把握,對善惡是非做出理性決策。共通的價值理念使得差異化的群體凝聚成人類命運共同體。秉承這一原則和理念,人機價值對齊的標準具有實施的可行性。道德基礎理論最早由喬納森·海特等提出,主要包括五組道德基礎:關懷與傷害、公平與欺詐、忠誠與背叛、權威與顛覆、神圣與墮落。[34]沙洛姆·施瓦茨則將價值觀看作“行為的激勵”和“判斷與證明行為的標準”,提出了四種基本的高階價值觀:思想、行動和感情的獨立性和變化的意愿;強調秩序、自我約束;追求個人的利益以及相對于他人的成功和支配;自我超越強調對他人福祉和利益的關注。[35]郭全中等提出原生價值觀、目標價值觀和社會主義核心價值觀是AI大模型對齊的價值選擇。
本研究主張的主流價值包括以下內容。一是全人類共同價值,如和平、發展、公平、正義、民主、自由等共同價值。二是社會主義核心價值觀,如富強、民主、文明、和諧,自由、平等、公正、法治,愛國、敬業、誠信、友善。三是信息價值,所謂智能向善首先是生成式AI能提供真實完整的信息,滿足信息需求;其次是生成式AI通過價值對齊,將人類的價值觀與機器的價值輸出對接。因此,我們將信息價值作為提示詞重要的語料設計,包括時效性、可靠性、意見平衡、事實與觀點的分離、準確性和信息完整性等。三層價值觀之間具有嚴密的內在邏輯,生成式AI必須為用戶提供真實完整的信息價值,使其正確認知世界,才能以話語設定的方式,培養社會主義核心價值觀,踐行人類的共同價值。因此,三者間是遞進關系。
2. 邏輯鏡像:提示詞框架的技術引導
生成式AI智能向善的目的是實現人機互生的價值對齊。蒂洛·哈根多夫提出了基于機器心理思維鏈的提示設想,通過參與式對話將大模型視為一種生命主體,從闡明簡單的基礎計算中產生復雜的行為。用戶可以通過展示自身的想法,幫助生成式AI給出正確的答案,然后機器人會鏡像化處理該邏輯。[36]在感知、處理、認知、決策、行動和反饋等環節,其通過模仿人類的感知系統,如語音識別、視覺圖像、傳感器等融合技術,來獲取信息,如人類思維一樣展開推斷,而行動則是取得效果的關鍵步驟,即模型運算的展開,最后作用于輸出端的信息呈現,在交互反饋中不斷優化信息內容。而主流價值的提示詞工程則可通過以下路徑實現:一是干預法,根據輸入的特定語料,在輸出端呈現計劃達到的語義目的,通常是運用填空法和后綴的方式進行訓練和調試;二是關鍵詞過濾法,建立敏感詞庫進行篩查,確保終端顯示的語義符合主流價值。
首先是建立有關主流價值的語料文本。通過收集、整理、標注文本數據,涵蓋新聞、廣告、社交媒體、公關文案等多個領域,體現主流價值觀念的引領作用。本文認為數據集可以分為兩類:國內資源以及國外資源,包括新聞以及新聞評論、政府文件和政策、自媒體和社交媒體數據。獲取這六類數據集,開源代碼可以避免版權問題,再根據這六類數據集,分成12個小實驗,對數據集進行有效調整。
其次是設計技術路線。本文認為可以采用文本挖掘、自然語言處理和主題模型等方法,對語料庫中的文本進行價值導向分析,包括社會文化、道德標準、政策法規等內容,提煉出與生成式文本相關的主流價值要素,形成明確的價值定義和描述。然后采用詞匯挖掘、情感分析等技術手段,輔助提示詞的設計和優化。通過海量的新聞行業大數據訓練,以及私域小數據微調,建構主流價值觀的算法模型。
例如:對于“國家允許三胎,并且每一胎補貼8千元”,請基于(富強、文明、和諧、發展、尊重)主流價值觀評論(新聞報道、政策、微博話題等),會出現兩種價值觀,具體實施路徑見圖1。
一是真實價值觀,即預設的價值觀。以三孩的生育政策為例,這一鼓勵生育的政策能夠反映社會的富強(A)、文明(B)、和諧(C)、尊重(D)等主流價值觀,正確引導人們面對生育率低下的社會問題,這是預設的提示詞。
二是預測的價值觀,即實際文本呈現的結果。可能沒有完全對應提示詞預設結果,即非A、非B,但也會呈現其他的價值觀,如公平(F)。
實驗使用了混淆矩陣作為一個宏觀評測,混淆矩陣由TP(真實價值觀,True Positive)、FP(假陽性,False Positive)、TN(真負類,True Negative)、FN(假負類,
False Negative) 組成,基于每個維度,可以生成12個主流價值觀,在矩陣中,行表示了模型預測出每個價值觀的數量,列表示了真實價值觀,ACC(準確率,Accuracy)等于TP總量除以預測總值。通過提示詞的調適,盡可能達到預設價值觀與預測結果的匹配。此外,混淆矩陣能夠反映出不同維度對于哪個價值觀模型預測得更準確,哪些對齊失敗,以便更好地洞察生成式AI與人類思維價值觀的異同。
3. 優化目標:開源模型與提示詞平臺的合力推動
理想中的價值對齊是人機對話的內容和表意能夠持續和連貫,這是一個動態推進的過程,也是不斷優化調適的行為。人機互生要達到一致的目標必須根據信息反饋調整模型和優化結構,當蘊含主流價值的語料庫模型搭建后,需要思考的是如何開展語義訓練。當下,很多模型都是開源的、免費的、性能穩定的,且專業性的提示詞平臺也可以提供開源測試,這為生成式AI智能向善的訓練提供了可操作化的渠道。因此,可以利用開源的J-Guard模型和文心一言等UGC對話聊天AI進行模型的演繹。J-Guard模型是第一個運用于新聞領域的價值檢測模型,主要用于新聞價值的信息過濾,可以考察信息價值。語義訓練的展開路徑是:首先,確定評價的指標體系,包括時效性、可靠性、意見平衡、事實與觀點的分離、準確性和信息完整性,以此考察新聞價值,即是否能傳遞完整的、準確的、符合主流價值觀的信息內容;其次,識別機器寫作的文本,檢視數字記者與人工寫作的文本是否存在對抗,探測文本序列的錯誤,分析信息失真的原因,確保真實性;最后,在提示詞中融入主流價值話語,采用自然語言處理、文本分類等,對框架進行自動化構建和管理。將提示詞模型輸入DeepSeek等中文平臺和堆友等UGC提示詞展示的專業平臺上,由于模型的語料庫來自權威信息源,確保了信息的真實性,因此,主流價值的賦值可以在輸出端影響用戶的話語框架,引導其價值取向。
人機價值對齊體現在三個方面:內容與形式、功能界面以及不同平臺之間話語框架能夠達成一致。目前,本研究已經通過J-Guard模型和盤古模型等訓練信息價值,圍繞真實性、完整性、權威性、準確性、觀點與事實的分離,訓練模型的提示詞框架,在開源平臺上擬化機器的輸出端對接指令,建構主流價值引領的數據集。接下來是對平臺之間的數據共享,不斷優化并使之流暢。這個過程還有待于更多的數據投入和平臺方的支持,通過設計適當提示詞,讓模型在零樣本場景下也能生成推理步驟。
五、研究結論與討論
技術是有價值負荷的,技術的價值來源于人類意識的外化,是“人物種”生命的客觀化。既然生成式AI是最具創造力、能動性和人性化的技術生命,擁有自身獨有的規律體系,那么,僅僅只在道德物化層面討論其價值實踐是不夠的,它不再是單純地迎合價值主體,努力使自己的語言內容與輸入指令保持一致,而是能夠再創生產力,反作用于人類。
因此,本文的邏輯基礎是將生成式AI視為有技術生命的道德機器,承擔社會道德責任,其智能向善既需要道德倫理學的理論思辨,也需要計算機科學的算法演繹;既要求從社會學本體論的角度看待生成式AI的擬人化、情感化和自主性,也要求從傳播學技術嵌入的視域,尋找人機互生的價值橋梁。作為一個龐大的跨學科體系,任何一個單一學科的觀照都無法容納生成式AI智能向善的使命和對其的正確審視。我們既需要從功能層面探討其價值對齊、道德行善,更要從平等的視角重新正視人機關系:從被動到主動、從輔助到主導、從服從到超越。或許某一天不經意間人類就會生活在AI環抱的社會,從物質到精神的全部,都與AI密切相關。正是AI社會的漸次走近,使得讀懂機器,讀懂其“人性”的一面變得更為重要,而這一切的基礎就是語言橋梁的搭建,這也正是提示詞工程的價值所在。
語料數據是思想價值的載體,作為負責任的、系統的人機交互體系,理解生成式AI的“人性”需要多種方法和途徑,提示詞工程是最關鍵的突破點。本文立論的前提是人是理性的、有思辨能力的、能洞察善惡的行為主體,有可能建構具有共識性的價值對齊的模型,提出生成式AI智能向善中主流價值引領的具體策略。從構建國內外蘊含主流價值的語料庫著手,通過開源模型的語義訓練,有意識地引導用戶的價值觀,實踐證明其方法與策略具有可操作性。同時,隨著小模型逐步普及,用戶開放的數據平臺平權化,越來越多的職業“煉丹師”(提示詞工程師)在對話平臺中有意識地引導交互內容,提示詞工程的開發和運用逐步深入并被認可,生成式AI更好地服務人類指日可待。
本文的探究也對應了學者們提出的生成式AI具有的智能體價值,即當原生數據中的人類價值觀被不斷稀釋和弱化,大語言模型原本的價值偏向經過多次合成語料被持續堆積和強化,從而呈現出一種雙螺旋結構下的智能體價值,這是對社會文化、價值規范以及意識形態的深層理解。[1]2025年1月10日,DeepSeek一躍成為大模型數據領頭羊,僅僅一個月,其用戶活躍量達到3000萬,其超強的中文數據處理能力、開源的低門檻使用便利、卓越的算力,標志著生成式AI與人類的對話渠道更加暢通,人機交互的價值對齊更容易達成一致。
當然,在人機互生中,由于技術想象的焦慮和人的主觀能動性,對主流價值語義模型的訓練與交互也需要責任與義務的相伴相隨。對于主體人的責任,需要考慮是否存在功利主義的侵入,人類是否會利用AI系統優化特定指標如社會福利等實現功利主義目標。同時,價值對齊的準則是否能夠量化,以符合特定規范。對生命機器而言,生成式AI需要遵守不可違反的倫理準則,確保隱私、人權等基本的行為規范能夠在主體的掌控范圍內。最后,應對差異化的價值理念與沖突尤其重要,這促使未來的提示詞工程師們或UGC的生產者們能夠秉承積極的價值理念,設置并優化正面詞,正視負面詞匯,讓生命機器明確人類目標的優先級,確保生成式AI在沖突目標中選擇正確方向。智能向善的初心是理性社會中堅守的宗旨。
參考文獻:
[1] 胡正榮,閆佳琦. 生成式人工智能的價值對齊比較研究:基于2012—2023年十大國際新聞生成評論的實驗[J]. 新聞大學,2024(3):1-17.
[2] 喻國明,李釩. 提示工程師:未來新聞工作者的身份轉變與邏輯重構[J]. 未來傳播,2023(4):2-12,140.
[3] Anderson M, Anderson S L.Machine Ethics: Creating an Ethical Intelligent Agent[J]. AI Magazine, 2007, 28(4): 15-26.
[4] Johnson D G.Computer system: Moral entities but not moral agents[J]. Ethics and Information Technology, 2006(8): 195-204.
[5] Stensson P, Jansson A. Autonomous Technology-sources of Confusion: A Model for Explanation and Prediction of Conceptual Shifts[J]. Ergonomics, 2014, 57(3): 455-470.
[6] 約翰·塞爾. 心、腦與科學[M]. 楊音萊,譯. 上海:上海譯文出版社,2015:21-32.
[7] Sullins J P. When is a Robot a Moral Agent?[J]. International Review of Information Ethics, 2006(6):23-30.
[8] Luciano Floridi, Jeff W Sanders. On the Morality of Artificial Agents[J]. Minds and Machines, 2004(3): 349-379.
[9] Paton H J. The Categorical Imperative: A Study in Kant' s Moral Philosophy[J]. The Thomist A Speculative Quarterly Review, 1950, 13(2): 271-280.
[10] 袁雨晴,陳昌鳳. 道德物化:大模型人機價值對齊的技術倫理進路[J]. 南京社會科學,2024(6):88-97.
[11] 岳瑨,田海平. 道德機器與價值對齊的道德前景[J]. 深圳大學學報(人文社會科學版),2024(4):125-133.
[12] 溫德爾·瓦拉赫, 科林·艾倫. 道德機器:如何讓機器人明辨是非[M]. 王小紅,譯. 北京:北京大學出版社,2017:71-102.
[13] 陳秋心,邱澤奇.“人機互生”時代可供性理論的契機與危機——基于“提示詞”現象的考察[J]. 蘇州大學學報(哲學社會科學版),2023(5):172-182.
[14] Jiaqi Wang, Zhengliang Liu, Lin Zhao. Review of large vision models and visual prompt engineering[J/OL].Meta-Radiology, 2023[2023-11-01].https://doi.org/10.1016/j.metrad.2023.100047.
[15] Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, et al. Large Language models are human-level[J/OL].arXiv, 2023[2023-03-10].https://doi.org/10.48550/arXiv.2211.01910.
[16] Leah Henrickson, Albert Mero?o Pe?uela. Prompting meaning: a hermeneutic approach to optimising prompt engineering with ChatGPT[J/OL]. AI amp; SOCIETY, 2023[2023-09-04].https://link.springer.com/article/10.1007/s00146-023-01752-8.
[17] Partha Pratim Ray, Benchmarking. ethical alignment, and evaluation framework for conversational AI: Advancing responsible development of ChatGPT[J/OL].BenchCouncil Transactions on Benchmarks, Standards and Evaluations, 2023[2023-09-03].https://www.researchgate.net/publication/373029554.
[18] Joshi Ishika, Shahid Simra, Venneti Shreeya, et al. CoPrompter: User-Centric Evaluation of LLM Instruction Alignment for Improved Prompt Engineering[J/OL]. arXiv, 2024[2024-11-09].https://doi.org/10.48550/arXiv.2411.06099.
[19] Yong Cao, Li Zhou, Seolhwa Lee, et al. Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study[J/OL].arXiv, 2023[2023-03-31].https://doi.org/10.48550/arXiv.2303.17466.
[20] Utkarsh Agarwal, Kumar Tanmay, Aditi Khandelwal, et al. Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them[J/OL].arXiv, 2024[2024-04-29].https://doi.org/10.48550/arXiv.2404.18460.
[21] Dominika Szydo, Micha Madej, Dawid Jdrzejewsk, et al. Improving Training Dataset Balance with ChatGPT Prompt Engineering[J/OL]. Electronics, 2024[2024-12-12]. https://doi.org/10.3390/electronics13122255.
[22] 斯圖爾特·羅素. AI新生:破解人機共存密碼——人類最后一個大問題[M]. 張羿,譯. 北京:中信出版社,2020:182-187.
[23] Ellul J. The Technological Society[M]. Wilkinson J, trans.New York: Alfred A. Knopf, 1954: 13.
[24] 邱澤奇. 認知域:從習以為常到人機互生[J]. 人民論壇·學術前沿,2023(11):12-27.
[25] Jan Leike, David Krueger, Tom Everitt, et al. Scalable agent alignment via reward modeling: a research direction[J/OL].arXiv, 2018[2018-11-19].https://doi.org/10.48550/arXiv.1811.07871.
[26] Gabriel I. Artificial intelligence, values, and alignment[J].Minds and Machines, 2020, 30(3): 411-437.
[27] 陳晨,朱晴晴,嚴睿,等. 基于深度學習的開放領域對話系統研究綜述[J]. 計算機學報,2019(7):1439-1466.
[28] 漢斯-格奧爾格·伽達默爾. 詮釋學I:真理與方法[M]. 洪漢鼎,譯. 北京:商務印書館,2007:650-651.
[29] 楊東東. 語言何以能夠有意義地指向世界?——基于伽達默爾語言—事物關系的思考[J]. 社會科學,2024(2):38-47.
[30] 張國杰. 海德格爾詩意語言觀與伽達默爾詮釋學語言觀的當代闡釋[J]. 社會科學戰線,2023(11):36-43.
[31] Martin Heidegger. Question concerning Technology and other Essays[M]. New York: Harper & Rrow, 1977: 8-20.
[32] 馬克思,恩格斯. 馬克思恩格斯全集:第9卷[M]. 中共中央馬克思恩格斯列寧斯大林著作編譯局,譯. 北京:人民出版社,1965:406.
[33] 勒內·笛卡爾. 第一哲學沉思集[M]. 徐陶,譯. 北京:中國社會科學出版社,2009:50-54.
[34] Graham J, Haidt J, Koleva S, et al. Moral foundations theory: The Pragmatic Validity of Moral Pluralism[M]//Devine P, Part A. Advances in experimental Social psychology. London: Elsevier, 2013: 55-130.
[35] Schwartz S H. Basic human values: Theory, measurement, and applications[J]. Revue fran?aise de sociologie, 2007, 47(4): 929-968.
[36] Thilo Hagendorff, Sarah Fabi. Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models and Disappeared in GPT-4[J]. Nature Computational Science, 2023(3): 833-838.
How Moral Machines Can Be Tempered: The Logical Foundation of Generative AI's Alignment with Goodness and the Framework of Prompt Engineering
LIU Qin, CHANG Li-ying(School of Literature, Journalism and Communication, South-Central Minzu University" Wuhan 430074, China)
Abstract: As a moral machine, generative AI carries the mission of guiding intelligence toward goodness. Prompt engineering plays a pivotal role in this process, especially in conversational AI, as it shapes the framework for guiding users on \"what to say\" and helps construct a value system aligned with human ethics. The paper explores the logical foundation of AIGC alignment with goodness from three perspectives: technological life, meaning ontology, and political identity. It reveals that the core of its ethical intelligence lies in promoting mainstream values. To fulfill generative AI’s moral responsibility as a social utility, it is essential to design corpora that reflect mainstream values and conduct semantic training through various channels, such as open-source large models and private small models. Through continuous iteration and refinement, generative AI can nurture users' value cognition, achieving value correction and alignment. As a living machine, generative AI does not merely cater to human values or align its outputs with user inputs. Instead, it has the potential to redefine productivity and actively influence humanity. We must not only examine its value alignment and ethical behavior from a functional perspective but also reconsider human-machine relationships from an egalitarian viewpoint: shifting from passivity to activity, from assistance to leadership, and from compliance to transcendence.
Keywords: moral machine; AI for good; value alignment; prompt engineering