999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式人工智能的可信治理:理念、框架與挑戰(zhàn)

2025-08-15 00:00:00朱峻姜元春劉業(yè)政柴一棟
預(yù)測(cè) 2025年3期
關(guān)鍵詞:倫理決策維度

中圖分類號(hào):C93 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2097-0145(2025)03-0033-09 doi:10.11847/fj.44.3.33

0 引言

以ChatGPT為代表的生成式人工智能(generativeartificialintelligence,GAI)技術(shù)的發(fā)展,迅速推動(dòng)人類社會(huì)邁向智能化和自主決策時(shí)代,為各領(lǐng)域的智能化發(fā)展提供了強(qiáng)大的動(dòng)力。在生產(chǎn)力提升方面,GAI的強(qiáng)大計(jì)算能力和自動(dòng)化處理技術(shù)使得企業(yè)能夠更高效地處理數(shù)據(jù)、優(yōu)化生產(chǎn)流程。在科學(xué)研究方面,GAI通過(guò)數(shù)據(jù)挖掘和模式識(shí)別,加速了科學(xué)發(fā)現(xiàn)的進(jìn)程。在教育發(fā)展方面,GAI通過(guò)智能輔導(dǎo)系統(tǒng)和定制化教學(xué)服務(wù),幫助提升學(xué)習(xí)效果。在社會(huì)治理方面,GAI通過(guò)大數(shù)據(jù)分析和預(yù)測(cè)模型,幫助政府提高決策的科學(xué)性和準(zhǔn)確性。

與傳統(tǒng)AI相比,GAI在技術(shù)特點(diǎn)與應(yīng)用模式方面存在較大差異。在技術(shù)特點(diǎn)方面,GAI基于大規(guī)模預(yù)訓(xùn)練模型和生成式架構(gòu),能夠從海量數(shù)據(jù)中學(xué)習(xí)并生成高質(zhì)量的內(nèi)容,具有更強(qiáng)的泛化能力和創(chuàng)造性。傳統(tǒng)AI通常針對(duì)特定任務(wù)進(jìn)行設(shè)計(jì)和優(yōu)化,依賴于明確的規(guī)則或標(biāo)注數(shù)據(jù),而GAI則通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)多任務(wù)處理,能夠適應(yīng)更廣泛的應(yīng)用場(chǎng)景。在應(yīng)用模式方面,GAI展現(xiàn)出更強(qiáng)的通用性和交互性。傳統(tǒng)AI多用于特定領(lǐng)域的自動(dòng)化任務(wù)(如分類、預(yù)測(cè)等),而GAI不僅能夠直接與用戶進(jìn)行自然語(yǔ)言交互,還能生成個(gè)性化內(nèi)容,甚至參與創(chuàng)作和決策。這種應(yīng)用模式的轉(zhuǎn)變使得GAI在教育、娛樂(lè)、醫(yī)療等領(lǐng)域具有巨大潛力。

GAI的技術(shù)復(fù)雜性和應(yīng)用廣泛性使其面臨嚴(yán)重的安全風(fēng)險(xiǎn),引發(fā)人們對(duì)其生成內(nèi)容的可信化水平的懷疑。傳統(tǒng)AI的安全風(fēng)險(xiǎn)主要集中在算法方面,比如算法的可解釋性與公平性,而GAI的安全風(fēng)險(xiǎn)包含數(shù)據(jù)安全、算法安全與應(yīng)用安全等多個(gè)方面。

在數(shù)據(jù)安全方面,GAI主要面臨隱私泄漏、惡意竊取、數(shù)據(jù)違規(guī)使用等問(wèn)題[1]。以隱私泄露為例,GAI在訓(xùn)練和使用過(guò)程中可能會(huì)無(wú)意中暴露或?yàn)E用用戶的個(gè)人數(shù)據(jù),導(dǎo)致用戶的隱私信息被泄露。比如:醫(yī)療機(jī)構(gòu)利用GAI分析患者數(shù)據(jù),可能因數(shù)據(jù)存儲(chǔ)或傳輸不當(dāng)泄露患者隱私;銀行、電信等行業(yè)在使用GAI進(jìn)行客戶服務(wù)的過(guò)程中,可能存在泄漏個(gè)人敏感信息的風(fēng)險(xiǎn)。與傳統(tǒng)AI相比,在隱私泄漏問(wèn)題上,GAI因其訓(xùn)練數(shù)據(jù)來(lái)源廣泛、數(shù)據(jù)多元,易產(chǎn)生更多的聚合風(fēng)險(xiǎn)。

在算法安全方面,GAI主要面臨算法歧視、系統(tǒng)失控、越獄攻擊等問(wèn)題[2]。以算法歧視為例,訓(xùn)練數(shù)據(jù)中的偏見(jiàn)可能會(huì)導(dǎo)致GAI系統(tǒng)在生成內(nèi)容時(shí)無(wú)意中放大或復(fù)制這些偏見(jiàn),從而導(dǎo)致不公正的結(jié)果或決策。比如:企業(yè)使用GAI篩選簡(jiǎn)歷,可能存在對(duì)特定群體的歧視;金融機(jī)構(gòu)利用GAI進(jìn)行信貸審批,可能因數(shù)據(jù)偏見(jiàn)導(dǎo)致不公平。與傳統(tǒng)AI相比,在算法歧視問(wèn)題上,GAI因其模型復(fù)雜度高、訓(xùn)練數(shù)據(jù)規(guī)模巨大且涉及多領(lǐng)域交叉,更易在數(shù)據(jù)篩選、特征提取等環(huán)節(jié)引入偏差,放大社會(huì)固有偏見(jiàn),導(dǎo)致算法歧視問(wèn)題更隱蔽且影響范圍更廣。

在應(yīng)用安全方面,GAI主要面臨虛假信息、邏輯混亂、深度偽造等問(wèn)題[3]。以虛假信息為例,GAI憑借其強(qiáng)大的內(nèi)容生成能力,可能會(huì)產(chǎn)生大量的虛假信息,從而誤導(dǎo)公眾和決策者。比如:媒體使用GAI生成新聞,可能因模型錯(cuò)誤而傳播虛假信息;企業(yè)利用GAI生成廣告內(nèi)容,可能因虛假宣傳誤導(dǎo)消費(fèi)者。與傳統(tǒng)AI相比,在虛假信息問(wèn)題上,GAI因其對(duì)海量數(shù)據(jù)的學(xué)習(xí)和高靈活性內(nèi)容生成與整合能力,在復(fù)雜信息源的影響下,更容易學(xué)習(xí)到錯(cuò)誤或誤導(dǎo)性知識(shí)且傳播速度更快、影響范圍更廣。

鑒于GAI在多個(gè)方面存在的安全風(fēng)險(xiǎn)問(wèn)題,其可信治理面臨著比傳統(tǒng)AI更為復(fù)雜和多元的挑戰(zhàn)。GAI不僅需要在技術(shù)層面確保模型的透明性、可解釋性和魯棒性,還需在倫理、法律和社會(huì)層面應(yīng)對(duì)生成內(nèi)容的真實(shí)性、隱私保護(hù)以及算法公平性等問(wèn)題。這種多維度的治理需求使得GAI可信治理的研究必須突破傳統(tǒng)AI治理框架,探索適應(yīng)其特性的新方法和新路徑。為此,學(xué)術(shù)界已展開(kāi)了一系列針對(duì)可信GAI治理的研究工作,試圖從不同的角度探索有效的解決方案。陳升等[4從文本挖掘角度出發(fā),提出從技術(shù)、組織、環(huán)境三個(gè)方面進(jìn)行治理。陳銳和江奕輝[5從人本角度出發(fā),強(qiáng)調(diào)多方參與的敏捷治理。關(guān)樂(lè)寧和徐凌驗(yàn)[從社會(huì)治理角度出發(fā),提出通過(guò)系統(tǒng)謀劃、健全倫理規(guī)約、完善法律法規(guī)等方式加強(qiáng)人工智能治理。Dalrymple等[]從技術(shù)治理角度出發(fā),提出了一個(gè)包含三個(gè)核心組件的定量化安全保障的人工智能系統(tǒng)。Theodorou和Dignum8從倫理治理角度出發(fā),強(qiáng)調(diào)倫理規(guī)范和法律治理的重要性。上述研究為GAI的可信化發(fā)展提供了重要的理論支持,但現(xiàn)有研究往往聚焦于某一特定維度的分析,缺乏系統(tǒng)性和全面性的治理框架。

GAI的可信化發(fā)展是一項(xiàng)復(fù)雜的系統(tǒng)工程,涵蓋技術(shù)、法律、倫理和社會(huì)等多個(gè)層面,涉及數(shù)據(jù)采集、模型開(kāi)發(fā)、系統(tǒng)部署、監(jiān)控治理等多個(gè)環(huán)節(jié)[基于此,本文從可信GAI的特性出發(fā),以多維度共治、全流程優(yōu)化、多主體參與為治理理念,圍繞技術(shù)、人、管理等多個(gè)視角提出GAI的可信治理框架。

1 可信GAI的特性

在構(gòu)建可信GAI的過(guò)程中,明確模型應(yīng)具備的核心特性至關(guān)重要。這些特性不僅界定了實(shí)現(xiàn)可信GAI的具體目標(biāo),也為后續(xù)的治理路徑設(shè)計(jì)奠定了基礎(chǔ)。本文從GAI存在的數(shù)據(jù)安全風(fēng)險(xiǎn)、算法安全風(fēng)險(xiǎn)以及應(yīng)用安全風(fēng)險(xiǎn)出發(fā),提出可信GAI應(yīng)具備保密性、抗干擾性、合規(guī)性、透明性、可解釋性、公平性、真實(shí)性、穩(wěn)定性、魯棒性[I1] O

首先,GAI對(duì)數(shù)據(jù)的高度依賴使其面臨嚴(yán)重的數(shù)據(jù)安全風(fēng)險(xiǎn)。在模型訓(xùn)練與推理過(guò)程中可能會(huì)發(fā)生數(shù)據(jù)泄漏、數(shù)據(jù)劫持、數(shù)據(jù)合規(guī)等風(fēng)險(xiǎn),導(dǎo)致用戶隱私信息遭非法利用、企業(yè)核心資產(chǎn)外泄、違反數(shù)據(jù)主權(quán)法律法規(guī),甚至引發(fā)系統(tǒng)性社會(huì)信任危機(jī)。因此,保密性、抗干擾性和合規(guī)性是可信GAI需要具備的重要特性。

其次,GAI的復(fù)雜算法結(jié)構(gòu)和高度自動(dòng)化的決策機(jī)制使其面臨嚴(yán)重的算法安全風(fēng)險(xiǎn)。如果無(wú)法追蹤或理解模型的決策過(guò)程,可能會(huì)導(dǎo)致錯(cuò)誤決策、模型安全漏洞的利用以及偏見(jiàn)放大等問(wèn)題。因此,透明性、可解釋性、公平性是可信GAI需要具備的關(guān)鍵特性。

再次,GAI的廣泛應(yīng)用場(chǎng)景和自動(dòng)化特性使其面臨顯著的應(yīng)用安全風(fēng)險(xiǎn)。其輸出結(jié)果和行為可能在關(guān)鍵時(shí)刻表現(xiàn)出不準(zhǔn)確性或意外偏差,導(dǎo)致產(chǎn)生不可預(yù)見(jiàn)的后果或系統(tǒng)故障。近年來(lái),GAI在應(yīng)用過(guò)程中生成的數(shù)據(jù)作為一種補(bǔ)充訓(xùn)練數(shù)據(jù)的方式受到了廣泛關(guān)注。盡管這種方法可以在一定程度上緩解數(shù)據(jù)短缺的問(wèn)題,但當(dāng)GAI生成的內(nèi)容被再次用于訓(xùn)練下一代模型時(shí),可能會(huì)導(dǎo)致模型逐漸失去對(duì)原始數(shù)據(jù)分布的準(zhǔn)確理解,以及模型能力退化或不穩(wěn)定的“模型崩潰\"現(xiàn)象[12]。因此,真實(shí)性、魯棒性、穩(wěn)定性是可信GAI必不可少的特性。

2 GAI可信治理理念

在明確了可信GAI的關(guān)鍵特性之后,針對(duì)GAI在實(shí)際應(yīng)用中面臨的復(fù)雜挑戰(zhàn),本文提出了一個(gè)多維度、全流程、多主體參與的治理框架。該框架旨在通過(guò)系統(tǒng)性和全面性的治理手段,確保GAI的保密性、抗干擾性、合規(guī)性、透明性、可解釋性、公平性、真實(shí)性、穩(wěn)定性和魯棒性,從而實(shí)現(xiàn)真正意義上的可信GAI。

(1)多維度共治:多維度共治強(qiáng)調(diào)從技術(shù)、人和管理三個(gè)維度進(jìn)行協(xié)同治理,是構(gòu)建可信GAI的戰(zhàn)略重點(diǎn)[13]。首先,技術(shù)是基礎(chǔ)。在技術(shù)維度上,技術(shù)的透明性、穩(wěn)健性和安全性是可信GAI的重點(diǎn),要求在模型設(shè)計(jì)和開(kāi)發(fā)過(guò)程中融人最新的安全防護(hù)措施和透明化手段。其次,人是核心。在人本維度上,人類決策者的監(jiān)督和用戶的反饋機(jī)制不可或缺,既要確保模型輸出具備技術(shù)可行性,也要符合倫理規(guī)范與社會(huì)期望。再次,管理是保障。在管理維度上,建立健全的治理架構(gòu)和標(biāo)準(zhǔn),確保模型在整個(gè)生命周期中的各個(gè)環(huán)節(jié)都受到嚴(yán)格的監(jiān)管和審查,防止因技術(shù)失控或管理失當(dāng)而引發(fā)的系統(tǒng)性風(fēng)險(xiǎn)。

(2)全流程優(yōu)化:全流程優(yōu)化強(qiáng)調(diào)從數(shù)據(jù)采集、模型開(kāi)發(fā)、系統(tǒng)部署到持續(xù)監(jiān)控和治理的全鏈條安全優(yōu)化,是構(gòu)建可信GAI的基本要求[9]。各階段間形成有效協(xié)同機(jī)制,不僅確保信息安全、數(shù)據(jù)質(zhì)量與算法透明,還能及時(shí)識(shí)別和糾正潛在風(fēng)險(xiǎn),實(shí)現(xiàn)技術(shù)、倫理與法規(guī)要求的有機(jī)融合,為GAI系統(tǒng)提供全周期、全維度的信任保障,最終提升技術(shù)應(yīng)用的穩(wěn)定性與可持續(xù)發(fā)展能力。

(3)多主體參與:多主體參與強(qiáng)調(diào)政府、企業(yè)、用戶等多方主體的共同參與,是構(gòu)建可信GAI的有力保障[14]。政府作為規(guī)則制定者,應(yīng)出臺(tái)明確的政策和標(biāo)準(zhǔn),推動(dòng)與可信GAI相關(guān)的法律法規(guī)的完善。企業(yè)作為技術(shù)開(kāi)發(fā)和應(yīng)用的主導(dǎo)者,應(yīng)承擔(dān)社會(huì)責(zé)任,在GAI的開(kāi)發(fā)和運(yùn)營(yíng)中落實(shí)智能風(fēng)控與敏捷治理要求。用戶作為GAI的最終使用者,應(yīng)加強(qiáng)隱私保護(hù)意識(shí),自覺(jué)遵守相關(guān)法律法規(guī),降低GAI濫用風(fēng)險(xiǎn)。

3GAI可信治理框架

本文基于復(fù)雜系統(tǒng)理論、協(xié)同治理理論與負(fù)責(zé)任創(chuàng)新理論,提出了“技術(shù)筑基一人本引導(dǎo)一管理制衡”的三維協(xié)同治理框架,構(gòu)建了多主體動(dòng)態(tài)適應(yīng)的可信GAI治理范式,如圖1所示。技術(shù)維度通過(guò)“訓(xùn)練一驗(yàn)證一防護(hù)一解釋”的閉環(huán)架構(gòu),形成內(nèi)生性可信基座;人本維度依托“倫理錨定一協(xié)同決策一反饋優(yōu)化”的增強(qiáng)回路,建立價(jià)值傳導(dǎo)機(jī)制;管理維度構(gòu)建“立法約束一企業(yè)治理一用戶規(guī)范”的協(xié)同網(wǎng)絡(luò)。三維度通過(guò)雙向數(shù)據(jù)流形成跨層耦合:技術(shù)驗(yàn)證結(jié)果驅(qū)動(dòng)管理政策校準(zhǔn),監(jiān)管沙盒試點(diǎn)反哺技術(shù)迭代,倫理爭(zhēng)議案例觸發(fā)防護(hù)策略升級(jí),用戶投訴數(shù)據(jù)優(yōu)化價(jià)值對(duì)齊參數(shù)。這種協(xié)同模式突破傳統(tǒng)單維治理局限,能夠?yàn)橛行?yīng)對(duì)可信GAI治理的復(fù)雜性與不確定性提供理論指引。

圖1 GAI可信治理框架

3.1 技術(shù)維度

在技術(shù)架構(gòu)層面,本文提出“訓(xùn)練一驗(yàn)證—防護(hù)一解釋”的全生命周期可信治理閉環(huán)體系。四個(gè)環(huán)節(jié)形成雙向增強(qiáng)回路:解釋環(huán)節(jié)的歸因圖譜逆向優(yōu)化訓(xùn)練數(shù)據(jù)分布,驗(yàn)證環(huán)節(jié)的脆弱性報(bào)告正向指導(dǎo)防護(hù)策略升級(jí),防護(hù)日志同步刷新驗(yàn)證基準(zhǔn),訓(xùn)練迭代持續(xù)完善解釋模型,由此實(shí)現(xiàn)“漏洞挖掘一加固防御一歸因改進(jìn)”的螺旋式可信增強(qiáng),為GAI治理建立具有認(rèn)知進(jìn)化能力的動(dòng)態(tài)防護(hù)體系。圖2給出了技術(shù)維度下GAI可信治理思路。

圖2技術(shù)維度下GAI可信治理思路

3.1.1 訓(xùn)練環(huán)節(jié)

訓(xùn)練環(huán)節(jié)是構(gòu)建可信基座的首要環(huán)節(jié),其通過(guò)源頭控制實(shí)現(xiàn)風(fēng)險(xiǎn)前攝性治理。這種可信原生訓(xùn)練范式不僅塑造了模型的合規(guī)決策模式,更形成了可追溯的價(jià)值觀圖譜,為后續(xù)驗(yàn)證環(huán)節(jié)提供可檢測(cè)的規(guī)范基準(zhǔn),從根本上降低系統(tǒng)性風(fēng)險(xiǎn)生成概率。訓(xùn)練環(huán)節(jié)的可信技術(shù)包括對(duì)齊技術(shù)、密碼學(xué)技術(shù)和水印技術(shù)。

(1)對(duì)齊技術(shù)指的是在模型訓(xùn)練過(guò)程中,確保GAI的目標(biāo)和行為與人類價(jià)值觀、社會(huì)倫理以及預(yù)期的應(yīng)用場(chǎng)景相一致的技術(shù)方法[15]。它的核心是通過(guò)目標(biāo)函數(shù)的優(yōu)化和約束條件的引入,使得模型的決策路徑符合預(yù)期的安全和倫理標(biāo)準(zhǔn)。代表性的對(duì)齊方法包括Ouyang等[1提出的基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learningfrom humanfeedback,RLHF)方法、基于規(guī)則的“AI自監(jiān)督”方法以及通過(guò)“AI監(jiān)督AI”的對(duì)齊方法。

(2)密碼學(xué)技術(shù)主要應(yīng)用于保護(hù)數(shù)據(jù)和模型的隱私,確保敏感信息在傳輸和處理過(guò)程中不被泄露[17]。密碼學(xué)技術(shù)的核心思想是通過(guò)加密方法保障數(shù)據(jù)在使用過(guò)程中的安全性,尤其是在多方參與的協(xié)同訓(xùn)練中,能夠確保各方數(shù)據(jù)的隱私不被泄露。

比較常用的密碼學(xué)技術(shù)包括同態(tài)加密和多方計(jì)算。

(3)水印技術(shù)指的是在GAI生成的內(nèi)容中嵌入隱蔽的標(biāo)識(shí)符,以便在后續(xù)的使用或傳播中能夠驗(yàn)證內(nèi)容的真實(shí)性和來(lái)源,從而防止內(nèi)容被惡意篡改或用于不當(dāng)目的[18]。水印技術(shù)的核心在于通過(guò)對(duì)模型輸出的細(xì)微修改,嵌人獨(dú)特的水印標(biāo)識(shí),使得這些標(biāo)識(shí)難以被篡改或移除。水印技術(shù)的主要類型包括顯性水印、隱性水印和零水印技術(shù)。

3.1.2 驗(yàn)證環(huán)節(jié)

驗(yàn)證環(huán)節(jié)承擔(dān)著可信度量化評(píng)估與風(fēng)險(xiǎn)預(yù)警的核心職能,其通過(guò)動(dòng)態(tài)化、多維度的檢測(cè)機(jī)制確保治理有效性。驗(yàn)證結(jié)果不僅為防護(hù)策略的閾值設(shè)定提供科學(xué)依據(jù),其輸出的脆弱性報(bào)告更逆向驅(qū)動(dòng)訓(xùn)練階段的數(shù)據(jù)清洗與價(jià)值對(duì)齊優(yōu)化。驗(yàn)證環(huán)節(jié)的可信技術(shù)包括紅隊(duì)測(cè)試技術(shù)與形式化驗(yàn)證技術(shù)。

(1)紅隊(duì)測(cè)試技術(shù)是一種模擬攻擊的安全評(píng)估方法,核心思想是通過(guò)故意的攻擊和挑戰(zhàn)來(lái)評(píng)估GAI的安全性和穩(wěn)健性[19]。圖3給出了紅隊(duì)測(cè)試技術(shù)的主要流程:紅隊(duì)(攻擊方)模擬潛在的攻擊者對(duì)大模型發(fā)起問(wèn)答形式的攻擊行為。然后由評(píng)測(cè)模型對(duì)大模型的表現(xiàn)進(jìn)行評(píng)估,從而發(fā)現(xiàn)大模型中的漏洞、脆弱性或未預(yù)料的行為。最后根據(jù)測(cè)評(píng)結(jié)果,由教練模型幫助提升大模型性能。當(dāng)前已有不少研究工作通過(guò)設(shè)計(jì)多種攻擊方式幫助提升GAI的生成質(zhì)量,主要包括越獄攻擊、對(duì)抗攻擊以及多模態(tài)攻擊等。

圖3紅隊(duì)測(cè)試技術(shù)流程

(2)形式化驗(yàn)證技術(shù)是一種基于數(shù)學(xué)建模與邏輯推理的系統(tǒng)安全保障方法,其核心在于將系統(tǒng)行為與安全屬性轉(zhuǎn)化為形式化規(guī)約,通過(guò)嚴(yán)格數(shù)學(xué)證明確保二者間的邏輯蘊(yùn)含關(guān)系[7]。該技術(shù)采用模型檢測(cè)、定理證明和抽象解釋三大范式,在算法層、協(xié)議層和系統(tǒng)層實(shí)現(xiàn)全生命周期可信驗(yàn)證。在可信GAI治理中,該技術(shù)通過(guò)多重機(jī)制構(gòu)筑防護(hù)體系:將倫理準(zhǔn)則編碼為線性時(shí)態(tài)邏輯公式,數(shù)學(xué)化驗(yàn)證模型合規(guī)性;將深度學(xué)習(xí)模型轉(zhuǎn)換為可驗(yàn)證的符號(hào)表達(dá)式,檢測(cè)對(duì)抗樣本脆弱性;建立動(dòng)態(tài)驗(yàn)證接口,實(shí)時(shí)監(jiān)控模型輸出與預(yù)設(shè)安全規(guī)約的一致性等。

3.1.3 防護(hù)環(huán)節(jié)

防護(hù)環(huán)節(jié)負(fù)責(zé)構(gòu)筑動(dòng)態(tài)安全防線,通過(guò)實(shí)時(shí)威脅響應(yīng)與自適應(yīng)防御機(jī)制確保系統(tǒng)穩(wěn)健運(yùn)行。其不僅能有效阻斷大部分的實(shí)時(shí)攻擊,還可以通過(guò)持續(xù)進(jìn)化的防御策略庫(kù)應(yīng)對(duì)技術(shù)快速迭代帶來(lái)的未知風(fēng)險(xiǎn)。防護(hù)環(huán)節(jié)的可信技術(shù)包括檢測(cè)技術(shù)、對(duì)抗訓(xùn)練技術(shù)和沙盒隔離技術(shù)。

(1)檢測(cè)技術(shù)指的是對(duì)GAI輸出的內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控和分析,識(shí)別其中的異常行為、不當(dāng)信息或潛在的安全威脅[14]。檢測(cè)技術(shù)的核心在于通過(guò)自動(dòng)化工具或人工審查,及時(shí)發(fā)現(xiàn)生成的內(nèi)容是否符合預(yù)期,尤其是在涉及倫理、法律或社會(huì)責(zé)任的領(lǐng)域。當(dāng)前的主流檢測(cè)技術(shù)包括基于神經(jīng)網(wǎng)絡(luò)的檢測(cè)、基于零樣本的檢測(cè)、基于檢索的檢測(cè)和基于水印的檢測(cè)。

(2)對(duì)抗訓(xùn)練技術(shù)是一種通過(guò)主動(dòng)生成并學(xué)習(xí)對(duì)抗性樣本來(lái)增強(qiáng)人工智能模型魯棒性的防御方法,其核心在于構(gòu)建“攻擊一防御”動(dòng)態(tài)博弈機(jī)制,迫使模型在訓(xùn)練過(guò)程中同步優(yōu)化標(biāo)準(zhǔn)任務(wù)性能與對(duì)抗擾動(dòng)抵抗能力[20]。在可信GAI治理中,該技術(shù)可通過(guò)模擬提示注入、后門觸發(fā)等新型攻擊模式,提升模型對(duì)惡意輸人的識(shí)別能力,有效應(yīng)對(duì)快速演進(jìn)的黑客攻擊手段。

(3)沙盒隔離技術(shù)是一種通過(guò)創(chuàng)建封閉執(zhí)行環(huán)境來(lái)限制系統(tǒng)組件行為的安全機(jī)制,其核心在于構(gòu)建資源隔離、權(quán)限控制和行為監(jiān)控三位一體的防護(hù)體系,確保潛在風(fēng)險(xiǎn)被嚴(yán)格限制在可控邊界內(nèi)[21]。在可信GAI治理中,沙盒隔離可通過(guò)多種形式形成關(guān)鍵安全屏障:將模型推理過(guò)程封裝至獨(dú)立環(huán)境;防止惡意代碼擴(kuò)散至宿主系統(tǒng);通過(guò)細(xì)粒度權(quán)限策略遏制數(shù)據(jù)泄露風(fēng)險(xiǎn)等。

3.1.4 解釋環(huán)節(jié)

解釋環(huán)節(jié)是構(gòu)建透明化治理范式的核心樞紐。解釋輸出不僅為倫理爭(zhēng)議提供技術(shù)歸因依據(jù),其揭示的脆弱性模式更逆向驅(qū)動(dòng)訓(xùn)練環(huán)節(jié)的數(shù)據(jù)清洗策略優(yōu)化與驗(yàn)證環(huán)節(jié)的評(píng)估指標(biāo)迭代。解釋環(huán)節(jié)的可信技術(shù)包括注意力機(jī)制技術(shù)、特征歸因技術(shù)與因果推理技術(shù)。

(1)注意力機(jī)制技術(shù)是一種模擬人類認(rèn)知聚焦特性的信息處理范式,其核心思想是通過(guò)動(dòng)態(tài)權(quán)重分配實(shí)現(xiàn)輸入特征的差異化關(guān)注,從而揭示模型決策的關(guān)鍵依據(jù)[2]。典型方法包括自注意力特征依賴圖譜、多頭注意力并行、梯度注意力逆向追蹤等。在可信GAI解釋中,該技術(shù)通過(guò)多重機(jī)制提升透明度:利用注意力權(quán)重分布直觀呈現(xiàn)文本生成中的關(guān)鍵詞影響力;根據(jù)注意力熱力圖構(gòu)建可解釋的因果推理鏈條等。

(2)特征歸因技術(shù)是一種解構(gòu)機(jī)器學(xué)習(xí)模型決策邏輯的解釋方法,其核心思想是通過(guò)量化輸入特征對(duì)模型輸出的貢獻(xiàn)度,定位驅(qū)動(dòng)決策的關(guān)鍵影響因素[23]。代表性方法包括基于博弈論的 SHAP值計(jì)算、局部代理模型LIME以及積分梯度法。在可信GAI治理中,可以利用該技術(shù)通過(guò)多種方式提升可解釋性:利用敏感詞權(quán)重分布揭示潛在偏見(jiàn)誘導(dǎo)因素;基于多模態(tài)輸人的跨域特征耦合模式追蹤錯(cuò)誤傳播路徑等。

(3)因果推理技術(shù)是一種揭示變量間因果關(guān)系的分析方法,其核心思想是通過(guò)干預(yù)與反事實(shí)推演構(gòu)建因果效應(yīng)網(wǎng)絡(luò),突破統(tǒng)計(jì)關(guān)聯(lián)的認(rèn)知局限[24]。代表性方法包括用有向無(wú)環(huán)圖量化因果效應(yīng)傳播路徑、通過(guò)條件獨(dú)立性檢驗(yàn)推斷潛在因果結(jié)構(gòu)、基于雙重機(jī)器學(xué)習(xí)估計(jì)因果效應(yīng)等。在可信GAI治理中,該技術(shù)通過(guò)多個(gè)步驟增強(qiáng)解釋深度:識(shí)別數(shù)據(jù)偏見(jiàn)與模型決策間的因果傳導(dǎo)鏈條;區(qū)分虛假相關(guān)與真實(shí)因果;構(gòu)建反事實(shí)干預(yù)空間,生成可執(zhí)行的決策修正建議。

3.2 人本維度

在人本架構(gòu)層面,本文提出“倫理一協(xié)同—反饋”的可信治理閉環(huán)體系。三環(huán)節(jié)形成價(jià)值傳導(dǎo)增強(qiáng)回路:倫理準(zhǔn)則為協(xié)同機(jī)制提供可信的操作框架,協(xié)同日志為反饋系統(tǒng)輸送溯源證據(jù)鏈,社區(qū)共識(shí)逆向迭代倫理價(jià)值約束。這種“剛性約束一柔性協(xié)同一共識(shí)進(jìn)化”的閉環(huán)結(jié)構(gòu),使GAI治理具備價(jià)值觀一致性、風(fēng)險(xiǎn)響應(yīng)敏捷性與社會(huì)公信力,構(gòu)建起人本導(dǎo)向的可信治理范式。圖4給出了人本維度下GAI可信治理思路。

圖4人本維度下GAI可信治理思路

3.2.1 倫理規(guī)范

倫理規(guī)范是可信GAI治理的價(jià)值錨點(diǎn),通過(guò)雙重機(jī)制確保技術(shù)發(fā)展與社會(huì)價(jià)值觀的動(dòng)態(tài)耦合:一方面,通過(guò)“安全紅線”設(shè)定硬性約束劃定模型行為的不可逾越邊界;另一方面,借助價(jià)值對(duì)齊算法驅(qū)動(dòng)模型在訓(xùn)練中內(nèi)化道德約束。這種“底線管控 + 主動(dòng)引導(dǎo)”的模式有助于從根本上保障GAI發(fā)展的社會(huì)可接受性。

(1)安全紅線。在GAI模型設(shè)計(jì)初期,設(shè)定并遵守AI安全紅線至關(guān)重要,因?yàn)樵缙诘脑O(shè)計(jì)和開(kāi)發(fā)決策將直接影響模型的后續(xù)表現(xiàn)和安全性。AI安全紅線能夠明確模型邊界,防止其在不受控的情況下做出不當(dāng)或危險(xiǎn)的決策。在這個(gè)過(guò)程中,開(kāi)發(fā)者和設(shè)計(jì)者應(yīng)主動(dòng)設(shè)定AI安全紅線的原則和標(biāo)準(zhǔn),這些紅線應(yīng)包括自主復(fù)制或改進(jìn)、權(quán)利尋求、協(xié)助武器制造、網(wǎng)絡(luò)安全、欺騙等關(guān)鍵領(lǐng)域[25]。同時(shí),應(yīng)明確哪些決策是AI可以做出的,哪些是超越AI能力或倫理邊界的。在模型的價(jià)值判斷和自動(dòng)化決策環(huán)節(jié),開(kāi)發(fā)者應(yīng)主動(dòng)劃定紅線,確保AI不會(huì)對(duì)社會(huì)產(chǎn)生負(fù)面影響或違背社會(huì)倫理

(2)價(jià)值對(duì)齊。人類輔助GAI對(duì)齊是通過(guò)人類價(jià)值觀深度介人,引導(dǎo)GAI內(nèi)化社會(huì)倫理規(guī)范的技術(shù)過(guò)程。該機(jī)制包含以下幾個(gè)步驟:首先,由倫理學(xué)家、法律專家等跨領(lǐng)域團(tuán)隊(duì)定義價(jià)值觀優(yōu)先級(jí),通過(guò)RLHF方法將抽象倫理準(zhǔn)則轉(zhuǎn)化為可計(jì)算的對(duì)齊目標(biāo);其次,建立動(dòng)態(tài)標(biāo)注系統(tǒng),基于千人級(jí)群體偏好數(shù)據(jù)持續(xù)優(yōu)化價(jià)值約束函數(shù),確保模型決策與社會(huì)主流價(jià)值觀動(dòng)態(tài)耦合;再次,設(shè)計(jì)爭(zhēng)議決策仲裁機(jī)制,針對(duì)文化沖突場(chǎng)景(如隱私權(quán)與公共安全的權(quán)衡)進(jìn)行人工協(xié)同裁定。

3.2.2 協(xié)同決策

協(xié)同決策通過(guò)“人在回路 + 人在旁路”的雙模機(jī)制實(shí)現(xiàn)人機(jī)動(dòng)態(tài)權(quán)責(zé)分配。這種機(jī)制使人類監(jiān)督既能在關(guān)鍵節(jié)點(diǎn)精準(zhǔn)介入,又能優(yōu)化全局性模型認(rèn)知框架,使治理系統(tǒng)兼具敏捷性與價(jià)值觀穩(wěn)定性,在保留AI效率優(yōu)勢(shì)的同時(shí),確保關(guān)鍵決策始終處于人類價(jià)值觀的可控邊界內(nèi)。

(1)“人在回路”?!叭嗽诨芈贰保╤uman-in-the-loop,HITL)是指在GAI模型的決策流程中,人類直接參與每一個(gè)關(guān)鍵步驟,并對(duì)模型的決策進(jìn)行實(shí)時(shí)監(jiān)督和干預(yù)[26]。具體而言,在HITL 模式下,GAI在生成決策或輸出內(nèi)容時(shí),需要人類對(duì)其進(jìn)行評(píng)估、確認(rèn)或修正,才能完成最終的決策。HITL強(qiáng)調(diào)人類的主動(dòng)參與,適用于需要高安全性和高可靠性的應(yīng)用場(chǎng)景,如醫(yī)療診斷、自動(dòng)駕駛和金融交易等,在這些場(chǎng)景中,任何模型決策的失誤都可能帶來(lái)重大風(fēng)險(xiǎn)。

(2)“人在旁路”?!叭嗽谂月贰保╤uman-on-the-loop,HOTL)指人類處于模型的監(jiān)督層級(jí),而不是直接參與每一個(gè)決策環(huán)節(jié)[27]。HOTL 模式下,GAI可以在無(wú)需實(shí)時(shí)人類干預(yù)的情況下自動(dòng)生成決策和輸出,人類僅在系統(tǒng)表現(xiàn)出異常或可能偏離預(yù)期時(shí)進(jìn)行干預(yù)。HOTL更適合風(fēng)險(xiǎn)較低或?qū)?shí)時(shí)性要求較高的應(yīng)用場(chǎng)景,如社交媒體內(nèi)容審核和自動(dòng)推薦系統(tǒng)等。

3.2.3 反饋優(yōu)化

反饋優(yōu)化環(huán)節(jié)是驅(qū)動(dòng)治理效能持續(xù)升級(jí)的核心引擎,其通過(guò)“投訴舉報(bào)一社區(qū)參與”雙通道構(gòu)建動(dòng)態(tài)適應(yīng)機(jī)制,使治理系統(tǒng)具備環(huán)境感知能力與社會(huì)共識(shí)兼容性,為GAI可信治理建立了可持續(xù)的自我完善范式。

(1)投訴舉報(bào)。投訴舉報(bào)機(jī)制是人本維度下可信治理的動(dòng)態(tài)感知觸角,通過(guò)構(gòu)建多通道響應(yīng)系統(tǒng)實(shí)時(shí)捕獲用戶端的異常決策案例,形成細(xì)粒度風(fēng)險(xiǎn)特征庫(kù)。該機(jī)制通過(guò)三重路徑驅(qū)動(dòng)治理優(yōu)化:首先,運(yùn)用自然語(yǔ)言處理技術(shù)將非結(jié)構(gòu)化投訴聚類為系統(tǒng)性缺陷圖譜,逆向指導(dǎo)訓(xùn)練階段的數(shù)據(jù)清洗策略與價(jià)值對(duì)齊參數(shù)調(diào)整;其次,建立案例溯源鏈條,將投訴與特定模型版本、決策場(chǎng)景關(guān)聯(lián),精準(zhǔn)定位脆弱性模塊;再次,通過(guò)透明度報(bào)告公開(kāi)投訴處置進(jìn)度,提升用戶信任度。

(2)社區(qū)參與。社區(qū)參與機(jī)制是人本維度下構(gòu)建GAI可信治理共識(shí)的關(guān)鍵,通過(guò)多利益相關(guān)方協(xié)作,實(shí)現(xiàn)跨領(lǐng)域智慧整合,驅(qū)動(dòng)治理框架的動(dòng)態(tài)調(diào)適。在反饋優(yōu)化過(guò)程中,社區(qū)共識(shí)通過(guò)雙重渠道賦能治理閉環(huán):一方面,將文化差異性需求逆向重塑訓(xùn)練階段的價(jià)值對(duì)齊策略;另一方面,通過(guò)共識(shí)驅(qū)動(dòng)的治理路線圖動(dòng)態(tài)校準(zhǔn)驗(yàn)證階段的評(píng)估指標(biāo)與防護(hù)階段的響應(yīng)閾值。這種群體智慧集成機(jī)制使治理體系同時(shí)具備社會(huì)兼容性與持續(xù)進(jìn)化能力。

3.3 管理維度

在管理架構(gòu)層面,本研究構(gòu)建了“政府一企業(yè)一用戶”的協(xié)同治理體系:政府法規(guī)約束企業(yè)風(fēng)控閾值,企業(yè)合規(guī)報(bào)告驅(qū)動(dòng)政策優(yōu)化,用戶行為管理賦能政府監(jiān)管效率。三者相互作用共同提升可信GAI治理效能。圖5給出了管理維度下GAI可信治理思路。

圖5管理維度下GAI可信治理思路

3.3.1 政府管理

在實(shí)現(xiàn)可信GAI的過(guò)程中,政府可以從多個(gè)方面加強(qiáng)管理,以確保GAI技術(shù)的可信性和社會(huì)責(zé)任。具體而言,從GAI的全生命周期出發(fā),政府可以在包括數(shù)據(jù)采集、模型開(kāi)發(fā)、系統(tǒng)部署以及監(jiān)控治理等階段發(fā)揮關(guān)鍵作用。

(1)安全立法。GAI的訓(xùn)練通常依賴于海量數(shù)據(jù),包括敏感的個(gè)人隱私數(shù)據(jù)??梢酝ㄟ^(guò)立法,嚴(yán)格規(guī)范GAI對(duì)數(shù)據(jù)的采集、存儲(chǔ)、處理和使用,確保數(shù)據(jù)隱私得到充分保護(hù)。同時(shí),可以加強(qiáng)對(duì)數(shù)據(jù)來(lái)源的審查,確保GAI所使用的數(shù)據(jù)符合法律規(guī)定,特別是在涉及跨境數(shù)據(jù)傳輸時(shí),法律應(yīng)明確數(shù)據(jù)流動(dòng)的合規(guī)標(biāo)準(zhǔn)和授權(quán)機(jī)制。

(2)問(wèn)責(zé)制。在GAI的使用過(guò)程中,可能會(huì)出現(xiàn)錯(cuò)誤決策或安全事故,因此立法應(yīng)明確責(zé)任歸屬問(wèn)題??梢灾贫ㄘ?zé)任追究機(jī)制,確保在GAI出現(xiàn)失誤、偏差或引發(fā)損害時(shí),模型提供者、運(yùn)營(yíng)者和使用者能夠各自承擔(dān)相應(yīng)責(zé)任。特別是在高風(fēng)險(xiǎn)領(lǐng)域,開(kāi)發(fā)者和運(yùn)營(yíng)者必須對(duì)GAI的安全性、可靠性和合規(guī)性負(fù)責(zé)。通過(guò)責(zé)任追究機(jī)制,防止推卸責(zé)任,保障公眾利益。

(3)監(jiān)管機(jī)構(gòu)??梢栽O(shè)立專門的監(jiān)管機(jī)構(gòu),負(fù)責(zé)監(jiān)督和管理GAI的開(kāi)發(fā)、部署和使用。監(jiān)管機(jī)構(gòu)應(yīng)具有強(qiáng)大的審查和執(zhí)法權(quán)力,對(duì)GAI技術(shù)的合規(guī)性進(jìn)行全方位監(jiān)督,確保其安全運(yùn)行。法律應(yīng)賦予監(jiān)管機(jī)構(gòu)權(quán)力,定期對(duì)GAI進(jìn)行審查,確保其始終符合法律和社會(huì)標(biāo)準(zhǔn)。此外,監(jiān)管應(yīng)具備靈活性和動(dòng)態(tài)調(diào)整的能力,能夠隨時(shí)適應(yīng)GAI技術(shù)的發(fā)展和變化。

3.3.2 企業(yè)管理

企業(yè)作為GAI的設(shè)計(jì)者和部署者,需要負(fù)責(zé)從模型的初期設(shè)計(jì)到后續(xù)管理的全生命周期。為了確保GAI的可解釋性、透明性、持續(xù)優(yōu)化和安全性,企業(yè)可以從智能風(fēng)控與敏捷治理兩個(gè)方面加強(qiáng)管理。

(1)智能風(fēng)控。智能風(fēng)控系統(tǒng)是可信GAI治理的核心防線,通過(guò)三層動(dòng)態(tài)防御架構(gòu)實(shí)現(xiàn)風(fēng)險(xiǎn)的全周期管控:前端部署多模態(tài)監(jiān)測(cè)引擎,運(yùn)用自然語(yǔ)言處理實(shí)時(shí)掃描提示詞與生成內(nèi)容;中臺(tái)構(gòu)建自適應(yīng)防御網(wǎng)絡(luò),融合對(duì)抗訓(xùn)練增強(qiáng)模型魯棒性,結(jié)合沙盒隔離遏制潛在攻擊擴(kuò)散;后端建立風(fēng)險(xiǎn)瀕源圖譜,通過(guò)特征歸因技術(shù)定位脆弱性模塊,驅(qū)動(dòng)模型迭代更新。該系統(tǒng)與敏捷治理框架協(xié)同運(yùn)作,實(shí)現(xiàn)風(fēng)險(xiǎn)策略的分鐘級(jí)動(dòng)態(tài)調(diào)優(yōu),并通過(guò)合規(guī)接口與政府監(jiān)管平臺(tái)實(shí)時(shí)數(shù)據(jù)同步,使企業(yè)級(jí)GAI應(yīng)用在合規(guī)性與安全性層面達(dá)到可信治理標(biāo)準(zhǔn)。

(2)敏捷治理。敏捷治理為可信GAI構(gòu)建動(dòng)態(tài)調(diào)適能力,通過(guò)模塊化治理框架實(shí)現(xiàn)“監(jiān)測(cè)一響應(yīng)一迭代”的快速演進(jìn)循環(huán)。該體系包含三階核心機(jī)制:將治理單元解耦為可獨(dú)立更新的功能模塊,支持分鐘級(jí)策略部署;實(shí)時(shí)捕獲生成內(nèi)容風(fēng)險(xiǎn)特征,驅(qū)動(dòng)治理規(guī)則按需優(yōu)化;搭建跨部門協(xié)同平臺(tái),整合技術(shù)、法務(wù)與運(yùn)營(yíng)團(tuán)隊(duì),形成風(fēng)險(xiǎn)研判一方案設(shè)計(jì)一效果驗(yàn)證的高效閉環(huán)。這種彈性架構(gòu)使企業(yè)治理效能大幅提升,在應(yīng)對(duì)快速迭代的生成風(fēng)險(xiǎn)時(shí)保持較高的合規(guī)率,構(gòu)建起具有環(huán)境適應(yīng)性的可信治理范式。

3.3.3 用戶管理

用戶管理在保障GAI的隱私性、安全性和社會(huì)責(zé)任方面同樣起著關(guān)鍵作用。他們不僅是GAI的直接使用者,也是潛在風(fēng)險(xiǎn)的管理者,其行為和使用方式直接影響GAI的運(yùn)行效果和社會(huì)影響。本文主要從提升用戶隱私保護(hù)意識(shí)以及規(guī)范用戶合規(guī)兩個(gè)使用流程出發(fā),探討如何提高GAI的可信治理效能。

(1)隱私意識(shí)。用戶在使用GAI時(shí),應(yīng)嚴(yán)格遵守隱私保護(hù)和數(shù)據(jù)安全的相關(guān)法規(guī),尤其是涉及個(gè)人數(shù)據(jù)或敏感信息的場(chǎng)景。用戶在數(shù)據(jù)上傳、處理和共享時(shí)應(yīng)確保數(shù)據(jù)來(lái)源合法,并避免在未經(jīng)授權(quán)的情況下濫用模型生成的輸出。同時(shí),用戶應(yīng)增強(qiáng)隱私保護(hù)意識(shí),主動(dòng)采用企業(yè)提供的隱私保護(hù)機(jī)制,如數(shù)據(jù)加密、匿名化處理等方式,確保在使用GAI時(shí)不會(huì)泄露敏感信息,這一點(diǎn)在醫(yī)療、金融等高度敏感的場(chǎng)景中尤為重要。

(2)合理使用。用戶應(yīng)避免濫用或惡意使用GAI,尤其是在自動(dòng)化決策和生成式內(nèi)容等應(yīng)用場(chǎng)景中。GAI具有強(qiáng)大的生成和預(yù)測(cè)能力,用戶在使用時(shí)必須意識(shí)到其潛在的社會(huì)影響和倫理責(zé)任,嚴(yán)禁將GAI用于生成虛假信息、深度偽造或其他惡意用途。這些行為不僅會(huì)帶來(lái)倫理風(fēng)險(xiǎn),還可能造成社會(huì)動(dòng)蕩。因此,用戶應(yīng)遵循模型使用的倫理規(guī)范,確保模型的輸出不會(huì)被用于不當(dāng)用途。

4GAI可信治理的挑戰(zhàn)與應(yīng)對(duì)思路

盡管通過(guò)“技術(shù) + 人 + 管理”的治理模式,可以確保GAI沿著可信之路穩(wěn)步前行,但當(dāng)前GAI可信治理仍面臨諸多挑戰(zhàn),既包括技術(shù)發(fā)展本身所帶來(lái)的挑戰(zhàn),也包括管理層面的難題。同時(shí),作為推動(dòng)第四次工業(yè)革命的核心力量,GAI的可信發(fā)展是一個(gè)長(zhǎng)期和全球化的過(guò)程?;诖?,以下將從技術(shù)維度、管理維度、發(fā)展的長(zhǎng)期性與全球化特性探討GAI可信治理的挑戰(zhàn)與應(yīng)對(duì)思路。

(1)從技術(shù)維度來(lái)看,GAI可信治理的挑戰(zhàn)主要集中在兩個(gè)方面。一方面,不可解釋性成為GAI可信治理的首要挑戰(zhàn)[28]?,F(xiàn)代大模型,尤其是深度學(xué)習(xí)模型,如Transformer架構(gòu)下的GPT等,通常包含成千上萬(wàn)個(gè)神經(jīng)元和多層自注意力機(jī)制。這種高度復(fù)雜的模型結(jié)構(gòu)使得其內(nèi)部決策路徑變得難以直觀理解,模型學(xué)習(xí)的具體模式和決策依據(jù)往往無(wú)法被人類輕易解讀。盡管當(dāng)前已經(jīng)出現(xiàn)了很多可解釋性方法,比如注意力機(jī)制技術(shù)、特征歸因技術(shù)、因果推理技術(shù)等,但這些方法本質(zhì)上都是一種事后解釋方法,無(wú)法真正意義上理解模型決策邏輯。另一方面,保持魯棒性和穩(wěn)定性是GAI可信治理面臨的重要技術(shù)挑戰(zhàn)。為了應(yīng)對(duì)GAI的不可解釋性難題,相關(guān)研究者提出通過(guò)提高模型透明度或只采用可證明安全的白盒模型進(jìn)行訓(xùn)練等方式提升GAI可信度。然而,過(guò)度的透明可能讓攻擊者更容易了解模型的工作機(jī)制,使模型面臨更高的安全風(fēng)險(xiǎn)。同時(shí),過(guò)度簡(jiǎn)化模型以增強(qiáng)可解釋性可能會(huì)削弱模型的預(yù)測(cè)準(zhǔn)確性和處理能力[29]。鑒于此,為有效應(yīng)對(duì)挑戰(zhàn),應(yīng)加強(qiáng)基礎(chǔ)學(xué)科研究,重視理論基礎(chǔ)驗(yàn)證,比如以認(rèn)知神經(jīng)科學(xué)為基礎(chǔ),探索強(qiáng)人工智能模型的可解釋性。同時(shí),設(shè)計(jì)多目標(biāo)優(yōu)化框架,通過(guò)對(duì)抗訓(xùn)練聯(lián)合優(yōu)化模型可解釋性、魯棒性與預(yù)測(cè)性能,建立基于Pareto前沿的評(píng)估體系。

(2)從管理維度來(lái)看,技術(shù)迭代與制度演進(jìn)間的結(jié)構(gòu)性失衡也是可信GAI治理的重要挑戰(zhàn)[13] 。一方面,GAI的不可解釋性使監(jiān)管部門無(wú)法建立清晰的算法問(wèn)責(zé)框架,可能造成法律規(guī)制的空白。例如,當(dāng)生成內(nèi)容涉及侵權(quán)或倫理爭(zhēng)議時(shí),我們既缺乏界定責(zé)任主體的客觀依據(jù),也難以在鼓勵(lì)創(chuàng)新與防范風(fēng)險(xiǎn)之間劃定合理邊界。另一方面,科技巨頭與監(jiān)管機(jī)構(gòu)間的信息權(quán)力不對(duì)稱進(jìn)一步加劇治理困境。企業(yè)憑借技術(shù)壟斷地位掌握訓(xùn)練數(shù)據(jù)、模型參數(shù)等核心信息,而監(jiān)管方因?qū)I(yè)能力與數(shù)據(jù)獲取渠道受限,往往在技術(shù)代際更迭后才被動(dòng)制定規(guī)則,形成“監(jiān)管滯后一技術(shù)失控”的惡性循環(huán)。應(yīng)對(duì)上述矛盾需構(gòu)建動(dòng)態(tài)平衡的治理生態(tài):技術(shù)上,推動(dòng)可解釋性算法的標(biāo)準(zhǔn)化研發(fā),通過(guò)嵌入可追溯的決策標(biāo)識(shí),在保障模型性能的同時(shí)提升透明度和安全性;制度上,建立“適應(yīng)性立法”機(jī)制,采用監(jiān)管沙盒、彈性合規(guī)期等政策工具,允許法律規(guī)則隨技術(shù)演進(jìn)動(dòng)態(tài)調(diào)整。

(3)從GAI發(fā)展的長(zhǎng)期性視角來(lái)看,人工智能技術(shù)的持續(xù)迭代、應(yīng)用場(chǎng)景的跨界延伸與社會(huì)認(rèn)知的動(dòng)態(tài)演化,共同構(gòu)成了可信治理的深層挑戰(zhàn)[9]首先,它要求治理框架必須具備足夠的靈活性和前瞻性,能夠隨著技術(shù)的進(jìn)步進(jìn)行調(diào)整和升級(jí)。其次,GAI技術(shù)的跨領(lǐng)域應(yīng)用使其在法律和倫理層面面臨著復(fù)雜的沖突。例如,數(shù)據(jù)隱私保護(hù)與模型訓(xùn)練需求之間的沖突、透明性要求與商業(yè)機(jī)密之間的矛盾,這些問(wèn)題在短期內(nèi)難以得到完全解決。此外,公眾信任的脆弱性與技術(shù)迭代的不可逆性形成張力,當(dāng)GAI通過(guò)深度偽造突破真實(shí)性邊界時(shí),社會(huì)共識(shí)的修復(fù)成本遠(yuǎn)高于技術(shù)糾偏的代價(jià)。針對(duì)上述挑戰(zhàn),可構(gòu)建“敏捷立法”的機(jī)制,建立由技術(shù)專家、法律學(xué)者和公眾代表組成的協(xié)同治理委員會(huì),利用數(shù)字孿生技術(shù)對(duì)跨領(lǐng)域風(fēng)險(xiǎn)進(jìn)行預(yù)演,制定分級(jí)響應(yīng)策略。同時(shí),在社會(huì)層面,推行“參與式治理”模式,搭建公眾風(fēng)險(xiǎn)感知實(shí)時(shí)監(jiān)測(cè)平臺(tái),強(qiáng)化公眾信任度。

(4)從GAI發(fā)展的全球化視角來(lái)看,GAI的開(kāi)發(fā)、應(yīng)用和影響已經(jīng)超越了國(guó)界,成為全球性技術(shù)進(jìn)步的核心推動(dòng)力。但GAI技術(shù)的開(kāi)發(fā)和應(yīng)用在全球范圍內(nèi)處于不同的發(fā)展階段,技術(shù)標(biāo)準(zhǔn)和治理框架的不統(tǒng)一使得全球合作變得復(fù)雜[30]。首先,全球技術(shù)標(biāo)準(zhǔn)的缺乏導(dǎo)致了各國(guó)在數(shù)據(jù)隱私、模型透明度、算法公平性等關(guān)鍵問(wèn)題上的監(jiān)管差異。這不僅影響了GAI技術(shù)的全球推廣和應(yīng)用,還加劇了技術(shù)濫用和治理空白。其次,全球范圍內(nèi)的GAI治理面臨著倫理與文化差異的挑戰(zhàn)。各國(guó)在對(duì)待AI倫理、隱私保護(hù)、社會(huì)公正等問(wèn)題上,往往存在不同的價(jià)值觀和文化背景。再次,盡管全球范圍內(nèi)關(guān)于GAI的合作已有所開(kāi)展,但有效的國(guó)際合作機(jī)制仍然較為缺乏。為此,應(yīng)在全球范圍內(nèi)開(kāi)發(fā)開(kāi)源式治理工具鏈,通過(guò)動(dòng)態(tài)沙盒機(jī)制協(xié)調(diào)各國(guó)監(jiān)管實(shí)驗(yàn)數(shù)據(jù),最終形成兼顧效率與包容的協(xié)同治理范式;同時(shí),在全球共識(shí)層確立不可突破的底線原則,并在區(qū)域執(zhí)行層允許基于文化差異的彈性倫理準(zhǔn)則。

參考文獻(xiàn):

[1] Hartmann F,Tran D-H,Kairouz P,et al..Can LLMs get help from other LLMs without revealing private information?[J].arXiv preprint arXiv: 01041,2024.

[2]Wei A,Haghtalab N,Steinhardt J. Jailbroken:how does llm safety training fail? [A].37th Conference on Neural Information Processing Systems[C]. NeurIPS,Louisiana, USA,2023.36.

[3]Biyela S,Dihal K,Gero K I,et al.. Generative AI and science communication in the physical sciences[J]. Nature Reviews Physics,2024,6(3): 162-165.

[4]陳升,劉子俊,張楠.數(shù)字時(shí)代生成式人工智能影響及 治理政策導(dǎo)向[J].科學(xué)學(xué)研究,2024,42(1):10-20.

[5]陳銳,江奕輝.生成式AI的治理研究:以ChatGPT為 例[J].科學(xué)學(xué)研究,2024,42(1):21-30.

[6]關(guān)樂(lè)寧,徐凌驗(yàn).通用目的技術(shù)視角下新一代人工智 能的作用機(jī)理與治理體系[J].系統(tǒng)工程理論與實(shí)踐, 2024,44(1) :245-259.

[7]Dalrymple D,Skalse J,Bengio Y,et al.. Towards guaranteed safe AI: a framework for ensuring robust and reliable AI systems[J]. arXiv preprint arXiv:06624, 2024.

[8] Theodorou A, Dignum V. Towards ethical and socio-legal governance in AI[J]. Nature Machine Intelligence, 2020,2(1): 10-12.

[9]LiB,Qi P,Liu B,et al..Trustworthy AI:from principles to practices[J]. ACM Computing Surveys, 2023,55(9): 1-46.

[10] Zhang Y,Huang Y,Sun Y,et al..Benchmarking trustworthiness of multimodal large language models:a comprehensive study[J].arXiv preprint arXiv: O7057, 2024.

[11]You J,Liu G,LiY,et al..How far are we from AGI [A].The 12th International Conference on Learning Representations[C]. ICLR,Vienna,Austria,2024.7

[12]Shumailov I,Shumaylov Z,Zhao Y,et al..AI models collapse when trained on recursively generated data[J]. Nature,2024,631(8022): 755-759.

[13]Diaz-Rodriguez N,Del Ser J,Coeckelbergh M,et al.. Connecting the dots in trustworthy artificial intelligence : from AI principles,ethics,and key requirements to responsible AI systems and regulation[J]. Information Fusion,2023,99:101896.

[14]Barrett C,Boyd B,Bursztein E,et al.. Identifying and mitigating the security risks of generative AI[J]. Foundations Trends ⑧ in Privacy Security-FAQs,2023,6 (1):1-52.

[15]JiJ,Qiu T,Chen B,et al..Ai alignment:a comprehensive survey[J].arXiv preprint arXiv:19852,2023.

[16] Ouyang L,Wu J, Jiang X,et al.. Training language models to follow instructions with human feedback[A]. 36th Conference on Neural Information Processing Systems[C].NeurIPS,Louisiana,USA,2022,35: 27730-27744.

[17]WoodA,Najarian K,Kahrobaei D.Homomorphic encryption for machine learning in medicine and bioinformatics[J].ACM Computing Surveys,2020,53 (4) : 1-35.

[18]Liang Y, Xiao J,Gan W,et al.. Watermarking techniques for large language models: a survey[J]. arXiv nrenrint arXiv: 00089.2024.

[19]WangB,Chen W,Pei H,et al..DecodingTrust:a comprehensive assessment of trustworthiness in GPT models[A].36th Conference on Neural Information Processing Systems[C].NeurIPS,Louisiana,USA, 2022,35:25510-25523.

[20]Qian Z,Huang K,Wang Q F,et al..A survey of robust adversarial training inpattern recognition: fundamental,theory,and methodologies[J].Pattern Recognition,2022,131:108889.

[21]ShuR,WangP,Gorski IIISA,et al..A studyof security isolation techniques [J]. ACM Computing Surveys,2016,49(3):1-37.

[22]Niu Z,Zhong G,Yu H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021,452:48-62.

[23]Wang Y,Zhang T,Guo X,et al..Gradient based featureattributionin explainable AI:a technical review [J].a(chǎn)rXiv preprint arXiv:10415,2024.

[24]KossakowskiJJ,WaldorpLJ,van derMaasHL.The search for causality:a comparison of different techniques for causal inference graphs[J].Psychological Methods,2021,26(6):719.

[25]SoaresN,HintonG,姚期智,etal..北京AI安全國(guó) 際共識(shí)[EB/OL].(2024-03-18).https://idaisbeijing.baai.ac.cn/? lang=zh :

[26]Wu X,Xiao L,Sun Y,et al.. A survey of human-inthe-loop for machine learning[J].Future Generation ComputerSystems,2022,135:364-381.

[27]Mosqueira-Rey E,Hern?ndez-Pereira E,Alonso-Rios D,et al..Human-in-the-loop machine learning:a state oftheart[J].Artificial Intelligence Review,2023,56 (4):3005-3054.

[28]Singh C,InalaJP,GalleyM,et al..Rethinking interpretability in the era of large language models[J].arXiv preprintarXiv:01761,2024.

[29]Lo Piano S. Ethical principles in machine learning and artificial intelligence:cases from the field and possible waysforward[J].Humanities Social Sciences Communications,2020,7(1):1-7.

[30]Tomasev N,CornebiseJ,HutterF,et al..AI for social good:unlocking the opportunity for positive impact[J]. Nature Communications,2020,11(1):2468.

Trustworthy Governance of GAI: Concepts, Framework and Challenges

ZHU Jun,JIANG Yuanchun,LIU Yezheng,CHAI Yidong (SchoolofManagement,Hefei University of Technology,Hefei 23ooo9,China)

Abstract:Generativeartificial inteligence(GAI)has significantlyenhanced enterprise operational eficiencyand automation levels.However,its inherent lack of interpretabilityindecision-making processes,data biases,and potential securityriskshave madeimproving thetrustworthinessofGAIacriticalchallenge inboth theoryand practice.Currently, scholarsaddresing the governance of GAI trustworthiness primarily propose solutions from a single dimension,such as data,technology,or ethics.Yet,the development of GAI facesmore complex and multifacetedchallnges than traditionalAI,encompasingdata,technology,ethics,law,and societalconsiderations.Therefore,itisessential to construct a more comprehensive and systematic governance framework from a multidimensional perspective.

Building on this,this paper first analyzes the key characteristics that trustworthy GAI should possess and proposes a multifaceted governance philosophythat includes multidimensional co-governance,full-process optimization,and multi-stakeholder participation.We then constructan integrated governance framework of“technology + human + (204號(hào) management”,providing specific pathways toachieve trustworthy GAI from diferent perspectives.Specifically,in the technological dimension,we proposeaclosed-loopgovernancesystemof“training-verification-protection-interpretation”; in thehumandimension,we introduceavalue enhancementsystemof“ethics-collaboration-feedback”;and in the management dimension,we establish a collaborative governance system involving“government-enterprise-user”.These three dimensions,with technologyas the foundation,humansas thecore,and managementas thesafeguard,work synergisticallyto enhance the trustworthinessof GAI.Additionally,this paper analyzes the key challengescurrently faced inGAI trustworthygovernancefrom technological,managerial,long-term,andglobalperspectives,ofring corrsponding strategies toaddress these issues.By integrating technological advancements with ethical considerations and managerial strategies,this framework aims to fostera more reliableandaccountable GAI ecosystem.Itemphasizes the importanceofbalancing innovationwithresponsibility,ensuring thatGAIdevelopmentaligns with societal valuesand regulatoryrequirements.The findings underscore the need foramultidimensional approach to governance,which not only addresses immediate challenges but also prepares for long-term and global implications.

The main contributions of this research are as follows:(1)We propose a systematic framework to achieve trustworthy governanceof GAI.Each dimension of the framework providesspecific methodsand governance recommendations, ensuringaholistic approach toaddresing thechallenges.(2)Wediscuss the prominent challenges faced by trustworthy GAI and propose corresponding research directions,ofering a roadmap for future exploration by researchersand practitioners.(3)Ourwork providesanin-depthanalysisof GAI trustworthygovernance,offering theoretical and practical insights that are relevant to broader AI-related governance efforts.

Key words:generative artificial intelligence; trustworthy governance;research framework and challnges

猜你喜歡
倫理決策維度
基于認(rèn)知-心理-疼痛指導(dǎo)的專項(xiàng)護(hù)理在晚期胰腺癌疼痛患者中的應(yīng)用效果
健康之家(2025年12期)2025-08-27 00:00:00
初中物理教科書跨學(xué)科內(nèi)容與課程標(biāo)準(zhǔn)的一致性研究
高水平足球裁判員判罰決策的優(yōu)勢(shì)及神經(jīng)機(jī)制
中國(guó)企業(yè)數(shù)字科技倫理自律自治機(jī)制研究
國(guó)內(nèi)金融科技倫理研究熱點(diǎn)與趨勢(shì)分析
敘事倫理學(xué)視角下的兩難倫理修辭探析
人工智能在現(xiàn)代企業(yè)管理和決策中的應(yīng)用研究
現(xiàn)代社會(huì)的打開(kāi)方式
微決策時(shí)代
青年文摘(2025年14期)2025-08-01 00:00:00
基于大數(shù)據(jù)的企業(yè)人力資源方向決策優(yōu)化
主站蜘蛛池模板: 五月婷婷亚洲综合| 亚洲成AV人手机在线观看网站| a网站在线观看| 激情国产精品一区| 国产熟睡乱子伦视频网站| 欧美97色| 青青操国产| 欧美一级色视频| 国产a网站| 少妇极品熟妇人妻专区视频| 色婷婷亚洲十月十月色天| 成人免费午间影院在线观看| 51国产偷自视频区视频手机观看| 日韩国产另类| 中文字幕色在线| 亚洲国产精品不卡在线| 免费jjzz在在线播放国产| 色综合婷婷| 久久99国产乱子伦精品免| 国产精品999在线| 欧美成人在线免费| 啪啪免费视频一区二区| 亚洲国产黄色| 九九热这里只有国产精品| 久久免费精品琪琪| 欧美自慰一级看片免费| 91青青草视频| 国产99欧美精品久久精品久久| 最新加勒比隔壁人妻| 亚洲人妖在线| 午夜视频在线观看区二区| 亚洲日韩每日更新| 99热亚洲精品6码| 日本一区二区三区精品视频| 天天综合网站| 精品国产中文一级毛片在线看| 一本大道AV人久久综合| 97色婷婷成人综合在线观看| 久久公开视频| 天天做天天爱夜夜爽毛片毛片| 亚洲无码视频一区二区三区| 在线国产你懂的| 在线免费无码视频| 午夜国产理论| 亚洲欧美另类专区| 欧美性猛交一区二区三区| 成人免费午夜视频| 韩日免费小视频| 国产91无码福利在线| www欧美在线观看| 91福利免费| 波多野结衣中文字幕一区二区| 欲色天天综合网| 首页亚洲国产丝袜长腿综合| 无码免费的亚洲视频| 黄色污网站在线观看| 99热这里只有精品久久免费| 亚洲中文字幕久久无码精品A| 香蕉网久久| 久久精品视频亚洲| 国产欧美亚洲精品第3页在线| 91九色国产在线| 國產尤物AV尤物在線觀看| 久久精品只有这里有| 欧美精品亚洲精品日韩专区va| 91在线视频福利| 亚洲高清在线天堂精品| 在线看国产精品| 中文字幕日韩丝袜一区| 日韩黄色精品| 激情無極限的亚洲一区免费| 青草视频免费在线观看| 夜夜操天天摸| 丝袜国产一区| 极品国产在线| 国产黄色片在线看| 丝袜无码一区二区三区| 国产精品男人的天堂| 免费不卡在线观看av| 香蕉网久久| 欧美不卡在线视频| 在线国产三级|