目次
一、問題的提出
二、合成數據賦能數字法治政府建設的多重維度
三、合成數據賦能數字法治政府建設的風險隱憂
四、合成數據賦能數字法治政府建設的風險治理路徑
五、結語
一、問題的提出
作為重要的新型生產要素,數據在賦能政府治理機制再造、優化政府治理機構重塑以及拓展政府治理工具創新等方面充分展現了數字與法治相互融合、雙向賦能的獨特價值。《法治政府建設實施綱要(2021—2025年)》《國務院關于加強數字政府建設的指導意見》等政策文件均指出以技術工具為底層依托轉向數據交互為核心承載牽引數字法治政府建設的發展路徑。然則,隨著大數據模型建設的不斷推進,數據存量的增長速度遠遠落后于數據集規模的擴張速度。據人工智能研究機構 Epoch AI的研究預測,語言數據可能在2030—2040年耗盡。①為破解數據獲取困境,亞馬遜、微軟等大型科技公司利用合成數據兼具模擬性、預測性和經濟性多重優勢,不斷擴展合成數據的替代性應用場景。②與傳統數據保護利用模式不同,合成數據集訪問、分析和保護數據隱私于一體,可解決匿名化失敗導致的個人身份暴露和行為軌跡追蹤等數據泄漏風險。③這一變革不僅豐富了行政決策的數據維度,亦在訓練執法模型、模擬復雜執法場景和跨部門數據交流等多個場景為數字法治政府的研究與實踐提供了新的方法論和工具集。
合成數據在與現實數據遷移時既會面臨差異化對齊和多樣態補足的技術挑戰,亦需適應從傳統的主體—對象—工具單向流動模式轉向更為復雜的多維互動模式。一方面,合成數據的信息脫敏性有利于形成數據流通的新范式。作為生成式人工智能訓練的新型數據源,合成數據能夠模擬真實數據的統計特性和分布特征,④其結構化的生成機制既保留了數據統計特征,亦能實現個體可識別信息的定向剔除,由此催生出以群體特征模擬替代個體隱私監控、以公平性先驗嵌入更替非均衡性算法預測和以場景生成技術突破結構性偏見的數據協作新模式。另一方面,合成數據的共生性有利于構建“虛擬沙盒”的協同治理范式。相較于傳統數據提取寬泛、共享規模受限等不足,合成數據憑借算法合成的方式既可以“自動填充缺失數據并應用標簽”實現對數據的補償效應,③亦能憑借高頻次的迭代性可滿足大模型數據收集和訓練的需求,避免數據赤字現象的發生。這一迅捷性優勢在統籌治理機制、動態調整機制和公允評價機制等方面為數字法治政府建設的持續性與均衡性發展注入新生力量。③
然而,過度追求合成數據的真實度和多樣性可能導致偏見承繼和決策誤導等過程性風險,觸發新一輪算法侵害和數字避責。《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》等相關管理規定中雖明確深度合成服務提供者和技術支持者應當加強訓練數據管理,采取必要措施保障訓練數據安全,但涉及合成數據參與政府監管應用場景的擴張性、疊加性和衍生性所形成的法律風險多以次生性論之,對于當前數據監管規范的適用范圍窄化問題,并未像研究人工智能那樣受到熱烈關注,針對合成數據運行所形成的新的法律關系下政府治理風險鮮有思考。究其本因,除合成數據的新技術屬性外,監管主體尚未意識到面向合成數據賦能作為一種加強方法在與行政權力耦合時可能出現逆目的性風險,過度合成判斷權、更正請求權和合成處理拒絕權權利體系不明,導致現有規制理念和規制工具中并未對合成數據如何改變行政程序運行、影響行政決策生成乃至壓縮行政救濟路徑提供有效解決方案。
二、合成數據賦能數字法治政府建設的多重維度
數字法治政府的構造呈現出“技術賦能—制度形塑—組織重構”的互動邏輯,其本質是通過數字技術實現法治要素的代碼化轉譯,在提升治理效能的同時恪守權力制約、程序正義等法治底線,最終達成工具理性與價值理性的辯證統一。這一構造既需要應對算法“黑箱”、數據壟斷等技術風險,亦面臨著傳統行政法體系數字化轉型的制度挑戰。依托多源異構政務數據的跨部門整合與特征融合,合成數據可通過提取數據源核心特征和適配差異化政務場景需求,以解決真實數據類別分布不均和大型生物特征數據集所引發的失衡性、偏向性以及無序性等安全問題。①
(一)強化數據共享
循沿服務工具數字化-服務流程數字化-服務理念數字化的演進軌跡,數字法治政府建設從簡單的線上化邁向大模型化階段。政務大模型被廣泛應用于公文自動化撰寫、12345熱線應答和公共服務優化決策等數字政務應用場景之中。國務院2024年1月頒布的《關于深化政務服務優化、強化行政效能并促進“一件事一次辦成”高效推進的指導性意見》中,要求積極探索并應用自然語言處理領域的大型模型技術,優化智能問答、智能搜索以及智能導辦等線上政務服務環節,實現政務服務事項高效精準辦理。在此進程中,高質量、多樣化的模擬數據有效解決了政務領域數據敏感性高、標注成本大等現實困境,顯著提升了模型在復雜政務場景下的適應性和泛化能力。例如,在智能導辦場景下,合成數據可構建多維度用戶畫像和服務路徑,實現政務服務事項的精準匹配和個性化推薦。
傳統治理模式受制于數據采集顆粒度粗放與共享機制阻滯等現實困境,導致行政資源配置效率與治理需求之間存在結構性張力。合成數據的敏捷生成特性為數字法治政府建設注入三重創新動能:一是借助多模態數據融合技術構建智能化決策支持系統,顯著提升行政主體對于復雜行政場景的實時響應效能;二是重塑數據治理鏈條,在拓展公共數據共享邊界的同時,將隱私保護規范深度融入數據處理全流程;三是依托合成驗證基準構建算法公平性評估機制,有效破解傳統評估體系中存在的系統性認知偏差。以中國地震局《防震減災領域人工智能發展研究專項規劃(2023—2035年)》為例,該規劃明確提出構建地震監測預測預警訓練數據庫的戰略目標,通過開發標準化合成數據集,不僅解決了敏感數據共享難題,更為人工智能模型訓練提供了兼具多樣性與代表性的基準測試平臺。②這種技術治理路徑既符合行政法治的規范性要求,亦體現了數字政府建設的創新性維度。
實踐中,數據治理普遍存在的采集行為泛化趨勢與權利侵害的實體化傾向, ③ 其實質上折射出技術治理工具與法治控權邏輯尚未完成規范性調適的深層困境,最終導致治理效能的系統性折損與公信力的結構性耗散。合成數據技術在數據生成前階段,采用多模態數據融合引擎對原始樣本庫實施異常值檢測與分布均衡優化;在生成后階段,通過對抗性驗證網絡對合成數據集進行語義一致性校驗與隱私泄露風險評估。
(二)提升行政效能
社會演變的宏大試驗場中,諸多能夠影響中國社會演進的新元素以及這些元素間新的碰撞與聯系的可能性已被釋放。在這充滿活力的“化學反應”過程中,新的社會秩序和社會結構正通過各種全新的社會問題和社會挑戰的形式展現出來。①數字法治政府的建構本質上是數字技術深度嵌入政府治理體系與行政法治框架的制度性變革,其在實現治理效能躍升與行政范式轉型的同時,亦催生出技術理性與法治價值的結構性張力。②由公民生物特征信息構成的隱私保護場域、企業核心數據形成的商業秘密保護場域以及公共部門數據權屬劃定的治理邊界場域,共同構成了數字化轉型中三重敏感性數據的模態疊加,該種復合型數據生態的生成暴露出傳統科層制組織固有的信息不對稱與權責離散化特征,在數據采集標準闕如與權限配置機制失序的雙重作用下,法治政府的數據賦能需求與個體權利保障訴求之間產生規制盲區。
數據治理可分為兩重維度:一是對數據進行治理,二是用數據進行治理。③傳統數字政府建設以建立可查、可用、可轉的數據資源底座為目標,更關注管控數據的合規性、安全性、完整性和準確性,可能遭遇數據耦合度低、人工審查度高和過程協同低困境。以數據清洗階段為例,從不合規數據的識別、問題反饋至修正的實施,構成了一個包含多方參與的閉環流程。在此過程中,建立數據使用者、數據治理者以及數據提供者等多主體之間的協同機制顯得尤為復雜。④合成數據不僅是解決生成式人工智能發展中高質量訓練數據供給不足的新方案,其對敏感信息的剔除功能可以替代個人特征數據在數據流通新增了中介性功能,從而催生了一種新型的數據共享與合作范式,即借助合成數據所構建的模擬環境,行政決策者得以擁有一個實驗與驗證政策效應的虛擬測試平臺,實現以群體畫像模擬替代個人過度監控、以公平均衡性預測變更偏向窄度預防和以場景數據增強消弭結構性偏見固化,從而降低政務數據樞紐式匯集中法律責任歸屬的模糊化,消除政務數據匯集的“數字避責”風險。③
三、合成數據賦能數字法治政府建設的風險隱憂
政府建設的數字化轉型常陷入以工具理性為主導的機械性累積困境,將技術創新單純視為風險解決的工具,同時將法律規范簡化為僅限于事后的追責機制,在應對合成數據引發的多維風險時會顯露出結構性缺陷。一方面,技術系統的迭代優化雖能提升數據生成效率,卻難以通過算法透明化矯治過程性風險;另一方面,既有法治框架的制度主義路徑依賴使得事后規制與懲罰性追責雖可維護形式正義,卻因缺乏風險預判機制發生監管滯后效應,進而導致制度性耗損與創新動能衰減。均衡性原則的規范效力源自對行政目的必要性的嚴格檢視,其制度功能不僅在于通過比例基準防止權利過度減損,更在于實現技術治理中公益增益與私益保障的動態平衡。為最大限度地減少均衡性判斷中的非理性因素,我們應當從權衡者和當事人的共同視角出發,①在合成數據責任配置中引入均衡性原則時既要避免將過重責任強加給數據生成主體,亦能明確數據應用中的責任歸屬條件,實現技術規制理性與數據正義價值的規范統合。
(一)規則植入風險
具有深度學習特性的技術演進深刻影響著法律價值體系,引發其呈現出高度的不確定性樣態,傳統規范與價值架構需在全新技術語境的參照系下進行全面且深入的重新考量與評估。②作為行政權獲得正統性的方法,行政機關在行使權力時適用業已頒布的法律規定,以此為根據證明權力行使具有合法性。③而以合成數據為底座的智能政務網絡構建起“法理型權威”④下的規則體系,雖打破了傳統科層制的行政威權運行的路徑依賴,卻并存數據分散而發生決策扭曲的可能性。
一是非預期性規則植入。合成數據來源的泛化特質衍生出算法驅動型、數據偏差型與系統集成型三類非預期規則。首先,算法模型在基于合成數據樣本設計和運行時,其假設或技術邏輯可能在實際應用中導致算法驅動型非預期規則產生。例如,在社會福利分配系統中,基于機器學習算法的資格審核模型可能因合成數據中存在的地域、階層或種族偏見而對某些特定群體產生不公平的審核結果,形成非預期的福利分配規則。其次,生成數據來源的多元性會衍生出數據偏差型非預期決策規則。相較于傳統單一、可控的數據采集模式,合成數據的生成匯聚不乏商業數據庫、網絡公開信息以及第三方合作機構提供的數據片段。多元化的來源渠道往往秉持各異的利益訴求與數據標準,部分數據源受商業利益裹挾,存在嚴重的內生性偏差。基于偏差數據所構建的行政決策規則天然攜帶“基因缺陷”,監管部門以這類失真數據為藍本擬定執法標準時,易陷入錯誤認知“陷阱”,導致偏差性規則嵌入規則體系中。再次,合成過程的非均衡性和不兼容性使得政務系統在技術架構上存在顯著差異,易觸發系統集成型非預期決策規則。政務數據匯聚、整合、共享情境中,不同政務系統間數據接口、數據格式、業務邏輯等方面兼容性問題可能影響到政務協作機制。③以稅務征管與企業財務信息系統集成為例,一旦數據接口匹配失效,企業納稅申報數據在跨系統傳輸、轉換環節便極易出現錯誤,稅務部門基于錯誤數據反饋所擬定的征管規則必然失準失焦,不僅干擾稅收征管流程的順暢性,更侵蝕稅收征管的準確性與公正性根基。
二是偏差性規則內化。傳統治理模式的數字化重構本質上是技術系統對行政權力運行的結構性滲透,其通過將科層制程序理性轉化為“數據輸入一算法運算—決策輸出”的自動化閉環,行政效率提升的同時卻導致了程序正當性要素的隱性流失。這種技術嵌人過程引發雙重治理悖論:算法不可解釋性消解了行政說明義務的履行基礎,而人工干預雖能部分修正技術偏差,卻可能導致偏差性規則嵌入整個規則體系之中,削弱合成數據的可信度和可用度。雖然政務數據流通在優化行政程序、提升行政效能、改善公共服務質量等方面具有顯著助益,然而潛藏在底層結構中的偏差性規則,在數據的流轉過程與監管活動的復雜交互作用下,極有可能引發局部性乃至系統性的風險隱患,以靜態防御、被動響應、單點控制為特征的安全防護范式,在應對人工智能和大模型技術引發的系統性安全風險時已呈現出顯著的適配性危機。
《生成式人工智能服務管理暫行辦法》通過確立算法備案與生成式人工智能服務備案的雙備案機制,將監管節點從研發過程控制延伸至產品服務輸出端,初步實現了從行為規制向風險預防的范式轉型。然而,現行監管框架在訓練數據全周期治理方面仍存在規制真空,尤其對合成數據在跨平臺共享、多場景復用過程中可能引發的數據投毒、模型竊取、隱私泄露等次生風險缺乏前瞻性防控機制。鑒于此,有必要構建包含終端安全防護、網絡邊界控制、數據全流程治理、應用場景監控的四維協同防御體系,以動態監測機制、風險預警模型和精準干預策略等系統性規范體系為主軸,形成涵蓋預防性規制、過程性控制、結果性救濟的立體化風險治理范式。
(二)決策引導風險
數字政府是一種數據驅動的行政構架。①“數字政府通過信息平臺建設,將所有的信息數據匯集”②,通過算法決策改變傳統行政決策以人與人交往基于事實判斷為基礎的因果邏輯決策方式,轉變為以數據為基礎的統計學相關分析和因果推斷型決策方式,對海量數據進行系統加工闡釋的過程使得人們可以通過這些數據對個人或者群體及其行為進行深人的推斷。③如果過度追求合成數據的真實度和多樣性,可能觸發新一輪的隱私泄露問題,甚至產生決策偏私、決策循環和決策虛假等損害公共利益和個人權益等“后天畸形”的可能。
一是決策偏私風險。合成過程中滿足既定標準的數據會被引入應用環節,而偏離預期的異常數據則需回溯至前期流程,重新接受優化處置,這一質量篩查機制構成了事實上的行政程序要件,即符合法定準入基準的合成數據依行政效能原則進入決策應用,而異常數據則依比例原則觸發行政自我糾錯程序,此舉雖符合《中華人民共和國數據安全法》(以下簡稱《數據安全法》)第21條規定的數據分級分類保護要求,卻因程序瑕疵導致裁量基準的技術黑箱化、正當程序原則虛置化和平等權保障形式化危機。由于缺乏客觀的前置條件,合成數據生成主體無法對照《法治政府建設實施綱要(2021—2025年)》第15條要求的“透明可解釋”機制對個人偏見和歧視提供客觀說明,導致合成數據從起始階段就在公正性方面存在“先天不足”的偏差。例如,在社會福利政策的制定過程中,若合成數據未能充分涵蓋不同地區、種族、收人階層等人群的特征和需求,這可能導致政府在分配福利資源時產生偏頗。
面對新興科技的不確定性,政府負有充分權衡風險承受者的合法法益和避免因不當規制而抑制技術創新活力的雙重責任。④在實體層面,可探索創設數據質量異議程序,賦予合成數據影響主體行政復議和行政訴訟原告資格,以此拓寬救濟范疇,夯實實體層面權利保障的制度基礎。于程序層面,通過對《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》)進行擴張性解釋,推進算法影響評估機制的有效施行,進一步延展算法合成程序的監督邊界
二是循環決策風險。從數據主義角度觀察,任何現象或實體的價值就在于對數據處理的貢獻。①利用生成模型產出的合成數據再次用于訓練大型模型,這一看似內部循環的過程被隱喻為“AI貪吃蛇”,即將人工智能生成的內容作為輸人再次提供給同一人工智能模型進行訓練,會導致模型輸出質量的顯著下降,產生的“模型自噬障礙”(Model Autotroph Disorder,MAD)會催生循環決策風險。在采用模型自身初始輸出作為訓練數據的過程中,若該數據集中潛藏有虛假信息或捏造內容則會逐漸侵蝕模型的穩健性基礎,長期累積之下會誘發模型結構的不可逆性損傷,進而致使模型性能出現難以修復的缺陷,嚴重影響其預測或決策的準確性及可靠性。
三是虛假決策風險。依托海量數據而生的市場主體“畫像”、數字孿生和人工輔助決策等智能決策體系正逐步成為數字法治政府建設的核心動能。合成數據雖由原始數據生成,兩者在語義、結構及生成邏輯上存在顯著差異,其關系圖譜的交叉性模糊了智能決策中行政行為真實性的辨識邊界。《信息安全技術個人信息去標識化指南》(GB/T37964—2019)通過技術標準賦權機制,將數據合成技術納入推薦性規范體系,形成“技術合規即授權”的特殊治理范式,使得技術企業在《數據安全法》第21條框架下可基于標準符合性聲明實現敏感數據內部流轉。然而,《個人信息保護法》第73條對匿名化的法律定義與《中華人民共和國網絡安全法》(以下簡稱《網絡安全法》)第42條存在規范裂隙:前者采用“不可識別 + 不可復原”的雙重要件,卻未明確“技術可能性”與“合理成本”等關鍵判定基準,導致《中華人民共和國民法典》第1034條規定的個人信息權益面臨解釋論困境。而具體的匿名化審查技術規范多散見于推薦性國家標準文件中,極易導致監管者難以通過強制性披露工具要求技術企業提供數據生成的全流程信息,政府部門作為合成數據的使用者則需定期評估并量化決策行為中采用合成數據所得預測結果的有效性與可靠性,進而完成數據驅動型決策模式的閉環優化。
(三)責任脫逸風險
數據轉化活動并非必然能夠徑直構建起一個明晰且可供主張權益的框架。“合成數據生成器的架構愈趨繁復,往往導致其所生成數據中的相關性解釋難度加大”②,既面臨原始數據采集主體的數據權益邊界識別與保護判斷,亦需解決原始數據加工主體與合成數據使用主體的責任劃定問題。合成數據在法治政府建設中的多模態應用場景觸發監管權屬的規范困境,其本質源于數據生命周期管理與行政組織法架構的適配性斷裂。合成數據涉及數據采集、信息提取與內容重構多階段操作流程,其技術特征呈現出區別于既有法定類型的復合性特質,學界對其是否具備獨立法律行為屬性仍存理論爭議,主要癥結在于合成過程中原始數據與衍生數據的權利邊界劃分、處理行為的法律定性等規范要件認定有待進一步明確,監管部門需將風險發現—風險預警—風險消除的后發性治理邏輯更新為風險預測—風險排除—風險抑制的前置性治理脈絡,由此衍生至是否將《互聯網信息服務算法推薦管理規定》中確立的算法安全評估制度延伸至合成數據全生命周期監管等相關問題。
一是責任主體脫逸。隨著國家和社會的多元化發展,承擔行政任務的主體呈現多樣化的態勢,如何更好地統合、區分并規范國家行政權和公共組織的行政權能,成為理論界思考的一大重點。①合成數據的生成內嵌原始數據收集、算法干預和質量篩選等一套邏輯縝密的操作流程。除原始數據持有主體外,各階段參與主體的身份界定將影響到數據權利的分配。在“廣東省深圳市騰訊計算機系統有限公司等與浙江搜道網絡技術有限公司等不正當競爭糾紛案”中,法院經審理認為原始數據權益系用戶信息權益的附屬性權益,用戶信息在數據化轉換后雖然提升了信息利用效率,但并未提升信息的內在品質。原始采集主體只能依附于用戶信息權享用有限權益。擅自使用少量由他人所控制的原始數據,數據控制主體不能因此主張損失賠償。
《互聯網信息服務深度合成管理規定》建立了深度合成服務提供者和技術支持者的雙主體約束機制,而《網絡數據安全管理條例》則采取單主體集中式歸責,即規定提供生成式人工智能服務的網絡數據處理者應當加強對訓練數據和訓練數據處理活動的安全管理。除責任主體確認歸責模糊外,主體責任內容的規范化、一體化和整體化亦有待補缺。以數據修正合成場景為例,當數據匯集主體實施內容重構時需考量《人工智能生成合成內容標識辦法》設定的技術性標識和程序性觸發雙重法律義務,即生成時不僅需將生成合成內容屬性信息嵌入文件隱式標識層,還應參照《征信業務管理辦法》構建“錯誤溯源—風險評級—標識更新”的自動化響應機制。當數據使用主體開展數據處理活動時,若檢測到信息誤差源于外部信息提供者,須啟動瑕疵通知程序;若屬內部技術處理錯誤,則需履行主動更正義務。如此既契合《個人信息保護法》中影響評估的要求,亦能實現《中華人民共和國電子簽名法》規定的可追溯性技術標準。
進一步來看,合成數據生成器多以平臺的形式展現,在通過平臺交易合成數據的過程中,可能會遭遇一系列隱蔽性較強的問題與風險。由于合成數據蘊含高度科技含量,其生成平臺或公司憑借掌握的核心技術和關鍵要素,于合成數據交易雙方間構建起一種隱性的、不平等的關系格局,監管者很難判斷合成過程中原始數據不再利用的確定性。如前文所述,實踐中合成數據的交易一般是通過買賣平臺的方式進行,雖然此種方式可以減少合成數據賣方對數據用途以及數據內容的干預,在一定程度上避免合成數據買方的數據信息泄露,但是賣方此時仍由于算法透明度低而存在算法優勢位置,買方通過購入平臺,輸入樣本數據庫,利用算法模型加之自定義條件進行合成數據產出,但是其利用的算法模型本身就有可能已事先為賣方利用技術優勢與算法的低透明度所干預或控制,導致產出的合成數據實際上是被控制下的瑕疵數據,并且輸入進平臺的原始真實數據以及最終進入應用階段的合成數據可能都會被平臺后端所知曉導致信息泄露,甚至可能產生匿名化信息再識別風險。同時,考慮到政府作為購買方可能面臨的技術水平限制以及專業人員的短缺,平臺的運維和適應性工作便需要供應商的深人參與,參與主體的復雜化無疑又為整個流程增添了潛在的風險點。
二是合成技術脫逸。依據《數據安全法》確立的數據分類分級保護規則,合成數據生成納入強制性標識義務范疇,使得“人工干預與顯著標識”要求面臨適用困境。當合成數據與原生數據發生混同使用時,行政機關依據《網絡安全法》第47條實施監管檢查時將面臨證明責任困境。由于數據來源屬性難以有效辨識,導致行政機關在履行《中華人民共和國行政處罰法》第40條規定的“事實清楚、證據確鑿”證明標準時存在制度性障礙。這種數據混同情形不僅削弱了行政監管權的實效性,更構成了對行政行為實質性合法的挑戰。
此外,在強制性特殊標注方式的立法缺失下,合成數據與真實數據的交叉使用會導致兩者之間的區分度不明,應用過程中的某一環節出現問題時,監管部門難以追溯和確定所使用的數據是否為合成數據。同時,涉及大量的隱私數據,特別是政務數據的深度合成語料是終端產出的合成數據的初始原料,其不僅包括了既定預訓練數據庫,更是將范圍拓展到人工智能產品在交互過程涉及的信息數據資源,“收集語料的多途徑性加劇了用戶交互信息泄露的風險”①,且泄露手段可能更為隱蔽。②例如,某地政府的信息系統技術承包商在違規將政務數據置于互聯網進行測試的過程中,相關存儲端不慎暴露出高危漏洞,這一漏洞直接導致了大量公民數據的泄露成為境外不法分子竊取政務數據的“供應鏈”人口。③基于對圖像、視頻和音頻進行超現實的數字偽造,④深度偽造依托算法深度學習和GAN技術快速發展,生成器網絡會依據每一次迭代循環的反饋結果進行自我優化,逐步生成出愈發接近真實世界數據特征的樣本,歷經數千次乃至數百萬次的迭代訓練后,生成器網絡的性能得到顯著提升,以至于鑒別器網絡難以準確辨識輸人數據是真實數據還是由生成器網絡生成的偽造數據。③未經評估擅自部署算法模型的行為,已突破《新一代人工智能倫理規范》確立的“可控可信”原則,面臨行政權力與技術權力的雙重異化風險。合成數據在政務場景的遷移應用亟待構建有效的準人審查機制。
三是數據安全事件通知義務脫逸。合成數據生成模型可能面臨過度擬合原始數據的風險,且該過程往往缺乏透明度,難以闡釋合成數據的具體生成原理和依據,由此引發對合成數據可解釋性和可信度的質疑,增加數據安全事件臨界點的識別困難。
《個人信息保護法》第57條確立的“危害阻卻例外”規則與《互聯網信息服務深度合成管理規定》第10條設定的“合成信息審查處置義務”,雖在規范層面形成個人信息保護的雙重屏障,卻在制度銜接層面產生三重規范競合:一是,《數據安全法》第29條確立的數據安全事件“雙報告義務”與《個人信息保護法》第57條“有條件豁免通知義務”存在行為指引沖突;二是,深度合成場景下《個人信息保護法》第23條“單獨同意”規則與《互聯網信息服務深度合成管理規定》第10條“特別告知義務”產生程序性要求疊加;三是,《數據安全法》第32條數據分類分級保護制度與深度合成技術引發的數據形態變異之間存在制度適配斷層。?
四是數據授權經營責任脫逸。數字法治政府建設過程中匯集的公共數據以及由此形成的政務數據授權經營不僅是驅動數據要素流通的動力因素,也是推動的具體載體和組織機制。在公共數據發揮價值方面形成了公益性與市場性兩種樣態。①公益性樣態之下政府作為數據保管人承擔的多為數據可訪問性和可使用性義務。而在市場性樣態中,對涉及公共安全和個人隱私的政務數據需以“可用不可見”等形式在相關主體授權下開發利用并擁有收益權,大量原始數據需要經過清洗加工、存儲管理、脫密脫敏等環節,才能轉化成供社會直接使用的高質量數據或數據中間產品,其中可能包含半虛擬化、仿真性的合成數據,對其類型識別、分類以及監管溯源等加工處理難以憑借常規檢查手段予以實現。倘若政府作為數據持有方,對有效性與可控性尚未明晰的數據施行對外授權經營活動,便極有可能面臨違反公共數據授權經營協議或合同所規定之內容與義務的潛在風險。在政務數據授權運營模式中,涵蓋個人與單位數據主體、政府、運營主體、數據客戶等四方主體,且存在政府向運營主體提供個人信息數據以及運營主體向客戶提供個人信息數據兩次數據加工流程。具體來看,政務數據授權運營模式中涉及個人與單位數據主體、政府、運營主體、數據客戶四方主體以及政府向運營主體提供個人信息數據和運營主體向客戶提供個人信息數據兩次數據加工行為。
根據《個人信息保護法》中對“處理”的界定,合成應屬于加工行為,政府為履行法定職責在履行合理注意義務下即使未取得明示的個人同意,也可直接對個人信息進行處理。但在政府向運營主體提供個人信息數據進行合成時需遵守《個人信息保護法》中個人信息處置的規則,即個人信息處理者向其他個人信息處理者提供其處理的個人信息的,應當向個人告知接收方的名稱或者姓名、聯系方式、處理目的、處理方式和個人信息的種類,并取得個人的單獨同意。若以合成方式形成新數據樣態,則需考慮政府在審核運營主體提出的數據需求清單后,是否可以擁有《個人信息保護法》第13條的概括豁免。實踐中,各地對政府處理數據的責任多以合理注意義務抵消。例如,《關于推進北京市金融公共數據專區建設的意見》規定,數據匯聚單位按照法律法規和規章的規定提供、處理數據,并履行監督管理和合理注意義務。
四、合成數據賦能數字法治政府建設的風險治理路徑
治理規則的可預期性和穩定性是政府法治化運行的正向型生態,傳統權利義務關系因嵌入數字化、智能化要素而發生了根本性改變,②并可能觸發政府數字化實踐的脆弱性,③產生決策誤判、執法錯定以及協同失衡等一系列衍生風險。從樣本數據的篩選、數據產出,再至生成的檢測過程,合成數據的形成都可能因各種主客觀因素而潛藏本源性和并發性風險,即生成中所采用的技術新增回旋鏢效應。④而“技術中心論”下對行政過程中國家秘密、政務信息等敏感數據的規范體系可能遭遇“一刀切”式工具理性的風控思路,如何避免逾越“基于規則的自動決策”中參數設定的原初角色定位,亦能實現行政決策的穩固性與適用性之間的平衡成為合成數據賦能數字法治政府建設有效性的必答題。
(一)風險治理框架補強:從“中心化”到“去中心化”
風險治理的核心是進行預防性判斷,并以此為路徑拓寬規制手段。審視前文所述各類風險,合成數據適用從淺層生成訓練數據的散狀風險逐步衍生為影響大模型運行的聚合風險,雖然穿透式監管具有理念—空間的雙重內涵,①但合成數據的底座性功能將行政責任風險傳遞至數據最終的應用主體,以行政權為中心的分析框架邊緣化了訓練數據、算法和大模型平臺等行政履責替代者的責任劃分,該責任分配體系難以應對多方參與時的算法行政風險。“分布式”治理則是一種適用于政府及各種社會組織的非層級式、網絡化、有彈性的新型治理模式。②由此衍生的分布式責任意味著從中心式的控制向全流程參與式的問責模態的轉換,③在無法明確主觀故意的數據致害中,解決了多個主體責任混同化或模糊化的困境。
首先,構建全面性責任框架。既有的公私責任界限劃分容易引發監管權責的分散與模糊,分布式責任制度將生成者、使用平臺及政府等多個實體融人統一的監管框架中。原始數據持有者保持既有的基本數據權益;數據合成者對合成過程需為合成數據設置備用數據集,并適當提升合成過程的透明度,確保各參與方能夠順暢地進行風險信息的傳遞和預防手段的共享;政府則需基于促進開發利用的目標對“中間產品”的合成數據建立監督保護規則,暫不必對合成數據進行單獨的價值確認和價值分配規則,避免限制合成數據在多模態等前沿領域的應用。
其次,建立合成知情權—過度合成判斷權—合成處理拒絕權—更正請求權體系框架。算法歧視、誤判的黑箱恐懼源于數據底座的失控性。在合成數據的創造、流通和應用應然流程中,前端實體運用的差分隱私、同態加密技術和可信執行環境(TEE)等安全保障手段能夠為后端實體提供技術信任的證明,進而規避因重復技術審核而導致的效率低下問題。而片面追求效率必然犧牲提供初始數據的主體性權利。個人信息保護已覆蓋到相關知情同意的權利層次,而公共信息的持有主體尚未被賦予對合成數據投“反對票”的權利,將依托合成數據形成的算法行政等數字化工具對基層政府的干預限度判斷放任至結果生成易導致機器接管決策等不可測風險。因而,在統合深度合成、人工智能、大模型規制體系時,應適時賦予政府、公共事業單位等公權力主體對合成技術、合成方式和合成內容的知情、判斷、拒絕和更正的完整權利體系。
最后,搭建動態化責任框架。動態化責任分布是分布式責任理論的核心特征之一,通過明確責任主體的多元性、實現責任分配的動態性、強化監管與問責以及利用技術手段支持等措施,可以有效解決復雜系統中責任不清的問題,推動系統的高效運作和可持續發展。合成數據支持的綜合治理網絡遍及公共安全、規劃建設、城市管理、應急通信、交通管理、市場監管、生態環境、民情感知等多領域系統,隨著系統運作的推進和情境的變化,責任主體和責任范圍亦呈現動態化分配,應根據合成數據運用程度和作用大小建立靈活的責任調整機制。
(二)風險治理體系優化:從“靜態監管”到“動態適應”
數據治理是一個特殊開放體系,既面臨風險發生的高度不確定性又需提供不確定風險產生的確定性解決方案。在任何特定規制形式下,最終能賦予規制對象多大裁量空間,取決于規制對象能在多大范圍內進行選擇,以及特定的命令和結果將如何影響規制對象的選擇。①合成數據對生成對抗網絡(GAN)和變分自編碼器(VAE)等技術具有高度依賴性,需要設計一套嚴格且有效的數據合成模型評估體系,對合成數據生成模型進行指標化與標準化的評估與比較。在該體系下,生成主體、大模型平臺的基礎性責任為觀察、驗證與檢測合成數據的質量與性能,使數據篩選與檢測過程更加標準化與程序化。同時隨著合成數據模型的自適應學習與增量學習技術的提升,各責任主體需將生成模型能夠根據不斷變化的數據情況做出相應的動態調整與優化,同時提高數據合成的速率和效率,實現優質數據的高效產出。隨著數據應用場景的拓寬,全球范圍內的人工智能與數據立法在對合成數據應用的潛在風險進行前瞻性評判后,采取建構性技術評估和多維度治理方式應對可能引發的法律與倫理挑戰,從而構建一個既促進技術創新又保障法益平衡的法治環境。英國《人工智能(監管)法案》提出創建人工智能管理局與人工智能負責官員的方式,對人工智能的產品數據以及訓練數據等隱私和知識產權設置機構 + 管理人員的雙重監管模式。②歐盟《人工智能法案》則是通過明確賦予特定人工智能系統的提供者和部署者的相關義務來對合成數據所可能造成的新風險進行規制。③而經常與歐洲《人工智能法案》相比較的美國《關于安全、可靠和值得信賴的人工智能開發和使用的行政命令》中則專設了一個板塊規定“降低合成內容引發的風險”,該部分要求了要明確現行標準、工具、方法和做法以及下一步具體發展情況,其內容涵蓋認證與跟蹤的溯源過程、標記、檢測、審核以及維護合成內容。④
立足于我國人工智能與合成數據的規制需求和特色路徑,可在分類化基礎上建立動態式規制體系,即在公私法維度下對合成數據的監管強度、監管工具和監管責任予以區分。在初始合成階段,各應用場景均應設立隱私保護相關規范,對于合成數據來源中可能存在的個人數據要進行脫敏脫密處理,強化保護真實數據主體的知情權、控制權與刪除權等相關權利。而對行政決策、行政行為或行政監督等公權力運行場景中則需建立更為嚴格的數據安全管理規范,從數據的產出、篩選、檢測到應用,建立一套流程化、規范化的嚴格安全標準與評價體系,可對數據開發、運用主體設置更為嚴格的數據安全責任,如嚴格檢測與審計、定期檢查與評估,數據安全風險應急預案、設置可分辨性標準等。所謂明晰可分辨性標準,即監管規定既可提升合成數據和真實數據的分辨可視化程度,亦能對流程中的違法違規行為進行更好地追溯,有利于后續追責的取證固證。歐盟《人工智能法案》中“生成合成音頻、圖像、視頻或文本內容的人工智能系統,包括通用目的人工智能系統的提供者應確保人工智能系統的輸出以機器可讀的格式進行標注,并且可檢測其系人為生成或操縱”③可作一定參考。
(三)風險治理流程再造:從程序規制到實體規制
風險預防措施引發的風險可能源自三個方面:產生替代性風險、阻止了承擔風險可能帶來的潛在收益及風險預防措施自身存在的風險。①法治對數字技術的發展不是限制而是保護,法治政府建設成效也并不是監管規則套圈式無限累加,而是形成激勵創新、保護創新、實現創新的理念和工具。作為數字法治政府衍射點的合成數據監管,既不能苛求監管部門神機妙算般預測全過程的所有風險,亦不能以未知搪塞或者推脫數據安全職責,而是從質量性監管與合法性監管雙層維度筑牢監管體系。在質量監管層面,需確立明確的合成數據質量標準與評估指標體系,實施系統的篩查與檢測流程,以剔除異常數據,確保合成數據的高品質輸出。數據控制權的行使呈現出“載體控制優先于信息控制”的特征,即控制主體通過對數據物理載體的支配來實現對數據的管理,而非基于數據記錄所涉及的信息主體權利。②現行人工智能規制策略偏重于以“事件”為中心的應急管理視角,而將“風險”為中心的風險規制視角位移至合成數據應用觸發的法律風險中,可能出現程序規制優于實體規制的數據治理導向,建議考慮對合成數據等新型數據形態采取相對寬松的權屬認定標準,將因算法偏差或透明度缺失導致的數據質量缺陷及安全風險的預防機制防范前移,強化對生成模型算法的透明度要求和安全性評估。該“寬進嚴管”的規制思路既符合比例原則的要求,亦能有效平衡技術創新與風險防控之間的關系。
就合法性監管機制而言,考慮到合成數據交易公私并存的狀態而不能將其混同于原有政府數據監管體系中,而需將涉及公共事務的合成數據全運行周期納人審查范疇,對其生成、應用及處理的全過程實施嚴格的合法性審查。首先,設立具備跨部門、跨機構協調能力的專門監管機構或部門,專門負責合成數據在數字法治政府構建中的監管任務。這要求不僅制定合成數據使用的監管標準與操作指南,還需明確數據采集、處理、存儲、共享等各環節的規范標準。其次,融合數字信息化技術,構建統一的數據監管平臺,實現合成數據使用情況及監管信息的集中化管理。該平臺應具備數據采集、處理、存儲、共享等全鏈條的可視化監管功能,以增強數據的可追溯性與可控性。最后,有必要建立數據合成的反向限定清單制度,禁止數據持有主體對涉敏感個人信息、破壞市場競爭秩序和危及國家安全公共利益的數據進行商業開發。③
五、結語
“科林格里奇困境”折射出技術應用效度與風險防控效率之間的結構性矛盾,當技術工具的可修正性、可控性與可替代性尚未明晰時,強制性規制介入的時序選擇、強度適配與路徑設計往往陷入技術預判能力不足的困境。④現行數據—算法—大模型監管架構下傳達的垂直性和遞進性規制策略看似對數據利用的每一階段套上規制鏡銬,實則忽視數據漸進性運用中不同位階的規制響應和工具的迥異性,暴露出傳統科層制監管與數字空間治理需求之間的深層抵悟。作為生成式人工智能的基礎性生產要素,合成數據已突破傳統行政規制框架下“條塊分割”的客體定位,其與訓練模型、算法架構及算力資源深度耦合形成的“數據—技術共生系統”在賦能數字法治政府建設時,需從“預防性規制”向“適應性治理”范式轉型:即要求合成數據服務提供者在生成內容顯著位置添加包含服務主體信息的不可移除合規標識,并依據數據的敏感程度、應用領域風險等因素,對合成數據實施差異化規范管理,從而在技術可控性與治理有效性之間建立動態平衡機制。
Abstract: Consistent, Compatible,and credible data serve not only as the intelligent foundation of the governance framework with coordinated evolution of“openness” and“accountability”,but also as the digital bond for the governance path of two-way adaptation between the“technical system”and the“responsibility system”. As an emerging data paradigm,synthetic data has multiple advantages such as simulativeness,predictability,and economic effciency.The simulation data tool platform composed of it can effectively address the weaknesses in data security in typical application scenarios of a digital government ruled by law,such as intelligent decision-making,law enforcement assistance,organizational operation,and performance evaluation,and prevent the vicious cycle of“data deficit-governance failure”.The coupling effect of“technology-power” generated by it accelerates the transformation of administrative decision-making from experience
driven to data - driven,and produces the mutual construction effect of technological empowerment and power structuring.Although the scene-based embedding of synthetic data can break through the physical boundaries and compliance dilemmas of original data collction,the dual governance dimensions of“virtual-reality”derived from it intensifytherisk of deconstructing thecriteria for determining legal facts.To solve the risks of empowering with synthetic data,it is urgently necessry to construct a dual-track check and balance mechanism with“technical interpretability review”as the procedural requirement and“risk gradient response” as the substantive standard,and dynamically calibrate the institutional equilibrium between the effectiveness of digital governance and the core values of the rule of law.
Key Words:Digital Government Ruled By Law;Synthetic Data;Risk Prevention;Process - ased Risks
(責任編輯:王環)