[摘要]在AI研究與應用中,訓練數據是基礎資源,對模型訓練和實際應用有重大影響。數據資源不足和質量問題,導致國內AI技術與國際水平有一定差距。訓練數據需滿足量大、多樣、準確、完整的特點,但收集面臨法律限制、數據安全義務重、通知成本高等問題,同時存在數據來源不規范的困境。為平衡數據收集與權利保護,本文建議在法律框架下引入包容審慎監管,優化授權流程,制定分級監管策略,鼓勵匿名化技術,以促進AI技術發展并保護數據主體權益。
[關鍵詞]訓練數據;數據安全;包容審慎監管" " "[DOI]:10.20122/j.cnki.2097-0536.2025.02.015
一、問題的提出
在生成式AI領域,訓練數據是核心資源,其收集階段對數據量和質量有直接影響,且對后續處理具有指導作用。目前,訓練數據收集面臨法律規制過嚴和數據隱私保護的雙重挑戰。《網絡安全法》和《個人信息保護法》的嚴格限制增加了企業合規成本和數據獲取的難度。為促進AI發展,需適當放寬法律要求,給予企業適當的收集空間。同時,放寬收集可能導致AI企業與數據主體間利益沖突增多,尤其在數據隱私方面。因此,需采取包容性數據收集策略,并配以適當救濟機制,確保法律對訓練數據收集既不嚴苛也不縱容。在包容與救濟原則下,應重新審視和調整法律規制,為AI發展提供靈活有效的支持。
二、訓練數據收集的現實困境
(一)現行法律規范對訓練數據收集的限制與要求
當下,人工智能發展迅速,訓練數據安全合規受關注,相關法規紛紛出臺,構建起保障體系。2017年6月1日《網絡安全法》生效,全國人大常委會制定,要求訓練數據收集處理具安全性等,嚴禁非法數據行為。2021年7月27日,《機器學習算法安全評估規范》發布,開發運營機器學習要確保算法等信息安全,防范未授權訪問篡改,遵守法規保護隱私與脫敏。同年9月1日《數據安全法》實施,規范了數據收集使用的合法性。11月1日《個人信息保護法》生效,規定數據處理合法性等要求。2023年1月10日《深度合成管理規定》發布,規定訓練數據應符合個人信息保護規定。5月29日《人工智能安全標準化白皮書》發布,提出數據需具透明性等特性。7月10日《生成式人工智能服務管理暫行辦法》發布,要求企業確保數據來源合法防侵權,自判侵權情況,選數據防歧視[1]。
1.數據安全義務繁重
當前法律對數據安全義務提出了嚴格要求,增加了企業的技術難度和資源投入。首先,企業需采取技術和管理措施保護數據安全,如使用高級加密算法和訪問控制系統,這給企業帶來財務壓力和運營成本。其次,面對網絡違法犯罪增多的問題,企業必須建立強大的安全防護系統,如防火墻、IDS、IPS等,這些安全措施的實施和維護增加了技術和運營成本,分散了資源,影響了數據收集和處理效率。最后,增加的數據安全保障成本影響了企業其他部門,導致AI企業需持續投入技術研發和安全運維,增加了運營成本,可能影響核心業務發展。
AI企業作為數據安全主體,除了要承擔一般性的數據安全義務,因其所在行業的特殊性,還要承擔對于AI企業的額外義務。其一,深度合成內容標識義務:企業有義務按照《互聯網信息服務深度合成管理規定》對生成的圖片、視頻等內容進行標識。AI企業不僅要專注于生成高質量的文本、圖片、音頻或視頻內容,還必須在技術層面設計并集成標識機制,以標識哪些內容是通過AI生成的。其二,數據標注的規則和質量監督:在數據標注過程中,提供者需制定清晰、具體的標注規則,并進行標注質量評估。數據標注本來就是生成式AI中至關重要的一環,而這個義務要求企業在數據標注過程中制定清晰、具體的標注規則,并對標注結果進行質量評估。其三,數據質量提升:企業有義務采取有效措施,提高訓練數據的質量,增強數據的真實性、準確性、客觀性和多樣性。這對企業來說是額外的技術挑戰,要求更加精細的數據管理和處理能力。提升數據質量不僅僅是簡單地清洗數據或去除錯誤數據,它涉及更復雜的數據收集、整理、驗證和處理過程。
2.對網絡用戶的通知成本過高
征求數據主體同意和信息告知對企業,尤其是需要大規模數據的AI企業,構成巨大挑戰。企業需設計詳盡的告知流程,包括編寫隱私政策、開發用戶友好的同意界面,并與每個數據主體溝通,這需要大量行政和技術資源及時間。實踐中,這一程序幾乎無法執行,尤其是處理數百萬數據的企業,會導致數據收集效率大幅降低。現實中,許多AI企業未經通知就使用用戶數據,直到用戶投訴才停止,這種做法雖提高效率、降低成本,但本質上違法。
(二)訓練數據來源不規范
1.未經授權或未獲得用戶同意
訓練數據未經授權的收集包括兩種方式:一方面,顯性的訓練數據收集。AI系統會依賴大量數據進行訓練,這些數據包括用戶的瀏覽歷史、社交媒體互動、地理位置、購物記錄等。這些數據通常是在用戶不知情的情況下被收集的,用戶甚至可能不知道這些數據會被用于AI訓練;另一方面,還有隱性數據收集。許多應用程序和服務在用戶不知情的情況下,通過后臺操作或嵌入式追蹤技術(如cookies、像素追蹤)收集數據[2]。這種隱性數據收集可能包括用戶的設備信息、IP地址、網絡活動等,這些數據能夠組合起來形成個人的詳細信息。
2.爬蟲技術濫用
網絡爬蟲技術的濫用問題在數據收集領域愈發突出。一些企業通過網絡爬蟲從互聯網上大量抓取數據,而忽視了網站的使用條款和版權保護,這種行為不僅可能侵犯知識產權,還可能涉及用戶隱私和法律責任。Clearview AI是一家面部識別技術公司,通過從社交媒體平臺(如Facebook、Twitter、YouTube等)爬取公開的用戶圖片,用于訓練其面部識別算法。Clearview AI并未獲得這些平臺或用戶的同意,導致多家平臺對其提起訴訟。被指控侵犯隱私權和知識產權,特別是在未得到用戶許可的情況下收集生物識別數據。此行為違反了美國《伊利諾伊州生物識別信息隱私法》(BIPA),以及各平臺的服務條款。結果Clearview AI面臨多個州的隱私訴訟,并在伊利諾伊州的集體訴訟中同意達成和解。此外,Twitter、Facebook等社交媒體平臺也要求Clearview AI刪除所有從其平臺上抓取的用戶數據。
3.數據來源不透明
無法驗證數據的合法性。許多企業在使用訓練數據時,并未充分披露數據的來源細節,也沒有提供足夠的證據證明數據的合法性。這種缺乏透明度的做法,使得公眾和監管機構難以判斷數據是否通過合法途徑獲取,尤其是在跨境數據交易和共享中,數據來源的驗證更加困難。2018年美國Cambridge Analytica事件中,Facebook的數據被第三方公司違規利用,數據合法性受到廣泛質疑。
第三方合作數據的透明度問題。許多企業通過與其他機構或公司合作獲取數據,但合作伙伴的合規性和數據來源是否合法,往往未被企業充分披露。這導致數據的來源變得更加復雜,難以驗證。2020年,谷歌與英國國家醫療服務體系(NHS)合作,Google旗下的AI部門DeepMind與英國國家醫療服務系統(NHS)合作,獲取了超過160萬患者的醫療數據,用于開發應用程序。盡管雙方的合作協議試圖確保數據的合法性,但公眾和隱私倡導者質疑這些數據是否在完全告知和同意的前提下收集,最終引發巨大爭議。
三、訓練數據收集現實困境的解決路徑
(一)包容審慎監管理論的提出
1.包容審慎監管的理論內涵
“包容審慎”監管原則是國務院辦公廳提出的構想,旨在為新技術、新產業等提供靈活應對機制。該原則在《優化營商環境條例》(2019年)、《科學技術進步法》(2021年)及《生成式AI服務管理暫行辦法》(2023年)均有體現,并逐步從原則轉化為具體規則。面對AI技術的廣泛應用及帶來的數據隱私、算法公平性等挑戰,傳統法律框架難以適應,而包容審慎監管則提供了一種靈活的解決方案。它要求在制定法規和政策時,既要促進技術創新,又要保護社會公共利益和個人權利,實現技術與社會責任的平衡。在立法、執法、司法層面,包容審慎監管需考慮不同利益相關方的需求,確保企業、消費者、學術界和社會公眾在數據收集和使用中的權利和利益得到尊重。同時,法律法規對待新興事物不能一味遏制或放縱,而應在發展中加以規制,實現更快發展。這一監管原則的提出,能在一定程度上減輕企業在數據安全義務上的負擔,促進AI技術的健康發展。
2.包容審慎監管的比較優勢
首先,這種規制方式減少了數據收集和使用過程中的繁瑣授權程序,使得研究機構和企業能夠更快速地獲取所需數據進行算法訓練。傳統的嚴格數據收集法律框架往往要求企業遵循復雜的授權流程和嚴格的合規要求,不放任公開的數據被任意爬取,數據爬取應保持謙抑性,劃定爬蟲技術使用的合理邊界[2]。部分AI企業在數據收集時存在未嚴格遵循法律法規的現象,常采取“先侵權、后補救”的行為模式,凸顯了法律規制體系的不足。因此,提出包容審慎的監管方式,旨在優化授權流程、減少合規成本,使企業更專注于技術創新,減少侵權情況。包容審慎的數據收集監管有助于建立開放的數據共享環境,促進數據流動與整合,提高利用效率,避免數據孤島。同時,它還能激勵更多企業和個人參與數據收集和共享,豐富數據多樣性和質量,提升AI算法性能。此外,包容審慎的監管能促進AI技術在醫療、交通等領域的迅速落地和普及,提高智能化水平和運行效率。該監管方式具備動態調整優勢,能靈活適應技術快速變化,確保在保護社會利益的同時,給予AI企業創新空間。在整體考量下,隱私權、知情同意權和數據安全處于首要位置,社會整體利益則建立在保護個體權利和實現公平的基礎上。
(二)包容審慎監管的實施路徑
1.優化數據授權流程
通過法律和政策規范數據授權流程,制定標準化數據授權協議是關鍵。政府主導制定模板,明確收集目的、數據類型、使用方式、用戶權利等,增強用戶信任。行業根據數據類型制定協議,保護敏感數據。利用數字化技術構建在線授權平臺,政府與企業合作,平衡公信力與技術創新,資源整合,提高效率與規范。平臺簡化授權流程,自動記錄存檔,化解數據來源不規范問題,降低未授權和數據不透明風險,確保企業使用透明可信的安全數據進行訓練。
2.制定分級的數據監管策略
在數據保護與使用的背景下,實施分層次的數據監管策略是實現包容審慎監管的關鍵。由于數據的敏感性和風險差異,單一監管策略難以滿足需求。根據《數據安全法》,可將數據分為一般、重要、核心三個級別。對于一般數據,特別是無法識別具體個人或組織的數據,可以采取寬松監管策略,鼓勵數據收集與使用,放寬收集限制。重要數據需嚴格訪問控制和加密,僅限授權人員訪問,所有數據存儲和傳輸均需加密。核心數據則需更高層級管控,訪問權限嚴格限制,僅特定機構或人員可接觸,優先使用國家批準的加密技術和安全設施,傳輸需國家批準,禁止未經授權的跨境傳輸。政府應加強監督,定期安全審計和風險評估,及時整改安全隱患。對核心數據泄露、篡改或非法利用,應制定嚴厲的法律責任和懲罰機制。同時,分層次監管策略也應強調數據使用的透明性。
3.鼓勵匿名化和去標識化技術的使用
去標識化和匿名化技術幫助企業在保護隱私的同時合規使用數據。去標識化通過去除個人識別信息保留數據分析價值,而匿名化技術則完全消除可識別信息。對于未匿名化的存量數據,需評估必要性和技術成本。匿名化比例的設置可由行業自律決定,以靈活找到最佳比例,避免侵權。對于動態訓練數據,法律應鼓勵建立識別和匿名化機制,直接使用無個人信息數據訓練模型。對遵守匿名化標準的企業提供稅收優惠,激勵技術研發和實施。
合成數據的開發和使用可降低訓練數據中的秘密性信息比例,規避數據泄露風險。合成數據不涉及真實隱私或商業秘密,避免泄漏風險,且在法律和倫理上合規。混合數據策略結合合成數據與真實數據,提高AI模型訓練效果和泛化能力,減少對真實數據的依賴,降低隱私泄露風險。合成數據增強技術提升合成數據集的多樣性和代表性,增強模型訓練效果。
參考文獻:
[1]Gilles Mertens,et al. Google Tag Manager: Hidden Data Leaks and its Potential Violations under EU Data Protection Law,arXiv,Dec.14,2023.
[2]陳兵,傅小鷗.生成式AI數據訓練的法治基調及展開[J]遼寧師范大學學報(社會科學版),2024,47(3):1-10.