999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式人工智能的數據風險及其法律規制

2024-01-01 00:00:00劉輝雷崎山

摘要:生成式人工智能在引領技術變革的同時也引發了諸多法律風險。根據生成式人工智能的運行機理,可以發現其中存在四大類數據安全風險,其主要原因在于算法高度信任對法益保護的沖擊、技術演變中科技倫理規范的缺失以及用戶數據主體權利保障不足等。針對生成式人工智能在數據輸入階段的數據源合規風險,研發企業內部應制定具有可操作性的數據合規計劃,并在合規計劃中制定詳細具體的風險規制措施,強化企業合規經營;與此同時,通過多種措施積極響應用戶對于數據主體權利的請求,確保模型訓練數據來源合法合規。針對生成式人工智能在模型處理階段的算法黑箱與算法偏見風險,應加大監管力度,重點關注算法的安全性與公平性,積極推進并完善相關立法,細化算法備案和算法解釋義務,提高算法技術透明度,落實算法主體責任。針對生成式人工智能在內容輸出階段的數據濫用風險,應優化監管機制,實現全鏈條合法性監管,完善科研倫理規范并予以實質審查,引領技術向善,實現科技向善治理。針對生成式人工智能在數據存儲階段的數據泄漏風險,應通過技術與管理制度相結合的方式進行全方位規制,嚴格控制數據共享范圍并貫徹數據分級分類保護,及時有效地防范數據泄露風險。

關鍵詞:智能算法;生成式人工智能;數據風險;法律規制

中圖分類號:D902;D912.1;D912.29

文獻標識碼:A

文章編號:1673-8268(2024)04-0040-12

生成式人工智能的廣泛應用,需要豐富的數據資源支撐其算法運算。但這也對數據的收集和處理過程提出了更高要求,該過程中所存在的數據泄露、算法濫用等風險也將引發一系列數據安全隱患。我國對人工智能的法律規制始于2017年。為了構筑我國人工智能發展的先發優勢,加快科技強國建設,2017年7月,國務院發布《新一代人工智能發展規劃》,提出了人工智能三步走的戰略發展目標。2019年,《新一代人工智能治理原則》《新一代人工智能倫理規范》相繼出臺,提出“發展負責任的人工智能”。2022年,我國各地開始逐漸重視人工智能產業的發展;當年9月,深圳正式發布我國首部人工智能產業專項立法《深圳經濟特區人工智能產業促進條例》。2023年,ChatGPT的面世和大語言模型的涌現給人工智能治理帶來了更大的挑戰。

對于生成式人工智能引發的數據風險,我國目前主要通過《中華人民共和國網絡安全法》為行文簡潔,下文涉及我國法律文本名稱時,均將“中華人民共和國”省略?!稊祿踩ā贰秱€人信息保護法》并結合《互聯網信息服務算法推薦管理規定》(以下簡稱《算法推薦規定》)、《互聯網信息服務深度合成管理規定》(以下簡稱《深度合成管理規定》)、《科技倫理審查辦法(試行)》(征求意見稿)、《生成式人工智能服務管理暫行辦法》(以下簡稱《暫行辦法》)對其實施規制。從近幾年出臺的《算法推薦規定》《深度合成管理規定》等規范名稱不難看出,我國對于AI傾向于區分不同技術方向進行規制,監管范圍有限,相關管理規范的出臺往往是為了應時解決某一熱點問題,立法上呈現出分散化趨勢。與生成式人工智能行業直接相關的《暫行辦法》多為倡導性、原則性的規定,有關數據風險規制的具體應用場景細則還有待完善。基于此,本文擬從生成式人工智能運作邏輯的不同階段中潛在的數據風險出發,剖析當前數據風險加劇的深層次原因,通過比較域外經驗,以我國現有的數據風險規制法律框架的規定為基礎,結合我國生成式人工智能行業發展與最新立法實踐,就生成式人工智能的數據風險提出有針對性的建議,以期更好地推動生成式人工智能產業安全有序地發展。

一、生成式人工智能誘發的數據風險

隨著大語言模型應用帶來的智能涌現和生成式人工智能內容輸出質量的提升,AI技術所帶來的潛在風險也更加深不可測。ChatGPT-4發布后不久,意大利數據保護局就以“違法收集數據”為由, 將其暫時禁止使用[1],加拿大聯邦隱私監管局也因OpenAI涉嫌“未經同意處理個人信息”而展開調查[2]。生成式人工智能的運作核心主要是通過算法對訓練數據集進行加工和生成輸出,在機器學習運行過程中需經過“數據輸入、模型處理、內容輸出與數據存儲”四個階段,涉及數據源合規風險、算法風險、數據濫用風險與數據泄露風險等不同類型的法律風險。需要注意的是,算法風險不僅存在于模型處理階段,各個階段算法技術的嵌入都會放大其引發的數據安全風險,即在生成式人工智能應用過程中,數據風險與算法風險相互作用、相互生成。為了更好促進生成式人工智能產業安全有序地發展,有必要以其應用的技術邏輯為基礎,對其應用過程中可能誘發的數據風險進行分析。

(一)數據輸入:數據源合規風險

人工智能大語言模型的應用需要大量數據的支持,其在“學習”大量文本語料的構建過程中存在各種各樣的數據源合規風險。在以自動識別算法、網絡爬蟲等技術方式通過互聯網等公開渠道獲取數據時,其對于個人數據的收集邊界是模糊的。例如,ChatGPT在訓練的過程中爬取了某點評網站上關于某餐飲店的評價,但由于某用戶在點評時透露了自身的個人信息,該部分個人信息進入到模型語料庫,進而涉嫌侵犯他人個人信息權益。進一步而言,ChatGPT要生成精確度更高的答案,就需要學習歸納更多的數據。盡管很多與用戶有關的個人數據和當事人想獲得的答案之間沒有直接的關系,但是,ChatGPT還是會在應用過程中收集這類數據,并利用知識蒸餾的方法開展深度學習[3]。根據我國《個人信息保護法》的規定,個人信息處理者取得個人同意后才可以處理個人信息,若ChatGPT獲取、利用的數據集中包含公民個人信息,則必須取得用戶同意后才能對其進行處理,但在現實應用過程中,逐一征求用戶同意基本不可能實現[4]。除此之外,ChatGPT對于個人數據還可能存在過度分析利用的法律風險,因為ChatGPT收集個人數據的邊界模糊,所以其往往通過算法技術對數據進行深度分析,以此來提升答案的準確性[5]。那么,如何審核個人信息來源的合法性和個人的授權情況、最大限度減少侵犯他人個人信息權益的合規風險就亟待解決。

除個人信息收集場景之外,在獲取文本語料時,還可能會因為未征得權利人許可復制、改編或者傳播而涉嫌侵犯他人知識產權。2023年12月27日,作為全世界最有影響力的新聞機構之一的《紐約時報》正式起訴OpenAI和微軟,指控被告未經許可使用《紐約時報》的數百萬篇文章訓練ChatGPT,嚴重侵害了《紐約時報》的版權[6]。除此之外,在大模型的靜態與動態訓練的過程中,可能會出現使用來源不明或者非法的數據信息的情況;如果前述信息中包含商業秘密,那么依據競爭法的相關規定,將構成對他人商業秘密的侵害,未經授權通過自動識別算法、利用網絡工具爬取數據的行為還可能構成不正當競爭。

(二)模型處理:算法風險

對于生成式人工智能而言,數據是生成式人工智能技術應用的基礎,算法是通過技術手段重構數據并使其產生價值的方式。能否恰當地使用算法技術分析處理數據,是考量此類高度智能化的大語言模型在實際應用中是否安全的重要因素之一。大模型的算法內部機制和決策過程不可解釋或者難以理解,導致算法的輸出結果存在無法解釋的“黑洞”,即產生“算法黑箱”風險[7]。此外,算法開發者往往傾向于隱藏算法決策的規則,故而其對于被決策主體缺乏透明性,可能會導致用戶難以理解模型的決策過程和預測結果,進而無法評估模型的可靠性和穩定性。目前,世界上許多國家都試圖通過法律或其他措施推動企業進行算法公開,即算法服務提供商有責任披露算法并解釋算法決策的底層邏輯,以應對“算法黑箱”的消極影響[8]。

生成式人工智能模型內部機制的不透明性,給模型處理過程中誘發的算法歧視、算法偏見風險治理帶來了挑戰。既有研究表明,生成式人工智能會從訓練數據中復制有害的社會偏見和刻板印象[9]。在數據輸入階段,算法對人類語言的理解就無法保證做到完全準確。如果其本身的算法規則對某些特定的個體或群體存在偏見,加之數據集本身就存在固有偏見時,那么大語言模型算法在應用、決策或預測時衍生出的結果一定存在某種偏見。普林斯頓大學的一項研究表明:由于受到訓練數據集和語言模型中社會偏見的影響,ChatGPT的生成內容顯示出對某些特定種族有很強的敵意,而在使用過程中,假使ChatGPT被賦予某種負面的人格特質,其回答也將含有歧視性偏見、錯誤的刻板印象等有害內容[10]。此外,眾多AI偽造合成的數據可能會被保留甚至流入互聯網,這些帶有偏見的合成數據有可能再次被用于機器學習,在機器不斷進行自我學習的進程中,這種偏見將會被持續加深強化,導致偏見、歧視的惡性迭代循環[11]。

(三)內容輸出:數據濫用風險

關于生成式人工智能模型的數據濫用風險,當前主要存在兩個日益嚴重的問題:一是算法濫用導致AI生成的虛假信息泛濫,二是AI詐騙等網絡犯罪活動猖獗。ChatGPT類生成式人工智能模型的主要目標是模擬人類語言,而不是提供一個準確的回答。因此,為了獲得用戶的認可,它往往傾向于優先考慮編造虛假信息來提供一個清楚的回應而不是精確的答案。也就是說,生成式人工智能在輸出內容時,可能會一本正經地胡說八道,并制造出一些虛假信息。舉例來說,盡管生成式人工智能應用的算法訓練數據集中沒有谷歌公司的營業數據,但被問到谷歌公司當年的營業收入時,它可能會給出一個隨機的數字進行回答(例如213億美元)[12]。生成式人工智能擁有超乎想象的數據加工、生成和傳播能力,因而極有可能會被不法分子利用,成為強化黑客攻擊和威脅網絡安全的工具[13]。近年來,關于AI詐騙的報道屢見不鮮,AI技術不僅能偽造他人面孔,還能模仿和合成他人聲音。生成式人工智能的進一步發展更是讓不法分子擁有了更大的作惡能力,其憑借深度合成技術可以降低成本、提高效率來偽造圖片視頻,生成虛假信息,以此實施侮辱、誹謗、詐騙等網絡犯罪行為,給網絡安全和社會秩序造成嚴重危害。

(四)數據存儲:數據泄露風險

基于大語言模型強大的系統學習能力以及交互方式上相對的自由,這些數據的安全性往往無法有效保障,在交互過程中存在較大的數據泄露風險。其通常表現為以下三種類型:一是涉及用戶生物識別信息、健康信息等個人數據泄露而引發的隱私權侵害問題;二是企業內部在使用生成式人工智能產品過程中,操作不當或者模型固有缺陷導致商業機密泄露而引發的不正當競爭問題;三是因泄露國家秘密引發的威脅國家安全問題[14]94。雖然生成式人工智能服務提供者往往會通過聲明或在用戶協議中設置相應條款的方式來保證采取匿名、加密等方式對數據進行安全防護,但是,大量的公開報道表明,數據泄露風險并非空穴來風。比如,OpenAI官方在2023年3月24日發布聲明稱,有1.2%的ChatGPT Plus的用戶數據存在數據泄露風險,其中包含姓名、聊天記錄片段、電子郵箱和付款地址等信息[15]。再比如,據韓國媒體報道,三星內部已先后發生三起誤用、濫用ChatGPT案例,其研發人員在嘗試使用ChatGPT對源代碼進行修補的過程中, 反而被ChatGPT掌握了新程序的源代碼以及其他企業機密數據[16]。為了避免上述情況的發生,目前已經有眾多企業明確禁止員工使用生成式人工智能模型,包括德意志銀行、摩根大通、高盛、花旗等公司。不難看出,由于生成式人工智能模型具有感知敏感信息的能力,不管訓練數據集是否包含隱私信息,即使使用者不存在疏忽也有可能因算法技術漏洞而發生數據泄露。雖然保障數據安全的加密技術正在不斷完善,但是,面對未來生成式人工智能技術的大規模應用趨勢,依然會有不容忽視的數據安全風險[17]21。

二、生成式人工智能數據風險生成的原因

(一)算法高度信任對法益保護的沖擊

算法作為技術進步和現實需要雙重驅動下的產物,因低成本、高效率的優勢被廣泛應用于各大行業,人們逐漸習慣于甚至依賴于通過算法程序認知世界。生成式人工智能的橫空出世,強化了人們心中對算法的強大信息處理能力、精準推薦能力的認知,加之經濟性和易獲取性,當下社會中生成式人工智能的應用開始流行,在一定程度上也可被看作對搜索算法的依賴。算法信任不僅包含人們信任算法生成內容是準確、可靠的主觀意識,還包含了人們信任算法決策不會對自身產生不良影響的合理預期[18]。但事實上,生成式人工智能利用算法在學習和模擬人類思維運行時,既然可以模擬人類的優點,也無法避免模擬人類的缺點。而且,算法并不總是值得被信任,開發者完全可以在算法中加入自己的偏見,即算法本身的可信度存疑。盡管生成式人工智能技術本身是中立的,但由于價值缺失或者設計缺陷等原因,算法風險極易對法益保護產生沖擊。在算法高度信任的背景下,即使生成式人工智能應用頁面標注了風險提示,用戶也可能不以為意甚至忽視其提示,疏于調查求證其給出的醫療建議是否具有科學性便直接應用[19]。此外,生成式人工智能開發者的本質仍是營利法人,對于算法的開發、升級不可避免具有逐利性。因此,即使算法應用初期合法合規,但其算法設計將或多或少受到市場經濟利益的影響而忽略法律價值和權利保障的目標,從而引起侵害社會公眾法益、影響市場競爭等社會公共秩序的風險。

(二)技術演變中科技倫理規范的缺失

在技術演變過程中,科技創新要遵循科技道德的價值觀念和行為準則,才能有力保障科技產業的安全有序發展。當前,生成式人工智能技術正日趨成熟,其適用范圍逐漸向本屬于人類具有獨創性價值的領域深入。然而,在這些領域內,還沒有形成完整的生成式人工智能技術使用理念和行為準則,很容易在生成式人工智能技術應用過程中產生一些與科技倫理道德相違背的、不安全、不可控的風險[17]19??萍紓惱淼赖嘛L險的出現,一方面是基于生成式AI技術本身的缺陷,例如訓練數據集本身就不具有代表性,容易產生偏見、刻板印象等歧視;另一方面,也可能是基于用戶對生成式AI模型的濫用,例如用戶利用生成式AI模型偽造論文、制造謠言等破壞社會秩序。

技術本身并無價值向度,但人會賦予其價值向度[20]。近期歐洲議會通過的《人工智能法案》的談判授權草案,明確聲明嚴格禁止“對人類安全造成不可接受風險的人工智能系統”[21]。從兼顧生成式人工智能技術的可持續健康發展、維護公民權益和社會利益的角度出發,應在遵守技術向善原則的基礎上,通過立法規定要求技術研發與使用行為遵守公序良俗和社會公德。2023年7月13日,國家互聯網信息辦公室(以下簡稱“國家網信辦”)公布《暫行辦法》,明確規定有關生成式人工智能的內容要合法合規、禁止算法歧視、不得生成虛假信息、不得侵犯他人合法權益等相關內容,這對于應對生成式人工智能可能帶來的倫理道德風險具有重要的引導性作用。但相關科技倫理規范仍不夠明確化、具體化和制度化,如何應對生成式人工智能可能帶來的倫理道德風險,仍將成為較長時間內人類與AI相處過程中的重要議題。

(三)用戶數據主體權利保障不足

生成式人工智能系統在開發、部署以及應用過程中所有需要使用個人數據的環節,均要考慮對主體數據權利的保護。但實際上,數據主體的知情權、更正權、刪除權等數據權利的實現并不樂觀。例如,近期一款由用戶上傳照片后依據AI能力再度“生成”同一人照片的AIGC類應用“妙鴨相機”獲得廣泛關注,其近似“霸王條款”的用戶協議也飽受爭議。據媒體報道,妙鴨相機初版用戶協議的“授權許可”條款用一句話概括就是:用戶授權妙鴨相機,無償且永久地使用該信息[22]。不難看出,在人工智能時代,企業對數據要素的爭奪愈發激烈,用戶很容易陷入被動的位置,其數據隱私安全面臨的挑戰日益嚴峻。

生成式人工智能訓練數據集的建設與改進可以被劃分為主動和被動兩種類型。在被動組建過程中,系統將自動保存人機交互過程中用戶輸入的信息并將其納入訓練數據庫[23]。這種高度自動化的數據收集過程中,不能及時與數據主體進行交流,容易導致對知情同意原則的適用陷入困境。實際上,對數據享有實際控制權的一方并不會止步于初步掌握數據原始主體披露的數據,而往往會通過多種智能分析技術不斷對其進行挖掘與再識別,找出零散數據間的特殊關聯,進而可能打破對數據的匿名化、侵犯用戶隱私[24]??梢?,生成式人工智能這個超大型語言模型由于在應用過程中存在過度收集行為和其數據挖掘原則尚不明確,故在維護用戶數據安全、落實用戶數據主體權利方面應滿足更高的要求。

三、生成式人工智能數據風險規制的域外經驗

任何技術都是一把“雙刃劍”,生成式人工智能實現了從感知理解世界到生成創造世界的躍遷,同時也帶來了算法黑箱、數據隱私、網絡安全、技術倫理等方面的挑戰。聚焦生成式人工智能的數據風險問題,各國都開始意識到對其進行監管的必要性,并加大審查與監管力度,力求在控制生成式人工智能風險的同時助力生成式人工智能產業健康發展。

(一)強監管或弱監管的抉擇

1.歐盟:先監管后發展

從歐盟成員國范圍來看,意大利個人數據保護局最早對生成式人工智能ChatGPT采取監管措施,以涉嫌違反隱私法規為由,禁止了ChatGPT在本國的使用,直到OpenAI遵守其關于用戶隱私保護的規定[25]。目前歐盟已在整個歐盟層面開始醞釀具體監管措施,對于生成式人工智能的發展更側重立法和監管路徑,這與歐盟一貫先控制其可能帶來的安全風險、再鼓勵產業發展的嚴謹態度相符合。

2.美國:兼顧發展與數據保護

與歐盟先規范后發展的監管立場不同,美國在人工智能問題的治理方面主要采取相對開放的管理戰略,以此來維持自己在這一領域中的國際領先地位,其更注重在不過多干預的情況下鼓勵人工智能技術的發展。2020年5月,《生成人工智能網絡安全法案》(Generating Artificial Intelligence Networking Security (GAINS) Act)明確提出,美國聯邦貿易委員會和商務部應掌握人工智能技術的落地應用給美國帶來的優勢和負面影響;2020年8月的《數據問責和透明度法案》(Data Accountability and Transparency Act of 2020)就企業相關服務的隱私收集問題進行密切關注;2020年11月,《人工智能監管原則草案》(Guidance for Regulation of Artificial Intelligence Applications)則要求聯邦機構在制定人工智能方法時,應考慮公眾對人工智能的信任與參與、風險評估與管理、公平與非歧視、披露與透明度、安全與保障等因素。

(二)重視用戶數據主體權利保障

在人工智能數據治理中,歐盟更注重對個人數據和個人權利的保護[26]。2018年5月,歐盟最嚴數據保護立法《通用數據保護條例》(General Data Protection Regulation,GDPR)正式施行,在世界范圍內引發關注。當ChatGPT在處理個人隱私數據時,同樣需要遵守該條例的規定,以確保數據處理的安全和透明,否則將會被處以2 000萬歐元或高達年收入4%的罰款。美國人工智能數據風險治理對用戶數據權利保障同樣給予了高度重視。2022年10月,美國白宮發布的《人工智能權利法案藍圖》(Blueprint for an AI Bill of Right)提出了負責任地使用人工智能路線圖。該文件對人工智能數據安全、算法歧視、數據隱私等方面給予指導,特別關注對于公民權利保障和人權侵犯的意外后果。2023年5月,美國國會研究處發布報告《生成式人工智能和數據隱私:初探》,對生成式人工智能如何使用數據、可能引發的數據隱私風險等問題進行了分析,并提出了相應對策,主要包括以下內容:第一,建立通知和披露機制,可以要求開發者在收集或使用個人數據之前獲得數據主體的同意,同時告知數據主體他們的數據將用于何種目的;第二,退出機制,對于尚未公開的數據,生成式人工智能的開發者可以向用戶提供退出數據收集的選項;第三,刪除和最小收集要求,即用戶有權從當前數據集中刪除自己的數據,或以最短的期限保留其個人數據[27]。

(三)加強分級分類監管與科技倫理審查

隨著人工智能技術的發展,歐盟委員會在2021年提出了《人工智能法案》的立法提案,并于2024年3月被歐洲議會表決通過;2024年5月21日,部長理事會也正式批準了該法案。這是世界范圍內第一部針對人工智能進行規制的法律,主要特點是依循風險分類分級的思路對人工智能系統進行監管治理。該法案將風險劃分為不可接受的風險(unacceptable risk)、高風險(high risk)、有限風險(limited risk)和最小風險(minimal risk),針對不同等級的風險,法案將實施不同程度的控制措施。該法案自提出至今,歷經多次更改,目前最新版針對高風險人工智能系統提供者的義務作了特別規定,包括應當完成合格性評估程序、履行注冊義務以及負有設立質量管理體系的義務等內容[28]。

2019年,歐盟在人工智能算法、科技倫理監管方面有所發展,發布了《算法問責及透明治理框架》(A Governance Framework for Algorithmic Accountability and Transparency),提出了一個應用廣泛、內容全面的監管框架來治理迅速發展的算法應用。此外,通過《可信賴人工智能倫理準則》(Ethical Guidelines for Trustworthy AI)提出的尊重人自主性(respect for human autonomy)、預防傷害(prevention of harm)、公平性(fairness)和可解釋性(interpretability)四項倫理準則以及人的能動性和監督(human agency and oversight)、技術魯棒性和安全性(technical robustness and safety)、隱私和數據管理(privacy and data government)、透明性(transparency)、多樣性、非歧視性和公平性(diversity, non-discrimination and fairness)、社會和環境福祉(social and environmental well-being)和問責(accountability)實現可信賴AI的七個關鍵要素[29]。

歐盟和美國各有側重的人工智能數據風險治理路徑探索,為我國生成式人工智能數據風險的法律治理提供了有益的借鑒??梢钥闯觯瑢夹g手段實施合理規制是十分必要的,只要監管方案與控制手段設計得當,便能在促進發展的同時防范風險。我國需根據生成式人工智能的發展現狀,以及可能產生的一系列具體問題,探尋具有中國特色的法律規制路徑,在鼓勵技術革新的同時維護數據安全。

四、生成式人工智能數據風險規制的路徑

生成式人工智能是數字經濟發展的重要底層技術,《暫行辦法》的出臺,表明我國在平衡AI技術創新與安全發展方面開始進行有益探索。面對呈爆炸級趨勢增長的生成式人工智能應用,應把握監管重點、守正創新,對數據源合規風險、算法風險、數據濫用風險和數據泄露風險進行有針對性的法律規制,監管和引導生成式AI技術應用健康向善發展。

(一)數據源合規風險規制

在對海量數據進行算法訓練、模型應用前,生成式人工智能服務開發者首先要進行數據收集處理活動。研發企業應遵循《數據安全法》《個人信息保護法》規定的數據收集的一般原則,合規經營并確保數據來源合法合規,同時通過多種渠道和措施保障數據主體權利實現,有效防控數據源合規風險。

1.強化企業合規經營,確保數據來源合法

生成式人工智能訓練數據的來源方式主要可以分為三種:一是通過網絡爬蟲、自動識別算法等自動化工具自行收集數據,二是間接向數據提供方收集數據,三是直接面向數據主體收集數據。針對第一種情況,研發企業應注意自動獲取數據時的合規風險。根據我國《刑法》的相關規定,利用爬蟲等計算機技術程序,非法入侵計算機系統從而獲得數據的,可能構成侵犯商業秘密罪或者非法侵入計算機信息系統罪??梢钥闯?,我國法律已經明令禁止非法獲取數據的行為。因此,研發企業有必要事先制定相應的數據合規計劃,了解如何合法合規地獲取數據和數據獲取過程中可能遇到的刑事風險,并制定詳細具體的風險規制措施。企業若采用“爬蟲”“自動識別算法”等自動化工具收集數據,則應當自行評估其“爬取”“識別”數據的行為對目標網絡系統可能造成的不利影響,不得影響目標網絡系統功能的正常使用[30]。研發企業向數據提供方獲取開源數據集來間接收集數據用以模型訓練時,應積極審查數據提供方是否具備提供數據的法律依據及合法性來源,涉及知識產權的,不得侵害他人依法享有的知識產權,并要求數據提供方配合定期開展合規審計,確保數據來源的合法合規[31]。

2.強化用戶數據主體權利保障

直接面向數據主體收集數據時,特別是涉及有關個人信息的數據收集過程中,研發企業需要將《個人信息保護法》規定的知情同意、最小必要和適當等基本原則的踐行情況作為個人信息處理審查的重要標準。首先,應根據現實具體的服務場景針對性地采集個人數據,并明確告知用戶收集、使用個人信息的具體范圍與目的以及數據可能存在的泄露風險,確保獲取的個人數據已經取得用戶真實同意。特別是在人機交互過程中,在收集記錄用戶的輸入和輸出內容時應以顯著標識進行說明,并充分給予使用者拒絕提供的權利。企業內部應設立專門的審查機構,對數據采集內容進行合規審查,非法數據、未經用戶明確同意或者許可的數據均不能納入算法的訓練數據集。其次,開發者應該在保證正常提供生成式人工智能產品服務時所必須的最小范圍內采集個人數據,不應過度延伸。最后,根據《暫行辦法》第9條規定,生成式人工智能服務提供者提供的服務中如果存在與用戶個人信息相關聯的,提供者應當按照法律規定積極履行個人信息保護義務,并通過與用戶簽訂使用協議或者服務協議的方式,在協議條款中對雙方的權利義務作出明確規定。生成式人工智能服務開發者應確保能夠及時處理用戶的查閱、復制、更正、補充、刪除其個人信息等請求,保障其對個人數據的刪除權、更正權、拒絕權及自主決定權的正常行使。

(二)算法風險規制

生成式人工智能的運作機制離不開算法,而算法的實施又會產生算法黑箱、算法偏見或算法歧視等問題。鑒于生成式人工智能的算法風險以及域外治理現狀,法律應及時介入,積極推進算法監管,重點關注算法的安全性和公平性。

1.加強算法備案,推進算法透明度治理

近年來,我國積極探索人工智能領域算法監管。2021年,國家網信辦公布的《算法推薦規定》主要用于規范算法推薦服務提供者使用生成合成類等算法推薦技術來提供服務的行為。2022年,國家網信辦又發布《深度合成管理規定》,對深度合成技術提出一系列要求。2023年,為應對ChatGPT的面世和大模型領域的密集動態,除正式出臺《暫行辦法》外,《人工智能法(草案)》也被列入國務院2023年度立法工作計劃中。其中,根據《暫行辦法》第4條規定,生成式人工智能服務提供者和算法使用者在選取訓練數據、建立與優化大語言模型的過程中,應該避免對不同種族、不同性別、不同國家、不同職業、不同年齡、不同信仰等方面進行歧視?!稌盒修k法》第17條規定,向公眾提供容易引發社會輿論或者具備一定社會動員功能的生成式人工智能服務前,要嚴格依照法律規定進行事前安全評估,并依照《算法推薦規定》履行算法備案、變更或者注銷手續。因此,作為一個負責任的生成式人工智能應用開發者應積極履行算法備案與安全評估義務,并應根據監管機構要求提供必要信息。在算法設計與實際應用過程中,算法開發者應當一直堅持“以人為本”的技術向善發展觀念,始終遵循各行業的倫理規范以及算法設計倫理準則進行研發設計,并適時地對算法運行規則進行調整和更新,以最大限度地避免算法本身所帶來的先天歧視[32]。截至2023年9月1日,國家網信辦已經公布了兩批深度合成服務算法備案清單,共計151項,包括阿里、百度、科大訊飛等大模型算法,保障了公眾知情權和技術透明度。

2.賦予算法解釋義務,落實算法主體責任

算法運算透明并不意味著算法的完全公開,僅規定算法備案制度還難以實現對科技創新的保護與監管之間的平衡。因此,在后續立法或實踐中應細化公開義務,具體規定應當進行算法披露的程度和限度,避免侵犯商業秘密,并賦予算法設計者合理的解釋義務以減少不必要的糾紛。在算法解釋義務的具體構建中,可以考慮引入雙向驅動型算法解釋工具,即當相對人認為生成內容侵犯個人利益或者公共利益時,有權請求算法開發者和使用者向監管部門承擔解釋說明任務,監管部門或者司法機關在相關執法司法活動等特定場景中,有權要求算法開發者和使用者就產生爭議的算法決策進行解釋[33]。除此之外,為消除算法黑箱與算法偏見帶來的規則盲區,還應該通過明確責任主體、歸責原則、責任分配及法律后果等方式,完善算法問責機制,落實算法主體責任[34]。

(三)數據濫用風險規制

生成式人工智能的發展為多領域帶來了創新機遇,但也帶來了虛假信息傳播、AI詐騙猖獗等威脅社會穩定的數據濫用風險。針對可能存在的數據濫用風險,應當強化科研倫理的法治化,實現科技向善治理,同時建立多元監管機制,實現全鏈條合法性監管。

1.加強科技倫理審查,實現科技向善治理

科技倫理是指進行科學研究、技術創新等科技活動時,必須要遵循的行為準則和價值理念,包括科研行為必須要遵守的學術規范以及現實社會基本道德對科研成果進行規范的邊界[35]。在生成式人工智能產業大力發展的進程中,必須時刻謹記“以人為本倫理先行”和“科技為人服務”的理念,不能盲目地為了追求利潤最大化而忽視研發底線。當前,我國雖出臺了《關于加強科技倫理治理的意見》《新一代人工智能治理原則——發展負責任的人工智能》《新一代人工智能倫理規范》等頂層設計和制度方案,但仍難以適應人工智能領域科技創新發展的現實需要,在具體規則和實施落地等方面還需不斷推進。具體而言,可以嘗試通過對生成式人工智能從開發到現實使用的不同階段、應用的不同領域或者同一領域的不同場景特征與構成要素,分別制定更具有行業針對性的科技倫理審查標準,從而指導研發企業依法依規開展科技創新活動[36]。與此同時,還可以考慮建立獨立的人工智能倫理審查機構(如科技倫理委員會),并組織制定生成式AI的倫理指南、自律公約等行業規范來提高行業準入門檻,在生成式AI進入市場前進行道德審查。

2.建立多元監管機制,實現全鏈條合法性監管

我國對于生成式人工智能應用風險的監管治理,主要采用目標與問題導向相結合的風險治理框架,既不同于歐盟相對嚴苛的風險監管模式,也不同于美國幾乎沒有限制的寬松風險監管模式。為有效規制數據濫用風險,完善生成式人工智能的法治保障,應根據《暫行辦法》規定的“包容審慎”監管原則《生成式人工智能服務管理暫行辦法》第3條規定:“國家堅持發展和安全并重、促進創新和依法治理相結合的原則,采取有效措施鼓勵生成式人工智能創新發展,對生成式人工智能服務實行包容審慎和分類分級監管?!?,優化和升級人工智能安全監管模式,建立多元長效監管機制,實現對生成內容的全鏈條合法性監管。

一方面,可以考慮建立覆蓋研發運行全程的獨立監管機構,制定統一的生成式人工智能責任框架,合理平衡數據安全與科技創新的保護邊界。監管者在既有數據安全監管基礎上,可以考慮引入影響評估、監管沙盒等制度,同時要求服務提供者如實依法報送算法、技術等必要信息。值得注意的是,在促進算法開源的過程中,應當特別注意對初創公司和個人創業者的保護。此外,監管者應當將監管審查重點聚焦于商業化應用層面,積極進行生成式人工智能應用安全評估與檢查,將其可能出現的偏差與錯誤及時通知服務提供者,并督促其進行檢測和排除,防止生成式人工智能被用于非法或不道德的目的[37]。

另一方面,研發企業自身應通過多種機制和技術手段加強對數據濫用風險的監管。從OpenAI等企業受到監管和關注不難發現,一家可持續發展的AI企業必須具備良好的風險治理水平、持續的合規風險治理更新和改善能力。當生成式人工智能產品投入市場運營時,服務提供者應當同時對產品中是否存在違法違規內容進行實時監督和處置。根據《暫行辦法》有關規定參見《生成式人工智能服務管理暫行辦法》第7條、第14條。,生成式人工智能服務研發人員在選取訓練數據集、涉及算法、建立與優化大語言模型的過程中, 應采取必要措施防止其生成違法內容;服務提供者一旦發現侵權或者生成內容違法時,應立即采取更正、屏蔽、刪除等措施, 并在后續對生成式人工智能模型進行內容過濾或模型優化訓練。研發者可以在算法技術中嵌入虛假信息監測技術,及時更新、優化算法,在內容輸出前進行事先審查,提高輸出內容的準確度和可信度。此外,還可以在產品使用頁面增加質疑通道,當用戶發現使用過程中生成了虛假信息或者違法信息時,可以及時反饋給服務提供者或開發者,系統也應對該內容進行自動標注以便提示其他用戶[14]98。

(四)數據泄露風險規制

數據泄露風險規制是生成式人工智能發展過程中不可回避的重點和難點之一,因為一旦發生數據泄露事件,不僅會影響企業聲譽從而引發信任危機,還可能需要承擔嚴重的刑事責任。我國《數據安全法》第45條規定,數據處理者在數據處理活動中引發大規模數據泄露事件,將被處以高昂罰款,并責令停業整頓甚至吊銷營業執照。在當前我國堅持發展和安全并重、對生成式人工智能服務實行包容審慎和分類分級監管的形勢下,研發生成式人工智能大模型的企業應更加關注數據泄露的防范措施。治理數據泄露風險,只有從技術和管理制度兩方面入手,雙管齊下方能達到事半功倍的效果。

1.嚴格控制數據共享范圍,引導和促進新技術應用

從技術角度來看,研發者應當對數據共享渠道和共享對象進行嚴格管理,只能在獲得用戶同意的范圍內進行數據共享,遵守《暫行辦法》第11條的規定,即“提供者不得非法向他人提供使用者的輸入信息和使用記錄”。當無法避免數據要素在市場上流通時,應當對其進行嚴格的脫敏處理,即通過一系列技術處理方式,對掌握的用戶個人數據中具有可識別性的內容予以模糊化處理,最終使其無法定位到某一特定用戶,通過匿名化可保證用戶個人數據權益,降低數據泄露可能造成的危害后果[38]。同時,企業應當根據木馬病毒、虛假WAP(無線應用協議)等網絡攻擊技術的特點,不斷優化更新算法技術,可以采取動態秘鑰、IP地址限制等方法確保對敏感、涉密數據的安全存儲,防止訓練數據泄露,還要加速生成式人工智能領域的技術升級和更新,推廣新技術的應用。2023年,開源AI解決方案公司ClearML宣布推出ClearGPT,聲稱該產品的顯著特點是為企業定制大型語言模型,通過在組織網絡內提供安全環境來提供解決方案,確保完全控制并消除數據泄露的可能性,這是未來AIGC領域避免數據泄露風險的一個理想發展方向[39]。再比如,對隱私計算技術,可以通過多方共享軟件開發工具包(software derelopment kit,SDK)的方式,實現多方數據控制者在不暴露數據本身的情況下進行相互之間的數據傳輸、建模、互聯,同時保證AIGC在正常提供服務的同時不會造成數據泄露[17]26。

2.貫徹數據分級分類保護,落實數據安全保障義務

在管理制度層面,服務提供企業應當貫徹落實數據分級分類保護原則,加強數據泄露風險監測,將數據安全保障義務逐級落實到具體負責人,以實現全面的安全防護和風險管理。其一,AIGC開發商和運營商應當根據數據的類型和安全級別,對數據泄露可能帶來的影響進行安全風險評估,將存儲的不同種類數據按照評估結果進行分級分類管理,避免重要數據防護不足、非重要數據過度防護,尤其要著重加強對醫療健康、生物識別、未成年人信息等敏感個人數據的保護。其二,可以利用操作分析、異常行為監測等多重手段加強數據泄露風險監測,建立監測預警機制和數據泄露應急處置機制。當檢測到數據泄露風險時,立即啟動應急處理預案,及時消除相關風險。若無法及時消滅數據安全漏洞,那么數據泄露事故發生后,根據《數據安全法》第29條規定,應立即啟動處置措施,及時告知用戶并向有關主管部門報告。其三,將數據安全保障義務逐級落實到具體負責人,要求研發企業建立一整套專門負責數據安全與隱私合規的管理體系,在內部組織架構中設置專門機構和專門負責人員(包括首席數據官),并定期組織培訓。與此同時,還應當建立一套完備的數據訪問機制,避免數據被外來人員無權訪問或被內部人員越權訪問,并可以利用技術手段對訪問記錄進行詳細追蹤,進而在發生數據泄露時盡快識別出數據責任主體。

五、結語

隨著ChatGPT等新一代大語言模型的崛起,生成式人工智能所實現的功能已遠遠超乎人們的想象。技術在迭代更新的同時也引發了一系列數據安全問題,如何在鼓勵技術創新的同時防范其可能帶來的負面影響,我國正在摸索自己的治理途徑?!稌盒修k法》的出臺較好地回應了生成式人工智能帶來的挑戰,但未來仍需不斷堅持鼓勵創新與嚴守底線相結合的監管原則,并不斷完善立法,以便及時適應科技進步和產業演進的需求,強化科研倫理觀念,建立“以人為本”的技術體系,加強算法規制與隱私保護,調整和細化企業數據安全合規管理體系,完善用戶數據主體權利保障機制,為未來智能生態系統提供有力的法律保障。

參考文獻:

[1]江琴,左曉棟.人工智能倫理審查與監管初探[J].中國信息安全,2023(5):36-40.

[2]加拿大聯邦及多個省份隱私監管機構對ChatGPT展開調查[EB/OL].(2023-05-26)[2023-06-15].http://www.chinanews.com.cn/gj/2023/05-26/10014350.shtml.

[3]黃震華,楊順志,林威,等.知識蒸餾研究綜述[J].計算機學報,2022(3):624-653.

[4]畢文軒.生成式人工智能的風險規制困境及其化解:以ChatGPT的規制為視角[J].比較法研究,2023(3):155-172.

[5]劉艷紅.生成式人工智能的三大安全風險及法律規制——以ChatGPT為例[J].東方法學,2023(4):29-43.

[6]拒絕被AI盜走知識產權,《紐約時報》欲起訴OpenAI[EB/OL].(2023-08-18)[2023-08-19].https://www.thepaper.cn/newsDetail_forward_24279003.

[7]鄭曉華.算法時代網絡意識形態風險防范與實踐邏輯[J].重慶郵電大學學報(社會科學版),2023(1):163-170.

[8]趙宏.公共決策適用算法技術的規范分析與實體邊界[J].比較法研究,2023(2):1-16.

[9]LAURA W,JONATHAN U,MARIBETH R,et al.Taxonomy of risks posed by language models[EB/OL].(2022-06-20)[2023-06-23].https://dl.acm.org/doi/fullHtml/10.1145/3531146.3533088.

[10]DESHPANDE A,MURAHARI V,KALYAN A,et al.Toxicity in ChatGPT:Analyzing persona-assigned language models[EB/OL].(2023-04-11)[2023-06-24].https://arxiv.org/abs/2304.05335.

[11]游俊哲.ChatGPT類生成式人工智能在科研場景中的應用風險與控制措施[J].情報理論與實踐,2023(6):24-32.

[12]Wikipedia.Hallucination “artificial intelligence”[EB/OL].(2023-09-06)[2023-09-07].https://en.wikipedia.org/wiki/Hallucination_.

[13]周亭,蒲成.生成式人工智能的國際傳播能力及潛在治理風險[J].對外傳播,2023(4):14-18.

[14]鄧建鵬,朱懌成.ChatGPT模型的法律風險及應對之策[J].新疆師范大學學報(哲學社會科學版),2023(5).

[15]OpenAI.March 20 ChatGPT outage:Here’s what happened[EB/OL].(2023-03-24)[2023-06-24].https://openai.com/blog/march-20-chatgpt-outage.

[16]趙竹青.系好“安全帶”,生成式人工智能才會更好發展[EB/OL].(2023-04-13)[2023-06-24].http://finance.people.com.cn/n1/2023/0413/c1004-32663675.html.

[17]陳兵.生成式人工智能可信發展的法治基礎[J].上海政法學院學報(法治論叢),2023(4).

[18]譚佐財.ChatGPT的法律風險與治理路徑[J].湖南科技大學學報(社會科學版),2023(3):117-125.

[19]王洋,閆海.生成式人工智能的風險迭代與規制革新——以ChatGPT為例[J].理論月刊,2023(6):14-24.

[20]熊光清.生成式人工智能治理的法治維度[EB/OL].(2023-07-16)[2023-08-12].https://baijiahao.baidu.com/s?id=1771507002728495875amp;wfr=spideramp;for=pc.

[21]陳奕凱.“ChatGPT之父”呼吁監管ChatGPT[EB/OL].(2023-05-17)[2023-06-12].https://www.bjnews.com.cn/detail/168432347614319.html.

[22]羅亦丹.妙鴨相機火爆背后:隱私條款惹爭議,能否“挑戰”照相業?[EB/OL].(2023-07-23)[2023-07-24].https://www.bjnews.com.cn/detail/1690084299168871.html.

[23]鈄曉東.風險與控制:論生成式人工智能應用的個人信息保護[J].政法論叢,2023(4):59-68.

[24]蔣潔.AI圖景下大數據挖掘的風險評估與應對策略[J].現代情報,2018(5):147-151.

[25]董瀟,郭靜荷,史曉宇.人工智能及算法治理的新進展——基于ChatGPT在意大利的監管案例評析[EB/OL].(2023-06-29)[2023-06-30].https://www.junhe.com/legal-updates/2203.

[26]商建剛.生成式人工智能風險治理元規則研究[J].東方法學,2023(3):4-17.

[27]KRISTEN E.Generative artificial intelligence and data privacy:A primer[EB/OL].(2023-05-23)[2023-06-16].https://crsreports.congress.gov/product/pdf/R/R47569.

[28]寧宣鳳,吳涵.路未央,花已遍芳——歐盟《人工智能法案》主要監管及激勵措施評述[EB/OL].(2023-08-03)[2023-08-16].https://www.kwm.com/cn/zh/insights/latest-thinking/eu-ai-act-main-supervision-and-incentive-measures.html.

[29]張霄軍,邵璐.構建可信賴機器翻譯系統的基本原則——一種基于工程倫理的觀點[J].外國語文,2021(1):1-8.

[30]孟潔,周子川,杜暢.人工智能大語言模型開發與應用的數據合規風險及其應對——兼論《生成式人工智能服務管理辦法(征求意見稿)》合規要點[EB/OL].(2023-04-12)[2023-06-18].http://www.glo.com.cn/Content/2023/04-13/1511401407.html.

[31]陳際紅,吳佳蔚,陳煜烺.《生成式人工智能服務管理暫行辦法》發布,解析AIGC的數據合規挑戰與應對之道[EB/OL].(2023-07-13)[2023-07-18].https://www.zhonglun.com/Content/2023/07-13/1404150284.html.

[32]石穎.算法歧視的發生邏輯與法律規制[J].理論探索,2022(3):122-128.

[33]劉輝.雙向驅動型算法解釋工具:以默示算法共謀為場景的探索[J].現代法學,2022(6):58-71.

[34]程雪軍.金融科技平臺算法黑箱的法律規制研究[C]//2023年世界人工智能大會法治論壇論文集.上海:上海市法學會,2023:203-217.

[35]樊春良.科技倫理治理的理論與實踐[J].科學與社會,2021(4):33-50.

[36]陳兵.促進生成式人工智能規范發展的法治考量及實踐架構——兼評《生成式人工智能服務管理暫行辦法》相關條款[J].中國應用法學,2023(4):108-125.

[37]袁曾.生成式人工智能的責任能力研究[J].東方法學,2023(3):18-33.

[38]宋才發.個人信息保護的法律規制與法治路徑[J].重慶郵電大學學報(社會科學版),2022(5):48-56.

[39]ClearML推出ClearGPT,一個挑戰ChatGPT的生成式AI平臺[EB/OL].(2023-05-20)[2023-06-18].https://www.qidianai.net/news/563.html.

Data risk of generative artificial intelligence and its legal regulation

Abstract:

The emergence of ChatGPT has stirred up a new round of development in generative artificial intelligence, leading to technological change while also triggering many legal risks. According to the operation mechanism of generative AI, four major types of data security risks can be found, mainly due to the impact of high trust in algorithms on the protection of legal interests, the lack of scientific and technological ethical norms in the evolution of the technology, and insufficient protection of users’ data subject rights. For the data source compliance risk of generative AI in the data input stage, Ramp;D enterprises should formulate an operable data compliance plan, and formulate detailed and specific risk control measures in the compliance plan to strengthen the compliance operation of the enterprise, and at the same time, actively respond to the user’s request for the rights of the data subject through a variety of measures, so as to ensure that the source of the model training data is legal and compliant. Regarding the risk of algorithmic black box and algorithmic bias in the model processing stage of generative AI, we should increase supervision, focus on the safety and fairness of algorithms, actively promote and improve relevant legislation, refine algorithmic filing and algorithmic interpretation obligations, improve algorithmic technology transparency, and implement algorithmic subject responsibility. In response to the data abuse risks in the content output stage of generative artificial intelligence, we should optimize the regulatory mechanism to achieve full-chain legitimacy supervision, improve scientific research ethics norms and conduct substantive review, lead technology to goodness, and achieve good governance of science and technology. In response to the data leakage risks in the data storage stage of generative artificial intelligence, we should adopt a comprehensive regulation approach combining technology and management systems to strictly control the scope of data sharing and implement data classification and protection, and timely and effectively prevent data leakage risks.

Keywords:

intelligent algorithm; generative artificial intelligence; data risk; legal regulation

主站蜘蛛池模板: 亚洲色图欧美视频| 日韩a在线观看免费观看| 国产免费网址| 五月婷婷伊人网| 伦精品一区二区三区视频| 九色在线观看视频| 国产性爱网站| 热思思久久免费视频| 国产午夜精品鲁丝片| 亚洲欧美h| 亚洲性日韩精品一区二区| 色偷偷av男人的天堂不卡| 伊人丁香五月天久久综合 | 国产精品久久久久无码网站| 在线观看视频一区二区| 超级碰免费视频91| 成人夜夜嗨| 日韩黄色在线| 尤物午夜福利视频| 91青青视频| 亚洲一级毛片免费观看| 亚洲第一香蕉视频| 99成人在线观看| 婷婷亚洲最大| 国产精品丝袜视频| 日韩无码视频专区| 伊人中文网| 国产一区二区三区在线无码| 91啪在线| 国产精品永久久久久| 亚洲综合国产一区二区三区| 色欲色欲久久综合网| 99视频全部免费| 色吊丝av中文字幕| 99尹人香蕉国产免费天天拍| 91色在线观看| 在线观看国产黄色| 全裸无码专区| 国产在线一区视频| 日韩在线网址| 国产精品私拍在线爆乳| 狠狠色噜噜狠狠狠狠色综合久 | 91色老久久精品偷偷蜜臀| 99在线观看国产| 午夜一级做a爰片久久毛片| 国产欧美视频在线| 视频二区中文无码| 国产精品99一区不卡| 99re精彩视频| 欧美色亚洲| 一本大道东京热无码av| 99久久精品久久久久久婷婷| 色综合中文| 国产欧美日韩va| 国产96在线 | 欧美不卡视频在线观看| 99热这里只有精品在线观看| 88av在线看| 国产在线观看一区二区三区| 日韩无码黄色| 1级黄色毛片| 视频在线观看一区二区| 亚洲性网站| 在线免费观看a视频| 四虎综合网| 欧美a级完整在线观看| av在线人妻熟妇| 日韩123欧美字幕| 2024av在线无码中文最新| 欧美午夜视频在线| 久久99国产精品成人欧美| 一区二区午夜| 久久毛片免费基地| 国产丝袜第一页| 亚洲成综合人影院在院播放| 91欧美在线| 亚洲福利片无码最新在线播放| 不卡的在线视频免费观看| 久久6免费视频| 国产在线精品网址你懂的| 国产成人福利在线视老湿机| 亚洲午夜福利在线|