摘 要:人工智能聊天機器人ChatGPT橫空出世,瞬間成為全世界關注的焦點,全球用戶量激增的背后,也蘊含了人們對于個人信息安全的擔憂,特別是對敏感個人信息的保護問題。ChatGPT利用網絡爬蟲采集互聯網數據引發合法性與合規性的爭議,算法黑箱的不透明性始終挑戰著數據處理透明化的原則,而深究沖突的本質,是人工智能時代下數據的自由流通、共享與敏感個人信息保護之間的矛盾。為此,在規范網絡爬蟲的使用、提高人工智能算法透明度的同時,也要加強對人工智能各個階段的監管與問責以提高ChatGPT和類ChatGPT系統保護敏感個人信息的安全性和可信性。
關鍵詞:ChatGPT;人工智能;敏感個人信息;《個人信息保護法》
2022年11月,美國人工智能公司Open AI推出了人工智能聊天機器人程序ChatGPT。ChatGPT在正式上線的第一周用戶數量便突破百萬,兩個月內全球活躍用戶數量破億,打敗TikTok(抖音海外版)和Instagram(照片墻),成為史上用戶數增速最快的應用程序,被譽為“繼2016年打敗人類圍棋冠軍的AlphaGo之后,人工智能的又一重要突破”。并迅速引領新一代人工智能發展的浪潮。2023年初,微軟成功將ChatGPT接入其搜索引擎Bing中,在短短14個小時內被推上了美國iOS下載總榜的第23名;幾乎同一時間,谷歌CEO官宣了其對標ChatGPT的產品——巴德(Bard);Meta首席執行官馬克·扎克伯格表示,他的目標是讓Meta成為內容生成式人工智能的領導者。國內層面,百度、阿里巴巴等科技公司也正在投入大量人力物力研發類ChatGPT系統。
ChatGPT不僅代表了AIGC(AI Generated Content,人工智能內容生成)技術的最新成果和當前自然語言生成式AI發展的最高成就,而且帶來了商業模式的創新和產業結構的升級;但同時以ChatGPT為代表的內容生成式AI也在不斷挑戰著社會倫理的界限和數據安全的底線,ChatGPT需要在海量自然語言數據基礎上進行訓練,并使用機器學習算法生成與訓練數據相似的新內容。這些語料庫大部分來自互聯網抓取,原始數據的抓取是否合法?如何在人工智能時代實現數據的流通共享與個人信息的保護?本文將以ChatGPT的誕生、發展為切入口,探討ChatGPT沖擊之下如何保護敏感個人信息。
一、ChatGPT的基本概念和技術架構
(一)何為ChatGPT
ChatGPT全稱為“Chat Generative Pre-trained Transformed”,是一款基于GPT-3.5語言模型的聊天機器人。ChatGPT可以處理自然語言,與用戶進行溝通,當用戶輸入指令(Prompt)后,它可以準確理解用戶意圖,根據指令生成或長或短的回答,并可以與其他AIGC聯動,生成圖片、視頻等。ChatGPT不僅可以應用于日常對話,還可以進行語言翻譯、撰寫商業計劃書、法律咨詢和編寫代碼等活動,并且能夠敢于質疑、承認錯誤、拒絕不合理請求,做到與人類流暢且幾乎無差別的交流。20世紀50年代,英國數學家圖靈提出“圖靈測試”,即處于密閉小屋內的測試者通過打字分別與兩個測試對象進行對話,其中一個測試對象是計算機,另一個則是活生生的人,測試者通過不斷提出問題、接收測試對象的回答來判斷小屋外是人還是計算機,如果計算機能夠非常好的模仿人類的回答而讓測試者產生了誤判,則代表通過了“圖靈測試”[1],ChatGPT被認為是如今最接近“圖靈測試”的AI模型。
從ChatGPT輸入和輸出的邏輯來看,ChatGPT是在生成式預訓練變換模型(Generative Pre-Trained Transformer,GPT)的底層技術之上,經由不斷迭代發展而來的。GPT-1、GPT-2、GPT-3以及ChatGPT都是采用Transformer為核心結構的模型,2018年Open AI公司推出的GPT-1,其參數量為1.17億,預訓練數據量約為5GB,而在2020年5月推出的GPT-3,參數量就已達到了驚人的1750億,預訓練數據量約45TB,海量數據通過Transformer的“自注意力機制”(Self Attention)被GPT深度學習,在無監督訓練模式下,得到通用的“預訓練”版本模型。ChatGPT在GPT-3的基礎上,新加入RLHF(Reinforcement Learning from Human Feedback,人類反饋強化學習),通過人工對模型的多個回答進行標注排序,進而形成了無限接近人類自身的回答。
(二)ChatGPT的模型基礎
1. 大規模語言模型
近年來,“大規模預訓練+微調”已經成為深度學習多領域處理目標任務的新范式,預訓練技術需要利用廣泛的文本數據訓練深層網絡結構,并得到一個通用的大規模語言模型(Large Language Model,LLM)。語言模型是自然語言生成式AI的基礎,它要求打造一個核心函數P,這個函數可以根據一個句子前面的所有單詞來計算下一個單詞出現的概率,把這些單詞的概率相乘,如果數值越大,則代表越接近人類的語言。自“神經網絡”概念被提出以來,AI研究人員一直試圖在計算機中打造類人腦神經元的網絡結構,語言模型的提出讓人們開始探索“神經網絡語言模型”(Neural Network Language Model,NNLM)的可能性。
2017年底,Google研究人員發表了里程碑式的論文:《Attention Is All You Need》,提出在機器翻譯上大量采用“自注意力機制”進行深度學習,“自注意機制”疊加所構成的深度網絡也就是目前GPT和Bard等自然語言生成式AI的核心模型——Transformer。“自注意力機制”改變了過去人們在NNLM領域關注輸入要素與輸出要素之間關系的研究方向,將重點放在輸入要素或者輸出要素之間的內在聯系機制上,以此為基礎的AI模型更能從邏輯上理解人類單詞之間的語義關系。同時,正是因為Transformer模型能夠計算出輸入元素之間的關聯,它可以實現不需要標注樣本的自我監督式學習,大大節省了預訓練進行人工標注的金錢和時間成本。這也就是GPT能夠在短短幾年時間內完成迭代,并將1750億參數作為其訓練數據源的原因。
2. 人類反饋強化學習
GPT模型通過Transformer機制可以理解句子中各個單詞之間的邏輯關系,但是純粹基于Transformer機制來進行學習未必能使AI了解人類Prompt真實的意圖,而且給出的答案也未必符合人類社會的公序良俗和語言習慣,Google-BERT和GPT-2就曾經出現過生成有害答案的趨勢,因此ChatGPT在GPT-3的基礎之上加入了新的訓練方法——人類反饋強化學習(RLHF)。
RLHF訓練是通過人工標注好的數據對GPT-3.5模型進行微調(fine-tuned),對模型生成的答案進行打分排序,高質量的答案進行獎勵(reward)、反饋錯誤的答案進行懲罰,使ChatGPT可以模仿人類偏好,經過反復迭代生成更高質量的回答。因此,ChatGPT相較于其他問答式AI有著更強的道德約束性,當被詢問到一些敏感或者超越道德邊界的問題時,ChatGPT基本都能察覺并且回避。但是,雖然ChatGPT通過RLHF進行強化學習,仍然存在生成錯誤或者偏見性答案的情況,并且ChatGPT在前期大規模預訓練中抓取來自不同國家、不同平臺的海量信息,對全球數據安全帶來不小的沖擊。
二、敏感個人信息的概述和保護現狀
(一)敏感個人信息概述
1. 敏感個人信息的界定
在《個人信息保護法》出臺之前,我國并沒有對敏感個人信息的保護作特別規定,也沒有在個人信息中區分一般個人信息和敏感個人信息。《民法典》第1034條原則性地規定了“自然人的個人信息受法律保護”,雖然沒有直接采用敏感個人信息的概念,但在第2款列舉的受法律保護的個人信息中,可以看到身份證件號碼、生物識別信息、健康信息、行蹤信息等實質上屬于敏感個人信息;第3款對“私密信息”作出了規定,私密信息與敏感個人信息存在交叉,所以實質上也增強了對敏感個人信息的保護?!墩餍艠I管理條例》第14條規定征信機構不得采集個人宗教信仰、血型、基因等個人信息,并且在第2款規定不得采集個人收入、存款、有價證券等信息,除非信息主體同意;《最高人民法院關于審理使用人臉識別技術處理個人信息相關民事案件適用法律若干問題的規定》從司法實踐的角度對人臉信息進行保護。由此可見,盡管《個人信息保護法》首次提出“敏感個人信息”的概念并作出了具體、全面的規定,但是之前已經有了立法和實踐的經驗,而且對敏感個人信息的保護一直秉持“告知+同意”的處理原則。
《個人信息保護法》第28條通過“概括+列舉”的方式對敏感個人信息下定義,敏感個人信息是指一旦泄露或者被非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息,包括生物識別、宗教信仰、醫療健康等信息。該概念雖然是從敏感個人信息受到侵害時的認定標準出發對敏感個人信息作出的界定,但也明確了敏感個人信息是與自然人的人格尊嚴或者人身財產安全具有密切聯系的個人信息[2],與一般個人信息進行區分。
2. 敏感個人信息的保護路徑
(1)限定處理敏感個人信息的要件
因為敏感個人信息的特殊性,其處理一方面給信息主體帶來巨大風險,另一方面又具有極高的利用價值和公共價值,因此幾乎沒有國家完全禁止個人信息處理者處理敏感個人信息,只是在立法價值上有所取舍。例如歐盟的《通用數據保護條例》(GDPR)和韓國的《個人信息保護法》都采用的是“一般禁止+例外”的模式;但是我國沒有采取這種模式,而是規定一般個人信息和敏感個人信息都可以處理,但是對敏感個人信息的處理作出特別規定,即必須滿足三要件——特定的目的、充分的必要性、采取嚴格保護措施。
《個人信息保護法》第6條規定:處理個人信息應當具有明確、合理的目的。這是處理個人信息的一般原則性規定,但是處理敏感信息在此基礎上還要求具有“特定目的”。特定目的意味著,個人信息處理者的職業或者活動決定了其能否為某一目的而處理該敏感個人信息[3],例如醫務人員只有在治療患者疾病時才能處理患者的醫療健康信息。
充分的必要性要求信息處理者處理敏感個人信息是實現其特定目的不可或缺的、必不可少的。例如金融理財服務提供者只有掌握了金融賬戶信息才能開展理財活動。相反,如果可以在不收集敏感個人信息的情況下也能實現特定目的,則不滿足此項要求。
敏感個人信息的不當處理極易造成信息主體的人格權益和人身、財產權益受到侵害,因此在滿足特定目的、充分必要性的基礎之上,還需要對敏感個人信息進行嚴格保護。所謂嚴格保護措施主要規定在《個人信息保護法》第五章中,個人信息處理者應當對一般個人信息和敏感個人信息進行分類,并采取加密、去標識化等安全技術措施,在處理敏感個人信息時,應當事前進行評估和記錄處理情況。
(2)敏感個人信息處理中的“特別告知+單獨同意”規則
處理個人信息一般應遵循“告知+同意”規定,但是處理敏感個人信息時,《個人信息保護法》為個人信息處理者強加了“特別告知”義務和取得信息主體“單獨同意”的規定。
《個人信息保護法》第17條規定了個人信息處理者告知義務的“一般規定”,第30條規定處理敏感個人信息時還需要另行告知處理的必要性和對個人權益的影響。一是處理的必要性,并不能由信息處理者自行決定處理是否必要,而是應當要求處理者將信息處理的必要性告知個人,由個人判斷信息處理是否必要;二是對個人權益的理解,個人權益是指個人享有的所有法律上賦予的權利,信息處理者在處理個人敏感信息時對個人權益帶來的或大或小的損害都應及時告知,保障個人的知情權。
“單獨同意”意味著敏感信息的處理同意不能歸入一攬子授權之中,而是應該將敏感個人信息區分開來,單獨告知并取得同意,這才是所謂的“單獨同意”。如果信息處理者將敏感個人信息同意與其他授權進行捆綁,則該同意無效。
盡管法條對“告知+同意”有了明確規定,但是信息不對稱以及市場中消費者與商家地位的不平等,實踐中的“單獨同意”多數情況下流于形式,個人很難理解敏感個人信息帶來的風險并做出選擇,“同意”的作用正在虛化和異化。目前必須針對大數據中越來越普遍的數據采集和信息爬取,完善“告知+同意”規則。
(二)比較法視角下敏感個人信息的保護
敏感個人信息的概念出現較早,20世紀70年代德國黑森州《個人資料保護法》和瑞典《資料法》中就曾出現過敏感資料的概念。但目前普遍認為敏感個人信息的概念濫觴于1980年經濟合作與發展組織(OECD)起草的《隱私保護與個人數據跨境流動準則》(Guidelines on the Protection of Privacy and Transborder Flows of Personal Data,以下簡稱OECD《指南》)。OECD《指南》對敏感個人信息問題進行了探討,但是最終并沒有進行特別規定,因為OECD專家組認為數據的敏感性來源于其所處的環境,因此對何謂敏感數據無法達成共識。
目前世界主要國家都對敏感個人信息作出特別保護,歐盟GDPR使用“特殊類型數據”這一概念;日本《日本個人信息保護法》將其稱為“需注意的個人信息”;美國聯邦層面至今尚未出臺有關個人信息的專門立法[4],只在零散的州法規以及各個行業的軟法中出現。這可能是因為敏感個人數據并不是一個達成普遍共識的法律術語,而且因為新類型敏感數據的層出不窮,其歸入與擇出標準也存在爭議[5]。
歐盟GDPR對個人信息進行了分層處理,一是對一般個人信息的規定,包括種族、政治觀點、宗教信仰等,這些數據可以處理,但是不得泄露;二是個人敏感數據,包括個人基因信息、生物特征信息這種可以識別到特定主體的信息,原則上禁止以識別為目的的處理;三是關于健康數據、性生活、性取向信息原則上禁止處理[6]。美國加利福尼亞州于2020年11月通過《加州隱私法案》(California Privacy Rights Act of 2020,CPRA),將敏感個人信息作為新的個人信息類別并單獨監管,還規定了企業如果計劃收集或使用任何敏感個人信息,必須對個人進行特別通知,并且個人可以要求企業停止出售、共享和使用這些信息。并且在金融領域、通信領域、教育領域都出臺了特定敏感信息法案。
由以上歐美立法經驗可知,相對于一般信息,主要國家和地區的立法中均對敏感個人信息實行強化保護,這種強化保護是指信息處理者在處理有關敏感個人信息問題時,不僅要遵循法律關于一般個人信息使用的規定,而且還要提高注意義務,遵守針對敏感個人信息保護的特別規定,在適用順序上,首先選擇適用敏感個人信息的保護規則。具體規范上,采用“一般禁止+例外”的立法模式,一方面,明確了禁止收集和處理的原則;另一方面,規定了嚴格限定的例外情形。
三、現實沖擊,ChatGPT與敏感個人信息保護之間的矛盾
(一)網絡爬蟲造成的數據爬取合法合規性風險
ChatGPT訓練大型語言模型所使用的數據主要依靠網絡爬蟲技術在互聯網爬取大量信息。根據OpenAI公司公開的文檔顯示,ChatGPT的原始訓練集有至少60%的數據來自互聯網抓取,其來源包括博客平臺、維基百科、獨立網站等,這些數據都是由網絡爬蟲進行技術支撐。網絡爬蟲本質上是一段計算機程序或腳本,它按照一定的邏輯和算法規則自動爬取萬維網信息,并可以自動采集所有其能夠訪問到的頁面數據,還可以對采集到的數據進行后續的挖掘分析[7]。目前,爬蟲技術被廣泛地應用于互聯網搜索引擎或其他網站,比如百度搜索引擎的爬蟲叫百度蜘蛛、360的爬蟲叫360Spider、搜狗的爬蟲叫Sougouspider。
但是,網絡爬蟲有其固有的缺點,特別是針對ChatGPT這種數據需求量巨大的AI模型,數據的采集難免會涉及個人信息,甚至可能是敏感個人信息,這些信息作為ChatGPT訓練集的一部分,被反復迭代學習,構成對敏感個人信息的侵權;而且這種大規模的采集數據也一般不可能滿足敏感個人信息“特別告知+單獨同意”的規定。盡管從OpenAI公開策略來看,其收集信息還是會遵循Robots協議(Robots Exclusion Protocol,爬蟲排除標準),但是Robots協議目前只是一種道德規范和行業標準,并不具有法律效力,且OpenAI目前公布的隱私政策并沒有涉及它在數據采集階段如何保護個人敏感信息,因此ChatGPT收集的訓練數據是否合法有待商榷。
(二)算法黑箱與數據處理透明化之間的矛盾
從一開始,人們制定數據保護法的目的就是構建和限制對個人數據的處理,并使其對數據主體透明。1977年《德國聯邦數據保護法》第3節已經規定了除非有法定依據或者征得了個人的同意,原則上禁止處理個人信息。此后這一數據處理方式得以沿用,并體現在《通用數據保護條例》(GDPR)中。我國《個人數據保護法》在一定程度上借鑒了GDPR,并且在敏感個人信息的處理上有更為嚴格的規定:個人信息處理者不僅要有明確、特定的目的和處理敏感個人信息的充分必要性,還要告知個人處理敏感個人信息的相關事宜并取得個人的單獨同意??傊F行的數據保護法的傳統目標是使數據處理合理化,即只允許在法定基礎上、為特定目的、以透明的方式處理個人數據。用漢堡大學馬里昂·阿爾伯斯(Marion Albers)教授的話說:“整個方式的指導思想是,行動方針的決策過程幾乎完全可以通過法律手段加以預見、規劃和指導。”[8]顯然,人工智能的發展與這一目標相違背。
當前常規的基于機器學習的人工智能通常要求輸入大量用于訓練和測試的數據進行深度學習,最后輸出結果。這種算法運作雖然是由人類編寫,但是機器深度學習的過程卻是人類無法通過外部觀察獲知的,這也就是所謂的“算法黑箱”理論。算法應用于生活的方方面面,算法黑箱作為難以消弭的弊端亦是接踵而來,算法的不透明性和不可解釋性引發開發者和消費者之間的信息不對稱,并帶來算法歧視和偏見[9]。人工智能的開發離不開算法,因此算法黑箱帶來的影響不可避免的波及人工智能領域,其中一個重要體現就是當前人工智能與現行數據保護法的基本理念發生了沖突,特別是ChatGPT采用“自注意力機制”進行深度學習,也就是無監督學習的情況下,即使是程序員,也無法理解人工智能獲得其結果的過程。敏感個人信息處理所需要的透明度與算法黑箱截然相反,《個人信息保護法》關于敏感個人信息的保護面臨著人工智能的部分失控和完全不可控的挑戰。
(三)數據開放與敏感個人信息受保護之間的矛盾
近年來,隨著數字經濟的繁榮,對數據的獲取、共享和使用已經成為增強經濟發展和社會福祉的核心驅動力,數據的大規模流動與傳輸,已經成為經濟全球化背景下每個經濟部門不可或缺的組成部分。在云端儲存大量的個人信息,甚至是敏感信息或關鍵信息,是以信息網絡為主要載體的數字經濟時代發展的必然趨勢。ChatGPT與敏感個人信息保護之間的沖突,集中體現在數據處理方式的沖突,而究其本質,是一種在數字經濟時代,數據越來越頻繁地被采集、流通、共享與敏感個人信息需要受到特殊保護之間的矛盾。
人工智能的發展要求數據傳輸的快速性、信息獲取的便捷性和調取的便利性。這一點也體現在ChatGPT對數據的采集和應用中。而敏感個人數據保護則代表了一種信息領域的保守性。在信息技術和市場的雙重作用下,人們不可避免地被卷入數字的洪流,但是不能由此倒因為果的推斷出人們愿意為了數據的開放犧牲自身的敏感信息[10],正相反的是,數字經濟越發展,個人信息保護的問題就越受到人們的關注與強調。實現信息開放與信息保護之間的平衡,不僅需要ChatGPT提高信息處理的透明度,也有賴于相關立法政策的出臺以及政府的監管。
四、路徑探索,ChatGPT時代敏感個人信息的保護
(一)規范ChatGPT網絡爬蟲信息采集方式
ChatGPT運用網絡爬蟲采集原始訓練庫中的數據,目前飽受合法性的爭議。筆者認為,規范網絡爬蟲信息采集行為,一方面需要OpenAI公司規范ChatGPT的網絡爬蟲技術;另一方面需要數據被爬取方,即數據權利方積極采用“反爬”策略。
網絡爬蟲作為一種利用邏輯和算法自動爬取互聯網信息的計算機程序,想要保持其技術上的中立性,需要法律對其進行合法性限定[11]。首先,網絡爬蟲應保證只針對開放數據爬取,這不僅要求爬取對象上,網絡爬蟲不能采集具有非公開特性的敏感個人信息,也體現在技術手段上不能具有明顯的侵入性;其次,使用網絡爬蟲應當基于明確、合理的目的,ChatGPT官方可以公開其信息采集的目的、方式、手段、采集到的信息如何利用、保護等,在證明其網絡爬蟲技術符合法律規定的同時,緩解公眾對于信息安全問題的擔憂。
當然,避免敏感個人信息被不當爬取不僅需要數據爬取方規范網絡爬蟲的應用,也需要數據被爬取方積極運用“反爬”策略。其一,因為OpenAI公司表示其會遵從Robots協議,因此可能會被ChatGPT網絡爬蟲爬取的網站、特別是內含敏感個人信息的網站,可以充分利用Robots協議,引導或限制網絡爬蟲的爬取行為。其二,利用User-Agent限制網絡爬蟲,User-Agent指的是用戶在訪問網站時所使用的客戶端種類和版本[12],相當于客戶端向網站站點表明身份的一種標識,知名的爬蟲都有其固定的User-Agent,可以通過設置User-Agent黑名單來限制網絡爬蟲的訪問。
(二)打開黑箱,提高ChatGPT數據處理透明度
過去幾年,人工智能的不透明性已經成為一個顯要的政治和社會議題。隨著人工智能對社會的影響逐步加深,公眾越發認為那些監管、使用或受人工智能影響的人們應該對這項技術有足夠的了解。打開黑箱對于識別侵犯用戶敏感個人信息、發現偏見和防止其他潛在危害是必不可少的。目前各國紛紛出臺政策和立法文件,確立人工智能透明度的目標。然而,我們也應該認識到的是,“完全”透明是不可能的、也不可取的。提高人工智能透明度的價值在于產生知識和引發有關技術的辯論,激發個人對基于人工智能的決策提出疑問,并從長遠來看將加強社會對新技術的接受[11]。
從這個角度出發,我們應該對透明度有一個更廣度的認知??评飦喫梗–ary Coglianese)認為算法透明包含兩種:“魚缸型透明”(fishbowl transparency)和“原因型透明”(reasoned transparency),前者是指公開數據的源代碼、數據訓練集等;后者指公開算法工作的原理,強調公開信息的實用性,在實踐中,公開算法原理更具有可行性,它既可以提高公眾對于人工智能的了解,又能保護公司的知識產權。其二,將算法披露與解釋權結合起來,這種解釋是一種嵌入制度環境中的社會實踐,即公民可以了解到人工智能決策的依據、產生的影響、以及明確可以啟動司法程序捍衛自己的權利。
打開黑箱對于識別侵犯用戶敏感個人信息的行為是必不可少的,ChatGPT引發的對侵犯敏感個人信息的質疑和恐慌一定程度上來源于社會普遍對于人工智能興起的無知和被剝奪公民權的感受。因此,一方面,為了消除這些不利影響,ChatGPT官方應當定期公布其保護敏感信息的隱私政策,包括信息保護算法原理、實踐情況以及用戶反饋,并根據現實情況不斷進行調整;另一方面,ChatGPT官方以及各國行政或司法機關也應及時告知公民可以依據ChatGPT侵犯公民敏感個人信息的行為提起司法訴訟,保障公民的敏感個人信息保護權得到救濟。
(三)建立全鏈條監管和問責機制
ChatGPT的沖擊暴露了現實中敏感個人信息保護的不足,一方面體現在對人工智能監管的缺失,無法從事前和事中避免人工智能給敏感個人信息帶來的不利影響;另一方面則體現在法條理論與實踐的脫節,法條內容流于形式,無法很好地指導實踐。
首先,從國家層面,需要建立事前、事中和事后的全鏈條監管。具體而言:第一,確立對人工智能事前監管模式。歐盟最早將人工智能的監管由理論邁向實踐,2021年4月,歐盟委員會頒布全球首部《人工智能法案》,確立以技術風險分級為核心的監管模式[13],對于高風險的人工智能,歐盟要求供應商在投入市場前提交評估報告,如果提交的目的或性質有根本改變則需要重新評估[14];目前我國沒有針對人工智能的專門立法,關于數據算法或者人工智能的主要規定分散在《網絡安全法》《數據安全法》《個人信息保護法》以及一些零散的政策文件中,因此可以借鑒歐盟的立法路徑,建立專門的人工智能法案,規定涉及敏感信息安全問題的人工智能投入市場前進行評估備案。第二,對人工智能進行事中、事后監管,可以參考《個人信息保護法》中第六章的規定,國家網信部門負責敏感個人信息保護監管工作,完善敏感個人信息保護投訴、舉報機制,對風險較大的個人信息處理者進行約談①。目前,ChatGPT并沒有進入中國市場,但是諸如阿里巴巴、百度等國內互聯網公司已開始著手研發類ChatGPT系統。建立全生命周期監管機制,不僅可以預防有朝一日ChatGPT進入中國后帶來的問題,也可以避免投入市場的類ChatGPT系統脫離法治軌道。
其次,建立問責評估體系,使法條規定能夠落實到實踐,例如“特別告知+單獨同意”規則的完善。告知義務是信息主體知情權的基礎,告知義務后續的責任應貫穿于信息收集和使用的全部環節[15]。目前被合法獲取的敏感個人信息可能被ChatGPT采集并“二次使用”,但卻并沒有取得信息主體的同意,這也是目前該規則飽受爭議的重要原因。對此,應加強對初步信息處理者的問責制度,防止其在履行完特別告知義務后進入“免責”狀態,或者在發生敏感個人信息泄露事件時將責任轉嫁第三方;同時,也可以加入獨立的第三方機構進行評估,確保敏感個人信息處理者在合乎規范的閾值內運行。
五、結語
人工智能的前進與發展已然勢不可擋,在ChatGPT發布短短幾個月后,2023年3月15日凌晨,GPT-4橫空出世,它擁有比ChatGPT更強大的圖片識別能力和推理能力,使科技的發展邁向了不可預測的新階段。我們必須認識到,內容生成式AI的發展不可能被按下暫停鍵或倒退鍵,但它們帶來的敏感個人信息安全問題卻不可能在短時間內消弭,而這些沖突的背后是大數據時代不可避免的數據流通與信息保護之間的矛盾,因此需要不斷平衡技術創新與傳統信息保護領域之間的關系。這一方面要求規范網絡爬蟲信息采集行為、提高人工智能透明度以滿足法律和社會倫理的需要;另一方面也要建立全生命周期的監管和問責制度,警惕人工智能的失控。使未來人工智能的發展不是潘多拉的魔盒,而是通往未來世界的一把鑰匙。
注 釋:
① 參見《個人信息保護法》第60條、62條、64條。
參考文獻:
[1] 馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J].語言戰略研究,2023,8(2):20-24.
[2] 王利明.敏感個人信息保護的基本問題——以《民法典》和《個人信息保護法》的解釋為背景[J].當代法學,2022,36(1):3-14.
[3] 程嘯.個人信息保護法理解與適用[M].北京:中國法制出版社,2021:267.
[4] 楊合慶.中華人民共和國個人信息保護法釋義[M].北京:法律出版社,2022:85.
[5] 王苑.敏感個人信息的概念界定與要素判斷——以《個人信息保護法》第28條為中心[J].環球法律評論,2022,44(2):85-99.
[6] 中國信息通訊研究院互聯網法律研究中心.個人信息保護立法研究[M].北京:中國法制出版社,2021:222.
[7] 賈寧.大數據爬取、清洗與可視化教程[M].北京:中國工信出版集團,2021.
[8] [德]托馬斯·威施邁耶,蒂莫·拉德馬赫,編,韓至旭,李輝,等,譯.人工智能與法律的對話[M].上海:上海人民出版社,2020:39.
[9] 吳椒軍,郭婉兒.人工智能時代算法黑箱的法治化治理[J].科技與法律(中英文),2021,1(1):19-28.
[10] 彭岳.跨境數據隱私保護的貿易法維度[J].法律適用,2022(6):16-28.
[11] 蘇青.網絡爬蟲的演變及其合法性限定[J].比較法研究,2021,175(3):89-104.
[12] 胡俊瀟,陳國偉.網絡爬蟲反爬策略研究[J].科技創新與應用,2019(15):137-138+140.
[13] 劉軒,陳海彬.人工智能監管:理論、模式與趨勢[J/OL].[2023-03-17].情報理論與實踐:1-9http://kns.cnki.net/kcms/detail/11.1762.G3.20230316.0934.002.html.
[14] 鄧建鵬,朱懌成.ChatGPT模型的法律風險及應對之策[J/OL].[2023-03-17].新疆師范大學學報(哲學社會科學版),2023(5):1-11.
[15] 范海潮,顧理平.探尋平衡之道:隱私保護中知情同意原則的實踐困境與修正[J].新聞與傳播研究,2021,28(2):70-85+127-128.
作者簡介:張煒羿(1999- ),女,山東濰坊人,對外經濟貿易大學法學院碩士研究生,研究方向為數據法學、個人信息保護法。