文/胡靜 張鈺坤 編輯/王亞亞
ChatGPT(Chat Generative Pre-trained Transformer)本身并非一個外顯的前端產品,而是使用Transformer神經網絡架構、基于大量預訓練自然語言處理模型,在多種任務類型上對自然語言進行微調,從而生成高質量自然語言文本的聊天機器人或技術應用。該產品由美國OpenAI公司于2022年11月30日發布,隨后引起全球關注。ChatGPT在問答、客戶服務、教育輔導、娛樂、自動化任務、文書翻譯等各個方面的優異表現引起了全球范圍內對其技術、倫理、合規性的大范圍討論。
2022年12月,為加快構建數據基礎制度,充分發揮我國海量數據規模和豐富應用場景優勢,激活數據要素潛能,做強做優做大數字經濟,《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》正式發布。作為當下我國市場經濟發展進程中的新型生產要素,數據要素是數字化、網絡化、智能化的基礎,它不僅快速融入生產、分配、流通、消費和社會服務管理等各環節當中,而且深刻改變著生產方式、生活方式和社會治理方式。ChatGPT是近年來影響范圍最大的標志性技術,作為分析“數據要素”與“合規”之間關系的切入點,筆者擬探討以數據作為生產要素的新興技術在我國現行法律體系下的合規風險以及相關啟示。
作為信息載體,數據具有流動性,并在其流動過程中進一步發揮價值。數據全生命周期的流程同樣適用于ChatGPT對數據的處理。從法律角度,還原ChatGPT工作原理,有助于判斷其合規風險。
ChatGPT工作原理如下:一是在預先訓練階段,ChatGPT通過學習大量的文本語料來構建語言模型。這些語料包括各種文本,如新聞、小說、博客等。通過對語料的學習,ChatGPT可以捕捉語言的語法、語義和慣用法。二是預處理,ChatGPT的輸入是自然語言文本,因此需要進行一些預處理,例如分詞、詞干提取、停用詞去除等,以便模型可以更好地理解文本的含義。三是建立模型,ChatGPT是一種基于深度學習的預訓練語言模型,它使用了多層的Transformer網絡,并在大規模文本數據上進行了預訓練。模型的輸入是一個文本序列,輸出是一個概率分布,表示在當前上下文中下一個詞的出現概率。四是微調模型,開發者需要提供一個特定領域的文本數據集,例如對話數據、問答數據等,在此基礎上對ChatGPT模型進行微調。微調的目的是讓模型更好地適應特定的任務和領域,如回答特定問題、支持客戶服務等。五是生成文本,在得到微調后的ChatGPT模型之后,可以使用其來生成自然語言文本。輸入一個上下文序列,模型會輸出一個概率分布,表示在此上下文中下一個詞的出現概率,開發者可以根據需求選擇概率最高的詞作為下一個詞,不斷生成文本,直到達到預定的長度或滿足特定條件。
所有互聯網信息服務產品都有其預設的使用場景及使用功能。基于ChatGPT技術所設計的服務提供形式為對話(Chat),目前ChatGPT主要應用場景及功能如下:
一是問答系統。ChatGPT可以用于構建智能問答系統,如智能客服、智能助手等。用戶可以通過輸入問題來獲取答案,ChatGPT會根據問題進行推理,給出最相關的答案。
二是文本生成。ChatGPT可以用于生成各種類型的文本,如文章、摘要、標題等。開發者可以通過微調ChatGPT模型來控制生成的文本風格和內容。
三是機器翻譯。ChatGPT可以用于機器翻譯,例如將一種語言的文本翻譯成另一種語言的文本。機器翻譯需要大量的語言模型和語料庫,ChatGPT可以通過微調來適應不同的語言和領域。
四是語音識別。ChatGPT可以用于語音識別,如將音頻文件轉換成文本。語音識別需要對語音信號進行預處理和特征提取,ChatGPT可以通過微調來適應不同的語音信號和語音場景。
五是情感分析。ChatGPT可以用于情感分析,如自動判斷一段文本的情感傾向。情感分析需要對文本語義進行理解和分析,ChatGPT可以通過微調來適應不同的情感表達和語境。
由此可見,目前ChatGPT適用的應用場景,主要是通過文本內容輸出的形式提供服務。通常來說,人工智能是指能夠在有限的或沒有人類干預的情況下,自行執行被認為需要人類智慧的任務的機器和系統。而與之對應的,人工智能生成內容(Artificial Intelligence Generated Content,AIGC),泛指運用人工智能技術生成的內容,包括人工智能技術直接生成的內容,以及在人工智能技術直接生成的內容的基礎上,后期經過人為修改后最終形成的內容。ChatGPT生成的內容屬于AIGC。
一是算法合規。近年來,推薦算法逐漸成為數據合規領域的一個重要問題,呈現于各類法律實踐以及社會實踐當中。2021年12月,國家互聯網信息辦公室聯合工業和信息化部、公安部、市場監管總局發布《互聯網信息服務算法推薦管理規定》(下稱《算法推薦管理規定》)。根據《算法推薦管理規定》第二條第二款規定,“應用算法推薦技術,是指利用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等算法技術向用戶提供信息。”基于對上述規定的文理解釋,ChatGPT所應用的生成合成類算法技術無疑屬于算法推薦技術之一,根據《算法推薦管理規定》的要求,ChatGPT及同質產品需滿足算法審核評估、顯著標識、算法可解釋、內容審查、確保用戶自主決定權、備案及安全評估等方面的合規要求。
根據《算法推薦管理規定》的要求,ChatGPT及同質產品需滿足算法審核評估、顯著標識、算法可解釋等方面的合規要求。
根據我國2023年1月10日正式實施的《互聯網信息服務深度合成管理規定》(下稱《深度合成規定》)第二十三條第一款規定,“深度合成技術,是指利用深度學習、虛擬現實等生成類算法制作文本、圖像、音頻、視頻、虛擬場景等網絡信息的技術。”ChatGPT通過大量訓練數據開展算法訓練,采用深度神經網絡來學習語言的結構和規則,從而能夠生成自然流暢的文本和語句,這一工作原理與上述規定相吻合。依據《深度合成規定》,企業在通過ChatGPT及同質產品直接或間接提供服務時,應當履行算法合規義務。目前,《深度合成規定》中所規定的合規義務包括但不限于信息安全主體責任、個人信息保護義務、內容審核義務、訓練數據管理義務、算法定期評估義務等。
二是個人信息保護。《個人信息保護法》是我國關于個人信息主體及其個人信息權益保障的首要法律。從個人信息保護合規的角度來看,ChatGPT的主要合規風險包括個人信息權益響應風險以及數據來源風險。ChatGPT基本功能是聊天及對話,這一強大功能來自算法訓練,在訓練過程中將不可避免地涉及對用戶聊天信息等隱私個人信息的收集,也難以避免使用用戶聊天記錄進行算法訓練。結合“算法黑箱”的特性,用戶在使用ChatGPT過程中所提供的個人信息上附著的個人信息法定權益,如撤回、修改、刪除的權利等,將難以得到保障。在ChatGPT對于用戶個人信息的收集與處理的場景下,這些個人信息不僅作為單次服務本身的基礎要素,也會被用于對算法的訓練。這些個人信息的權益響應、響應模式以及消散在網絡空間中的個人信息所附著的權益,現階段都難以通過有實質性幫助的便捷方式得到保障。
此外,ChatGPT還面臨著數據來源的合規性風險。ChatGPT中所內生的算法需要通過大量的訓練數據“滋養”從而達到最終效果,其訓練數據中涉及的“個人信息”的處理和使用也存在違反我國《個人信息保護法》中的“最小必要”原則要求的風險。
三是著作權保護。著作權的歸屬問題是ChatGPT問世之后,首先進入視野并受到大范圍討論的問題。我國《著作權法實施條例(2013修訂)》第二條規定:“著作權法所稱作品,是指文學、藝術和科學領域內具有獨創性并能以某種有形形式復制的智力成果。”根據該條款,AIGC是否屬于著作權法意義上的作品,還是需要從其本質出發進行分析。對此,學界以及實踐中眾說紛紜,就基本判斷標準而言,AIGC只有在滿足獨創性、有形性、可復制性與智力成果四個要件的情況下才能構成著作權法所保護的作品。目前AIGC的構成要件爭議主要圍繞在“創作主體是否滿足關于作者的主體要求”以及“內容本身是否滿足獨創性要素”兩者上。在我國著作權法中,作品必須滿足人類為創作主體的要求,在AIGC場景下,人類參與創作的成分越少,則越難以被定義為作品,反之,則越容易被界定為是作品。
此外,就訓練數據的合規性而言,訓練數據庫還需要避免侵害第三方著作權。因為此類算法訓練難以避免地涉及使用大量受到著作權法保護的作品,該等訓練數據合規性所造成的著作權侵權風險,包括但不限于:(1)生成物的復制權、改編權、署名權風險。目前我國對合理使用仍采取封閉模式規制,并未承認文本挖掘構成合理使用,因此文本挖掘可能侵犯文字作品的復制權、改編權、署名權等著作權。(2)數據來源的訓練素材侵害第三方著作權之風險。著作權侵權、改編權、匯編權等二次創作許可都是ChatGPT運用場景下對于公開數據抓取的潛在風險。(3)著作權歸屬風險。目前,對于AIGC的著作權歸屬尚未出現明確的定論,大批量或者專業使用ChatGPT或同類技術生成“作品”可能面臨權屬不明的合規風險。
AIGC只有在滿足獨創性、有形性、可復制性與智力成果四個要件的情況下才能構成著作權法所保護的作品。
四是反壟斷風險。目前,根據學界以及實務界的討論,以ChatGPT為代表的算法技術應用所可能涉及的潛在反壟斷風險主要有兩類。一是算法價格歧視造成的超級平臺壟斷,用消費者數據進行消費習慣分析,其目的在于對交易相對方(消費者)采取有針對性的算法壟斷定價。二是人工智能達成壟斷協議,即價格算法合謀。這種價格算法合謀主要包括明示價格算法合謀、默示價格算法合謀、虛擬合謀三種主要類型,明示價格算法合謀是指經營者通過明示的協商溝通,就價格算法達成合謀以期實現價格壟斷,價格算法是實現與維持合謀之工具;默示價格算法合謀是指經營者之間不存在明示的意思聯絡,而通過認可相互之間的依賴性以實現和維持合謀,價格算法則是經營者認可相互依賴性的關鍵工具;虛擬合謀是指即便經營者并無合謀意圖,其采用的價格算法會在無需人為干預的狀態下進行高效的反復試驗,最終達成經營者之間的合作性均衡,實現合謀的效果而損害消費者利益。
五是其他風險。ChatGPT還可能涉及到內容合規風險,即ChatGPT生成的內容可能包含違法信息的答復,這將對內容審核提出較高要求。同時,未成年人保護問題也不可忽視,未成年人保護義務是國際環境中公認的重點事項。從個人信息處理到內容產出,我國現行有效立法對于未成年人的相關保護亦具有較高要求的合規義務。此外,也可能存在反不正當方面的合規風險。目前,數據背后所代表的企業合法利益以及商業價值正逐漸被法律界認可。《反不正當競爭法》的最新修訂草案征求意見稿中指出,經營者不得以不正當的方式獲取或者使用經營者的商業數據。因此,圍繞爬蟲技術以及機器人流程自動化技術為基礎的數據來源合規性,勢必成為大量訓練數據的主要合規風險點之一。
包括ChatGPT在內的人工智能產品合規之路任重道遠。盡管我國目前尚無國家層面上的人工智能產業立法,但地方已經有相關的立法嘗試,如《深圳經濟特區人工智能產業促進條例》《上海市促進人工智能產業發展條例》。隨著人工智能技術的不斷發展,我國相關法律規定也將逐步完善。
結合上文所述的以ChatGPT為代表的人工智能技術在應用層面的潛在法律風險,筆者對市場主體開展類ChatGPT業務有以下合規指導建議:
一是在人工智能項目開展前期就進行風險控制。人工智能技術使用者可以通過定向邀請、局部試點的方式,采取“用戶體驗計劃”等靈活形式開展相關項目,以確保使用的人工智能技術/服務能夠得到充分測試,幫助企業發現可能涉及的合規/技術問題,并做到一定程度的成本控制。根據《算法推薦管理規定》,開展算法進行動態自評估是我國現行規范下的合規要求。在算法遞進升級或者業務方向調整的過程中,公司宜設立相關的算法定期評估機制,以保證對于合規風險的及時識別以及有效處理。
二是針對外部供應商,公司可采取協議控制措施以及開展技術檢測,以有效防范合規風險。在各類業務或者服務采購當中,對于數據合規或上述顯著合規風險的協議控制都將是直觀有效的風險控制手段。此外,技術層面的網絡安全或者數據安全檢測,也可以很好地從實踐層面保證公司在人工智能業務開展過程中不會因供應商的服務、質量問題而導致項目合規風險敞口明顯擴大。
三是對于用戶端,企業關于人工智能技術應用的風險提示以及隱私提示必不可少。在特定的功能場景以及頁面下,顯著、明確、合法、有效的風險提示以及隱私提示,也是《算法推薦管理規定》明確規定的合規舉措。
四是企業可對數據來源的合規性予以把控,并定期開展合規性評估。為滿足特定業務開展所需的訓練數據,公司可對數據來源設置控制機制以及合規評審制度,并從多個角度出發,對于數據類型、數據來源主體、數據獲取方式、數據獲取頻率、數據獲取量級進行綜合評估,從而避免該等風險敞口的不合理擴大。
五是若涉及境外人工智能業務的開展,公司需要充分考慮境外特定業務覆蓋區域的法規、風俗、道德與國內的差異,包括在特定數據處理方面的規定。此外,在人工智能技術服務提供過程中,企業需要充分考慮境外關于性別、年齡、地域、學歷、種族等多樣性因素,并配套個人信息保護、數據安全、網絡安全的制度搭建。