加拿大擬對人工智能語料來源立法

2024-10-21 00:00:00劉秉軍

檢察風云 2024年15期

為促進生成式人工智能的發展，應當豁免模型訓練階段所獲語料的版權責任，但也應審慎考量版權方保護問題。

對于人工智能科技公司來說，當前一種通行的運營方式是從網絡上抓取現成的信息數據作為語料，用于生成式人工智能模型的訓練及內容輸出。隨著人工智能技術應用的不斷發展和普及，內容生產者的反應日益強烈。近日，加拿大各主要新聞機構就此對美國開放人工智能研究中心（OpenAI）提起訴訟。加拿大國會眾議院醞釀推動立法，規制人工智能科技公司獲取數據作為語料的行為。

人工智能公司頻遇訴訟

2024年11月底，加拿大多家主要新聞機構指控OpenAI未經許可抓取媒體發表的文章，用于聊天生成預訓練轉換器（ChatGPT）。參與起訴的原告方包括《多倫多星報》及該集團旗下的大都會媒體公司、《環球郵報》媒體集團和加拿大廣播公司等具有廣泛影響的加拿大傳媒巨頭。這些新聞機構指控OpenAI侵犯著作權，在網絡上抓取大量由媒體生產出的內容，并利用這些內容獲利。

《環球郵報》刊發的相關聲明稱：“新聞報道服務于公共利益。OpenAI利用已成文的新聞報道獲取商業利益的行為不符合公共利益，屬于非法行為。”《多倫多星報》集團首席執行官尼爾·奧利弗在發送給全體員工的備忘錄中寫道：“科技公司竊取我們生產的內容，我們不會坐視不理。雖然我們要擁抱技術創新帶來的機遇，但所有參與者都必須遵守法律。我們的知識產權必須得到合理使用。”

據英國《衛報》報道，一系列訴訟可能讓OpenAI付出巨大代價。《多倫多星報》等新聞機構要求OpenAI為每一篇其非法抓取用于訓練ChatGPT的文章支付2萬加拿大元（約合1.47萬美元）。相關訴訟的索賠總額高達數十億美元。

這不是人工智能科技公司首次面對有關新聞著作權的訴訟。近來，內容版權方針對人工智能科技公司發起多起訴訟。2024年10月21日，媒體大亨默多克旗下新聞集團的子公司道瓊斯和《紐約郵報》對Perplexity公司提起訴訟，指控這家人工智能初創公司非法復制大量版權作品。

成立兩年多的Perplexity公司為用戶提供人工智能聊天機器人，它可以總結搜索結果，列出答案的引用來源，并幫助用戶優化查詢到的信息，以得出最佳答案。鑒于Perplexity公司在搜索領域的亮眼表現，外界認為該公司或將沖擊由谷歌主導的搜索引擎市場。

道瓊斯和《紐約郵報》指控稱，為了搶占市場，Perplexity公司非法利用出版商生產的內容獲取利益，該公司必須為此進行賠償。

在此之前，美國《紐約時報》曾以侵犯版權為由對OpenAI提起訴訟，要求其停止使用《紐約時報》刊發的內容（主要為在線內容）訓練人工智能模型，刪除已收集到的語料數據，并作出賠償。

對“合理使用”有不同理解

面對接踵而至的訴訟，OpenAI否認相關指控，并針對美國和加拿大新聞機構發表聲明稱：“我們的模型以公開數據為基礎，以公平使用原則和相關國際版權原則為依據。我們對創作者是公平的，而且這是支持創新的舉措。”OpenAI還表示，對遭遇訴訟感到“驚訝和失望”，公司可以就版權問題與新聞機構進行“建設性談判”。

Perplexity公司對新聞機構和出版商示好，表示愿意開展合作。該公司為此推出了“出版商收入共享計劃”。根據該計劃，當新聞媒體和出版商生產的內容被人工智能生成的答案引用時，Perplexity公司將分享一定比例的廣告收益。

英國《衛報》指出，人工智能科技公司讓出小部分利益，難以滿足內容生產方的版權訴求——一些生成式人工智能業內人士也是這樣認為的。人工智能公司Stability AI的高管埃德·雷克斯在接受采訪時就指出，人工智能科技公司建立并運營生成式人工智能模型，依賴三種關鍵資源——人員、計算系統和語料數據。很多公司在前兩者上投入巨資，有些工程師年薪超過100萬美元，一些計算系統的成本超過10億美元。然而，人工智能科技公司普遍沒有針對語料數據進行大規模投資，甚至希望一直免費獲取語料。

人工智能科技公司忽略了創作語料的機構和個人。公司通常解釋說，其做法受到版權法“合理使用”條款的保護。但是，作為內容生產者，新聞機構和出版商對“合理使用”的理解與科技公司不同。隨著人工智能技術應用的不斷發展和普及，內容生產者傾向于發起反擊。

加拿大國會醞釀相關立法

據加拿大《多倫多星報》報道，加拿大國會眾議院下屬的工業、自然資源和科學技術委員會，近日發布了討論立法規制生成式人工智能語料來源的報告。

該委員會認為，生成式人工智能模型訓練階段的版權責任問題，涉及版權保護、激勵創作及技術創新、產業發展等多重價值目標，無疑需要科學合理的制度設計。從國際競爭的角度看，為了促進生成式人工智能的產業和技術發展，應當豁免模型訓練階段所獲語料數據的版權責任。但是，也應審慎考量如何設計搭建具有實操性的版權方保護機制。

目前針對“生成式人工智能模型訓練語料來源”存在成文法規定的國家和地區，具有代表性的是日本、美國和歐盟。三者原則上都豁免模型廠商事前獲得著作權人授權的義務，即不必得到著作權人的明確授權。但是，對著作權人給予一定的保護也是相關法律法規的必備條款。報告認為，加拿大應避免采用日本的“寬松模式”和歐盟的“從緊模式”，而應傾向于采用與美國類似的模式。

日本2018年修訂著作權法，加入“非欣賞性利用”條款。該條款不區分商業利用和非商業利用情形，豁免了生成式人工智能模型獲取語料的責任，規定了“但書條款”——不得對版權人的利益造成不當損害。日本文化審議會著作權分會的相關解釋指出，如果版權人主動采取技術保護措施，以防止自身作品被用于生成式人工智能，而人工智能科技公司規避這類技術措施獲取語料，即屬違法。

2024年3月13日，歐洲議會批準施行新版人工智能法案，其中關于生成式人工智能模型所用語料版權責任的規定有三項：一是模型所獲語料的版權責任豁免，前提是廠商合法獲取相關作品；二是對于以商業利用為目的語料獲取行為，版權方享有事前獲知權；三是廠商須制定相應的規則，以識別以商業利用為目的語料獲取行為，從而確保第二項規定的執行。

歐盟的上述規定對于人工智能科技公司來說較為嚴格。2024年3月，谷歌公司就因在訓練Gemini產品時違反相關規定，被法國競爭管理局處以2.5億歐元罰款。

加拿大傾向于采用類似美國的規制模式，即重點關注人工智能模型獲取語料是否符合“合理使用”原則。2023年9月25日，美國特拉華州地方法院審結了美國首起人工智能版權侵權案。法院傾向于支持“復制版權作品用于訓練人工智能模型”構成“合理使用”，即符合“轉換性使用”中的“中間復制”標準。但其前提是：相關模型僅是學習現成作品中的自然語言模式及相關性等，然后根據用戶提問，輸出不同于原語料作品的新內容。如果相關模型只將原作品復制并存儲，然后以類似檢索工具的方式根據用戶提問輸出與原作品相同的內容，則不屬于“合理使用”的范疇。

編輯：姚志剛" " winter-yao@163.com