為促進生成式人工智能的發展,應當豁免模型訓練階段所獲語料的版權責任,但也應審慎考量版權方保護問題。
對于人工智能科技公司來說,當前一種通行的運營方式是從網絡上抓取現成的信息數據作為語料,用于生成式人工智能模型的訓練及內容輸出。隨著人工智能技術應用的不斷發展和普及,內容生產者的反應日益強烈。近日,加拿大各主要新聞機構就此對美國開放人工智能研究中心(OpenAI)提起訴訟。加拿大國會眾議院醞釀推動立法,規制人工智能科技公司獲取數據作為語料的行為。
2024年11月底,加拿大多家主要新聞機構指控OpenAI未經許可抓取媒體發表的文章,用于聊天生成預訓練轉換器(ChatGPT)。參與起訴的原告方包括《多倫多星報》及該集團旗下的大都會媒體公司、《環球郵報》媒體集團和加拿大廣播公司等具有廣泛影響的加拿大傳媒巨頭。這些新聞機構指控OpenAI侵犯著作權,在網絡上抓取大量由媒體生產出的內容,并利用這些內容獲利。
《環球郵報》刊發的相關聲明稱:“新聞報道服務于公共利益。OpenAI利用已成文的新聞報道獲取商業利益的行為不符合公共利益,屬于非法行為。”《多倫多星報》集團首席執行官尼爾·奧利弗在發送給全體員工的備忘錄中寫道:“科技公司竊取我們生產的內容,我們不會坐視不理。雖然我們要擁抱技術創新帶來的機遇,但所有參與者都必須遵守法律。我們的知識產權必須得到合理使用。”
據英國《衛報》報道,一系列訴訟可能讓OpenAI付出巨大代價。《多倫多星報》等新聞機構要求OpenAI為每一篇其非法抓取用于訓練ChatGPT的文章支付2萬加拿大元(約合1.47萬美元)。相關訴訟的索賠總額高達數十億美元。
這不是人工智能科技公司首次面對有關新聞著作權的訴訟。近來,內容版權方針對人工智能科技公司發起多起訴訟。2024年10月21日,媒體大亨默多克旗下新聞集團的子公司道瓊斯和《紐約郵報》對Perplexity公司提起訴訟,指控這家人工智能初創公司非法復制大量版權作品。
成立兩年多的Perplexity公司為用戶提供人工智能聊天機器人,它可以總結搜索結果,列出答案的引用來源,并幫助用戶優化查詢到的信息,以得出最佳答案。鑒于Perplexity公司在搜索領域的亮眼表現,外界認為該公司或將沖擊由谷歌主導的搜索引擎市場。
道瓊斯和《紐約郵報》指控稱,為了搶占市場,Perplexity公司非法利用出版商生產的內容獲取利益,該公司必須為此進行賠償。
在此之前,美國《紐約時報》曾以侵犯版權為由對OpenAI提起訴訟,要求其停止使用《紐約時報》刊發的內容(主要為在線內容)訓練人工智能模型,刪除已收集到的語料數據,并作出賠償。
面對接踵而至的訴訟,OpenAI否認相關指控,并針對美國和加拿大新聞機構發表聲明稱:“我們的模型以公開數據為基礎,以公平使用原則和相關國際版權原則為依據。我們對創作者是公平的,而且這是支持創新的舉措。”OpenAI還表示,對遭遇訴訟感到“驚訝和失望”,公司可以就版權問題與新聞機構進行“建設性談判”。
Perplexity公司對新聞機構和出版商示好,表示愿意開展合作。該公司為此推出了“出版商收入共享計劃”。根據該計劃,當新聞媒體和出版商生產的內容被人工智能生成的答案引用時,Perplexity公司將分享一定比例的廣告收益。
英國《衛報》指出,人工智能科技公司讓出小部分利益,難以滿足內容生產方的版權訴求——一些生成式人工智能業內人士也是這樣認為的。人工智能公司Stability AI的高管埃德·雷克斯在接受采訪時就指出,人工智能科技公司建立并運營生成式人工智能模型,依賴三種關鍵資源——人員、計算系統和語料數據。很多公司在前兩者上投入巨資,有些工程師年薪超過100萬美元,一些計算系統的成本超過10億美元。然而,人工智能科技公司普遍沒有針對語料數據進行大規模投資,甚至希望一直免費獲取語料。

人工智能科技公司忽略了創作語料的機構和個人。公司通常解釋說,其做法受到版權法“合理使用”條款的保護。但是,作為內容生產者,新聞機構和出版商對“合理使用”的理解與科技公司不同。隨著人工智能技術應用的不斷發展和普及,內容生產者傾向于發起反擊。
據加拿大《多倫多星報》報道,加拿大國會眾議院下屬的工業、自然資源和科學技術委員會,近日發布了討論立法規制生成式人工智能語料來源的報告。
該委員會認為,生成式人工智能模型訓練階段的版權責任問題,涉及版權保護、激勵創作及技術創新、產業發展等多重價值目標,無疑需要科學合理的制度設計。從國際競爭的角度看,為了促進生成式人工智能的產業和技術發展,應當豁免模型訓練階段所獲語料數據的版權責任。但是,也應審慎考量如何設計搭建具有實操性的版權方保護機制。
目前針對“生成式人工智能模型訓練語料來源”存在成文法規定的國家和地區,具有代表性的是日本、美國和歐盟。三者原則上都豁免模型廠商事前獲得著作權人授權的義務,即不必得到著作權人的明確授權。但是,對著作權人給予一定的保護也是相關法律法規的必備條款。報告認為,加拿大應避免采用日本的“寬松模式”和歐盟的“從緊模式”,而應傾向于采用與美國類似的模式。
日本2018年修訂著作權法,加入“非欣賞性利用”條款。該條款不區分商業利用和非商業利用情形,豁免了生成式人工智能模型獲取語料的責任,規定了“但書條款”——不得對版權人的利益造成不當損害。日本文化審議會著作權分會的相關解釋指出,如果版權人主動采取技術保護措施,以防止自身作品被用于生成式人工智能,而人工智能科技公司規避這類技術措施獲取語料,即屬違法。
2024年3月13日,歐洲議會批準施行新版人工智能法案,其中關于生成式人工智能模型所用語料版權責任的規定有三項:一是模型所獲語料的版權責任豁免,前提是廠商合法獲取相關作品;二是對于以商業利用為目的語料獲取行為,版權方享有事前獲知權;三是廠商須制定相應的規則,以識別以商業利用為目的語料獲取行為,從而確保第二項規定的執行。
歐盟的上述規定對于人工智能科技公司來說較為嚴格。2024年3月,谷歌公司就因在訓練Gemini產品時違反相關規定,被法國競爭管理局處以2.5億歐元罰款。
加拿大傾向于采用類似美國的規制模式,即重點關注人工智能模型獲取語料是否符合“合理使用”原則。2023年9月25日,美國特拉華州地方法院審結了美國首起人工智能版權侵權案。法院傾向于支持“復制版權作品用于訓練人工智能模型”構成“合理使用”,即符合“轉換性使用”中的“中間復制”標準。但其前提是:相關模型僅是學習現成作品中的自然語言模式及相關性等,然后根據用戶提問,輸出不同于原語料作品的新內容。如果相關模型只將原作品復制并存儲,然后以類似檢索工具的方式根據用戶提問輸出與原作品相同的內容,則不屬于“合理使用”的范疇。
編輯:姚志剛" " winter-yao@163.com