麥克·羅克德斯 蒂姆·奧賴利
美國版權局最近發布指導意見認定,除非人類創造力進入生成人工智能圖像的提示性指令,否則人工智能所生成的輸出圖像不應屬于版權保護的范圍。但上述規定還留下許多問題,如究竟需要多少創造力?它與藝術家用畫筆實現的創造力是否是一樣的問題?
還有一組案例涉及文本 (通常是小說)。有人認為,用受到版權保護的材料訓練模型本身就是侵犯版權,即使該模型永遠也不會在輸出部分中復制上述文本。但自書面語言存在以來,人類學習過程就一直包含著閱讀文本。我們花錢買書,但我們卻無需付費從書中學習。
我們該如何理解這一點?首先,目前的版權法保護“添加某些新內容的……變革性用途”。顯而易見,這恰恰是人工智能模型在做的事。像ChatGPT這樣的大規模語言模型(LLMs)由訓練過程中所吸收內容的一組龐大參數構成,它代表一個詞跟在另一個詞后面出現的概率。當上述概率引擎做出一首莎士比亞從未寫過的莎士比亞體十四行詩時,哪怕這首新十四行詩水平很爛,此舉也同樣具有變革性。
技術專家加倫·拉尼爾認為,創造更好的模型是一種為所有人(甚至就連那些作品被用于訓練 AI的作者也包括在內)提供服務的公共產品。模型因此值得被保護且具有變革性。但拉尼爾的“數據尊嚴”理念存在一個問題:在“訓練”現行的人工智能模型和以小說家杰斯明·沃德的風格“生成輸出內容”之間,很難進行有意義的區分。
人工智能開發者通過進行零散輸入并要求模型數十億次地預測下一個單詞來訓練模型,并在此過程中,小幅調整參數以改進其預測性。但同樣的過程也被用于生成輸出,而這本身就存在版權問題。
那么,如何在恰當的情況下補償作者所創作的作品?盡管可能無法追蹤到當前生成型人工智能聊天機器人的數據來源,但故事并未到此為止。在自ChatGPT發布以來一年左右的時間里,開發者一直在現有基礎模型之上構建應用程序。許多人運用檢索增強生成功能(RAG)來讓人工智能“了解”其訓練數據中所沒有的內容。如果你需要生成產品目錄文本,你可以上傳公司數據,而后,將其發送給人工智能模型并附上說明文字:“在結果中只使用此提示中所包含的數據。”
盡管“檢索增強生成”被視為某種在不經過勞動和技能密集型培訓的情況下使用專有信息的方式,但它也順帶在模型的響應和創建響應的文檔之間建立了聯系。這意味著我們現在找到了出處,從而使我們更接近實現拉尼爾有關數據尊嚴的愿景。
如果我們在書中出版了一位人類程序員的貨幣轉換軟件,而且,我們的語言模型在回答問題時復制了這一模型,我們就可以將此舉歸因于初始來源,并恰當地分配版稅。同樣的原則也可以適用于模仿瓦德的作品《唱吧!未安葬的魂靈》而創作的人工智能小說作品。
谷歌的“人工智能概述”,就是說明我們對“檢索增強生成功能”期望的很好例子。因為谷歌已經擁有全世界最好的搜索引擎,其摘要引擎應當能通過運行搜索并將排名靠前的結果輸入大規模語言模型生成用戶所要求的概述內容,來對提示進行響應。模型將提供語言和語法,但它卻從提示所包含的文檔中提取內容。同樣,這可以提供缺失的出處。
既然我們知道有可能制作出尊重版權并補償作者的輸出作品,監管機構就需要加大力度。我們不應接受頂級大規模語言模型企業的說法,稱這項任務從技術上看不可能完成。事實上,這只不過是它們能夠而且必須克服的眾多商業及道德挑戰中的一項內容。
麥克·羅克德斯,奧賴利媒體公司內容戰略副總裁;蒂姆·奧賴利,奧賴利媒體公司創始人兼首席執行官,倫敦大學學院創新與公共目的研究所客座教授。本文已獲Project Syndicate授權。