戴 欣
(中南大學 法學院,湖南 長沙 410012)
如同人類創作者從前人的作品中學習一樣,一種被稱為“機器學習”的能夠產生系統預設模式之外的最優結果的技術[1],賦予了今天的人工智能在提供了許多例子后模仿人類的作品的能力,例如人工智能運用于新聞寫作就具有時效強、效率高的特點[2]。得益于算法技術、計算能力、大數據等因素,以數據訓練為基礎的機器學習已經占據主導地位。簡言之,可將人工智能創作的過程分為三個階段:數據輸入——機器學習——結果輸出(如圖1)。最終的結果輸出并不是前期數據的機械組合,而是綜合運用大數據進行統計分析、自然語言處理技術分析后的得出的算法模型的有機輸出,算法越是優化,輸出結果與原始數據間顯性關聯就越是難以發覺。因此,為區別與那種只是利用數據的事實性信息或分析數據物理特征,不涉及作品表達內容的類型[3],可以將其稱之為表達型人工智能(人工智能創作)。

圖1 機器學習下人工智能創作流程圖
其中輸入端和輸出端可以通過外在表現而觀察到,中間端的機器學習由算法執行,難以為人所理解,也不易進行法律分析。人工智能創作中的著作權侵權問題學界探討相對較少,筆墨多在于兩個方面:一是人工智能創作對現有受著作權保護的作品的侵權分析;另一是應對人工智能創作的制度適用問題。
首先,在行為性質判斷層面,人工智能未經許可利用大量作品進行機器學習是否構成合理使用存在較大分歧。在支持合理使用的學者中,如徐小奔、楊依楠認為人工智能創作對現有作品的接觸并不是直接利用作品的表達,既不是對作品的原樣呈現,也不是對作品內容的演繹性表達,而是獨立的、新的作品增值[4],為非表達目的復制表現性作品不應被視為侵權,必須被承認為合理使用[5];孫陽從結果主義角度認為將合理使用規范應用于人工智能可以促進表達信息的充分使用[6];梅術文,宋歌認為可以從目的轉換性使用理論來說明人工智能編創的合理使用屬性[7];人工智能創作所利用的訓練數據,無論是表達性還是非表達性的,都只是人工智能作品的原料,必須自由地應用合理使用,以防止版權所有者的阻礙、并扼殺人工智能帶來的變革性使用[8]。在否定人工智能創作合理使用的學者眼中,該行為不屬于我國著作權法所規定的合理使用情形[9],并對原作品市場可能造成較大沖擊;也有學者對于人工智能適用合理使用制度表示擔憂,James Grimmelmann認為幾乎在偶然中版權法已經得出結論,版權法只為人類,并使得人類占據著一個令人驚訝的邊緣位置[10]。Sobel Benjamin認為人工智能程序從受版權保護的作品中"學習"存在法律風險。他的結論是,合理使用可能無法保護表達性機器學習應用并認為將當今的合理使用理論應用于表現機器學習將產生兩種不良結果之一:如果法院拒絕機器學習的合理使用辯護,有價值的創新可能會轉移到另一個司法管轄區或完全停止;或者,如果法院認為該技術得到合理使用,復雜的軟件可能會轉移輸入數據作者的合法收入,導致分配不公[11]。
其次,在制度適用的模式方面,人工智能創作如何適用合理使用制度存在兩種觀點:第一種觀點認為應借鑒美國版權法中開放的“四要素法”來滿足人工智能創作的需要,由法官進行靈活的個案考量[12];第二種觀點認為借鑒歐盟版權法中的規定,采用“有條件的例外”模式將文本與數據挖掘納入版權例外的范圍[13]。另外,基于對于人工智能機器學習行為的侵權定性,但考慮到產業發展的需求,平衡各方利益后認為現行著作權法雖難以豁免機器學習的侵權責任,但是為了促進產業發展,應當在著作權法中增設新的合理使用例外或文本與數據挖掘例外;也有少數學者認為在產業發展和著作權人利益衡量之后,依然應當認定侵權,并由人工智能訓練主體向版權人支付許可費[14];另有學者如華劼認為可以通過推定集體管理機制、稅收制度來優化人工智能創作的版權授權機制[15];還有學者認為,相較于合理使用制度的傾斜保護,法定許可制度能兼顧各方利益,實現技術發展與文化創新的平衡[16],并建立人工智能著作權侵權公益訴訟制度[17]。
總體而言,在目前不多的國內文獻當中,大多數學者認為現行著作權合理使用制度難以開赦人工智能創作行為,但基于利益平衡,應當條件地給予一定例外。在人工智能創作的三個階段中,都有著作權侵權風險,在人工智能創作全過程中,不得不注意數據輸入的侵權可能以及結果輸出的合法性問題。
輸入階段的主要任務是全面收集數據,進而對其進行預處理,形成一個系統全面的數據包,為下一步的機器學習儲備資源。本文主要著眼于沒有獲得許可的數據,此類數據主要通過“網絡爬蟲”技術獲取零散的網站數據、非法獲取現有數據庫內容以及私自數字化非電子數據等方式來搭建訓練庫。
第一,利用“網絡爬蟲”抓取復制、存儲網站數據時,搜索引擎一般要遵循“爬蟲協議”,即網站告知搜索引擎對某一具體的網站內容或網頁是否有抓取權限并將其作為搜索結果具體呈現給用戶的協議。就侵權風險而言,除了侵犯復制權外,還可能構成不正當競爭。此外,即使沒有違背爬蟲協議,其中的著作權侵權風險依然存在。該協議的意志并不能代表網站內容著作權人的意志, 爬蟲協議允許訪問抓取并不代表著作權人也存在這樣的默許,未經權利人許可,不支付報酬,抓取即復制這些數據并進行商業使用,侵權風險非常明顯。
第二,利用技術手段獲取并復制現有數據庫時侵權風險具有多樣性,數據庫的權利也應當多層次考察。第一層,數字環境中的數據庫所有人一般會為數據庫設置如同安全閥一樣的“技術措施”預先排除可能的侵權危險。如果數據收集者未經許可避開或者破壞這些技術措施,非法接觸或傳播受著作權法保護的數據庫及庫內數據,可能面臨嚴重的侵權責任處遇。第二層,數據庫可以區分為受著作權法保護的匯編作品和不受著作權法保護的單純信息集合體。此種情形下,非法抓取構成匯編作品的數據庫,自然存在侵犯復制權的的風險。第三層,數據庫中的材料可區分為受著作權法保護的數據和不受著作權法保護的數據。此時的非法抓取行為,同樣存在侵犯內部材料著作權的風險。
第三、當對受著作權法保護的非電子數據進行數字化時,不論這些原始非電子數據是合法抑或非法取得,對他們進行數字化,均會涉及掃描、轉錄、文本提取這些復制行為,均有可能侵犯復制權。此外,如果這些數字化之后的數據泄露,更是加劇了這些數據被非法傳播的風險,進而有侵犯權利人信息網絡傳播權的可能。
在機器學習過程中,各類算法會自動分析訓練數據中的特征,通過大量分析、分類、聚類,建立一定的映射關系,從而“理解”訓練數據的內容,該過程中會對大量文本進行分析,必定要經過多層傳導運算,也就是說這個過程中需要多次對數據進行“復制”。此時的復制一般是暫時存儲和短暫再現作品數據,可能只是在運行過程中存在以秒計量的時間,通常伴隨著計算機的關閉而自動消除,因此也被稱為臨時復制[18]。我國目前的共識基本認為,即使不考慮“臨時復制”背后的國家利益博弈,從傳統復制行為的構成要件上考察,臨時復制也不應被視為復制行為,因為這是一種客觀技術現象,且一般不具有獨立的經濟價值[19]。從另一個角度看,機器學習過程中的“算法黑箱”正如人腦如何運作一樣神秘,機器對于數據的分析和理解過程如同人腦對于作品的理解與欣賞一樣,人腦在理解的過程中也會產生一些記憶性片段,會有作品在大腦中回放,似乎沒有人指控我們侵犯復制權,因為著作權法根本沒有設置“閱讀權”或“欣賞權”。鑒于此,機器學習過程中因客觀運行而產生的臨時復制行為并不會侵犯復制權。進一步,這個過程中還有可能涉及到對原數據的所謂翻譯、改編、匯編等行為。一方面,此過程中的翻譯、改編、復制行為是否構成著作權法意義上的行為本就受到質疑[20],另一方面考慮到這些行為基本上以復制行為為基礎,既然復制是短暫性的,不被認為是受復制權控制的復制行為,那么上述翻譯、改編和匯編等行為同樣不具有風險性。因此,在現行條件下,該階段著作權侵權風險并不明顯。
人工智能終究不是自然人,不具有人的情感屬性,對知識的分析一般只能是為實現“知識”增值目的。但是當二者都是以創作的目的輸出時,外在表現卻沒有什么兩樣[21],在沒有被告知是人工智能的產物時,基本上不會被區分開。因此,在這個階段的侵權風險判斷與常規作品之間的侵權判定也沒有本質不同。依然可以適用在我國實踐中已被普遍采用的“實質性相似+接觸”規則[22]。也即當通過一定的技術手段比對分析發現輸出產物與現有作品在思想表達構成同一、實質性相似,且人工智能實際接觸了在先作品,除非構成有著作權的限制或例外情形,則可能侵犯復制權、演繹權等專有權利。
逐一對人工智能創作行為的三個階段分析后可知,最主要的侵權風險為復制行為(主要是輸入階段),以及輸出物與現有作品的可能實質性相似(主要為輸出階段),并且輸出階段的侵權風險與非人工智能創作情形下的侵權風險并無實質區別。
上文僅僅討論了侵權風險,并未坐實其侵權性質,是否需要承擔侵權責任還要繼續認定是否符合著作權的限制與例外,即“合理使用”和“法定許可”。由于法定許可的法律規定更嚴格、更明確,明顯不包括人工智能創作行為,合理使用制度是討論的重點。
基于人工智能創作于對現有作品進行分析的這一使用方式,著作權法中列舉的十二類合理使用方式只有兩類尚且具備討論余地:“個人使用”與“為學校課堂教學或者科學研究使用”。
第一,在個人使用這一類中關鍵在于界定主體范圍。法律文本將主體限定為“個人”,表面上確實存在“個人”是否僅指“自然人”還是可以包含“法人”“非法人組織”的疑問。但是結合其用途是“學習、研究或者欣賞”來看,這些行為應當僅指“自然人”,畢竟此三種行為,特別是“欣賞”通常意指的是自然人的行為。人工智能的開發在工業、學術界和軍方是最先進的,尤其是工業界,在人工智能方面處于領先地位,技術公司從大學聘用頂尖科學家,并利用無與倫比的機會獲得巨大的計算能力和大量、及時的數據[23],實際中個人無法承擔此類研究費用、無法單獨進行此類科學研究,公司法人或其他組織才是開展人工智能創作研究和應用的主體,表現為一種團體行為,無法被囊括進“個人使用”的行為范疇當中,無法構成合理使用抗辯。
第二,“在課堂教學和科學研究中使用”這一抗辯也無法完全發揮作用。人工智能創作如果用于課堂教學,一般只是示例性展示,倘若作為系統教學課程研究這一技術,必將大量使用現有作品,無法滿足“少量復制”這一數量要求。于科學研究而言,一方面可能無法滿足“少量復制”之一要求,另一方面大量致力于此技術的私人營利性機構也無法滿足研究機構所要求的公共屬性要求。可見,人工智能創作在現行明確列舉中無法找到合法性基礎。
1.司法擴張應堅持“三步檢驗法”的基本框架
結合本土的立法實踐,三步檢驗法應當成為合理使用判定的基本框架。對于四要素檢驗法,也正如其名“要素”,可以作為三步檢驗法框架中著重考慮的因素。對此,其實最高人民法院在2011年第18號意見中即有此用意,雖然該意見第8條看似雜合了四要素法和三步檢驗法,但從用語也可以看出主次。如該條所強調“在促進技術創新和商業發展確有必要的特殊情形下,考慮……(四要素)……等因素,如果……(三步檢驗中第二、三步)……可以認定為合理使用”,“如果”后所列的條件才真正需要考慮是否滿足,前述“考慮”皆是供以論證是否達到條件的理由,也即要得出是否與“正常使用相沖突”、是否“不合理的損害”的結論,可以利用四要素等因素進行說理,將“四要素”按照情況置于第二、三步檢測中,使之更具可操作性。
2.人工智能創作行為與受著作權法保護作品的正常使用相沖突
為了說明這一點,可以著重考慮:人工智能創作行為的目的和性質、對版權作品的潛在市場或價值的影響。
第一點因素中,使用的目的和性質起初只是從使用是否具有商業性或是否為教育目的的非盈利性使用方面考慮。使用的目的和性質這一要素在隨后的司法實踐中發展出以內容轉換性和目的轉換性為內容的轉換性使用要素,并逐步發揮新技術迅猛發展背景下維護著作權利益動態平衡的平衡器作用,緩和不同利益主體間的緊張關系[24],因而該分析已經是第一要素“使用的目的和性質”中的主要分析點。一般認為,轉換性使用的認定極其有利于合理使用,而商業性質的使用則不利于合理使用。
首先,人工智能創作無法滿足內容上的轉換性使用。由于轉換性使用一般是在最終結果階段進行考察,所以在數據輸入階段和人工智能學習階段缺乏討論的前提。由于內容的轉換一般是為了評論、諷刺等目的。這要求在新作品中看到原作作品的影子,使受眾聯想到原作品,從而產生比較,實現評論或諷刺的目的。而就其輸出的結果而言,并非是對原作品的簡單改動或者組合,一般是通過算法模型獲取數據特征之后所為的自主創作。此外,由于所設的原始學習作品數據規模龐大,一般也難以認定是對何部作品的改動。因此,人工智能智能創作一般難以使得受眾聯想到某部原作品,也就無法產生基于比較而來的內容轉換。其次,人工智能創作不滿足目的轉換性使用。目的轉換性使用一般與原作品相比有不同的目的,而原作的目的一般是為表達一定思想情感或某一領域的研究成果,使他人能夠客觀地“閱讀、欣賞和感知”[25]。也即,目的轉換性使用一般僅是改變了使用目的,原作品表達基本不作改變[26]。就人工智能創作行為而言,輸入階段數據搜集的收集和輸入,以及后續對數據的分析與自然人對于前人作品材料的收集與學習的目的并無實質性區別,都是從現有材料中積累“知識”、啟發“靈感”。主要的不同點在于學習的方法不同,自然人是通過生物大腦進行感知,進而提升審美,促進輸出;而人工智能則是通過算法模型,在特征統計分析的基礎上把握作品的特征元素,據此模擬輸出、預測輸出。因此,輸出階段的輸出結果也并不是原作品,甚至不能認為是原作品的片段組合,也就不存在原作品表達的直接利用,也就不存在所謂原作品表達的新使用方式。因此,人工智能創作中對原作品的利用不能構成目的轉換性使用。
第二點因素“對版權作品的潛在市場或價值的影響”中所謂之“潛在”即“有可能”而不是已經發生。該因素側重使用的經濟影響,著眼于此類使用是否在市場上為原始產品或其衍生產品帶來競爭性替代品,從而剝奪版權所有者的大量收入可能,即合理使用不應當作為原始作品的可替代物而“過度損害其市場”。通過前文的分析可以得知,人工智能創作中對版權作品的利用難以認定為轉換性使用,無法依此排除智能創作輸出物與所使用的版權作品間的競爭關系。此外,版權作品的許可市場通常被認為是潛在市場的重要市場的一部分[27]。只有對傳統的、合理的或可能是發達的市場的潛在許可收入的影響才應該是法律上可審理的[28],否則,即使所涉被使用的版權作品數量足夠且極具創造性,如果版權所有者沒有合理的經濟理由來開發一種許可方案使得這種使用市場化,那么對潛在市場或價值的影響這一因素將不會對使用者產生不利后果。實際上,業已存在一個成熟的數據訓練許可市場,只是經常被人所忽略,甚至連許可人也沒有意識到這一點。數據(版權數據)訓練的市場早已建立在這樣一種典型的平臺商業模式中:技術平臺獲取用戶數據,用戶以此換取技術平臺的免費服務。例如谷歌的郵件服務功能雖然是免費的,但其要求用戶允許谷歌公司分析他們的大量郵件數據來訓練其“智能回復”功能。不可否認,這些數據中許多可能是受版權保護的內容,例如用戶發布的文章,上傳的視頻內容、電子郵件等。使用條款中常見的廣泛的知識產權許可表明,用戶生成內容的著作權方面有一個明確的許可市場,即使許可人似乎并沒有獲得明顯的經濟收益,即使這些信息看起來平淡無奇,毫無價值。如果合理使用明確保護那些為了尋求商業目的而進行人工智能創作的主體,那么這個市場將會被繞過,并“可能損害擁有訓練數據權利的主體”。
3.人工智能創作確實會不合理損害權利人合法利益
這一部分可以結合版權作品的性質以及創作行為中所涉版權作品的規模和質量這兩個因素綜合考察。
關于版權作品的性質這一點,主要考慮作品是事實性還是虛構性。如果是事實性作品,著作權人通常對此類的作品的二次使用需要承受更大的容忍度;如果是虛構性作品,法律通常對其給予較事實性作品更嚴格的保護,更具創造性,虛構性或幻想性(相對于事實)受版權保護的作品,法院裁定合理使用的可能性就較小[29]。由于人工智能創作所用的訓練數據規模大,數據庫中也必然包括虛構性作品,甚至某些情況下會刻意選取非事實類作品,以增強輸出表達的可讀性。例如2015年谷歌在其郵箱服務功能中增加“智能回復”功能,便刻意采用11000余本言情小說來補充訓練,以期智能回復能夠風格活潑多變。如果這些非事實性作品被大量使用,且在無法排除其使用與原作品的正常使用相沖突的情況下,那么無疑會加重此類使用中“不合理損害”程度的認定,進而不利于合理使用的結論。
使用的數量和質量分析是對原作品而言。從數量角度看,雖說使用得越多就越有可能不構成合理使用,但并沒有一個絕對的數量標準區分合理與否,分析的重點在于所使用作品的數量相對于使用的目的而言是否是合理的。當然,對于合理使用的判斷不僅考慮使用的數量,還要考慮所使用作品的質量,質量甚至更為關鍵。在“Harper”案和“Campell”案中美國最高法院認可即使是使用原作品中的一小部分,但卻是原作品的核心內容、最有價值的內容時,也應當認定為侵權[30]。在人工智能創作的情況下,所涉訓練數據中作品的數量規模通常是海量的,只有最大限度地擴大數據庫的總體規模和內容多樣性,才能盡可能減少特征偏差。因此,大規模地使用版權作品,其損害性無疑很巨大。此外,基于數據訓練的人工智能創作主要通過特征提取來進行預測輸出,而這些特征往往就是一部作品中的精髓和核心,如果僅僅是利用原作品中的事實數據或一些無關緊要的內容,此類創作甚至都不能稱之為“創作”,只能產生一些不能吸引人類閱讀欲望的輸出物。因此,無論從數量還是質量方面,人工智能創作利用版權作品的行為都不利于合理使用的判定,都會是“不合理損害”判斷中的重要砝碼。
因此,人工智能創作過程中未經許可對現有作品的利用不論是在文本抑或司法實踐中都難獲得著作權限制與例外的合法辯護,此類行為的侵權屬性似乎確鑿無疑。由此向所涉訓練數據著作權人支付合理報酬是應然之理。
其實,人工智能創作未經許可利用版權作品定性為侵權之后,在現行制度下可以有三條規范路徑:其一,創設合理使用例外;其二,依照常規侵權處理;其三,歸于法定許可制度。本文認為將法定許可制度應用于人工智能創作行為的侵權問題也許是最佳選擇。
一方面,促進人工智能產業發展儼然是一項全球性競爭政策,智能創作同樣是一項具有廣泛應用前景的技術,我國不得不對此加以重視。上述分析已表明,合理使用一旦適用于智能創作中,著作權人的利益將極大受損,作品市場也將越來越單一,已經使得各方利益嚴重失衡。此外,人類閱讀(侵權)機器人閱讀(豁免)的分裂甚至會產生這樣一個奇怪的后果:在一個越來越多的版權作品創作通過自動化進程進行的時代,版權法卻只適用于人類, 并將我們帶向一個“人類占據令人驚訝的邊緣地位的版權體系”。一部具有戲劇性的雙軌版權法已經顯現:一半針對人類讀者,涉及人類讀者的使用會受到嚴格的審查,確保版權所有者的利益沒有被侵占;一半針對計算機閱讀,涉及機器人讀者則會被很自然地認定為合理使用。這樣便又產生一個令人不安的行為,它將鼓勵人們和企業把閱讀和創作進行外包,依賴于計算機的大規模閱讀,甚至是鼓勵夸大侵權的規模。更甚者,通過對計算機閱讀的豁免,著作權法其實正在貶低人類閱讀,因為人類為了細細品味幾篇文章一般要付費購買書籍,否者是侵權者,而計算機大規模瀏覽一百萬本書卻是一個合理使用的英雄。這難道不是在慢慢將人類排斥在人類引以為傲的作品之外。
另一方面,從促進產業發展,提升核心競爭力的角度講,面對人工智能創作技術的日趨發展,著作權法無動于衷不作回應也不合理。按照一般侵權路徑而不加干涉,產生的第一種情況是人工智能創作活動的管理人為了避免侵權訴訟會盡可能先行采用市場化途徑來與數據權利所有人之間達成某種交易,取得使用許可。但是這種行為至少會產生兩個問題:其一是極大加重這些研發機構的創新成本;其二是市場失靈,減緩甚至阻礙科技進步。第二種情況是二者事先不進行任何許可交易,人工智能創作方未經許可擅自使用版權作品,那么就可能面臨大量的侵權訴訟,將會耗費大量時間、金錢成本,進而產生寒蟬效應,阻礙技術進步和社會發展。此外,任何一部作品總會有意想不到的新用途,如果將作品的所有價值都置于著作權人的壟斷權利下,不利于作品價值的充分挖掘,縮小作品的潛在市場,不利于新文化市場發展。
可見,不論是創設新的合理使用類型還是堅持侵權認定且不給予新制度回應都很難平衡各方利益,實現著作權法的最終目的。這樣,目光便會很自然地轉向“法定許可”制度。在這種制度下,人工智能創作研發人或應用人無需尋求訓練數據著作權人之許可,可以直接對版權數據進行使用,但是應當向著作權人支付合理報酬。具體而言,法定許可制度應用于人工智能創作有如下幾點優勢:
其一,利于實現社會公正。“當財產權嚴重損害他人的行為時,無論洛克的附帶條件還是康德的普遍權利原則,都對他們作出限制——這是走向分配正義的關鍵性一步”。附帶條件原則要求“留下足夠好的東西給其他人,并且誰能在一件東西敗壞之前盡量用它來供生活所需,誰就可以在那個限度內以他的勞動在這件東西上確定他的財產權”。普遍權利原則認為“每一個人的選擇自由可以與任何的自由共存,那么,他就是正確的”[31]。正義的本質則是如何分配基本的權利和義務[32],法定許可則恰好是這樣一種制度,它對權利人與使用者兩方都給予了一定的限制。它將原始作品的精華給予使用者,讓使用者借此創造更大的價值,而不使這些智慧結晶淹沒在歷史的塵埃中;同時,一定的經濟補償也反饋給了原始權利人,經濟的贊美對于高尚的作者而言也很必要。這樣,權利人和使用人之間的自由選擇恰如其分地融合了,雖說矛盾無法完全消除,至少可以在短期內并存。這種交易性分配對于社會公正至關重要,照顧各方感受和體驗,在矛盾中找到了共存之地。
其二,有利于提升社會效率。 “市場失靈”總會經常性出現在版權作品的自然許可市場中,當合法的權利放置在被利用的環境時,往往會大大超越權利被賦予時所設想的力量,著作權人對作品的控制力便是如此,由于雙方的談判、僵持等會無限延長交易時間,甚至中斷交易。法定許可制度會在一定程度上解決這個問題,因為它既保障權利,以顯示其合法性地位,又盡可能消除權利無限制被利用的環境,從而使得權利的力量不至于大得不合理地損害與之相關的權利。也即,法定許可擬制出一個處于政府管控下的市場取代經常性無效的自然市場。這個擬制市場省略了單獨協商環節,建立相對統一的付費標準,可以為雙方節省大量時間、人力、資金等交易成本,消除權利流轉障礙,促進權利流動,反映在作品上即加速知識增值,進而提升社會增值效率。
由此可見,無論是從正義還是效率角度考慮,法定許可制度對于人工智能創作行為的適用性都優于其他路徑,盡管可能存在其他更好的方法來解決這個新技術帶來的挑戰,但法定許可制度本就常常被當作一種臨時性制度工具[33],美國便一般認為法定許可存在于無法通過市場自行解決的特殊情況下。
1.法定許可設置的基本要素
法定許可制度的基本要素應當包括適用主體、適用客體、適用行為、付酬方法等方面。
第一,在適用主體方面,現行著作權法中既有的法定許可類型都有特定的適用主體。但是人工智能創作活動并不像上述類型一樣涉及某個領域的特殊利益,因而申請適用這一法定許可的主體不需要特定化,只要某一主體具備進行只能創作研發和應用的能力,便可以依照程序申請。也即,適用主體為一般自然人、法人和非法人組織。
第二,在適用客體方面,由于人工智能創作內容多樣,可以生成文字,視頻,音樂,畫作等形式,因而法定許可制度也不應限制訓練數據的作品范圍,但前提是這些作品已經發表。更進一步,法定許可制度必然要求所涉作品來源于合法源頭,排除來源于侵權數據庫例如“Sci-Hub”之類的侵權來源。因為這類侵權來源會使得法定許可制度的目的落空,無法運作,再次使得雙方利益失衡。對此,日本、英國和歐盟在其應對計算機信息分析技術的例外規定中要求數據來源的合法性。總之,此類法定許可的作品客體應界定為一切合法來源的已發表作品。
第三,就適用行為而言,人工智能創作中主要面臨侵犯作品復制權、演繹權的風險,但考慮到技術發展可能產生其他利用方式,適用行為不必嚴格限定在復制和演繹行為,應加上“依技術運作需要的其他必要行為”作為彈性條款,充分促進技術發展。
第四,在付酬方面,雖然在某些法定許可類型中先后出臺了相應支付標準,歸結起來即三種:(1)按照一定使用數量乘以某一確定的額度;(2)特定產品依照營收的一定比例收取許可費;(3)定額支付[34]。這些規定對于人工智能創作法定許可的參考意義有限。智能創作中的訓練數據涉及的版權作品數量龐大、來源主體分散,且作品形式多樣,上述方法均不具有可操作性。針對所涉及版權數據的特點,應當采取按比例收取輸出物市場收益額的方法,直接從終端按照年度計算費用,即“先用后付,以收定付”。首先,這樣可以免去前期對大量版權數據進行一一計算,進一步節省相應運行成本,快速進入研發階段。其實面對海量數據,在現有技術條件下也無法一一計算。其次,依據市場收益額的一定比例收取許可費意味著沒有收益額便不用繳納許可費。一方面意味著為科學研究、促進公益等為目的的非盈利性主體所為的人工智能創作研發應用根本就不用承擔許可費,合理照顧社會公共利益;另一方面意味著為非盈利性公益研究和商業性研發應用擁有相同的競爭前提,同等競爭,更有利于激發各方創新活力。
2.法定許可的制度保障
目前,我國相繼建立了五家著作權集體管理組織,相應地在音樂作品、音像作品、文字作品、攝影作品、電影作品等領域開展活動。實際上,目前的人工智能技術還處在專門應用階段,一般集中在某一作品形式領域進行創作,例如文字作品、音樂作品、美術作品等,相應的訓練數據類別往往也是單一化。這樣看,單獨由上述各類集體組織分別管理也未嘗不可,但是隨著技術擴展,多類型作品融合訓練日趨普遍也是情理之中,并且利用美術作品進行數據訓練已經出現,卻沒有對應的集體管理組織。因此,僅依托現有機構難以全面處理人工智能創作所涉訓練數據的著作權問題,應當考慮建立統一的“數字著作權集體管理組織”,集中處理數字化版權作品的許可使用問題。在建制上可與現有的五大組織并立,并分別為不同類型的作品設立專門委員會,一方面與五大組織銜接開展聯合運行,另一方面填補其他作品類型管理機構缺失。針對人工智能創作的行為特點,該集體管理組織應在以下幾個方面重點應對:
第一,建立統一電子版權數據庫。首先應大力促進著作權登記。雖然著作權登記不是獲得著作權的必要條件,但是對于著作權確權、流轉、保護工作的開展具有重要意義。其次,登記應建立統一的數據作品版權信息區塊碼,嚴格記錄權利人、發布時間、特殊聲明等必要信息,這是最為關鍵的一步,否則后續的追蹤記錄便無法進行。這些信息應當與其他登記機構共享登記信息,及時公開。再者,登記不僅可以是權利人現行預防性登記,也可以是使用人為了獲取許可使用而主動進行許可登記,例如使用者將某類尚未進行數字版權登記或是尚未數字化的作品數字化后在該組織內進行登記,但應當限于該集體管理組織會員所享有的版權作品,以免除不確定的訴訟風險。
第二,授權許可與費用收付機制。在許可方面,依照上文“先用后付,以收定付”原則,任何意欲從事人工智能研發與應用的主體,不區分其是否為商業性質,數字著作權集體管理組織均應進行授權許可,但應從實際使用領域和財務報告兩個方面進行重點管理。其中實際使用領域的管理是為了保證被許可的版權數據僅僅為被許可主體應用于人工智能創作的研發應用,杜絕被許可主體擅自二次許可或轉換應用領域。財務報告管理的主要目的是確定被許可主體利用人工智能創作而產生的營收額。例如歐洲議會機器人民法規則委員會收到的一份報告草案中強調“可能需要引入公司報告要求,說明機器人和人工智能對公司經濟成果的貢獻程度和比例,以便征稅和繳納社會保障費”。道理是一致的,只有通過財務報告才能弄清人工智能創作的營收貢獻,才能合理確定額度基數。當然,這種貢獻比例大多數情況下無法查清,雙方的自由協商可以在此時發揮作用。此處的雙方尤指集體管理組織和使用者之間的協商。若是由數據權利人和使用者之間進行協商,那么法定許可的效率取向依然難以實現;若是直接由相關政府部門統一核定比例,則通常難以體現作品的真實價值;由集體組織進行協商會最大程度上使得定價比率具有靈活性和代表性。因此,在許可費收取方面主要要通過財務報告以及集體管理組織與使用者之間的協商來確定額度基數和收取比例。在許可費分配方面,由于被許可的作品數據來源廣、數量多,雖然這些作品數據間必然存在獨創性高低差異,但在數據訓練過程中無法準確測算哪一部分數據的價值更大、對算法貢獻的貢獻更為突出,既然同是受著作權法保護的客體,因此在訓練過程中將其視為同質化的訓練材料也具有合理性。進而,在向數據權利人分配許可費時,應當以權利人被許可使用的作品數量為依據來進行分配。至于無主作品,可以采取先留置并及時通告,若在5年內無權利主體申領,可將這部分作品所獲得許可費抵扣集體管理組織的運行成本。
第三,統一維權機制。侵權行為因法定許可合法化,理當成為技術開發和應用者的理性選擇,然而故意規避這個機制的行為必定也會出現。因此,當人工智能創作研發和應用者私自使用版權數據進行訓練或是將許可用于訓練的版權數據用于其他領域或是故意隱藏相關財務報告,該組織即可以自己的名義對此類行為提起訴訟或采取其他維權機制。特別地,應當賦予該類集體管理組織一定地延申性管理權限,即允許該組織對于非會員的數據作品被非法用于訓練的情況提起訴訟或仲裁或協商,發揮專業組織的優勢。為了對該集體管理組織以激勵,應當允許集體管理組織分配一定比例的侵權賠償金。當然,應當允許非會員選擇由自己處理該項事宜,排除集體管理組織的訴訟管理權。也即此類集體管理組織的權限只能延申到非會員的維權管理上,而不能延申至許可使用權限。
3.法定許可的技術支持
用技術應對技術是科技發展的必然選擇,在新技術對版權數據權利確認、數據使用記錄、數據安全三個方面都帶來了棘手的挑戰。應對上述挑戰,區塊鏈技術是一個重要的技術方向,將其應用于版權登記可以有效降低登記成本,區塊鏈的不可篡改性能夠提升登記證明力。依靠每一份登記作品上獨一無二的哈希值和時間戳還能夠全程追蹤登記作品的使用情況[35]。例如美國的“Blockai”公司已經利用區塊鏈技術保護版權作品,中國的小犀版權鏈已經面向工業版權提供服務,北京互聯網法院采納“天平鏈”電子證據,審判中也認可區塊鏈取證的證據效力。此外,保障數據安全除了依靠區塊鏈的不可篡改性和可追溯性外,采取其他必要的例如常見的版權保護技術措施和保護接觸技術措施來維護數據安全性也是必要的[36]。
人工智能的發展確實給人類帶來了機會,這樣一個全新的事物同樣也帶了許多挑戰,趨向守舊的法律如何能夠更快地與技術接軌,全面審視必不可少。人工智能創作給著作權法律特別是合理使用制度帶來了危機,對此有必要保持足夠的慎重,否則顛覆的不僅是作品及其市場,更有可能顛覆人與機器的關系。人工智能創作確實與合理使用的制度目的不相符合,但技術的進步也是人類的進步,必定需要一定的妥協,法定許可制度的歷史使命再一次體現,構建好這一制度才能更好地協調新舊利益,協調著作權的目的與科技進步,使二者最大化的同一。