文本與數據挖掘著作權合理使用的域外實踐與借鑒*

2022-02-17 19:25:12趙力

圖書館 2022年3期

趙力

（天津科技大學文法學院天津 300457）

著作權限制與例外制度，廣義上包括著作權的思想和表達二分法、著作權保護的獨創(chuàng)性條件、著作權保護期限的限制、著作權的權利窮竭、合理使用、法定許可、強制許可等[1]。在特定條件下，法律允許他人自由使用著作權作品而不必征得著作權人的同意，也不必向著作權人支付報酬的情形，被稱為合理使用[2]。著作權合理使用制度是著作權限制與例外最為核心的制度之一。大陸法系國家在其立法文件中一般不直接采用“合理使用”這一術語[2]1，美國版權制度中采用合理使用（fair use）概念，英國版權制度中采用公平交易（fair dealing）概念。

文本與數據挖掘在科研領域有著重要的應用，然而文本與數據挖掘跟著作權保護存在潛在沖突。技術行業(yè)，將其精煉獲得信息的資源一律視為數據，數字化的作品被作為計算機分析的原始材料，文本與數據挖掘的來源包括已出版圖書、期刊或者其他可能受到著作權保護的作品。目前，已有出版商通過合同對研究者的文本與數據挖掘進行嚴格控制，科研人員的非商業(yè)性文本與數據挖掘受到一定程度的限制。歐洲法院Infopaq I、Infopaq II 案，美國Google 圖書館案、HathiTrust 數字圖書館反映了歐美在協(xié)調文本與數據挖掘和著作權保護方面的司法實踐。美國通過版權法第107 條合理使用制度的解釋，將商業(yè)性文本與數據挖掘列入轉換型使用的范疇。在立法方面，英國2014年《版權、設計、專利法案》修正案規(guī)定了文本與數據挖掘例外制度，法國2016-1231 法案規(guī)定文本與數據挖掘例外制度，德國于2018 年3 月1 日實施文本與數據挖掘例外制度?！稓W洲議會與理事會2019 年4 月17 日關于數字單一市場的著作權和鄰接權及修改第96/9EC 號指令和第2001/29/EC 號指令的第2019/790 號指令》（以下簡稱“歐盟第2019/790 號指令”）規(guī)定了作為科學研究和創(chuàng)新手段的文本與數據挖掘例外。我國司法實踐中，判決“爬蟲”構成著作權侵權，“企業(yè)畫像”行為構成不正當競爭。

鑒于我國新修訂的《著作權法》三步檢測條款具有封閉性，文本與數據挖掘不屬于法定十三種著作權合理使用情形，以及司法實踐認為我國《著作權法》未將營利性使用認定為侵權要件的共識，在現(xiàn)行制度下，非商業(yè)性文本與數據挖掘在我國也存在被法院判決為著作權侵權的風險。美國學者指出，文本與數據挖掘著作權例外的規(guī)定，實際上構成國家之間在技術發(fā)展與進步上的競爭，從英國、日本等國家以及歐盟及其成員國的文本與數據挖掘著作權例外立法改革中，可初見端倪[3]。在文本與數據挖掘著作權例外方面，域外司法與立法實踐具有深遠意義，值得深思與借鑒。

1 文本與數據挖掘著作權例外概述

1.1 文本與數據挖掘概述

文本與數據挖掘（Text and Data Mining， TDM），是指從機器可讀的材料中得到信息的過程。文本與數據挖掘的流程為復制大量材料，精煉數據，并重新組合數據以預測新的發(fā)展趨勢[4]。文本與數據挖掘主要包括以下步驟：①收集和編譯數據；②計算過程中將數據格式化；③數據分類和聚類；④在計算機內存中處理數據；⑤存儲數據以實現(xiàn)再分析[5]。上述步驟都涉及作品的復制，制備多個作品復件。

1.2 文本與數據挖掘的價值

目前，文本與數據挖掘在科研領域有著重要的應用。第一，文本與數據挖掘提高科研效率。大多數領域的科研工作者，受到信息過載的挑戰(zhàn)。海量的潛在關聯(lián)期刊文章每天都在發(fā)表，等待科研工作者發(fā)現(xiàn)、閱讀和分析。計算機分析能夠幫助科研工作者找到最相關的文獻。而且，計算機能夠獨立分析和處理，篩選出與科研工作者的研究領域最為相關的信息[6]。第二，文本與數據挖掘幫助準確預測趨勢。文本與數據挖掘算法適用于大數據或者機器學習（machine learning），文本與數據挖掘算法分析海量數據，幫助研究者進行決策，分析出相關趨勢[7]。第三，文本與數據挖掘形成新的研究模式。例如，科研工作者希望了解特定的基因結構或者疾病的傳播途徑，可通過文本與數據挖掘的方式，利用對大量文獻的廣泛分析，找到尚未被發(fā)現(xiàn)的聯(lián)系，文本與數據挖掘的研究成果，可能形成新的研究模式[8]。

1.3 文本與數據挖掘及其和著作權保護的沖突

文本與數據挖掘和著作權保護存在潛在沖突。技術行業(yè)將其精煉獲得信息的資源一律視為數據，數字化的作品被作為計算機分析的原始材料，文本與數據挖掘的來源包括已出版圖書、期刊或者其他可能受到著作權保護的作品。技術行業(yè)重視的是作出分析和判斷所依據的算法，而選擇高效率高效能算法是文本與數據挖掘的關鍵。但是，文本與數據挖掘的來源，有可能是受到著作權法保護的作品。美國Google 圖書案、HathiTrust 數字圖書館案，認定文本與數據挖掘屬于著作權合理使用的范疇，不構成著作權侵權。歐盟及其成員國則大多將非商業(yè)目的、為科學研究單一目標的文本與數據挖掘作為著作權例外的范疇。

出版商通過合同對研究者的文本與數據挖掘進行嚴格控制。主要通過訂閱模式而非開放獲取模式的科學和學術期刊出版商，通常通過合同中對于資源的接觸和使用條款，來控制研究者進行文本與數據挖掘。例如，ELSEVIER 公司的文本與數據挖掘政策為，公司采用許可為基礎的方式，自動允許訂閱機構的研究者進行非商業(yè)性目標的文本挖掘，但是應當獲得接觸完整文本的許可[9]。為進行文本與數據挖掘，研究者首先需要獲得數字對象標識符（Digital Object Identifier， DOI）。其次，研究者需要參閱出版商的文本與數據挖掘協(xié)議，篩選允許進行文本與數據挖掘的出版商清單。最后，研究者需要提交數據對象標識符清單和出版商清單并獲得相應文章的全文權限。綜上所述，出版商的著作權策略使得研究者的非商業(yè)性文本與數據挖掘在程序上更為煩瑣。

2 文本與數據挖掘著作權例外的域外司法實踐

2.1 歐洲法院的文本與數據挖掘著作權例外實踐

2.1.1 Infopaq I 歐洲法院咨詢意見

Infopaq 公司運營媒介管理和分析業(yè)務，主要包括從每日出版丹麥新聞報紙及其他期刊中起草摘要。摘要文章根據客戶同意的主題以及“數據獲取程序”進行，最后的摘要結果以郵件的形式發(fā)送給客戶。DDF 公司是丹麥專業(yè)的日報出版商，DDF 向Infopaq 公司投訴其數據獲取程序。Infopaq 公司向丹麥西部地區(qū)法院提起訴訟，要求確認Infopaq 公司有權在丹麥進行數據獲取程序，無需經過DDF及其成員的同意。丹麥西部地區(qū)法院駁回Infopaq 公司的起訴后，Infopaq 公司向丹麥最高法院提出上訴。丹麥最高法院向歐洲法院請求作出咨詢意見。

歐洲法院認為，Infopaq 公司最初兩項復制行為，即掃描產生TIFF 文件和由TIFF 文件獲得文本文件，構成短暫性復制，能夠自動刪除[10]。第三項復制行為，即儲存11 個精煉單詞，提交法院的證據并不能夠評估技術程序是否是自動的、及時刪除復制、不受使用者意志干擾，以及在技術程序終結后，上述復制是否繼續(xù)存在[10]66。最后一項復制行為，Infopaq 公司在程序之外進行，即打印包含11 個精煉單詞的文檔，僅在紙質介質被損壞時消失[10]67。歐洲法院認為Infopaq 公司的復制行為不符合歐共體2001/29 指令關于復制例外的規(guī)定[10]69。

2.1.2 Infopaq II 歐洲法院咨詢意見

丹麥最高法院認為，Infopaq 公司仍有權請求歐洲法院作出咨詢意見，除去打印11 個精煉單詞的行為，Infopaq公司的其他三類復制行為，是否構成違反歐共體2001/29指令[10]23。歐洲法院認為，案件涉及的技術環(huán)節(jié)，包括對于報紙文章的電子自動研究、識別和精煉先前定義的關鍵詞，以便更有效率地撰寫摘要。該案存在三種復制行為，即通過文件掃描獲得TIFF 格式文本，復制TIFF 文本，獲得包括11 個精煉單詞的文檔。涉案技術過程若無復制行為，就無法精確和高效率地實施，因此涉案臨時復制行為構成完整和實質性的技術過程[10]30-34。

歐洲法院認為，技術過程中的數據收集，目的在于高效率地起草摘要，精煉的11 個單詞，并無其他使用目的。在使用目的是否合法方面，盡管撰寫摘要并未獲得著作權人許可，但上述行為并未被歐盟著作權立法所明確禁止。因此，復制行為不能被認為是非法行為[10]43。歐洲法院認為，復制行為不得具有獨立的經濟重要性，即由復制行為產生的經濟利益不得與對作品合法使用產生的經濟利益不同或者可分割，復制行為不得產生超越其復制作品的獨立經濟價值。本案中，由臨時復制產生的效益，因其僅使得被復制作品的價值具體化，既非與被復制作品不同，也非與被復制作品可分割[10]50-51。歐洲法院最終認為，Infopaq 公司數據獲得程序中的臨時復制行為，既不與作品的正常利用相沖突，也不構成對作品權利人合法利益的損害[10]56。

2.2 美國的文本與數據挖掘著作權例外司法實踐

美國版權法第107 節(jié)規(guī)定，構成版權合理使用需要滿足四個條件：①使用的目的和性質，是否為商業(yè)性使用或非營利性教育目標的使用；②受版權保護作品的性質；③與受版權保護的作品作為整體相比較，使用部分的數量和實質；④使用對于受版權保護作品的潛在市場或者價值的影響。

2.2.1 Google 圖書案涉及文本與數據挖掘著作權例外的判決

2005 年秋季，美國作者協(xié)會（Authors Guild）和美國出版者協(xié)會（Association of American Publishers，AAP）起訴Google 公司，主張其掃描尚在著作權保護期限內的作品，提供尚在著作權保護期限內作品的片段掃描文本（snippets）違反著作權法之規(guī)定，侵犯作者著作權。此后，5 家主要出版者公司，包括McGraw-Hill 和Macmillan 公司，對Google 公司提起類似訴訟。Google 圖書館案中，美國聯(lián)邦第二巡回上訴法院認為Google 圖書系統(tǒng)性和機構性復制圖書，提供全文檢索和包含檢索詞文本的服務，構成合理使用。法院指出，轉換性使用，是指與原作品新的和不同的使用方式，或者擴展其使用方式，因此符合版權法中促進公眾知識（public knowledge）的目標[11]。復制以提供檢索服務，構成轉換性使用，原因在于其并未提供與被復制作品相同的信息，而是提供了關于作品新的信息。Google公司事實上的商業(yè)性目的，與后文所述HathiTrust 數字圖書館并不構成實質意義上的區(qū)別。法院拒絕關于商業(yè)性動機應當比轉換性使用更為重要的主張[11]219。

2.2.2 HathiTrust 數字圖書館案涉及文本與數據挖掘著作權例外的判決

Authors Guild, Inc. v. HathiTrust[11]87,90案中，80 個圖書館和其他機構聯(lián)合獲得Google 公司數字圖書復制件創(chuàng)建HathiTrust 數字圖書館，涉及1 000 萬余冊圖書。HathiTrust數字圖書館對數字圖書進行三種形式的使用。第一，提供檢索服務，允許讀者根據其檢索確定相應的作品。檢索結果僅顯示檢索詞出現(xiàn)的相應作品的頁碼。第二，提供殘障人士閱讀服務。HathiTrust 數字圖書館通過可適應性技術，提供作品全文的無障礙閱讀服務。第三，更換副本。允許讀者在丟失、破壞、被盜竊，以合理價格無法獲得原件的情形下獲得副本。聯(lián)邦第二巡回上訴法院支持地區(qū)法院的判決結果，認為第一、第二種使用方式構成合理使用。聯(lián)邦第二巡回上訴法院認為，機構性和系統(tǒng)性復制，提供全文檢索，構成轉換性使用，對于受版權保護作品的潛在市場或者價值影響很小。法院認為，合理使用的第四要素僅在使用構成對于原作品的替代從而產生損害后果的前提下適用[11]99。因此，在第四要素下，任何由轉換性使用構成的經濟損失，不屬于對于原作品的替代[11]99。法院駁回原告關于允許全文檢索限制潛在市場的觀點[11]100。法院并不認為通過可適應性技術提供作品全文的無障礙閱讀服務屬于轉換性使用[11]101，但法院認為對殘障人士提供閱讀服務構成合理使用。

3 文本與數據挖掘著作權例外的域外立法發(fā)展

3.1 歐盟及其成員國文本與數據挖掘著作權例外的立法概況

歐盟第2019/790 號指令規(guī)定了作為科學研究和創(chuàng)新手段的文本與數據挖掘例外。然而，歐盟成員國關于文本與數據挖掘著作權例外的立法先于歐盟指令層面。英國尚未脫歐之前，2014 年版權法修正案規(guī)定了文本與數據挖掘例外制度，法國2016-1231 法案規(guī)定文本與數據挖掘制度，德國2017 年9 月1 日通過的著作權法修正案，于2018 年3 月1 日實施，規(guī)定了文本與數據挖掘例外。

歐盟第2019/790 號指令序言第8 款規(guī)定，文本與數據挖掘技術允許對于數字形式信息的自動計算機分析，包括文本、聲音、圖像或者數據。文本與數據挖掘處理大規(guī)模數據以獲得新知識和發(fā)現(xiàn)新的可能趨勢。文本與數據挖掘技術在數字經濟中盛行，存在廣泛共識，能夠促進研究社群并且支持創(chuàng)新，讓大學和其他科研機構受益，也讓文化遺產機構受益。但是，在歐盟，上述機構面臨著從事文本與數據挖掘的法律不確定性。在特定情形下，文本與數據挖掘包含被著作權保護的行為，例如對于作品的復制，從數據庫中提煉內容等。在沒有文本與數據挖掘著作權例外的情形下，文本與數據挖掘行為需要獲得權利人的授權。歐盟第2019/790 號指令序言第5 款規(guī)定，在研究、創(chuàng)新、教育和保存文化遺產領域，存在數字技術允許，但尚未被歐盟現(xiàn)有著作權限制與例外制度清晰包含的使用，將對于內部市場功能產生負面影響。之前指令對于科學研究、創(chuàng)新、教育和文化遺產保存的著作權限制與例外制度，應當在新技術下重新評估。文本與數據挖掘著作權例外應當被引入。

3.2 歐盟及其成員國文本與數據挖掘著作權例外的構成要件

3.2.1 文本與數據挖掘著作權例外的目的

歐盟第2019/790 號指令第3 條第1 款規(guī)定，文本與數據挖掘的目的為科學研究。歐共體第2001/29/EC 號指令第5（3）（a）款規(guī)定，為教學闡釋或科學研究的單一目的而進行的使用，只要標注來源和作者，除非標注不可能，且使用范圍在實現(xiàn)非商業(yè)目的方面有正當理由。歐共體第2001/29/EC 號指令第5（3）（a）款的科學研究單一目的限制，使得在其他領域著作權限制與例外并不適用。因此，文本與數據挖掘若不符合科學研究目的，或者具有商業(yè)目的，包括直接或間接的商業(yè)獲益，將被排除在歐共體第2001/29/EC 號指令第5（3）（a）款的適用范圍之外。

3.2.2 文本與數據挖掘著作權例外的主體

歐盟第2019/790 號指令第3 條第1 款規(guī)定，文本與數據挖掘的主體包括研究機構（research organizations）和文化遺產機構（cultural heritage institution）。英國版權法29A 款規(guī)定，文本與數據挖掘的主體，為合法有權接觸作品、進行復制的主體。法國著作權法規(guī)定，文本與數據挖掘著作權例外的主體為具有合法來源，即在版權人同意的條件下合法獲得的復制件，以及在文本與數據挖掘過程中存儲和傳播的文本的主體[12]。

3.2.3 文本與數據挖掘著作權例外的對象

歐盟第2019/790 號指令第3 條第1 款規(guī)定，文本與數據挖掘的對象包括有合法接觸權的作品或者其他客體。法國著作法規(guī)定適用于作品和數據庫的文本與數據挖掘例外，文本與數據挖掘的對象為具有合法來源即在版權人同意的條件下合法獲得的復制件，以及在文本與數據挖掘過程中存儲和傳播的文本[12]197。

3.2.4 文本與數據挖掘著作權例外的行為

歐盟第2019/790 號指令第3 條第1 款規(guī)定，文本與數據挖掘的行為包括復制（reproductions）和提?。╡xtractions）。以歐洲法院 Infopaq 咨詢案所涉的內容挖掘服務為例，內容挖掘程序包括 5 個步驟：第一，Infopaq 公司在數據庫中對于相關出版物進行人工登記。第二，拆散出版物的書脊，將出版物變成活頁并開始掃描。掃描過程使得出版物每頁生成 TIFF 文檔。掃描完成之后，TIFF 文檔被傳送至 OCR（光學文字識別）機器。第三，OCR 機器將 TIFF 文檔轉換為二進制數據，使其能夠被文本挖掘軟件所識別。第四，對文本進行關鍵詞檢索，每次確定關鍵詞，在每篇文檔中關鍵詞所占比例按照 0 至 100 排列。為了更加方便地檢索文獻，最終文檔被刪除。第五，在文本挖掘結束時，涉及檢索關鍵詞的頁數被打印于封面[4]。

3.3 文本與數據挖掘是否適用于數據庫

歐盟文本與數據挖掘不適用于數據庫。歐共體第96/9/EC 號指令（以下簡稱歐共體數據庫指令）第6（2）（b）款規(guī)定，數據庫作者享有以下權利：①通過任何手段、形式，部分或者全部，臨時或者永久復制；②翻譯、改編、整理和任何其他改動；③以任何形式向公眾分發(fā)數據庫或其復制件；④任何向公眾傳播、展示或者表演的行為；⑤任何復制，向公眾分發(fā)、傳播、展示或表演，產生與（2）款有關結果的行為。歐共體數據庫指令序言第36 款指出，科學研究必須具有非商業(yè)性，即不以獲得任何經濟優(yōu)勢為目標。若利用數據庫有商業(yè)目的，則不論組織或者個人的性質，著作權限制與例外規(guī)定不得適用。因此，基于商業(yè)目的而對數據庫進行文本與數據挖掘，不適用著作權限制與例外，否則違反歐共體數據庫指令第6（2）（b）款規(guī)定。歐共體數據庫指令第5（a）款規(guī)定，受保護的數據庫作者享有通過任何手段、以任何形式、部分或者全部的臨時或者永久復制權。對于數據庫的文本與數據挖掘，即使只是臨時復制，也將落入數據庫權的保護范圍。歐盟第2019/790 號指令第3 條、第4 條規(guī)定排除了對于數據庫的適用，對于數據庫的文本與數據挖掘，應當獲得數據庫作者的事先書面同意。

但是，歐盟成員國特別是德國和法國，其著作權法中的文本與數據挖掘著作權例外適用于數據庫。德國著作權法規(guī)定，在科學研究中，為實施對于大規(guī)模作品的自動分析，應當允許復制來源材料，包括自動和系統(tǒng)地復制，目的是創(chuàng)造特別是可進行標準化、結構化、類型化分析的語料庫。該語料庫，能讓特定范圍、從事共同科學研究的公眾可獲得，監(jiān)控該科學研究質量目標的獨立第三方亦可獲得。涉及對于數據庫的利用時，對于數據庫的利用應當與對于數據庫的通常利用相一致，并保護數據庫權利人的相關權利[12]197。

3.4 文本與數據挖掘復制件的處理

歐盟第2019/790 號指令第3 條第2 款規(guī)定，第1 款規(guī)定的作品或者其他客體的復制件應當基于合理安全水平保存（stored），并可以為包括驗證研究結果的科研目的而保留（retained）。歐盟第2019/790 號指令第3 條第3 款規(guī)定，權利人應當被允許采取措施保障作品或者其他客體所在的網絡和數據庫的安全和完整。上述措施不應當超過實現(xiàn)目標的必要限度。歐盟第2019/790 號指令第3 條第4 款規(guī)定，成員國應當鼓勵權利人、科研機構和文化遺產機構通用地定義涉及義務實施，以及第3 條第2 款規(guī)定的保存和保留措施、第3 條第3 款規(guī)定的安全和完整措施的最佳實踐。

歐盟成員國著作權法中的文本與數據挖掘著作權例外規(guī)定中，涉及對復制件的處理相關規(guī)定。法國著作權法規(guī)定，在文本與數據挖掘研究過程中制作的技術附件的保存和傳播，在研究活動結束之后，應由特定機構進行處理[12]197。德國著作權法規(guī)定，一旦研究工作完成，后續(xù)及對來源材料的復制應當被刪除，公眾不可獲得[12]197。

4 涉文本與數據挖掘著作權問題在中國的實踐與評論

4.1 涉文本與數據挖掘著作權問題在中國的司法實踐

所謂網絡爬蟲行為，是指一種按照一定的規(guī)則，自動地抓取萬維網信息的程序或腳本[13]。我國司法判決中，對于網絡爬蟲行為的著作權侵權作出定性。所謂企業(yè)畫像行為，是把企業(yè)信息標簽化，在一系列真實數據的基礎上為企業(yè)建立標簽模型體系，將企業(yè)的具體行為屬性進行歸類，最終形成一個多元化的企業(yè)標簽對象[14]。我國司法判決中，認為未經許可的企業(yè)畫像行為構成不正當競爭。

4.1.1 江蘇海豚網絡科技有限公司與北京愛奇藝科技有限公司信息網絡傳播權糾紛案

一審法院判決指出，海豚公司抗辯其未對搜索結果進行分類、推薦，全部信息均通過爬蟲技術從互聯(lián)網獲得，但從海豚公司網站和客戶端提供的播放鏈接來看，首頁的搜索結果對愛奇藝未作任何標注，但對其他網站均標注了“無廣告”“在線播放”“可下載”等信息，觀眾顯然會根據上述標注進行播放選擇，故海豚公司的該項抗辯，法院不予采信。海豚公司應當知道在其網站上出現(xiàn)的眾多第三方鏈接存在侵權，但未采取刪除、屏蔽、斷開鏈接等必要措施，一審法院認定其主觀上存在過錯，客觀上幫助了鏈接第三方實施侵權行為，因而構成幫助侵權行為。二審法院維持一審法院的判決[15]。

4.1.2 中文在線數字出版集團股份有限公司與深圳聚領威鋒科技股份有限公司信息網絡傳播權糾紛案

一審法院判決指出，涉案應用程序的介紹顯示“使用最新的網絡爬蟲技術，智能幫你追蹤你喜歡的網絡小說”。雖然涉案作品的詳情界面下方標注了第三方網站網址及選擇的用戶比例等，但點擊該內容后，并未出現(xiàn)網頁跳轉，而是瞬間顯示涉案應用程序中涉案作品的詳情界面，繼而顯示涉案作品的內容，且在返回涉案應用程序中涉案作品的詳情界面進行下載時并未顯示下載來源。被告的涉案行為使得網絡用戶可以在其個人選定的時間、地點實現(xiàn)對涉案作品的下載，侵犯了原告享有的信息網絡傳播權及獲得報酬權，應當承擔停止侵害、賠償損失的法律責任[16]。

4.1.3 深圳市騰訊計算機系統(tǒng)有限公司與湖南聚漫文化有限公司著作權權屬、侵權糾紛案

一審法院判決指出，被告提出其使用爬蟲程序，對互聯(lián)網的內容進行搜索，不存儲內容，但原告提交的《公證書》顯示，在被告經營的“漫云”App 上可以查看漫畫作品《尸兄》，整個查看過程均是在“漫云”App 內完成，并沒有顯示跳轉至第三方網頁，同時鑒于被告未提交證據予以證明“漫云”App 系提供搜索服務，故法院認定“漫云”App 中的漫畫作品系由被告提供，對被告的該項辯稱意見，法院不予采信[17]。

4.1.4 北京小犀快跑科技有限公司與深圳市第一推信息技術有限公司著作權權屬、侵權糾紛案

一審法院判決指出，第一推公司辯稱其從虎嗅網中抓取涉案文章、標注了涉案文章來源于微信公眾號AI 財經社、作者為吳倩南以及原標題等信息。但是，第一推公司未提交證據證明其從小犀公司或虎嗅網獲得使用涉案文章的授權。因此，第一推公司未經許可在其網站使用了涉案文章的內容，侵犯了小犀公司對涉案文章享有的信息網絡傳播權，應承擔停止侵權、賠償損失的民事責任[18]。

4.1.5 杭州阿里巴巴廣告有限公司、阿里巴巴（中國）網絡技術有限公司等與南京碼注網絡科技有限公司等不正當競爭糾紛案

一審法院判決指出，爭議焦點之一是碼注公司抓取和使用數據的行為是否在合理限度之內。原告為收集數據投入了大量資源且為原告經營活動的重要資源。二是原告通過網站作出了法律聲明，禁止未經許可使用爬蟲軟件獲取、使用涉案數據，故涉案數據雖已公開，但并非可以任意獲取、使用的開放數據，碼注公司不可以毫無節(jié)制地抓取、使用涉案數據，應當本著善良、誠信的原則，在必要限度內使用涉案數據[19]。應當注意，在本案中，被告企業(yè)畫像只是對于數據而非作品的利用，否則有可能涉及著作權侵權。

4.2 涉文本與數據挖掘著作權中國司法實踐的評論

目前，我國法院已有涉及爬取數據的司法判決，從既有判決結果分析，對于商業(yè)性文本與數據挖掘，法院大概率會作出著作權侵權的判決?！侗Ｗo文學和藝術作品伯爾尼公約》《世界知識產權組織版權條約》《與貿易有關的知識產權協(xié)議》允許成員國對著作權作出限制的規(guī)定，提出“三步檢驗標準”，即對專有權利的限制應局限于特定情況，不應與作品的正常利用沖突，且不得不合理地損害權利人的合法利益。我國新修訂的《著作權法》第二十四條，將原著作權法第二十二條和著作權法實施條例第二十一條的內容融合，增加“不得影響該作品的正常使用，也不得不合理地損害著作權人的合法權益”，形成“三步檢測”規(guī)則。然而，鑒于我國《著作權法》三步檢測條款具有封閉性，文本與數據挖掘不屬于法定十三種著作權合理使用情形。司法實踐存在共識，我國《著作權法》未將營利性使用規(guī)定為侵權要件，因此，在現(xiàn)行制度下，非商業(yè)性文本與數據挖掘在我國也存在被判決為著作權侵權的風險。江云龍訴無錫市貿易資產經營公司著作權侵權糾紛案[20]法院判決指出，《著作權法》未將營利性使用規(guī)定為侵權要件，未經許可使用他人的作品，不屬于著作權合理使用和法定許可范疇的，依法應認定為侵權行為。而非商業(yè)性文本與數據挖掘一旦被法院判決為著作權侵權，無疑將對相關技術行業(yè)的發(fā)展十分不利，甚至有損我國在相關行業(yè)的技術競爭力。

美國學者指出，文本與數據挖掘著作權例外的規(guī)定，實際上構成國家之間在技術發(fā)展與進步上的競爭，從英國、日本等國家以及歐盟及其成員國的文本與數據挖掘著作權例外立法改革中，可初見端倪[4]。在文本與數據挖掘著作權例外方面，美國司法實踐通過轉換性使用這一著作權合理使用的情形，甚至將商業(yè)性文本與數據挖掘著作權例外納入著作權合理使用范疇，美國司法實踐對于文本與數據挖掘技術的發(fā)展，無疑具有深遠意義，值得深思。

5 文本與數據挖掘著作權例外域外實踐的中國借鑒

5.1 非商業(yè)性文本與數據挖掘的司法適用

我國新修訂的《著作權法》，規(guī)定了三步檢測條款，但文本與數據挖掘著作權例外條款尚未列入。關于轉換性使用問題，章凱平、廣州網易計算機系統(tǒng)有限公司著作權許可使用合同糾紛二審民事判決書指出，一方面，“轉換性使用”并非我國法律對著作權利限制的情形之一，另一方面，并非所有具有轉換性的使用行為都應被認定為合理使用。構成合理使用的轉換性程度應當達到一定高度，即受眾關注點主要在于對作品轉換性使用所產生的價值、功能或性質，而非作品本身的文學、藝術價值，這種轉換性使用行為增進社會知識財富的貢獻超過對著作權人利益的損害。轉換性程度越高，對著作權人利益損害越小，則認定構成合理使用的可能性越高[21]。鑒于前文所述文本與數據挖掘對于科學研究和技術進步的客觀價值，從促進技術發(fā)展的角度，我國各級法院對于非商業(yè)性文本與數據挖掘在司法適用方面，有必要確認其屬于著作權合理使用的范疇。最高人民法院《關于案例指導工作的規(guī)定》中指出，全國法院在審理與指導性案例類似的案件時，應當參照指導性案例。最高人民法院《關于統(tǒng)一法律適用加強類案檢索的指導意見（試行）》中強調法官對指導性案例的參照和對其他類案的參考，旨在實現(xiàn)法律的統(tǒng)一適用。各級法院有必要充分發(fā)揮指導性案例和類案檢索的功能，統(tǒng)一裁判尺度，彌補立法的不足。

5.2 文本與數據挖掘著作權例外的立法建議

我國有必要借鑒歐盟及其成員國關于文本與數據挖掘著作權例外的規(guī)定。我國著作權法的后續(xù)修訂中有必要作出規(guī)定，為科學研究目標的文本與數據挖掘，應構成著作權合理使用。有權進行文本與數據挖掘的主體，至少應包括公益性科研機構和文化機構。文本與數據挖掘的對象，至少包括合法獲得的作品。文本與數據挖掘的行為，應包括復制、提取和精煉。文本與數據挖掘的作品或者其他客體的復制件，應當基于合理安全水平保存，并應基于驗證研究結果的科研目的而保留。權利人應當被允許采取措施，保障文本與數據挖掘的作品或者其他客體及其復制件所在網絡和數據庫的安全和完整，但該措施不得超過實現(xiàn)上述目標的必要限度。應當鼓勵權利人、科研機構、文化機構定義涉及保存和保留措施、安全和完整措施的最佳實踐。一旦研究工作結束，文本與數據挖掘過程中的復制件應當被刪除或者由特定機構進行處理，不得為公眾獲得。對文本與數據挖掘作品或者其他客體及其復制件的任何出售、出租、許諾銷售行為，應當被認定為著作權侵權行為。一旦被認定為著作權侵權行為，后續(xù)任何目標的行為，都應當被認定為侵權行為。最后，旨在禁止和限制文本與數據挖掘著作權例外的合同條款，應認定為無效。