楊博宇 余 萍
(611130 西南財經大學 四川 成都)
TDM,Text and Data Ming,也被稱做Content Mining,是一種基于計算機數據處理技術對數字化的數據進行處理并提取隱含信息的過程。學界中對于其定義有諸多討論。
郝文江(2007)認為,文本和數據挖掘(TDM),是指通過運用自動分析技術對現有的文本和數據進行考察分析,以便從中發現某種模型、趨勢或其他有用信息。化柏林(2008)認為,數據挖掘是指從大量的、不完全的、模糊的、隨機的應用數據中,提取隱含在其中的但又是潛在有用的信息和知識的過程。宋海艷、邵承瑾等(2014)認為數據挖掘只是知識發現階段即從數據集中提取信息階段的一個關鍵環節,整個知識發現階段應當包括數據準備階段、數據挖掘階段以及結果解釋與評價階段。
更為明確的定義可以在英國知識產權辦公室(UK IPO)2012年針對TDM做的一項影響分析中找到,“文本和數據以及數據分析方法是從現有的電子信息中提取數據,建立新的事實和關系,以從先前的研究中建立新的科學發現。這種方式包括復制已完成的工作成果,作為提取數據過程的一部分。”國際科學、技術和醫學出版商協會(STM)認為,“文本和數據挖掘意味著對發布者的內容進行廣泛的自動化的搜索,其包括對語言結構的排序、分析、增補或刪除以及選擇和包含,常在行業索引或者數據庫中用于分類或識別關系。”
Jean-Paul Triaille et al (2014)的報告中將TDM稱做數據分析(Data Analysis,DA),認為這是一種對于數字材料的自動化處理,包括文本、數據、聲音、圖像或其他元素,或這些元素的組合,以便發現新的知識或見解。這個過程有四個特點:①具有自動性:是電腦對于選擇的電子數據進行自動獲取的過程(他們認為正是這種區別于人為選擇的技術性特征使得TDM功能強大且引發了新的版權問題);②數據經過處理:包括提取、復制、比較、分類以及其他數據分析過程;③對象是數字化材料,包括文本、數據、圖片及其他元素;④是為了發現新知識或啟示。
由上可知,生活中我們所進行的數據檢索工作、數據庫使用過程,數字圖書館館藏圖書閱讀等操作,都是在TDM或DA的基礎上,對我們所選擇的數據進行處理后所呈現的成果。
當前,TDM技術在多個領域都展現出極強的實用價值。出版研究聯盟針對期刊文本挖掘技術適用的一項調查(2016)表明,文本和數據挖掘技術正在被人們所認知和接受,人們普遍認為該技術能夠對每一個領域的研究人員產生積極的作用。李鋼(2016)提出,在商業領域,商家解決信息不對稱問題的傳統方式是依賴統計數據推測消費者偏好,而文本挖掘通過自然語言分析使商家能夠直接了解消費者對產品的喜好,并對其市場策略做出相應的調整。孟慶良、展俊平(2014)在一項醫學研究中運用TDM技術,得出結論,認為TDM技術能夠為中西醫結合研究提供更直觀的展示,為中醫臨床研究提供有益參考,更好地指導服務于臨床。郭金龍、許鑫(2012)從TDM在數字人文研究中的典型應用出發,指出TDM技術的發展將對創新人文科學的研究方法和研究范式產生深遠的影響。
綜上而言,TDM技術可以被視為廣義上的一種利用“大數據”的網絡背景,對現有的電子化文本和數據進行挖掘,處理并提煉出有用信息的過程,其具有知識發現、運用廣泛、商業潛力巨大的特點。
全球研究界每年將產生150多萬篇新的學術文章,這些文章以及其他類似文學、技術、科學作品經過發表和數據化處理之后,就形成了一個極為龐大的全球性的文獻數據庫。由于訪問限制等原因,文章的數據會被分類儲存到不同的載體或者電子館藏圖書館中。但是TDM技術在一定程度上可以突破訪問壁壘,在將所能提取到的數據整合后,呈獻給訪問者一種可視化的數據分析后的成果。其結果可能是根據關鍵詞導出的段落化的文獻,根據信息搜索出的碎片化的數據信息,或者根據圖片分類檢索功能產生的圖片映像等形式。
大致來說,TDM的應用過程可以分為大致幾個階段:
(1)數據源的獲取:將所需要的內容從外部來源或內部自有數據中提取出來,該內容可能是受到版權保護或者是數據庫通過一定的技術手段進行防護的;
(2)轉化內容:必要時,將提取出的內容轉化為所需要的形式;
(3)加載內容:將需要的內容加載到數據集、存儲庫或者內容集合中;
(4)數據分析:對內容數據進行挖掘并分析;
(5)成果展現:通過分析產生挖掘后的結果。
在這五個階段之中,無論是對于數據的獲取或者轉化、復制、重新加載以及分析,都會在一定程度上觸碰到法律的邊界。
I.Hargreaves (2011)在其研究中肯定了TDM的價值,認為對學術文獻和其他數字化的文本進行挖掘和分析為新知識的發展和創新提供了一個真正的機會。但Dr. Diane McDonald & Ursula Kelly(2012)指出,為了“被挖掘”,上述數據必須被訪問、復制、分析、注釋并與現存的信息和理解所關聯,這在一定程度上,侵犯了出版商的利益。
對于這樣一種使用價值巨大、前景良好的技術來說,其還需要克服一些法律法規上的壁壘,尤其是在數據處理過程中所發生的,對數據進行復制、分析、破解時的自主技術性操作和著作權法中為了保護版權所賦予權利人的權利價值之間,所產生的實踐價值和法律價值的沖突選擇。
首先,我國著作權法應當在法律層面,對“數據”下一個符合使用目的的定義。現行《著作權法》第五條規定了我國的版權客體排除規則,參照美國通過版權客體排除規則解決大數據產業排除困境的現行做法,我國或許可以將“數據”納入公有領域范疇,成為版權保護的例外性規定。
其次,既然TDM是針對電子化的文本和數據進行挖掘的技術,則法律應當從技術的本源出發,對其所挖掘的客觀對象——數據,進行分級。
例如,有學者在將數據的獲取和展示分成了四個級別:

級別 種類完全公開 網絡數據多方對多方 社交媒體數據一方對多方 合同/出版商數據單方對單方 保密數據
針對不同級別的數據,使用者需要不同程度的相應授權。授權內容應當包括使用的目的、使用的形式、使用的時間等基本的合同性約定。而在處理不同層次的數據時,數據處理者所承擔的責任也應當是有所區分的。
鑒于歐盟并未對TDM的具體使用模式作出限定,現有的主流立法模式主要有美國采取的“無條件例外”的合理使用模式和英國“版權例外”的模式。
許可方式的選擇實際上是一種對于傳統版權產業與新興大數據產業之間如何激勵取舍的制度安排問題。李國慶(2016)在審視了谷歌圖書案之后提出,我國的合理使用制度應當:①以版權法目的——信息共享作為價值訴求;②為實現合理使用的價值訴求,合理使用制度應當具有一定的靈活性。
美國采取的“無條件例外”的“合理使用”許可模式并未對TDM技術的使用對象進行限定,英國的特殊性版權例外許可允許任何非權利人按照規定模式使用,僅歐盟的《草案》將TDM的適用對象限定在研究機構之上。
筆者認為限制技術的使用對象是不適宜的。現行的TDM技術的提供者和使用者主要集中在數據庫、數字型圖書館、搜索平臺等以研究機構、高校、公司等集體性組織之上,普通大眾暫時只作為TDM技術的成果接收方和獲益者參與其中。作為成果第三方,普通人應當不與TDM技術提供方就TDM操作過程中可能存在的侵權事宜承擔連帶責任。但在獲取由TDM技術提供后的信息之后,新知識的再創建過程例如科學研究中利用所獲取的數據實驗得出研究成果,經濟學家通過搜索到的經濟數據作為基礎數據進行重新編排制作觀察報告的過程可能涉及到對原始數據的再編排過程,該行為是否違反《著作權法》還有待討論。因而,現行立法過程中不應該對技術的適用對象進行限制。
[1]郝文江.基于數據挖掘技術對公安犯罪分析的改進.吉林公安高等專科學院學報,2007年第3期,第112頁.
[2]化柏林.數據挖掘與知識發現關系探析[J].情報理論與實踐 ,2008(4).
[3]宋海艷,邵承瑾,顧立平,張東榮,潘衛,黃文麗,蔣麗麗,陳天天,張浩.我國科研人員對機構知識庫認知與使用的現狀調查與分析[J].現代圖書情報技術,2014,8-16.
[4]李鋼.大數據時代文本挖掘的版權例外[J],圖書館工作與研究,2016,1(3),28-31.
[5]袁軍鵬,朱東華,李毅,李連宏,黃進.文本挖掘技術研究進展[J].計算機應用研究,2006,23(2),1-4.
[6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.
[8]STM, Text and Data Mining Sample Subscription,2012.
[9]Jean-Paul Triaille, Jér?me de Mee?s d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.
[10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.
[11]孟慶良,展俊平,郭會卿,郭洪濤,鄭光,呂愛平,姜淼.基于文本挖掘技術析甲氨蝶呤與中醫治療聯合應用的規律[J].中國中醫基礎醫學雜志,2014.
[12]郭金龍,許鑫.數字人文中的文本挖掘研究[J].大學圖書館學報,2012,30(3),11-18.
[13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.
[14]李國慶.谷歌圖書館案The Authors Guild, Inc. v Google, Inc.判決述評——以合理使用制度為視角[J].中國版權,2016.