999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本和數據挖掘技術(TDM)與著作權保護

2018-05-30 08:33:37楊博宇
職工法律天地·上半月 2018年8期
關鍵詞:數據挖掘文本研究

楊博宇 余 萍

(611130 西南財經大學 四川 成都)

一、TDM的定義

TDM,Text and Data Ming,也被稱做Content Mining,是一種基于計算機數據處理技術對數字化的數據進行處理并提取隱含信息的過程。學界中對于其定義有諸多討論。

1.我國學者定義

郝文江(2007)認為,文本和數據挖掘(TDM),是指通過運用自動分析技術對現有的文本和數據進行考察分析,以便從中發現某種模型、趨勢或其他有用信息。化柏林(2008)認為,數據挖掘是指從大量的、不完全的、模糊的、隨機的應用數據中,提取隱含在其中的但又是潛在有用的信息和知識的過程。宋海艷、邵承瑾等(2014)認為數據挖掘只是知識發現階段即從數據集中提取信息階段的一個關鍵環節,整個知識發現階段應當包括數據準備階段、數據挖掘階段以及結果解釋與評價階段。

2.國際上典型的定義

更為明確的定義可以在英國知識產權辦公室(UK IPO)2012年針對TDM做的一項影響分析中找到,“文本和數據以及數據分析方法是從現有的電子信息中提取數據,建立新的事實和關系,以從先前的研究中建立新的科學發現。這種方式包括復制已完成的工作成果,作為提取數據過程的一部分。”國際科學、技術和醫學出版商協會(STM)認為,“文本和數據挖掘意味著對發布者的內容進行廣泛的自動化的搜索,其包括對語言結構的排序、分析、增補或刪除以及選擇和包含,常在行業索引或者數據庫中用于分類或識別關系。”

Jean-Paul Triaille et al (2014)的報告中將TDM稱做數據分析(Data Analysis,DA),認為這是一種對于數字材料的自動化處理,包括文本、數據、聲音、圖像或其他元素,或這些元素的組合,以便發現新的知識或見解。這個過程有四個特點:①具有自動性:是電腦對于選擇的電子數據進行自動獲取的過程(他們認為正是這種區別于人為選擇的技術性特征使得TDM功能強大且引發了新的版權問題);②數據經過處理:包括提取、復制、比較、分類以及其他數據分析過程;③對象是數字化材料,包括文本、數據、圖片及其他元素;④是為了發現新知識或啟示。

由上可知,生活中我們所進行的數據檢索工作、數據庫使用過程,數字圖書館館藏圖書閱讀等操作,都是在TDM或DA的基礎上,對我們所選擇的數據進行處理后所呈現的成果。

二、TDM的應用和價值

當前,TDM技術在多個領域都展現出極強的實用價值。出版研究聯盟針對期刊文本挖掘技術適用的一項調查(2016)表明,文本和數據挖掘技術正在被人們所認知和接受,人們普遍認為該技術能夠對每一個領域的研究人員產生積極的作用。李鋼(2016)提出,在商業領域,商家解決信息不對稱問題的傳統方式是依賴統計數據推測消費者偏好,而文本挖掘通過自然語言分析使商家能夠直接了解消費者對產品的喜好,并對其市場策略做出相應的調整。孟慶良、展俊平(2014)在一項醫學研究中運用TDM技術,得出結論,認為TDM技術能夠為中西醫結合研究提供更直觀的展示,為中醫臨床研究提供有益參考,更好地指導服務于臨床。郭金龍、許鑫(2012)從TDM在數字人文研究中的典型應用出發,指出TDM技術的發展將對創新人文科學的研究方法和研究范式產生深遠的影響。

綜上而言,TDM技術可以被視為廣義上的一種利用“大數據”的網絡背景,對現有的電子化文本和數據進行挖掘,處理并提煉出有用信息的過程,其具有知識發現、運用廣泛、商業潛力巨大的特點。

三、TDM與著作權保護的沖突

全球研究界每年將產生150多萬篇新的學術文章,這些文章以及其他類似文學、技術、科學作品經過發表和數據化處理之后,就形成了一個極為龐大的全球性的文獻數據庫。由于訪問限制等原因,文章的數據會被分類儲存到不同的載體或者電子館藏圖書館中。但是TDM技術在一定程度上可以突破訪問壁壘,在將所能提取到的數據整合后,呈獻給訪問者一種可視化的數據分析后的成果。其結果可能是根據關鍵詞導出的段落化的文獻,根據信息搜索出的碎片化的數據信息,或者根據圖片分類檢索功能產生的圖片映像等形式。

大致來說,TDM的應用過程可以分為大致幾個階段:

(1)數據源的獲取:將所需要的內容從外部來源或內部自有數據中提取出來,該內容可能是受到版權保護或者是數據庫通過一定的技術手段進行防護的;

(2)轉化內容:必要時,將提取出的內容轉化為所需要的形式;

(3)加載內容:將需要的內容加載到數據集、存儲庫或者內容集合中;

(4)數據分析:對內容數據進行挖掘并分析;

(5)成果展現:通過分析產生挖掘后的結果。

在這五個階段之中,無論是對于數據的獲取或者轉化、復制、重新加載以及分析,都會在一定程度上觸碰到法律的邊界。

I.Hargreaves (2011)在其研究中肯定了TDM的價值,認為對學術文獻和其他數字化的文本進行挖掘和分析為新知識的發展和創新提供了一個真正的機會。但Dr. Diane McDonald & Ursula Kelly(2012)指出,為了“被挖掘”,上述數據必須被訪問、復制、分析、注釋并與現存的信息和理解所關聯,這在一定程度上,侵犯了出版商的利益。

對于這樣一種使用價值巨大、前景良好的技術來說,其還需要克服一些法律法規上的壁壘,尤其是在數據處理過程中所發生的,對數據進行復制、分析、破解時的自主技術性操作和著作權法中為了保護版權所賦予權利人的權利價值之間,所產生的實踐價值和法律價值的沖突選擇。

四、數據的定義和分級

首先,我國著作權法應當在法律層面,對“數據”下一個符合使用目的的定義。現行《著作權法》第五條規定了我國的版權客體排除規則,參照美國通過版權客體排除規則解決大數據產業排除困境的現行做法,我國或許可以將“數據”納入公有領域范疇,成為版權保護的例外性規定。

其次,既然TDM是針對電子化的文本和數據進行挖掘的技術,則法律應當從技術的本源出發,對其所挖掘的客觀對象——數據,進行分級。

例如,有學者在將數據的獲取和展示分成了四個級別:

級別 種類完全公開 網絡數據多方對多方 社交媒體數據一方對多方 合同/出版商數據單方對單方 保密數據

針對不同級別的數據,使用者需要不同程度的相應授權。授權內容應當包括使用的目的、使用的形式、使用的時間等基本的合同性約定。而在處理不同層次的數據時,數據處理者所承擔的責任也應當是有所區分的。

鑒于歐盟并未對TDM的具體使用模式作出限定,現有的主流立法模式主要有美國采取的“無條件例外”的合理使用模式和英國“版權例外”的模式。

許可方式的選擇實際上是一種對于傳統版權產業與新興大數據產業之間如何激勵取舍的制度安排問題。李國慶(2016)在審視了谷歌圖書案之后提出,我國的合理使用制度應當:①以版權法目的——信息共享作為價值訴求;②為實現合理使用的價值訴求,合理使用制度應當具有一定的靈活性。

美國采取的“無條件例外”的“合理使用”許可模式并未對TDM技術的使用對象進行限定,英國的特殊性版權例外許可允許任何非權利人按照規定模式使用,僅歐盟的《草案》將TDM的適用對象限定在研究機構之上。

筆者認為限制技術的使用對象是不適宜的。現行的TDM技術的提供者和使用者主要集中在數據庫、數字型圖書館、搜索平臺等以研究機構、高校、公司等集體性組織之上,普通大眾暫時只作為TDM技術的成果接收方和獲益者參與其中。作為成果第三方,普通人應當不與TDM技術提供方就TDM操作過程中可能存在的侵權事宜承擔連帶責任。但在獲取由TDM技術提供后的信息之后,新知識的再創建過程例如科學研究中利用所獲取的數據實驗得出研究成果,經濟學家通過搜索到的經濟數據作為基礎數據進行重新編排制作觀察報告的過程可能涉及到對原始數據的再編排過程,該行為是否違反《著作權法》還有待討論。因而,現行立法過程中不應該對技術的適用對象進行限制。

[1]郝文江.基于數據挖掘技術對公安犯罪分析的改進.吉林公安高等專科學院學報,2007年第3期,第112頁.

[2]化柏林.數據挖掘與知識發現關系探析[J].情報理論與實踐 ,2008(4).

[3]宋海艷,邵承瑾,顧立平,張東榮,潘衛,黃文麗,蔣麗麗,陳天天,張浩.我國科研人員對機構知識庫認知與使用的現狀調查與分析[J].現代圖書情報技術,2014,8-16.

[4]李鋼.大數據時代文本挖掘的版權例外[J],圖書館工作與研究,2016,1(3),28-31.

[5]袁軍鵬,朱東華,李毅,李連宏,黃進.文本挖掘技術研究進展[J].計算機應用研究,2006,23(2),1-4.

[6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.

[8]STM, Text and Data Mining Sample Subscription,2012.

[9]Jean-Paul Triaille, Jér?me de Mee?s d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.

[10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.

[11]孟慶良,展俊平,郭會卿,郭洪濤,鄭光,呂愛平,姜淼.基于文本挖掘技術析甲氨蝶呤與中醫治療聯合應用的規律[J].中國中醫基礎醫學雜志,2014.

[12]郭金龍,許鑫.數字人文中的文本挖掘研究[J].大學圖書館學報,2012,30(3),11-18.

[13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.

[14]李國慶.谷歌圖書館案The Authors Guild, Inc. v Google, Inc.判決述評——以合理使用制度為視角[J].中國版權,2016.

猜你喜歡
數據挖掘文本研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美日韩精品综合在线一区| 狠狠色噜噜狠狠狠狠奇米777| 国产欧美日韩资源在线观看| 欧美日本在线| 国产制服丝袜91在线| 青草视频在线观看国产| 亚洲成人黄色在线| 美女潮喷出白浆在线观看视频| 欧美啪啪视频免码| 日本成人精品视频| 亚洲欧美日韩另类在线一| 99视频在线精品免费观看6| 91青青草视频| 丰满人妻被猛烈进入无码| 中文字幕在线观看日本| 99精品一区二区免费视频| 欧美黄色网站在线看| 欧美午夜精品| 白浆视频在线观看| 国产理论一区| 日韩精品毛片| 亚洲三级片在线看| 国产超薄肉色丝袜网站| 欧美啪啪网| 熟女日韩精品2区| 狂欢视频在线观看不卡| 国产精品三级av及在线观看| 丁香婷婷激情综合激情| 激情六月丁香婷婷| 91精品国产丝袜| 97人妻精品专区久久久久| www.亚洲一区二区三区| 亚洲国产91人成在线| 五月天香蕉视频国产亚| 亚洲国产91人成在线| 亚洲五月激情网| 国产乱人免费视频| 国产流白浆视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 91久久国产热精品免费| 亚洲欧美在线看片AI| 亚洲色图欧美视频| 欧美精品色视频| www中文字幕在线观看| 亚洲中文字幕av无码区| 98精品全国免费观看视频| 久久亚洲国产一区二区| 四虎精品黑人视频| 色香蕉影院| 国产女人在线视频| 久久亚洲AⅤ无码精品午夜麻豆| 人妻丰满熟妇啪啪| 美女国产在线| 国产欧美日韩va另类在线播放| 欧美日韩国产成人在线观看| 国产探花在线视频| 激情爆乳一区二区| 久久人午夜亚洲精品无码区| 97超级碰碰碰碰精品| 九色免费视频| 色综合天天娱乐综合网| 在线观看视频一区二区| 国产一级在线观看www色| 福利视频99| 亚洲成人在线免费观看| 亚洲第一视频免费在线| 亚洲欧州色色免费AV| 国产成人福利在线视老湿机| 国产成人综合久久精品尤物| 在线五月婷婷| 久久亚洲国产视频| 性69交片免费看| 日本午夜精品一本在线观看| 伊人久久大香线蕉成人综合网| 亚洲第一视频网| 国产91视频免费| 国产精品网址在线观看你懂的| 国产在线视频二区| 不卡无码网| 亚洲日本一本dvd高清| 国产玖玖视频| 婷婷久久综合九色综合88|