999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器挖掘文本,允許還是禁止

2013-04-11 01:30:45陳秀剛編譯
世界科學(xué) 2013年7期
關(guān)鍵詞:數(shù)據(jù)挖掘文本研究

陳秀剛/編譯

●科學(xué)家想要讓機(jī)器讀取學(xué)術(shù)期刊網(wǎng)中的論文,出版商顯然不樂(lè)意,兩方正在激烈交鋒。

科研工作者們?cè)谶^(guò)去的一年里,普遍抱怨出版商不讓他們使用計(jì)算機(jī)程序下載和閱讀論文。他們認(rèn)為出版商阻礙了他們的學(xué)術(shù)研究。

由于擔(dān)心文章內(nèi)容可能會(huì)被隨意重新分配,出版商一旦發(fā)現(xiàn)機(jī)器在閱讀全文,通常會(huì)立即阻止程序運(yùn)行,就算用戶支付費(fèi)用也不能破例。他們只把權(quán)限給那些在逐案基礎(chǔ)上訪問(wèn)和使用的協(xié)議客戶。現(xiàn)在,歐洲委員會(huì)(ECC)和出版商財(cái)團(tuán)正試圖創(chuàng)建更清晰的規(guī)則。但從不久前出版商給歐洲委員會(huì)組的投訴來(lái)看,討論文本數(shù)據(jù)挖掘的分歧依然存在。

“如果數(shù)據(jù)和文本挖掘技術(shù)繼續(xù)受到目前法律的限制,……下一個(gè)醫(yī)學(xué)突破將被封殺。”歐盟委員會(huì)委員副總裁尼莉 克羅斯(Neelie Kroes)在去年九月的布魯塞爾知識(shí)產(chǎn)權(quán)峰會(huì)上如是說(shuō)。

數(shù)據(jù)挖掘的使用

●text2genome項(xiàng)目從300萬(wàn)篇研究論文中提取出DNA序列鏈接,創(chuàng)造出了在線基因組圖譜,其中每個(gè)區(qū)域與一篇研究論文相鏈接。

●NeuroSynth網(wǎng)站從近4 400篇研究文章中提取了腦掃描數(shù)據(jù),允許用戶將人類大腦中的位置與相關(guān)研究術(shù)語(yǔ)和主題相鏈接。

●化學(xué)數(shù)據(jù)。SureChem網(wǎng)站成功從約20萬(wàn)項(xiàng)專利中提取免費(fèi)的分子數(shù)據(jù)。

●研究人員在論文數(shù)據(jù)庫(kù)中從兩千余萬(wàn)篇文章中搜查摘要,發(fā)現(xiàn)了上皮細(xì)胞鈣粘蛋白(細(xì)胞粘附分子)和帕金森氏癥之間的間接聯(lián)系。

出版商說(shuō),到目前為止,幾乎沒(méi)有研究人員提出挖掘文件的要求。盡管如此,阿姆斯特丹的出版商愛(ài)思唯爾說(shuō),2012年,電腦機(jī)器人在其SCIENCEDIRECT網(wǎng)站平臺(tái)上爬行的流量占據(jù)網(wǎng)絡(luò)總流量的4%,幾乎是2011年的兩倍。不管初衷是什么,這一數(shù)字表明,不只是人類,機(jī)器也越來(lái)越會(huì)閱讀文章。

勞爾·羅德里格斯·埃斯特班,是康涅狄格州里奇菲爾德市勃林格殷格翰制藥公司的一名計(jì)算生物學(xué)家,他說(shuō),他在2012年進(jìn)行了160項(xiàng)文本挖掘查詢。在其中一項(xiàng)里,他搜索了23 000余篇文章,挑選出數(shù)百蛋白質(zhì),可以減輕多發(fā)性硬化癥的小鼠模型。然后,他勾勒出網(wǎng)絡(luò)中相關(guān)的其他蛋白質(zhì),并發(fā)現(xiàn)了新的潛在的藥物目標(biāo)。學(xué)術(shù)研究人員希望能獲得這種能力,但需要數(shù)月或數(shù)年談判協(xié)議才能獲得。位于加利福尼亞州的圣克魯斯大學(xué)的馬克思·霍伊斯勒(Max Haeussler),花了三年時(shí)間獲得下載3萬(wàn)篇文章的權(quán)利,他從這些文章中提取DNA數(shù)據(jù),并在人類基因組在線地圖中進(jìn)行了標(biāo)注。

今年下半年,英國(guó)將在非商業(yè)用途方面豁免文本挖掘的版權(quán),從而使科學(xué)家在挖掘之前獲取他們需要付費(fèi)的任何內(nèi)容。文本挖掘人員希望歐盟也能這樣做。“目前用戶間熱傳的口號(hào)是:‘我們應(yīng)該有閱讀的權(quán)利’”英國(guó)曼徹斯特大學(xué)國(guó)家中心文本挖掘副主任約翰·麥克諾特說(shuō)道。

但歐共體的工作組在今年討論文本和數(shù)據(jù)挖掘時(shí)產(chǎn)生了分歧。今年2月4日會(huì)后,研究人員和圖書(shū)館管理員都抱怨說(shuō),歐共體小組討論的只是如何在有文本挖掘許可證的情況下進(jìn)行數(shù)據(jù)挖掘,而不是如何豁免文本挖掘版權(quán)。“只會(huì)提高采用這種技術(shù)的壁壘,并使得計(jì)算機(jī)基礎(chǔ)研究在很多情況下無(wú)法進(jìn)行。”他們?cè)?月26日給克羅斯和其他三位歐盟專員的信中這樣寫(xiě)道,但這封信至今尚未得到答復(fù)。

英國(guó)巴斯大學(xué)的羅斯莫斯,目前正在使用文本挖掘從文獻(xiàn)中提取進(jìn)化關(guān)聯(lián)的樹(shù)狀圖。他說(shuō),3月8日的第二次會(huì)議,歐盟也很難保證會(huì)認(rèn)真考慮文本挖掘的豁免權(quán)事宜。歐共體工作組希望在年底能得出一致的結(jié)論和觀點(diǎn)。

●相關(guān)鏈接●

文本挖掘有時(shí)也被稱為文字探勘、文本數(shù)據(jù)挖掘等,大致相當(dāng)于文字分析,一般指文本處理過(guò)程中產(chǎn)生高質(zhì)量的信息。高質(zhì)量的信息通常通過(guò)分類和預(yù)測(cè)來(lái)產(chǎn)生,如模式識(shí)別。文本挖掘通常涉及輸入文本的處理過(guò)程(分析,同時(shí)加上一些衍生語(yǔ)言特征以及消除雜音,隨后插入到數(shù)據(jù)庫(kù)中),產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),并最終評(píng)價(jià)和解釋輸出。典型的文本挖掘方法包括文本分類,文本聚類,概念/實(shí)體挖掘,生產(chǎn)精確分類,觀點(diǎn)分析,文檔摘要和實(shí)體關(guān)系模型。 [摘自維基百科]

美國(guó)的情況比較明朗,一些律師認(rèn)為文本挖掘在 “合理使用”的情況下可以被允許進(jìn)行,能夠自由復(fù)制一些文字片段。但是,沒(méi)有人對(duì)此了解的很確切,許多研究人員擔(dān)心這是對(duì)法律的灰色地帶的邊緣性挑戰(zhàn)。

一些出版商認(rèn)為,無(wú)限制的文本挖掘會(huì)使他們的服務(wù)器使用過(guò)度,何時(shí)及如何下載文章還需再著重研究一下。 CrossRef網(wǎng)站是個(gè)非盈利組織,它擁有數(shù)以千計(jì)的學(xué)術(shù)出版物,目前他們正在開(kāi)發(fā)一個(gè)系統(tǒng),在這個(gè)系統(tǒng)里,研究人員可以點(diǎn)擊出版商網(wǎng)站的按鈕,以示同意標(biāo)準(zhǔn)文本挖掘條款。CrossRef的杰夫比德?tīng)柋硎驹撓到y(tǒng)有望在今年年底推出。

馬薩諸塞州丹弗斯的版權(quán)結(jié)算中心(CCC)的主要工作就是與出版商協(xié)商版權(quán)問(wèn)題,目前它正努力為用戶尋求更多利益。版權(quán)結(jié)算中心的研究人員羅伊·考夫曼說(shuō),版權(quán)結(jié)算中心作為中介,會(huì)收集出版商的條款內(nèi)容,并將其存儲(chǔ)在網(wǎng)站上。目前他們正與六個(gè)出版商(包括《自然》出版集團(tuán))及急于挖掘文獻(xiàn)的藥物化學(xué)品公司進(jìn)行合作。

希瑟布魯爾達(dá)勒姆來(lái)自北卡羅萊納州的國(guó)家進(jìn)化綜合中心,專門(mén)研究搜索人員如何使用數(shù)據(jù),他認(rèn)為,只允許像谷歌這樣的大企業(yè)挖掘文本內(nèi)容是不公平的——然而迄今為止,科學(xué)家們都沒(méi)有權(quán)限使用數(shù)據(jù)。“谷歌知道它在做什么,但我們其余的人卻沒(méi)有信用等級(jí)去挖掘數(shù)據(jù),這說(shuō)法是站不住腳的,”她在博客中寫(xiě)道,“我肯定不希望是這樣的結(jié)局。”

猜你喜歡
數(shù)據(jù)挖掘文本研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統(tǒng)研究
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 亚洲午夜国产片在线观看| 18禁黄无遮挡免费动漫网站| 丁香五月激情图片| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产熟女一级毛片| 国产乱人免费视频| 国产乱子伦视频在线播放| 中文字幕中文字字幕码一二区| 国产乱视频网站| 亚洲香蕉在线| 国产在线视频福利资源站| 一级毛片基地| av天堂最新版在线| 久久青草热| 国产性爱网站| 一级黄色片网| 99热最新网址| 国产69精品久久久久孕妇大杂乱 | 国产JIZzJIzz视频全部免费| 欧美三级自拍| 久久综合色天堂av| 四虎成人精品在永久免费| 国产手机在线小视频免费观看| 亚洲一区国色天香| 就去吻亚洲精品国产欧美| 国产成人精品一区二区| 天堂网国产| 嫩草国产在线| 九九久久精品国产av片囯产区| 美女被躁出白浆视频播放| 麻豆精品视频在线原创| 中文无码影院| 亚洲视频一区在线| 亚洲天堂视频在线免费观看| 国产精品亚洲综合久久小说| 免费毛片全部不收费的| 伊人久久综在合线亚洲91| 久久熟女AV| 国产色婷婷| 国产在线观看一区二区三区| 91在线视频福利| 国产精品视频a| 国产福利一区视频| 精品一区二区三区波多野结衣| 亚洲视频在线观看免费视频| 精品剧情v国产在线观看| 国产清纯在线一区二区WWW| 免费观看男人免费桶女人视频| 国产在线日本| 狠狠色噜噜狠狠狠狠色综合久| 色偷偷男人的天堂亚洲av| 欧美成人综合在线| 香蕉久久国产超碰青草| 日本国产精品一区久久久| 国产另类视频| 青草视频免费在线观看| www.91中文字幕| 97人妻精品专区久久久久| 538国产视频| 亚洲经典在线中文字幕| 亚洲色偷偷偷鲁综合| 国产成人精品一区二区三区| 婷婷亚洲综合五月天在线| 无码日韩精品91超碰| 美女被躁出白浆视频播放| 91九色国产在线| 免费在线观看av| 天堂亚洲网| 色婷婷综合激情视频免费看| 女人18一级毛片免费观看| 亚洲人成高清| 中日无码在线观看| 四虎影视永久在线精品| 日韩乱码免费一区二区三区| 四虎影视库国产精品一区| 波多野结衣在线一区二区| 72种姿势欧美久久久大黄蕉| 亚洲男人天堂网址| 波多野结衣二区| 91久草视频| 欧美成人一级| 久久精品国产精品一区二区|