999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘

2016-06-25 06:47:25陳炎龍段紅玉
關(guān)鍵詞:文本挖掘云計(jì)算

陳炎龍+段紅玉

摘 要 針對常用的文本數(shù)據(jù)挖掘系統(tǒng)在處理海量文本數(shù)據(jù)時(shí)時(shí)間效率較低的問題,論文提出了一種基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘方法.該方法首先將傳統(tǒng)Hadoop云平臺進(jìn)行改進(jìn)以適應(yīng)海量文本數(shù)據(jù)挖掘的需要,然后將海量文本數(shù)據(jù)集和挖掘任務(wù)分解到該改進(jìn)平臺上的多臺計(jì)算機(jī)上并行處理,從而實(shí)現(xiàn)了一個(gè)基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘平臺,并通過對10 000篇新聞材料組成的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行挖掘驗(yàn)證了該平臺的有效性和高效性.

關(guān)鍵詞 文本挖掘;Hadoop;云計(jì)算;文本數(shù)據(jù)

中圖分類號 TP301 文獻(xiàn)標(biāo)識碼 A 文章編號 1000-2537(2016)03-0084-05

Abstract To overcome the problem of low time efficiency for commonly used text data mining system in the treatment of massive text data, an improved mass text data mining method was put forward based on the Hadoop cloud platform.This method firstly improved traditional Hadoop cloud framework to meet the needs of the massive text data mining, and then decomposed mass text data sets and mining task to multiple computers of the improved platform for parallel processing. By doing so, this method realizes the mass text data mining platform based on the improved Hadoop cloud platform. The effectiveness of this improved platform is verified by the mass experimental data set composed of 10 000 news materials.

Key words text mining; Hadoop; cloud computing; text data;

隨著計(jì)算機(jī)技術(shù)與信息技術(shù)的飛速發(fā)展,國民經(jīng)濟(jì)各行業(yè)所獲得的數(shù)據(jù)呈爆炸式增長,TB級甚至PB級海量數(shù)據(jù)無處不在[1].由于數(shù)據(jù)主要來自于互聯(lián)網(wǎng),例如電子商務(wù)、微博等,這些數(shù)據(jù)主要以文本形式存儲,十分繁雜但又極具價(jià)值.它們產(chǎn)生的速度遠(yuǎn)遠(yuǎn)超過了人們收集信息、利用信息的速度,使得人們無法快速有效地查找到自己真正感興趣的信息,從而造成了時(shí)間、資金和精力的巨大浪費(fèi),導(dǎo)致“數(shù)據(jù)資源”變成“數(shù)據(jù)災(zāi)難”[2].因此,如何有效地從這類海量數(shù)據(jù)中獲取信息或規(guī)律已成為當(dāng)今信息科學(xué)技術(shù)領(lǐng)域所面臨的基本科學(xué)問題之一.

然而, 在傳統(tǒng)計(jì)算框架下,海量文本數(shù)據(jù)的處理一般需要借助高性能機(jī)或者是更大規(guī)模的計(jì)算設(shè)備來完成[3].這雖然能夠在一定程度上解決海量數(shù)據(jù)的處理問題,但是其具有成本昂貴、隨著時(shí)間推移容錯(cuò)性能差、可擴(kuò)展性差等缺點(diǎn),從而導(dǎo)致其很難普及[4].

Hadoop云平臺作為一種專門處理海量數(shù)據(jù)的新式計(jì)算模型于2005年被提出,2011年1.0.0版本釋出,標(biāo)志著Hadoop已經(jīng)初具生產(chǎn)規(guī)模,它將現(xiàn)代計(jì)算機(jī)的高性能與人的高智能相結(jié)合,是當(dāng)今處理海量數(shù)據(jù)最有效、最核心的手段與途徑[5].論文將傳統(tǒng)Hadoop云平臺進(jìn)行改進(jìn)以適應(yīng)海量文本數(shù)據(jù)挖掘的需要,然后將海量文本數(shù)據(jù)集和挖掘任務(wù)分解到該改進(jìn)平臺上的多臺計(jì)算機(jī)上并行處理,從而實(shí)現(xiàn)了一個(gè)基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘平臺,并通過對10 000篇新聞材料組成的實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行挖掘驗(yàn)驗(yàn)證了平臺的有效性和高效性.

1 Hadoop云平臺簡介

Hadoop云平臺[6]是由Apache基金會(huì)開發(fā)的一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺.通過該框架,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲.Hadoop框架由HDFS[7]和MapReduce[8]組成,其中,Hadoop分布式文件系統(tǒng)(HDFS)[3]在最開始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的,目前已經(jīng)是Apache Hadoop Core項(xiàng)目的一部分.HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng).它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn).但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也很明顯[9].HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上;能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用[10].MapReduce[11]是谷歌開發(fā)的一種分布式程序設(shè)計(jì)框架,基于它編寫的應(yīng)用程序能夠運(yùn)行在由上千臺計(jì)算機(jī)組成的大型集群上,并且以一種可靠容錯(cuò)的方式對海量數(shù)據(jù)進(jìn)行并行處理.Hadoop能夠?qū)崿F(xiàn)對多種類型文件的處理,比如文本、圖像、視頻等.我們可以根據(jù)自己的需要編寫特定的應(yīng)用程序來完成任務(wù)目標(biāo) [12].

2 傳統(tǒng)基于Hadoop云平臺的文本數(shù)據(jù)挖掘

在傳統(tǒng)基于Hadoop云平臺的文本挖掘系統(tǒng)中,節(jié)點(diǎn)主要分為主節(jié)點(diǎn)(Master)和從節(jié)點(diǎn)(Slave)這兩類.整個(gè)系統(tǒng)僅有一個(gè)Master節(jié)點(diǎn),由NameNode、文本數(shù)據(jù)集、JobTracker、文本挖掘算法庫組成.在系統(tǒng)中可有多個(gè)Slave節(jié)點(diǎn),它由DataNode、TaskTracker組成,主要負(fù)責(zé)系統(tǒng)的存儲和計(jì)算任務(wù).系統(tǒng)的整體架構(gòu)如圖1所示.

NameNode: 整個(gè)集群中只有一個(gè),是整個(gè)系統(tǒng)的大腦,負(fù)責(zé)管理HDFS的目錄樹和相關(guān)的文件元數(shù)據(jù)信息以及監(jiān)控各個(gè)DataNode的健康狀態(tài).NameNode主要職責(zé)是跟蹤文件如何被分割成文件塊、文件塊又被哪些節(jié)點(diǎn)存儲,以及分布式文件系統(tǒng)的整體運(yùn)行狀態(tài)是否正常等,如果NameNode節(jié)點(diǎn)停止運(yùn)行的話將會(huì)導(dǎo)致數(shù)據(jù)節(jié)點(diǎn)無法通信,客戶端無法讀取和寫入數(shù)據(jù)到HDFS,實(shí)際上這也將導(dǎo)致整個(gè)系統(tǒng)停止工作.通常情況下每個(gè)Slave節(jié)點(diǎn)安裝一個(gè)DataNode,數(shù)據(jù)以若干個(gè)固定大小的block塊的形式在其上存儲,定期向NameNode匯報(bào)其上存儲的數(shù)據(jù)信息.

文本挖掘算法庫主要用于存儲對數(shù)據(jù)進(jìn)行挖掘所需的算法,這些算法都被存于Master節(jié)點(diǎn)中.通常算法都是串行的,為使它們能夠在Hadoop云平臺執(zhí)行,在使用之前需要對它們按照Hadoop云平臺的特點(diǎn)進(jìn)行改造.在挖掘過程中,JobTracker會(huì)根據(jù)實(shí)際所需自動(dòng)將其分發(fā)至各Slave節(jié)點(diǎn),供TaskTracker使用.

在該系統(tǒng)中,Master周期性地ping每個(gè)Slave,如果在一個(gè)時(shí)間段內(nèi)Slave沒有返回信息,Master就會(huì)標(biāo)注該Slave節(jié)點(diǎn)失效,此節(jié)點(diǎn)上所有任務(wù)將被重新初始空閑狀態(tài),并被分配給其他Slave執(zhí)行.

從功能上劃分,NameNode、DataNode、文本數(shù)據(jù)集形成了系統(tǒng)的存儲部件,JobTracker、文本挖掘算法庫、TaskTracker形成了系統(tǒng)的計(jì)算部件.

3 Hadoop云平臺的改進(jìn)

在海量文本數(shù)據(jù)挖掘中,網(wǎng)絡(luò)通信性能制約了系統(tǒng)性能的提高,網(wǎng)絡(luò)寬帶資源比較重要.在“計(jì)算遷移總是比數(shù)據(jù)遷移代價(jià)低”[12]的思想指導(dǎo)下,本文將計(jì)算節(jié)點(diǎn)和存儲節(jié)點(diǎn)配置在一起,在任務(wù)調(diào)度時(shí)盡量在保存相應(yīng)輸入文件塊的設(shè)備上分配并執(zhí)行任務(wù),這種方法使得大部分并行任務(wù)都在本地機(jī)器上讀取輸入數(shù)據(jù),有效的減少網(wǎng)絡(luò)數(shù)據(jù)流量,從而減少了節(jié)點(diǎn)間的通訊消耗.

在Hadoop云平臺工作過程中,節(jié)點(diǎn)間的數(shù)據(jù)傳輸消耗大量時(shí)間,如果能減少數(shù)據(jù)傳輸次數(shù),就有可能提高系統(tǒng)整體時(shí)間性能.在傳統(tǒng)的Hadoop云平臺中,需要將具有相同鍵值Key/Value對的中間數(shù)據(jù)傳送到同一個(gè)Reduce節(jié)點(diǎn)歸約.如果相同類型的鍵值Key/Value對較多,即這類中間結(jié)果較多的話,那么節(jié)點(diǎn)間就必定存在大量中間結(jié)果的傳送,這勢必消耗大量寬帶資源,平臺的時(shí)間性能也就交差.為此,我們對傳統(tǒng)Hadoop云平臺作如下修改:在Map階段增加一個(gè)CombineProcess模塊,對同一Map階段中具有相同鍵值Key/Value對的中間結(jié)果做一個(gè)初步合并,并過濾掉一些無用的中間結(jié)果.改進(jìn)后的Hadoop云平臺海量文本數(shù)據(jù)挖掘系統(tǒng)工作流程如圖2所示.

由于CombineProcess模塊位于Map階段,只在本地機(jī)上執(zhí)行,并不存在節(jié)點(diǎn)間的數(shù)據(jù)傳輸,因此,該模塊耗時(shí)較少.而在文本挖掘中,相同鍵值Key/Value對的中間結(jié)果以及無用的中間結(jié)果較多,經(jīng)過CombineProcess模塊的初步合并和過濾,能夠減少很多中間結(jié)果,相應(yīng)地也就較多地減少了節(jié)點(diǎn)間的數(shù)據(jù)傳輸,此較少的消耗時(shí)間要比CombineProcess模塊在本地機(jī)上執(zhí)行初步合并和過濾所消耗的時(shí)間要多得多,因此,改進(jìn)后的Hadoop云平臺系統(tǒng)在整體上能夠減少耗時(shí),執(zhí)行效率能夠有所提升.

4 仿真實(shí)驗(yàn)

在實(shí)驗(yàn)中,我們的Hadoop云平臺由9臺計(jì)算機(jī)組成(其中1臺為Master,另8臺為Slave),操作系統(tǒng)均為CentOS-6.4 64 bit,配置均為八核IntelCorei 7處理器,4 GB內(nèi)存,1 TB硬盤,Hadoop版本為1.1.2,Java版本為1.7.25,每個(gè)節(jié)點(diǎn)通過100Mb/s的局域網(wǎng)連接.實(shí)驗(yàn)數(shù)據(jù)集,從新華網(wǎng)(http://forum.xinhuanet.com/)下載2010—2013年間新聞材料,共10 000篇,包括財(cái)經(jīng)、法律、娛樂、體育、計(jì)算機(jī)等10大類.這些實(shí)驗(yàn)數(shù)據(jù)集經(jīng)預(yù)處理后 (忽略所有的報(bào)頭)進(jìn)行挖掘?qū)嶒?yàn),采用改進(jìn)前后的Hadoop云平臺海量文本挖掘系統(tǒng),主要進(jìn)行了以下3組不同的對比實(shí)驗(yàn)(注:所有時(shí)間結(jié)果都四舍五入取整):

實(shí)驗(yàn)1 處理10 000篇新聞材料,文件復(fù)制數(shù)分別設(shè)為1和3,BlockSize設(shè)為10 M,系統(tǒng)執(zhí)行時(shí)間如表1所示.

從表1可以看出:文件復(fù)制數(shù)的增多并沒有提高整體挖掘的時(shí)間性能,同時(shí),文件復(fù)制數(shù)增多,系統(tǒng)準(zhǔn)備時(shí)間在一定程度上會(huì)增多.

實(shí)驗(yàn)2 文件復(fù)制數(shù)設(shè)為1, Slave分別為2,4,6,8臺,BlockSize設(shè)為10 M,處理10 000篇新聞材料,系統(tǒng)執(zhí)行時(shí)間如表2所示.

從表3可以看出:BlockSize分塊大小對系統(tǒng)有很大影響.如果BlockBlockSize較小,那么Job數(shù)目增多,系統(tǒng)調(diào)度頻繁,節(jié)點(diǎn)間通信開銷大,性能降低;如果BlockBlockSize較大,雖節(jié)點(diǎn)間通信開銷小,但是并行程度較低,節(jié)點(diǎn)內(nèi)部計(jì)算時(shí)間較大.

從表1、表2和表3可以看出:在同樣條件下,改進(jìn)后的Hadoop云平臺海量文本數(shù)據(jù)挖掘系統(tǒng)在時(shí)間消耗上都優(yōu)于改進(jìn)前的平臺系統(tǒng).這是因?yàn)楦倪M(jìn)后的平臺系統(tǒng)能夠借助CombineProcess模塊來過濾掉一些無用的數(shù)據(jù),且把計(jì)算節(jié)點(diǎn)和存儲節(jié)點(diǎn)盡可能配置在一起,從而極大地減少了節(jié)點(diǎn)間的網(wǎng)絡(luò)通訊,進(jìn)而提高了系統(tǒng)的整體時(shí)間性能.

5 結(jié)束語

針對傳統(tǒng)文本挖掘系統(tǒng)作用于海量文本數(shù)據(jù)時(shí)時(shí)間性能較低的問題,論文把Hadoop云平臺引入其中并加以改進(jìn),在此基礎(chǔ)上提出了一個(gè)基于改進(jìn)Hadoop云平臺的海量文本數(shù)據(jù)挖掘系統(tǒng).以人民網(wǎng)上下載的10 000篇新聞材料作為實(shí)驗(yàn)數(shù)據(jù)集,分別進(jìn)行了不同的3組對比實(shí)驗(yàn),結(jié)果都顯示改進(jìn)后的平臺系統(tǒng)在時(shí)間性能上有一定程度上的提高,這也表明了改進(jìn)后的平臺系統(tǒng)是有一定實(shí)用價(jià)值的.論文下一步的工作將是對平臺系統(tǒng)改進(jìn)前后的挖掘精度,以及應(yīng)用于其他類型的海量數(shù)據(jù),例如對海量植物葉片圖像數(shù)據(jù)所涉及的關(guān)鍵技術(shù)做進(jìn)一步研究.

參考文獻(xiàn):

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心, 2014.

[2] 王 珊,王會(huì)舉,覃雄派,等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào), 2011,34(10):1741-1752.

[3] SEGALL R S, ZHANG Q Y. Web mining technologies for customer and marketing surveys [J].Int J Syst Cyber, 2009,38(6):925-949.

[4] THEUER H, LASS S. Engineering data management systeme/product data management systeme [J]. Productivity Manag, 2010,15(4):34-38.

[5] MARSTON S, LI Z, BANDYOPADHYAY S, et al. Cloud computing—the business perspective[J].Decision Supp Syst, 2011,51(1):176-189.

[6] ARMBRUST M, FOX A, GRIFFITH R, et al. A view of cloud computing[J]. Commun ACM, 2010,53(4):50-58.

[7] DEAN J, GHEMAWAT S. MapReduce: a flexible data processing tool[J]. Commun ACM, 2010,53(1):72-77.

[8] AFRATI F N, ULLMAN J D. Optimizing multiway joins in a map-reduce environment[J]. IEEE Trans Knowled Data Engi, 2011,23(9):1282-1298.

[9] 覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS 與MapReduce 的競爭與共生[J].軟件學(xué)報(bào), 2012,23(1):32-45.

[10] 李建江,崔 健,王 聃. MapReduce并行編程模型研究綜述[J].電子學(xué)報(bào), 2011,39(11):2635-2642.

[11] SRINIVASAN A, FARUQUIE T A, JOSHI S. Data and task parallelism in ILP using MapReduce [J]. Mach Lear, 2012,86(1):141-168.

[12] 羅軍舟,金嘉暉,宋愛波,等. 云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J].通信學(xué)報(bào), 2011,32(7):13-21.

(編輯 HWJ)

猜你喜歡
文本挖掘云計(jì)算
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
云計(jì)算與虛擬化
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺的設(shè)計(jì)
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
云計(jì)算中的存儲虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 综合色区亚洲熟妇在线| 久久午夜影院| 99热国产这里只有精品9九| 在线精品自拍| 午夜少妇精品视频小电影| 国产丝袜一区二区三区视频免下载| 亚洲国产亚综合在线区| 中文字幕亚洲乱码熟女1区2区| 国产精品第三页在线看| 成人91在线| AV在线天堂进入| 国产资源免费观看| 欧美成人二区| 国产网站一区二区三区| 国产黄色片在线看| 四虎亚洲精品| 亚洲精选无码久久久| 久无码久无码av无码| 亚洲香蕉久久| 国产精品视频观看裸模| 国产午夜一级毛片| 亚洲精品无码成人片在线观看| 热99精品视频| 人与鲁专区| 亚洲人成网站日本片| 精品无码日韩国产不卡av| 精品91视频| 亚洲va在线∨a天堂va欧美va| 99视频全部免费| 91精品国产自产在线老师啪l| 人妻21p大胆| 日韩精品成人在线| 国产三区二区| 日本手机在线视频| 99国产精品免费观看视频| 国产一级二级在线观看| 国产激爽爽爽大片在线观看| 成色7777精品在线| 国产欧美精品一区二区| 成人精品视频一区二区在线| 91久久精品国产| 亚洲日韩国产精品综合在线观看| 欧美日韩久久综合| 国产拍在线| 国产国产人免费视频成18| 一级黄色欧美| 一级毛片免费的| 2018日日摸夜夜添狠狠躁| 久久无码av三级| 国产哺乳奶水91在线播放| 亚洲精品无码在线播放网站| 中文字幕无线码一区| 日本国产精品一区久久久| 狠狠亚洲五月天| 亚洲精品日产AⅤ| 喷潮白浆直流在线播放| 日韩福利在线观看| 8090成人午夜精品| 国产精品自拍合集| 无码视频国产精品一区二区| 免费A级毛片无码免费视频| 亚洲黄色成人| 国产一区二区三区在线无码| 亚洲熟女中文字幕男人总站| 色悠久久久久久久综合网伊人| 狠狠亚洲婷婷综合色香| 亚洲人成高清| 国产成人精品一区二区免费看京| 欧美精品1区| 欧美成人A视频| 国产最新无码专区在线| 免费看美女毛片| 五月婷婷欧美| 久久久久青草大香线综合精品| av性天堂网| 在线观看国产精品一区| 欧美日韩亚洲国产| 无码中文字幕精品推荐| 久久夜色精品国产嚕嚕亚洲av| 毛片一级在线| 国产亚洲欧美在线专区| 亚洲第一黄片大全|