999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop海量數(shù)據(jù)挖掘技術(shù)分析

2014-09-21 17:13:57胡昕
企業(yè)導(dǎo)報(bào) 2014年11期
關(guān)鍵詞:挖掘數(shù)據(jù)處理

胡昕

摘 要:對(duì)現(xiàn)有多款云計(jì)算平臺(tái)做了分析與對(duì)比。之后選定 Hadoop 開(kāi)源云平臺(tái)作為項(xiàng)目的基礎(chǔ)研究平臺(tái),對(duì)其進(jìn)行深入的分析與討論。

關(guān)鍵詞:Hadoop;數(shù)據(jù)處理;挖掘

曾有一句話在互聯(lián)網(wǎng)業(yè)界廣為流傳:“大量的數(shù)據(jù)勝于好的算法”,這句話的意思是說(shuō)對(duì)于某些應(yīng)用,相比與優(yōu)秀的算法,大量可用的數(shù)據(jù)能夠帶來(lái)更好的推薦效果。這就是數(shù)據(jù)處理和挖掘。數(shù)據(jù)處理的根本目的是利用有效的手段快速準(zhǔn)確的獲取數(shù)據(jù)、加工數(shù)據(jù)、應(yīng)用數(shù)據(jù)。這其中,數(shù)據(jù)挖掘技術(shù)是將收集到的數(shù)據(jù)得以有效應(yīng)用的核心技術(shù)。數(shù)據(jù)挖掘(Data Mining)技術(shù)又被稱(chēng)作數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),其核心就是從大量雜亂無(wú)章的、難以理解的數(shù)據(jù)中獲取有效的、新穎的、具有潛在應(yīng)用價(jià)值的信息的過(guò)程。

目前比較有研究?jī)r(jià)值的 Web 挖掘的方向有:(1)數(shù)據(jù)預(yù)處理技術(shù)方向。(2)現(xiàn)有挖掘算法改進(jìn)方向。(3)智能搜索引擎方向。(4)電子商務(wù)領(lǐng)域應(yīng)用方向。

海量數(shù)據(jù)處理雖然剛剛興起,但數(shù)據(jù)在企業(yè)中一直處于核心地位,傳統(tǒng)的數(shù)據(jù)產(chǎn)品,在企業(yè)中部署運(yùn)行多年,為企業(yè)的經(jīng)營(yíng)決策貢獻(xiàn)巨大。企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商,排在前六位的分別是 Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle 以絕對(duì)優(yōu)勢(shì)拔得頭籌,可見(jiàn)其在數(shù)據(jù)庫(kù)、數(shù)據(jù)分析和大數(shù)據(jù)方面的地位。值得一提的是Hadoop 的普及水平已超出我們的想象,成為繼 Oracle、IBM和 Microsoft 之后又一主流平臺(tái)產(chǎn)品。

Hadoop 云平臺(tái)由分布式文件系統(tǒng) HDFS 與并行計(jì)算構(gòu)架MapReduce兩個(gè)核心組件構(gòu)成。接下來(lái)將對(duì) Hadoop 的核心組件、主要構(gòu)造模塊及拓?fù)浣Y(jié)構(gòu)進(jìn)行分析與討論。

分布式文件系統(tǒng) HDFS。HDFS(Hadoop Distributed FileSystem)是為Hacloop項(xiàng)目開(kāi)發(fā)的分布式文件系統(tǒng),它采用主/從( master/slave)架構(gòu)。HDFS 由一個(gè)NarneNode(文件索引服務(wù)器)以及眾多DataNode(數(shù)據(jù)節(jié)點(diǎn))組成。HDFS 提供給用戶相應(yīng)的文件命名空間供用戶將數(shù)據(jù)以文件的形式存放。HDFS 一般會(huì)把這些文件切分為幾個(gè)文件塊,切分后的文件塊將被存放在一組數(shù)據(jù)服務(wù)器上。然后由NameNode提供打開(kāi)、關(guān)閉、重命名文件與目錄等基本功能,同時(shí)負(fù)責(zé)將文件塊映射到DataNode上。再由DataNode負(fù)責(zé)響應(yīng)客戶端具體文件的讀寫(xiě)操作,同時(shí)處理由NameNode發(fā)起的創(chuàng)建、刪除和備份數(shù)據(jù)塊的請(qǐng)求。

一般而言 HDFS 在 Linux 操作系統(tǒng)上運(yùn)行。由于采用了Java語(yǔ)言,所以理論上任何支持Java語(yǔ)言的操作系統(tǒng)都可以運(yùn)行NameNode與DataNodeo HDFS 采用主/從式系統(tǒng)架構(gòu),其中的所有元數(shù)據(jù)都存儲(chǔ)在NameNode上,故客戶端可以方便地通過(guò)NameNode得到全局?jǐn)?shù)據(jù)存儲(chǔ)狀況,但如果出現(xiàn)NameNode死機(jī)的情況,用戶也將失去訪問(wèn)數(shù)據(jù)的能力,為此 HDFS 在新版本中加入了備份NameNode功能,以防止上述故障。

并行計(jì)算架構(gòu)MapReduce。MapReduce是一種為多臺(tái)計(jì)算機(jī)并行處理大量數(shù)據(jù)而設(shè)計(jì)的并行計(jì)算框架。MapReduce通常工作的輸入數(shù)據(jù)分割成獨(dú)立的數(shù)據(jù)塊,分割后的數(shù)據(jù)一般由多個(gè) Map 任務(wù)并行處理。Mapper 從 HDFS 上取出數(shù)據(jù),處理后將結(jié)果存儲(chǔ)在本地硬盤(pán),Reducer 在本地硬盤(pán)或通過(guò)網(wǎng)絡(luò)方法取得Mapper 的輸出結(jié)果后進(jìn)一步計(jì)算,將結(jié)果輸出到 HDFS。

MapReduce框架關(guān)注調(diào)度任務(wù),并監(jiān)視任務(wù)的執(zhí)行狀況,如果執(zhí)行失敗,將重新執(zhí)行該任務(wù)。

在 Hadoop 中計(jì)算節(jié)點(diǎn)通常與存儲(chǔ)節(jié)點(diǎn)在一起。這就使得MapReduce框架可以根據(jù)數(shù)據(jù)的存儲(chǔ)分布。情況來(lái)調(diào)度任務(wù)。

MapReduce框架包含一個(gè)獨(dú)立的主服務(wù)器JobTracker(工作分配服務(wù)器)及一組與DataNode安裝在一起的從服務(wù)器TaskTracker(任務(wù)執(zhí)行服務(wù)器)。主服務(wù)器負(fù)責(zé)將任務(wù)調(diào)度到從服務(wù)器上,并監(jiān)控任務(wù),重新執(zhí)行失敗的任務(wù)。應(yīng)用程序在 HDFS 上指定輸入與輸出位置,并通過(guò)實(shí)現(xiàn)專(zhuān)門(mén)的接口來(lái)提供相應(yīng)的 Map 和 Reduce 方法。 Hadoop 客戶端負(fù)責(zé)發(fā)送工作相配置信息給JobTracker,由JobTracker來(lái)分發(fā)、調(diào)度任務(wù)給TaskTracker,并將相應(yīng)的狀態(tài)信息反饋給 Hadoop 客戶端。

首先由JobClient向部署于 Master節(jié)點(diǎn)上的JobTracker守護(hù)進(jìn)程提交MapReduce作業(yè)。JobTracker在接受到作業(yè)請(qǐng)求后計(jì)入隊(duì)列中去。駐留在 Slave 節(jié)點(diǎn)上的TaskTarcker守護(hù)進(jìn)程在完成自己分配到的作業(yè)后會(huì)不斷向JobTracker發(fā)送心跳信息,查詢 Job 隊(duì)列中是否有新的任務(wù)可做,若隊(duì)列中有新的任務(wù),JobTracker會(huì)在第一時(shí)間發(fā)送給空閑的TaskTracker進(jìn)行處理。

Hadoop 有 5 大構(gòu)造模塊構(gòu)成,其分別為:NameNode(名字節(jié)點(diǎn))、SecondaryNameNode(次名字節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))、TaskTracker(任務(wù)跟蹤)、JobTracker(作業(yè)跟蹤)。每個(gè)模塊具備不同的功能,共同完成分布式數(shù)據(jù)處理任務(wù)。

在 Hadoop 云平臺(tái)基礎(chǔ)上,進(jìn)行了海量 Web 日志數(shù)據(jù)預(yù)處理模型的研究,提出了改進(jìn)型預(yù)處理模型,并在單機(jī)及Hadoop分布式平臺(tái)下分別進(jìn)行了仿真驗(yàn)證,對(duì)仿真結(jié)果進(jìn)行了對(duì)比分析與研究。在海量 Web 日志數(shù)據(jù)預(yù)處理研究基礎(chǔ)上進(jìn)行了Apriori并行分層搜索算法的研究,分析傳統(tǒng) CD、DD 算法的優(yōu)劣、提出改進(jìn)型并行Apriori算法,并對(duì)其進(jìn)行MapReduce化,部署于 Hadoop 平臺(tái)下做仿真分析,最后對(duì)仿真結(jié)果進(jìn)行分析研究。

猜你喜歡
挖掘數(shù)據(jù)處理
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
使德育開(kāi)花結(jié)果
將“再也沒(méi)有”帶向更有深度的思考中
古詩(shī)詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
挖掘檔案文化資源推進(jìn)檔案文化建設(shè)
資治文摘(2016年7期)2016-11-23 00:37:46
關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 国产精品白浆在线播放| 日韩av资源在线| 国产成人精品亚洲日本对白优播| 亚洲精品国偷自产在线91正片| 找国产毛片看| 欧美成人一级| 制服丝袜一区二区三区在线| 国产美女无遮挡免费视频| 在线国产91| 97超级碰碰碰碰精品| 久久香蕉国产线| 精品一区二区三区无码视频无码| 精品综合久久久久久97超人| 永久免费av网站可以直接看的 | 中文字幕调教一区二区视频| 朝桐光一区二区| 五月天在线网站| 99久久精品无码专区免费| 日韩无码视频专区| 青青草原国产一区二区| 国产尹人香蕉综合在线电影| 国产精品黑色丝袜的老师| 国产欧美高清| 亚洲IV视频免费在线光看| 又爽又大又光又色的午夜视频| 91在线无码精品秘九色APP| 中文字幕乱码二三区免费| 免费又爽又刺激高潮网址| 91精品国产自产在线老师啪l| 青青青视频免费一区二区| 国产极品美女在线观看| 亚卅精品无码久久毛片乌克兰| 久久成人国产精品免费软件 | 麻豆精品在线视频| 青青青草国产| 一本久道久久综合多人| 成人精品视频一区二区在线| 欧美激情综合| 区国产精品搜索视频| 国产jizzjizz视频| 亚洲av无码久久无遮挡| 欧美亚洲欧美区| 在线观看视频99| 成年看免费观看视频拍拍| 国产亚洲美日韩AV中文字幕无码成人 | 国产大片喷水在线在线视频| 中文字幕在线观看日本| 欧美日本不卡| 国产精品v欧美| 国产经典在线观看一区| 亚洲 成人国产| 亚洲AV人人澡人人双人| 成人字幕网视频在线观看| 国产精品美女网站| 日韩在线网址| 国产美女无遮挡免费视频| 国产欧美在线观看精品一区污| 在线观看国产精品第一区免费| 国产免费看久久久| 在线亚洲小视频| 中文字幕 日韩 欧美| 中文字幕亚洲无线码一区女同| 扒开粉嫩的小缝隙喷白浆视频| 午夜国产大片免费观看| 国产精品视频观看裸模| 极品性荡少妇一区二区色欲| 91九色国产porny| 亚洲swag精品自拍一区| 亚洲第一黄色网址| 国产精品一线天| 亚洲成人黄色在线| 91亚洲国产视频| 一本大道香蕉中文日本不卡高清二区| 久久久久中文字幕精品视频| 亚洲色精品国产一区二区三区| 国产91精品调教在线播放| 国产最新无码专区在线| 亚洲一区二区无码视频| 狠狠做深爱婷婷久久一区| 在线无码av一区二区三区| 国产精品污视频| 97人人做人人爽香蕉精品|