999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop海量數據挖掘技術分析

2014-09-21 17:13:57胡昕
企業導報 2014年11期
關鍵詞:挖掘數據處理

胡昕

摘 要:對現有多款云計算平臺做了分析與對比。之后選定 Hadoop 開源云平臺作為項目的基礎研究平臺,對其進行深入的分析與討論。

關鍵詞:Hadoop;數據處理;挖掘

曾有一句話在互聯網業界廣為流傳:“大量的數據勝于好的算法”,這句話的意思是說對于某些應用,相比與優秀的算法,大量可用的數據能夠帶來更好的推薦效果。這就是數據處理和挖掘。數據處理的根本目的是利用有效的手段快速準確的獲取數據、加工數據、應用數據。這其中,數據挖掘技術是將收集到的數據得以有效應用的核心技術。數據挖掘(Data Mining)技術又被稱作數據庫中的知識發現,其核心就是從大量雜亂無章的、難以理解的數據中獲取有效的、新穎的、具有潛在應用價值的信息的過程。

目前比較有研究價值的 Web 挖掘的方向有:(1)數據預處理技術方向。(2)現有挖掘算法改進方向。(3)智能搜索引擎方向。(4)電子商務領域應用方向。

海量數據處理雖然剛剛興起,但數據在企業中一直處于核心地位,傳統的數據產品,在企業中部署運行多年,為企業的經營決策貢獻巨大。企業現有數據產品的服務商,排在前六位的分別是 Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle 以絕對優勢拔得頭籌,可見其在數據庫、數據分析和大數據方面的地位。值得一提的是Hadoop 的普及水平已超出我們的想象,成為繼 Oracle、IBM和 Microsoft 之后又一主流平臺產品。

Hadoop 云平臺由分布式文件系統 HDFS 與并行計算構架MapReduce兩個核心組件構成。接下來將對 Hadoop 的核心組件、主要構造模塊及拓撲結構進行分析與討論。

分布式文件系統 HDFS。HDFS(Hadoop Distributed FileSystem)是為Hacloop項目開發的分布式文件系統,它采用主/從( master/slave)架構。HDFS 由一個NarneNode(文件索引服務器)以及眾多DataNode(數據節點)組成。HDFS 提供給用戶相應的文件命名空間供用戶將數據以文件的形式存放。HDFS 一般會把這些文件切分為幾個文件塊,切分后的文件塊將被存放在一組數據服務器上。然后由NameNode提供打開、關閉、重命名文件與目錄等基本功能,同時負責將文件塊映射到DataNode上。再由DataNode負責響應客戶端具體文件的讀寫操作,同時處理由NameNode發起的創建、刪除和備份數據塊的請求。

一般而言 HDFS 在 Linux 操作系統上運行。由于采用了Java語言,所以理論上任何支持Java語言的操作系統都可以運行NameNode與DataNodeo HDFS 采用主/從式系統架構,其中的所有元數據都存儲在NameNode上,故客戶端可以方便地通過NameNode得到全局數據存儲狀況,但如果出現NameNode死機的情況,用戶也將失去訪問數據的能力,為此 HDFS 在新版本中加入了備份NameNode功能,以防止上述故障。

并行計算架構MapReduce。MapReduce是一種為多臺計算機并行處理大量數據而設計的并行計算框架。MapReduce通常工作的輸入數據分割成獨立的數據塊,分割后的數據一般由多個 Map 任務并行處理。Mapper 從 HDFS 上取出數據,處理后將結果存儲在本地硬盤,Reducer 在本地硬盤或通過網絡方法取得Mapper 的輸出結果后進一步計算,將結果輸出到 HDFS。

MapReduce框架關注調度任務,并監視任務的執行狀況,如果執行失敗,將重新執行該任務。

在 Hadoop 中計算節點通常與存儲節點在一起。這就使得MapReduce框架可以根據數據的存儲分布。情況來調度任務。

MapReduce框架包含一個獨立的主服務器JobTracker(工作分配服務器)及一組與DataNode安裝在一起的從服務器TaskTracker(任務執行服務器)。主服務器負責將任務調度到從服務器上,并監控任務,重新執行失敗的任務。應用程序在 HDFS 上指定輸入與輸出位置,并通過實現專門的接口來提供相應的 Map 和 Reduce 方法。 Hadoop 客戶端負責發送工作相配置信息給JobTracker,由JobTracker來分發、調度任務給TaskTracker,并將相應的狀態信息反饋給 Hadoop 客戶端。

首先由JobClient向部署于 Master節點上的JobTracker守護進程提交MapReduce作業。JobTracker在接受到作業請求后計入隊列中去。駐留在 Slave 節點上的TaskTarcker守護進程在完成自己分配到的作業后會不斷向JobTracker發送心跳信息,查詢 Job 隊列中是否有新的任務可做,若隊列中有新的任務,JobTracker會在第一時間發送給空閑的TaskTracker進行處理。

Hadoop 有 5 大構造模塊構成,其分別為:NameNode(名字節點)、SecondaryNameNode(次名字節點)、DataNode(數據節點)、TaskTracker(任務跟蹤)、JobTracker(作業跟蹤)。每個模塊具備不同的功能,共同完成分布式數據處理任務。

在 Hadoop 云平臺基礎上,進行了海量 Web 日志數據預處理模型的研究,提出了改進型預處理模型,并在單機及Hadoop分布式平臺下分別進行了仿真驗證,對仿真結果進行了對比分析與研究。在海量 Web 日志數據預處理研究基礎上進行了Apriori并行分層搜索算法的研究,分析傳統 CD、DD 算法的優劣、提出改進型并行Apriori算法,并對其進行MapReduce化,部署于 Hadoop 平臺下做仿真分析,最后對仿真結果進行分析研究。

猜你喜歡
挖掘數據處理
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
使德育開花結果
將“再也沒有”帶向更有深度的思考中
古詩詞教學中藝術內涵的挖掘策略
挖掘檔案文化資源推進檔案文化建設
資治文摘(2016年7期)2016-11-23 00:37:46
關注數學思考 提升數學本質
文理導航(2016年30期)2016-11-12 15:02:43
大數據技術在商業銀行中的應用分析
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: 91亚洲精品国产自在现线| 男女精品视频| 高h视频在线| 久久成人免费| 久久青草精品一区二区三区| 青青操国产视频| 日韩国产精品无码一区二区三区| 永久天堂网Av| 欧美色丁香| 亚洲欧美成人在线视频| 国产九九精品视频| 四虎亚洲国产成人久久精品| 亚洲中文在线视频| 国产69囗曝护士吞精在线视频| 四虎成人精品在永久免费| 久久久噜噜噜久久中文字幕色伊伊 | 精品伊人久久久大香线蕉欧美| 色婷婷天天综合在线| 亚洲天堂网在线播放| 欧美中文一区| 亚洲乱码在线播放| swag国产精品| 亚洲av色吊丝无码| 日韩精品一区二区深田咏美| jijzzizz老师出水喷水喷出| 黄色福利在线| 视频二区亚洲精品| 青青草原国产精品啪啪视频| 亚洲综合国产一区二区三区| 无码aⅴ精品一区二区三区| 日本道中文字幕久久一区| 亚洲成人77777| 2021国产精品自产拍在线观看| 国产综合另类小说色区色噜噜| 亚洲中文字幕av无码区| 99精品国产电影| 国产鲁鲁视频在线观看| 青青青国产视频手机| 97人人做人人爽香蕉精品| 国产精品不卡片视频免费观看| 亚洲成a人在线播放www| 高清国产在线| 久久综合结合久久狠狠狠97色| 亚洲欧洲自拍拍偷午夜色| 成人在线不卡视频| 97国产成人无码精品久久久| 国产成人福利在线| 亚洲欧美极品| 欧美日本一区二区三区免费| 久久国产香蕉| 国产美女免费| 老司机精品99在线播放| 国产高清在线精品一区二区三区| 欧美伊人色综合久久天天| 亚洲欧美一区二区三区蜜芽| 波多野结衣第一页| 国产白浆在线| 尤物成AV人片在线观看| 色丁丁毛片在线观看| 亚洲成肉网| 成人午夜免费视频| 免费在线观看av| www.99精品视频在线播放| 青青草原国产一区二区| 91精品情国产情侣高潮对白蜜| 久久精品无码一区二区国产区| 国产欧美中文字幕| 国产亚洲精品无码专| 视频在线观看一区二区| 青青青视频蜜桃一区二区| yy6080理论大片一级久久| 国产精品va免费视频| 国产成人精品一区二区免费看京| www.91在线播放| 91久草视频| 欧美精品另类| 在线国产你懂的| 国产久草视频| 婷婷伊人久久| 国产在线自揄拍揄视频网站| 狠狠色香婷婷久久亚洲精品| av尤物免费在线观看|