999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Map Reduce的云數據挖掘模型的設計與實現

2017-06-15 14:15:08◆謝
網絡安全技術與應用 2017年6期
關鍵詞:數據挖掘模型

◆謝 光

?

基于Map Reduce的云數據挖掘模型的設計與實現

◆謝 光

(三亞學院 海南 572000)

當今社會隨著計算機技術的高速的發(fā)展,涌現出大量的數據,促使了云數據逐漸成為時代潮流。數據挖掘技術則正是從這些大量的數據中提取對我們有價值的的數據。數據挖掘又叫做數據采礦、數據資料探勘等,是當今數據快速發(fā)展的產物。大數據的出現對傳統(tǒng)的簡單的數據挖掘算法提出挑戰(zhàn),新型的基于Map Reduce的云數據挖掘正在茁壯地發(fā)展。Map Reduce是當前最流行的分布式計算模型,在云數據數據挖掘當中作為一個佼佼者迅速發(fā)展。本文主要研究傳統(tǒng)的數據挖掘算法如何與Map Reduce計算模型有效地在云數據中結合起來。給當今云數據挖掘模型做出了較好的闡述。

云數據;數據挖掘;分布儲存系統(tǒng);Map Reduce

0 引言

Map Reduce計算模型[1]是目前數據挖掘處理中最流行的一種云計算環(huán)境下的分布式計算模型[2-3],它可以將所有的數據處理均勻地分布在不同的計算機上,并且可以同時屏蔽復雜的并行編程,將所有處理的編程處理歸結到兩個簡單的函數,這兩個函數就是map函數和reduce函數[4],這兩個函數有著可用性、高可擴展性、高容錯性及簡單性使得其數據挖掘工作變得更加容易、更加簡便。為了使得Map Reduce模型適用于數據量更大的數據挖掘,本文對數據挖掘原有的算法進行了改進,提出了基于Map Reduce的K-means算法模型,對K-means算法模型進行Map Reduce化。

1 數據挖掘

數據挖掘(Data Mining),是處理大量數據庫的一種軟件。主要職責就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡數據發(fā)現過程。簡單的說,數據挖掘就是從大量數據中提取或“挖掘”數據中有用的信息[5]。

Map Reduce最先是由Google公司設計出來的,并且一貫成為Google公司的核心計算模型,它也是一種程序模型,將復雜的運行于大規(guī)模集群上的并行計算過程高度的抽象到了map函數和reduce函數這兩個函數[6],主要用于數據集大于1TB的并行運算,現如今也大量的應用在云數據的數據處理上。Map函數接受一組數據并將其轉換為一個鍵/值對列表,輸入域中的每個元素對應一個鍵/值對。Reduce函數接受Map函數生成的列表,然后根據它們的鍵(為每個鍵生成一個鍵/值對)縮小鍵/值對列表[7]。根據這一性質可以得到Map Reduce的流程概念圖如圖1所示。

根據MapReduce的核心思想得出MapReduce模型[8]的主要流程圖如圖1所示,對流程圖進行分析并且進一步總結可以得出Map Reduce還有幾個比較重要的特點,主要在數據分布儲存、分布式并行計算、本地計算三個方面有著突出的表現:

(1)數據分布存儲:Map Reduce模型由Google公司采用GFS的底層文件系統(tǒng)支撐。GFS主要是從不同的計算機當中獲取的數據集群。然后很自然的將數據分布存儲在GFS上,其實是存儲在GFS的集群中各自的機器的本地磁盤中。

(2)分布式并行計算:Map Reduce其實質上是一種分布式的并行計算,但是其實際操作的是一個map和reduce函數,這兩個函數對于各個數據分片,都會有一個Map任務(運行Mapper類的進程)對該分片進行處理,這種處理傳承了良好的并行的方式。但是對同一個分片,Map Reduce的Map任務對該分片的對的處理是一個串行的處理過程。分布式并行計算指的是對數據分片的并行,對分片內的記錄,則按照順序的串行處理。

圖1 Map Reduce模型主要流程

(3)本地計算:由于分布式系統(tǒng)中網絡I/O的性能通常要比本地I/O的性能差,所以Map Reduce認為“移動計算比移動數據更經濟”,即通過將計算任務派送到數據所在節(jié)點來實現本地計算。

2 基于Map Reduce云數據數據挖掘系統(tǒng)的設計與實現

2.1Map Reduce架構

在云數據數據挖掘中,Map Reduce 同樣可以采用 Master/Slave 主從結構,根據Map Reduce的核心思想可以設計得到Map Reduce 架構主要包括Client、Job Tracker、Task Tracker 和 Task這四個組件。

2.2基于Map Reduce的數據挖掘

Map Reduce 是一種非常適合處理數據量很大,并且計算過程簡單的并行計算框架,將Map Reduce 應用于數據挖掘領域是應對大數據挖掘難題的一種需求,是當今社會云數據出現后解決數據問題最簡單的一個方式。2006年,在 NIPS 國際會議上提出一種稱為“求和范式”條件,這種條件很明確的指出:一個數據挖掘算法能用 Map Reduce的基本要求。[9]

圖2基于Map Reduce的云數據數據挖掘模型

3 K-means算法

K-Means算法是以K為參數,把數據集內的N個數據元組分為K個子集,以使得子集內的所有數據元組具有較高的相似度,且子集之問的數據元組的相似度較低。而相似度則是根據子集內對象的平均值來進行計算的[9]。K-Means算法的基本過程為:首先在全體數據集內任意選取K個數據元組作為初始的聚類中心,數據集內剩下的其他數據元組,則計算其與聚類中心的相似度(根據需要事先確定的某種歐氏兒何距離),依次將它們分別劃歸到與之最為相似(聚類中心的代表元組)的一個聚類中,再重新計算每個歸并之后獲得了新數據元組的新的聚類中心(新聚類所有數據元組的均值);并重復上述過程直到預先指派的某個測度函數(一般是均方差函數)收斂到某個闌值為止[10]。

3.1K-means算法聚類分析距離D的計算方法[11]

K-means算法的優(yōu)點是原理簡單,算法過程中的大部分計算來自于數據與聚類中心的距離計算與新的聚類中心的迭代過程。通常算法中的距離計算都是基于向量的。根據所選K-means算法的核心意義不同可以有以下四種不同的計算方法:

(1)余弦距離

兩個向量之間的夾角的余弦值即為余弦距離,余弦距離與兩個向量之間的夾角成反比關系。兩個n維向量的余弦距離如下公式1所示。

(2)歐幾里得距離

歐式距離是測量的是n維空間中每個點之間的絕對距離。歐幾里得距離計算公式2如下所示。

(3)曼哈頓距離

曼哈頓距離主要是兩個點在標準坐標軸上的絕對軸距總和,曼哈頓名字主要是從網格狀的城市區(qū)建筑塊得來,在知道每個維度距離的同時,我們可以使用曼哈頓距離計算得到。兩個n維向量的曼哈頓距離如下公式3所示。

(4)Tanimoto距離

余弦距離沒有計算到向量的權值,需要反映向量之間的角度就要使用Tanimoto距離。Tanimoto距離同時又叫Jaccard距離,角度和點之間的相對距離是我們通過Tanimoto距離所要得到多少數據。兩個n維向量的Tanimoto距離如下所示。

3.2 K-Means算法的Map/Reduce化

基于經典K-Means算法,探討其云計算化中Map/Reduce化后K-Means算法的方案并進一步研究云計算化后的算法性能是本次研究的關鍵[12-13]。 Map/Reduce化后K-Means算法的執(zhí)行步驟如下:

(1)隨機選擇k個初始聚類中心,如cp[0]=D[0],cp[k-1]=D[k-1],然后將這些聚類中心中的初始聚類數據復制到OriginalCluster[]中,并將OriginalCluster[]進行分塊處理,根據計算節(jié)點集群的情況,將OriginalCluster[]塊分配給各個計算節(jié)點;

(2)Map:對于D[0]…D[n]這些數據中,需要分別計算出cp[0]…cp[n-1]之間的距離,距離最近者記為c[i], c[i]的總個數可以用Ci表示,同時在Map/Reduce框架下,把鍵值分別對應到i、D[k]上;

(3)Reduce:由于i是Map/Reduce框架中鍵值對的Key,這保證了同一個Key的所有D [k]會分配到同一個Reduce進程,則在此Reduce進程可以計算新的聚類中心cp[i]=(Ec[i]對應的D[J])/Ci,并將此新的聚類中心存入DestinationCluster[];

(4)比較DestinationCluster[]與OriginalCluster[]這兩個處理方式之間的變化,如果兩者的變化小于預先給定值,則聚類完成,否則將DestinationCluster[]復制到OriginalCluster[]后繼續(xù)重復上訴過程執(zhí)行。

可以看出,K-Means算法的Map/Reduce化算法的改進之處,這是因為Map/Reduce框架是一致不變的,開發(fā)人員所要做的工作只是將算法可供Map和Reduce的部分剝離出來,構造鍵值對,其他調度、監(jiān)控、通訊等任務就全部交由Map/Reduce框架去完成了。

4 實驗仿真與分析

論文研究的是K-Means數據挖掘算法MapReduce化的可行性及過程,通過對實驗形式論證其可行性。云計算是為海量數據的分析及處理而準備的,因此實驗數據應具備如下特點:(1)海量的數據。只有數據規(guī)模達到一定的量才能達到本次實驗的目的;(2)所選的數據集中所有的數據其屬性、狀態(tài)符、都應該符合K-means數據挖掘算法的Map Reduce化的要求。依次測試Map/Reduce化后挖掘算法的實際工作能力。

本文選取QQ音樂上某電臺的一個媒體庫作為實驗數據集,數據集內包含音樂、歌曲、片頭、片花、廣告、音效、混合媒體包等媒體文件共110萬條數據記錄,同時包含電臺聽眾點播記錄600萬條,網絡互動消息記錄2000萬條[14-15]。

4.1實驗結果分析

第一組實驗使用的是數據集中網絡互動消息記錄中提取出來的1000萬條數據,配置DataNode上的Reduce節(jié)點數為1, Map節(jié)點數分別為:1, 2, 5, 10, 100。K-Means算法的耗時分別為:612s, 466s, 307s, 163s, 199s。根據數據可以很直觀的表示Map節(jié)點和耗時關系圖如下圖3所示:

圖3 Map節(jié)點和耗時關系圖

根據圖像很容易看出Map節(jié)點和耗時情況的關系,在Reduce節(jié)點為1的基礎上,從數據中可以得出map節(jié)點在10的時候其運行效率最高。

第二組實驗使用所有的數據集,配置DataNode上的Reduce節(jié)點數為1, Map節(jié)點數始終為10,而分別使用100萬、500萬、1000萬、1500萬、1800萬、2000萬條數據進行運算。K-Means算法的耗時分別為:66s,169s, 288s, 352s, 429s, 475s。根據數據得出不同數據量運算和時間關系圖如圖4所示:

圖4數據量和時間關系圖

從圖4圖表信息中我們可以得出,Map節(jié)點數不變的時候,隨著數據量的增加耗時也會逐漸增加。兩者之間成正比關系。

4.2 Map reduce的云數據挖掘速度優(yōu)化

加速比是在數據處理中運行消耗的時間的比率,K-means算法就是一種數據挖掘算法,加速比可以用來衡量次算法對于云數據挖掘速度優(yōu)化條件。我們定義加速比,其中,sp為加速比,t1為單處理器下的運行時間,tp為p個處理器下并行計算的運行時間[16]。

分別測試數據集在1個節(jié)點和3, 5, 7, 9個節(jié)點的集群中k-means并行計算時間及其比率,得出加速比S1,S3,S5, S7,S9,結果如圖5所示。隨著云數據數據量的增加,其中的節(jié)點數也會隨之增加,圖5表明,同一數據集處理的加速比是逐漸增大的,也說明k-means算法在云數據挖掘中有更大的計算能力。

圖5 K-means算法集群優(yōu)化數據圖

5 結束語

首先深入研究了K-means的關鍵算法在 Map Reduce 的核心設計思想和實現,并且根據Map Reduce中的聚類K-means算法對給定數據集進行試驗。在掌握了 Map Reduce 并行計算框架這一基礎之上,通過對多種數據挖掘算法進行分析,提出并構建一種基于Map Reduce 的數據挖掘算法并行化實現模型。根據此模型和次模型給定的數據結果,總結了K-means算法在Map Reduce中處理大規(guī)模數據時的性能瓶頸,并且做了性能試驗分析。

當今時代網絡的普及帶來了海量數據難以處理的難題。研究的云數據中數據挖掘算法,是當今云數據迅速發(fā)展中一項較為復雜的技術,通過對K-means算法進行Map reduce化進行改進,從而能夠更好地縮短云數據數據挖掘的時間,提高效率,最大限度發(fā)揮了的可用性、協(xié)同性、擴展性等特點。

[1]李國杰,程學旗.大數據研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域一一大數據的研究現狀與科學思考[J].中國科學院院刊,2012.

[2]王佳雋,呂智慧,吳杰等.云計算技術發(fā)展分析及其應用探討田.計算機工程與設計,2012.

[3]Apache Hadoop.[EB/OL]. http://hadoop.apache.org. (2013-12-01).

[4]李雪梅,張素琴.數據挖掘中聚類分析技術的應用[J].武漢大學學報(工學版),2009.

[5]田力.山東移動通信公司泰安分公司BI系統(tǒng)設計[D]. 山東大學,2009.

[6]張釗寧.數據密集型計算中任務調度模型的研究[D].國防科學技術大學,2011.

[7]從玉相.基于MapReduce的社區(qū)挖掘算法[D].上海交通大學,2013.

[8]Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithms for mining association rules in large databases. Very Large Data Bases,International Conference Proceedings,P487-499,1994.

[9]Shcn M, Tzcng U H,Liu D R. Multi-criteria task as-signment in workflow management term Sciences,2003. Proceedings of the 36th Annual Hawaii International Conference on.IEEE,2003.

[10]曹聰.云計算支持下的數據挖掘算法及其應用[D]. 廣州大學, 2013.

[11]Yaakob SB, Kawata S. Workers placement in an in-dustrialenvironment[J].Fuzzy Setand Systems,1999.

[12]劉怡,張裁.基于負載平衡和經驗值的工作流任務分配策略[J].計算機工程,2009.

[13]郭希娟,李墨華.基于多準則的動態(tài)任務分配算法[J]一計算機應用,2008.

[14]江小平,李成華,向文,張新訪,顏海濤.k-means聚類算法的MapReduce并行化實現[[J].華中科技大學學報,2011.

[15]李賢虹.基于數據挖掘的讀者個性化信息服務系統(tǒng)的研究與設計[D].南昌:南昌大學,2009.

[16]張立.多體系統(tǒng)傳遞矩陣法分布式并行計算研究[J]. 中國廠礦醫(yī)學, 2009.

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發(fā)展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫(yī)診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 成人在线观看不卡| 一级毛片视频免费| 99r在线精品视频在线播放| 伊人福利视频| 欧美区一区| 久久精品中文字幕少妇| 无码国产偷倩在线播放老年人| 白丝美女办公室高潮喷水视频| 国产一级裸网站| 亚洲成人在线网| 欧洲成人在线观看| 国产精选小视频在线观看| 国产69精品久久久久妇女| 久久婷婷人人澡人人爱91| 色悠久久综合| 国产xx在线观看| 国产成人AV男人的天堂| 黄片一区二区三区| 亚洲欧洲日产无码AV| 美女视频黄频a免费高清不卡| 久久久久88色偷偷| 日本不卡视频在线| 在线视频亚洲欧美| 在线观看国产精品日本不卡网| 国产精品久久久久久久久久98 | 波多野结衣亚洲一区| 人妻无码中文字幕第一区| 亚洲综合在线最大成人| 免费国产一级 片内射老| 日韩精品无码免费专网站| 男人的天堂久久精品激情| 久久窝窝国产精品午夜看片| 日韩精品免费一线在线观看| 久久久久亚洲精品成人网| 天天躁夜夜躁狠狠躁图片| 久久国产亚洲偷自| 韩日午夜在线资源一区二区| 国产乱人免费视频| 国产精品中文免费福利| 8090午夜无码专区| 无码区日韩专区免费系列| 亚洲欧美一区二区三区麻豆| 亚洲精品福利视频| 男女性午夜福利网站| 免费不卡视频| 欧美激情二区三区| 天堂成人av| 不卡网亚洲无码| 久久永久视频| 亚洲清纯自偷自拍另类专区| 日本亚洲国产一区二区三区| 国产主播在线观看| 一级毛片在线免费视频| 欧美日韩国产高清一区二区三区| 国产亚洲欧美在线专区| 日韩专区第一页| 免费一级大毛片a一观看不卡| 婷婷五月在线视频| 日韩国产一区二区三区无码| 国产成人在线小视频| 欧美亚洲日韩中文| 亚洲欧洲日韩综合色天使| 欧美a在线视频| 亚洲色图欧美视频| 国产成人1024精品| 午夜一区二区三区| 欧美精品亚洲精品日韩专区va| 国产欧美日韩在线一区| 国产农村妇女精品一二区| 专干老肥熟女视频网站| 亚洲天堂视频在线播放| 青青草国产免费国产| 新SSS无码手机在线观看| 91麻豆精品国产高清在线| 久久久久九九精品影院| 综合亚洲网| 午夜精品一区二区蜜桃| 色爽网免费视频| 国产精品性| 久无码久无码av无码| 国产在线视频自拍| 日韩 欧美 小说 综合网 另类|