999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云環境下K-means算法的并行化

2015-10-18 02:15:50何佩佩謝穎華數字化紡織服裝技術教育部工程研究中心上海201620東華大學信息科學與技術學院上海201620
網絡安全與數據管理 2015年24期
關鍵詞:實驗

何佩佩,謝穎華(1.數字化紡織服裝技術教育部工程研究中心,上海 201620;2.東華大學 信息科學與技術學院,上海 201620)

云環境下K-means算法的并行化

何佩佩1,2,謝穎華1,2
(1.數字化紡織服裝技術教育部工程研究中心,上海 201620;2.東華大學 信息科學與技術學院,上海 201620)

隨著大數據時代的到來,傳統的聚類算法很難高效地處理海量數據,而云計算平臺憑借負載均衡、網絡存儲、虛擬化等技術,有效地突破了耗時耗能的瓶頸,為海量數據的處理提供了良好的解決方案。主要研究了Hadoop平臺下的MapReduce編程模型及傳統K-means算法,提出了一種基于MapReduce的并行化K-means算法的設計方案,包括Map函數和Reduce函數的設計。通過實驗,驗證了并行化K-means算法適用于較大規模數據集的分析和挖掘。

云計算;數據挖掘;MapReduce編程模型;K-means聚類算法;并行化

0 引言

隨著信息化社會的發展,各個行業中產生的數據都在以爆炸式的速度增長。典型的聚類算法——K-means算法是基于劃分的聚類算法,因其快速、簡單的特性而被廣泛應用。但在面對海量數據時,傳統的K-means算法無論是在時間復雜度還是空間復雜度上都遇到了瓶頸[1],而云計算技術的出現為海量數據的處理提供了良好的解決方案。

云計算是一種基于互聯網的計算方式。Hadoop則是云計算技術的開源實現,具有高容錯、跨平臺等優勢。它主要包含兩個部分:分布式文件系統(HDFS)和MapReduce編程模型。本文在基于 Hadoop云計算平臺,利用MapReduce編程模型實現了傳統K-means聚類算法的并行化設計,并進行了相關實驗的驗證。

1 Ma p Re d u c e編程模型

MapReduce編程模型,顧名思義,由Map(映射)階段和Reduce(規約)階段組成,分別用兩個函數表示,即Map函數和Reduce函數[2]。MapReduce作業流程如圖1所示。

圖1 MapReduce作業流程圖

Map階段:Map任務運行在集群的從節點上,多個Map任務相互間是獨立運行的。原始數據在進入 Map函數前,會將原始大數據集劃分并格式化為<key1,value1>鍵值對的形式。經過Map函數的運算處理后產生一個或多個中間鍵值對<key2,value2>。

Shuffle階段:它由Partition(數據分割)和 Combine(數據合并)組成。Combine就是將Map任務輸出的中間結果中有相同 key2的<key2,value2>對合并成一對。Partition則是采用默認 hash函數將中間結果按照 key2值的范圍分成R份,發送并保證某一范圍內的key2由同一個Reduce任務來處理。

Reduce階段:每個 Reduce任務需要從多個 Map任務節點取得其負責的key2區間內的中間結果。Reduce函數接收到形如<key2,(list of value2)>形式的輸入,進行處理后產生鍵值對<key3,value3>作為結果,并將結果輸出到HDFS上。

為了方便理解,上述過程中數據格式的變化如圖2所示。

圖2 MapReduce程序數據變化的基本模型

2基于MapReduce的并行K-means算法的設計

2.1 K-means聚類算法的基本思路

K-means算法是聚類算法中使用最廣泛的基于劃分的算法,其基本思想是:將空間中的n個對象集合以K個點為中心進行簇的劃分,歸類到與其距離最近的中點[3]。通過迭代的方式,逐次更新聚類中心的值并重新劃分簇,直至目標函數收斂。K-means算法采用距離作為相似性的評價指標,其目標函數可表示為:

其中,xi表示數據集 X={x1,x2,…,xN}中第 i個樣本,N為樣本總數;Cj表示第 j個簇,K為簇的總個數,zj則表示第j個簇的中心。

假設共有n個數據對象,計劃劃分為K個簇,t為迭代次數,O為一次迭代中計算某一對象到各個類的中心距離的時間復雜度,那么串行實現K-means算法的時間復雜度為n×K×t×O[4]。由此可見,當面對大數據時,算法的時間復雜度將成倍地增加。

2.2 K-means聚類算法的MapReduce化的設計

K-means算法中,計算數據對象與聚類中心距離是該算法中反復進行的操作,并且每個數據對象到聚類中心距離的計算過程都是相互獨立的。圖3描述了基于MapReduce的并行K-means算法的設計方法,其中數據的分片由MapReduce環境自行完成,只需要編寫Map函數和Reduce函數的實現代碼即可。

2.2.1 Map函數的設計

首先,Map函數逐行掃描數據段,按行作為數據對象,記錄為<行號,數據內容>鍵值對;接著,與保存在全局變量中聚類中心進行運算,得出數據對象與各個聚類中心的距離;最后,將數據對象分配給距離最近的類中,產生<聚類ID,數據內容>鍵值對作為函數輸出。Map函數的偽代碼如下:

圖3 基于MapReduce的并行K-means算法

2.2.2 Reduce函數的設計

首先,將擁有相同聚類ID的數據對象分配給同一個Reduce任務;接著,Reduce函數將記錄所接收到的樣本個數并將數據對象各個維坐標分別累加;最后,將各維坐標之和除以樣本個數得到各個維坐標的均值,計算結果就是該類新的聚類中心。Reduce函數的偽代碼如下:

將本輪 reduce函數輸出的聚類中心與上一輪的聚類中心比較,若目標函數收斂,則算法結束;否則,本輪的聚類中心將寫入中心文件,作為新的聚類中心。

3 實驗與分析

實驗目的是比較在相同的硬件配置下,Hadoop集群中1個運算節點和普通計算機分別使用并行 K-means算法和傳統串行K-means處理相同規模數據的能力。考慮到K-means算法對初始聚類中心有較強的依賴性,在相同數據集的條件下重復進行實驗10次,取平均值作為最終的實驗數據,實驗結果如表1所示。

表1中,t1表示使用傳統串行 K-means算法處理數據集所花的時間;t2表示使用并行化 K-means算法處理數據集所花的時間。通過實驗數據可以發現,當數據集的規模較小時,串行K-means算法的執行效率優于并行化K-means算法的執行效率,這是由于數據量小時,其計算任務所消耗的資源較少,但是在 Hadoop平臺上啟動、分配任務以及進行作業間的交互卻需要耗費固定的資源。但隨著數據集規模的增大,計算任務所占用的資源的比例將不斷增大,使并行化算法的優勢得以體現,其運行時間的增長速度遠小于串行算法。另外,由于串行算法所消耗的資源快速地增長,系統將會報告內存不足。

表1 實驗結果

4 結論

本文對 Hadoop的 MapReduce編程模型以及聚類算法K-means進行了研究,給出了基于MapReduce的并行化K-means算法的設計方案并進行了實驗驗證。實驗結果表明,基于MapReduce的并行化K-means算法適用于處理較大規模的數據挖掘任務,并且具有較好的計算效率。

[1]謝雪蓮,李蘭友.基于云計算的并行 K-means聚類算法研究[J].計算機測量與控制,2014,22(5):1510-1512.

[2]冀素琴,石洪波.基于MapReduce的K-means聚類集成[J].計算機工程,2013,39(9):84-87.

[3]周婷,張君瑛,羅成.基于 Hadoop的 K-means聚類算法的實現[J].計算機技術與發展,2013,23(7):18-21.

[4]趙衛中,馬慧芳,傅燕翔,等.基于云計算平臺 Hadoop的并行 K-means聚類算法設計研究[J].計算機科學與探索,2011,38(10):166-168,176.

圖7 課程顯示界面

界面代碼執行流程如下:

(1)用戶點擊主界面課程表模塊,軟件跳轉至課程顯示界面,軟件通過查詢校歷獲取當前周次以及星期,默認顯示當天的課表;

(2)用戶點擊某節課程信息,跳轉至該節次課程詳情界面;

(3)用戶點擊右上角周次選擇按鈕,彈出周次選擇面板,用戶可以選擇周次,查詢所選周次課表情況。

4.3 自習室模塊

自習室模塊提供用戶自習室查詢功能,用戶可以通過選擇日期、教學區域查詢自習室信息。自習室查詢界面如圖8所示。

圖8 自習室查詢界面

5 結論

在整個軟件開發中注重軟件的可用性、易用性以及可持續性,努力提升用戶的操作體驗。由于需求的不斷更新和技術的不斷發展,軟件還需要進一步完善,需要在以后的使用反饋中不斷進行優化升級。

參考文獻

[1]李曉.基于Android平臺的手持終端應用功能開發與設計[D].武漢:湖北大學,2010.

[2]陳昱,江蘭帆.基于 Google Android平臺的移動開發研究[J].福建電腦,2008(11):156-157.

[3]姜波.嵌入式數據庫SQLite調試器的研究與實現[D].昆明:昆明理工大學,2012.

[4]岑冬梅.基于 SQLite的空間數據庫存儲技術的研究與實現[D].武漢:武漢科技大學,2009.

[5]初雅莉,陳昌穩,崔召金.基于 Android的智慧校園手機系統[J].微型機與應用,2013,32(15):15-17.

[6]張立.一種基于 Android系統網絡模塊功耗的評估和分析[J].計算機科學,2012,39(6):289-292.

(收稿日期:2015-07-30)

作者簡介:

盧照(1983-),男,碩士,主要研究方向:并行處理,智能算法。

K-means algorithm parallelization in Cloud environment

He Peipei1,2,Xie Yinghua1,2
(1.Engineering Research Center of Digitized Textile&Apparel Technology,Ministry of Education,Shanghai 201620,China;2.Information Science and Technology College,Donghua University,Shanghai 201620,China)

The era of big data is coming and the current clustering algorithms are ineffecicient.The Cloud computing platform breaks the state of consuming energy through load balance,network storage and virtualization technology.The paper analyzed the MapReduce programming model in Hadoop Cloud computing platform and the traditional K-means algorithm.The parallel K-means algorithm based on MapReduce was designed including Map function and Reduce function.The result of experiments shows that it fits to data mining on massive datasets.

Cloud computing;data mining;MapReduce;K-means algorithm;parallel algorithm

TP311

A

1674-7720(2015)24-0025-03

何佩佩,謝穎華.云環境下K-means算法的并行化[J].微型機與應用,2015,34(24):25-27,31.

2015-07-23)

何佩佩(1991-),通信作者,女,碩士研究生,主要研究方向:數據分析、數據挖掘。E-mail:hpp1991_06@126.com。

謝穎華(1972-),女,博士,副教授,主要研究方向:通信與信息系統、智能信息處理、無線網絡。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产swag在线观看| 国产人成午夜免费看| 国产美女一级毛片| 亚洲日本中文字幕乱码中文| 国产精品白浆无码流出在线看| 2022国产无码在线| 欧美日韩国产精品va| 制服丝袜在线视频香蕉| 国产精品尤物在线| 无码乱人伦一区二区亚洲一| 国产精品欧美在线观看| 嫩草影院在线观看精品视频| 欧美日韩国产在线人成app| 成年人国产网站| 91娇喘视频| 青青草国产在线视频| 99人妻碰碰碰久久久久禁片| 欧美在线天堂| 欧美激情网址| 深夜福利视频一区二区| 中文字幕天无码久久精品视频免费 | 久久久精品无码一二三区| 国产欧美视频在线| 国产黑人在线| 国产精品永久在线| 亚洲第一视频网| 黄色污网站在线观看| 国产精品页| 四虎成人精品| 午夜欧美理论2019理论| 黄色片中文字幕| 老司国产精品视频| 91美女在线| 中文无码精品A∨在线观看不卡 | 动漫精品中文字幕无码| 日韩无码黄色| 国产色爱av资源综合区| 人妻丰满熟妇αv无码| 五月天综合婷婷| 成人一级免费视频| 国产超薄肉色丝袜网站| 国产高清国内精品福利| 欧美精品伊人久久| 成人在线观看不卡| 久久久久青草大香线综合精品| 国产精品亚欧美一区二区| 国产乱码精品一区二区三区中文| 中文字幕首页系列人妻| 国产精品大白天新婚身材| 国产精品久久久久婷婷五月| 日韩美毛片| 亚洲成人免费看| 国产AV毛片| 91av成人日本不卡三区| 小说 亚洲 无码 精品| 国产亚洲欧美日本一二三本道| 天天操精品| Jizz国产色系免费| 亚洲精品高清视频| 国产精品久久久久鬼色| 欧亚日韩Av| 中文字幕日韩欧美| 久久大香伊蕉在人线观看热2| 香蕉综合在线视频91| 四虎影视永久在线精品| 国产精品福利在线观看无码卡| 日韩 欧美 国产 精品 综合| 五月综合色婷婷| 四虎影视库国产精品一区| 日本午夜在线视频| 无码精品国产dvd在线观看9久| 国产aⅴ无码专区亚洲av综合网| 午夜精品久久久久久久99热下载 | 一级毛片免费不卡在线| 国产激情无码一区二区APP| 国产精品无码作爱| 日本人妻一区二区三区不卡影院| 欧美亚洲综合免费精品高清在线观看| 亚洲AⅤ综合在线欧美一区| 亚洲成人在线网| 91综合色区亚洲熟妇p| 精品国产免费观看一区|