999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop平臺的FCM算法并行化設(shè)計

2019-05-15 06:07:50陳陽
自動化與信息工程 2019年1期
關(guān)鍵詞:數(shù)據(jù)挖掘設(shè)計

陳陽

?

基于Hadoop平臺的FCM算法并行化設(shè)計

陳陽

(廣東省科技基礎(chǔ)條件平臺中心)

基于云計算平臺Hadoop的主要功能和MapReduce處理流程,設(shè)計FCM算法的并行化處理過程。

模糊C均值;MES;數(shù)據(jù)挖掘;并行化處理

0 引言

近年來,隨著移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等技術(shù)的快速發(fā)展及計算機計算能力的大幅提升,現(xiàn)代制造業(yè)逐漸走上了信息化、智能化轉(zhuǎn)型和升級的道路[1]。其中,制造企業(yè)生產(chǎn)過程執(zhí)行系統(tǒng)(manufacturing execution system,MES)智能化改造是企業(yè)信息化和智能化進(jìn)程的關(guān)鍵內(nèi)容之一。利用MES中的生產(chǎn)實時數(shù)據(jù),結(jié)合大數(shù)據(jù)挖掘技術(shù),跟蹤產(chǎn)品質(zhì)量管理和生產(chǎn)過程,是提高生產(chǎn)效率及智能化的關(guān)鍵。

然而,MES數(shù)據(jù)量較大,大數(shù)據(jù)挖掘處理速度亟待解決。目前提高大數(shù)據(jù)挖掘處理速度的技術(shù)主要包括云計算平臺的分布式挖掘和智能算法2方面。

本文以Hadoop分布式框架為基礎(chǔ),研究基于模糊C均值聚類的數(shù)據(jù)挖掘算法并行處理技術(shù),以提高大數(shù)據(jù)挖掘處理速度。

1 基于Hadoop的海量數(shù)據(jù)分布式處理平臺

數(shù)據(jù)挖掘(data mining,DM)是指從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中找出隱含的、當(dāng)前未知的、非凡的以及有潛在應(yīng)用價值的信息或者模式[2]。數(shù)據(jù)挖掘主要經(jīng)歷基于網(wǎng)格計算的分布式挖掘和基于云計算平臺的分布式挖掘2個階段。目前數(shù)據(jù)挖掘研究大多集中在云計算平臺,其主要特點是使用多個計算節(jié)點對算法進(jìn)行運算,分配規(guī)則是根據(jù)算法所需要的資源,在云端實現(xiàn)數(shù)據(jù)存儲和運算。其中基于Hadoop分布式框架的云計算分布式挖掘是當(dāng)前研究熱點[3]。

Hadoop平臺主要由MapReduce,Pig,HDFS,Hive和HBase等部分組成[4]。其中MapReduce(分布式計算)是算法處理核心,主要包括Map和Reduce 2個計算過程,處理流程圖如圖1所示[5]。此外,目前對于海量數(shù)據(jù)的處理,借助Combine函數(shù)對Map函數(shù)的輸出進(jìn)行合并,以減少傳輸?shù)絉educe函數(shù)的數(shù)據(jù)量,從而提高數(shù)據(jù)處理效率。

圖1 MapReduce處理流程圖

2 模糊C均值聚類算法

聚類算法是數(shù)據(jù)挖掘技術(shù)中的一類常用、高效的算法。模糊C均值聚類(Fuzzy C-Means,F(xiàn)CM)算法是以類內(nèi)加權(quán)誤差平方和作為目標(biāo)函數(shù)的一類聚類方法[6],算法基本流程如圖2所示。

圖2 FCM算法基本流程圖

FCM算法的具體步驟描述如下:

1)初始化,對個樣本={1,2,3,…,x}進(jìn)行類劃分,設(shè)置迭代定制閾值和最大迭代次數(shù);初始化聚類原型矩陣,給定加權(quán)指數(shù);初始化迭代起始數(shù),即給置0;

2)利用式(1)計算或更新劃分矩陣

3)利用式(2)更新聚類原型矩陣

4)利用式(3)計算當(dāng)前目標(biāo)函數(shù)值,若目標(biāo)函數(shù)值小于閾值或達(dá)到迭代次數(shù),則輸出劃分矩陣和聚類原型矩陣的值;否則,令=+1,轉(zhuǎn)步驟2)。

3 FCM算法并行化設(shè)計

根據(jù)FCM算法原理,每個數(shù)據(jù)對象到個聚類中心的隸屬度計算是相互獨立的,且比較耗費計算資源。因此,對這一過程進(jìn)行并行化設(shè)計。

在Hadoop平臺中,F(xiàn)CM算法的并行化設(shè)計和實現(xiàn),實質(zhì)就是將算法進(jìn)行MapReduce化,即實現(xiàn)Map和Reduce過程,具體工作包括:1)輸入和輸出鍵值對設(shè)計;2)函數(shù)的具體實現(xiàn)邏輯。基于Hadoop平臺的FCM算法并行化過程如圖3所示。

4 FCM算法并行化實現(xiàn)

基于Hadoop平臺的FCM算法并行化實現(xiàn)主要步驟:1) Map函數(shù)實現(xiàn);2) Combine函數(shù)實現(xiàn);3) Reduce函數(shù)實現(xiàn)。

1) Map函數(shù)實現(xiàn)

Map函數(shù)的作用是讀取待分類數(shù)據(jù)和當(dāng)前個聚類中心的值,并計算各個數(shù)據(jù)分別對個聚類中心的距離、隸屬度、隸屬度與數(shù)據(jù)的乘積和。Map函數(shù)形式為鍵值對,其中是當(dāng)前數(shù)據(jù)的行偏移量;是當(dāng)前對象各個維度坐標(biāo)值的行記錄。Map函數(shù)的實現(xiàn)過程就是從字符串中得到源數(shù)據(jù)/對象與個聚類中心的隸屬度,最后輸出形如<2,2>的返回值。

圖3 基于Hadoop平臺的FCM算法并行化過程圖

Map函數(shù)設(shè)計與實現(xiàn)的偽代碼為:

map(<,>,<2,2>){

從中解析出當(dāng)前數(shù)據(jù)對象,記為Source={S|1,2,…,S};

得到個聚類中心={v|1,2,…,v};

初始化各數(shù)據(jù)點到個聚類中心的距離總和SUM_Distance=0

for(=1;≤;++){

_distance[]=Math.norm([]);

SUM_Distance=SUM_Distance+Math.pow(1/(_ distance[]*_distance[]),-1);

}

for(1){

_menbership[]= Math.pow(1/(_distance[]*_distance[]),-1)/SUM_Distance;

}

for(=1;++){

Temp_P[]= Math.pow(_menbership[], b)*[];

}

2個聚類中心的ID

2= (_menbership[], Temp_P[]);

函數(shù)返回<22>;

}

2)Combine函數(shù)實現(xiàn)

Combine函數(shù)的主要作用是對Map函數(shù)的輸出結(jié)果(隸屬度和隸屬度與數(shù)據(jù)點的乘積和集)進(jìn)行整理和排序,從而保證后續(xù)Reduce函數(shù)的輸入?yún)?shù)能夠按照值對Map階段的輸出結(jié)果進(jìn)行分組。因此,Combine函數(shù)的輸入?yún)?shù)為Map函數(shù)的輸出22,其中,2代表當(dāng)前C聚類中心的ID;2代表隸屬度的值以及數(shù)據(jù)點的乘積和。

Combine函數(shù)設(shè)計與實現(xiàn)的偽代碼為:

map(<2,2>,<3,3>){

創(chuàng)建一個存儲空間,存儲同一個聚類中心的相關(guān)數(shù)據(jù);

for(=1;≤;++){

for(=1;≤;++);

While(value.hasNext()){

調(diào)用value.nex()得到屬于第個聚類中心的數(shù)據(jù);

將調(diào)出來的數(shù)據(jù)存入到對應(yīng)的數(shù)組中;

}

}

3=2;

3=重新分配的數(shù)據(jù)組;

函數(shù)返回<3,3>;

}

3)Reduce函數(shù)實現(xiàn)

Map函數(shù)和Combine函數(shù)的處理結(jié)果經(jīng)過Reduce函數(shù)的計算得到聚類更新后的聚類中心點,然后進(jìn)行迭代,即進(jìn)入新一輪的Map,Reduce過程。Reduce函數(shù)的輸入?yún)?shù)格式為<33>鍵值對,其中3值表示聚類中心下標(biāo),3是Combine函數(shù)的計算結(jié)果。

Reduce函數(shù)設(shè)計與實現(xiàn)的偽代碼為:

map(<3,3>,<4,4>){

初始化所有數(shù)據(jù)點與隸屬度乘積和的總和為SUM1=0;

初始化所有數(shù)據(jù)點的隸屬度總和為SUM2=0;

for(=1;≤;++){

SUM1[]=SUM1[]+Temp_P[];

SUM2=SUM2[]+_menbership[];

}

for(=1;≤;++){

New_C[]=SUM1[]/SUM2[];

}

4=3;

3=更新后的個聚類中心的ID;

函數(shù)返回<4,4>;

}

5 應(yīng)用實例

本實驗數(shù)據(jù)是某塑料制品加工企業(yè)MES中存儲的手機前蓋加工數(shù)據(jù),包括生產(chǎn)設(shè)備信息、塑料原料信息、料筒溫度信息、合模壓力信息、鎖模壓力信息、螺桿位置信息、頂針位置信息、模具位置信息和制品檢測信息等。通過對這些數(shù)據(jù)進(jìn)行基于模糊C均值聚類的MapReduce并行化處理,實現(xiàn)手機前蓋加工質(zhì)量等級的分類。將該加工數(shù)據(jù)按樣本大小逐級遞增分為3組,如表1所示,要求生成3個聚類,分別是合格、次品和廢品。

表1 實驗數(shù)據(jù)集分組情況

加速比是算法在單節(jié)點與多節(jié)點上聚類給定數(shù)據(jù)集中數(shù)據(jù)對象執(zhí)行時間的比值,是衡量并行系統(tǒng)性能或程序并行化效果和擴(kuò)展性的重要指標(biāo)[7]。本文利用加速比來驗證算法的并行化效果。

分別設(shè)置1到10個節(jié)點進(jìn)行運算,得到的實驗結(jié)果如圖4所示。

圖4 基于模糊C均值聚類的MapReduce并行化處理實驗結(jié)果

實驗結(jié)果表明:該算法的加速比隨著節(jié)點數(shù)的增加呈相對線性增長,即具有良好的加速比性能,且對于不同大小的數(shù)據(jù)集,加速比性能穩(wěn)定。

6 結(jié)語

本文介紹了FCM在Hadoop平臺的MapReduce并行化處理過程的設(shè)計與實現(xiàn),為MES的數(shù)據(jù)挖掘算法并行處理技術(shù)提供借鑒和參考。

[1] 白艷玲,殷子焱.智能化制造業(yè)發(fā)展的戰(zhàn)略思考[J].科技創(chuàng)新與生產(chǎn)力,2015(7):11-12.

[2] 張誠,郭毅.數(shù)據(jù)挖掘與云計算——專訪中國科學(xué)院計算技術(shù)研究所何清博士[J].數(shù)字通信,2011,38(3):5-7.

[3] 賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術(shù)與發(fā)展,2013,23(2):69-72.

[4] 林琳.揭秘Hadoop生態(tài)圈[J].科技視界,2016(26):247,231.

[5] 石慧芳,陳陽.基于大數(shù)據(jù)的制造業(yè)企業(yè)信息化數(shù)據(jù)分析及應(yīng)用技術(shù)研究[J].現(xiàn)代計算機(專業(yè)版),2016(16):50-54

[6] 潘玉娜,陳進(jìn),李興林.基于模糊c-均值的設(shè)備性能退化評估方法[J].上海交通大學(xué)學(xué)報,2009,43(11):1794-1797

[7] Susanne Englert, Jim Gray, Terrye Kocher, et al. A benchmark of NonStop SQL release 2 demonstrating near-linear speedup and scaleup on large database[J]. ACM SIGMETRICS Performance Evaluation Review, 1990,18(1): 245-246.

Parallel Design of FCM Algorithm Based on Hadoop Platform

Chen Yang

(Guangdong Science & Technology Infrastructure Center)

The parallel design and implementation of MES data mining algorithm based on fuzzy c-means clustering was deeply studied in this paper. Firstly, the main functions of Hadoop, the cloud computing platform supporting data mining technology, and the processing flow of MapReduce, which realizes algorithm operation, was introduced. Then, the fuzzy c-means clustering algorithm, which is different from k-means clustering algorithm, was introduced. Finally, the parallel processing of MapReduce based on fuzzy c-means clustering algorithm was designed and implemented.

Key Works: Fuzzy CMeans; MES; Data Mining; Parallelization

陳陽,男,1984年生,本科,高級工程師,主要研究方向:計算機、電子信息技術(shù)應(yīng)用等。E-mail: gdcc_chenyang@foxmail.com

猜你喜歡
數(shù)據(jù)挖掘設(shè)計
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
何為設(shè)計的守護(hù)之道?
《豐收的喜悅展示設(shè)計》
流行色(2020年1期)2020-04-28 11:16:38
瞞天過海——仿生設(shè)計萌到家
設(shè)計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 久久久久久久久久国产精品| 国产乱人免费视频| 婷婷六月综合| 免费人成在线观看成人片| 亚洲人成人伊人成综合网无码| 精品色综合| 亚洲最大看欧美片网站地址| 亚洲成人动漫在线观看| 91娇喘视频| 狠狠色丁香婷婷综合| 在线观看国产精品第一区免费| 久久99久久无码毛片一区二区| 伊人福利视频| 全色黄大色大片免费久久老太| 欧美日本激情| 五月婷婷激情四射| 国产成人无码Av在线播放无广告| 日韩少妇激情一区二区| 日本高清免费不卡视频| 成人综合久久综合| 伊人成人在线| 中文字幕亚洲专区第19页| 久久www视频| 久久精品国产999大香线焦| 亚洲欧美日本国产综合在线| 国产精品久线在线观看| 国产亚洲精| 一级毛片免费高清视频| 国产高清毛片| 国产91视频免费观看| 人妻出轨无码中文一区二区| 最新国语自产精品视频在| 日本高清有码人妻| 亚洲女同一区二区| 国产靠逼视频| 久久青草免费91线频观看不卡| 高清国产在线| 色综合日本| 亚洲精品午夜无码电影网| 谁有在线观看日韩亚洲最新视频| 亚洲免费三区| 91在线国内在线播放老师| 国产jizzjizz视频| 久爱午夜精品免费视频| 国产真实乱子伦视频播放| 沈阳少妇高潮在线| 又爽又大又黄a级毛片在线视频| 狠狠色丁婷婷综合久久| 欧美成人综合视频| 欧美黑人欧美精品刺激| 3344在线观看无码| 久久99热66这里只有精品一| 国产性生大片免费观看性欧美| 99成人在线观看| 亚洲第一成年网| 亚洲乱码视频| 亚欧美国产综合| 99视频在线免费观看| 手机在线国产精品| 欧美成人免费一区在线播放| 国产精品爽爽va在线无码观看| 国产一区二区三区夜色| P尤物久久99国产综合精品| 国产青青操| 婷婷色一二三区波多野衣| 一区二区三区成人| 尤物精品视频一区二区三区| 国产产在线精品亚洲aavv| av天堂最新版在线| 国产91小视频在线观看| 成人在线综合| 色AV色 综合网站| 噜噜噜久久| 国产成人a毛片在线| 国产精品综合色区在线观看| 久久久久久国产精品mv| 1769国产精品免费视频| 欧美日韩精品一区二区视频| 久久国产精品影院| 高清国产在线| 欧美性爱精品一区二区三区| 国产一级在线观看www色|