999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的數據挖掘算法研究

2013-12-31 00:00:00李珩武雪芳
無線互聯科技 2013年12期

摘 要:隨著網絡信息技術的快速發展,面對網絡中海量數據的挖掘存在著計算能力和存儲空間兩方面的限制,云計算技術可以有效地解決數據挖掘中出現的這些問題。本文介紹了云計算的關鍵技術,數據挖掘算法的分類以及云計算平臺下的數據挖掘算法。

關鍵詞:云計算;數據挖掘;MapReduce

隨著互聯網信息技術的飛速發展,網絡中的信息量、數據量越來越龐大,而且這些大量的信息數據并非簡單整齊地排列在數據庫中,它們具有動態、異構、分布廣等特點,分析與處理這些數據的復雜度高,計算能力和存儲空間方面不容易達到要求,給現有的數據挖掘帶來了難題。云計算可以有效地解決這個問題,它是數據管理技術發展的必然趨勢。

1 云計算及其關鍵技術

云計算技術是近年來新興起的共享型編程架構方法,它是由傳統的網格計算和并行計算發展而來的,本質上是一種分布式并行計算技術,它所處理的數據并不是運行在本地機器上,而是存儲在大規模服務器集群中。

云計算技術的基本原理是通過遠程服務訪問大量分布式計算機組成的服務器集群,為互聯網用戶提供計算、存儲、軟硬件等服務,云計算系統可以按照用戶的需求來分配資源并根據任務的優先級別訪問計算機和存儲系統,從而提高了對軟硬件資源的利用率。

2 數據挖掘算法分類

通過數據挖掘去發現知識的模式一般有兩種,分別是統計分析型數據挖掘和預測決策型數據挖掘,兩類挖掘模式都有各自經典的算法,并且從不同視角可以有以下不同的分類標準。

2.1 根據發現的知識種類分類

根據數據挖掘發現的知識種類可將數據挖掘算法分為:數據總結、數據聚類、關聯規則發現、序列模式發現、分類或預測模型知識發現、依賴關系或依賴模型發現、異常和趨勢發現等。

2.2 根據挖掘的數據庫種類分類

根據挖掘的數據庫種類可以分為基于各種數據庫的挖掘算法:關系型數據庫、面向對象數據庫、空間數據庫、文本數據庫、多媒體數據庫、異質數據庫、遺留數據庫等,以及基于數據倉庫和基于Web的數據挖掘算法等。

2.3 根據挖掘方法采用的技術分類

根據數據挖掘方法采用的技術可以將數據挖掘算法分為:統計分析、機器學習、模式識別、面向數據庫或數據倉庫技術、可視化技術和神經網絡等。

基于云計算的數據挖掘算法是在以上這些數據挖掘算法的基礎上,采用云計算平臺實現的數據挖掘算法。各挖掘算法對數據類型的要求是不同的,它不可能會適應所有數據類型的挖掘應用,所以我們在考慮不同數據類型的挖掘和具體的應用時,往往要結合多方面的因素來考慮算法的優缺點,以便能夠采用多種算法實現有效的數據挖掘。

3 云計算平臺下的數據挖掘算法

MapReduce是一種基于云計算的并行編程模型,它采用函數式的編程思想,將整個模型的計算過程分為映射過程Map和聚集處理過程Reduce。其中,Map階段負責數據拆分,Reduce階段負責數據歸并。想要將經典的數據挖掘算法運行在云平臺上,算法本身并不需要太大的變化,關鍵在于要將算法按照Map/Reduce框架合理的并行化,以及將并行化后的算法部署在云計算環境中,使得它可以加載云存儲環境中的數據并進行運算。

3.1 基于Map/Reduce的Apriori算法執行過程

⑴主進程基于(K-1)-項頻繁項集遍歷事務數據庫,并生成K-項候選集,然后由Map/Reduce框架將此候選集分發到各個計算節點;⑵每個Map節點處理一個數據分塊,并計算當前分配到數據分塊的K-項候選集的支持數,此時Map/Reduce框架會在數據分塊和Map節點之間持續調度,直到所有的分塊數據處理完畢為止;⑶Reduce節點合并來自所有Map節點處理的數據,獲得全局K-項候選集的支持數,并基于此支持數生成(K+1)-項頻繁項集;⑷主進程通過遍歷事務數據庫來決定該任務是否已經完成。

3.2 基于Map/Reduce的K-Means算法執行過程

⑴隨機選擇k個初始聚類中心,同時將這些初始聚類中心保存到OriginalCluster[]中,并將其進行數據分塊,根據計算節點集群的情況,將此分塊分配給各個計算節點;⑵在Map階段計算最近距離和總數,同時在Map/Reduce框架下,把鍵值對的Key和Value分別對應到i和D[k],其中D是事務數據集;⑶在Reduce階段,由于i是Map/Reduce框架中的Key,這就保證了同一個Key的所有D[k]會分配到同一個Reduce進程中,在此Reduce進程計算新的聚類中心并保存到DestinationCluster[]中;⑷比較DestinationCluster[]和OriginalCluster[]兩個值,如果兩者的變化小于預先給定的閾值則聚類完成,否則,將DestinationCluster[]保存到OriginalCluster[]中,繼續跳轉到第(2)步執行。

3.3 基于Map/Reduce的PageRank算法執行過程

⑴Map階段讀入數據文件集中的每行數據,把這些數據進行簡單的格式處理,并拆分成形式。⑵Reduce階段收集Map階段的輸出,按照key值合并相應的value值,對每個key值計算并輸出新的PageRank,將數據結果保存在HDFS中,用于下一次迭代計算。⑶將階段(2)計算的結果與階段(1)生成的鏈接結果合并,作為下一次迭代計算PageRank值的輸入。

4 結束語

基于云計算數據挖掘是當今計算機界的熱門研究領域,其研究成果應用前景廣闊且價值巨大。隨著云計算技術的進一步發展,必將對數據挖掘帶來更多新的突破和更好的技術支持。

[參考文獻]

[1]劉鵬.云計算[M].北京:電子工業出版社,2010.

[2]李軍華.云計算及若干數據挖掘算法的MapReduce化研究[D].成都:電子科技大學,2010.

主站蜘蛛池模板: 日本国产精品| 亚洲综合九九| 久久综合丝袜日本网| 无码专区国产精品一区| 国产精品午夜电影| 青青操国产| 毛片久久网站小视频| 蝌蚪国产精品视频第一页| 婷婷六月综合网| 国产精品熟女亚洲AV麻豆| 国产白浆一区二区三区视频在线| 亚洲人成电影在线播放| 18禁高潮出水呻吟娇喘蜜芽| 亚洲日韩国产精品综合在线观看| 国产丝袜无码精品| 91无码人妻精品一区| 极品尤物av美乳在线观看| 日韩A∨精品日韩精品无码| 国产在线观看91精品| 久久99国产乱子伦精品免| 日本福利视频网站| 四虎影视8848永久精品| 久久黄色影院| 日本伊人色综合网| 特级毛片免费视频| 老司国产精品视频| 亚洲婷婷丁香| a级毛片一区二区免费视频| 亚洲视频免费播放| 成人小视频在线观看免费| 亚洲区第一页| 日韩大片免费观看视频播放| 婷婷成人综合| 播五月综合| 热这里只有精品国产热门精品| 国产办公室秘书无码精品| 亚洲成人精品在线| 亚洲成aⅴ人在线观看| 永久免费av网站可以直接看的| 亚洲三级电影在线播放| 久久久久亚洲av成人网人人软件 | 亚洲免费福利视频| 久久久久久高潮白浆| 日日噜噜夜夜狠狠视频| 国产在线啪| 亚洲无码精彩视频在线观看| 国产SUV精品一区二区6| 91在线播放国产| 国产成人亚洲毛片| 91精品免费久久久| 国产精品成人AⅤ在线一二三四| 91精品国产91欠久久久久| 国产欧美又粗又猛又爽老| 国产熟睡乱子伦视频网站| AV网站中文| 黑色丝袜高跟国产在线91| 日韩av电影一区二区三区四区| 色综合久久88| 国产综合网站| 欧美A级V片在线观看| 精品国产成人a在线观看| 欧美日本激情| 欧美专区在线观看| 看看一级毛片| 日韩精品久久久久久久电影蜜臀| 亚洲无线视频| 成年片色大黄全免费网站久久| 99精品国产高清一区二区| 国产一区免费在线观看| 天天躁夜夜躁狠狠躁图片| 噜噜噜综合亚洲| 亚洲福利视频一区二区| 第一页亚洲| 欧美亚洲日韩中文| 亚洲 欧美 日韩综合一区| 国产精品尤物铁牛tv | 欧美国产菊爆免费观看| 高清不卡一区二区三区香蕉| 免费看的一级毛片| 亚洲欧美成人综合| 欧美激情视频二区三区| 九九精品在线观看|