999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于現(xiàn)代云環(huán)境的數(shù)據(jù)挖掘算法的并行化探討

2014-07-09 02:00:37張小軍金志偉張浩
科技創(chuàng)新與應(yīng)用 2014年20期

張小軍+金志偉+張浩

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。

關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化

1 數(shù)據(jù)挖掘算法概述

數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。

從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:

1.1 分類(lèi)分析

分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。

1.2 關(guān)聯(lián)分析

在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。

1.3 聚類(lèi)分析

聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。

2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化

在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。

云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。

這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。

2.1 并行關(guān)聯(lián)規(guī)則挖掘算法

在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:

設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為

總事務(wù)條數(shù)為

關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:

基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:

(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。

(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。

2.2 并行MC-Apriori算法

關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。

3 結(jié)束語(yǔ)

總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。

參考文獻(xiàn)

[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.

[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.

作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint

主站蜘蛛池模板: 国产真实乱了在线播放| 亚洲婷婷六月| P尤物久久99国产综合精品| 久久午夜夜伦鲁鲁片不卡| 亚洲成人黄色在线| 国产成人喷潮在线观看| 午夜福利亚洲精品| 熟妇人妻无乱码中文字幕真矢织江 | 国产99视频精品免费视频7| 91亚洲视频下载| 丰满的少妇人妻无码区| 午夜三级在线| 国产人免费人成免费视频| 综合色在线| 午夜视频免费一区二区在线看| 日韩一区二区在线电影| 青青青草国产| 114级毛片免费观看| 日韩毛片免费观看| 尤物视频一区| 亚洲精品777| 精品国产免费观看一区| 99草精品视频| 亚洲视频一区在线| 亚洲一区黄色| 在线观看热码亚洲av每日更新| 无码内射在线| 日本久久免费| 白浆视频在线观看| 午夜毛片免费看| 欧美在线观看不卡| 国产精品真实对白精彩久久 | 国产三区二区| 亚洲欧美在线综合一区二区三区| 国产一在线观看| 青青青国产视频| 中国黄色一级视频| 亚洲成人精品| 精品国产香蕉在线播出| www.亚洲国产| 色综合中文字幕| 思思热在线视频精品| 国产一区二区在线视频观看| 国产精品视频系列专区| 九色综合伊人久久富二代| 日韩精品一区二区三区大桥未久| 在线综合亚洲欧美网站| 97成人在线视频| 四虎AV麻豆| 国产日韩欧美成人| 国产精品极品美女自在线网站| 91精品网站| 99re在线视频观看| 国产成人精品2021欧美日韩| 2020国产精品视频| 亚洲精品免费网站| 亚洲h视频在线| 欧美国产日韩另类| 欧美另类视频一区二区三区| 欧美日韩精品综合在线一区| 热久久综合这里只有精品电影| 国产一区免费在线观看| 欧美不卡二区| 国产精品妖精视频| 久久99热66这里只有精品一| 久久99国产乱子伦精品免| 她的性爱视频| 国产欧美自拍视频| 日韩av高清无码一区二区三区| 亚洲毛片网站| 国产特级毛片aaaaaaa高清| 福利在线免费视频| 手机看片1024久久精品你懂的| 亚洲欧美一区二区三区麻豆| 免费在线色| 伊人AV天堂| 久久96热在精品国产高清| 伊伊人成亚洲综合人网7777| 人妻丰满熟妇啪啪| 欧美日韩成人| 99无码中文字幕视频| 国产一区亚洲一区|