999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的大數(shù)據(jù)分析與優(yōu)化略論

2021-12-24 12:47:26宋柯萱
電腦知識(shí)與技術(shù) 2021年29期
關(guān)鍵詞:大數(shù)據(jù)優(yōu)化分析

宋柯萱

摘要:作為開源軟件的Hadoop具有強(qiáng)大的數(shù)據(jù)處理功能,具有容錯(cuò)性強(qiáng),能夠快速地對(duì)網(wǎng)絡(luò)中的大數(shù)據(jù)信息進(jìn)行獲取與處理,可以有效解決數(shù)據(jù)處理過程中的伸縮性問題,為用戶獲取有用的信息,通過對(duì)用戶主題行為數(shù)據(jù)挖掘方式特征進(jìn)行分析,探究了對(duì)用戶行為數(shù)據(jù)挖掘的聚類處理的方法與用戶特征聚類數(shù)據(jù)的處理方法,該方法具有很強(qiáng)的適應(yīng)性,能夠保證Hadoop平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行處理與分析。

關(guān)鍵詞:Hadoop;大數(shù)據(jù);分析;優(yōu)化

中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)29-0037-03

在具體的大數(shù)據(jù)處理與分析的過程中,Hadoop平臺(tái)具有很強(qiáng)的適應(yīng)新,它分別利用MapReduce 和HDFS 的功能來實(shí)現(xiàn)數(shù)據(jù)分析,而HDFS是一個(gè)可靠的分布式的文件系統(tǒng),便于對(duì)分布式的數(shù)據(jù)進(jìn)行處理。Hadoop 的優(yōu)勢在于它具有超高的數(shù)據(jù)吞吐量和訪問能力,能夠?qū)A康男畔?shù)據(jù)進(jìn)行存儲(chǔ)與處理。在進(jìn)行數(shù)據(jù)挖掘時(shí),利用 MapReduce 向 Hadoop建立群體信息提交時(shí),相應(yīng)的數(shù)據(jù)就會(huì)按照片段劃分處理,并結(jié)合相應(yīng)的數(shù)據(jù)聚合、關(guān)鍵詞來完成海量數(shù)據(jù)的處理。

1基于用戶主題行為數(shù)據(jù)挖掘

Hadoop平臺(tái)在進(jìn)行數(shù)據(jù)挖掘時(shí),需要為不同數(shù)據(jù)的挖掘提供接口服務(wù),結(jié)合數(shù)據(jù)挖掘設(shè)計(jì)的主題,利用 Map/Reduce 算法,將文本劃分為幾個(gè)小的模塊進(jìn)行處理,在不同的模塊之間都重復(fù)執(zhí)行相同的算法,直到完成整個(gè)數(shù)據(jù)的挖掘。利用Ha?doop平臺(tái)可通過分布式存儲(chǔ)技術(shù)對(duì)挖掘的數(shù)據(jù)進(jìn)行存儲(chǔ),而且處理效率與吞吐率高。Hadoop平臺(tái)能自動(dòng)處理分析失敗的節(jié)點(diǎn),并重新按照數(shù)據(jù)處理的標(biāo)準(zhǔn)來挖掘數(shù)據(jù),能整體提高數(shù)據(jù)處理的效率。Hadoop平臺(tái)中Map/Reduce技術(shù)大數(shù)據(jù)處理的關(guān)鍵技術(shù),其中,HDFS 和HBase技術(shù)為平臺(tái)的基礎(chǔ),是數(shù)據(jù)處理的關(guān)鍵,HDFS是 Hadoop 大數(shù)據(jù)平臺(tái)核心技術(shù),能實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)檢索與處理,并采用流的形式快速地對(duì)數(shù)據(jù)進(jìn)行訪問,利用Map/Reduce算法,對(duì)分塊的數(shù)據(jù)進(jìn)行檢索與挖掘,從而完成整個(gè)數(shù)據(jù)的處理技術(shù)。

基于用戶主題的數(shù)據(jù)一般都是安全提前規(guī)定的關(guān)鍵詞保存于 Hadoop分布式文件系統(tǒng)中,并根據(jù)用戶的定義的主題與標(biāo)準(zhǔn),將數(shù)據(jù)集劃分成不同的切片,形成若干個(gè)數(shù)據(jù)子集,然后利用事先設(shè)計(jì)的MapReduce算法,對(duì)數(shù)據(jù)子集進(jìn)行檢索計(jì)算分析,完成整個(gè)用戶行為的數(shù)據(jù)處理。具體的數(shù)據(jù)挖掘步驟如下:

1)數(shù)據(jù)的初始化處理。主要是對(duì)保存于分布式文件系統(tǒng)(HDFS)中數(shù)據(jù)切片進(jìn)行處理,將獲得的數(shù)據(jù)作為初始化的數(shù)據(jù)作為關(guān)鍵集的值,并得到<key,value>鍵值對(duì)數(shù)據(jù),根據(jù)數(shù)據(jù)分析的要求,將key定義成用戶編號(hào),value定義成用戶數(shù)據(jù)行為信息,完成HDFS 中的所有數(shù)據(jù)處理。

2)樣本數(shù)據(jù)處理。通過 Map任務(wù)節(jié)點(diǎn)對(duì)初始化處理的用戶主題數(shù)據(jù)進(jìn)行樣本密度求解分析,為了提高數(shù)據(jù)的效率,按照最大權(quán)值計(jì)算法的方法獲取主題數(shù)據(jù)幾個(gè)簇集,結(jié)合數(shù)據(jù)挖掘的要求,計(jì)算出各個(gè)簇集元素的簇 key、reduce 節(jié)點(diǎn)的關(guān)鍵值,使之與key值一致的簇集對(duì)應(yīng)一起,形成一個(gè)統(tǒng)一的key值編號(hào),作為整體數(shù)據(jù)處理的簇號(hào)。

3)數(shù)據(jù)的聚合處理。為了降低計(jì)算時(shí)所需的I/O通信代價(jià),對(duì)HDFS處理后的數(shù)據(jù)集中,將各分區(qū)中key值相同的信息聚合在一起,形成數(shù)據(jù)聚合處理的基本要求。

4)哈希分區(qū)處理。根據(jù)設(shè)計(jì)的依據(jù)定義的要求,分區(qū)函數(shù) Partition進(jìn)行處理,將計(jì)算出的值作為key值,形成若干個(gè)數(shù)據(jù)存儲(chǔ)區(qū)域,并把各分區(qū)的數(shù)據(jù)進(jìn)行Reduce 函數(shù)定義,從而能完成用戶主題的行為數(shù)據(jù)挖掘。

2對(duì)用戶行為數(shù)據(jù)挖掘的聚類處理

2.1數(shù)據(jù)聚類處理的過程

在Hadoop平臺(tái)的數(shù)據(jù)處理中,常用的聚類方法為k-means 方法,它處理數(shù)據(jù)的效率高,應(yīng)用十分廣泛,由于數(shù)據(jù)處理比較復(fù)雜,采用k-means方法對(duì)聚類數(shù)據(jù)處理時(shí),需要合理的選擇聚類中心的數(shù)據(jù),這是數(shù)據(jù)聚類處理的關(guān)鍵,如果選擇的不夠合理,就不能選擇局部最優(yōu)方案,不利于數(shù)據(jù)的聚類處理。利用Hadoop平臺(tái)聚合數(shù)據(jù),需要優(yōu)化k-means方法,結(jié)合KL散度方法,對(duì)挖掘用戶行為數(shù)據(jù)聚合處理,將得到聚類數(shù)量k 與初始聚類中心進(jìn)行比對(duì),初始聚類中心會(huì)對(duì)相同簇中用戶的行為數(shù)據(jù)進(jìn)行處理,將用戶的行為數(shù)據(jù)的平均距離d產(chǎn)生一定的影響,從而能夠得到如圖1所示的k與d 間的關(guān)系。

通過圖1可以看出,在k值相對(duì)較小的情況下,需要處理的用戶行為聚類數(shù)據(jù)量比較小,在相同數(shù)據(jù)簇部門用戶的行為數(shù)據(jù)出現(xiàn)了模糊化、邊緣化的情況,簇中平均距離d相對(duì)較大,說明數(shù)據(jù)的聚合處理效果不夠理想。在k值逐漸升高變化,d值會(huì)逐漸降低并趨向平穩(wěn),數(shù)據(jù)用戶行為的數(shù)據(jù)也變得集中,在k 值達(dá)到一定水平后,d值趨向平穩(wěn),說明挖掘的數(shù)據(jù)在經(jīng)過聚合處理之后,能夠獲得相應(yīng)的要求。結(jié)合k與d之間的變化特性,數(shù)據(jù)聚類處理的步驟如下:

(1)結(jié)合k值與d值的對(duì)應(yīng)關(guān)系,利用k-means方法求出二者相對(duì)應(yīng)的關(guān)系值。

(2)利用k-means方法,選擇數(shù)據(jù)分析點(diǎn),求出d值的改變趨勢,具體計(jì)算方法如下:

(3)對(duì)值進(jìn)行計(jì)算分析,確定的變化區(qū)間,從而能夠獲取簇內(nèi)值改變頻率的變化區(qū)間,在這里規(guī)定,便于進(jìn)行后期的聚類處理。

2.2聚類中心的選擇

在完成的區(qū)間分析之后,就可以k-means方法不斷縮小d值的區(qū)分范圍,并獲得相應(yīng)的k值。在進(jìn)行數(shù)據(jù)聚類分析時(shí),首先要選擇聚類中心的問題,這就需要對(duì)聚類的數(shù)據(jù)密度進(jìn)行處理,采用KL散度對(duì)數(shù)據(jù)聚類中心進(jìn)行處理。通常同簇內(nèi)用戶的主體數(shù)據(jù)點(diǎn)分布相對(duì)密集,在與聚類中心點(diǎn)距離越大,數(shù)據(jù)密度就越大,和中心點(diǎn)距離越大密度越小,在具體的數(shù)據(jù)挖掘過程中,如果數(shù)據(jù)挖掘周圍的密度較大,其余空間的數(shù)據(jù)聚合對(duì)象密度就越小,利用這種方法來分析用戶主題數(shù)據(jù)的分布情況,可以將其作為數(shù)據(jù)處理的初始聚類中心,為Hadoop 平臺(tái)的后續(xù)數(shù)據(jù)處理奠定基礎(chǔ)。

(1)將通過 Hadoop 平臺(tái)挖掘產(chǎn)生的數(shù)據(jù)集合用進(jìn)行表示與描述,那么對(duì)數(shù)據(jù)對(duì)象j 的KL散度進(jìn)行計(jì)算,具體的方法如下:

通過計(jì)算就會(huì)產(chǎn)生差異矩陣S,就是由計(jì)算后若干個(gè)元素組成,然后利用升序排列的方法形成KL散度。

(2)k值與d值之間的平均距離計(jì)算方法如下:

(3)數(shù)據(jù)挖掘的密度值計(jì)算。將矩陣S 中的第i行中和數(shù)據(jù)a 間隔超過di2 的數(shù)據(jù)對(duì)象進(jìn)行刪除,就能方便的求出挖掘數(shù)據(jù)對(duì)象a平均間距,從而可以有效地計(jì)算數(shù)據(jù)挖掘的密度值,具體的方法為:,在計(jì)算出最大值后,就可以當(dāng)?shù)谝粋€(gè)最大值作為聚類的中心點(diǎn),然后利用map 函數(shù)對(duì)用戶行為的Value 的特征向量進(jìn)行計(jì)算,按照數(shù)據(jù)對(duì)象的密度值,進(jìn)行排序計(jì)算,直到計(jì)算到選擇的k個(gè)中心點(diǎn),形成相應(yīng)的簇號(hào)key值。

(4)如果通過上述的計(jì)算過程處理時(shí),一直到中心點(diǎn)的數(shù)據(jù)不足時(shí),可以認(rèn)為計(jì)算出的密度值為最大,這時(shí)將d減少一半后重新進(jìn)行計(jì)算,直到計(jì)算出符合挖掘條件的聚類中心。

(5)對(duì)聚類結(jié)果進(jìn)行分區(qū)處理。主要將初步挖掘的數(shù)據(jù)進(jìn)行處理,依據(jù)key值對(duì)鍵信息,將挖掘的數(shù)據(jù)進(jìn)行分區(qū),形成若干個(gè)區(qū)域,利用reduce 函數(shù)計(jì)算處理,將分區(qū)中key相同的信息進(jìn)行合并處理,直到聚類結(jié)果所有數(shù)據(jù)達(dá)到穩(wěn)定狀態(tài),從而能夠得到數(shù)據(jù)挖掘的聚類結(jié)果。

3對(duì)挖掘數(shù)據(jù)的用戶特征提取

3.1用戶特征數(shù)據(jù)提取計(jì)算方法

用戶行為數(shù)據(jù)特征提取是用戶數(shù)據(jù)信息進(jìn)行管理的關(guān)鍵與基礎(chǔ),在具體的處理過程中,一般采用線性特征提取的方法進(jìn)行計(jì)算,但是在具體的分析計(jì)算中,用戶數(shù)據(jù)規(guī)模比較大,類內(nèi)的散度矩陣往往會(huì)出現(xiàn)奇異值,就需要對(duì)線性特征提取的方法進(jìn)行改進(jìn),來提取聚類處理后的數(shù)據(jù)挖掘的特征。

假設(shè)用戶行為數(shù)據(jù)樣本點(diǎn)為l維度中心化向量,利用主干成分法可以計(jì)算出數(shù)據(jù)樣本的協(xié)方差矩陣,,但是采用主干成分法處理用戶行為特征樣本,主要用于處理數(shù)據(jù)量大,計(jì)算復(fù)雜度數(shù)據(jù)處理中,屬于批處理的方法,往往會(huì)產(chǎn)生較大的數(shù)據(jù)誤差。針對(duì)主成分分析方法在提取用戶特征數(shù)據(jù)的弊端,需要對(duì)其進(jìn)行優(yōu)化,降低數(shù)據(jù)計(jì)算的復(fù)雜度,通過采用增量計(jì)算的方法,重新對(duì)聚類數(shù)據(jù)特征進(jìn)行提取計(jì)算。

假設(shè)用戶行為數(shù)據(jù)聚類數(shù)據(jù)流按如下的樣本向量進(jìn)行收集,這樣的向量樣本可能比較大,確定v(n)

為d 為數(shù)據(jù)向量,為了提高用戶特征數(shù)據(jù)聚類的準(zhǔn)確性,要對(duì)樣本的數(shù)據(jù)均值進(jìn)行分析,假設(shè) v(n)的均值為0,可以采用來描述維協(xié)方差的矩陣,這就能方便地對(duì)增量更新對(duì)方差矩陣進(jìn)行計(jì)算,來得到用戶的用戶行為聚類特征,具體的計(jì)算方法如下:

為了進(jìn)一步獲取聚類特征數(shù)據(jù),假設(shè)u(0)= u(1),這就能確定聚類數(shù)據(jù)特征的第一個(gè)特征數(shù)據(jù)方向,然后針對(duì)數(shù)據(jù)增量估計(jì),將用戶聚類特征計(jì)算方法轉(zhuǎn)換為遞歸計(jì)算的方法:

其中,代表整個(gè)特征矩陣的方差,用戶行為特征

數(shù)據(jù)的特征向量與特征值主要是通過? u 與的方法進(jìn)行計(jì)算。

然后繼續(xù)通過上述過程與方法不斷進(jìn)行計(jì)算,從而能夠獲取的為第一階向量特征數(shù)據(jù),第二階向量的數(shù)據(jù)可利用第二階向量映射獲取,通過多樣的迭代計(jì)算,具體的計(jì)算方法為:

這樣通過不斷的反復(fù)迭代計(jì)算,將式中的 v(n)值不斷迭代輸入計(jì)算,直到完成整個(gè)數(shù)據(jù)的處理,獲取相關(guān)的特征值。這種計(jì)算方法不僅能有效地避免協(xié)方差矩陣特征值,還提高算法的效率,能有效地計(jì)算用戶特征值的復(fù)雜度,從而能夠提高用戶特征數(shù)據(jù)的收斂性特征,實(shí)現(xiàn)整個(gè)數(shù)據(jù)挖掘計(jì)算處理。

3.2集群擴(kuò)展性分析

集群擴(kuò)展性主要在用戶行為數(shù)據(jù)增量呈現(xiàn)幾何級(jí)數(shù)變化的狀態(tài)下,算法往往會(huì)受到限制,即隨著用電數(shù)據(jù)量的逐漸增多,在運(yùn)行Hadoop平臺(tái)的過程中,采用增加節(jié)點(diǎn)的形式來提升數(shù)據(jù)處理的吞吐量,便于快速對(duì)數(shù)據(jù)進(jìn)行處理,如果集群的擴(kuò)展性優(yōu)良,就說明利用該方法能夠?qū)Υ笠?guī)模的數(shù)據(jù)進(jìn)行處理。為保證數(shù)據(jù)挖掘的有效性,采用了用戶行為數(shù)據(jù)量大小分別為 200M、400M、1000M、1500M、2000M時(shí),對(duì)數(shù)據(jù)處理的效果進(jìn)行分析,在不同的節(jié)點(diǎn)具體的運(yùn)行效果如圖2所示。

通過圖2 的分析可以看出,在用戶的行為特征數(shù)據(jù)低于400M 的情況下,Hadoop平臺(tái)在并行節(jié)點(diǎn)數(shù)量增加的情況下,平臺(tái)的運(yùn)行效率保持穩(wěn)定,在用戶的行為特征數(shù)據(jù)量達(dá)到2000M 的情況下,Hadoop平臺(tái)的并行節(jié)點(diǎn)數(shù)量增加的情況下,系統(tǒng)平臺(tái)運(yùn)行效率也保持著穩(wěn)定,說明采用 Hadoop平臺(tái)對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行挖掘出來的數(shù)據(jù)集具有良好的擴(kuò)展性,也說明Hadoop 平臺(tái)比較適合進(jìn)行大數(shù)據(jù)處理與分析。

4結(jié)束語

通過以大規(guī)模用戶行為數(shù)據(jù)為基礎(chǔ),以 Hadoop平臺(tái)為技術(shù)來分析大數(shù)據(jù)特征提取的方法,不僅能夠有效地完成用戶特征數(shù)據(jù)的聚類處理分析,為用戶特征數(shù)據(jù)提取提供依據(jù),設(shè)計(jì)的數(shù)據(jù)處理方法還具有良好的拓展性,能有效地對(duì)用戶的特征數(shù)據(jù)進(jìn)行分析與提取,從而能夠得到大數(shù)據(jù)環(huán)境下用戶的關(guān)鍵性特征數(shù)據(jù)。

參考文獻(xiàn):

[1]朱月琴,譚永杰,張建通,等.基于 Hadoop 的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測繪學(xué)報(bào),2015,44(S1):152-159.

[2]谷紅勛,楊珂.基于大數(shù)據(jù)的移動(dòng)用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué),2016,32(3):139-146.

[3]耿志強(qiáng),張楊,韓永明.基于矩陣的關(guān)聯(lián)規(guī)則增量更新及其改進(jìn)算法[J].北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,43(5):89-94.

[4]于兆良,張文濤,葛慧,等.基于 Hadoop平臺(tái)的日志分析模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(2):338-344,428.

【通聯(lián)編輯:唐一東】

猜你喜歡
大數(shù)據(jù)優(yōu)化分析
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
主站蜘蛛池模板: 毛片大全免费观看| 亚洲色图欧美在线| 免费av一区二区三区在线| 中文字幕亚洲专区第19页| 中文字幕亚洲综久久2021| 国产一区二区三区在线观看视频 | 欧亚日韩Av| 国产在线自乱拍播放| 国模粉嫩小泬视频在线观看| 超碰91免费人妻| 99精品影院| 少妇精品久久久一区二区三区| 广东一级毛片| 亚洲九九视频| 免费在线成人网| 精品国产Av电影无码久久久| 亚洲无线观看| 91福利片| 国产福利免费在线观看| 在线va视频| 九月婷婷亚洲综合在线| 亚洲国产精品日韩专区AV| 欧美日韩在线国产| 国产麻豆aⅴ精品无码| 日韩麻豆小视频| 国产午夜无码片在线观看网站| 在线网站18禁| 欧美日本激情| 亚洲综合在线最大成人| 亚洲欧美另类日本| 日韩高清中文字幕| 日韩区欧美区| 亚洲男人天堂2020| 国产成人综合日韩精品无码首页| 丁香五月激情图片| 亚洲第一香蕉视频| 亚洲an第二区国产精品| 天堂亚洲网| 亚洲成人一区二区三区| 国产区精品高清在线观看| 亚洲日韩在线满18点击进入| 五月天福利视频| 99热这里只有免费国产精品| 夜夜高潮夜夜爽国产伦精品| 色婷婷色丁香| 日韩成人免费网站| 精品少妇人妻一区二区| 亚洲91在线精品| 国产精品无码久久久久久| 国产主播喷水| 国产95在线 | av一区二区人妻无码| 性视频久久| 亚洲欧美一区二区三区图片| 国产系列在线| 久久男人资源站| 久久久波多野结衣av一区二区| 97色婷婷成人综合在线观看| 亚洲成在人线av品善网好看| 亚洲国产天堂久久综合226114| 成人午夜天| 国产成人精品高清不卡在线 | 国产一区二区三区免费| 国产成人AV大片大片在线播放 | 四虎成人免费毛片| 国内精品伊人久久久久7777人| 一级毛片在线播放| 久久综合亚洲鲁鲁九月天| 国产精品久久久久久久久| 欧美激情第一区| 国产精品.com| 99re免费视频| 午夜在线不卡| 在线观看91香蕉国产免费| 国产一级毛片网站| 亚欧美国产综合| 国产亚洲精品在天天在线麻豆| 亚洲成人一区二区三区| 国产91全国探花系列在线播放| 亚洲精品视频免费观看| 日韩欧美中文字幕在线韩免费| 欧美精品H在线播放|