基于Hadoop的大數(shù)據(jù)分析與優(yōu)化略論

2021-12-24 12:47:26宋柯萱

電腦知識(shí)與技術(shù) 2021年29期

宋柯萱

摘要：作為開源軟件的Hadoop具有強(qiáng)大的數(shù)據(jù)處理功能，具有容錯(cuò)性強(qiáng)，能夠快速地對(duì)網(wǎng)絡(luò)中的大數(shù)據(jù)信息進(jìn)行獲取與處理，可以有效解決數(shù)據(jù)處理過程中的伸縮性問題，為用戶獲取有用的信息，通過對(duì)用戶主題行為數(shù)據(jù)挖掘方式特征進(jìn)行分析，探究了對(duì)用戶行為數(shù)據(jù)挖掘的聚類處理的方法與用戶特征聚類數(shù)據(jù)的處理方法，該方法具有很強(qiáng)的適應(yīng)性，能夠保證Hadoop平臺(tái)對(duì)大數(shù)據(jù)進(jìn)行處理與分析。

關(guān)鍵詞：Hadoop;大數(shù)據(jù);分析;優(yōu)化

中圖分類號(hào)：TP391? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）29-0037-03

在具體的大數(shù)據(jù)處理與分析的過程中，Hadoop平臺(tái)具有很強(qiáng)的適應(yīng)新，它分別利用MapReduce 和HDFS 的功能來實(shí)現(xiàn)數(shù)據(jù)分析，而HDFS是一個(gè)可靠的分布式的文件系統(tǒng)，便于對(duì)分布式的數(shù)據(jù)進(jìn)行處理。Hadoop 的優(yōu)勢在于它具有超高的數(shù)據(jù)吞吐量和訪問能力，能夠?qū)Ａ康男畔?shù)據(jù)進(jìn)行存儲(chǔ)與處理。在進(jìn)行數(shù)據(jù)挖掘時(shí)，利用 MapReduce 向 Hadoop建立群體信息提交時(shí)，相應(yīng)的數(shù)據(jù)就會(huì)按照片段劃分處理，并結(jié)合相應(yīng)的數(shù)據(jù)聚合、關(guān)鍵詞來完成海量數(shù)據(jù)的處理。

1基于用戶主題行為數(shù)據(jù)挖掘

Hadoop平臺(tái)在進(jìn)行數(shù)據(jù)挖掘時(shí)，需要為不同數(shù)據(jù)的挖掘提供接口服務(wù)，結(jié)合數(shù)據(jù)挖掘設(shè)計(jì)的主題，利用 Map/Reduce 算法，將文本劃分為幾個(gè)小的模塊進(jìn)行處理，在不同的模塊之間都重復(fù)執(zhí)行相同的算法，直到完成整個(gè)數(shù)據(jù)的挖掘。利用Ha?doop平臺(tái)可通過分布式存儲(chǔ)技術(shù)對(duì)挖掘的數(shù)據(jù)進(jìn)行存儲(chǔ)，而且處理效率與吞吐率高。Hadoop平臺(tái)能自動(dòng)處理分析失敗的節(jié)點(diǎn)，并重新按照數(shù)據(jù)處理的標(biāo)準(zhǔn)來挖掘數(shù)據(jù)，能整體提高數(shù)據(jù)處理的效率。Hadoop平臺(tái)中Map/Reduce技術(shù)大數(shù)據(jù)處理的關(guān)鍵技術(shù)，其中，HDFS 和HBase技術(shù)為平臺(tái)的基礎(chǔ)，是數(shù)據(jù)處理的關(guān)鍵，HDFS是 Hadoop 大數(shù)據(jù)平臺(tái)核心技術(shù)，能實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)檢索與處理，并采用流的形式快速地對(duì)數(shù)據(jù)進(jìn)行訪問，利用Map/Reduce算法，對(duì)分塊的數(shù)據(jù)進(jìn)行檢索與挖掘，從而完成整個(gè)數(shù)據(jù)的處理技術(shù)。

基于用戶主題的數(shù)據(jù)一般都是安全提前規(guī)定的關(guān)鍵詞保存于 Hadoop分布式文件系統(tǒng)中，并根據(jù)用戶的定義的主題與標(biāo)準(zhǔn)，將數(shù)據(jù)集劃分成不同的切片，形成若干個(gè)數(shù)據(jù)子集，然后利用事先設(shè)計(jì)的MapReduce算法，對(duì)數(shù)據(jù)子集進(jìn)行檢索計(jì)算分析，完成整個(gè)用戶行為的數(shù)據(jù)處理。具體的數(shù)據(jù)挖掘步驟如下：

1）數(shù)據(jù)的初始化處理。主要是對(duì)保存于分布式文件系統(tǒng)（HDFS）中數(shù)據(jù)切片進(jìn)行處理，將獲得的數(shù)據(jù)作為初始化的數(shù)據(jù)作為關(guān)鍵集的值，并得到<key，value>鍵值對(duì)數(shù)據(jù)，根據(jù)數(shù)據(jù)分析的要求，將key定義成用戶編號(hào)，value定義成用戶數(shù)據(jù)行為信息，完成HDFS 中的所有數(shù)據(jù)處理。

2）樣本數(shù)據(jù)處理。通過 Map任務(wù)節(jié)點(diǎn)對(duì)初始化處理的用戶主題數(shù)據(jù)進(jìn)行樣本密度求解分析，為了提高數(shù)據(jù)的效率，按照最大權(quán)值計(jì)算法的方法獲取主題數(shù)據(jù)幾個(gè)簇集，結(jié)合數(shù)據(jù)挖掘的要求，計(jì)算出各個(gè)簇集元素的簇 key、reduce 節(jié)點(diǎn)的關(guān)鍵值，使之與key值一致的簇集對(duì)應(yīng)一起，形成一個(gè)統(tǒng)一的key值編號(hào)，作為整體數(shù)據(jù)處理的簇號(hào)。

3）數(shù)據(jù)的聚合處理。為了降低計(jì)算時(shí)所需的I/O通信代價(jià)，對(duì)HDFS處理后的數(shù)據(jù)集中，將各分區(qū)中key值相同的信息聚合在一起，形成數(shù)據(jù)聚合處理的基本要求。

4）哈希分區(qū)處理。根據(jù)設(shè)計(jì)的依據(jù)定義的要求，分區(qū)函數(shù) Partition進(jìn)行處理，將計(jì)算出的值作為key值，形成若干個(gè)數(shù)據(jù)存儲(chǔ)區(qū)域，并把各分區(qū)的數(shù)據(jù)進(jìn)行Reduce 函數(shù)定義，從而能完成用戶主題的行為數(shù)據(jù)挖掘。

2對(duì)用戶行為數(shù)據(jù)挖掘的聚類處理

2.1數(shù)據(jù)聚類處理的過程

在Hadoop平臺(tái)的數(shù)據(jù)處理中，常用的聚類方法為k-means 方法，它處理數(shù)據(jù)的效率高，應(yīng)用十分廣泛，由于數(shù)據(jù)處理比較復(fù)雜，采用k-means方法對(duì)聚類數(shù)據(jù)處理時(shí)，需要合理的選擇聚類中心的數(shù)據(jù)，這是數(shù)據(jù)聚類處理的關(guān)鍵，如果選擇的不夠合理，就不能選擇局部最優(yōu)方案，不利于數(shù)據(jù)的聚類處理。利用Hadoop平臺(tái)聚合數(shù)據(jù)，需要優(yōu)化k-means方法，結(jié)合KL散度方法，對(duì)挖掘用戶行為數(shù)據(jù)聚合處理，將得到聚類數(shù)量k 與初始聚類中心進(jìn)行比對(duì)，初始聚類中心會(huì)對(duì)相同簇中用戶的行為數(shù)據(jù)進(jìn)行處理，將用戶的行為數(shù)據(jù)的平均距離d產(chǎn)生一定的影響，從而能夠得到如圖1所示的k與d 間的關(guān)系。

通過圖1可以看出，在k值相對(duì)較小的情況下，需要處理的用戶行為聚類數(shù)據(jù)量比較小，在相同數(shù)據(jù)簇部門用戶的行為數(shù)據(jù)出現(xiàn)了模糊化、邊緣化的情況，簇中平均距離d相對(duì)較大，說明數(shù)據(jù)的聚合處理效果不夠理想。在k值逐漸升高變化，d值會(huì)逐漸降低并趨向平穩(wěn)，數(shù)據(jù)用戶行為的數(shù)據(jù)也變得集中，在k 值達(dá)到一定水平后，d值趨向平穩(wěn)，說明挖掘的數(shù)據(jù)在經(jīng)過聚合處理之后，能夠獲得相應(yīng)的要求。結(jié)合k與d之間的變化特性，數(shù)據(jù)聚類處理的步驟如下：

（1）結(jié)合k值與d值的對(duì)應(yīng)關(guān)系，利用k-means方法求出二者相對(duì)應(yīng)的關(guān)系值。

（2）利用k-means方法，選擇數(shù)據(jù)分析點(diǎn)，求出d值的改變趨勢，具體計(jì)算方法如下：

（3）對(duì)值進(jìn)行計(jì)算分析，確定的變化區(qū)間，從而能夠獲取簇內(nèi)值改變頻率的變化區(qū)間，在這里規(guī)定，便于進(jìn)行后期的聚類處理。

2.2聚類中心的選擇

在完成的區(qū)間分析之后，就可以k-means方法不斷縮小d值的區(qū)分范圍，并獲得相應(yīng)的k值。在進(jìn)行數(shù)據(jù)聚類分析時(shí)，首先要選擇聚類中心的問題，這就需要對(duì)聚類的數(shù)據(jù)密度進(jìn)行處理，采用KL散度對(duì)數(shù)據(jù)聚類中心進(jìn)行處理。通常同簇內(nèi)用戶的主體數(shù)據(jù)點(diǎn)分布相對(duì)密集，在與聚類中心點(diǎn)距離越大，數(shù)據(jù)密度就越大，和中心點(diǎn)距離越大密度越小，在具體的數(shù)據(jù)挖掘過程中，如果數(shù)據(jù)挖掘周圍的密度較大，其余空間的數(shù)據(jù)聚合對(duì)象密度就越小，利用這種方法來分析用戶主題數(shù)據(jù)的分布情況，可以將其作為數(shù)據(jù)處理的初始聚類中心，為Hadoop 平臺(tái)的后續(xù)數(shù)據(jù)處理奠定基礎(chǔ)。

（1）將通過 Hadoop 平臺(tái)挖掘產(chǎn)生的數(shù)據(jù)集合用進(jìn)行表示與描述，那么對(duì)數(shù)據(jù)對(duì)象j 的KL散度進(jìn)行計(jì)算，具體的方法如下：

通過計(jì)算就會(huì)產(chǎn)生差異矩陣S，就是由計(jì)算后若干個(gè)元素組成，然后利用升序排列的方法形成KL散度。

（2）k值與d值之間的平均距離計(jì)算方法如下：

（3）數(shù)據(jù)挖掘的密度值計(jì)算。將矩陣S 中的第i行中和數(shù)據(jù)a 間隔超過di2 的數(shù)據(jù)對(duì)象進(jìn)行刪除，就能方便的求出挖掘數(shù)據(jù)對(duì)象a平均間距，從而可以有效地計(jì)算數(shù)據(jù)挖掘的密度值，具體的方法為：，在計(jì)算出最大值后，就可以當(dāng)?shù)谝粋€(gè)最大值作為聚類的中心點(diǎn)，然后利用map 函數(shù)對(duì)用戶行為的Value 的特征向量進(jìn)行計(jì)算，按照數(shù)據(jù)對(duì)象的密度值，進(jìn)行排序計(jì)算，直到計(jì)算到選擇的k個(gè)中心點(diǎn)，形成相應(yīng)的簇號(hào)key值。

（4）如果通過上述的計(jì)算過程處理時(shí)，一直到中心點(diǎn)的數(shù)據(jù)不足時(shí)，可以認(rèn)為計(jì)算出的密度值為最大，這時(shí)將d減少一半后重新進(jìn)行計(jì)算，直到計(jì)算出符合挖掘條件的聚類中心。

（5）對(duì)聚類結(jié)果進(jìn)行分區(qū)處理。主要將初步挖掘的數(shù)據(jù)進(jìn)行處理，依據(jù)key值對(duì)鍵信息，將挖掘的數(shù)據(jù)進(jìn)行分區(qū)，形成若干個(gè)區(qū)域，利用reduce 函數(shù)計(jì)算處理，將分區(qū)中key相同的信息進(jìn)行合并處理，直到聚類結(jié)果所有數(shù)據(jù)達(dá)到穩(wěn)定狀態(tài)，從而能夠得到數(shù)據(jù)挖掘的聚類結(jié)果。

3對(duì)挖掘數(shù)據(jù)的用戶特征提取

3.1用戶特征數(shù)據(jù)提取計(jì)算方法

用戶行為數(shù)據(jù)特征提取是用戶數(shù)據(jù)信息進(jìn)行管理的關(guān)鍵與基礎(chǔ)，在具體的處理過程中，一般采用線性特征提取的方法進(jìn)行計(jì)算，但是在具體的分析計(jì)算中，用戶數(shù)據(jù)規(guī)模比較大，類內(nèi)的散度矩陣往往會(huì)出現(xiàn)奇異值，就需要對(duì)線性特征提取的方法進(jìn)行改進(jìn)，來提取聚類處理后的數(shù)據(jù)挖掘的特征。

假設(shè)用戶行為數(shù)據(jù)樣本點(diǎn)為l維度中心化向量，利用主干成分法可以計(jì)算出數(shù)據(jù)樣本的協(xié)方差矩陣，，但是采用主干成分法處理用戶行為特征樣本，主要用于處理數(shù)據(jù)量大，計(jì)算復(fù)雜度數(shù)據(jù)處理中，屬于批處理的方法，往往會(huì)產(chǎn)生較大的數(shù)據(jù)誤差。針對(duì)主成分分析方法在提取用戶特征數(shù)據(jù)的弊端，需要對(duì)其進(jìn)行優(yōu)化，降低數(shù)據(jù)計(jì)算的復(fù)雜度，通過采用增量計(jì)算的方法，重新對(duì)聚類數(shù)據(jù)特征進(jìn)行提取計(jì)算。

假設(shè)用戶行為數(shù)據(jù)聚類數(shù)據(jù)流按如下的樣本向量進(jìn)行收集，這樣的向量樣本可能比較大，確定v（n）

為d 為數(shù)據(jù)向量，為了提高用戶特征數(shù)據(jù)聚類的準(zhǔn)確性，要對(duì)樣本的數(shù)據(jù)均值進(jìn)行分析，假設(shè) v（n）的均值為0，可以采用來描述維協(xié)方差的矩陣，這就能方便地對(duì)增量更新對(duì)方差矩陣進(jìn)行計(jì)算，來得到用戶的用戶行為聚類特征，具體的計(jì)算方法如下：

為了進(jìn)一步獲取聚類特征數(shù)據(jù)，假設(shè)u（0）= u（1），這就能確定聚類數(shù)據(jù)特征的第一個(gè)特征數(shù)據(jù)方向，然后針對(duì)數(shù)據(jù)增量估計(jì)，將用戶聚類特征計(jì)算方法轉(zhuǎn)換為遞歸計(jì)算的方法：

其中，代表整個(gè)特征矩陣的方差，用戶行為特征

數(shù)據(jù)的特征向量與特征值主要是通過? u 與的方法進(jìn)行計(jì)算。

然后繼續(xù)通過上述過程與方法不斷進(jìn)行計(jì)算，從而能夠獲取的為第一階向量特征數(shù)據(jù)，第二階向量的數(shù)據(jù)可利用第二階向量映射獲取，通過多樣的迭代計(jì)算，具體的計(jì)算方法為：

這樣通過不斷的反復(fù)迭代計(jì)算，將式中的 v（n）值不斷迭代輸入計(jì)算，直到完成整個(gè)數(shù)據(jù)的處理，獲取相關(guān)的特征值。這種計(jì)算方法不僅能有效地避免協(xié)方差矩陣特征值，還提高算法的效率，能有效地計(jì)算用戶特征值的復(fù)雜度，從而能夠提高用戶特征數(shù)據(jù)的收斂性特征，實(shí)現(xiàn)整個(gè)數(shù)據(jù)挖掘計(jì)算處理。

3.2集群擴(kuò)展性分析

集群擴(kuò)展性主要在用戶行為數(shù)據(jù)增量呈現(xiàn)幾何級(jí)數(shù)變化的狀態(tài)下，算法往往會(huì)受到限制，即隨著用電數(shù)據(jù)量的逐漸增多，在運(yùn)行Hadoop平臺(tái)的過程中，采用增加節(jié)點(diǎn)的形式來提升數(shù)據(jù)處理的吞吐量，便于快速對(duì)數(shù)據(jù)進(jìn)行處理，如果集群的擴(kuò)展性優(yōu)良，就說明利用該方法能夠?qū)Υ笠?guī)模的數(shù)據(jù)進(jìn)行處理。為保證數(shù)據(jù)挖掘的有效性，采用了用戶行為數(shù)據(jù)量大小分別為 200M、400M、1000M、1500M、2000M時(shí)，對(duì)數(shù)據(jù)處理的效果進(jìn)行分析，在不同的節(jié)點(diǎn)具體的運(yùn)行效果如圖2所示。

通過圖2 的分析可以看出，在用戶的行為特征數(shù)據(jù)低于400M 的情況下，Hadoop平臺(tái)在并行節(jié)點(diǎn)數(shù)量增加的情況下，平臺(tái)的運(yùn)行效率保持穩(wěn)定，在用戶的行為特征數(shù)據(jù)量達(dá)到2000M 的情況下，Hadoop平臺(tái)的并行節(jié)點(diǎn)數(shù)量增加的情況下，系統(tǒng)平臺(tái)運(yùn)行效率也保持著穩(wěn)定，說明采用 Hadoop平臺(tái)對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行挖掘出來的數(shù)據(jù)集具有良好的擴(kuò)展性，也說明Hadoop 平臺(tái)比較適合進(jìn)行大數(shù)據(jù)處理與分析。

4結(jié)束語

通過以大規(guī)模用戶行為數(shù)據(jù)為基礎(chǔ)，以 Hadoop平臺(tái)為技術(shù)來分析大數(shù)據(jù)特征提取的方法，不僅能夠有效地完成用戶特征數(shù)據(jù)的聚類處理分析，為用戶特征數(shù)據(jù)提取提供依據(jù)，設(shè)計(jì)的數(shù)據(jù)處理方法還具有良好的拓展性，能有效地對(duì)用戶的特征數(shù)據(jù)進(jìn)行分析與提取，從而能夠得到大數(shù)據(jù)環(huán)境下用戶的關(guān)鍵性特征數(shù)據(jù)。

參考文獻(xiàn)：

[1]朱月琴，譚永杰，張建通，等.基于 Hadoop 的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測繪學(xué)報(bào)，2015，44（S1）：152-159.

[2]谷紅勛，楊珂.基于大數(shù)據(jù)的移動(dòng)用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué)，2016，32（3）：139-146.

[3]耿志強(qiáng)，張楊，韓永明.基于矩陣的關(guān)聯(lián)規(guī)則增量更新及其改進(jìn)算法[J].北京化工大學(xué)學(xué)報(bào)（自然科學(xué)版），2016，43（5）：89-94.

[4]于兆良，張文濤，葛慧，等.基于 Hadoop平臺(tái)的日志分析模型[J].計(jì)算機(jī)工程與設(shè)計(jì)，2016，37（2）：338-344，428.

【通聯(lián)編輯：唐一東】