基于云計算的Hadoop大數(shù)據(jù)平臺挖掘算法及實現(xiàn)研究

2021-12-08 13:40:32張文明

無線互聯(lián)科技 2021年19期

關(guān)鍵詞：云計算

張文明

摘要：在Personal Computer技術(shù)的基礎(chǔ)上，Hadoop大數(shù)據(jù)管理平臺采用了一種新型的分布式數(shù)據(jù)集群管理系統(tǒng)，具有網(wǎng)絡(luò)兼容性好、運行管理效率高、擴(kuò)展應(yīng)用能力強(qiáng)等特點，目前已經(jīng)在很多行業(yè)中得到應(yīng)用。在此基礎(chǔ)上，文章對 Hadoop新型大數(shù)據(jù)平臺的設(shè)計基本特征及其實現(xiàn)進(jìn)行了深入的闡述，并通過實例結(jié)合該數(shù)據(jù)平臺的具體工作及設(shè)計原理，對 Hadoop大數(shù)據(jù)服務(wù)平臺的主要功能及其平臺實現(xiàn)應(yīng)用情況進(jìn)行了深入的分析研究。

關(guān)鍵詞：云計算;Hadoop大數(shù)據(jù)平臺;挖掘算法

0 ? 引言

Hadoop技術(shù)軟件是谷歌公司自行研發(fā)的一款項目，是現(xiàn)階段在因特網(wǎng)上較為流行的一種內(nèi)容編輯和分類工具，它可以很好地解決延展性和擴(kuò)散性的問題。例如，對海量文件信息進(jìn)行字符串搜索和匹配，采用傳統(tǒng)方法進(jìn)行系統(tǒng)處理很可能會花費大量時間，而 Hadoop技術(shù)更適合于有效解決與之相關(guān)的問題。它主要包括系統(tǒng)開發(fā)功能、數(shù)據(jù)采集與管理功能、數(shù)據(jù)存儲與管理功能、數(shù)據(jù)挖掘的可視化及應(yīng)用，本文重點分析了這些功能在數(shù)據(jù)挖掘中的實現(xiàn)情況。

1 Hadoop大數(shù)據(jù)平臺設(shè)計

Hadoop系統(tǒng)結(jié)構(gòu)如圖1所示[1]。此方法在這個軟件系統(tǒng)中采用最新的并行計算和數(shù)據(jù)處理方法，這種新的計算和并行處理方法的速度與對所有數(shù)據(jù)相關(guān)信息的并行處理速度相當(dāng)，再加上 Hadoop這一技術(shù)本身具備高可伸縮性的特點，它還可以對數(shù)據(jù)信息進(jìn)行有效的并行處理。

1.1 ?層級

首先，分布式計算處理平臺屬于管理層，其主要設(shè)計目的是實現(xiàn)其在集群處理網(wǎng)絡(luò)系統(tǒng)中的并行數(shù)據(jù)存儲和綜合計算等基本功能，為分布式系統(tǒng)和云系統(tǒng)的并行數(shù)據(jù)操作提供了一種處理模式，將處理任務(wù)從集群網(wǎng)絡(luò)上順利地直接傳輸出來，并將數(shù)據(jù)發(fā)送給集群服務(wù)器的各個工作節(jié)點。

其次，數(shù)據(jù)挖掘?qū)儆谄脚_架構(gòu)層，是整個平臺架構(gòu)的重要功能，主要目標(biāo)是通過數(shù)據(jù)算法對數(shù)據(jù)進(jìn)行并行分析，然后通過編寫計算任務(wù)，將每項計算任務(wù)按實際分配值發(fā)送到平臺Hadoop，這是數(shù)據(jù)挖掘平臺的一個并行計算層，通過并行計算算法將計算結(jié)果發(fā)送到平臺的任務(wù)管理層[2]。

再次，任務(wù)應(yīng)用管理不僅需要通過不斷優(yōu)化應(yīng)用業(yè)務(wù)流程，完善業(yè)務(wù)處理邏輯，還需要通過對相關(guān)應(yīng)用的合理調(diào)配和統(tǒng)一指揮，把握每個應(yīng)用任務(wù)的數(shù)據(jù)真實性和完成進(jìn)度。對客戶端的各種相關(guān)設(shè)計作品及時進(jìn)行調(diào)配，并及時組織材料加工。比如，用戶在交互應(yīng)用層需要提交具有特定屬性的數(shù)據(jù)，業(yè)務(wù)層的應(yīng)用管理功能就需要對這些產(chǎn)品進(jìn)行處理后再賦予其使用的權(quán)限，以完成對數(shù)據(jù)的信息分類任務(wù)和數(shù)據(jù)挖掘的搜索任務(wù)，根據(jù)應(yīng)用平臺上的數(shù)據(jù)要求，將通過搜索和挖掘得到的所有數(shù)據(jù)分類執(zhí)行分析算法，并根據(jù)最終分析結(jié)果向最終用戶提供反饋，發(fā)送到交互應(yīng)用層[3]。

最后，交互層主要是指用戶端與系統(tǒng)之間的一個使用界面，其所有的表現(xiàn)形式都是通過圖形化的方式呈現(xiàn)給客戶端，用戶可以在線直接登錄自己的系統(tǒng)，根據(jù)客戶端的業(yè)務(wù)需求獲取或保存系統(tǒng)中各種信息輸出的大量數(shù)據(jù)成果，以解決客戶端的業(yè)務(wù)問題，滿足客戶端和用戶的業(yè)務(wù)需求。

1.2 ?職能結(jié)構(gòu)

（1）數(shù)據(jù)采集與挖掘功能，主要目的是將所有的數(shù)據(jù)加載、保存，并需要輸入 hdfs文件系統(tǒng)，保存大量的信息，以便客戶隨時查詢和使用。

（2）并行etl進(jìn)行數(shù)據(jù)管理模塊，直接從 hdfs文件獲取輸入數(shù)據(jù)，并將其保存到文件管理系統(tǒng)中，實現(xiàn)數(shù)據(jù)的自動提取、轉(zhuǎn)換、預(yù)處理。

（3）儲藏功能，主要是將挖掘過的歷史資料進(jìn)行儲藏，形成知識庫。

（4）模式評估功能，主要目的是對無需求的子業(yè)務(wù)進(jìn)行需求分類、管理，響應(yīng)高層指示，并對其產(chǎn)生的模型和結(jié)果進(jìn)行評估。

（5）業(yè)務(wù)應(yīng)用層的模塊和功能，即在業(yè)務(wù)系統(tǒng)對下級業(yè)務(wù)的處理操作時，及時對上級業(yè)務(wù)處理模塊作出響應(yīng)，通過底層模塊實現(xiàn)業(yè)務(wù)處理。與此同時，工作流模塊能夠通過電子郵件和網(wǎng)絡(luò)將詳盡的參數(shù)信息反饋給相應(yīng)的上級業(yè)務(wù)層，并能對業(yè)務(wù)運行狀態(tài)進(jìn)行監(jiān)測、管理[4]。

（6）交互模塊，主要包括注冊、登記或注銷等多種功能，能充分滿足用戶的各種業(yè)務(wù)需求，便于用戶對數(shù)據(jù)資料進(jìn)行分析和保存。該系統(tǒng)整體結(jié)構(gòu)和功能設(shè)計十分完善，操作方便，在許多領(lǐng)域的應(yīng)用已得到廣泛認(rèn)可。

以下針對該平臺中數(shù)據(jù)挖掘功能的實現(xiàn)情況著重進(jìn)行了分析。

2 實現(xiàn)基于 Hadoop的數(shù)據(jù)挖掘功能

要實現(xiàn)基于 Hadoop的大數(shù)據(jù)挖掘算法，則需要在該算法中進(jìn)行相應(yīng)的算法設(shè)計與實施。

首先，基于 canopy算法的 mapreduce實現(xiàn)。依據(jù)所采用的并行算法和步驟，可以將整個工作流程劃分為兩個階段：第一階段，實際執(zhí)行的主要算法是 canopy算法，另一個階段是k-means算法。上傳到數(shù)據(jù)集的文件，所有的實驗數(shù)據(jù)都是通過 mapreduce的程序從數(shù)據(jù)庫中直接上傳到 hdfs文件系統(tǒng)中，系統(tǒng)會從其中記錄數(shù)據(jù)，然后編寫并運行算法，用 java語言完成 apriori算法，把寫好的算法和代碼壓縮成 jar文件，用 Hadoop的 bin目錄 shell命令就可以完成這一操作，如圖2所示。

在第二階段，將繼續(xù)完善像 kmeans這樣的算法。該編程算法的主要目的是通過對數(shù)據(jù)進(jìn)行前一個集合階段的簇的數(shù)據(jù)劃分，對每個階段的數(shù)據(jù)產(chǎn)生集的不同中心的向量函數(shù)進(jìn)行序列對應(yīng)的階段性數(shù)據(jù)劃分，主要使用 nnmrr編程算法模型。

其次，對于整個聯(lián)合（combine）階段的各個數(shù)值算法也要進(jìn)行聯(lián)合控制，這個聯(lián)合控制函數(shù)的一個主要功能就是在c和map聯(lián)合結(jié)果中對相同的兩個數(shù)值算法進(jìn)行二次合并。最后，清除（reduce）本階段需要同時執(zhí)行的所有兩種數(shù)據(jù)處理類型方法都是相同的基于簇類的對應(yīng)數(shù)據(jù)中心對象類型向量，可以重新直接創(chuàng)建或直接生成新的數(shù)據(jù)中心對象類型向量，而該類型向量主要要求輸入和輸出數(shù)據(jù)必須是基于鍵值對的形式，輸入的數(shù)據(jù)信息應(yīng)當(dāng)是與兩個對應(yīng)簇類節(jié)點之間的數(shù)據(jù)聯(lián)合計算的結(jié)果，輸出的數(shù)據(jù)信息必須是與對應(yīng)簇類中的標(biāo)識符對應(yīng)的數(shù)據(jù)中心對象向量。

3 結(jié)語

本文主要針對圖挖掘算法和并行算法的特點進(jìn)行了介紹，目前在圖挖掘算法中已有許多算法處理方法可供選擇，執(zhí)行效率較高，但在處理大型數(shù)據(jù)庫時，所需的時間和空間都很大，有些算法處理效果不理想。因此，在對大量圖像數(shù)據(jù)進(jìn)行處理時，可以考慮采用并行和分布式兩種新的處理方式，將處理后的圖像數(shù)據(jù)存儲起來，放到數(shù)據(jù)庫中，從而簡化了對大數(shù)據(jù)庫的挖掘過程。

[參考文獻(xiàn)]

[1]祁春霞.基于Hadoop的網(wǎng)絡(luò)日志瀏覽器訪問者統(tǒng)計[J].信息技術(shù)與信息化，2021（1）：110-112.

[2]倪星宇.基于Hadoop云計算平臺的構(gòu)建[J].微型電腦應(yīng)用，2020（12）：103-105.

[3]孔慶波.基于Hadoop平臺的電力統(tǒng)計不良數(shù)據(jù)高效識別方法研究[J].電子設(shè)計工程，2020（24）：95-99.

[4]李俊艷.基于Hadoop平臺的電力大數(shù)據(jù)聚類算法研究[J].數(shù)碼世界，2020（12）：71-72.

（編輯王雪芬）