張文明


摘 要:在Personal Computer技術(shù)的基礎(chǔ)上,Hadoop大數(shù)據(jù)管理平臺采用了一種新型的分布式數(shù)據(jù)集群管理系統(tǒng),具有網(wǎng)絡(luò)兼容性好、運行管理效率高、擴(kuò)展應(yīng)用能力強(qiáng)等特點,目前已經(jīng)在很多行業(yè)中得到應(yīng)用。在此基礎(chǔ)上,文章對 Hadoop新型大數(shù)據(jù)平臺的設(shè)計基本特征及其實現(xiàn)進(jìn)行了深入的闡述,并通過實例結(jié)合該數(shù)據(jù)平臺的具體工作及設(shè)計原理,對 Hadoop大數(shù)據(jù)服務(wù)平臺的主要功能及其平臺實現(xiàn)應(yīng)用情況進(jìn)行了深入的分析研究。
關(guān)鍵詞:云計算;Hadoop大數(shù)據(jù)平臺;挖掘算法
0 ? 引言
Hadoop技術(shù)軟件是谷歌公司自行研發(fā)的一款項目,是現(xiàn)階段在因特網(wǎng)上較為流行的一種內(nèi)容編輯和分類工具,它可以很好地解決延展性和擴(kuò)散性的問題。例如,對海量文件信息進(jìn)行字符串搜索和匹配,采用傳統(tǒng)方法進(jìn)行系統(tǒng)處理很可能會花費大量時間,而 Hadoop技術(shù)更適合于有效解決與之相關(guān)的問題。它主要包括系統(tǒng)開發(fā)功能、數(shù)據(jù)采集與管理功能、數(shù)據(jù)存儲與管理功能、數(shù)據(jù)挖掘的可視化及應(yīng)用,本文重點分析了這些功能在數(shù)據(jù)挖掘中的實現(xiàn)情況。
1 Hadoop大數(shù)據(jù)平臺設(shè)計
Hadoop系統(tǒng)結(jié)構(gòu)如圖1所示[1]。此方法在這個軟件系統(tǒng)中采用最新的并行計算和數(shù)據(jù)處理方法,這種新的計算和并行處理方法的速度與對所有數(shù)據(jù)相關(guān)信息的并行處理速度相當(dāng),再加上 Hadoop這一技術(shù)本身具備高可伸縮性的特點,它還可以對數(shù)據(jù)信息進(jìn)行有效的并行處理。
1.1 ?層級
首先,分布式計算處理平臺屬于管理層,其主要設(shè)計目的是實現(xiàn)其在集群處理網(wǎng)絡(luò)系統(tǒng)中的并行數(shù)據(jù)存儲和綜合計算等基本功能,為分布式系統(tǒng)和云系統(tǒng)的并行數(shù)據(jù)操作提供了一種處理模式,將處理任務(wù)從集群網(wǎng)絡(luò)上順利地直接傳輸出來,并將數(shù)據(jù)發(fā)送給集群服務(wù)器的各個工作節(jié)點。
其次,數(shù)據(jù)挖掘?qū)儆谄脚_架構(gòu)層,是整個平臺架構(gòu)的重要功能,主要目標(biāo)是通過數(shù)據(jù)算法對數(shù)據(jù)進(jìn)行并行分析,然后通過編寫計算任務(wù),將每項計算任務(wù)按實際分配值發(fā)送到平臺Hadoop,這是數(shù)據(jù)挖掘平臺的一個并行計算層,通過并行計算算法將計算結(jié)果發(fā)送到平臺的任務(wù)管理層[2]。
再次,任務(wù)應(yīng)用管理不僅需要通過不斷優(yōu)化應(yīng)用業(yè)務(wù)流程,完善業(yè)務(wù)處理邏輯,還需要通過對相關(guān)應(yīng)用的合理調(diào)配和統(tǒng)一指揮,把握每個應(yīng)用任務(wù)的數(shù)據(jù)真實性和完成進(jìn)度。對客戶端的各種相關(guān)設(shè)計作品及時進(jìn)行調(diào)配,并及時組織材料加工。比如,用戶在交互應(yīng)用層需要提交具有特定屬性的數(shù)據(jù),業(yè)務(wù)層的應(yīng)用管理功能就需要對這些產(chǎn)品進(jìn)行處理后再賦予其使用的權(quán)限,以完成對數(shù)據(jù)的信息分類任務(wù)和數(shù)據(jù)挖掘的搜索任務(wù),根據(jù)應(yīng)用平臺上的數(shù)據(jù)要求,將通過搜索和挖掘得到的所有數(shù)據(jù)分類執(zhí)行分析算法,并根據(jù)最終分析結(jié)果向最終用戶提供反饋,發(fā)送到交互應(yīng)用層[3]。
最后,交互層主要是指用戶端與系統(tǒng)之間的一個使用界面,其所有的表現(xiàn)形式都是通過圖形化的方式呈現(xiàn)給客戶端,用戶可以在線直接登錄自己的系統(tǒng),根據(jù)客戶端的業(yè)務(wù)需求獲取或保存系統(tǒng)中各種信息輸出的大量數(shù)據(jù)成果,以解決客戶端的業(yè)務(wù)問題,滿足客戶端和用戶的業(yè)務(wù)需求。
1.2 ?職能結(jié)構(gòu)
(1)數(shù)據(jù)采集與挖掘功能,主要目的是將所有的數(shù)據(jù)加載、保存,并需要輸入 hdfs文件系統(tǒng),保存大量的信息,以便客戶隨時查詢和使用。
(2)并行etl進(jìn)行數(shù)據(jù)管理模塊,直接從 hdfs文件獲取輸入數(shù)據(jù),并將其保存到文件管理系統(tǒng)中,實現(xiàn)數(shù)據(jù)的自動提取、轉(zhuǎn)換、預(yù)處理。
(3)儲藏功能,主要是將挖掘過的歷史資料進(jìn)行儲藏,形成知識庫。
(4)模式評估功能,主要目的是對無需求的子業(yè)務(wù)進(jìn)行需求分類、管理,響應(yīng)高層指示,并對其產(chǎn)生的模型和結(jié)果進(jìn)行評估。
(5)業(yè)務(wù)應(yīng)用層的模塊和功能,即在業(yè)務(wù)系統(tǒng)對下級業(yè)務(wù)的處理操作時,及時對上級業(yè)務(wù)處理模塊作出響應(yīng),通過底層模塊實現(xiàn)業(yè)務(wù)處理。與此同時,工作流模塊能夠通過電子郵件和網(wǎng)絡(luò)將詳盡的參數(shù)信息反饋給相應(yīng)的上級業(yè)務(wù)層,并能對業(yè)務(wù)運行狀態(tài)進(jìn)行監(jiān)測、管理[4]。
(6)交互模塊,主要包括注冊、登記或注銷等多種功能,能充分滿足用戶的各種業(yè)務(wù)需求,便于用戶對數(shù)據(jù)資料進(jìn)行分析和保存。該系統(tǒng)整體結(jié)構(gòu)和功能設(shè)計十分完善,操作方便,在許多領(lǐng)域的應(yīng)用已得到廣泛認(rèn)可。
以下針對該平臺中數(shù)據(jù)挖掘功能的實現(xiàn)情況著重進(jìn)行了分析。
2 實現(xiàn)基于 Hadoop的數(shù)據(jù)挖掘功能
要實現(xiàn)基于 Hadoop的大數(shù)據(jù)挖掘算法,則需要在該算法中進(jìn)行相應(yīng)的算法設(shè)計與實施。
首先,基于 canopy算法的 mapreduce實現(xiàn)。依據(jù)所采用的并行算法和步驟,可以將整個工作流程劃分為兩個階段:第一階段,實際執(zhí)行的主要算法是 canopy算法,另一個階段是k-means算法。上傳到數(shù)據(jù)集的文件,所有的實驗數(shù)據(jù)都是通過 mapreduce的程序從數(shù)據(jù)庫中直接上傳到 hdfs文件系統(tǒng)中,系統(tǒng)會從其中記錄數(shù)據(jù),然后編寫并運行算法,用 java語言完成 apriori算法,把寫好的算法和代碼壓縮成 jar文件,用 Hadoop的 bin目錄 shell命令就可以完成這一操作,如圖2所示。
在第二階段,將繼續(xù)完善像 kmeans這樣的算法。該編程算法的主要目的是通過對數(shù)據(jù)進(jìn)行前一個集合階段的簇的數(shù)據(jù)劃分,對每個階段的數(shù)據(jù)產(chǎn)生集的不同中心的向量函數(shù)進(jìn)行序列對應(yīng)的階段性數(shù)據(jù)劃分,主要使用 nnmrr編程算法模型。
其次,對于整個聯(lián)合(combine)階段的各個數(shù)值算法也要進(jìn)行聯(lián)合控制,這個聯(lián)合控制函數(shù)的一個主要功能就是在c和map聯(lián)合結(jié)果中對相同的兩個數(shù)值算法進(jìn)行二次合并。最后,清除(reduce)本階段需要同時執(zhí)行的所有兩種數(shù)據(jù)處理類型方法都是相同的基于簇類的對應(yīng)數(shù)據(jù)中心對象類型向量,可以重新直接創(chuàng)建或直接生成新的數(shù)據(jù)中心對象類型向量,而該類型向量主要要求輸入和輸出數(shù)據(jù)必須是基于鍵值對的形式,輸入的數(shù)據(jù)信息應(yīng)當(dāng)是與兩個對應(yīng)簇類節(jié)點之間的數(shù)據(jù)聯(lián)合計算的結(jié)果,輸出的數(shù)據(jù)信息必須是與對應(yīng)簇類中的標(biāo)識符對應(yīng)的數(shù)據(jù)中心對象向量。
3 結(jié)語
本文主要針對圖挖掘算法和并行算法的特點進(jìn)行了介紹,目前在圖挖掘算法中已有許多算法處理方法可供選擇,執(zhí)行效率較高,但在處理大型數(shù)據(jù)庫時,所需的時間和空間都很大,有些算法處理效果不理想。因此,在對大量圖像數(shù)據(jù)進(jìn)行處理時,可以考慮采用并行和分布式兩種新的處理方式,將處理后的圖像數(shù)據(jù)存儲起來,放到數(shù)據(jù)庫中,從而簡化了對大數(shù)據(jù)庫的挖掘過程。
[參考文獻(xiàn)]
[1]祁春霞.基于Hadoop的網(wǎng)絡(luò)日志瀏覽器訪問者統(tǒng)計[J].信息技術(shù)與信息化,2021(1):110-112.
[2]倪星宇.基于Hadoop云計算平臺的構(gòu)建[J].微型電腦應(yīng)用,2020(12):103-105.
[3]孔慶波.基于Hadoop平臺的電力統(tǒng)計不良數(shù)據(jù)高效識別方法研究[J].電子設(shè)計工程,2020(24):95-99.
[4]李俊艷.基于Hadoop平臺的電力大數(shù)據(jù)聚類算法研究[J].數(shù)碼世界,2020(12):71-72.
(編輯 王雪芬)