999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的Hadoop大數(shù)據(jù)平臺挖掘算法及實現(xiàn)研究

2021-12-08 13:40:32張文明
無線互聯(lián)科技 2021年19期
關(guān)鍵詞:云計算

張文明

摘 要:在Personal Computer技術(shù)的基礎(chǔ)上,Hadoop大數(shù)據(jù)管理平臺采用了一種新型的分布式數(shù)據(jù)集群管理系統(tǒng),具有網(wǎng)絡(luò)兼容性好、運行管理效率高、擴(kuò)展應(yīng)用能力強(qiáng)等特點,目前已經(jīng)在很多行業(yè)中得到應(yīng)用。在此基礎(chǔ)上,文章對 Hadoop新型大數(shù)據(jù)平臺的設(shè)計基本特征及其實現(xiàn)進(jìn)行了深入的闡述,并通過實例結(jié)合該數(shù)據(jù)平臺的具體工作及設(shè)計原理,對 Hadoop大數(shù)據(jù)服務(wù)平臺的主要功能及其平臺實現(xiàn)應(yīng)用情況進(jìn)行了深入的分析研究。

關(guān)鍵詞:云計算;Hadoop大數(shù)據(jù)平臺;挖掘算法

0 ? 引言

Hadoop技術(shù)軟件是谷歌公司自行研發(fā)的一款項目,是現(xiàn)階段在因特網(wǎng)上較為流行的一種內(nèi)容編輯和分類工具,它可以很好地解決延展性和擴(kuò)散性的問題。例如,對海量文件信息進(jìn)行字符串搜索和匹配,采用傳統(tǒng)方法進(jìn)行系統(tǒng)處理很可能會花費大量時間,而 Hadoop技術(shù)更適合于有效解決與之相關(guān)的問題。它主要包括系統(tǒng)開發(fā)功能、數(shù)據(jù)采集與管理功能、數(shù)據(jù)存儲與管理功能、數(shù)據(jù)挖掘的可視化及應(yīng)用,本文重點分析了這些功能在數(shù)據(jù)挖掘中的實現(xiàn)情況。

1 Hadoop大數(shù)據(jù)平臺設(shè)計

Hadoop系統(tǒng)結(jié)構(gòu)如圖1所示[1]。此方法在這個軟件系統(tǒng)中采用最新的并行計算和數(shù)據(jù)處理方法,這種新的計算和并行處理方法的速度與對所有數(shù)據(jù)相關(guān)信息的并行處理速度相當(dāng),再加上 Hadoop這一技術(shù)本身具備高可伸縮性的特點,它還可以對數(shù)據(jù)信息進(jìn)行有效的并行處理。

1.1 ?層級

首先,分布式計算處理平臺屬于管理層,其主要設(shè)計目的是實現(xiàn)其在集群處理網(wǎng)絡(luò)系統(tǒng)中的并行數(shù)據(jù)存儲和綜合計算等基本功能,為分布式系統(tǒng)和云系統(tǒng)的并行數(shù)據(jù)操作提供了一種處理模式,將處理任務(wù)從集群網(wǎng)絡(luò)上順利地直接傳輸出來,并將數(shù)據(jù)發(fā)送給集群服務(wù)器的各個工作節(jié)點。

其次,數(shù)據(jù)挖掘?qū)儆谄脚_架構(gòu)層,是整個平臺架構(gòu)的重要功能,主要目標(biāo)是通過數(shù)據(jù)算法對數(shù)據(jù)進(jìn)行并行分析,然后通過編寫計算任務(wù),將每項計算任務(wù)按實際分配值發(fā)送到平臺Hadoop,這是數(shù)據(jù)挖掘平臺的一個并行計算層,通過并行計算算法將計算結(jié)果發(fā)送到平臺的任務(wù)管理層[2]。

再次,任務(wù)應(yīng)用管理不僅需要通過不斷優(yōu)化應(yīng)用業(yè)務(wù)流程,完善業(yè)務(wù)處理邏輯,還需要通過對相關(guān)應(yīng)用的合理調(diào)配和統(tǒng)一指揮,把握每個應(yīng)用任務(wù)的數(shù)據(jù)真實性和完成進(jìn)度。對客戶端的各種相關(guān)設(shè)計作品及時進(jìn)行調(diào)配,并及時組織材料加工。比如,用戶在交互應(yīng)用層需要提交具有特定屬性的數(shù)據(jù),業(yè)務(wù)層的應(yīng)用管理功能就需要對這些產(chǎn)品進(jìn)行處理后再賦予其使用的權(quán)限,以完成對數(shù)據(jù)的信息分類任務(wù)和數(shù)據(jù)挖掘的搜索任務(wù),根據(jù)應(yīng)用平臺上的數(shù)據(jù)要求,將通過搜索和挖掘得到的所有數(shù)據(jù)分類執(zhí)行分析算法,并根據(jù)最終分析結(jié)果向最終用戶提供反饋,發(fā)送到交互應(yīng)用層[3]。

最后,交互層主要是指用戶端與系統(tǒng)之間的一個使用界面,其所有的表現(xiàn)形式都是通過圖形化的方式呈現(xiàn)給客戶端,用戶可以在線直接登錄自己的系統(tǒng),根據(jù)客戶端的業(yè)務(wù)需求獲取或保存系統(tǒng)中各種信息輸出的大量數(shù)據(jù)成果,以解決客戶端的業(yè)務(wù)問題,滿足客戶端和用戶的業(yè)務(wù)需求。

1.2 ?職能結(jié)構(gòu)

(1)數(shù)據(jù)采集與挖掘功能,主要目的是將所有的數(shù)據(jù)加載、保存,并需要輸入 hdfs文件系統(tǒng),保存大量的信息,以便客戶隨時查詢和使用。

(2)并行etl進(jìn)行數(shù)據(jù)管理模塊,直接從 hdfs文件獲取輸入數(shù)據(jù),并將其保存到文件管理系統(tǒng)中,實現(xiàn)數(shù)據(jù)的自動提取、轉(zhuǎn)換、預(yù)處理。

(3)儲藏功能,主要是將挖掘過的歷史資料進(jìn)行儲藏,形成知識庫。

(4)模式評估功能,主要目的是對無需求的子業(yè)務(wù)進(jìn)行需求分類、管理,響應(yīng)高層指示,并對其產(chǎn)生的模型和結(jié)果進(jìn)行評估。

(5)業(yè)務(wù)應(yīng)用層的模塊和功能,即在業(yè)務(wù)系統(tǒng)對下級業(yè)務(wù)的處理操作時,及時對上級業(yè)務(wù)處理模塊作出響應(yīng),通過底層模塊實現(xiàn)業(yè)務(wù)處理。與此同時,工作流模塊能夠通過電子郵件和網(wǎng)絡(luò)將詳盡的參數(shù)信息反饋給相應(yīng)的上級業(yè)務(wù)層,并能對業(yè)務(wù)運行狀態(tài)進(jìn)行監(jiān)測、管理[4]。

(6)交互模塊,主要包括注冊、登記或注銷等多種功能,能充分滿足用戶的各種業(yè)務(wù)需求,便于用戶對數(shù)據(jù)資料進(jìn)行分析和保存。該系統(tǒng)整體結(jié)構(gòu)和功能設(shè)計十分完善,操作方便,在許多領(lǐng)域的應(yīng)用已得到廣泛認(rèn)可。

以下針對該平臺中數(shù)據(jù)挖掘功能的實現(xiàn)情況著重進(jìn)行了分析。

2 實現(xiàn)基于 Hadoop的數(shù)據(jù)挖掘功能

要實現(xiàn)基于 Hadoop的大數(shù)據(jù)挖掘算法,則需要在該算法中進(jìn)行相應(yīng)的算法設(shè)計與實施。

首先,基于 canopy算法的 mapreduce實現(xiàn)。依據(jù)所采用的并行算法和步驟,可以將整個工作流程劃分為兩個階段:第一階段,實際執(zhí)行的主要算法是 canopy算法,另一個階段是k-means算法。上傳到數(shù)據(jù)集的文件,所有的實驗數(shù)據(jù)都是通過 mapreduce的程序從數(shù)據(jù)庫中直接上傳到 hdfs文件系統(tǒng)中,系統(tǒng)會從其中記錄數(shù)據(jù),然后編寫并運行算法,用 java語言完成 apriori算法,把寫好的算法和代碼壓縮成 jar文件,用 Hadoop的 bin目錄 shell命令就可以完成這一操作,如圖2所示。

在第二階段,將繼續(xù)完善像 kmeans這樣的算法。該編程算法的主要目的是通過對數(shù)據(jù)進(jìn)行前一個集合階段的簇的數(shù)據(jù)劃分,對每個階段的數(shù)據(jù)產(chǎn)生集的不同中心的向量函數(shù)進(jìn)行序列對應(yīng)的階段性數(shù)據(jù)劃分,主要使用 nnmrr編程算法模型。

其次,對于整個聯(lián)合(combine)階段的各個數(shù)值算法也要進(jìn)行聯(lián)合控制,這個聯(lián)合控制函數(shù)的一個主要功能就是在c和map聯(lián)合結(jié)果中對相同的兩個數(shù)值算法進(jìn)行二次合并。最后,清除(reduce)本階段需要同時執(zhí)行的所有兩種數(shù)據(jù)處理類型方法都是相同的基于簇類的對應(yīng)數(shù)據(jù)中心對象類型向量,可以重新直接創(chuàng)建或直接生成新的數(shù)據(jù)中心對象類型向量,而該類型向量主要要求輸入和輸出數(shù)據(jù)必須是基于鍵值對的形式,輸入的數(shù)據(jù)信息應(yīng)當(dāng)是與兩個對應(yīng)簇類節(jié)點之間的數(shù)據(jù)聯(lián)合計算的結(jié)果,輸出的數(shù)據(jù)信息必須是與對應(yīng)簇類中的標(biāo)識符對應(yīng)的數(shù)據(jù)中心對象向量。

3 結(jié)語

本文主要針對圖挖掘算法和并行算法的特點進(jìn)行了介紹,目前在圖挖掘算法中已有許多算法處理方法可供選擇,執(zhí)行效率較高,但在處理大型數(shù)據(jù)庫時,所需的時間和空間都很大,有些算法處理效果不理想。因此,在對大量圖像數(shù)據(jù)進(jìn)行處理時,可以考慮采用并行和分布式兩種新的處理方式,將處理后的圖像數(shù)據(jù)存儲起來,放到數(shù)據(jù)庫中,從而簡化了對大數(shù)據(jù)庫的挖掘過程。

[參考文獻(xiàn)]

[1]祁春霞.基于Hadoop的網(wǎng)絡(luò)日志瀏覽器訪問者統(tǒng)計[J].信息技術(shù)與信息化,2021(1):110-112.

[2]倪星宇.基于Hadoop云計算平臺的構(gòu)建[J].微型電腦應(yīng)用,2020(12):103-105.

[3]孔慶波.基于Hadoop平臺的電力統(tǒng)計不良數(shù)據(jù)高效識別方法研究[J].電子設(shè)計工程,2020(24):95-99.

[4]李俊艷.基于Hadoop平臺的電力大數(shù)據(jù)聚類算法研究[J].數(shù)碼世界,2020(12):71-72.

(編輯 王雪芬)

猜你喜歡
云計算
云計算虛擬化技術(shù)在電信領(lǐng)域的應(yīng)用研究
基于云計算的醫(yī)院信息系統(tǒng)數(shù)據(jù)安全技術(shù)的應(yīng)用探討
談云計算與信息資源共享管理
志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
云計算與虛擬化
基于云計算的移動學(xué)習(xí)平臺的設(shè)計
基于云計算環(huán)境下的ERP教學(xué)改革分析
科技視界(2016年22期)2016-10-18 14:33:46
基于MapReduce的故障診斷方法
實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
云計算中的存儲虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
主站蜘蛛池模板: 欧美午夜一区| 日本不卡在线视频| 欧洲熟妇精品视频| 男人天堂亚洲天堂| 久久亚洲国产视频| 国产玖玖玖精品视频| 26uuu国产精品视频| 国产午夜人做人免费视频中文| 超清人妻系列无码专区| 亚亚洲乱码一二三四区| 青青草原国产免费av观看| 亚洲青涩在线| 亚洲精品天堂自在久久77| 国产精品密蕾丝视频| 日本不卡在线播放| 国产香蕉97碰碰视频VA碰碰看 | 国产精品视频a| 免费观看无遮挡www的小视频| 午夜限制老子影院888| 又猛又黄又爽无遮挡的视频网站| 久久99精品久久久久纯品| 婷五月综合| 亚洲三级影院| 欧美黄色网站在线看| 99精品国产电影| 无码专区在线观看| 欧美日韩国产一级| 色综合国产| 亚洲无线国产观看| 无码精油按摩潮喷在线播放 | 国产一级视频久久| 99热这里只有精品久久免费| 欧美国产在线看| 国产裸舞福利在线视频合集| 婷婷亚洲天堂| 亚洲一级毛片| 欧美特黄一级大黄录像| 一级毛片免费播放视频| 免费一级无码在线网站| 免费A∨中文乱码专区| av在线手机播放| 国产成人综合在线观看| 手机在线国产精品| 凹凸国产熟女精品视频| 中文字幕在线观看日本| 欧美一级在线播放| 中国毛片网| 在线国产毛片手机小视频| 日本不卡在线| 午夜性爽视频男人的天堂| 强奷白丝美女在线观看| av一区二区三区高清久久| 一级高清毛片免费a级高清毛片| AV网站中文| 国产亚洲精品91| 亚洲国产午夜精华无码福利| 性色一区| 成人福利在线免费观看| 亚洲第七页| 成人第一页| 国产极品粉嫩小泬免费看| 五月婷婷综合网| 干中文字幕| 福利国产微拍广场一区视频在线| 欧美高清视频一区二区三区| a在线亚洲男人的天堂试看| 又大又硬又爽免费视频| 夜夜操天天摸| 国产精品亚洲а∨天堂免下载| 亚洲精品动漫| 久久精品国产精品国产一区| 日韩精品免费一线在线观看| 欧美激情综合一区二区| 国产精品视频系列专区| 亚洲中文字幕久久精品无码一区| 国产视频入口| 中国一级毛片免费观看| 国产高潮流白浆视频| a级毛片免费播放| 91年精品国产福利线观看久久 | 日日噜噜夜夜狠狠视频| 女人av社区男人的天堂|