999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)分析

2018-03-26 08:07:06李艷紅
科技資訊 2018年27期
關(guān)鍵詞:數(shù)據(jù)分析

李艷紅

摘 要:由于大數(shù)據(jù)具有其自身的獨(dú)特性,即數(shù)據(jù)量大、多樣性突出,所以在進(jìn)行大數(shù)據(jù)分析時(shí),在處理速度、效率和實(shí)時(shí)性等方面要求都非常高。而數(shù)據(jù)挖掘技術(shù)主要就是從大量數(shù)據(jù)中基于建模算法,尋找在數(shù)據(jù)中所隱藏的信息,以此促使大數(shù)據(jù)的價(jià)值得以充分發(fā)揮。Spark平臺(tái)是一個(gè)針對(duì)超大數(shù)據(jù)集合的低延遲集群分布式計(jì)算系統(tǒng),利用其進(jìn)行大數(shù)據(jù)挖掘與分析更具優(yōu)勢(shì)。據(jù)此,本文主要對(duì)基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)分析。

關(guān)鍵詞:Spark平臺(tái) 大數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)分析

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)09(c)-0007-02

1 基于Spark平臺(tái)的大數(shù)據(jù)生態(tài)系統(tǒng)

1.1 Spark Runtime

Spark Core所包含的功能主要包括任務(wù)調(diào)度與內(nèi)存管理等,其中包含故障系統(tǒng)性恢復(fù)和存儲(chǔ)系統(tǒng)相互交互的對(duì)應(yīng)子元素。在Spark中利用RDD結(jié)構(gòu),傳輸包裝數(shù)據(jù)時(shí),需要先大體了解Spark的核心邏輯數(shù)據(jù)信息,此類數(shù)據(jù)與對(duì)象概念存在一定程度上相似性。首先,所有數(shù)據(jù)全集被劃分成若干子集,各子集都能夠被傳輸?shù)郊褐械娜我夤?jié)點(diǎn)中加以處理。其次,計(jì)算的中間結(jié)果得以良好保存,基于可靠性進(jìn)行問題思考,可以獲得計(jì)算機(jī)結(jié)果相同并存放備份于子集節(jié)點(diǎn)的文件內(nèi)容。再次,任意數(shù)據(jù)子集如果在計(jì)算過程中出現(xiàn)失誤,必須重新整理子集,從而實(shí)現(xiàn)容錯(cuò)機(jī)制。

1.2 Graph X

Graph X是Spark中的關(guān)鍵子項(xiàng)目,需要基于Spark進(jìn)行構(gòu)建,在大規(guī)模圖計(jì)算基礎(chǔ)上,因?yàn)镚raph X的衍生,可以促使Spark生態(tài)系統(tǒng)在處理大圖的時(shí)候?qū)崿F(xiàn)更加豐富的計(jì)算,而且在和其他相關(guān)組件實(shí)現(xiàn)系統(tǒng)融合的基礎(chǔ)上,可以利用較強(qiáng)的數(shù)據(jù)處理能力,促使所有應(yīng)用都可以通過多項(xiàng)場(chǎng)景獲取。Graph X的作用是提供十分豐富的圖數(shù)據(jù)操作符,因?yàn)轭悗?kù)定義過多,主要包含核心和優(yōu)化操作符,而且部分被定義在Graph Ops操作符中。在利用Scale隱形語(yǔ)言轉(zhuǎn)換特征的時(shí)候,可以調(diào)動(dòng)Graph Ops的操作符。在Graph X中,可以基于多個(gè)分布集群進(jìn)行圖運(yùn)算,并且API接口充足,尤其是到達(dá)一定圖規(guī)模后,需要精益化算法,以此有助于利用分布式圖集做大規(guī)模處理。Graph X的優(yōu)點(diǎn)在于可以有效提高數(shù)據(jù)吸收與規(guī)模。

1.3 Spark Streaming

Spark系統(tǒng)是Spark Streaming數(shù)據(jù)分布式處理框架系統(tǒng),在擴(kuò)展Spark數(shù)據(jù)能力的基礎(chǔ)上,促使Spark Streaming數(shù)據(jù)流嚴(yán)格按照時(shí)間方式分割單位,以此構(gòu)成RDD,以較小時(shí)間間隔處理流式數(shù)據(jù),受處理延時(shí)狀況阻礙,從某種程度上來(lái)講,可以看作準(zhǔn)實(shí)時(shí)處理系統(tǒng)。Spark Streaming是極具有事的容錯(cuò)系統(tǒng),在錯(cuò)誤處理與恢復(fù)方面水平非常高,因此在處理錯(cuò)誤上占據(jù)明顯優(yōu)勢(shì)。另外,Spark Streaming可以和相關(guān)Spark生態(tài)模塊實(shí)現(xiàn)無(wú)縫對(duì)接,所以在共同完成流數(shù)據(jù)后,還可以處理一些復(fù)雜現(xiàn)象。

2 基于Spark平臺(tái)的開發(fā)環(huán)境及分布式集群構(gòu)建

2.1 硬件系統(tǒng)要求

要想確保較好的兼容性與運(yùn)行性,構(gòu)建Spark分布式集群利用的物理主機(jī)都應(yīng)采取Linux操作系統(tǒng)。選擇1臺(tái)主機(jī)的3臺(tái)虛擬機(jī)進(jìn)行環(huán)境測(cè)試,據(jù)此搭建Spark分布式集群,主要包含2個(gè)Worker節(jié)點(diǎn)與1個(gè)Master節(jié)點(diǎn)。其中Master的主要任務(wù)是單機(jī)編寫并調(diào)節(jié)Spark分布式應(yīng)用程序,配置相對(duì)較高。Master節(jié)點(diǎn)機(jī)器配置是4G內(nèi)存和四核處理器,Worker節(jié)點(diǎn)配置是2G內(nèi)存與二核處理器。各個(gè)節(jié)點(diǎn)的硬盤是以PCIE為基礎(chǔ)的SSD固態(tài)硬盤,其讀寫效率較高,能夠在很大程度上保證運(yùn)行速度與工作質(zhì)量。集群所構(gòu)成的形式,不僅能夠縮減運(yùn)行成本,還能夠依據(jù)需求對(duì)節(jié)點(diǎn)數(shù)量增加或減少進(jìn)行適當(dāng)調(diào)整。

2.2 構(gòu)造分布式Spark集群

首先應(yīng)安裝Scala語(yǔ)言,把每臺(tái)虛擬機(jī)的slaves文件內(nèi)容修改成集群中Worker節(jié)點(diǎn)主機(jī)名,同時(shí)還需修改節(jié)點(diǎn)的Spark安裝目錄的Spark-env.sh文件。其中配置系統(tǒng)的jdk環(huán)境變量,修改系統(tǒng)Scala安裝路徑是Scala-Home。在集群中Master節(jié)點(diǎn)的主機(jī)名與IP地址利用Spark_Master_IP的屬性值,其他選項(xiàng)則為默認(rèn)。同時(shí)還要保證集群所有節(jié)點(diǎn)的Spark-env.sh文件和Slaves文件的內(nèi)容保持高度一致,以此完成配置之后,通過jps命令查看集群?jiǎn)?dòng)狀況。

2.3 配置Spark的IDE開發(fā)環(huán)境

IDEA是Scala語(yǔ)言的開發(fā)環(huán)境,也是重要基礎(chǔ),所以利用此作為Spark應(yīng)用程序編程與開發(fā)環(huán)境。但是為了防止IDEA在使用中生產(chǎn)太多緩存文件,占據(jù)大量空間與消耗I/O資源,應(yīng)選取SSD固態(tài)硬盤進(jìn)行文件存儲(chǔ),以此保證良好性能。IDEA在配置完成之后,便可以開始測(cè)試Spark程序。

3 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)

3.1 概述

Apriori算法是基于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,能夠反復(fù)掃描交易數(shù)據(jù)庫(kù),利用候選頻繁集生成頻繁集,主要流程是定義最小支持度,選取所有頻繁項(xiàng)集,并以置信度為依據(jù)生成關(guān)聯(lián)規(guī)則。

3.2 基于Spark平臺(tái)的Apriori算法分布式實(shí)現(xiàn)

基于Spark平臺(tái)的Apriori算法分布式集群的具體流程,如圖1所示。其中算法的具體思路是:第一,產(chǎn)生頻繁項(xiàng)集,把事務(wù)集通過RDD形式在各機(jī)器上加以分布,累積項(xiàng)目數(shù)量并保留比支持度較高的項(xiàng)集。第二,就頻繁項(xiàng)集衍生頻繁項(xiàng)集,項(xiàng)集自連接生成Ck+1,再掃描數(shù)據(jù)庫(kù),并依據(jù)C+1生成頻繁項(xiàng)集。

4 基于Spark平臺(tái)的分布協(xié)同過濾推薦實(shí)現(xiàn)

4.1 MLIib算法庫(kù)

因?yàn)闄C(jī)器算法的流程十分復(fù)雜,因此在進(jìn)行迭代計(jì)算時(shí),任何計(jì)算都需要放入磁盤中,以待任務(wù)啟動(dòng),但是這樣一來(lái)便會(huì)消耗大量CPU。對(duì)此,在具體利用Spark時(shí),部分工作能夠直接在內(nèi)存中運(yùn)行,把迭代部分計(jì)算任務(wù)全部轉(zhuǎn)存于內(nèi)存,從而提高迭代計(jì)算水平與效率,還能夠在必要時(shí)進(jìn)行磁盤與網(wǎng)絡(luò)運(yùn)作。所以說,Spark在迭代計(jì)算中極具優(yōu)勢(shì),還能夠發(fā)展成分布式機(jī)器學(xué)習(xí)平臺(tái)。基于通信角度進(jìn)行思考,Spark十分出色且高效,通訊效率非常高。在開展分布式機(jī)器算法學(xué)習(xí)的時(shí)候,部分資源都集中在各種集群節(jié)點(diǎn),良好的通信效率可以進(jìn)一步保證分布式算法的運(yùn)行效果。

4.2 協(xié)同過濾算法

所謂協(xié)同過濾算法其實(shí)就是人們?cè)谑褂玫臅r(shí)候,會(huì)選擇一個(gè)靠譜想法,并將此想法提供給用戶。

4.2.1 系統(tǒng)過濾

在用戶中選擇興趣愛好相似的用戶,切實(shí)結(jié)合其喜好進(jìn)行物品選擇,并組織起來(lái)構(gòu)成新集合或序列。用戶可以直接定義成鄰居,但是在此過程中的核心問題是怎樣對(duì)用戶間存在類似聘問或怎樣對(duì)滿足相關(guān)條件的用戶進(jìn)行針對(duì)性組織與利用。

4.2.2 協(xié)同過濾核心思想

協(xié)同過濾核心思想需要通過三大環(huán)節(jié)加以實(shí)現(xiàn),即進(jìn)行用戶興趣偏好收集,詳細(xì)分析用戶使用物品的相似性,依據(jù)計(jì)算加以推薦。系統(tǒng)推薦效果的關(guān)鍵性影響因素就是整合用戶興趣愛好。因?yàn)橛脩舨煌峁┑钠梅绞揭泊嬖谳^大差異,而且還會(huì)受各種場(chǎng)景影響。在一般場(chǎng)景中,應(yīng)選擇一種用戶系統(tǒng),并依據(jù)用戶行為進(jìn)行小組劃分,分組方式主要有兩種:第一,就用戶不同行為為依據(jù)進(jìn)行分組。第二,就不同行為對(duì)用戶興趣愛好進(jìn)行分組并加權(quán)處理。在全面收集數(shù)據(jù)行為之后,進(jìn)行數(shù)據(jù)預(yù)處理。在此基礎(chǔ)上,依據(jù)用戶興趣愛好,向用戶推薦可能喜愛的物品,并采取一定的推薦方式,把協(xié)同過濾劃分成基礎(chǔ)用戶協(xié)同和基于物品的協(xié)同兩大類。在推薦中,選擇最為適合的鄰居,目前最常用的方式是固定鄰居數(shù)量與規(guī)定鄰居相似度門檻。

5 結(jié)語(yǔ)

總之,在Spark集群布置在Yam上后,既能夠?yàn)樗惴▽?shí)驗(yàn)提供良好的測(cè)試環(huán)境,還可以以線形適當(dāng)擴(kuò)大集群規(guī)模,切實(shí)應(yīng)用到企業(yè)生產(chǎn)中去。有機(jī)結(jié)合Spark與MLIib制定分布式協(xié)同過濾推薦在分布式集群中的運(yùn)行方案,并基于大數(shù)據(jù)集加以驗(yàn)證,便能夠有效應(yīng)用到大量推薦系統(tǒng)中去。而且基于Spark平臺(tái)的分布式Apriori算法,在很大程度上彌補(bǔ)了MLIib中關(guān)聯(lián)分析類算法的缺陷,并能夠有效應(yīng)用于大數(shù)據(jù)關(guān)聯(lián)分析中。

參考文獻(xiàn)

[1] 曹猛.基于Spark核心架構(gòu)的大數(shù)據(jù)平臺(tái)技術(shù)研究與實(shí)踐[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2018(28):130,132.

[2] 孟雅格.基于Spark平臺(tái)大數(shù)據(jù)推薦系統(tǒng)的研究[D].西安電子科技大學(xué),2017.

[3] 何美斌,胡精英.基于Spark R的大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)[J].電子技術(shù)與軟件工程,2016(21):184.

[4] 邢英俊.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究[J].電腦知識(shí)與技術(shù),2017,13(16):19-20.

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測(cè)分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢(shì)下場(chǎng)景營(yíng)銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測(cè)量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
主站蜘蛛池模板: 91成人免费观看在线观看| 亚洲国产成人久久精品软件| 婷婷色在线视频| 欧洲日本亚洲中文字幕| 久久九九热视频| 青青国产成人免费精品视频| 91口爆吞精国产对白第三集| 精品一區二區久久久久久久網站| 日韩AV手机在线观看蜜芽| 9啪在线视频| 国产网站免费看| 欧美在线视频不卡第一页| 国产视频自拍一区| 日韩激情成人| 超碰精品无码一区二区| 国产探花在线视频| 欧美午夜视频| 亚洲无码高清视频在线观看 | 欧美成人二区| 黄片在线永久| 伊人久久精品亚洲午夜| 国产精品免费露脸视频| 国产成人免费手机在线观看视频 | 黄色污网站在线观看| 波多野结衣AV无码久久一区| 国产香蕉国产精品偷在线观看| 中文字幕亚洲精品2页| 久久免费观看视频| 老司机aⅴ在线精品导航| 国产真实二区一区在线亚洲| 欧美一级特黄aaaaaa在线看片| 亚洲国产综合第一精品小说| 国产玖玖视频| 国产第八页| 99伊人精品| 999精品视频在线| 美女高潮全身流白浆福利区| 中文字幕资源站| 国产区福利小视频在线观看尤物| 色婷婷久久| 在线观看国产精品日本不卡网| 视频在线观看一区二区| 亚洲动漫h| 任我操在线视频| 亚洲美女视频一区| 欧美一级黄色影院| 国产视频自拍一区| 亚洲女同欧美在线| 91精品免费高清在线| 91国内外精品自在线播放| 麻豆国产精品一二三在线观看| 精品自窥自偷在线看| 九月婷婷亚洲综合在线| 无码在线激情片| 亚洲人免费视频| 直接黄91麻豆网站| 亚洲欧美国产五月天综合| 日韩无码视频播放| 四虎亚洲精品| 久草视频一区| 永久免费精品视频| 亚洲无码熟妇人妻AV在线| 精品国产免费第一区二区三区日韩| 色综合天天操| 欧美a在线看| 欧美激情,国产精品| 四虎影视8848永久精品| 99re精彩视频| 亚洲精品欧美日本中文字幕| 亚洲成av人无码综合在线观看| 91欧美亚洲国产五月天| 亚洲成人一区在线| 色综合五月| 精品人妻系列无码专区久久| 亚洲永久免费网站| 爆乳熟妇一区二区三区| 免费日韩在线视频| 欧美福利在线| 亚洲成人黄色网址| 国产成人亚洲无吗淙合青草| 91免费国产高清观看| 国产综合亚洲欧洲区精品无码|