999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺的大數據挖掘技術分析

2021-11-21 23:26:44
無線互聯科技 2021年2期
關鍵詞:數據挖掘用戶

(深圳博十強志科技有限公司,廣東 深圳 518000)

0 引言

信息時代背景下,云計算、物聯網技術的快速發展,各類數據信息急劇增長,怎樣才能夠將海量的數據信息轉變為有效的資源,是大數據技術研究的要點。通過大數據技術來挖掘海量數據存在的內在規律,確定有價值的信息數據并予以利用,可以打開全新的思維與認知角度,這對于社會經濟的發展意義重大。Spark平臺作為針對大數據集合的低延遲集群分布式計算系統,可以為大數據挖掘效率的提升提供更多支持。

1 大數據挖掘技術分析

數據挖掘技術現在已經得到了廣泛應用,可以利用算法來挖掘出海量數據內存在的有價值的信息以及有趣模式。可以分為3個階段:(1)數據的預處理。轉化采集到的所有原始數據,確保其在經過處理后可以符合項目需求,轉變成有效數。該步驟可以彌補原始數據存在的缺陷,提高數據的完整性與可靠性[1]。數據抽取操作比較簡單,可通過較快的速度從大量的數據信息內獲得有價值的數據。(2)數據的挖掘。首先要確定數據倉庫內各類數據的普遍特征,并根據此確定對應的算法工具,實現對目標數據的進一步處理。該階段為數據挖掘技術的核心,為達到最終目的,關鍵是要保證所選挖掘算法的適用性。(3)知識表示與模式評估。模式主要是完成數據挖掘成果的有效表達,最終構建出有識別能力的完整表達模式。

2 基于Spark平臺的大數據挖掘技術

2.1 基于Spark平臺的大數據生態系統

2.1.1 Spark Runtime

對Spark Runtime分析時,首先要確定其功能性,例如任務調度與內存管理等。在利用RDD結構來進行Spark內部的數據傳輸時,前提是要確定Spark核心邏輯數據信息,在部分條件下其會與對象概念有著一定的相似性。第一步想要對全部數據進行多個子集的劃分,同時要求每個子集全部能夠傳輸到集群內任意的節點做進一步的處理。第二步是對計算中間結果提供可靠保護,通過此來獲取與計算結果相同,同時在子集節點進行備份存放的文件內容[2]。第三步則是在任意數據子集計算錯誤的情況下,其余子集全部要做再一次的整理,滿足容錯機制。

2.1.2 Graph X

Graph X為Spark的關鍵子項目,在Spark基礎上進行構建,基于大規模圖計算,通過Graph X衍生特征支持,可實現Spark生態系統對于大圖數據處理時的豐富計算。以及在于其他相關組件進行系統融合時,在強大數據處理能力的支持下,便能夠確保所有應用全可通過多項場景來獲取。對Graph X功能性進行分析,可確定其能夠提供豐富的圖數據操作符,例如核心與優化操作符等[3]。并且,Graph X還可以滿足多個分布集群的圖運算,以及具備充足的API接口,尤其是在達到一定圖規模的情況下,可進行精益化算法,推動分布式圖集的大規模處理。作為Spark的重要部分,Graph X的關鍵就是可進一步提高數據吸收與規模。

2.1.3 Spark Streaming

SPark系統除了具有良好的擴展Spark數據能力,還可以做到嚴格按照時間方式進行Spark Streaming數據流的分割,最終構成RDD,利用比較小的時間間隔來處理流式數據,會在一定程度上受到處理延時影響,所以可以將其看做是準時處理系統[4]。并且,Spark Streaming具有非常強的容錯性,包括錯誤處理以及恢復等方面均具備較大的優勢。以及Spark Streaming還可無縫對接相關Spark生態模塊,除了共同完成流數據以外,對于部分復雜現象也可以做到有效處理。

2.2 基于Spark平臺的開發環境與分布式集群構建

2.2.1 硬件系統

為達到優良的兼容性與運行性效果,就需要采用Linux操作系統來構建Spark分布式集群。安排1臺主機的3臺虛擬機進行環境測試,并完成Spark分布式集群的構建,其中分為2個Worker節點與1個Master節點,各節點分別負責不同的功能。例如Master節點對應功能是見單機編寫,同時調節Spark分布式應用程序,因此需要較高的配置。一般來講Master節點對應的是4G內存與四核處理器,而Worker節點對應的配置則多為2G內存與二核處理器。另外,為保證各個節點功能的有效體現,全部使用的是以PCIE為基礎的SSD固態硬盤,在保證讀寫效率達標的情況下,還能夠進一步做到高效率、高質量運行。通過對集群構建的管理,能夠以更少的運行成本,來達到較高的運行速度與工作質量,并且還能夠根據實際需求來靈活的調整節點數量。

2.2.2 分布式Spark集群

先完成Scala語言的安裝,對每臺虛擬機的slaves文件內容進行修改,修改后要全部為見集群中Worker節點主機名,然后要進一步完成節點Spark安裝目錄Spark-env.sh文件的修改。配置系統的jdk環境變量,對系統Scala安裝路徑進行修改,確定為Scala-Home[5]。另外,要注意集群內各節點對應的Spark-env.sh文件必須要核對確認其與Slaves文件內容相同,并且在完成所有配置后,可直接運行jps命令查看集群啟動情況。

2.2.3 Spaek的IDE開發環境

Scala語言所應用的開發環境是IDEA,這樣便可以選擇IDEA為Spark應用程序編程與開發環境。其中,需要注意IDEA使用過程中所產生的大量緩存文件,可以通過應用SSD固態硬盤實現文件存儲,因此來減少對空間的占用量,同時降低I/O資源的消耗量,為系統的穩定運行提供有利條件。待IDEA配置完成后,便可對Spark程序做下一步的測試。

3 基于Spark平臺的Apriori算法分布式實現

Apriori算法是以挖掘關聯規則為基礎的一種頻繁項集算法,能夠反復掃描交易數據庫信息,然后基于候選頻繁集生成最終的頻繁集。其中定義最小支持度為算法的核心流程,對所有的頻繁項集進行選擇,然后按照置信度實現關聯規則的生成。基于Spark平臺Apriori算法分布式實現,可以分為兩個步驟來實現:第一步,產生頻繁項集,所有事務集全部根據RDD的形式在各機器上分布,積累項目數量,以及保留支持度較高的項集。第二步,通過頻繁項集衍生頻繁項集,項集自連接生成Ck+1,掃描數據庫內容,最后根據Ck+1生成頻繁項集。

4 基于Spark平臺的分布協同過濾推薦實現

4.1 MLlib算法庫

對計算算法流程進行分析,可確定其具有較高的復雜性,在進行迭代計算時,全部計算均需要放入磁盤中等待任務的啟動與處理,整個過程需要消耗大量CPU。基于Spark平臺可在內存內直接完成部分的工作處理,相應的迭代部分計算任務會直接轉存在內存中,以此便可以進一步提高迭代計算的計算效率,并且在部分必要的條件下,還能夠實現磁盤與網絡的運作。總結來講,在迭代計算中Spark具有更加明顯的優勢,其能夠作為分布式機器學習平臺存在。

4.2 協同過濾算法

協同過濾算法的應用,先是要選擇確定一個靠譜的想法,隨后便可向用戶提供該想法。算法的步驟可分為以下流程:(1)系統過濾。篩選存在共同興趣的用戶,然后以喜好對物品進行選擇和分類,并將其構成新的集合或序列。在此過程中可定義用戶為鄰居,同時要對相應用戶進行針對性組織與利用,確定最有效的執行方法。(2)協同過濾。依次完成用戶喜好收集、用戶使用物品相似性分析以及基于計算結果推薦各步驟,其中用戶喜好整合是影響最終推薦針對性的核心要素。首先要選擇一種用戶系統,然后根據用戶行為來進行分組,對數據行為進行可靠收集,然后做進一步的數據預處理,通過用戶喜好向其推薦可能會喜歡的物品。

5 結語

基于Spark平臺的分布式Apriori算法有效的彌補了其他算法的缺陷,在大數據關聯分析中應用優勢明顯,并且有機結合Spark與MLlib制定分布式協同過濾推薦在分布式集群中的運行方案,在大量推薦系統的應用中效果顯著,值得進一步的研究分析。

猜你喜歡
數據挖掘用戶
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
數據挖掘技術在中醫診療數據分析中的應用
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 97精品久久久大香线焦| 无码区日韩专区免费系列| 免费毛片全部不收费的| 色亚洲激情综合精品无码视频 | 亚洲高清在线天堂精品| 久久频这里精品99香蕉久网址| 国产国拍精品视频免费看| 国产草草影院18成年视频| 亚洲男人的天堂在线观看| 国产美女91呻吟求| 精品一区二区三区波多野结衣| 波多野结衣二区| 日韩av手机在线| 欧美激情首页| 午夜色综合| 亚洲国产第一区二区香蕉| 亚洲国产中文精品va在线播放| 免费高清a毛片| 日本色综合网| 免费可以看的无遮挡av无码| 午夜国产精品视频黄| 国产美女免费| 国产伦精品一区二区三区视频优播| 一本久道久综合久久鬼色| 日韩精品无码免费专网站| 91视频99| 中文字幕在线播放不卡| 伊人久久福利中文字幕| 国产精品伦视频观看免费| 五月天在线网站| 亚洲天堂精品在线| 日韩福利在线视频| 日韩午夜片| 97视频精品全国在线观看| 亚洲欧美成人影院| 影音先锋丝袜制服| 超清人妻系列无码专区| 日韩精品一区二区深田咏美| 国产一二视频| 国产精品免费电影| 国产欧美精品一区aⅴ影院| 91网站国产| 视频在线观看一区二区| 久草热视频在线| 亚洲国产在一区二区三区| 国产精欧美一区二区三区| 91精品人妻互换| 亚洲欧美成aⅴ人在线观看| 国产激爽大片高清在线观看| 国产乱论视频| 一级香蕉人体视频| 日本AⅤ精品一区二区三区日| 欧美成人午夜影院| 伊人色在线视频| Aⅴ无码专区在线观看| 婷婷六月综合网| 天天综合色天天综合网| 亚洲午夜福利精品无码不卡| 女同国产精品一区二区| www.狠狠| 四虎精品国产永久在线观看| 日韩国产一区二区三区无码| 国产成年无码AⅤ片在线| 欧美午夜小视频| 午夜毛片免费观看视频 | 国产精品林美惠子在线观看| 尤物在线观看乱码| 成人自拍视频在线观看| 国产一区二区三区在线观看视频| 亚洲天堂网在线播放| 久久免费观看视频| 美女被操黄色视频网站| 18禁色诱爆乳网站| 亚洲开心婷婷中文字幕| 久久一本日韩精品中文字幕屁孩| 国产成人1024精品下载| 日韩中文无码av超清| 91精品国产91久久久久久三级| 一本综合久久| 2020最新国产精品视频| 成人国产精品2021| 91成人免费观看|