999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則挖掘并行算法

2020-01-26 10:03:51龔浩
錦繡·下旬刊 2020年8期
關(guān)鍵詞:數(shù)據(jù)挖掘分析

龔浩

摘要:數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題。數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中大量數(shù)據(jù)中隱藏出來的,揭示出之前未知價值的信息的非正常過程,數(shù)據(jù)挖掘是一種決策支持過程,主要以人工智能基礎(chǔ)、機械學(xué)習(xí)、模式、統(tǒng)計學(xué)、數(shù)據(jù)庫可視化、技術(shù)等為高度幫助自動化地挖掘出分析企業(yè)資料的歸納推理的潛在模式,減少決策者調(diào)整市場戰(zhàn)略、風險,是正確的決策。數(shù)據(jù)挖掘是通過各數(shù)據(jù)分析,從大量數(shù)據(jù)中找出其法則的技術(shù),主要有數(shù)據(jù)準備、法則查找和法則標識三個步驟,數(shù)據(jù)挖掘?qū)南嚓P(guān)數(shù)據(jù)源中提取需要的數(shù)據(jù),并整合到數(shù)據(jù)挖掘所用的數(shù)據(jù)集。尋找法則通過某種方法找出數(shù)據(jù)集中包含的法則。法則標示是盡可能通過使用者可理解的方式(例如可視化)來找到的法則。數(shù)據(jù)挖掘的任務(wù)是相關(guān)分析、分類分析、理想分析、特別集團分析及變遷分析等。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則挖掘;并行算法;分析

1 關(guān)聯(lián)規(guī)則挖掘并行算法及問題說明

1.1簡介

Apriori算法是常用的用于挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法,它用來找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合,找出這些集合的模式有助于我們做一些決策。比如在常關(guān)聯(lián)規(guī)則挖掘的目的是找出事物之間的隱藏的關(guān)系,比如經(jīng)典的案例啤酒和尿布的的故事,通過對購物數(shù)據(jù)進行數(shù)據(jù)分析和挖掘,得到這樣一個結(jié)論,男性在買尿布的時候會買幾瓶啤酒。這二者并沒有什么因果關(guān)系,然而通過對海量數(shù)據(jù)進行關(guān)聯(lián)分析,卻能夠發(fā)現(xiàn)這個有趣且有價值的關(guān)聯(lián)現(xiàn)象,通過對貨物的調(diào)整,就可以明顯的提升了超市啤酒和尿布的銷量。

關(guān)聯(lián)規(guī)則的挖掘一般分為兩步:一是從現(xiàn)有的數(shù)據(jù)庫中找到所有的頻繁項集,二是由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。Apriori算法是常用的用于挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法,它用來找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合,找出這些集合的模式有助于我們做一些決策。比如在常見的超市購物數(shù)據(jù)集,或者電商的網(wǎng)購數(shù)據(jù)集中,如果我們找到了頻繁出現(xiàn)的數(shù)據(jù)集,那么對于超市,我們可以優(yōu)化產(chǎn)品的位置擺放,對于電商,我們可以優(yōu)化商品所在的倉庫位置,達到節(jié)約成本,增加經(jīng)濟效益的目的。

隨著互聯(lián)網(wǎng)時代的深入發(fā)展,物聯(lián)網(wǎng)時代的來臨,生活中的數(shù)據(jù)以指數(shù)級增長,當我們對這些數(shù)據(jù)進行分析時,常用的串行算法無疑會消耗大量的時間,而且很可能得不到較好的結(jié)果。因此,并行計算概念的提出讓海量數(shù)據(jù)的處理成為了可能。如何對原有的傳統(tǒng)的串行關(guān)聯(lián)規(guī)則算法進行并行化,成了我們需要解決的一個重要問題。

1.2相關(guān)工作

并行計算經(jīng)過多年的發(fā)展,其相關(guān)實際應(yīng)用也已經(jīng)在多個領(lǐng)域起到十分重要作用。傳統(tǒng)的串聯(lián)關(guān)聯(lián)規(guī)則算法面對日益指數(shù)增長的數(shù)據(jù),其數(shù)據(jù)處理也變得十分困難。因為Apriori算法存在著大量的迭代,I/O負載很高,時間效率很低,因此在如今的大數(shù)據(jù)時代,利用并行化技術(shù)加以改進,是很多人研究的方向。

許德心的研究方向,是Apriori算法的改進及其在Spark平臺上的并行化方案,并且將并行化的Apriori算法應(yīng)用于醫(yī)療診斷場景中。他首先分析了大數(shù)據(jù)的相關(guān)技術(shù)、關(guān)聯(lián)規(guī)則算法、Hadoop計算框架、Spark計算框架。然后選擇被廣泛使用的Apriori算法加以改進,他創(chuàng)新性的引入了興趣度,排除無價值的強關(guān)聯(lián)規(guī)則,提高了準確性,其改進算法在基于Spark平臺的分布式并行方案來提高效率。再搭建Spark平臺群環(huán)境,測試了Apriori算法和他改進的算法在單機環(huán)境與集群環(huán)境下的實驗,比較出了兩種算法的差異性,以及改進算法在不同數(shù)據(jù)量下的處理速度和準確性。最后,將算法應(yīng)用到醫(yī)療輔助場景中。

程陽的研究方向是,基于Hadoop大數(shù)據(jù)平臺對傳統(tǒng)的關(guān)聯(lián)規(guī)則算法進行并行化。其主要工作是利用Hadoop生態(tài)系統(tǒng)對Apriori算法和Fp-Growth算法進行改進,最后實現(xiàn)并行化目標,有效的解決了傳統(tǒng)算法中存在的缺陷,提高運行的效率。他先對Hadoop生態(tài)進行深入的研究和分析,然后分析了傳統(tǒng)算法存在的問題,針對這些問題,在基于Hadoop的生態(tài)環(huán)境下提出新的改進算法。并對FP-Growth算法提出了兩種改進策略——合并剪枝和動態(tài)分組策略,設(shè)計并實現(xiàn)了算法的并行化。最后在搭建的Hadoop集群環(huán)境中進行試驗對比,通過實驗驗證了改進的Apriori算法在處理數(shù)據(jù)時的高效性,驗證了改進的FP-Growth算法在處理海量數(shù)據(jù)時的獨特優(yōu)勢。

王永貴,謝楠,曲海誠三人的研究方向是,針對現(xiàn)有算法存儲結(jié)構(gòu)簡單,生成大量冗余的候選集,時間和空間復(fù)雜度高,挖掘效率不理想的情況,為了進一步提高關(guān)聯(lián)規(guī)則算法挖掘頻繁集的速度,優(yōu)化算法的執(zhí)行性能,提出基于內(nèi)存結(jié)構(gòu)改進的關(guān)聯(lián)規(guī)則挖掘算法。其算法是基于Spark分布式框架,分區(qū)并行挖掘出頻繁集,提出在挖掘過程中利用布隆過濾器進行項目存儲,并對事務(wù)集和候選集進行精簡化操作,進而達到加快挖掘頻繁集的速度,節(jié)省計算資源的目的。算法在占用較少內(nèi)存的條件下,相比于YAFIM和MR-Apriori算法,在挖掘頻繁集效率上有明顯的提升,不但能較好地提升挖掘速度,降低內(nèi)存的壓力,而且具有很好的可擴展性,使得算法可以應(yīng)用到更大規(guī)模的數(shù)據(jù)集和集群,從而達到優(yōu)化算法性能的目的。

王誠,趙申屹的研究方向是,針對傳統(tǒng)的基于頻繁模式增長的并行關(guān)聯(lián)規(guī)則算法,消耗了大量時間和存儲空間,且沒有充分考慮頭表分組過程中組間負載量不同的問題。為了解決在關(guān)聯(lián)規(guī)則的實際挖掘過程中,數(shù)據(jù)集快速增長所造成的增量更新問題,基于并行頻繁模式增長PFP-tree算法,基于Spark分布式并行處理框架,提出一種改進的并行關(guān)聯(lián)規(guī)則增量更新算法。在增量更新過程中,為了減少挖掘時間和存儲空間,利用已有挖掘結(jié)果對新增數(shù)據(jù)集構(gòu)建頻繁模式樹。通過改進頭表分組策略,實現(xiàn)了并行挖掘節(jié)點之間的負載均衡。最后的實驗分析表明,相較于傳統(tǒng)的關(guān)聯(lián)增量更新算法,該算法是可行的且具備較高的挖掘效率和可擴展性,適用于動態(tài)增長的大數(shù)據(jù)環(huán)境。

2總結(jié)

當數(shù)據(jù)集逐漸擴大,并行程序的運行時間增長速度明顯小于串行程序,并逐漸接近。

當數(shù)據(jù)集擴大到一定程度,并行程序的運行效果,會優(yōu)于串行程序,這充分體現(xiàn)了并行程序的優(yōu)越性。

猜你喜歡
數(shù)據(jù)挖掘分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
電力系統(tǒng)及其自動化發(fā)展趨勢分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 欧美日韩亚洲综合在线观看| 2021国产精品自拍| 国产精品美人久久久久久AV| 女人av社区男人的天堂| 成年人视频一区二区| 2021亚洲精品不卡a| 青青久视频| 久久午夜影院| 亚洲av无码成人专区| 88av在线| 欧美日一级片| 中文无码精品A∨在线观看不卡| 国产H片无码不卡在线视频| www.亚洲天堂| 国产婬乱a一级毛片多女| 亚洲性一区| 国产成人综合网在线观看| 在线观看国产黄色| 国产综合无码一区二区色蜜蜜| 看国产毛片| 99在线观看精品视频| 91精品小视频| 99久久精品免费观看国产| 国产啪在线91| 亚洲成人网在线观看| 亚洲精品第一在线观看视频| 久久久久亚洲av成人网人人软件| 亚洲精品国产精品乱码不卞| 91啦中文字幕| 一级毛片a女人刺激视频免费| 国产精品久久国产精麻豆99网站| 99re视频在线| 免费一级无码在线网站| 青青极品在线| 亚洲精品人成网线在线| 色悠久久综合| 欧美高清日韩| 免费无码在线观看| 美女啪啪无遮挡| 精品超清无码视频在线观看| 亚洲天堂精品视频| 黄色在线不卡| 欧美啪啪精品| 欧美一区国产| 国产人碰人摸人爱免费视频| 国产亚洲精| 激情影院内射美女| 欧美国产综合色视频| 最新国语自产精品视频在| 精品成人一区二区三区电影| 国产乱论视频| 女人天堂av免费| 麻豆国产原创视频在线播放| 午夜a视频| 中国黄色一级视频| 五月激情综合网| 久久精品人人做人人爽97| 中文字幕免费播放| 亚洲欧美另类日本| 波多野结衣无码视频在线观看| 无码国内精品人妻少妇蜜桃视频| 午夜啪啪网| 亚洲成aⅴ人片在线影院八| 国产欧美日韩视频一区二区三区| 亚洲三级网站| 久久无码av一区二区三区| 亚洲香蕉久久| 精品伊人久久大香线蕉网站| 99热这里只有精品免费国产| 亚洲成人www| 国产三级精品三级在线观看| 亚洲国产AV无码综合原创| 免费国产在线精品一区| 午夜免费视频网站| 香蕉视频在线观看www| 国产主播喷水| 欧美黄网在线| 999精品色在线观看| 亚洲国产天堂久久综合| 亚洲人成网站色7777| 日本国产精品| 久久精品无码专区免费|