999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺的設(shè)計研究

2016-02-20 05:57:18孫馬莉
安陽師范學(xué)院學(xué)報 2016年5期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)可視化

孫馬莉

(安徽新華學(xué)院 財會與金融學(xué)院,安徽 合肥 230088)

?

大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺的設(shè)計研究

孫馬莉

(安徽新華學(xué)院 財會與金融學(xué)院,安徽 合肥 230088)

大數(shù)據(jù)時代的到來給人們帶來豐富信息量的同時,也給人們獲取有效數(shù)據(jù)帶來了不便。怎樣從海量的數(shù)據(jù)里迅速、準(zhǔn)確的獲取所需信息是目前亟待解決的難題。為了解決這一問題,本文設(shè)計了大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺;并對平臺中應(yīng)該的數(shù)據(jù)挖掘技術(shù)和算法做了進(jìn)一步研究分析。

大數(shù)據(jù)環(huán)境;數(shù)據(jù)挖掘;平臺設(shè)計

互聯(lián)網(wǎng)的用戶伴隨互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展也在快速增加,目前每天使用人數(shù)達(dá)到數(shù)十億,用戶的互聯(lián)網(wǎng)操作行為會導(dǎo)致大量信息數(shù)據(jù)的產(chǎn)生。有統(tǒng)計數(shù)據(jù)顯示,全球數(shù)據(jù)總量每年在以ZB(1ZB=10^21KB)為單位增長,其中有接近9成以上的數(shù)據(jù)產(chǎn)生于近幾年[1]。全球的數(shù)據(jù)總量預(yù)計在2020年能達(dá)到40ZB。飛速增長的數(shù)據(jù)量帶領(lǐng)人們直接邁入了“信息過載”的時代環(huán)境中[2]。人們希望通過這些數(shù)據(jù)的保存和分析,對其背后隱含的價值和模式進(jìn)行深入的研究和提取。新的問題和需求必將帶來新的挑戰(zhàn),具體體現(xiàn)為大數(shù)據(jù)的處理、存儲以及具體的數(shù)據(jù)挖掘方法。

本文基于上述研究背景,在大數(shù)據(jù)環(huán)境下構(gòu)建設(shè)計了數(shù)據(jù)挖掘平臺。其目的和意義是在數(shù)據(jù)量激增的時代,通過平臺的海量數(shù)據(jù)存儲和挖掘能力,方便用戶的使用,用戶只需對平臺接口進(jìn)行訪問即可獲取具體的服務(wù),也即是說用戶在應(yīng)用過程中只需重點關(guān)注本身的業(yè)務(wù)邏輯即可,有效的節(jié)約了數(shù)據(jù)挖掘方面的成本。

1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺的設(shè)計

1.1 平臺整體架構(gòu)設(shè)計

在設(shè)計的數(shù)據(jù)挖掘平臺中,大數(shù)據(jù)的存儲和挖掘能力是主要核心功能所在。本文在設(shè)計系統(tǒng)架構(gòu)時通過分層思想的應(yīng)用,根據(jù)系統(tǒng)模塊的功能作用,把整個系統(tǒng)劃分為服務(wù)中間層、基礎(chǔ)能力支持層以及業(yè)務(wù)應(yīng)用層三個層次,圖1給出了具體的系統(tǒng)架構(gòu)示意圖。

圖1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺系統(tǒng)框架

首先是業(yè)務(wù)應(yīng)用層,在基于云計算的數(shù)據(jù)挖掘平臺中,該層是作為使用者存在的,只要有數(shù)據(jù)挖掘能力需求即可應(yīng)用,值得注意的是,該層并不屬于數(shù)據(jù)挖掘平臺,只是屬于用戶層面的業(yè)務(wù)應(yīng)用,是系統(tǒng)的重要參與者。這里的用戶指的是業(yè)務(wù)系統(tǒng)的開發(fā)者,其根據(jù)具體的業(yè)務(wù)需求,對數(shù)據(jù)挖掘平臺提供的接口進(jìn)行調(diào)用,進(jìn)一步的獲取大數(shù)據(jù)存儲和挖掘能力,實現(xiàn)對應(yīng)用層系統(tǒng)的構(gòu)建。這樣設(shè)計的優(yōu)點體現(xiàn)在應(yīng)用系統(tǒng)無需對底層的實現(xiàn)投入過多精力,只需重點研究系統(tǒng)的業(yè)務(wù)邏輯即可,使系統(tǒng)的復(fù)雜性降到最低,節(jié)約了開發(fā)投入和維護(hù)的成本,同時開發(fā)者的效率也得到了顯著提升。

其次是服務(wù)中間層,該層的作用是承上啟下,是基礎(chǔ)能力支持層與業(yè)務(wù)應(yīng)用層之間的連接橋梁,簡單來說,服務(wù)中間層的實現(xiàn)是通過封裝系統(tǒng)的管理功能和基礎(chǔ)服務(wù)支持層的能力,通過Restful方式,把服務(wù)接口提供給用戶使用。從功能上來說,服務(wù)中間層包括數(shù)據(jù)挖掘算法、數(shù)據(jù)文件管理、用戶管理以及權(quán)限管理四個模塊。

最后是基礎(chǔ)能力支持層,在整個系統(tǒng)架構(gòu)中,基礎(chǔ)能力支持層處在最底層,其能力是最基本的大數(shù)據(jù)處理和存儲能力。嚴(yán)格來說,對海量數(shù)據(jù)的處理和存儲使用并不局限在分布式技術(shù)上,對于業(yè)務(wù)應(yīng)用層的應(yīng)用而言,基礎(chǔ)能力支持層的實現(xiàn)是透明公開的。

1.2 系統(tǒng)平臺的功能設(shè)計

在通用數(shù)據(jù)挖掘平臺中,目前多設(shè)計為數(shù)據(jù)挖掘、處理和可視化三個功能模塊,圖2給出了具體的功能模塊示意圖。

圖2 平臺功能模塊圖

圖3給出了三個模塊之間的關(guān)系示意圖,三個模塊之間通過相互聯(lián)系、相互制約,形成了一個有機(jī)整體。

圖3 系統(tǒng)平臺功能模塊關(guān)系圖

1.3 平臺主要模塊設(shè)計

首先是數(shù)據(jù)處理模塊,該模塊共包含兩個子模塊,分別負(fù)責(zé)數(shù)據(jù)的提取和預(yù)處理。數(shù)據(jù)提取子模塊的功能是在數(shù)據(jù)庫服務(wù)器中,把外部數(shù)據(jù)源的數(shù)據(jù)集成到指定的數(shù)據(jù)表中。數(shù)據(jù)預(yù)處理子模塊的功能是對數(shù)據(jù)庫服務(wù)器集成的外部數(shù)據(jù)源數(shù)據(jù)進(jìn)行通用處理,如處理噪聲和缺失值等。數(shù)據(jù)經(jīng)過處理之后提供給數(shù)據(jù)挖掘模塊使用。

數(shù)據(jù)挖掘模塊是對各類數(shù)據(jù)挖掘算法的集成,共包含四個子模塊,分別為分類分析、聚類分析、預(yù)測分析以及關(guān)聯(lián)分析。數(shù)據(jù)挖掘使用的是數(shù)據(jù)提取和預(yù)處理子模塊處理完成的數(shù)據(jù)。本文研究的重點就是數(shù)據(jù)挖掘模塊,下文會更加詳細(xì)的介紹該模塊。

可視化模塊共包含兩個子模塊,分別為挖掘結(jié)果可視化和原始數(shù)據(jù)可視化。其中原始數(shù)據(jù)可視化主要是展示在數(shù)據(jù)庫中集成的數(shù)據(jù),便于用戶對數(shù)據(jù)特征的了解,使其在對數(shù)據(jù)挖掘算法進(jìn)行選擇時更具針對性。比如,當(dāng)我們從散點圖上看到呈線性分布的數(shù)據(jù)時,在建模分析時就可以采用線性回歸分析方法[3]。挖掘結(jié)果可視化主要是展示具體的數(shù)據(jù)挖掘結(jié)果,便于用戶對數(shù)據(jù)挖掘結(jié)果的理解和查看。在結(jié)果可視化的設(shè)計中,針對數(shù)據(jù)挖掘算法的不同,可以有針對性的對可視化功能進(jìn)行設(shè)計。

2 平臺中的分類技術(shù)

在數(shù)據(jù)挖掘的研究中,分類技術(shù)一直是其中的研究熱點和重點,并廣泛應(yīng)用在多個領(lǐng)域[4]。在訓(xùn)練數(shù)據(jù)中,我們把y=f(x1,x2,…,xd)確定為函數(shù)模型,其中,分類變量為yi,特征變量為xi,i=1,2,…,d。當(dāng)分類變量為離散變量時被稱為分類,也即是dom(y)={y1,y2,…,yn},目前主要有兩種分類觀點。

首先是在決策邊界基礎(chǔ)上的分類,在空間中,yk類的決策區(qū)域是指所有存在yk的區(qū)域,當(dāng)在yk類的決策區(qū)域內(nèi)落有一個數(shù)據(jù)點時,該數(shù)據(jù)點就相應(yīng)的屬于yk類。采用這種分類觀點的代表是決策樹分類。

一般而言,分類操作包括以下步驟[5]:首先,基于給定的訓(xùn)練集對合適的映射函數(shù)進(jìn)行挑選,也可稱為模型訓(xùn)練階段;其次,通過訓(xùn)練完成的函數(shù)模型對大數(shù)據(jù)的具體類別進(jìn)行預(yù)測,或者通過函數(shù)模型的使用,描述數(shù)據(jù)集中每一類別的數(shù)據(jù),生成相應(yīng)的分類規(guī)則。圖4給出了具體的分類應(yīng)用流程示意圖。

圖4 分類的應(yīng)用程序

3 平臺中的聚類算法

在聚類算法中,基于劃分的經(jīng)典算法是K-means算法,其參數(shù)為k,對象共有n個,對象劃分的k個簇內(nèi)相似度較高,但是簇間的相似度相對較低[6]。我們用兩個對象之間的歐氏距離計算他們的相似度。

K-means算法具有以下流程:從n個對象中隨機(jī)的對k個對象進(jìn)行挑選,每個對象默認(rèn)為該簇的中心。在其余的n-k個對象中,按照簇中心與對象距離的遠(yuǎn)近進(jìn)行簇的劃分。簇劃分完成之后,對每個簇的平均值進(jìn)行計算,并把計算結(jié)果作為簇的新中心。并不斷反復(fù)以上過程,直至準(zhǔn)則函數(shù)收斂為止。在計算過程中,該算法使用的準(zhǔn)則是平方誤差方法,具體的定義為:

其中,對每一個聚類數(shù)據(jù)對象求平方誤差,對其求和就組成了E,P是給定的數(shù)據(jù)對象,也可表示為空間點,簇Ci的平均值用mi表示。

K-means算法試圖通過k的劃分達(dá)到平方誤差函數(shù)值最小的目的。實驗結(jié)果表明,當(dāng)簇與簇之間有較明顯區(qū)別,同時簇是密集的時候,具有較好的應(yīng)用效果。該算法在大數(shù)據(jù)的處理過程中,表現(xiàn)出了較高的效率和可伸縮性。

只有在定義了簇的平均值的情況下才能使用K-means算法,對于一些行業(yè)來說,這點適用性不強(qiáng),該算法還有一個缺點就是必須給定一個聚類個數(shù)k。K-means算法還不能應(yīng)用在對大小差異很大以及非凸面形狀的簇上。而且K-means面向孤立點和噪聲數(shù)據(jù)的時候敏感性較強(qiáng),這類數(shù)據(jù)能極大的影響到數(shù)據(jù)的平均值,容易導(dǎo)致在出現(xiàn)局部最優(yōu)解的同時不能實現(xiàn)全局最優(yōu)解,也即是說在輸入同樣參數(shù)的情況下,不穩(wěn)定的聚類結(jié)果也可能導(dǎo)致出現(xiàn)完全不同的聚類結(jié)果。

4 挖掘平臺中的關(guān)聯(lián)規(guī)則

一些研究者定義了關(guān)聯(lián)規(guī)則挖掘問題的概念,這些定義目前也得到了大多數(shù)研究者的認(rèn)可,下面列出了一些具體的定義描述[7]。

事物和項目:把D={T1,T2,…,Tm} Tk={i1,i2,…,in}記為關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集,其中事務(wù)就是其中Tk=(k=1,2,…,m),事務(wù)數(shù)據(jù)庫為D,項目定義為ip=(p=1,2,…,n)。

項集:D中所有項目的集合設(shè)為I=(i1,i2,…,it)是。其中I的子集就是事務(wù)Tk包含的項集。按照關(guān)聯(lián)規(guī)則分析,一個包含k個項的項集,被稱為k-項集。

關(guān)聯(lián)規(guī)則:一般用R:X?Y表示關(guān)聯(lián)規(guī)則,其表達(dá)的規(guī)律是當(dāng)出現(xiàn)X中的項目時,Y中的項目也會隨之出現(xiàn)。

項集的最小支持度閥值:當(dāng)項集滿足最小支持度閾值時,可以產(chǎn)生關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則產(chǎn)生的條件是項集必須滿足的,最小支持度閥值通常被記作min_sup。支持度大于或等于min_sup的項集稱為頻繁項集。如果k-項集的支持度大于或等于min_sup,則稱其為頻繁k-項集,記作Lk。

頻繁項集:當(dāng)項集滿足最小支持度閾值時,可以產(chǎn)生關(guān)聯(lián)規(guī)則。當(dāng)最小支持度閾值小于或等于項集時,該項集被稱為頻繁項集。

為了更好的對關(guān)聯(lián)規(guī)則的置信度和支持度進(jìn)行闡述,我們給出了一個具體的商品購買實例加以說明和分析。假設(shè)在某一個關(guān)聯(lián)規(guī)則中,X4為條件項集,Y為結(jié)果項集,支持度是對X和Y一起出現(xiàn)的概率進(jìn)行計算,置信度是對X中含有Y概率的計算。

表1給出了具體的購買記錄,表2是與其對應(yīng)的商品購買二維表。

表1 商品舉例

表2 商品購買二維表

綜上所述,在數(shù)據(jù)挖掘過程中使用關(guān)聯(lián)規(guī)則其實就是在給定的數(shù)據(jù)庫中,找出用戶設(shè)定關(guān)聯(lián)規(guī)則中置信度和支持度的最小值,也被稱為強(qiáng)關(guān)聯(lián)規(guī)則。

5 結(jié)論

本文通過對大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘平臺的設(shè)計及平臺中應(yīng)用的典型技術(shù)和算法的研究,有效緩解了當(dāng)前海量數(shù)據(jù)對人們有效信息收索工作的沖擊。平臺通過先進(jìn)的挖掘算法和可視化的顯示技術(shù),使人們能夠更快速、準(zhǔn)確、直觀的獲取所需信息。

[1] 邵峰晶,于忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法(第二版)[M].北京:科學(xué)出版社,2009.

[2]林霞,等.一種數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2010:1293-1295.

[3]王熙照,等.學(xué)習(xí)特征權(quán)值對K-均值聚類算法的優(yōu)化[J].計算機(jī)研究與發(fā)展,2003(06):869-873.

[4]Yang Lai,Shi Zhong Zhiusing Java Persistence API,Information Technology,An Efficient Data Mining Framework on Hadoop IEEE International Conference on Computer and2011,156-159.

[5]Wang C, Ren K, Yu S, et al. Achieving usable and privacy-assured similarity search over outsourced cloud data [C]//INFOCOM,2012 Proceedings IEEE.IEEE,2012,451-459.

[6]Xue,G.,Lin,C.,Yang,Q.,etal. Scalable collabor Ativecluster-based smoothing[C].In:Proceedings of the ACM SIGIRpp.114-121.filtering usingConference 2005.

[7]Ruoing Jin. Ge Parallelization of Yang Gagan Mining Agrawal. gorithmsemer. Shared Memory Data Techniques. Programming Interface. And Performance[J].Engineering.2005.17(1).71-89IEEE Transactions on Knowledge and Data.

[責(zé)任編輯:張懷濤]

2016-05-26

2014省質(zhì)量工程“軟件工程綜合實踐教育中心”(項目號:2014SXZX021);2013校級質(zhì)量工程項目:《新華—達(dá)內(nèi)科技校企合作實踐教學(xué)基地》(項目編號:2013xqjdx02)

孫馬莉(1981-),女,安徽蚌埠人,講師,研究方向為數(shù)據(jù)挖掘。

TP311

A

1671-5330(2016)05-0105-04

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
“苦”的關(guān)聯(lián)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
奇趣搭配
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产无吗一区二区三区在线欢| 在线观看免费人成视频色快速| 国产成人精品亚洲77美色| 成人在线亚洲| 久久精品国产在热久久2019| 欧美区一区| 99久久国产综合精品女同| www.亚洲国产| 欧美精品在线免费| 91啦中文字幕| 2021最新国产精品网站| 999在线免费视频| 亚洲va视频| 乱系列中文字幕在线视频| 最新痴汉在线无码AV| 真实国产乱子伦高清| 无码网站免费观看| 视频一区视频二区日韩专区| 一本一本大道香蕉久在线播放| 97精品国产高清久久久久蜜芽| 国产av一码二码三码无码| 日日噜噜夜夜狠狠视频| 制服丝袜在线视频香蕉| 国产精品va| 激情视频综合网| 99精品在线视频观看| 国产午夜在线观看视频| 超碰91免费人妻| 国产幂在线无码精品| 国产精品欧美在线观看| 美女无遮挡免费网站| 激情视频综合网| 幺女国产一级毛片| 成年午夜精品久久精品| 五月婷婷精品| 999国产精品| 91亚瑟视频| 国产在线精品99一区不卡| 久一在线视频| 婷婷伊人五月| 成人福利在线免费观看| 国产男女免费完整版视频| 国产精品不卡片视频免费观看| 亚洲毛片一级带毛片基地| 伊人久久综在合线亚洲2019| 亚洲VA中文字幕| 精品国产免费观看一区| 激情五月婷婷综合网| 日韩福利在线观看| 国产视频久久久久| 久热中文字幕在线观看| 3344在线观看无码| 噜噜噜综合亚洲| 97成人在线视频| 国产一级α片| 亚洲一级毛片在线播放| h网址在线观看| 无码AV日韩一二三区| 九九热精品免费视频| 亚洲国产天堂久久综合| 国产福利影院在线观看| 国产99在线| 91精品免费高清在线| 国产精品综合久久久| 尤物精品国产福利网站| 久久久久亚洲Av片无码观看| 四虎国产精品永久一区| 欧美性爱精品一区二区三区| 久久久精品无码一区二区三区| 亚洲精品视频在线观看视频| 亚洲综合天堂网| 国产爽妇精品| 欧美日韩精品综合在线一区| 国产在线一区二区视频| 99热这里都是国产精品| 久无码久无码av无码| 久久久久亚洲精品无码网站| 久久亚洲国产视频| 婷婷亚洲天堂| 欧美一级黄片一区2区| 国内精品自在欧美一区| 亚洲国产精品无码AV|