999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)的分類挖掘優(yōu)化技術(shù)創(chuàng)新發(fā)展

2018-12-31 00:00:00文世敏
現(xiàn)代信息科技 2018年7期

摘 要:本文主要以大數(shù)據(jù)的分類挖掘技術(shù)及其創(chuàng)新發(fā)展為重點(diǎn)內(nèi)容,以當(dāng)下數(shù)據(jù)挖掘相關(guān)概述為主要依據(jù),從數(shù)據(jù)挖掘的分類算法、大數(shù)據(jù)的統(tǒng)計(jì)性特征、大數(shù)據(jù)分類挖掘的實(shí)現(xiàn)這三方面進(jìn)行深入探索與研究,其目的在于提高大數(shù)據(jù)的利用率,以推動(dòng)我國社會(huì)經(jīng)濟(jì)持續(xù)穩(wěn)定的發(fā)展,為增強(qiáng)我國核心競爭力提供有利條件。

關(guān)鍵詞:大數(shù)據(jù);信息融合;分類挖掘;聚類空間劃分;特征提取

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2018)07-0087-03

Abstract:This paper mainly focuses on the classification and optimization of big data mining and optimization technology innovation development,combining with the current data mining overview as the main basis,from the main classification algorithms of data mining,the statistical characteristics of big data and the implementation of big data classification mining in-depth exploration and research of the three sides. It is to improve the utilization ratio of big data in order to promote sustained and stable development of our social economy and provide favorable conditions for enhancing our core competitiveness.

Keywords:big data;information fusion;classification mining;clustering space partition;feature extraction

0 引 言

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使網(wǎng)絡(luò)空間得到了巨大擴(kuò)容。在云存儲(chǔ)數(shù)據(jù)庫內(nèi),大數(shù)據(jù)存在極大的差異性,需對其進(jìn)行分類挖掘,即需要加強(qiáng)對大數(shù)據(jù)信息庫分類識別與檢索的能力。大數(shù)據(jù)的分類挖掘優(yōu)化技術(shù)創(chuàng)新發(fā)展,對增強(qiáng)大數(shù)據(jù)訪問與檢索等能力具有積極作用,因此,深入探究大數(shù)據(jù)分類挖掘技術(shù)勢在必行。本文主要分析大數(shù)據(jù)的分類挖掘優(yōu)化技術(shù)創(chuàng)新發(fā)展,具體如下。

1 大數(shù)據(jù)挖掘相關(guān)概述

大數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論,機(jī)器學(xué)習(xí),人工智能,現(xiàn)代統(tǒng)計(jì)學(xué)等學(xué)科技術(shù)而迅速發(fā)展的一門交叉學(xué)科,在很多領(lǐng)域中都有應(yīng)用。它涉及到很多的算法,包括機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)、決策樹,也有基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)、分類回歸樹和關(guān)聯(lián)分析等諸多算法。數(shù)據(jù)挖掘就是從大量繁雜的數(shù)據(jù)中獲取隱含在其中的信息,比如對顧客的分類,聚類,潛在顧客識別等。從海量數(shù)據(jù)找出潛在的知識對于人來講是很難實(shí)現(xiàn)的事情,數(shù)據(jù)挖掘技術(shù)就是把這項(xiàng)任務(wù)交給計(jì)算機(jī)來處理,以提取有用信息來支持人類的決策,這就是他的意義。

大數(shù)據(jù)有三個(gè)重要的特征:數(shù)據(jù)量大,結(jié)構(gòu)復(fù)雜,數(shù)據(jù)更新速度很快。由于Web技術(shù)的發(fā)展,Web用戶產(chǎn)生的數(shù)據(jù)能夠自動(dòng)保存,其傳感器也在不斷收集數(shù)據(jù);移動(dòng)互聯(lián)網(wǎng)的發(fā)展,促使數(shù)據(jù)能夠自動(dòng)收集,存儲(chǔ)速度也在不斷加快,全世界的數(shù)據(jù)量在不斷膨脹,數(shù)據(jù)的存儲(chǔ)和計(jì)算超出了單個(gè)計(jì)算機(jī)的能力,這給數(shù)據(jù)挖掘技術(shù)的實(shí)施提出了挑戰(zhàn)。

2 數(shù)據(jù)挖掘的主要分類算法

2.1 決策樹分類法

第一,傳統(tǒng)法。C4.5算法屬于傳統(tǒng)數(shù)據(jù)分類法,優(yōu)勢十分顯著,比如規(guī)則簡單、易操作等。但隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,數(shù)據(jù)量越來越多,其繁雜性不斷加大。C4.5逐漸無法滿足現(xiàn)代化社會(huì)發(fā)展的實(shí)際需求。且因?yàn)闆Q策樹分類法的自身因素,決定了在數(shù)據(jù)分類中,需對數(shù)據(jù)展開多次排序與掃描。尤其是在建構(gòu)決策樹時(shí),這種缺陷更加顯著。它不但會(huì)使數(shù)據(jù)分析的速度受影響,還會(huì)耗費(fèi)系統(tǒng)的資源。對大數(shù)據(jù)分類挖掘而言,C4.5更不能勝任,因?yàn)镃4.5的利用范圍有限,只能處理比自身系統(tǒng)內(nèi)存小的數(shù)據(jù),常規(guī)情況系下,內(nèi)存不能保留的較大的數(shù)據(jù)流,否則可能會(huì)出現(xiàn)不能有效運(yùn)行的狀況。

第二,衍生法。SPRINT算法與SLIQ算法均由C4.5算法優(yōu)化而來,并以其為基礎(chǔ)進(jìn)行了技術(shù)性改良,比如加強(qiáng)了數(shù)據(jù)排序技術(shù),并利用廣度優(yōu)先處理措施。這讓SLIQ算法可以有效的記錄數(shù)據(jù)處理數(shù),并有較強(qiáng)的可拓展性,為數(shù)據(jù)處理提供有利條件。但SLIQ算法也有一定不足,因其以C4.5算法為中心,在處理數(shù)據(jù)時(shí),會(huì)將數(shù)據(jù)集存留在內(nèi)存條中,這便導(dǎo)致SLIQ算法處理數(shù)據(jù)集規(guī)模受限。即數(shù)據(jù)記錄數(shù)量超出預(yù)期排序的數(shù)量,SLIQ算法無法完成數(shù)據(jù)排序與處理工作。

SPRINT算法主要是為了優(yōu)化SLIQ算法中數(shù)據(jù)規(guī)模受限問題而衍生出來的。SPRINT算法對決策樹算法進(jìn)行了重新定義,改變了其數(shù)據(jù)分析結(jié)構(gòu),不再把數(shù)據(jù)集停留在內(nèi)存之中。它同SLIQ算法不同,數(shù)據(jù)列表未儲(chǔ)存在內(nèi)存之中,而是把其融合到了各個(gè)數(shù)據(jù)集的屬性列表中,這種模式不但解決了數(shù)據(jù)查詢中數(shù)據(jù)掃面導(dǎo)致速度緩慢的問題,還有效釋放了內(nèi)存壓力。尤其是在對大數(shù)據(jù)進(jìn)行分類挖掘時(shí),因數(shù)據(jù)基數(shù)相對較大,在各個(gè)數(shù)據(jù)集的屬性列表中探究所需數(shù)據(jù),可以節(jié)省許多分析時(shí)間,數(shù)據(jù)分類工作也會(huì)變得更加快捷。但SPRIT算法依舊有些許不足,對于不具備分裂屬性的數(shù)據(jù)列表,它只能對其數(shù)據(jù)集進(jìn)行內(nèi)分析,無法確保結(jié)果的準(zhǔn)確性,致使其拓展性受限。

2.2 其他分類法

第一,Bayes分類法。該法是在概率統(tǒng)計(jì)學(xué)的基礎(chǔ)上研發(fā)出的一種算法,在當(dāng)前數(shù)據(jù)分類中利用相對比較廣泛。但其不足也十分顯著,因Bayes分類法需在具體分析以前對大數(shù)據(jù)的特性做出假設(shè),而此種假設(shè)時(shí)常欠缺實(shí)踐理論支撐,所以在數(shù)據(jù)分析中很難保證準(zhǔn)確性。以此為基礎(chǔ),TAN算法被衍生了出來,它主要為提升Bayes分類法假設(shè)命題的實(shí)效性,事實(shí)上就是減少NB任意屬性間獨(dú)立的假設(shè)。

第二,CBA分類法。以關(guān)聯(lián)規(guī)則為主的關(guān)聯(lián)算法便是CBA分類數(shù)據(jù)法。此法通常需要應(yīng)用數(shù)據(jù)構(gòu)造分類器,在對大數(shù)據(jù)進(jìn)行分析時(shí),先收集關(guān)聯(lián)規(guī)則,這也被稱作CAR;之后再從CAR內(nèi)選取恰當(dāng)?shù)臄?shù)據(jù)集。CBA分類算法主要技術(shù)是Apriori算法技術(shù),它可以讓潛在的大數(shù)據(jù)關(guān)聯(lián)規(guī)則展現(xiàn)在表層,以便整理歸納。但因其在數(shù)據(jù)分類時(shí)易出現(xiàn)披露,所以時(shí)常利用設(shè)置最小支持度的方式來降低披露的發(fā)生率,這便導(dǎo)致了算法優(yōu)化效用無法充分的發(fā)揮出,減小了運(yùn)行質(zhì)量。

第三,MIND算法。此法同決策樹算法的相似性極高,皆是利用構(gòu)造數(shù)據(jù)分類器開展數(shù)據(jù)分析工作。但MIND算法利用的是SQL語句和UDF方法同數(shù)據(jù)庫系統(tǒng)進(jìn)行關(guān)聯(lián)。在對數(shù)據(jù)進(jìn)行分析時(shí),UDF法可以極大的減少對每個(gè)階段數(shù)據(jù)特征分析所用的時(shí)間,如此為數(shù)據(jù)庫集成提供有效支撐。SQL語句主要分析數(shù)據(jù)集的屬性,以便在其中選出最佳的分裂屬性,再進(jìn)行數(shù)據(jù)排序,如此便節(jié)省了大數(shù)據(jù)分類的時(shí)間。但MIND算法無法在數(shù)據(jù)庫系統(tǒng)內(nèi)體現(xiàn)查詢功能,且該方法的維護(hù)成本較高,不適合推廣。

3 大數(shù)據(jù)的統(tǒng)計(jì)性特點(diǎn)

3.1 稀疏性的結(jié)合

為了實(shí)現(xiàn)大數(shù)據(jù)分類挖掘的優(yōu)化,首先需利用統(tǒng)計(jì)分析法對大數(shù)據(jù)的特征進(jìn)行提取或信息重構(gòu),利用稀疏結(jié)合的方式對大數(shù)據(jù)信息流進(jìn)行空間劃分。本文具體分析對象為網(wǎng)絡(luò)分布式的大數(shù)據(jù)。常規(guī)情況下都會(huì)利用G=(V,E)代表分布式大數(shù)據(jù)的輸入模型,分布的向量量化集是(u,v)∈E,信息覆蓋域是r,設(shè)BV,AV,且A∩B=,得出數(shù)據(jù)信息融合量:

公式中:t0代表的是分布式大數(shù)據(jù)時(shí)域分布特點(diǎn),tg代表的是頻域分布特點(diǎn),T0代表的是大數(shù)據(jù)采樣時(shí)間間隔,Tg代表的是波速分布間隔。利用實(shí)驗(yàn)或觀測手段獲取云存儲(chǔ)采樣知識,通過調(diào)度與重構(gòu)數(shù)據(jù)融合得到的分布式云存儲(chǔ)的特點(diǎn)分布向量:

3.2 聚類空間劃分

以奈奎斯特采樣定理為基礎(chǔ),結(jié)合稀疏性融合結(jié)果,對大數(shù)據(jù)進(jìn)行聚類空間劃分,為大數(shù)據(jù)信息流重構(gòu)模型X(t)規(guī)劃處理作鋪墊,其分類挖掘指向性維數(shù)符合以下公式:

4 大數(shù)據(jù)分類挖掘?qū)崿F(xiàn)

在稀疏性融合法劃分聚類空間的基礎(chǔ)上,對數(shù)據(jù)分類的挖掘與提取過程進(jìn)行優(yōu)化,本文主要采用弱關(guān)聯(lián)性指數(shù)特性分布提取的分類挖掘法,利用向量量化的辦法對數(shù)據(jù)基元進(jìn)行控制,向量量化的特性函數(shù)是:

通過對上述提取特性的估計(jì)結(jié)果能夠發(fā)現(xiàn),大數(shù)據(jù)分類挖掘受數(shù)據(jù)基元分類的收斂性影響,所以需對挖掘的收斂性進(jìn)行有效控制,以保證結(jié)果大數(shù)據(jù)分類挖掘過程的準(zhǔn)確性提升。

5 結(jié) 論

對于我國社會(huì)經(jīng)濟(jì)的發(fā)展來講,大數(shù)據(jù)分類挖掘優(yōu)化技術(shù)十分重要,它是發(fā)揮大數(shù)據(jù)效用的基礎(chǔ),也是推動(dòng)現(xiàn)代社會(huì)持續(xù)穩(wěn)定發(fā)展的關(guān)鍵。為此,相關(guān)人員需給予大數(shù)據(jù)分類挖掘優(yōu)化技術(shù)高度重視,促使其存在的價(jià)值與效用在我國社會(huì)發(fā)展中充分的發(fā)揮出,為我國在繁雜的國際市場立足提供保障。

參考文獻(xiàn):

[1] 覃兵文.大數(shù)據(jù)的分類挖掘優(yōu)化技術(shù) [J].現(xiàn)代電子技術(shù),2017,40(24):34-36.

[2] 何波.基于Mapreduce與關(guān)聯(lián)分類挖掘的海量數(shù)據(jù)分類增量挖掘方法研究 [J].福建電腦,2017,33(4):20+33.

[3] 何波.大數(shù)據(jù)下的海量統(tǒng)計(jì)數(shù)據(jù)分類挖掘方法研究 [J].福建電腦,2017,33(1):21+83.

[4] 郭龍.大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)研究 [J].數(shù)字技術(shù)與應(yīng)用,2016(9):127.

[5] 毛國君,胡殿軍,謝松燕.基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法 [J].計(jì)算機(jī)學(xué)報(bào),2017,40(1):161-175.

[6] 王昌輝.云計(jì)算設(shè)備中的大數(shù)據(jù)特征高效分類挖掘方法研究 [J].現(xiàn)代電子技術(shù),2015,38(22):55-58+61.

[7] 張慧萍,賀紅艷,陳小娟.大數(shù)據(jù)的分層分類優(yōu)化識別仿真研究 [J].計(jì)算機(jī)仿真,2015,32(10):463-466.

[8] 饒琛.大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)研究 [J].電子技術(shù)與軟件工程,2015(14):204.

作者簡介:文世敏(1978.09-),男,云南永勝人,碩士。研究方向:計(jì)算機(jī)技術(shù)。

主站蜘蛛池模板: 精品中文字幕一区在线| 久久久噜噜噜| 在线欧美日韩国产| 99热这里只有精品免费| 玖玖免费视频在线观看| 香蕉色综合| 亚洲天堂视频在线免费观看| 日本免费新一区视频| 亚洲天堂久久| 欧美成人免费一区在线播放| 久久精品娱乐亚洲领先| 国产产在线精品亚洲aavv| 日本一区中文字幕最新在线| 精品视频一区在线观看| 国产色伊人| 亚洲人成人伊人成综合网无码| 99一级毛片| 最近最新中文字幕在线第一页 | 亚洲美女视频一区| 91亚瑟视频| 久久综合色视频| 国产精品福利一区二区久久| 国产精品漂亮美女在线观看| 最新国产网站| 欧美一区福利| 性网站在线观看| 中文字幕调教一区二区视频| 丁香婷婷激情综合激情| 91综合色区亚洲熟妇p| 在线无码九区| 国产亚洲精久久久久久无码AV| 国产色婷婷视频在线观看| 91小视频在线播放| 波多野结衣中文字幕一区| 国产成人禁片在线观看| 精品99在线观看| 国产精品专区第1页| 日韩精品视频久久| 亚洲精品无码成人片在线观看 | 欧亚日韩Av| 久久综合色播五月男人的天堂| 97se亚洲综合在线天天| 久久九九热视频| 国产农村精品一级毛片视频| 欧美国产成人在线| 久久国产精品无码hdav| 国产成人毛片| 亚洲性网站| 国产精品成人第一区| 亚洲人成影院在线观看| 欧美日韩国产在线人| 国产区在线看| 91成人在线免费视频| 波多野结衣无码AV在线| 成人免费网站久久久| 伊大人香蕉久久网欧美| 91在线日韩在线播放| 亚洲欧美成人在线视频| 天天爽免费视频| 五月婷婷综合网| 高清国产在线| 色综合日本| 一本二本三本不卡无码| 亚洲V日韩V无码一区二区| 韩日免费小视频| 亚洲国产看片基地久久1024| 国产在线一区二区视频| 在线精品亚洲一区二区古装| 尤物亚洲最大AV无码网站| 国产精品美女免费视频大全| 在线免费看片a| 在线播放国产一区| 亚洲欧美一区二区三区蜜芽| 久久免费观看视频| 国产白浆在线| 无码电影在线观看| 天天操精品| 玖玖免费视频在线观看| 波多野结衣爽到高潮漏水大喷| 欧美爱爱网| 国产成人免费| 国内嫩模私拍精品视频|