999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集的海量數(shù)據(jù)挖掘算法研究

2016-04-12 00:00:00張貴紅李中華
現(xiàn)代電子技術(shù) 2016年17期

摘 要: 針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出在粗糙集理論的基礎(chǔ)上,采用類分布鏈表結(jié)構(gòu)改進(jìn)傳統(tǒng)的基于屬性重要性的數(shù)據(jù)離散化算法、屬性約簡(jiǎn)算法以及基于啟發(fā)式的值約簡(jiǎn)算法;討論了基于動(dòng)態(tài)聚類的兩步離散化算法,當(dāng)算法適應(yīng)大數(shù)據(jù)處理之后,采用并行計(jì)算的方法提高算法的執(zhí)行效率。算法測(cè)試結(jié)果表明改進(jìn)的算法能有效地處理大數(shù)據(jù)量,同時(shí)并行計(jì)算解決了大數(shù)據(jù)量處理帶來的效率問題。

關(guān)鍵詞: 數(shù)據(jù)挖掘; 粗糙集; 大數(shù)據(jù)處理; 并行計(jì)算

中圖分類號(hào): TN911?34; TQ028.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0116?04

0 引 言

信息時(shí)代,數(shù)據(jù)(尤其是海量數(shù)據(jù))已被各企業(yè)、各研究機(jī)構(gòu)當(dāng)成重大的知識(shí)來源、決策的重要依據(jù)[1],對(duì)數(shù)據(jù)的急速增長,如何有效地解決數(shù)據(jù)挖掘過程中空間和時(shí)間的可伸縮性已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中迫切需要解決的難題[2]。從知識(shí)發(fā)現(xiàn)的過程中可以看到,數(shù)據(jù)挖掘不僅面臨著數(shù)據(jù)庫中的龐大數(shù)據(jù)問題[3],而且這些數(shù)據(jù)有可能是不整齊的、不完全的、隨機(jī)的、有噪聲的、有復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、維數(shù)大[4]。傳統(tǒng)的數(shù)據(jù)挖掘算法還限制于單機(jī)內(nèi)存的容量[5],當(dāng)一次性需要分析的數(shù)據(jù)不能全部進(jìn)入內(nèi)存時(shí),算法的性能就會(huì)嚴(yán)重降低[6],甚至得不到預(yù)期的結(jié)果,使用基于粗糙集理論的算法策略將有效地解決這個(gè)問題[7]。

本文針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出了結(jié)合類分布鏈表,把數(shù)據(jù)挖掘算法推廣到可以處理更高數(shù)據(jù)量級(jí),最后采用并行計(jì)算的方法提高基于動(dòng)態(tài)聚類的兩步離散化算法適應(yīng)大數(shù)據(jù)處理之后的執(zhí)行效率。

1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法

許多經(jīng)典的Rough Set知識(shí)約簡(jiǎn)算法都可以通過引進(jìn)CDL(類分布鏈表)改進(jìn),CDL可以反映某個(gè)條件屬性組合對(duì)論域的分類情況。CDL分為不相容類分布鏈表(ICDL)和相容類分布鏈表(CCDL)兩部分,CCDL根據(jù)鏈表中每個(gè)分類的樣本數(shù)目又可分為單例相容類分布鏈表(SSCDL)和多例相容分布鏈表(MSCDL)[7]。引進(jìn)CDL后,相對(duì)于原始的經(jīng)典算法,改進(jìn)后的算法將具有更好的可伸縮性,能夠更好地處理海量數(shù)據(jù)集。以下通過引入CDL對(duì)包括離散化、屬性約簡(jiǎn)和值約簡(jiǎn)的一組Rough Set知識(shí)約簡(jiǎn)算法進(jìn)行改進(jìn)。

1.1 改進(jìn)的離散化算法

數(shù)據(jù)離散化是Rough Set 知識(shí)獲取方法中的重要組成部分。在此采用基于屬性重要性的離散化算法,在原算法的基礎(chǔ)上通過引入CDL,使得該算法能夠處理海量數(shù)據(jù)。

3 算法測(cè)試

3.1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法測(cè)試

3.1.1 算法正確性測(cè)試

選擇UCI數(shù)據(jù)庫中的5個(gè)數(shù)據(jù)集(見表1)來比較經(jīng)過CDL改進(jìn)的知識(shí)約簡(jiǎn)算法與原始經(jīng)典Rough Set算法的正確性,雙方都應(yīng)用了相同的算法組合。比較的結(jié)果見表2,從結(jié)果中可以得出:使用經(jīng)過CDL改造后的知識(shí)約簡(jiǎn)算法不影響原始的經(jīng)典Rough Set算法的正確率及識(shí)別率等性能。

3.1.2 可伸縮性測(cè)試

當(dāng)訓(xùn)練集的大小從10萬條逐漸增加到100萬條時(shí),測(cè)試集的記錄數(shù)是訓(xùn)練集的30%。生成海量數(shù)據(jù)集,數(shù)據(jù)集有8個(gè)條件屬性和一個(gè)決策屬性。圖1顯示了正確率以及識(shí)別率的變化情況,圖2顯示了知識(shí)獲取所用的時(shí)間變化情況。在數(shù)據(jù)集的量級(jí)增大時(shí),傳統(tǒng)的Rough Set方法已經(jīng)不能適用。

從圖1和圖2可以看出,新改進(jìn)的算法可以提高原算法的可伸縮性,使得能夠適應(yīng)更大的數(shù)據(jù)集,而且性能很好,不失正確率及識(shí)別率。至于知識(shí)發(fā)現(xiàn)所花的時(shí)間比較長,與測(cè)試平臺(tái)所用的SQL服務(wù)器效率有關(guān),利用并行算法則可以提高處理的速度。

3.2 基于動(dòng)態(tài)聚類的兩步離散化算法的并行化處理算法測(cè)試

從UCI數(shù)據(jù)庫中選取6組數(shù)據(jù)集對(duì)算法2.2進(jìn)行測(cè)試。表3是實(shí)驗(yàn)所使用的數(shù)據(jù)集。表4,表5展示了基于動(dòng)態(tài)聚類的離散化算法、基于動(dòng)態(tài)聚類的兩步離散化算法、貪心算法、基于斷點(diǎn)重要性的離散化算法等5種算法的運(yùn)算對(duì)比結(jié)果。其中,算法的運(yùn)行時(shí)間用符號(hào)[T]表示,規(guī)則集的正確識(shí)別率用符號(hào)[P]表示。

使用基于動(dòng)態(tài)聚類的離散化算法進(jìn)行了動(dòng)態(tài)聚類之后,如表6所示,從SONA,PIMA,IRIS等可以看出,每個(gè)數(shù)據(jù)集的候選斷點(diǎn)數(shù)目都有了明顯的降低。基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行速度效率更快,針對(duì)正確識(shí)別率、屬性重要性等方面,貪心算法、基于斷點(diǎn)重要性的離散化算法與基于動(dòng)態(tài)聚類的兩步離散化算法保持一致。

4 結(jié) 論

基于目前常用的數(shù)據(jù)挖掘算法,采用了類分布鏈表來改進(jìn)傳統(tǒng)的數(shù)據(jù)挖掘算法,使得該算法能直接處理海量數(shù)據(jù)集,實(shí)現(xiàn)處理超大規(guī)模數(shù)據(jù)集的目標(biāo)。系統(tǒng)采用并行計(jì)算的核心思想,基于動(dòng)態(tài)聚類的并行離散化算法提出的分布確定類分布鏈表的方法,有效解決了系統(tǒng)內(nèi)存限制的問題。同時(shí),提高了基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行效率。

參考文獻(xiàn)

[1] 黃朝輝.基于變精度粗糙集的數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(4):3?4.

[2] 要照華,閆宏印.基于粗糙集的海量數(shù)據(jù)挖掘[J].機(jī)械管理開發(fā),2010,25(1):17?18.

[3] 石凱.基于粗糙集理論的屬性約簡(jiǎn)與決策樹分類算法研究[D].大連:大連海事大學(xué),2014:22?25.

[4] 劉華元,袁琴琴,王保保.并行數(shù)據(jù)挖掘算法綜述[J].電子科技,2006(1):65?68.

[5] 陳貞,邢笑雪.粗糙集連續(xù)屬性離散化的k均值方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(5):642?646.

[6] CORNELIS C, KRYSZKIEWICZ M, SLEZAK D, et al. Rough sets and current trends in soft computing [M]. Berlin: Springer, 2014: 11?15.

[7] 劉建.并行程序設(shè)計(jì)方法學(xué)[M].武漢:華中科技大學(xué)出版社,2000:11?13.

[8] 陳小燕.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015,38(20):11?14.

主站蜘蛛池模板: 国产精品夜夜嗨视频免费视频| 九九线精品视频在线观看| 日韩精品一区二区三区大桥未久 | av一区二区三区高清久久| 麻豆国产精品| AV不卡国产在线观看| 伊人网址在线| 亚洲人成日本在线观看| 久久久波多野结衣av一区二区| 亚洲看片网| 亚洲无码在线午夜电影| 熟女成人国产精品视频| 91热爆在线| 日韩激情成人| 欧美精品在线免费| 欧美成人二区| 亚洲无码精品在线播放| 亚洲一区二区三区国产精华液| 日韩久草视频| 99热在线只有精品| 尤物午夜福利视频| 日本一区高清| 中文字幕亚洲精品2页| 欧美翘臀一区二区三区 | 538精品在线观看| 久久网综合| www.av男人.com| 国产成人一区在线播放| 在线国产三级| 欧美中文字幕一区| 亚洲av无码专区久久蜜芽| 免费观看无遮挡www的小视频| 国产欧美日韩综合在线第一| 国产一区在线视频观看| 91精品人妻互换| 中美日韩在线网免费毛片视频| 亚洲国产成人精品一二区 | 国产色偷丝袜婷婷无码麻豆制服| 久操中文在线| 中文字幕欧美日韩| 久久久久久尹人网香蕉| 国产18页| AⅤ色综合久久天堂AV色综合| 40岁成熟女人牲交片免费| 91国内外精品自在线播放| 中文国产成人久久精品小说| 欧美日韩综合网| 亚洲视频a| 18禁黄无遮挡网站| 免费国产一级 片内射老| 欧美成人第一页| 国产精品成人一区二区| 亚洲午夜福利在线| 91久久精品国产| 国产在线视频导航| 国产人在线成免费视频| 亚洲熟妇AV日韩熟妇在线| 91小视频在线播放| 四虎国产成人免费观看| 99久久国产综合精品2020| 中文字幕第4页| 国产视频久久久久| 成人永久免费A∨一级在线播放| 91视频国产高清| 青草精品视频| 色欲综合久久中文字幕网| 中文字幕亚洲综久久2021| 日本成人精品视频| 国产精品尤物铁牛tv | 宅男噜噜噜66国产在线观看| 亚洲熟女中文字幕男人总站| 久久久久夜色精品波多野结衣| 欧美一区二区福利视频| av大片在线无码免费| 99国产在线视频| 91蜜芽尤物福利在线观看| 亚洲国产天堂久久综合| 亚洲精品自拍区在线观看| 九九热在线视频| 国产一区二区丝袜高跟鞋| 综合亚洲网| 欧美一区二区三区国产精品|