999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法

2018-03-10 00:35:19呂丹龍華高杰邵玉斌杜慶治
軟件導(dǎo)刊 2018年2期
關(guān)鍵詞:數(shù)據(jù)挖掘

呂丹+龍華+高杰+邵玉斌+杜慶治

摘 要:針對(duì)不均勻數(shù)據(jù)集的抽樣問題,已有隨機(jī)抽樣算法、基于固定網(wǎng)格劃分的單維度算法、基于可變網(wǎng)格劃分的單維度算法,但仍無法更好地反映數(shù)據(jù)分布特征問題。在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,數(shù)據(jù)規(guī)模越來越大,數(shù)據(jù)類型也越來越復(fù)雜,存在系統(tǒng)整體開銷大、時(shí)間運(yùn)行成本高等問題。提出并實(shí)現(xiàn)了基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法(IDDS),通過引入網(wǎng)格單元密度和三角函數(shù),從而達(dá)到較好的密度偏差抽樣效果。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),IDDS算法抽樣效果更好,提取的樣本質(zhì)量更高,有效保證了不均勻數(shù)據(jù)的分布特征。與原始的密度偏差抽樣算法(DDS)相比,應(yīng)用IDDS算法的效率更高。

關(guān)鍵詞:密度偏差抽樣算法(DDS);POI信息;數(shù)據(jù)挖掘;三角函數(shù)

DOIDOI:10.11907/rjdk.172395

中圖分類號(hào):TP312

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)002-0077-03

0 引言

在大數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘效率是評(píng)估數(shù)據(jù)挖掘技術(shù)的關(guān)鍵因素之一,而效率的提高涉及到許多方面。面對(duì)海量數(shù)據(jù),合理有效地利用采樣技術(shù)可以在丟失少量數(shù)據(jù)的同時(shí),提高整體挖掘效率[1]。密度偏差抽樣方法(DDS)是一種新的抽樣方法[2],具有良好的抽樣效果。它是根據(jù)原始數(shù)據(jù)的分布特征來確定樣本數(shù)據(jù)[3],所建立的樣本較好地實(shí)現(xiàn)了樣本數(shù)據(jù)和原始數(shù)據(jù)一致的分布特征,樣本質(zhì)量高,抗噪聲能力強(qiáng)[4-5]。它能夠自由切換高密度區(qū)或低密度區(qū),比隨機(jī)抽樣算法具有更好的約簡(jiǎn)效果。目前,劃分原始數(shù)據(jù)集組時(shí),從網(wǎng)格類型角度看[6],可以分為固定網(wǎng)格和可變網(wǎng)格兩種類型。固定網(wǎng)格劃分技術(shù)比較簡(jiǎn)單,隨著數(shù)據(jù)維度和數(shù)量的增加,系統(tǒng)開銷增加,可用性也因此減少;可變網(wǎng)格劃分技術(shù)非常靈活[7],在劃分過程中,可以根據(jù)各維數(shù)據(jù)的分布特征進(jìn)行自動(dòng)劃分,不僅能有效地減少網(wǎng)格數(shù),還能代表原始數(shù)據(jù)的分布特征[8]。鑒于此,本文在DDS算法基礎(chǔ)上,提出了一種基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法(IDDS),通過引入網(wǎng)格單元密度和三角函數(shù),從而達(dá)到較好的密度偏差抽樣效果。仿真實(shí)驗(yàn)結(jié)果表明,IDDS算法抽樣效果更好,提取的樣本質(zhì)量更高,有效保證了不均勻數(shù)據(jù)的分布特征。

1 密度偏差抽樣(DDS)原理

DDS算法[9]將原始數(shù)據(jù)集T分為不同的組Di,每個(gè)組Di中的數(shù)據(jù)個(gè)數(shù)為該組的密度,然后根據(jù)以下原理抽樣:劃分后的同一組內(nèi)各數(shù)據(jù)點(diǎn)被等概率抽?。徊煌〗M的抽樣概率由各組密度決定;樣本集的分布特征與原始數(shù)據(jù)集一致;預(yù)先設(shè)定樣本數(shù)量大小。

2 算法介紹

2.1 隨機(jī)抽樣算法(RS)

隨機(jī)抽樣算法是對(duì)調(diào)查對(duì)象的每個(gè)部分進(jìn)行同等概率的抽樣,這是一種基于機(jī)會(huì)平等原則的抽樣調(diào)查,稱為“等概率”[10]。其有4種形式,包括簡(jiǎn)單隨機(jī)抽樣算法、等距抽樣算法、類型抽樣算法和整群抽樣算法。一般而言,如果一個(gè)總體包含N個(gè)個(gè)體,通過逐個(gè)抽取的方法從每個(gè)樣本中提取樣本,并且每次提取時(shí)每個(gè)個(gè)體被抽到的概率相等,則將這種方法稱為簡(jiǎn)單隨機(jī)抽樣算法[11]。

2.2 固定網(wǎng)格劃分的密度偏差抽樣方法(FMDDS)

固定網(wǎng)格劃分是將原始數(shù)據(jù)集T中的各個(gè)維度劃分成等長(zhǎng)且互不相交的D個(gè)區(qū)間段,每個(gè)維度上劃分的區(qū)間數(shù)D相同(等長(zhǎng)度網(wǎng)格劃分)。一般情況下,根據(jù)實(shí)驗(yàn)結(jié)果或用戶經(jīng)驗(yàn)設(shè)置D的大小。

2.3 可變網(wǎng)格劃分的密度偏差抽樣方法(VDDS)

可變網(wǎng)格比固定網(wǎng)格劃分更為靈活[12],劃分后的網(wǎng)格更能代表原始數(shù)據(jù)的分布特性。其基本思想是,首先根據(jù)數(shù)值大小對(duì)原始數(shù)據(jù)集T中每個(gè)維度的數(shù)據(jù)進(jìn)行排序(降序或升序),其次是等深度劃分排序后的數(shù)據(jù),劃分成多個(gè)網(wǎng)格單元,然后計(jì)算網(wǎng)格單元的密度信息,并通過比較合并各維度上相似密度的相鄰網(wǎng)格單元[13]。在此基礎(chǔ)上,使最后形成的網(wǎng)格空間中的網(wǎng)格個(gè)數(shù)有很大不同。

3 基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法(IDDS)

3.1 算法思想

在DDS原理中,參數(shù)k是控制全局的參數(shù),其數(shù)值對(duì)最后采樣結(jié)果有著重要影響。根據(jù)現(xiàn)有相關(guān)文獻(xiàn)的研究結(jié)果來看,參數(shù)k通常默認(rèn)為固定值0.5。參數(shù)k的固定設(shè)置有很大的局限性,主要體現(xiàn)在難以適應(yīng)于各類數(shù)據(jù)集的固定參數(shù)。在本文中,通過引入網(wǎng)格密度和三角函數(shù)來優(yōu)化參數(shù)k,與固定值參數(shù)k相比,改進(jìn)后的參數(shù)k具有更好的抽樣效果。通過設(shè)置相應(yīng)函數(shù),在s、t不變的情況下,根據(jù)網(wǎng)格密度mi來調(diào)整參數(shù)k大小,即網(wǎng)格單元密度越大,網(wǎng)格采樣樣本越多,修改的參數(shù)k如下:

3.2 算法實(shí)現(xiàn)

4 實(shí)驗(yàn)過程及結(jié)果

4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

為了驗(yàn)證提出的IDDS算法的優(yōu)越性,基于Matlab2009b仿真工具對(duì)不均勻數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和分析,實(shí)現(xiàn)密度偏差抽樣的計(jì)算。實(shí)驗(yàn)環(huán)境為一臺(tái)Windows 8.0操作系統(tǒng)的PC機(jī),1.6GHz的Intel Core i5處理器和4GB的RAM。

實(shí)驗(yàn)中的不均勻數(shù)據(jù)集是通過Matlab中相關(guān)函數(shù)隨機(jī)產(chǎn)生的,產(chǎn)生了3組數(shù)據(jù)集,包括6 000條矩形數(shù)據(jù)集,9 000條三角形數(shù)據(jù)集,5 000條橢圓形數(shù)據(jù)集,總共20 000條數(shù)據(jù),各數(shù)據(jù)集間密度都有差異。

4.2 實(shí)驗(yàn)過程

本文選取了隨機(jī)抽樣算法(RS)、基于可變網(wǎng)格劃分的單維密度偏差抽樣算法(VDDS)以及基于可變網(wǎng)格劃分改進(jìn)的單維密度偏差抽樣算法(IDDS)進(jìn)行實(shí)驗(yàn)分析,通過算法的運(yùn)行時(shí)間和抽樣結(jié)果比較,驗(yàn)證IDDS算法的有效性。除RS算法外,其余兩種算法在網(wǎng)格劃分前各維度都根據(jù)式(14)~(16)進(jìn)行歸一化處理,然后計(jì)算歸一化后的均方差,最后選取最小均方差維度劃分可變網(wǎng)格。根據(jù)改進(jìn)算法,通過仿真測(cè)試分析,本文中的s、t分別設(shè)置為0.5、0.8,改進(jìn)后的參數(shù)k為:ki=0.5-0.8cos(miπ2m),在VDDS算法中k設(shè)置為0.5。endprint

4.3 實(shí)驗(yàn)結(jié)果及分析

為了保證實(shí)驗(yàn)結(jié)果的公正性,對(duì)50次抽樣結(jié)果進(jìn)行平均值計(jì)算,實(shí)驗(yàn)結(jié)果如表1、圖2所示。

表1顯示了3種算法的抽樣結(jié)果,圖2則顯示了3種算法的運(yùn)行時(shí)間。由表1可知,IDDS算法的抽樣效果明顯比VDDS算法、RS算法好,抽取樣本質(zhì)量更高,有效保持了原始數(shù)據(jù)集的分布特征,且抗噪聲能力更強(qiáng)。由圖2可知,RS算法相比于其它算法,運(yùn)算量最小,所以運(yùn)行時(shí)間最短。另外,IDDS算法運(yùn)行時(shí)間大于VDDS算法。由此可見,改進(jìn)后的算法運(yùn)算量相對(duì)于未改進(jìn)前略大,運(yùn)算時(shí)間也略多。綜上述,本文提出的IDDS算法雖然在運(yùn)行時(shí)間上存在一定劣勢(shì),但從樣本質(zhì)量看,仍具有一定的合理性和可行性。

5 結(jié)語

本文基于不均勻數(shù)據(jù)探索一種改進(jìn)的密度偏差抽樣算法(IDDS),使用Matlab中的相關(guān)函數(shù)隨機(jī)產(chǎn)生不均勻數(shù)據(jù)集,對(duì)其進(jìn)行歸一化處理,計(jì)算均方差,選取最小均方差維度劃分可變網(wǎng)格。在保證數(shù)據(jù)間關(guān)聯(lián)性不被破壞的同時(shí),確保了樣本數(shù)據(jù)和原始數(shù)據(jù)的一致性分布特征,解決了不均勻數(shù)據(jù)集的抽樣問題,最后通過仿真實(shí)驗(yàn)驗(yàn)證并分析了算法的合理性。

參考文獻(xiàn):

[1] 何苗.一種基于DBS的聚類算法[J].重慶電子工程職業(yè)學(xué)院學(xué)報(bào),2009,18(3):83-85.

[2] 余建橋,葛繼科,李婭.一種基于密度偏差抽樣的孤立點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2004,31(10):206-208.

[3] XIAO-BO CHI,XIN-CHUN JIA,QING-LONG HAN.Sampled-data stabilization for takagi-sugeno fuzzy systems using membership function deviations[C].IECON 2012-38th Annual Conference on IEEE Industrial Electronics Society,2012:2476-2481.

[4] PEIGUO FU,XIAOHUI HU.Biased-sampling of density-based local outlier detection algorithm[J].2016 12th International Conference on Natural Computation,F(xiàn)uzzy Systems and Knowledge Discovery (ICNC-FSKD),2016:1246-1253.

[5] KITTISAK KERDPRASOP,NITTAYA KERDPRASOP,JUNPING SUN.Density biased reservoir sampling for clustering[J].Artificial Intelligence and Applications,2005:95-100.

[6] 鄧杰.聚類算法在大規(guī)模高維數(shù)據(jù)集上的應(yīng)用研究[D].無錫:江南大學(xué),2015.

[7] 盛開元,錢雪忠,吳秦.基于可變網(wǎng)格劃分的密度偏差抽樣算法[J].計(jì)算機(jī)應(yīng)用,2013,33(9):2419-2422.

[8] 余波,朱東華,劉嵩,等.密度偏差抽樣技術(shù)在聚類算法中的應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2009,36(2):207-210.

[9] 熊開玲,彭俊杰,楊曉飛,等.基于核密度估計(jì)的K-means聚類優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(2):1-5.

[10] 周慶元.PPS和簡(jiǎn)單隨機(jī)抽樣估計(jì)效率的實(shí)證檢驗(yàn)[J].統(tǒng)計(jì)與決策,2014(1):14-17.

[11] 劉愛芹.隨機(jī)抽樣中樣本容量確定的影響因素分析[J].山東財(cái)政學(xué)院學(xué)報(bào),2006(5):60-64.

[12] 潘春燕,吳有富,李方.一種基于可變網(wǎng)格劃分的密度偏差抽樣技術(shù)及其在聚類中的應(yīng)用研究[J].凱里學(xué)院學(xué)報(bào),2017,35(3):16-20.

[13] 胡志冬,任永功,楊雪.基于滑動(dòng)窗口密度聚類的數(shù)據(jù)流偏倚采樣算法[J].計(jì)算機(jī)科學(xué),2013,40(9):254-256.

[14] 紀(jì)良浩.基于密度偏差抽樣的聚類算法研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,19(6):729-732.endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 免费播放毛片| 欧美色图第一页| 在线观看视频99| 精品视频91| 亚洲系列中文字幕一区二区| 在线国产资源| 97亚洲色综久久精品| 国产全黄a一级毛片| 亚洲国内精品自在自线官| 99福利视频导航| 亚洲精品桃花岛av在线| 日韩中文无码av超清| 中文国产成人精品久久| 中文字幕有乳无码| 日韩高清无码免费| 亚洲中文久久精品无玛| 91精品国产情侣高潮露脸| 人妻21p大胆| 国产免费自拍视频| 97视频免费在线观看| 91亚瑟视频| 亚洲bt欧美bt精品| 中国国语毛片免费观看视频| 四虎国产精品永久一区| 国产一级做美女做受视频| 亚洲最新在线| 亚洲三级电影在线播放| 久久精品中文无码资源站| 国产成人免费高清AⅤ| 少妇露出福利视频| 国内精品视频区在线2021| 久久久黄色片| 欧美亚洲欧美区| 日本午夜三级| 国产精品妖精视频| 欧洲成人在线观看| 另类重口100页在线播放| 伊人婷婷色香五月综合缴缴情| Jizz国产色系免费| 国产一区二区三区免费观看| 亚洲国产欧洲精品路线久久| 亚洲精品片911| 中文字幕在线永久在线视频2020| 久久网欧美| 国产成人综合亚洲欧洲色就色| 香蕉蕉亚亚洲aav综合| 四虎国产永久在线观看| 亚洲美女久久| 日韩小视频网站hq| 国产成人精品第一区二区| 奇米影视狠狠精品7777| 亚洲大学生视频在线播放| 三区在线视频| 国产日韩欧美在线播放| 国产在线观看一区精品| 中文国产成人精品久久| 久久香蕉国产线看观看亚洲片| 亚洲美女一区| 97视频精品全国免费观看| 久久综合婷婷| 青青青国产视频| 天天躁日日躁狠狠躁中文字幕| 在线亚洲精品福利网址导航| 久久精品人妻中文系列| 日本欧美视频在线观看| 久久综合色视频| 欧美精品影院| 夜夜操国产| 国产精品无码AⅤ在线观看播放| 亚洲欧美精品日韩欧美| 九九九久久国产精品| 亚洲中文字幕在线精品一区| 欧美在线国产| 粉嫩国产白浆在线观看| 在线毛片免费| 国产成人精品免费av| 国产在线观看成人91| 综合色亚洲| 中文字幕乱妇无码AV在线| 久久五月视频| 免费看一级毛片波多结衣| 国产成人综合在线观看|