基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法

2018-03-10 00:35:19呂丹龍華高杰邵玉斌杜慶治

軟件導(dǎo)刊 2018年2期

呂丹+龍華+高杰+邵玉斌+杜慶治

摘要：針對(duì)不均勻數(shù)據(jù)集的抽樣問題，已有隨機(jī)抽樣算法、基于固定網(wǎng)格劃分的單維度算法、基于可變網(wǎng)格劃分的單維度算法，但仍無法更好地反映數(shù)據(jù)分布特征問題。在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中，數(shù)據(jù)規(guī)模越來越大，數(shù)據(jù)類型也越來越復(fù)雜，存在系統(tǒng)整體開銷大、時(shí)間運(yùn)行成本高等問題。提出并實(shí)現(xiàn)了基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法（IDDS），通過引入網(wǎng)格單元密度和三角函數(shù)，從而達(dá)到較好的密度偏差抽樣效果。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，IDDS算法抽樣效果更好，提取的樣本質(zhì)量更高，有效保證了不均勻數(shù)據(jù)的分布特征。與原始的密度偏差抽樣算法（DDS）相比，應(yīng)用IDDS算法的效率更高。

關(guān)鍵詞：密度偏差抽樣算法（DDS）；POI信息；數(shù)據(jù)挖掘；三角函數(shù)

DOIDOI：10.11907/rjdk.172395

中圖分類號(hào)：TP312

文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-7800（2018）002-0077-03

0 引言

在大數(shù)據(jù)挖掘過程中，數(shù)據(jù)挖掘效率是評(píng)估數(shù)據(jù)挖掘技術(shù)的關(guān)鍵因素之一，而效率的提高涉及到許多方面。面對(duì)海量數(shù)據(jù)，合理有效地利用采樣技術(shù)可以在丟失少量數(shù)據(jù)的同時(shí)，提高整體挖掘效率[1]。密度偏差抽樣方法（DDS）是一種新的抽樣方法[2]，具有良好的抽樣效果。它是根據(jù)原始數(shù)據(jù)的分布特征來確定樣本數(shù)據(jù)[3]，所建立的樣本較好地實(shí)現(xiàn)了樣本數(shù)據(jù)和原始數(shù)據(jù)一致的分布特征，樣本質(zhì)量高，抗噪聲能力強(qiáng)[4-5]。它能夠自由切換高密度區(qū)或低密度區(qū)，比隨機(jī)抽樣算法具有更好的約簡(jiǎn)效果。目前，劃分原始數(shù)據(jù)集組時(shí)，從網(wǎng)格類型角度看[6]，可以分為固定網(wǎng)格和可變網(wǎng)格兩種類型。固定網(wǎng)格劃分技術(shù)比較簡(jiǎn)單，隨著數(shù)據(jù)維度和數(shù)量的增加，系統(tǒng)開銷增加，可用性也因此減少；可變網(wǎng)格劃分技術(shù)非常靈活[7]，在劃分過程中，可以根據(jù)各維數(shù)據(jù)的分布特征進(jìn)行自動(dòng)劃分，不僅能有效地減少網(wǎng)格數(shù)，還能代表原始數(shù)據(jù)的分布特征[8]。鑒于此，本文在DDS算法基礎(chǔ)上，提出了一種基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法（IDDS），通過引入網(wǎng)格單元密度和三角函數(shù)，從而達(dá)到較好的密度偏差抽樣效果。仿真實(shí)驗(yàn)結(jié)果表明，IDDS算法抽樣效果更好，提取的樣本質(zhì)量更高，有效保證了不均勻數(shù)據(jù)的分布特征。

1 密度偏差抽樣（DDS）原理

DDS算法[9]將原始數(shù)據(jù)集T分為不同的組Di，每個(gè)組Di中的數(shù)據(jù)個(gè)數(shù)為該組的密度，然后根據(jù)以下原理抽樣：劃分后的同一組內(nèi)各數(shù)據(jù)點(diǎn)被等概率抽?。徊煌〗M的抽樣概率由各組密度決定；樣本集的分布特征與原始數(shù)據(jù)集一致；預(yù)先設(shè)定樣本數(shù)量大小。

2 算法介紹

2.1 隨機(jī)抽樣算法（RS）

隨機(jī)抽樣算法是對(duì)調(diào)查對(duì)象的每個(gè)部分進(jìn)行同等概率的抽樣，這是一種基于機(jī)會(huì)平等原則的抽樣調(diào)查，稱為“等概率”[10]。其有4種形式，包括簡(jiǎn)單隨機(jī)抽樣算法、等距抽樣算法、類型抽樣算法和整群抽樣算法。一般而言，如果一個(gè)總體包含N個(gè)個(gè)體，通過逐個(gè)抽取的方法從每個(gè)樣本中提取樣本，并且每次提取時(shí)每個(gè)個(gè)體被抽到的概率相等，則將這種方法稱為簡(jiǎn)單隨機(jī)抽樣算法[11]。

2.2 固定網(wǎng)格劃分的密度偏差抽樣方法（FMDDS）

固定網(wǎng)格劃分是將原始數(shù)據(jù)集T中的各個(gè)維度劃分成等長(zhǎng)且互不相交的D個(gè)區(qū)間段，每個(gè)維度上劃分的區(qū)間數(shù)D相同（等長(zhǎng)度網(wǎng)格劃分）。一般情況下，根據(jù)實(shí)驗(yàn)結(jié)果或用戶經(jīng)驗(yàn)設(shè)置D的大小。

2.3 可變網(wǎng)格劃分的密度偏差抽樣方法（VDDS）

可變網(wǎng)格比固定網(wǎng)格劃分更為靈活[12]，劃分后的網(wǎng)格更能代表原始數(shù)據(jù)的分布特性。其基本思想是，首先根據(jù)數(shù)值大小對(duì)原始數(shù)據(jù)集T中每個(gè)維度的數(shù)據(jù)進(jìn)行排序（降序或升序），其次是等深度劃分排序后的數(shù)據(jù)，劃分成多個(gè)網(wǎng)格單元，然后計(jì)算網(wǎng)格單元的密度信息，并通過比較合并各維度上相似密度的相鄰網(wǎng)格單元[13]。在此基礎(chǔ)上，使最后形成的網(wǎng)格空間中的網(wǎng)格個(gè)數(shù)有很大不同。

3 基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法（IDDS）

3.1 算法思想

在DDS原理中，參數(shù)k是控制全局的參數(shù)，其數(shù)值對(duì)最后采樣結(jié)果有著重要影響。根據(jù)現(xiàn)有相關(guān)文獻(xiàn)的研究結(jié)果來看，參數(shù)k通常默認(rèn)為固定值0.5。參數(shù)k的固定設(shè)置有很大的局限性，主要體現(xiàn)在難以適應(yīng)于各類數(shù)據(jù)集的固定參數(shù)。在本文中，通過引入網(wǎng)格密度和三角函數(shù)來優(yōu)化參數(shù)k，與固定值參數(shù)k相比，改進(jìn)后的參數(shù)k具有更好的抽樣效果。通過設(shè)置相應(yīng)函數(shù)，在s、t不變的情況下，根據(jù)網(wǎng)格密度mi來調(diào)整參數(shù)k大小，即網(wǎng)格單元密度越大，網(wǎng)格采樣樣本越多，修改的參數(shù)k如下：

3.2 算法實(shí)現(xiàn)

4 實(shí)驗(yàn)過程及結(jié)果

4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

為了驗(yàn)證提出的IDDS算法的優(yōu)越性，基于Matlab2009b仿真工具對(duì)不均勻數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和分析，實(shí)現(xiàn)密度偏差抽樣的計(jì)算。實(shí)驗(yàn)環(huán)境為一臺(tái)Windows 8.0操作系統(tǒng)的PC機(jī)，1.6GHz的Intel Core i5處理器和4GB的RAM。

實(shí)驗(yàn)中的不均勻數(shù)據(jù)集是通過Matlab中相關(guān)函數(shù)隨機(jī)產(chǎn)生的，產(chǎn)生了3組數(shù)據(jù)集，包括6 000條矩形數(shù)據(jù)集，9 000條三角形數(shù)據(jù)集，5 000條橢圓形數(shù)據(jù)集，總共20 000條數(shù)據(jù)，各數(shù)據(jù)集間密度都有差異。

4.2 實(shí)驗(yàn)過程

本文選取了隨機(jī)抽樣算法（RS）、基于可變網(wǎng)格劃分的單維密度偏差抽樣算法（VDDS）以及基于可變網(wǎng)格劃分改進(jìn)的單維密度偏差抽樣算法（IDDS）進(jìn)行實(shí)驗(yàn)分析，通過算法的運(yùn)行時(shí)間和抽樣結(jié)果比較，驗(yàn)證IDDS算法的有效性。除RS算法外，其余兩種算法在網(wǎng)格劃分前各維度都根據(jù)式（14）～（16）進(jìn)行歸一化處理，然后計(jì)算歸一化后的均方差，最后選取最小均方差維度劃分可變網(wǎng)格。根據(jù)改進(jìn)算法，通過仿真測(cè)試分析，本文中的s、t分別設(shè)置為0.5、0.8，改進(jìn)后的參數(shù)k為：ki=0.5-0.8cos（miπ2m），在VDDS算法中k設(shè)置為0.5。endprint

4.3 實(shí)驗(yàn)結(jié)果及分析

為了保證實(shí)驗(yàn)結(jié)果的公正性，對(duì)50次抽樣結(jié)果進(jìn)行平均值計(jì)算，實(shí)驗(yàn)結(jié)果如表1、圖2所示。

表1顯示了3種算法的抽樣結(jié)果，圖2則顯示了3種算法的運(yùn)行時(shí)間。由表1可知，IDDS算法的抽樣效果明顯比VDDS算法、RS算法好，抽取樣本質(zhì)量更高，有效保持了原始數(shù)據(jù)集的分布特征，且抗噪聲能力更強(qiáng)。由圖2可知，RS算法相比于其它算法，運(yùn)算量最小，所以運(yùn)行時(shí)間最短。另外，IDDS算法運(yùn)行時(shí)間大于VDDS算法。由此可見，改進(jìn)后的算法運(yùn)算量相對(duì)于未改進(jìn)前略大，運(yùn)算時(shí)間也略多。綜上述，本文提出的IDDS算法雖然在運(yùn)行時(shí)間上存在一定劣勢(shì)，但從樣本質(zhì)量看，仍具有一定的合理性和可行性。

5 結(jié)語

本文基于不均勻數(shù)據(jù)探索一種改進(jìn)的密度偏差抽樣算法（IDDS），使用Matlab中的相關(guān)函數(shù)隨機(jī)產(chǎn)生不均勻數(shù)據(jù)集，對(duì)其進(jìn)行歸一化處理，計(jì)算均方差，選取最小均方差維度劃分可變網(wǎng)格。在保證數(shù)據(jù)間關(guān)聯(lián)性不被破壞的同時(shí)，確保了樣本數(shù)據(jù)和原始數(shù)據(jù)的一致性分布特征，解決了不均勻數(shù)據(jù)集的抽樣問題，最后通過仿真實(shí)驗(yàn)驗(yàn)證并分析了算法的合理性。

參考文獻(xiàn)：

[1] 何苗.一種基于DBS的聚類算法[J].重慶電子工程職業(yè)學(xué)院學(xué)報(bào)，2009，18（3）：83-85.

[2] 余建橋，葛繼科，李婭.一種基于密度偏差抽樣的孤立點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)科學(xué)，2004，31（10）：206-208.

[3] XIAO-BO CHI，XIN-CHUN JIA，QING-LONG HAN.Sampled-data stabilization for takagi-sugeno fuzzy systems using membership function deviations[C].IECON 2012-38th Annual Conference on IEEE Industrial Electronics Society，2012：2476-2481.

[4] PEIGUO FU，XIAOHUI HU.Biased-sampling of density-based local outlier detection algorithm[J].2016 12th International Conference on Natural Computation，F(xiàn)uzzy Systems and Knowledge Discovery （ICNC-FSKD），2016：1246-1253.

[5] KITTISAK KERDPRASOP，NITTAYA KERDPRASOP，JUNPING SUN.Density biased reservoir sampling for clustering[J].Artificial Intelligence and Applications，2005：95-100.

[6] 鄧杰.聚類算法在大規(guī)模高維數(shù)據(jù)集上的應(yīng)用研究[D].無錫：江南大學(xué)，2015.

[7] 盛開元，錢雪忠，吳秦.基于可變網(wǎng)格劃分的密度偏差抽樣算法[J].計(jì)算機(jī)應(yīng)用，2013，33（9）：2419-2422.

[8] 余波，朱東華，劉嵩，等.密度偏差抽樣技術(shù)在聚類算法中的應(yīng)用研究[J].計(jì)算機(jī)科學(xué)，2009，36（2）：207-210.

[9] 熊開玲，彭俊杰，楊曉飛，等.基于核密度估計(jì)的K-means聚類優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展，2017，27（2）：1-5.

[10] 周慶元.PPS和簡(jiǎn)單隨機(jī)抽樣估計(jì)效率的實(shí)證檢驗(yàn)[J].統(tǒng)計(jì)與決策，2014（1）：14-17.

[11] 劉愛芹.隨機(jī)抽樣中樣本容量確定的影響因素分析[J].山東財(cái)政學(xué)院學(xué)報(bào)，2006（5）：60-64.

[12] 潘春燕，吳有富，李方.一種基于可變網(wǎng)格劃分的密度偏差抽樣技術(shù)及其在聚類中的應(yīng)用研究[J].凱里學(xué)院學(xué)報(bào)，2017，35（3）：16-20.

[13] 胡志冬，任永功，楊雪.基于滑動(dòng)窗口密度聚類的數(shù)據(jù)流偏倚采樣算法[J].計(jì)算機(jī)科學(xué)，2013，40（9）：254-256.

[14] 紀(jì)良浩.基于密度偏差抽樣的聚類算法研究[J].重慶郵電大學(xué)學(xué)報(bào)：自然科學(xué)版，2007，19（6）：729-732.endprint