999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空間自相關性和模糊集的空間數據噪聲點檢測算法

2016-09-26 07:29:52朱付保徐顯景白慶春朱顥東
計算機應用與軟件 2016年3期
關鍵詞:數據挖掘檢測

朱付保 徐顯景 白慶春 朱顥東

(鄭州輕工業學院計算機與通信工程學院 河南 鄭州 450002)

?

基于空間自相關性和模糊集的空間數據噪聲點檢測算法

朱付保徐顯景白慶春朱顥東*

(鄭州輕工業學院計算機與通信工程學院河南 鄭州 450002)

大數據時代數據紛繁復雜,同時在數據挖掘過程中數據質量又至關重要,數據質量的高低將直接影響數據挖掘結果的好壞,但現實中數據缺失和噪聲數據的現象在所難免。針對上述問題,通過引入空間對象的自相關性理論和模糊集理論,提出一種基于空間自相關性和模糊集的空間數據噪聲點檢測算法。該算法首先運用鄰域對象的空間自相關性理論,計算出特定對象與鄰域內其他對象的距離,進而將距離以模糊隸屬度的概念予以表達,最后通過與該屬性的置信水平進行比較,以此來判定噪聲數據。理論分析和實驗對比結果均表明,該算法對于處理空間數據噪聲點問題是有效可行的。

噪聲數據數據預處理空間自相關性模糊集

0 引 言

隨著空間數據在社會、生活等各方面應用的深入,從空間數據庫中自動或半自動地挖掘隱藏的關系模式,進而根據現有關系模式預測空間對象未來可能發生的行為已變得更具價值。伴隨著大數據時代的到來,如何從大數據中提煉出大價值已成為數據挖掘領域研究的重點[1]。與此同時,數據的質量也變得尤為重要,數據預處理則是數據挖掘過程中一個重要步驟和數據質量提升的關鍵手段[2]。空間數據挖掘相較于傳統的數據挖掘具有更為復雜的數據特點,空間數據都不是孤零零的存在,一種事物總是與其他事物相關聯,而且距離相近的事物其相關性要大于距離較遠的事物,因此在特定的應用領域要更加注重空間數據對象間的自相關性問題。在大數據時代,數據類型更加多樣,規模更為龐大,數據間的關聯也更為復雜。在數據挖掘過程中,如果缺失數據處理不當,那么與之相關的有價值的知識也常常會被忽略[3]。大而低質量的數據有時不僅不能支撐有效的數據挖掘,反而還會給數據挖掘的結果造成不同程度的干擾,簡單地認為數據越多越好而不關心數據的質量會使得挖掘的結果變得難以預料[4]。

但是在現實世界中,由于人為的或自然的因素造成的數據缺失或噪聲數據在所難免,噪聲數據或缺失數據不可避免地會對空間數據挖掘的結果產生影響。在這方面許多人都曾做過比較深入的研究,文獻[5]對傳統的數據質量評估方法和數據質量提高技術做了分析比較,文獻[6]則著重分析了領域無關的數據清洗的特點,并對相關方法進行了分類介紹。異常數據檢測主要可以分為四類:基于分布、基于聚類、基于距離和基于密度的方法[7]。文獻[8]提出了基于空間局部偏離因子的離群點檢測算法,該算法運用空間局部偏離因子來衡量離群點問題,但對于給定對象鄰域范圍的定義采用的是對象的非空間屬性帶權距離小于特定值k的所有空間鄰居的集合,沒能充分利用空間對象在空間位置上的自相關性特點,而且在數據量大的情況下會造成很大的計算壓力。

為了有效控制數據質量,提高檢測的準確率和效率,本文通過研究空間數據的自相關性理論和模糊集理論在解決模糊問題方面的優勢,提出基于空間自相關性和模糊集的空間數據噪聲點檢測算法。該算法對空間數據離群點的度量方式進行了進一步的改進,以空間對象的空間位置作為對象鄰域劃定的標準,進而將該對象對于領域內其他對象的隸屬度和置信水平進行比較判定該對象的可靠性。

1 空間數據消噪模型

模糊集理論認為元素總是以一定的程度隸屬于某一集合,也可能是以不同的程度隸屬于多個集合,而非經典數學中的二元性,使得元素的隸屬度概念具有一種亦此亦彼的模糊性[9,10]。空間自相關描述的是一些變量在同一個分布區內的觀測數據之間潛在的相互依賴性關系。地理學第一定律指出任何事物與其他事物之間都是相關聯的,同時距離較近的事物比距離較遠的事物的關聯性更強[11,12]。對于空間數據庫而言,因為包含大量的空間信息,因此各數據元素之間的相關度比一般的業務型數據庫中數據的相關度更大,相互聯系更為緊密。本文據此提出了基于空間自相關性和模糊集理論的空間數據消噪模型。首先,計算指定對象與其鄰域內其他對象的平均距離;其次,在相似性概念的基礎上引入模糊集理論,在特定對象與鄰域內其他對象平均距離的基礎上定義其與領域內其他對象相似度的隸屬度函數;再次,根據計算所得的隸屬度與置信水平進行比較,在置信水平之內認定為可靠性數據,置信水平之外則認為是非可靠性數據;最后,依據對數據屬性的可靠性判斷,對非可靠性數據進行消噪處理。

在數據消噪處理過程中最重要而且最核心的問題是對數據噪聲點的檢測,所謂數據噪聲點指的是在數據集中與整體數據集或局部數據集有顯著異常或表現不一致的數據觀測點[13],本文基于空間自相關性和模糊集理論來進行噪聲點數據的判定。

空間對象的屬性數據與鄰域內相應屬性數據的距離,可以有效地表達數據對于鄰域數據的融入度。屬性空間中對象與鄰域空間內其他對象的距離越小,說明越相似,進而表明對象的數據可靠性越高;距離越大,表明對象與鄰域空間內其他對象的差異越大,進而說明該數據的可靠性越低,出現錯誤的可能性就越大。設包含N個空間對象{O1,O2,…,ON}的空間數據集O,每個空間對象Oi具有M個可度量特征屬性Oi={Oi1,Oi2,…,OiM},對象Oi的第k個特征屬性與其鄰域內對象Oj的第k個特征屬性的平均距離定義為:

(1)

(2)

(3)

2 基于自相關性和模糊集的空間數據消噪算法

2.1算法描述

通過對空間消噪模型的定義說明,基于空間自相關性和模糊集理論的空間數據消噪算法描述如下:

1) 初始化空間對象集合O,針對空間對象的M個可度量特征屬性,分別為每個屬性設置對應的鄰域半徑r、可靠性系數C和置信水平λ,以3*M的二維數組Arr形式存儲;

2) 將空間對象集合O中的所有對象投影到二維平面上;

3)FORi=1ToO.Length;

4)FORk=1ToM;

5) 令r=Arr[0][k-1],C=Arr[1][k-1],λ=Arr[2][k-1];

9)ELSE;

10)Continue;

11)ENDFOR;

12)ENDFOR;

2.2參數控制說明

3 實驗結果與分析

根據上文介紹的算法思想,本文以某機場及其附近地區2003年至2009年各監測點利用永久散射體點(PS)監測到的地面沉降量數據為例進行實驗。實驗的軟件環境是:MicrosoftWindows7操作系統;MicrosoftSQLServer2008數據庫;Microsoft.NETFramework4.0;算法的實現語言為C#。

實驗選取數據集中的經度、緯度和年均沉降量3個屬性進行,數據量為39 195條,在此數據集中隨機加入240條噪聲數據組成新的數據集,實驗中以數據噪聲點檢測率和噪聲點檢測的錯檢率來度量算法的準確性。實驗結果如表1所示。

表1 噪聲數據檢測結果

從表1中的實驗結果可以看出,本文提出的算法相對于整個數據集而言具有檢測率高、錯檢率低的特點。同時,可靠性系數C和置信水平λ對數據噪聲點檢測的結果影響比較明顯,在同一數據集的基礎上,可靠性系數和置信水平的改變會相應地改變所檢測到的噪聲點數據的數量,因此運用該算法進行空間數據消噪處理時,需要根據數據的特性選擇合適的可靠性系數和置信水平。

為了進一步驗證本文所提出算法的有效性,本文算法與LOF算法、SLDF算法分別從正檢率、錯檢率和算法執行時間三個方面進行了對比,對比結果如表2所示。實驗結果表明,在相同情況下,本文所提算法在檢測率和算法執行時間方面都要優于LOF算法和SLDF算法,并且適用于數據集規模較大的空間數據檢測。

表2 實驗結果對比

4 結 語

針對空間數據具有自相關性的特點和模糊集在解決模糊問題方面的優勢,本文提出了一種基于空間自相關性和模糊集理論的空間數據噪聲點檢測算法。該算法主要利用空間數據的自相關性,對數據對象的離群度度量方式進行了進一步改進,將對于某一點數據對象的判定借助于其鄰域內其他的數據對象來進行,進而通過可靠性系數得出該點相對于鄰域對象的隸屬度關系,通過隸屬度與置信度水平來檢測空間數據庫中可能存在的噪聲點數據。將該算法在實驗數據集上進行相關實驗,并與文獻[14]的LOF算法和文獻[8]的SLDF算法分別進行比較。理論分析與實驗結果表明,本文算法在檢測較大規模空間數據集的噪聲點問題時,具有較高的效率和準確率。

[1] 王樹良,丁剛毅,鐘鳴.大數據下的空間數據挖掘思考[J].中國電子科學研究院學報,2013,8(1):8-17.

[2] 汪偉,鄒璇,詹雪.論數據挖掘中的數據預處理技術[J].煤炭技術,2013,32(5):152-153.

[3] 武森,馮小東,單志廣.基于不完備數據聚類的缺失數據填補方法[J].計算機學報,2012,35(8):1727-1737.

[4] 靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013,7(6):35-42.

[5] 韓京宇,徐立臻,董逸生.數據質量研究綜述[J].計算機科學,2008,35(2):1-5.

[6] 曹建軍,刁興春,汪挺,等.領域無關數據清洗研究綜述[J].計算機科學,2010,37(5):26-29.

[7] 薛安榮,姚林.離群點挖掘方法綜述[J].計算機科學,2008,35(11):13-18.

[8] 張天佑,王小玲.基于空間局部偏離因子的離群點檢測算法[J].計算機工程,2011,37(14):282-284.

[9]PrzemysawGrzegorzewski.Onpossibleandnecessaryinclusionofintuitionisticfuzzysets[J].InformationSciences,2011,181(2):342-350.

[10] 趙立權.模糊集、粗糙集和商空間理論的比較研究[J].計算機工程,2011,37(2):22-24.

[11]DanielaStojanova,MichelangeloCeci,AnnalisaAppice,etal.Dealingwithspatialautocorrelationwhenlearningpredictiveclusteringtrees[J].EcologicalInformatics,2013,13(1):22-39.

[12]XiQu,LungfeiLee.LMtestsforspatialcorrelationinspatialmodelswithlimiteddependentvariables[J].RegionalScienceandUrbanEconomics,2012,42(3):430-445.

[13] 王偉一,郝文寧,趙水寧,等.基于相對密度的軍事高維數據噪聲點檢測方法[J].計算機工程,2009,35(5):50-52.

[14]BreunigMM,KriegelHP,NgRT,etal.LOF:IdentifyingDensity-basedLocalOutliers[C]//Proc.ofACMSIGMODConference.NewYork,USA:ACMPress,2000:427-438.

SPATIALDATANOISEDETECTIONALGORITHMBASEDONSPATIALAUTO-CORRELATIONANDFUZZYSET

ZhuFubaoXuXianjingBaiQingchunZhuHaodong*

(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,Henan,China)

Datashowsmorecomplexcharacteristicsintheeraofbigdata.Meanwhile,thequalityofdataiscrucialintheprocessofdataminingandwilldirectlyaffecttheresultsofdatamining,butthephenomenaofdatamissingandnoisedataareinevitableinreality.Aimingattheaboveproblems,byintroducingthetheoryofspatialauto-correlationofspatialobjectandthetheoryoffuzzysetweproposeaspatialdatanoisepointdetectionalgorithm.First,thealgorithmcalculatesthedistancebetweenthespecificobjectandotherobjectswithinitsneighbourhoodbyusingspatialauto-correlationtheoryofneighbourhoodobject.Thenitexpressesthedistancebytheconceptoffuzzymembershipdegree.Finally,itdetermineswhetherthereisanoisedatabycomparingwiththeconfidenceleveloftheattribute.Theoreticalanalysisandexperimentalcomparisonresultsallshowthatthismethodiseffectiveandfeasibleinhandlingtheproblemofspatialdatanoisepoint.

NoisedataDataprepossessingSpatialauto-correlationFuzzyset

2014-08-09。國家自然科學基金項目(61201447);河南省科技攻關項目(122102210492);河南省教育廳科學技術研究重點項目(13A520368,13A520367)。朱付保,副教授,主研領域:智能信息處理,空間數據庫。徐顯景,碩士生。白慶春,碩士生。朱顥東,副教授。

TP315

ADOI:10.3969/j.issn.1000-386x.2016.03.062

猜你喜歡
數據挖掘檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
探討人工智能與數據挖掘發展趨勢
“幾何圖形”檢測題
“角”檢測題
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
小波變換在PCB缺陷檢測中的應用
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产真实乱人视频| 999精品视频在线| 伊人久久综在合线亚洲91| 久久亚洲精少妇毛片午夜无码 | 国产成人1024精品| 伊伊人成亚洲综合人网7777| 精品成人一区二区| 中文字幕久久亚洲一区| 国产最新无码专区在线| 亚洲一级毛片在线观播放| 日韩天堂网| 久久久久久国产精品mv| 国产91透明丝袜美腿在线| 夜夜拍夜夜爽| 美美女高清毛片视频免费观看| 欧美日韩精品一区二区视频| 国产精品久久自在自线观看| 亚洲精品国产首次亮相| 久久精品国产91久久综合麻豆自制| 国产激爽大片在线播放| 国产美女叼嘿视频免费看| 亚洲成a人片7777| 欧美亚洲欧美| 婷婷激情五月网| 看看一级毛片| 欧美乱妇高清无乱码免费| 99久久国产自偷自偷免费一区| 成人福利在线视频| 高清码无在线看| 国产成人综合亚洲网址| 午夜视频在线观看免费网站| 欧美精品一区二区三区中文字幕| 国产精品夜夜嗨视频免费视频 | 91精品久久久久久无码人妻| 91欧美亚洲国产五月天| 国产成人精品男人的天堂下载| 国产精品免费电影| 国产h视频免费观看| 久久亚洲日本不卡一区二区| 国产又粗又爽视频| 国产网站在线看| 久99久热只有精品国产15| 亚洲欧美色中文字幕| 精品国产自在在线在线观看| 99久久国产综合精品2023| 91精品国产91久久久久久三级| 国产经典在线观看一区| AV片亚洲国产男人的天堂| 一级爆乳无码av| AV在线天堂进入| 久久久亚洲国产美女国产盗摄| 亚洲精品黄| 国产91无毒不卡在线观看| 国产在线自揄拍揄视频网站| 在线亚洲精品福利网址导航| 香蕉久久永久视频| 爆操波多野结衣| 国产精品一区不卡| 精品久久久久久中文字幕女 | 无码日韩视频| 欧美亚洲综合免费精品高清在线观看 | 中国一级毛片免费观看| 亚洲国产欧美国产综合久久 | 99国产精品国产| 宅男噜噜噜66国产在线观看| 亚洲人成色在线观看| 日韩不卡高清视频| 亚洲综合网在线观看| 亚洲男人的天堂在线观看| 欧美无专区| 国产91视频观看| 免费99精品国产自在现线| 在线视频97| 精品亚洲欧美中文字幕在线看| 2020国产在线视精品在| 在线无码av一区二区三区| 亚洲精品图区| 欧洲成人免费视频| 日韩精品毛片人妻AV不卡| 夜夜操国产| 一区二区欧美日韩高清免费| 中文字幕免费在线视频|