999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于多視角聚類的離群檢測算法

2016-06-22 09:17:59姚鵬古平重慶大學(xué)計(jì)算機(jī)學(xué)院重慶400044
現(xiàn)代計(jì)算機(jī) 2016年14期
關(guān)鍵詞:檢測

姚鵬,古平(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)

?

一種基于多視角聚類的離群檢測算法

姚鵬,古平
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶400044)

摘要:

關(guān)鍵詞:

0 引言

離群檢測(Outlier Detection)是數(shù)據(jù)挖掘技術(shù)的一個(gè)研究方向,其目的是從大量數(shù)據(jù)中找到小部分異常的,與常規(guī)數(shù)據(jù)不同的數(shù)據(jù)。大多數(shù)算法使用Hawkins的離群點(diǎn)定義:“離群點(diǎn)的表現(xiàn)與其他點(diǎn)如此不同,以至于讓人懷疑它是由不同機(jī)制產(chǎn)生的”。目前,離群檢測在網(wǎng)絡(luò)入侵檢測、信用卡欺詐檢測、故障診斷、災(zāi)害預(yù)測、圖像處理分析等領(lǐng)域都得到廣泛的應(yīng)用[1-2]。現(xiàn)有的離群點(diǎn)檢測方法分類有基于分布的、基于距離的、基于密度的、基于聚類的、基于深度的[3-4]等。

以前的數(shù)據(jù)挖掘算法中,數(shù)據(jù)集的屬性是被認(rèn)真挑選過的。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的個(gè)數(shù)和維度都很多,數(shù)據(jù)的特征可能淹沒在高維的數(shù)據(jù)中,而只在特定的子空間有所體現(xiàn),有些離群點(diǎn)也只能在子空間中觀察到。此時(shí),離群檢測任務(wù)不僅僅為了找出離群點(diǎn),同時(shí)要找出相關(guān)的子空間,從不同的視角去全面評估數(shù)據(jù),而不是傳統(tǒng)的在全部屬性空間尋找離群點(diǎn)。聚類分析是根據(jù)數(shù)據(jù)集的特征,將數(shù)據(jù)劃分成有意義或者有用的簇,從而獲得數(shù)據(jù)集所包含的某種內(nèi)部結(jié)構(gòu)。傳統(tǒng)的聚類算法在做數(shù)據(jù)分析時(shí),只挖掘數(shù)據(jù)中單個(gè)合理的模式,然而在實(shí)際應(yīng)用中,數(shù)據(jù)往往蘊(yùn)含著多個(gè)合理且有價(jià)值的特征模式。例如,在文檔數(shù)據(jù)中,既存在文檔主題模式,又存在文檔的寫作風(fēng)格模式。因此,人們希望從數(shù)據(jù)中挖掘多個(gè)相異且有價(jià)值的聚類結(jié)果,以便給決策者提供更多的選擇空間。具體到離群檢測應(yīng)用中,我們希望從多個(gè)視角對數(shù)據(jù)進(jìn)行分析,獲得更全面的離群點(diǎn)集。

多視角聚類(multi-view clustering)是近年來新興的一種數(shù)據(jù)分析方法,有的文獻(xiàn)也稱為替代聚類(alternative clustering)[5,13]或無冗余聚類(non-redundant clustering)[6]。多視角聚類在進(jìn)行數(shù)據(jù)分析時(shí),一方面希望得到的高質(zhì)量聚類結(jié)果,即捕捉到數(shù)據(jù)集本身所蘊(yùn)含的某種合理內(nèi)在結(jié)構(gòu);另一方面要求所得到的多個(gè)聚類之間無冗余,即希望從多角度全方位觀測分析數(shù)據(jù)。現(xiàn)有的多視角聚類算法可以分為同步學(xué)習(xí)和順序?qū)W習(xí)兩類。同步多視角聚類算法力圖從數(shù)據(jù)集中同時(shí)挖掘出多個(gè)相異且有價(jià)值的聚類模式;順序多視角聚類算法是在已知一個(gè)或多個(gè)聚類結(jié)果的情況下,再求一個(gè)與已知模式不同的高質(zhì)量聚類結(jié)果。同步學(xué)習(xí)過程和順序?qū)W習(xí)過程均可挖掘出數(shù)據(jù)集中的多個(gè)劃分模式,不同的是順序多視角學(xué)習(xí)算法在學(xué)習(xí)一個(gè)新的聚類模式時(shí),充分考慮已知的數(shù)據(jù)劃分模式,可將這些先驗(yàn)知識融入到多視角學(xué)習(xí)的過程中[7]。

本文算法實(shí)現(xiàn)基于順序多視角聚類的離群檢測算法KDAC,采用譜聚類來獲得高質(zhì)量聚類,同時(shí)使用希爾伯特-施密特獨(dú)立性準(zhǔn)則HSIC保證新的聚類和前面的聚類無冗余,重復(fù)執(zhí)行獲得多個(gè)視角,對多個(gè)視角進(jìn)行離群分析,提高離群檢測的精確度。

1 基于多視角聚類的離群檢測算法

1.1基本定義

1.2譜聚類

譜聚類是一種基于譜圖理論的聚類算法,不同于傳統(tǒng)的k均值、EM算法,它不要求數(shù)據(jù)是凸形的,能夠在任意形狀的數(shù)據(jù)中進(jìn)行聚類并得到全局最優(yōu)的結(jié)果。譜聚類算法的基本思想是構(gòu)造數(shù)據(jù)集的相似度矩陣,求出矩陣的特征值和特征向量,選擇合適的特征向量將原始數(shù)據(jù)點(diǎn)映射到低維空間中進(jìn)行聚類。

1.3HSIC

HSIC是一種基于核的獨(dú)立性度量方法,是在再生核希爾伯特空間上定義互協(xié)方差算子,在互協(xié)方差算子中找出可度量獨(dú)立性的統(tǒng)計(jì)量,從而來獲得獨(dú)立性的大小。HSIC使用Hilbert-Schmidt互協(xié)方差算子,通過對該算子范數(shù)的經(jīng)驗(yàn)估計(jì)來評估獨(dú)立性[11]。

假設(shè)X,Y兩個(gè)空間,定義F為X的再生核希爾伯特空間,X到F的映射記為φ:MF,則兩點(diǎn)在核空間的內(nèi)積可由核函數(shù)k1(x,x')=<φ(x),φ(x')>得到,類似的定義Y的核空間G,映射φ,核函數(shù)k2(.,.)。互協(xié)方差算子Cxy:GF定義為Cxy=Exy[(φ(x)-μy)(φ(y)-μy)]。Cxy可以看成Hilbert-Schmidt算子,而所謂的HSIC即定義為Cxy的Hilbert-Schmidt算子范數(shù),即HSIC (pxy,F(xiàn),G)=。對已知的數(shù)據(jù)Z={(x1,y1),…,(xn, yn)}時(shí)可以得到HSIC的經(jīng)驗(yàn)估計(jì):

其中K1,K2,H∈Rn×n,K1,K2是Gram矩陣,K1,ij=k1(xi,xj),K2,ij=k2(xi,xj),Hij=δij-n-1。公式(2)已被證明具有收斂速度快和運(yùn)算簡單等優(yōu)點(diǎn),其HSIC值越大說明X,Y關(guān)聯(lián)性越強(qiáng),若X和Y獨(dú)立,HSIC值為0。

1.4多視角生成算法

在譜聚類中,相似度矩陣K定義在全部數(shù)據(jù)屬性上,然而有些屬性可能是噪聲或無關(guān)的,因此需要對數(shù)據(jù)進(jìn)行降維,在低維空間進(jìn)行譜聚類。定義d×q(其中q<d)的轉(zhuǎn)換矩陣W,則XW∈Rn×q表示降維后的數(shù)據(jù)矩陣。在算法每輪迭代中,給定Y,目標(biāo)是發(fā)現(xiàn)一個(gè)替代聚類U以及U所在的子空間W。該問題可表示為優(yōu)化問題:

公式(3)中的第一項(xiàng)HSIC(XW,U)用譜聚類準(zhǔn)則公式(1)表示:

上述優(yōu)化問題的最優(yōu)解在HSIC(XW,U)較大并且HSIC(XW,Y)較小時(shí)獲得。HSIC(XW,U)大表示聚類劃分U是在XW中的一個(gè)高質(zhì)量聚類,HSIC(XW,Y)小表示W(wǎng)空間中的聚類與已知聚類結(jié)果Y關(guān)聯(lián)度較低,W是一個(gè)新奇的聚類子空間。

通過交替的優(yōu)化矩陣U和W來得到公式(4)的最優(yōu)解,可分解為下面兩個(gè)步驟:

②假設(shè)U是固定的,優(yōu)化W。當(dāng)U固定時(shí),公式(4)可轉(zhuǎn)化為:

交替執(zhí)行步驟1,2直到數(shù)據(jù)收斂,對U進(jìn)行k均值聚類可獲得一個(gè)新奇且高質(zhì)量聚類劃分。之后對W空間進(jìn)行離群檢測,如應(yīng)用LOF算法[12],LOF值大的數(shù)據(jù)為離群點(diǎn),獲得在W視角下的離群點(diǎn)集。重復(fù)多次可獲得不同視角下的離群點(diǎn)集。整體算法KDAC步驟描述如下:

輸入:數(shù)據(jù)X,已獲得劃分矩陣Y,子空間維數(shù)q,簇個(gè)數(shù)c。

輸出:轉(zhuǎn)換矩陣W,離群度LOF。

1.初始化W=I。

3.有步驟2得到的U,根據(jù)1.4節(jié)的維度增加算法更新W。

4.重復(fù)步驟2,3直到收斂。

5.對U進(jìn)行k均值聚類,劃分結(jié)果Yi合并到Y(jié)。

6.計(jì)算XW中各數(shù)據(jù)點(diǎn)的LOF。

2 實(shí)驗(yàn)結(jié)果及分析

為了測試KDAC算法的有效性,選取LOF和LDOF作為對比算法,驗(yàn)正top-n離群點(diǎn)的精確度。算法使用Python編寫,實(shí)驗(yàn)環(huán)境:Intel Core i3,2.4GHz,內(nèi)存4GB,Windows 10操作系統(tǒng)。

2.1Yeast data set

酵母數(shù)據(jù)集(yeast data set)包含1484個(gè)樣本,每個(gè)樣本有9個(gè)屬性,有一個(gè)屬性是類標(biāo)屬性。實(shí)驗(yàn)中從樣本中選擇1299條記錄作為正常數(shù)據(jù),加入20個(gè)離群點(diǎn)。KDAC算法中取c=4,q=6。實(shí)驗(yàn)結(jié)果如圖1所示。

由圖1看出,相比LOF和LDOF,KDAC能獲得較好的精確度。

2.2KDD-Cup 1999數(shù)據(jù)集

KDD-Cup 1999是一個(gè)網(wǎng)絡(luò)入侵檢測的數(shù)據(jù)集,它有五種數(shù)據(jù)對象,包括正常的連接,各種入侵和攻擊等。實(shí)驗(yàn)時(shí)對數(shù)據(jù)集進(jìn)行修改,在原來41維屬性中選取32維連續(xù)屬性,并使入侵?jǐn)?shù)據(jù)(50個(gè)離群點(diǎn))占2%。實(shí)驗(yàn)結(jié)果如圖2所示。

如圖2所示在維度較高情況下,KDAC算法優(yōu)于LOF和LDOF算法。在包含很多無關(guān)屬性的高維情況下,距離很難再作為樣本相似性的度量。而KDAC將數(shù)據(jù)映射到多個(gè)低維空間,因而更有效檢測離群點(diǎn)。

圖1 yeast數(shù)據(jù)集

圖2 KDD-Cup 1999數(shù)據(jù)集

3 結(jié)語

本文基于多視角聚類進(jìn)行離群檢測,該算法一方面采用譜聚類,以確保高質(zhì)量的聚類結(jié)果;另一方面通過希爾伯特-施密特獨(dú)立性準(zhǔn)則,以確保新的聚類結(jié)果相對于已知?jiǎng)澐帜J绞菬o冗余的。從得到的多個(gè)不同的視角,獲得對數(shù)據(jù)集更全面的認(rèn)識。實(shí)驗(yàn)結(jié)果表明,該方法能有效解決離群檢測問題,對高維數(shù)據(jù)集有更好的效果。

參考文獻(xiàn):

[1]Chandola V,Banerjee A,Kumar V.Anomaly Detection:A Survey[J].Acm Computing Surveys,2009,41(3):75-79.

[2]Zimek A,Schubert E,Kriegel H P.A Survey on Unsupervised Outlier Detection in High-Dimensional Numerical Data[J].Statistical Analysis & Data Mining the Asa Data Science Journal,2012,66(1):72-8.

[3]薛安榮,姚林,鞠時(shí)光,等.離群點(diǎn)挖掘方法綜述[J].計(jì)算機(jī)科學(xué),2008,35(11):13-18.

[4]Kriegel H P,Kr?ger P,Schubert E,et al.Interpreting and Unifying Outlier Scores[J].SDM,2011:13-24.

[5]Qi Z J,Davidson I.A Principled and Flexible Framework for Finding Alternative Clusterings[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.2009:717-726.

[6]Gondek D,Hofmann T.Non-Redundant Clustering with Conditional Ensembles[C].Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Chicago,Illinois,USA,August 21-24,2005.2005:70-77.

[7]婁錚錚,葉陽東,劉瑞娜.基于IB方法的無冗余多視角聚類[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1865-1875.

[8]Luxburg U V.A Tutorial on Spectral Clustering[J].Statistics & Computing,2007,17(17):395-416.

[9]Shi J,Malik J.Normalized Cuts and Image Segmentation[J].IEEE Trans.pattern Anal.mach.intell,2000,22(8):888-905.

[10]Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering:Analysis and an Algorithm[J].Proceedings of Advances in Neural Information Processing Systems,2001,14:849-856.

[11]Gretton A,Bousquet O,Smola A,et al.Measuring Statistical Dependence with Hilbert-Schmidt Norms[M].Algorithmic Learning Theory.Springer Berlin Heidelberg,2005:63-77.

[12]Breunig M M,Kriegel H P,Ng R T,et al.LOF:Identifying Density-Based Local Outliers[J].Acm Sigmod Record,2000,29(2):93-104.

[13]Dy J G,Jordan M I.Iterative Discovery of Multiple Alternative Clustering Views[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,36(7):1340-1353.

姚鵬(1990-),男,河南許昌人,研究生,研究方向?yàn)殡x群檢測

古平(1976-),男,重慶人,副教授,研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

Multi-View Clustering Based Outlier Detection Algorithm

YAO Peng,GU Ping
(College of Computer Science,Chongqing University,Chongqing 400030)

Abstract:

Complex data sets usually contain different organization patterns,traditional outlier detection algorithm cannot make full use of multi-view information and cause outlier missing from a single point of view.Proposes a multi-view clustering outlier detection algorithm,which on the one hand uses a spectral clustering algorithm to ensure high quality of clustering results;on the other hand,through Hilbert-Schmidt independence criterion to ensure that the new clustering result and the known partition model comparison are not redundant.And then gets more accurate outlier sets through the multi -view of the outlier analysis.The results show that the algorithm can improve the accuracy of outlier detection.

Keywords:

復(fù)雜數(shù)據(jù)集通常包含不同的組織模式,傳統(tǒng)的離群檢測算法從單一視角尋找離群點(diǎn),不能充分利用多視角信息,造成信息遺漏。提出一種基于多視角聚類的離群檢測算法,該算法一方面采用譜聚類,以確保高質(zhì)量的聚類結(jié)果;另一方面通過希爾伯特-施密特獨(dú)立性準(zhǔn)則,以確保新的聚類結(jié)果相對于已知?jiǎng)澐帜J绞菬o冗余的。對得到多個(gè)視角進(jìn)行離群分析,從而得到更準(zhǔn)確的離群集。研究結(jié)果表明,該算法能夠提高離群檢測精度。

離群檢測;多視角;譜聚類;希爾伯特-施密特獨(dú)立性準(zhǔn)則

文章編號:1007-1423(2016)14-0043-05

DOI:10.3969/j.issn.1007-1423.2016.14.009

作者簡介:book=47,ebook=48

收稿日期:2016-03-22修稿日期:2016-04-30

Outlier Detection;Multi-View;Spectral Clustering;Hilbert-Schmidt Independence Criterion

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數(shù)的乘除法”檢測題
“有理數(shù)”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 最新国产麻豆aⅴ精品无| 国产精品无码AV片在线观看播放| 日韩无码真实干出血视频| 亚洲天堂伊人| 国产麻豆福利av在线播放| 亚欧成人无码AV在线播放| 亚洲精品麻豆| 成人亚洲天堂| 日本高清在线看免费观看| 亚洲人成在线精品| 午夜色综合| 日韩大片免费观看视频播放| 亚洲无码A视频在线| 一级毛片免费不卡在线| 国产精品成人一区二区不卡 | 国产网站一区二区三区| 亚洲 欧美 偷自乱 图片 | 婷婷99视频精品全部在线观看 | 国产欧美日韩18| 久久午夜影院| 精品1区2区3区| 综合色88| 国产99视频在线| 麻豆AV网站免费进入| 亚洲人成在线免费观看| 高h视频在线| 2020国产精品视频| 国产精品福利导航| 丁香五月婷婷激情基地| 欧美精品综合视频一区二区| 高清国产va日韩亚洲免费午夜电影| 中文字幕欧美日韩高清| 欧美黑人欧美精品刺激| 久久毛片基地| jizz国产视频| 久久国产亚洲欧美日韩精品| 乱系列中文字幕在线视频| 55夜色66夜色国产精品视频| 日本午夜精品一本在线观看| 一本久道热中字伊人| 九九热视频精品在线| 国产黄在线免费观看| 精品無碼一區在線觀看 | 中文字幕va| 最新日本中文字幕| 麻豆AV网站免费进入| 色噜噜狠狠狠综合曰曰曰| 在线播放真实国产乱子伦| 国产成人精品无码一区二| 青青操国产视频| 国产一二三区在线| 一边摸一边做爽的视频17国产| 国产办公室秘书无码精品| 国产乱子伦一区二区=| 国产欧美日韩免费| 国产乱子伦手机在线| 91在线国内在线播放老师| a免费毛片在线播放| 97se亚洲综合在线| 久久a级片| 国产理论最新国产精品视频| 国产在线97| 久久精品人人做人人| 亚洲精品在线91| 无码专区国产精品第一页| 国产国产人免费视频成18| 国产在线八区| 成年看免费观看视频拍拍| 天堂岛国av无码免费无禁网站| 日韩欧美国产中文| 日韩高清在线观看不卡一区二区| 亚洲第一色视频| 亚洲无限乱码| 久操线在视频在线观看| 在线视频一区二区三区不卡| 国产农村妇女精品一二区| 在线播放91| 国产精品成| 青青操视频免费观看| 国产精品yjizz视频网一二区| 国产女人在线视频| 国产成人精品高清不卡在线 |