999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于鄰近性和團(tuán)的異常數(shù)據(jù)檢測算法?

2021-06-02 07:30:14蔡江輝楊海峰荀亞玲
計算機與數(shù)字工程 2021年5期
關(guān)鍵詞:檢測方法模型

解 峰 蔡江輝 楊海峰 荀亞玲

(太原科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院 太原 030024)

1 引言

異常數(shù)據(jù)檢測是數(shù)據(jù)挖掘的一個熱門研究方向,其目標(biāo)是尋找與多數(shù)對象明顯不同的樣本點。在數(shù)據(jù)的分布圖中,這些樣本點與其他數(shù)據(jù)點距離較遠(yuǎn),所以也被稱為離群點[1](outlier)。異常數(shù)據(jù)的檢測方法按照類型分為基于模型的方法[2]、基于聚類[3]的方法、基于鄰近[4]的方法。基于模型的方法需要建立一個異常點不能完美擬合的數(shù)據(jù)模型,通過考慮對象異常的可能概率,運用概率分布模型[5],計算樣本分布的均值標(biāo)準(zhǔn)差,如果對象不能很好地同該模型擬合,則認(rèn)為該對象為異常點。基于模型的異常檢測方法對數(shù)據(jù)作統(tǒng)計學(xué)假定,只有當(dāng)假定滿足實際約束時,才能檢測到異常數(shù)據(jù)。簡單模型(如高斯模型)對參數(shù)進(jìn)行擬合僅需要線性時間,但當(dāng)模型復(fù)雜(如混合模型[6])時,需要多次迭代來擬合最佳參數(shù)。基于聚類的異常檢測方法,假定正常數(shù)據(jù)屬于相對密集的簇,而異常數(shù)據(jù)屬于稀疏的簇或不屬于任何簇,在這種假定下,通過考察對象與聚類算法產(chǎn)生的簇之間的關(guān)系來識別異常數(shù)據(jù),當(dāng)識別到不屬于任何簇類的對象,或者屬于偏遠(yuǎn)的且樣本量較少的簇時,則大概率為異常點或異常簇。基于聚類的方法是一種無監(jiān)督的檢測方法,它不依賴于數(shù)據(jù)的標(biāo)簽,直接將對象與簇進(jìn)行比較來檢測異常點,但是對于大型數(shù)據(jù)集,聚類方法開銷較大,不適用于異常檢測。基于鄰近性的方法,在對象之間定義鄰近性度量,找到遠(yuǎn)離大部分對象的異常點。

研究人員在多數(shù)情況下使用基于鄰近的方法來檢測異常數(shù)據(jù),如知名的K近鄰[7],尋找異常得分[8]最高的樣本點作為異常數(shù)據(jù)。通常異常點對K的取值高度敏感,當(dāng)K較小,鄰近的異常對象得到較低的分?jǐn)?shù);當(dāng)K較大,則多數(shù)對象都標(biāo)記為異常點。基于鄰近性的方法對使用的鄰近性度量依賴程度較高,并且面對分布相對密集的樣本點時,不易檢測異常點。

本文對基于鄰近的方法進(jìn)行研究,針對不易檢測分布密集樣本的異常點問題,將圖論中團(tuán)[9]的概念引入到異常檢測中,對密集樣本中存在的團(tuán)進(jìn)行分析,提出一種基于鄰近性和團(tuán)的異常檢測算法——PCOD算法。該算法將數(shù)據(jù)轉(zhuǎn)化成圖,對圖中的團(tuán)進(jìn)行分析,其中不屬于團(tuán)的樣本點即為異常點。同時,針對樣本量不斷增加,搜索團(tuán)的難度較大的問題,本文使用良分割技術(shù)將圖分割,生成稀疏圖[10],降低搜索團(tuán)的時間。

2 相關(guān)理論基礎(chǔ)

基于鄰近性的異常檢測使用距離度量來量化對象之間的相似性[11],并且假設(shè)異常對象與它的最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對象與它們近鄰之間的鄰近性,代表性的算法有基于距離的異常檢測算法和基于密度[12]的異常檢測算法。基于距離的算法一般使用歐式距離作為數(shù)據(jù)樣本間的度量方式,計算多維空間中兩個樣本間的歐式距離d(x,y)如式(1)所示:

n為樣本維度。當(dāng)有了距離度量,需要判斷給定半徑的鄰域[13],如果鄰域內(nèi)無其他對象,則可能為異常點。因此需要指定一個距離參數(shù)r來定義對象的合理鄰域,對于每個對象o,分別判斷它們鄰域內(nèi)其他對象的個數(shù),如果數(shù)據(jù)中大部分對象遠(yuǎn)離對象o,則o為異常點,如式(2)所示:

其中r為距離閾值,π是分?jǐn)?shù)閾值[14],dist為對象之間的距離,o′為其他對象。基于距離的算法通過計算o與其他對象之間的距離,統(tǒng)計鄰域中其他對象的個數(shù)來分析o是否為異常數(shù)據(jù)。判斷每個樣本點的鄰域需要使用嵌套循環(huán)檢測異常點,嵌套循環(huán)的時間復(fù)雜度為O(n2),但在實際運用中常常是線性時間。

基于鄰近的方法通常使用距離或密度作為度量方式,在低維數(shù)據(jù)中有很好的效果,但在高維空間中,不容易得到合適的度量方式,并且基于鄰近的方法在處理高維數(shù)據(jù)時無法解決維度災(zāi)難和數(shù)據(jù)高度稀疏等問題。針對這些問題,學(xué)者探究了使用新的鄰近度量或從高維數(shù)據(jù)中的子空間來檢測異常點,文獻(xiàn)[15]介紹了一種基于結(jié)構(gòu)得分的高維數(shù)據(jù)異常檢測算法。此外,還有基于傳統(tǒng)異常檢測方法擴(kuò)充而來的HilOut算法,HilOut使用距離的秩作為鄰近性度量,對每個樣本o,得到它的K最近鄰,記作nn1(o),…,nnk(o),對象o的權(quán)重定義為式(3):

算法依賴于K值的選擇。尤其是在面對大數(shù)據(jù)時,獲得每個樣本的K近鄰對算法的消耗巨大。

3 基于PCOD的異常檢測算法

PCOD算法是一種結(jié)合了鄰近性與團(tuán)的思想的異常檢測算法,算法將對異常點的搜索轉(zhuǎn)化為對數(shù)據(jù)圖中抱團(tuán)對象的搜索,算法首先將數(shù)據(jù)對象轉(zhuǎn)化為圖中的頂點,然后根據(jù)對象之間的鄰近性判斷頂點是否連接,最后搜索圖來檢測異常對象。

3.1 極大團(tuán)與最大團(tuán)

最 大 團(tuán) 問 題[16](Maximum Clique Problem,MCP)是圖論中一個經(jīng)典的組合優(yōu)化問題,在國際上已有廣泛的研究。尋找最大團(tuán)的經(jīng)典算法為Bron-Kerbosch算法,其是一種遞歸回溯算法,用于搜索給定圖的最大團(tuán)。團(tuán)(clique)是一個無向圖的完全子圖,完全子圖的每對頂點之間都互相連接,尋找數(shù)據(jù)中的團(tuán)就是尋找無向圖中的完全子圖。如果一個團(tuán)不被其他任一團(tuán)所包含,即它不是其他任一團(tuán)的真子集,則稱該團(tuán)為圖的極大團(tuán)[17],結(jié)點數(shù)最多的極大團(tuán)則為最大團(tuán)。

良分割分離技術(shù)是Callahan等提出的一種對圖進(jìn)行成對分解獲取稀疏圖的方法,良分割對(Well-Separated pair)的定義如下:

定義1以c為中心,r為半徑的球體,可以表示為集合B={p∈Rd:dist2c,p)≤r}。給定一個分割閾值s>0,如果數(shù)據(jù)集合A和B所在的最小矩形框R(A)和R(B)能夠被半徑為r的d維球體Sa和Sb分別包含,并且兩個球體之間的距離不小于sr,那么稱集合A和B是良分離的,如圖1所示。

由定義1可知,若A與B是良分離的,則A與B中任意兩點之間距離都是相近的,且都小于A與B之間的距離。通過這種方式將圖成對分解,即可搜索圖中孤立的異常點。

圖1 WSP示意圖

定義2給定無向圖G=(V,E),若?V′?V,使得頂點子集V′導(dǎo)出的子圖G′=(V′,E′)為完全圖,則稱V′為G的團(tuán)。若﹁?V′?V∧V′?V″使得頂點集V″導(dǎo)出的子圖為完全圖,則稱V′為圖G的極大團(tuán),如果V′的頂點最多,則稱V′為圖G的最大團(tuán)。

定義3如果?o∈V,?V′?V,使得o?V′,則稱頂點o為給定圖G的異常點。

圖2為具體案例,表示一個包含10個數(shù)據(jù)對象的無向圖,其邊集E={(1,2),(2,4),(2,3),(3,5),(2,5),(6,7)},采用上述方法即可得到c1、c2、c3、c4這四個包含多個對象的團(tuán),以及o1、o2、o3這三個孤立的對象,其中c3為最大團(tuán),c1、c2、c4為極大團(tuán),根據(jù)定義7可知,o1、o2、o3為給定數(shù)據(jù)的異常點。

圖2 極大團(tuán)、最大團(tuán)與異常點

3.2 PCOD算法

PCOD算法是一種基于鄰近和團(tuán)的異常檢測算法,該算法使用歐式距離作為鄰近度量,將數(shù)據(jù)對象表示為圖,遞歸搜索稀疏圖中存在的團(tuán)來檢測異常點。采用良分割分離技術(shù)對圖進(jìn)行稀疏化并生成稀疏圖。生成稀疏圖的步驟如下所示:

1)給定數(shù)據(jù)集D=[X1,X2,……,Xn]。

2)取數(shù)據(jù)集中的對象Xi,i=1,計算X1與其他對象之間的距離d(i,j),則X1與其他對象的最大距離為maxd(i,j),最小距離為mind(i,j)。

3)s為分割閾值,σ為對象之間的鄰近距離,σ=s×( maxd(i,j)-mind(i,j)),如果對象之間的距離小于鄰近距離,即d(i,j)≤s×(maxd(i,j)-mind(i,j)),則兩個對象之間存在著邊的連接。

4)重復(fù)以上步驟,直到生成所有對象的邊,將數(shù)據(jù)轉(zhuǎn)化為圖。

PCOD算法對分割后的稀疏圖進(jìn)行搜索,檢測沒有與其他對象抱團(tuán)的異常點。本文在實驗部分驗證了鄰近距離對異常點檢測的影響。

Bron-Kerbosch算法是一種經(jīng)典的團(tuán)搜索算法,其效率較低且會遍歷圖中所有非極大團(tuán)的樣本點。為了提高本文算法效率,采用一種改進(jìn)的搜索圖算法。該算法加入了軸的概念,其思想是選擇一個節(jié)點u作為軸,極大團(tuán)要么包含u,要么包含u的非直接鄰居,因此PCOD算法通過搜索u及u的非直接鄰居來減少節(jié)點的搜索,降低算法的運行時間。PCOD算法首先將稀疏圖轉(zhuǎn)化為鄰接數(shù)據(jù)表;再根據(jù)鄰接數(shù)據(jù)表遞歸搜索團(tuán);最后對團(tuán)進(jìn)行分析檢測異常點,如果存在沒有與其他對象抱團(tuán)的對象,則該對象被識別為異常點。PCOD算法具體步驟如下所示。

PCOD算法前期需要計算樣本點之間的鄰近距離生成距離矩陣,時間復(fù)雜度為O(n log2n),在第二階段尋找數(shù)據(jù)中的團(tuán)時,雖然使用了改進(jìn)的搜索團(tuán)算法,但它基礎(chǔ)形式仍是一個遞歸回溯算法。算法過程中使用鄰接數(shù)據(jù)表保存對象之間的近鄰集合,其空間復(fù)雜度為O(mn),m為近鄰列表的廣度,n為近鄰列表的深度,即樣本個數(shù)。

4 實驗結(jié)果及分析

在本文的實驗環(huán)境為Windows10,處理器為In?tel Core i5-7200U,8.0GB運行內(nèi)存,64位操作系統(tǒng),開發(fā)工具為Spyder,開發(fā)語言為python。實驗采用UCI數(shù)據(jù)集,其基本信息如表1所示。PCOD算法從三個方面評估異常檢測的效果,一是鄰近距離對算法運行時間和精確率的影響;二在UCI數(shù)據(jù)集上檢測結(jié)果;三是與其他異常檢測算法的精確率對比。

表1 UCI數(shù)據(jù)集

4.1 鄰近距離對算法運行時間和精確率的影響

本文在500條數(shù)據(jù)、1000條數(shù)據(jù)、1500條數(shù)據(jù)三種數(shù)據(jù)規(guī)模下進(jìn)行實驗。精確率的計算方法為Precison=TP/(TP+FP),TP為真異常個數(shù),F(xiàn)P為假異常個數(shù),實驗結(jié)果見圖3。從圖3可以明顯看出對于測試數(shù)據(jù)集,當(dāng)鄰近距離σ較小時,運行時間趨勢較為平穩(wěn)。出現(xiàn)這種情況的原因是σ較小時搜索到的團(tuán)的個數(shù)較少,因此算法運行時間較低。當(dāng)σ=2.0時,精確率達(dá)到最高。當(dāng)σ>2.0時精確率趨于平滑,隨著σ繼續(xù)增大,算法運行時間激增,精確率基本保持不變。隨著σ的不斷增大,團(tuán)的數(shù)目逐漸增加,團(tuán)搜索消耗的時間也隨之增加。實驗結(jié)果表明,當(dāng)鄰近距離值在相對小的范圍時,算法檢測到相對多的異常點,且消耗的時間較少,驗證了算法在不同數(shù)據(jù)規(guī)模下的伸縮性。

圖3 鄰近距離對算法檢測結(jié)果的影響

4.2 PCOD在UCI數(shù)據(jù)集上的檢測結(jié)果

檢測率的定義為檢測出的異常個數(shù)與異常總數(shù)之比。誤檢率也稱為假警告率,其計算方法為假異常的個數(shù)與被分類為異常的對象個數(shù)之比,實驗結(jié)果如表2所示。

表2結(jié)果可以看出PCOD算法在不同的數(shù)據(jù)集上都有較高的檢測率。其中Ionosphere數(shù)據(jù)集上檢測率達(dá)到92%,而誤檢率僅為9%,Ionosphere數(shù)據(jù)集的異常點占比達(dá)到35%。Vowel數(shù)據(jù)集的異常數(shù)據(jù)占比則相對較小,檢測到多個異常點,證明算法不受異常點占比的影響。算法在小規(guī)模數(shù)據(jù)集與相對較大數(shù)據(jù)集上都有較高的檢測率,整體結(jié)果表明PCOD算法在UCI數(shù)據(jù)集中有良好的適用性。

表2 PCOD在UCI數(shù)據(jù)集上的檢測結(jié)果

4.3 PCOD與其他算法的對比

本文使用的對比算法有基于角度的異常檢測算法ABOD、基于集成的FB算法、基于鄰近性的KNN和基于密度的LOF算法,算法對比結(jié)果如圖4所示。

總體來看,基于鄰近和團(tuán)的異常檢測算法相比其他模型表現(xiàn)更好。PCOD算法與KNN算法都是基于鄰近的異常檢測方法,同樣考慮距離來分析數(shù)據(jù)的異常性,但是PCOD算法分析了對象之間存在團(tuán)的可能性,因為異常點不會被吸納進(jìn)正常樣本的團(tuán)內(nèi),所以在多數(shù)數(shù)據(jù)集上PCOD算法表現(xiàn)更優(yōu)。Vowel數(shù)據(jù)集中異常點數(shù)占比相對較少且存在一部分與正常點較為鄰近的異常點,導(dǎo)致LOF和KNN等算法無法輕易識別這些對象。由于Lympho數(shù)據(jù)集僅有六個異常點,除了ABOD算法,其余檢測算法都檢測到四個異常點,并且3個為真異常點,精確率為75%。在Shuttle數(shù)據(jù)集上,基于距離的算法精確率相對較低,因為數(shù)據(jù)集規(guī)模較大且異常點數(shù)多,不容易檢測異常點,這也是基于距離的算法局限性。相比KNN、LOF等基于距離的算法,PCOD仍有比較好的檢測效果。從圖4分析可知,PCOD算法結(jié)果穩(wěn)定,在多個數(shù)據(jù)集都有較好的精確率。實驗結(jié)果證明簡單模型效果不一定比復(fù)雜模型差,需要綜合考慮算法在數(shù)據(jù)集上的穩(wěn)定性。

圖4 PCOD與其他算法在UCI上的精確率對比圖

5 結(jié)語

本文對基于距離的異常檢測算法進(jìn)行研究,引入圖論中團(tuán)的概念,將數(shù)據(jù)對象轉(zhuǎn)化為圖,分析圖中的團(tuán)來檢測異常點。通過對象之間的最大最小距離以及良分割技術(shù)對圖進(jìn)行稀疏化,提升了算法的檢測效果。同時在UCI數(shù)據(jù)集上進(jìn)行實驗,對比了多種類型的異常檢測算法,實驗結(jié)果表明,在多數(shù)數(shù)據(jù)集上,本文提出的PCOD算法相比其他算法在精確率上表現(xiàn)更優(yōu)。未來將進(jìn)一步擴(kuò)展算法在大型高維數(shù)據(jù)上的有效性與可伸縮性。

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲欧美精品日韩欧美| 亚洲天堂首页| 一本色道久久88| 无码高潮喷水专区久久| 国产麻豆另类AV| 无码视频国产精品一区二区| 亚洲国产综合精品一区| 国产香蕉97碰碰视频VA碰碰看| 凹凸国产熟女精品视频| 2022精品国偷自产免费观看| 国产99欧美精品久久精品久久| 99久久免费精品特色大片| 久久精品无码一区二区日韩免费| 老司机午夜精品网站在线观看 | 欧美激情福利| 亚洲综合激情另类专区| 色一情一乱一伦一区二区三区小说 | 免费在线看黄网址| 亚洲综合18p| 亚洲综合片| 91亚洲影院| 国产办公室秘书无码精品| 激情爆乳一区二区| 四虎亚洲国产成人久久精品| 国产一区亚洲一区| 免费高清a毛片| 成人亚洲视频| 91精品国产一区自在线拍| 免费在线视频a| 91麻豆国产视频| 亚洲综合专区| 凹凸国产分类在线观看| aaa国产一级毛片| 一区二区自拍| 成年片色大黄全免费网站久久| 国产成年女人特黄特色大片免费| 亚洲码一区二区三区| 亚洲无线一二三四区男男| 亚洲精品不卡午夜精品| 国产精品亚洲欧美日韩久久| 国产精品久久久久鬼色| 777国产精品永久免费观看| 亚洲一区毛片| 在线欧美日韩国产| 毛片卡一卡二| 日本不卡免费高清视频| 亚洲天堂免费| 国产在线自在拍91精品黑人| 四虎成人在线视频| 国产精品一区在线麻豆| 亚洲中文字幕无码mv| 91美女视频在线观看| 欧美在线观看不卡| 亚洲综合极品香蕉久久网| 中国一级特黄大片在线观看| 亚洲中久无码永久在线观看软件| 国产国语一级毛片在线视频| 全部免费毛片免费播放| 亚洲无码精品在线播放| 亚洲国产精品日韩av专区| 欧美成人综合在线| 亚洲成综合人影院在院播放| 无码专区在线观看| 国产一区成人| 中文字幕第1页在线播| 国产一区亚洲一区| 性激烈欧美三级在线播放| 色综合天天娱乐综合网| 天天爽免费视频| 狠狠做深爱婷婷综合一区| 伦伦影院精品一区| 国产成人精品一区二区| 亚洲第一视频免费在线| 日韩午夜福利在线观看| 国产精品美人久久久久久AV| 在线中文字幕日韩| 黄色网在线| 九九热这里只有国产精品| 亚洲男人在线天堂| 欧美高清日韩| 久久精品嫩草研究院| 丁香亚洲综合五月天婷婷|