999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維離散分布數(shù)據(jù)集中NSD算法精度、敏感度校正及應(yīng)用

2022-07-11 13:26:44韓孝明
關(guān)鍵詞:檢測系統(tǒng)

韓孝明

(呂梁學(xué)院 汾陽師范分校,山西 汾陽 032200)

離群點(diǎn)檢測作為數(shù)據(jù)挖掘的重要手段已在各個領(lǐng)域得到了廣泛的應(yīng)用[1-2].基于密度的LOF離群點(diǎn)檢測算法在當(dāng)下比較流行,但由于算法過于復(fù)雜且其準(zhǔn)確性受到參數(shù)選擇的深度影響,因此應(yīng)用于高維離散數(shù)據(jù)集時準(zhǔn)確率并不理想[3-5].本文提出了一種基于數(shù)據(jù)對象密度差異計算的NSD離群點(diǎn)檢測算法,通過對比數(shù)據(jù)對象密度和在截取距離內(nèi)與其相鄰區(qū)域點(diǎn)的密度來判斷對象的離群趨勢.NSD算法計算過程簡單,計算結(jié)果準(zhǔn)確,具有很高的效率.

1 問題描述

在眾多的數(shù)據(jù)集離群點(diǎn)檢測方式中,基于密度的LOF檢測算法最具典型性,它通過計算數(shù)據(jù)集中各數(shù)據(jù)對象的間距,即在事先設(shè)定相鄰數(shù)據(jù)對象數(shù)量的前提下計算對象的最高分布密度,然后以此為基礎(chǔ)確定特定對象的離群系數(shù).離群系數(shù)越大,對象成為離群點(diǎn)的可能性越高.由此可見LOF算法通過離群系數(shù)的數(shù)值大小判斷對象的離群傾向[6-7].然而,該算法必須對所有的對象逐一進(jìn)行密度和離群系數(shù)的計算,且一旦參數(shù)選擇不當(dāng)就難以獲得準(zhǔn)確的結(jié)論.基于以上分析,優(yōu)化算法流程、降低參數(shù)因素干擾能夠有效提高算法的準(zhǔn)確度,具體可通過以下集中方式進(jìn)行.

(1)設(shè)定一個數(shù)據(jù)點(diǎn)截取距離,以數(shù)據(jù)對象為中心,以該距離為半徑劃定一個圓形區(qū)域作為數(shù)據(jù)對象的相鄰區(qū)域,取代LOF算法按數(shù)量選擇相鄰數(shù)據(jù)點(diǎn)的方式,對象離群程度越高,區(qū)域內(nèi)相鄰點(diǎn)越少,由此可減少計算量.

(2)直接以區(qū)域內(nèi)的相鄰點(diǎn)數(shù)量描述對象的密度,取代LOF算法通過數(shù)據(jù)點(diǎn)間距值進(jìn)行密度計算的方式,進(jìn)一步簡化計算流程.

(3)對所有沒有相鄰數(shù)據(jù)點(diǎn)的對象進(jìn)行統(tǒng)一賦值,無需計算數(shù)據(jù)集中每個數(shù)據(jù)對象的離群系數(shù).

以上幾點(diǎn)即為NSD作為LOF優(yōu)化算法的設(shè)計思路.

2 NSD算法設(shè)計

每一個數(shù)據(jù)集X中都包含了數(shù)據(jù)的K種屬性,xi、xj分別為從數(shù)據(jù)集中隨機(jī)選取的兩個數(shù)據(jù)對象,dist(xi,xj)為二者在數(shù)據(jù)集中的距離,其表達(dá)式為

(1)

基于數(shù)據(jù)屬性的不同設(shè)定一個截取距離R,由此可定義在dist(xi,xj)≤R的條件下由所有與目標(biāo)對象距離為dist(xi,xj)的數(shù)據(jù)所組建的數(shù)據(jù)集為目標(biāo)對象xi的鄰域系統(tǒng)NR(xi),其構(gòu)成如圖1圓形區(qū)域所示.

對于圖1中的多屬性數(shù)據(jù)集,C1、C2、C3分別為其中的三個屬性簇,O1、O2是兩個離群數(shù)據(jù)點(diǎn).以C2簇中的目標(biāo)對象xi為中心,以截取距離R為半徑的鄰域系統(tǒng)內(nèi)包含xm,xn,xj,xl4個數(shù)據(jù)點(diǎn),因此xi的鄰域系統(tǒng)可表示為

NR(xi)=

{xm,xn,xj,xl},∣NR(xi)∣=4.

圖1 鄰域系統(tǒng)示意圖

鄰域系統(tǒng)中數(shù)據(jù)點(diǎn)密度den(xi)的表達(dá)式為

(2)

由上式可見,NR(xi)中數(shù)據(jù)點(diǎn)數(shù)量越多,則其密度越大.同時,

0≤den(xi)≤(N-1)/R,

N為數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的總數(shù)量.

不同對象的鄰域系統(tǒng)密度如圖2所示.

圖2 不同對象的鄰域系統(tǒng)密度

圖2中的三個圓形區(qū)域分別為正常數(shù)數(shù)據(jù)對象xi與離群數(shù)據(jù)對象O1、O2的鄰域系統(tǒng),它們的半徑即截取距離是相同的.xi在C2屬性簇中的鄰域系統(tǒng)包含了4個數(shù)據(jù)點(diǎn),O1在C1屬性簇中的鄰域系統(tǒng)同樣包含了4個數(shù)據(jù)點(diǎn),而O2的鄰域系統(tǒng)是空的,按照鄰域系統(tǒng)密度的定義,數(shù)據(jù)對象xi和O1的鄰域系統(tǒng)密度均為4/R,而數(shù)據(jù)對象O2的鄰域系統(tǒng)密度為0.

在以鄰域系統(tǒng)中數(shù)據(jù)點(diǎn)數(shù)量描述系統(tǒng)密度的前提下,數(shù)據(jù)對象xi在多屬性數(shù)據(jù)集X中的離群度NSD(xi)的計算方式為

(3)

當(dāng)∣NR(xi)∣>0時,上式可轉(zhuǎn)換為

(4)

離群度數(shù)值與目標(biāo)對象的離群程度存在以下幾種對應(yīng)關(guān)系.

(1)當(dāng)NSD(xi)=0時,表明目標(biāo)對象的鄰域系統(tǒng)中沒有數(shù)據(jù)點(diǎn),xi不屬于任何屬性簇,離群程度較高.

(2)當(dāng)NSD(xi)>1時,表明目標(biāo)對象的鄰域系統(tǒng)中雖然存在一些數(shù)據(jù)點(diǎn),但xi與這些數(shù)據(jù)點(diǎn)各自鄰域系統(tǒng)的密度存在較大差異,即xi與這些數(shù)據(jù)點(diǎn)并不屬于同一個屬性簇.

(3)當(dāng)NSD(xi)≈1時,表明xi與其鄰域數(shù)據(jù)點(diǎn)各自鄰域系統(tǒng)的密度近似相等,二者位于同一屬性簇的可能性較大.

(4)當(dāng)NSD(xi)<1時,表明xi的鄰域系統(tǒng)密度大于其鄰域數(shù)據(jù)點(diǎn)的鄰域系統(tǒng)密度,是數(shù)據(jù)集中較為常見的現(xiàn)象.

由此可見,對于數(shù)據(jù)集中的任意一個數(shù)據(jù)對象xi,如果其離群度為0,則可認(rèn)定其為離群點(diǎn),如果其離群度大于1,則說明對象的離群趨勢比較明顯.數(shù)據(jù)對象離群程度如圖3所示.

圖3 數(shù)據(jù)對象離群程度示意圖

在圖3中,xd為離群點(diǎn)O1的鄰域系統(tǒng)數(shù)據(jù)點(diǎn)之一,在半徑同樣為R的xd的鄰域系統(tǒng)中包含了19個數(shù)據(jù)點(diǎn),那么xd與O1的鄰域系統(tǒng)密度比為

den(xd)/den(O1)=(4/R)/(19/R)=19/4,

即二者的鄰域密度相似性量化數(shù)值為4.75.通過式(4)可計算出NSD(O1)=3.8125,說明O1具有明顯的離群趨勢.相比之下,對于圖2中C2屬性簇內(nèi)的正常數(shù)據(jù)對象xi,其鄰域系統(tǒng)密度為4/R,

NSD(xi)=1.25,

與1較為接近,說明xi基本不具離群可能性.

在確定數(shù)據(jù)集X中任意數(shù)據(jù)對象xi的離群程度時,如果僅通過xi鄰域系統(tǒng)的密度進(jìn)行判斷,那么當(dāng)對象位于數(shù)據(jù)點(diǎn)分布較為稀疏的屬性簇中時發(fā)生誤判的可能性極大,因此NSD算法基于數(shù)據(jù)對象本身及其領(lǐng)域數(shù)據(jù)點(diǎn)各自的鄰域系統(tǒng)密度相似性進(jìn)行離群趨勢判斷,從而保證了離群度判定的準(zhǔn)確性.算法流程如下[8-11].

輸入:k維數(shù)據(jù)集X,截取距離R,n.

輸出:NSD算法判定的離群點(diǎn)編號.

3 測試與分析

選取國外某網(wǎng)絡(luò)入侵記錄數(shù)據(jù)集進(jìn)行離群點(diǎn)檢測,該數(shù)據(jù)集為高維數(shù)據(jù)集,特征維度多達(dá)41個,共包含50000個數(shù)據(jù)點(diǎn),其中離群點(diǎn)數(shù)量為1500個,各數(shù)據(jù)對象最小間距值為1.5,對象最少有1個臨近數(shù)據(jù)點(diǎn)數(shù)量.分別通過本文設(shè)計的NSD算法與現(xiàn)有的CBOF、LDOF、LOF算法進(jìn)行檢測并對比檢測結(jié)果,以驗(yàn)證NSD算法的性能與檢測準(zhǔn)確性.本次測試用計算機(jī)采用Intel Corei 5處理器、主頻為2.5 GHz、4 GB內(nèi)存、安裝Windows 7專業(yè)版操作系統(tǒng),算法軟件運(yùn)行環(huán)境為MATLAB 2016A.

由于NSD算法的關(guān)鍵參數(shù)為截取距離R,而其它3種算法的關(guān)鍵參數(shù)為近鄰參數(shù)k,所以需要對各算法的參數(shù)敏感性進(jìn)行計算,以反映其對不同算法檢測準(zhǔn)確率的影響程度,具體計算公式為

(5)

式中:m為實(shí)驗(yàn)次數(shù),參數(shù)變化速率為設(shè)定值.

以所選數(shù)據(jù)集為基礎(chǔ),按數(shù)據(jù)點(diǎn)數(shù)量為10000、20000、30000、40000、50000創(chuàng)建5個不同規(guī)模的數(shù)據(jù)集,通過上述算法對各數(shù)據(jù)集分別進(jìn)行離群點(diǎn)檢測,準(zhǔn)確率結(jié)果如表1所列.

表1 不同算法的離群度檢測準(zhǔn)確率對比

由表1中的數(shù)據(jù)可見,在各種關(guān)鍵參數(shù)設(shè)定的條件下,NSD算法的離群點(diǎn)檢測準(zhǔn)確率均高于其它3種算法,截取距離為較小值2時,準(zhǔn)確率較低,而延長截取距離后檢測準(zhǔn)確率均達(dá)到90%以上.同時,通過表中數(shù)值計算各算法的參數(shù)敏感性,結(jié)果為

S(NSD)=24.72,S(CBOF)=34.01,
S(LOF)=45.03,S(LDOF)=52.98,

對比可見NSD算法的參數(shù)敏感性較低.

在不同數(shù)據(jù)規(guī)模下對NSD算法的R及其它算法的k取最優(yōu)值,得到最高檢測準(zhǔn)確率條件下的算法運(yùn)行效率,具體結(jié)果如表2所列.

表2 不同算法的運(yùn)行效率對比

由表2中的數(shù)據(jù)可見,各算法的運(yùn)行時間隨數(shù)據(jù)集規(guī)模的擴(kuò)大而延長,而在相同數(shù)據(jù)規(guī)模的條件下NSD算法的運(yùn)行時間均比其它3種算法短,由此可認(rèn)定NSD算法具有更高的運(yùn)行效率.

4 結(jié)語

為了有針對性地解決傳統(tǒng)離群點(diǎn)檢測算法參數(shù)敏感性高、準(zhǔn)確率低的問題,本文提出了一種基于鄰域數(shù)據(jù)對象密度差異的NSD離群點(diǎn)檢測算法,通過目標(biāo)對象與其鄰域數(shù)據(jù)點(diǎn)的密度相似性判斷其在數(shù)據(jù)集中的離群程度,相較于傳統(tǒng)的LOF算法,本文所設(shè)計的算法優(yōu)化了計算流程,提高了計算結(jié)果的準(zhǔn)確性并降低了參數(shù)對計算精度的影響,對于各鄰域數(shù)據(jù)挖掘技術(shù)的發(fā)展具有重要意義.

猜你喜歡
檢測系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
WJ-700無人機(jī)系統(tǒng)
“幾何圖形”檢測題
“角”檢測題
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
主站蜘蛛池模板: 国产福利免费在线观看| 亚洲男人天堂网址| 久久久亚洲国产美女国产盗摄| 国产一区二区丝袜高跟鞋| 欧美高清视频一区二区三区| 亚洲最新网址| 国产亚洲欧美在线中文bt天堂| 亚洲一级毛片免费看| 国产精品久久久久久影院| 亚洲一区二区精品无码久久久| 国产一级毛片网站| 71pao成人国产永久免费视频| 国产美女丝袜高潮| 91欧洲国产日韩在线人成| 国产性爱网站| 国产第一页屁屁影院| 国产免费精彩视频| 中日韩一区二区三区中文免费视频 | 日韩精品成人网页视频在线| 欧美成人综合在线| 国产粉嫩粉嫩的18在线播放91| 国产欧美一区二区三区视频在线观看| 国产色网站| 91精品在线视频观看| 久久99久久无码毛片一区二区| 亚洲高清日韩heyzo| 亚洲欧美不卡中文字幕| 日本一区二区不卡视频| 国产又粗又猛又爽视频| 热re99久久精品国99热| 在线观看热码亚洲av每日更新| 无码内射在线| 69精品在线观看| 18黑白丝水手服自慰喷水网站| 成人噜噜噜视频在线观看| 熟妇人妻无乱码中文字幕真矢织江| 日韩毛片免费| 久久女人网| 国产日韩欧美黄色片免费观看| 欧美日韩国产在线人| 亚洲无码免费黄色网址| 国产美女在线免费观看| 国内精品久久九九国产精品| 日韩精品成人网页视频在线| 久久一色本道亚洲| 91小视频在线| 国产又黄又硬又粗| 欧美一级片在线| 性激烈欧美三级在线播放| 91综合色区亚洲熟妇p| 日本欧美视频在线观看| 99在线视频精品| 亚洲精品欧美日本中文字幕| 亚洲无码视频喷水| www.日韩三级| 中文字幕亚洲专区第19页| 18禁黄无遮挡免费动漫网站| 大香伊人久久| 青青草原国产免费av观看| 国产视频 第一页| 91网站国产| 国产亚洲高清视频| 无码高清专区| 国产熟睡乱子伦视频网站| 亚洲国内精品自在自线官| 欧美综合区自拍亚洲综合天堂| 亚洲一区二区三区中文字幕5566| 中文国产成人精品久久| 67194亚洲无码| 高清无码一本到东京热| 日韩精品无码一级毛片免费| 91亚瑟视频| 久久免费看片| 好久久免费视频高清| 国产69精品久久| 国产精品永久不卡免费视频| 国产精品三级av及在线观看| 国产va在线| 亚洲欧洲日产国产无码AV| 欧美亚洲国产视频| 99久久国产综合精品2020| 国产精品自在在线午夜|