999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合孤立森林和局部離群因子的離群點檢測方法

2023-01-31 08:56:00程張玉鄒承明
計算機應用與軟件 2022年12期
關鍵詞:特征檢測方法

凌 莉 程張玉 鄒承明

1(武漢工程職業技術學院信息工程學院 湖北 武漢 431400) 2(武漢理工大學計算機科學與技術學院 湖北 武漢 430070) 3(交通物聯網技術湖北省重點實驗室 湖北 武漢 430070)

0 引 言

離群點檢測作為數據挖掘技術下的一個重要子項,被廣泛應用于欺詐檢測和網絡入侵檢測[1]以及工業系統故障檢測[2]等。隨著信息檢索和數據挖掘技術的迅速發展,離群點檢測的相關的研究也在持續發展。近年來,提出了一系列離群點檢測方法,其中,孤立森林算法是由Liu等[3]提出的無監督離群點檢測集成方法,因其時間復雜度低、精度高而受到工業界和學術界的廣泛關注。Staerman等[4]使用孤立森林來檢測功能數據中的異常,通過對函數空間的隨機劃分,解決了函數空間具有不同拓撲結構、異常曲線具有不同模態特征的問題。徐東等[5]提出了SA-iForest算法,利用模擬退火算法去除相似度高的孤立樹,選擇精度高和差異性大的孤立樹組成孤立森林然后用于檢測,在準確率、效率和泛化能力方面都有所提高。

局部離群因子是基于密度的經典離群點檢測算法,因其簡單性和有效性被廣泛應用于現實場景下的離群點檢測,如多工況過程故障檢測[6]。現有的研究在局部離群因子算法的基礎上主要針對以下三個方面進行了改進:① 為了提升算法的檢測效率,劉芳等[7]提出了快速的 Top-n 局部離群點檢測算法(MTLOF),設計了融合索引結構和多層LOF上界的多粒度剪枝方法來提高檢測效率。② 為了提高LOF的精度,Tu等[8]提出了譜角和局部離群點(SALOF)算法,通過計算每個簇類中各數據點的k近鄰,得到所有數據點的可達距離和局部可達密度,并依據事先設置好的分割閾值得到數據點的異常概率。③ 針對LOF的超參數選擇問題,Xu等[9]提出了一種優化方法,即聯合調整LOF超參數k進行離群點檢測的啟發式策略。

由于缺乏離群點的相關先驗知識,依賴于數據全局分布及先驗知識的傳統離群點檢測方法無法有效地檢測出離群點。局部離群因子通過計算給定數據點的局部偏差來發現離群點,擁有檢測局部離群點的優勢并且不依賴于數據集的先驗知識及全局分布。通常,離群點在數據集中所占比例相對較小,而現有研究中基于局部離群因子衍生出的多數方法在檢測時需要計算所有數據點的lof值,算法效率受到了較大影響,使其無法適用于大規模多維數據集的離群點檢測。孤立森林擁有線性時間復雜度且對于全局離群點的識別有著較高的精度,但在應用于大規模多維數據集的檢測時,采用全局異常標準無法準確檢測出局部離群點,常常出現精度差和效率低等問題。因此,本文提出了FSIF-HDLOF方法,即利用優化iForest剪枝方法最大限度地剪枝掉原始數據集的高密度空間數據點,輸出規模較小的離群點候選集用于優化LOF的精確檢測,從而提升檢測的精度和效率。

1 相關工作

孤立森林算法是一種具有線性時間復雜度的無監督離群點檢測方法。通過對原始數據集多次隨機采樣,再對每次采樣后的數據對象隨機選擇特征進行劃分構建等價于二叉搜索樹的孤立樹,最后形成孤立森林。

局部離群因子算法是一種基于數據密度的離群點檢測算法,聚焦在數據點的鄰域密度,將具有低密度的數據點視為離群點。LOF算法的一些主要概念如下:

定義1dist(di,dj):表示數據點di到數據點dj的歐氏距離。

定義2k距離(k_dist(di)):將數據點di到其他數據點的距離從小到大排序,數據點di到第k個數據點的距離即為k距離。

定義3k距離鄰域(Nk(di)):到數據點di距離小于k_dist(di)的數據點集合。

定義4可達距離(reach_distk(dr,di)):數據點dr到數據點di的可達距離為數據點dr的k距離和數據點di到數據c點dr間距中的最大值。

定義5局部可達密度(lrd(di)):數據點di的k距離鄰域Nk(di)內的所有數據點到數據點di的平均可達距離的倒數。

定義6局部離群因子(lof(di)):數據點di的k距離鄰域Nk(di)中所有點的局部可達密度與數據點di的局部可達密度之比的平均數,定義為:

(1)

2 整體框架

圖1顯示了融合孤立森林與局部離群因子的離群點檢測方法的總體流程,主要包括以下兩個階段:

(1) 剪枝階段:將原始數據集輸入基于數據降維和閾值優化的剪枝方法算法,利用NMIFS選出特征子集,然后對特征子集對應的所有數據點進行采樣構建孤立森林,再定義特征離群系數計算剪枝閾值得到離群點候選集。

(2) 檢測階段:利用基于信息熵加權的歸一化歐氏距離計算得到離群點候選集的距離矩陣,再利用DPCA聚類,根據所得簇類信息計算簇類近鄰數來設置LOF的超參數k近鄰,計算每個數據點的lof值。最后,結合數據點在剪枝階段所得的異常分數Score以及在精確檢測階段所得的lof值,通過加權融合的離群分數來確定最終離群點集。

圖1 融合孤立森林與局部離群因子的離群點檢測方法框架

3 FSIF剪枝方法

3.1 NMIFS數據降維優化策略

由于大規模多維數據集的高度稀疏及噪聲較多等特殊性質,在使用孤立森林進行剪枝時,存在著兩點不足:① 大量的特征信息未被使用,算法可靠性降低;② 可能存在的大量噪聲或無關特征會影響孤立樹的構建,算法精確度不高。因此本文考慮在剪枝前采用數據降維方法對原始數據進行降維處理,以降低多維特征對構建孤立樹的影響并提升算法的效率。一般情況下,特征選擇需要結合數據標簽的使用,而進行離群點檢測的大規模多維數據集常無對應的標簽,因此需要從數據本身出發,理解數據特性及特征之間的關聯性,針對性地選擇適用的特征選擇方法。綜上,本文采用更適合現實應用場景的基于標準化互信息(Normalized Mutual Information,NMI)的無監督式特征選擇算法[10]。

3.2 特征離群系數用于閾值優化

通常,在一個特定的數據集中不同特征具有不同的實際含義,特征的數值范圍也會有差異,而離群點的存在則會影響每個特征的離散程度。因此,本文通過數據特征統計分析得到特征的離散程度,定義特征離群系數來度量數據集的離散度,并通過計算得到剪枝閾值。

定義特征fj的特征離群系數Disp_coe(fj)為:

(2)

通過特征離群系數向量即可計算得到剪枝閾值θD。式(4)中,DNorm-Top(s)是指采用Top()算法快速獲取Df中特征離群系數較大的s個值,s為NMIFS對D降維后Fs中特征的數量,調節因子α為區間[0.45, 0.55]之間的隨機數。通過孤立森林算法計算每個數據點的異常分數并降序排序,將前n×θD條具有較大異常分數的數據點歸入離群候選集。

(3)

(4)

4 HDLOF檢測方法

原始LOF存在一些明顯的不足,如通過歐氏距離計算點距沒有考慮數據集不同特征的重要程度,超參數k近鄰的隨機或者憑經驗選取,都會影響數據點的lof值計算,從而影響LOF對離群點檢測的準確性。因此,本節針對以上不足進行了改進,提出了基于鄰域優化的局部離群因子算法(HDLOF)。改進后的算法使用更加精細的基于信息熵加權的歸一化歐氏距離來計算數據點之間的距離,超參數k近鄰的值采用基于DPCA聚類后簇類信息而計算所得的簇類近鄰數來設置,離群點由最終加權融合的離群分數確定。

4.1 基于鄰域優化的局部離群因子精確檢測

4.1.1基于信息熵加權的歸一化歐氏距離

(5)

(6)

數據點di與數據點dj間的信息熵加權歐氏距離為H_dist(di,dj,wf),計算式如式(7)所示。為消除特征之間的量綱影響,在信息熵加權的歐氏距離基礎上,對距離進行歸一化,最后數據點di與數據點dj間基于信息熵加權的歸一化歐氏距離如式(8)所示。

(7)

(8)

4.1.2基于密度峰值的超參數優化策略

一般而言,數據集可以劃分為幾個簇類,而同一簇類的數據點相似度較高,每個簇類內數據點可設置相同的參數k,不同簇類的數據點可根據其所在簇類信息設置相應的參數k。Rodriguez等[11]2014年提出的快速密度峰值聚類算法(DPCA)能很好地識別任何形狀的簇類,具有很強的泛化能力。因此,本文利用該聚類算法對上一階段孤立森林剪枝方法輸出的離群點候選集進行快速聚類,并根據簇類結果,為不同簇類的數據點設置不同的超參數k。

DPCA聚類結束得到c個簇類中心以及數據點所屬簇類,統計可得各簇類數據點個數{s1,s2,…,sc}。本文提出了簇類近鄰數(cluster_k)的概念,將其設置為某個簇類中所有數據點的超參數k近鄰值,第i個簇類中數據點的簇類近鄰數表示為cluster_ki,對應計算式為式(9),其中,si為第i個簇類中數據點的個數。

(9)

4.2 HDLOF精確檢測實現

本節結合剪枝階段所得數據點d的異常分數Score(d)以及本節精確檢測所得的lof(d),根據式(10)計算得到數據點d最終的離群分數lof-Score(d)。其中,β為融合權重。在FSIF-HDLOF中,HDLOF用于精確檢測,具有更高可信度,因此賦予lof值較大權重,β建議取值范圍區間[0.7, 0.9]。

lof-Score(d)=(1-β)×Score(d)+β×lof(d)

(10)

HDLOF具體實現步驟如算法1所示。

算法1HDLOF檢測實現

輸入: 離群點候選集OC,數據點的平均異常分數Score(c),異常數量m。

輸出: 離群點集OutlierSet(O)。

①HNorm_dist(ci,cj,wf);

/*根據式(8)計算離群點候選集

的距離矩陣*/

② cluster_ki;

/*根據式(9)計算數據點的簇類近鄰數,即超

參數k值*/

③lof(c); /*根據式(1)計算所有數據點的局部離群因子*/

④lof-Score(c);

/*根據式(10)計算所有數據點最終離群分

數*/

⑤O; /*取lof-Score最大的Top(h)個數據點作為離群點*/

⑥ returnO

/*返回離群點集*/

5 實驗與結果分析

5.1 實驗數據與實驗環境

為了全面地評估算法性能,本文所有實驗均在以下介紹的五個不同規模數據集上進行。數據集Satellite、Mnist、Shuttle以及Smtp均來自于Outlier Detection DataSets (ODDS) 網站,其出現在很多文獻[3,12-13]上被用于評估離群點檢測算法的性能。五個數據集具體信息如表1所示。

表1 數據集的詳細信息

實驗環境:本文基于Python來處理數據集、實現剪枝和檢測算法及性能驗證,實驗均在同一筆記本電腦上運行。設備硬件配置為:Intel i5-3337U CPU @ 1.80 GHz 雙核四線程處理器,8 GB內存,Python版本為3.6.4。

5.2 評價指標

5.2.1剪枝精度評價指標

基于數據降維和閾值優化的孤立森林作為FSIF-HDLOF的剪枝方法,其目的是在保證離群點不被剪枝掉的情況下,剪枝掉盡可能多的正常數據以減少后續LOF的計算量,從而提升整體的算法效率。考慮到剪枝比例會在不同程度上影響LOF檢測的準確度,因此本文將同時使用剪枝占比和剪枝準確率來衡量剪枝算法的高效性和準確性。

剪枝準確率(Pruning Precision,PP),即離群點候選集中真實離群點的數量與離群點候選集數據點總數的比值,公式為ρPP=ρTP/(ρTP+ρFP)。一般PP值越高,表示在離群點候選集中,真正的離群點所占比例越大,剪枝后留下的正常數據越少,剪枝效果越好。剪枝占比(Pruning Number,PN)是指被修剪數據點的百分比,即被剪枝掉的數據點數量與數據集數據點總數的比值。通常,在PP較高的情況下,PN越大,說明算法剪枝效果越好。

5.2.2檢測精度評價指標

大部分離群點檢測算法為無監督形式,為了準確評估及對比不同算法的檢測效果,本文實驗所用數據集均為帶標簽數據集。因此,本文利用傳統的常用評價指標Precision和F1-Measure來評估離群點檢測算法的性能,其中F1-Measure是Precision和Recall加權調和平均,作為綜合評價指標更具有代表性。

5.3 實驗方法性能評估

為了驗證本文所提的FSIF-HDLOF對大規模多維數據集離群點檢測的有效性,將FSIF-HDLOF與離群點檢測領域上常用算法,如原始Isolation Forest(IF)、原始LOF、KMeans-LOF(K-LOF)[14]和R1SVM[15]這五個方法在五個不同規模的數據集上進行對比實驗。其中,FSIF和K-Means分別用于FSIF-HDLOF和K-LOF算法剪枝階段。

5.3.1剪枝方法性能評估

剪枝方法FSIF和K-Means在數據集上的實驗結果如表2中所示,FSIF的剪枝準確性及剪枝占比均高于K-Means算法。分析發現,K-Means用于剪枝的思想是:聚類之后,根據某種規則將數據點數量少的簇類整體或者簇類中的部分數據點歸入離群點候選集。因此,這種剪枝方式極大容易受到聚類過程的影響,而K-Means的聚類結果往往具有很大的隨機性,造成了其用于剪枝的惡劣結果。孤立森林則相比使用了聚類思想的剪枝方法而言要優勝許多。

表2 實驗方法在數據集上的剪枝性能

5.3.2融合方法性能評估

1) 檢測精度指標。圖2為上述五個算法在數據集上檢測結果的混淆矩陣,左縱坐標為數據集名稱,下橫坐標為五個算法,右縱坐標為檢測的標簽,上橫坐標為真實標簽,其中0代表離群點,1代表正常數據。每四個格子為一個算法對一個數據集的檢測結果。從圖2中可看出,五種算法均能檢測出絕大部分正常點(即TN),但都存在著部分誤檢。其中,FSIF-HDLOF表現相對優異,其所檢測的TN和TP總數均高于其他算法。

圖2 實驗方法在數據集上的混淆矩陣

圖3 實驗方法在數據集上的Accuracy、F1-Measure

圖3展示了五個對比算法在數據集上的Accuracy和F1-Measure結果,可以看到所提出的FSIF-HDLOF在不同數據集上都表現出了相比其他算法更好的性能和更加穩定的檢測效果。特別地,對于大規模多維數據集ALOI和大規模數據集Smtp,其正常數據點與離群點的比例極其不平衡。分析可知,單一的離群點檢測方法對所有數據采用同一種異常標準,無法綜合考慮數據的全局和局部信息。當大規模多維數據集的正常點與離群點的比例極其不平衡時,采用統一標準的單一離群點檢測方法無法準確檢測出離群點。融合方法FSIF-HDLOF通過初步剪枝,使得離群點候選集的分布不再極端化,并結合數據的全局異常信息以及局部離群程度來綜合確定離群點,大大提高了極不平衡數據的檢測精度。

2) 運行時間成本。運行時間成本是指在標準軟硬件系統上進行離群點檢測所花費的時間,包括數據預處理時間和檢測計算時間。FSIF-HDLOF和K-LOF算法的預處理時間為FSIF和K-Means的剪枝耗時,R1SVM算法的預處理時間為數據集隨機化的耗時,而IF和LOF只有離群點檢測計算時間,在數據集上運行時間如圖4所示。 除Mnist數據集外,IF在剩余4個數據集上的運行速度最快,由此驗證了利用其對原始數據集進行剪枝的合理性。FSIF-HDLOF由于使用了LOF進行精確檢測,因此其效率不如IF,但因為結合IF的使用,其在大規模數據集Shuttle和ALOI上的檢測速度遠高于LOF。

圖4 實驗方法在數據集上的運行時間

6 結 語

在大規模多維數據集中,為了更有效地檢測離群點,本文提出一種新的融合方法。該方法融合iForest和LOF來檢測離群點,并針對剪枝階段iForest和檢測階段LOF的不足進行了相應改進。采用基于數據降維和閾值優化的iForest對原始數據集進行剪枝,得到較小規模、高質量的離群點候選集待進一步精確檢測。基于離群點候選集,提出的閾值優化局部離群因子方法能有效地檢測離群點。五個數據集用來評估本文算法的性能,與其他算法相比,本文算法檢測精度明顯優于其他算法,實現了檢測精度與效率的良好平衡,在大數據量且低離群點比例的數據集ALOI和Stmp上優勢更明顯。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 自慰网址在线观看| 香蕉久久永久视频| 欧美日韩精品综合在线一区| 色综合网址| 国产精品成人一区二区| 日韩最新中文字幕| 欧美日韩国产在线播放| av在线手机播放| 欧美国产综合视频| 久久亚洲精少妇毛片午夜无码| 久久久精品国产亚洲AV日韩| 国产三级精品三级在线观看| 国产欧美精品专区一区二区| 国产美女在线观看| 黄色在线不卡| 一区二区三区在线不卡免费| 亚洲欧美日韩高清综合678| 欧美在线精品一区二区三区| 99福利视频导航| 91色在线观看| 亚洲三级色| 国产成人精品日本亚洲| 日韩经典精品无码一区二区| 日韩高清无码免费| 亚洲资源站av无码网址| 久久精品国产一区二区小说| 欧美色丁香| 亚洲黄网在线| 国产在线91在线电影| 国产成人亚洲精品无码电影| 九色在线观看视频| 国产人免费人成免费视频| 国产性生交xxxxx免费| 国产成人永久免费视频| 日韩东京热无码人妻| 中文字幕在线日韩91| 亚洲无码四虎黄色网站| 亚洲天堂免费观看| 天天综合网亚洲网站| 亚洲婷婷在线视频| 欧美精品v欧洲精品| 中文字幕人妻av一区二区| 亚洲无码视频喷水| 97精品国产高清久久久久蜜芽| 亚洲国产成人自拍| 久久一本精品久久久ー99| 日韩高清成人| 亚洲人成成无码网WWW| 日韩一区二区三免费高清| 精品一区二区久久久久网站| 日本成人精品视频| 亚洲成a人片77777在线播放| 女人av社区男人的天堂| 99热国产这里只有精品9九| 天天色天天操综合网| 婷婷午夜天| 国产精品福利社| 欧美国产视频| 亚洲国产日韩在线成人蜜芽| 激情乱人伦| 亚洲91精品视频| 亚洲天堂视频在线播放| 456亚洲人成高清在线| 六月婷婷综合| 一级香蕉视频在线观看| 日韩精品一区二区三区swag| 丁香综合在线| 国产理论一区| 精品三级在线| 国产自产视频一区二区三区| 亚洲精品波多野结衣| 欧美人在线一区二区三区| 国产乱子精品一区二区在线观看| 国产视频自拍一区| 国产超薄肉色丝袜网站| 免费高清a毛片| 中文字幕首页系列人妻| 啪啪永久免费av| 亚洲欧美激情另类| 凹凸国产分类在线观看| 亚洲综合久久成人AV| 91精品专区国产盗摄|