999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的離群點檢測方法研究綜述

2021-06-23 09:40:16朱文豪
計算機工程與應用 2021年12期
關鍵詞:檢測方法

周 玉,朱文豪,房 倩,白 磊

華北水利水電大學 電力學院,鄭州450011

聚類在數據處理中占有重要地位,它利用相似性對數據進行分組,同組數據的相似性盡可能大,不同組數據的相似性要盡可能小。聚類分析技術已廣泛應用于各種領域,如計算機科學、生命和醫學科學、社會科學及經濟學等[1]。

離群點是聚類的副產品,因此對常見的聚類算法,如K-means、DBSCAN[2]、CHAMELEON[3]、CLIQUE[4]等加以修改都可將其用于離群點檢測,這些方法大多通過考慮數據對象與簇之間的關系檢測離群點。離群點檢測是數據預處理中的一項重要任務,它的目的是發現數據集中與大多數數據偏離較遠的對象[5]。離群點不一定是錯誤的數據,它們往往包含著重要信息,能夠表征數據集的某些特點,具有重要研究意義。離群點檢測技術在欺詐檢測[6-7]、入侵檢測[8-9]、環境監測[10]、定位[11-12]和目標跟蹤[13-14]等方面已經有了廣泛應用。Gan等提出的KMOR(K-measn with outlier removol)[15]算 法 以 及Ahemd等提出的ODC(Outlier Detection and Clustering)[16]算法都在執行聚類的同時就能進行檢測離群點的任務,這是基于聚類的離群點檢測的最大優點。目前,沒有任何一種聚類方法都適用于所有數據集,不同數據集需要采用不同的聚類方法,這是聚類方法的最大缺點,同時,也是基于聚類的離群點檢測的最大缺點。

文獻[17]從有監督和無監督的角度入手概述了基于深度學習的離群點檢測方法,文獻[18-19]綜述了傳統的和前沿主流的檢測方法,其中都對基于聚類的檢測方法有所提及。但是之前的綜述研究均沒有對基于聚類的檢測方法做出系統總結與分析。為了及時掌握當前基于聚類技術的離群點檢測方法的研究現狀,本文通過歸納與整理,將具有代表性的基于聚類的離群點檢測方法進行了介紹和歸類,將其主要分為靜態數據集中的檢測方法、數據流中的檢測方法、大規模數據中的檢測方法和其他方法等四大類。對每類方法所解決的問題、算法思想、應用場景以及各自的優缺點進行了詳細地歸納和分析,并分析目前存在的問題以及提出未來發展方向。

1 基于聚類的離群點檢測方法分類

1.1 靜態數據集中的檢測方法

靜態數據是指在運行過程中主要作為控制或參考用的數據,它們在很長的一段時間內不會變化,一般不隨運行而改變。聚類技術在靜態數據集中離群點檢測方法可以分為定量分析法和定性分析法。定量分析法主要包括采用離群因子、熵等來檢測離群點的方法,它們對數據點具有明確的離群程度度量,即離群因子或者熵越大,離群程度就越大。而采用距離與概率等的方法中,只能判別數據點是否是離群點,這些方法是定性分析的,定性分析法對離群程度沒有明確的度量。

1.1.1 定量分析方法

在數據處理中,離群點往往包含重要的信息,一個數據點具有多大的離群程度需要根據不同的應用環境獲得,有些離群點可以被“容忍”。

Zhang等人[20]引入了一種稱為基于局部距離的離群因子LDOF(Local Distance-based Outlier Factor)來度量散亂數據集中的離群點。

文獻[21]使用K-means算法對聚類中心周圍的一些點進行剪枝,并使用LDOF從剩余的數據點中識別離群點。文獻[22]提出了一種基于聚類的離群點檢測(Clurstering Based Outlier Dectection,CBOD)的兩階段算法來檢測數據集中的離群點。在第一階段,采用one-pass聚類算法將數據集劃分為半徑幾乎相同的超球體。在第二階段,計算第一階段得到的所有數據的離群因子,并根據其離群因子對數據點進行排序,具有高離群因子的數據點被視為離群點。

Li等人[23]基于FCM里面隸屬度和信息論里面熵的概念提出了一種基于信息熵的離群點檢測方法,他們把聚類之后得到的隸屬度看作數據點屬于對應類別的概率,通過熵來度量數據點的離群程度,計算得到每一個數據點的熵值,將其按從大到小的順序排列,找到數據集中的離群點。

Breunig等人同樣提出了局部離群因子的概念[24-25],這是一種基于密度的方法,這種方法不再將離群點看做一個二值屬性,而是量化地描述數據對象的離群程度,其能在數據分布不均的情況下準確發現離群點,但由于離群點在數據集中所占的比重較小,直接計算數據對象的離群度會增大計算量。Chen等人[26]提出了基于粗糙集理論的混合數據離群點檢測算法,首先指定數據對象每個屬性的粗糙鄰域,再利用屬性值的差異性計算對象的離群程度,但該算法的檢測結果對人工指定的屬性粗糙鄰域范圍參數十分敏感,針對上述缺點,文獻[27]提出了改進的DBSCAN聚類和LAOF兩階段混合數據的離群點檢測算法,在第一階段,通過輸入K近鄰的個數代替Minpts并通過K近鄰確定聚類半徑,從而減少參數輸入進而提高聚類質量,通過改進的DBSCAN對混合數據進行初步篩選,然后利用新構造的LAOF計算篩選后數據的離群程度,在混合數據進行距離度量的過程中采用除一化信息熵差值確定屬性權重,并在第二階段進行二次權重確定。最后利用真實數據對提出的算法進行了驗證,結果顯示該算法能夠提高離群點檢測的精度,降低計算復雜度,但該算法中參數K值的選取直接影響聚類結果。

文獻[28]從定義出發,提出基于聚類的局部離群點的概念。他們解釋了局部的定義,即小聚類在宏觀上可以看作離它最近的大聚類的局部,給出倍數β來作為大小聚類的判別。通過新的局部概念,提出了CBLOF(Cluster-Based Local Outlier Factor)的計算公式,計算得到每一個數據點的局部離群因子來表征離群程度。

Jiang等人[29]利用離群點檢測技術初始化K-modes聚類,避免離群點被選作聚類中心,影響聚類結果。他們根據數據集中的簡單距離提出了屬性加權距離,即不同的屬性對數據的影響不同。在這個定義下,提出兩種表征離群程度的方法。第一種是傳統的基于距離的方法,用DOF衡量離群度。第二種是基于屬性熵的檢測方法,根據提出的屬性加權距離得到每一個數據的屬性熵,計算得到其基于熵的離群因子PEOF來表征離群程度。

文獻[30-34]提出了類似的用信息熵或離群因子來表征離群程度的方法。這些方法的優點十分明顯,它們能夠表征離群點的離群程度,給研究者很重要的參考來判斷哪些離群點可以被“容忍”。

各種離群因子計算公式如下:

u ij表示數據x的隸屬度,c是聚類個數[23]:

對象p的局部離群因子表示為LA(p)與它的k個鄰居局部密度均值比值的倒數[27]:

|Ci|*表示數據集C i的大小,SC、LC分別表示小、大數據集,C j為離C i最近的大數據集[28]:

數據點x的離群因子表示為加權距離w d(x,y)大于參數dis的點的個數與數據集大小的比值[29]:

然而,這些方法的缺點也顯而易見,從計算公式(1)~(4)中可以看出,無論是信息熵還是離群因子的計算,都要首先得到數據點與其他所有點的距離或者數據點周圍其他點的密度,這對于大型高維數據集,計算復雜度會大大增加。

1.1.2 定性分析方法

定性分析方法與定量分析方法的區別是有相應的閾值來判別離群點。

文獻[35]提出了基于K均值和層次聚類的離群點檢測與去除方法,先執行任意一種聚類方法,直接將小簇當作離群簇去除,然后計算每一對數據點之間的距離,提出一個閾值,該閾值是最大距離與最小距離和的一半,如果數據點與聚類中心的距離大于這個閾值,則該點視為離群點,把離群點去除后,聚類效果得到提升。這個閾值是噪聲距離的原型。Rehm等人[36]提出了更為復雜精確的方法,他們引入了單獨的離群簇,將所有的離群點歸類到這一簇中,基于特征空間中超體積的概念給出了新的噪聲距離的計算公式,通過實驗證明,這個閾值更加精確。

Saha等[37]采用了一種綜合的方法檢測離群點,他們的亮點在于提出了硬聚類中隸屬度的概念,先使用Kmeans、K-mean++和FCM對數據集分別進行聚類,得到相應的隸屬度,把隸屬度當作數據點屬于相應類別的概率,然后根據加權概率公式,算出總概率。最終給出閾值的計算過程,如果加權概率中最大的概率小于此閾值,該點就被視為離群點。如公式(6)中,K為聚類個數,θ為所設置的閾值,需通過多次實驗獲得,當閾值減小時,被檢測到的離群點個數隨之減少,反之增加。

Dan等[38]發現通過傳統的FCM算法能巧妙地檢測離群點。他們根據FCM的目標函數發現離群點的存在會使其值顯著變大,也就是說,把離群點去除后,目標函數值會顯著減小,他們通過實驗證明了把每一個數據依次剔除,觀察目標函數值的變化量能很好地判別離群點。對于“顯著”的判斷,他們同樣提出了閾值——目標函數值平均變化量的T倍,T是研究者自己確定的。如公式(7)中,T通常情況下取1.5得到的檢測效果最佳,若T減小,則檢測到的離群點個數增加,反之減少。

相關的判別公式:

u cj表示第j個點對應于第c類的隸屬度,μ、σ為噪聲聚類隸屬度的均值和標準差,β為提出的閾值[36]:

P[i][j]為三種聚類執行后得到的綜合概率,k為聚類個數,θ為提出的閾值[37]:

DOFi為去除第i個點得到的目標函數值變化量,AvgDOF為平均變化量,T為提出的閾值[38]:

文獻[39-41]同樣提出了類似的定性分析方法,都是通過一個界限即閾值來判別離群點,如公式(5)~(7),表述起來十分清晰方便,這是區別于定量分析的最大優點,然而,閾值(β,θ,T等)的確定是一項復雜的工作,需要大量實驗的支撐,并且涉及到大量參數,上述方法幾乎都是在閾值的確定方面做出了創新。

定量分析方法和定性分析方法都有同樣的缺點,即計算復雜度過高,對于大型高維數據集的處理十分困難。在基于K近鄰的離群檢測方法中,文獻[42]提出了在Hadoop平臺上采用分布式計算的方法來解決計算太過復雜的問題。但是,在基于聚類的領域,大型高維數據仍然是一個棘手的問題。

1.2 數據流中的檢測方法

在前一節中提出的檢測方法大多只適用靜態數據集,然而,數據流在許多應用中越來越常見。由于數據流的輸入是動態變化的,這使得有監督的方法基本無從下手,所以無監督的聚類方法更適合數據流的離群檢測。

文獻[43]中基于距離的數據流離群點挖掘算法DSOBD主要是通過計算各個數據塊中每個數據點與其他所有數據點的距離計算離群度的方式判斷是否為離群點。在閾值合適時,此算法檢測的精確度比大多數算法高,但對于大數據集,由于該算法對每個數據都需要計算離群度導致運行效率低。文獻[44]把檢測過程分為兩個階段,首先將滑動窗口固定大小,第一階段對滑動窗口中的數據進行聚類,第二階段負責把小規模的遠離其他簇的小簇挑選出來作為離群點集。這個算法實現了無監督的檢測,但它單一地認為離群點就是小簇,這是不合理的。針對以上缺點,文獻[45]提出了動態離群點檢測算法(Dynamic Outlier detection based onKMeans,DOKM),同樣先使用K-means算法對初始滑動窗口聚類找出小簇并視為離群點集,然后計算剩下的數據點的相對距離,如果此距離大于一定閾值,則該點被視為離群點,同時在滑動窗口中刪除此點。該方法完善了前一個方法檢測到的離群點的類型,改善了檢測結果,并減少了運行時間。

文獻[46]采用頻繁項集的方法處理流數據,Zeng等人[47]提出通過對流數據進行劃分先進行K-means聚類,然后進行聚合聚類的流數據噪聲檢測算法。文獻[48-49]提出一種基于K均值的數據流聚類方法,算法將數據流中數據進行分區,順序的s個數據點構成一個區域,輸入s個數據點,按照K-Means聚類算法從中找出K個均指點,每個點的權重為隸屬于該均指點的數據點數目,重復這一步驟,直到內存中生成s個均值點,對應層次聚類算法的第1層聚類效果;對生成的s個均值點按照K-Means聚類算法從中找出2K個中心點,同時更新這些均值點的權重;繼續讀入s個數據點,進入下一層聚類。借鑒這一方法,倪巍偉等人[50]提出基于K均值分區的流數據離群點發現算法(Data Stream Outliers detection alogorithm based onK-means Partioning,DSOKP)算法,該算法通過對流數據進行分區,在每個分區內基于K-means聚類獲得均值點集,然后識別出異常數據,此算法可以有效解決數據流離群點檢測問題,但參數K的選取依然對算法效能存在較大影響。

文獻[51]提出了一種無監督的快速準確多維序列異常檢測方法(unsupervised Fast and Accurate Anomaly Detection,FAAD)來檢測數據流中的離群點,首先,采用信息計算和最小生成樹聚類的方法減少冗余維數;其次,為了適應數據流的動態特性,加快模型的構建,提出了基于RSIPST(Random Sampling and subsequence partitioning based on the Index Probabilistic Suffix Tree)的隨機采樣和子序列劃分方法;最后,用ABMDA(Anomaly buffer Based on the Model Dynamic Adjustment)降低概念漂移的影響。同樣,為了能夠及時發現異常現象,Yogita等[52]利用加權屬性矩陣來檢測離群點,通過計算當前和以前的方差矩陣來更新權重和聚類中心。文獻[53]提出了基于離群點檢測的不確定數據流聚類算法,先把數據集劃分成若干個微聚類;然后,根據過濾機制獲取全局離群點,在離群點微聚類中使用基于距離的方法挖掘出局部離群點;最后,采用不確定數據流子空間聚類算法完成全局離群點以及局部離群點兩種不確定數據流聚類。這種方法在數據維度和數據規模增加時,不會對算法結果產生太大影響,因此穩當性較好。

文獻[54-56]也提出了類似的數據流中的檢測方法,但是數據流中的離群檢測與靜態數據相比面臨更大的挑戰,首先,數據流中的冗余維數和較大的狀態空間會導致對數據的建模能力差;其次,數據流是連續的,速度很快,這就需要離群檢測方法具有實時性;最后,與靜態數據相比會出現概念漂移的現象,新的數據可能與歷史數據的特征完全不一致,從而影響檢測性能。

1.3 大規模數據集中的檢測方法

隨著數據規模的不斷增長,傳統的集中式算法計算復雜,處理效率受限,無法滿足用戶日益增長的需求。基于聚類的檢測方法對于大規模數據處理起來十分困難,也是亟待研究的領域,但也有少量的學者在這個方面做出了研究,大多以分布式計算作為解決問題的手段。

文獻[57]提出了一種多步異常檢測方法,他們基于互信息和廣義熵的特征選擇技術來選擇相關的非冗余特征子集,基于生成樹的聚類技術生成一組參考點和一個離群值函數來對傳入的網絡流量進行排序以識別異常,設計了一個快速的分布式特征提取和數據準備框架,從原始網絡流量中提取特征。張天佑[58]提出基于網格劃分的高維大數據集離群點檢測算法,先對高維空間進行網格劃分,之后對剩余離群點集進行檢測,但在網格劃分時,時效將成指數增長。

王習特等人在大規模數據檢測方面具有代表性。文獻[31]提出了一種基于網格的劃分算法(Gird-Based Partition algorithm,GBP)作為數據預處理的方法,該方法把數據集分成幾個網格,然后將這些網格分配給分布式環境中的數據節點,其次,提出了一種分布式LOF計算方法(Distributed LOF Computing,DLC),它只需要少量的網絡通信就可以并行檢測基于密度的離群值。文獻[59]提出了一種新型的分布式離群點檢測算法,在預處理階段,設計了新的BDSP(Balance Driven Spatial Partitioning)數據劃分算法,實現了良好的過濾效果,降低了網絡開銷。在這種劃分算法的基礎上,提出了BOD(BDSP-based Outlier Detection)檢測算法,第一步,利用R樹索引進行批量過濾,快速地計算離群點并得到本地候選集,第二步,利用BDSP中提供的塊編碼確定需要相互通信的節點,使用少量的網絡開銷得到最終的結果。文獻[60]提出了更為高效的DACB(Distributed Algorithm for the Cluster-Based outlier detection)算法檢測離群點,主節點根據每個從節點上權重較大的點計算閾值,在每個從節點上設計了一種剪枝方法加快KNN的搜索速度,并利用閾值過濾掉大量冗余節點,最后通過一系列的仿真實驗證明這個方法能有效地減少分布式異常點檢測的運行時間和網絡傳輸量。

Google提出的MapReduce是一種用于大規模數據集的并行運算編程模型,能夠處理T級別以上巨量數據的業務[61],Apache基金會開發的Hadoop分布式系統能夠很好地處理巨量數據,劉亞梅等[62]發現王習特等人提出的BOD算法對全局離群點具有良好的檢測率,但不適用于局部離群點。于是,將傳統的檢測方法LOF和Hadoop分布式平臺下的MapReduce框架結合,實現了并行化策略,并通過密度聚類算法DBSCAN對其進行了改進,但在進行并行化操作時聚類效果會受到影響,并且這種方法對參數(ε,MinPts)和K距離參數比較敏感。

文獻[63]在LDOF算法的基礎上,提出了一種基于多重聚類的離群點檢測算法PMLDOF,該算法針對局部離群度量計算量大的缺點,采用聚類剪枝技術作為減少計算量的方法,同時,為了避免將位于簇邊緣的離群點錯剪,算法利用多重聚類的差異性對簇的邊緣點進行篩選。在對數據集進行剪枝后,計算剩余數據的局部離群度LDOF,并找出符合條件的離群數據點,此算法在時間復雜度和檢測精度上具有良好的優越性。

文獻[64-66]同樣給出了在大規模數據集上的處理方法,由于聚類算法在大規模數據集處理上的局限性,其檢測方法同樣不多。目前對大規模數據集的處理主要集中在兩個方面:首先,在數據預處理方面,對數據集進行剪枝[67]、降維[68],或如文獻[59]中提出新的數據劃分方法,平均化每個節點上的工作負載,提高并行性,降低網絡開銷。其次,采用Hadoop平臺上的MapReduce模型框架,解決數據規模過大的問題。

1.4 其他檢測方法

除了以上三類主要檢測方法外,依然有一些其他檢測方法。文獻[69]提出了三階段K-means算法,對數值型數據進行聚類和離群點檢測。文獻[70]提出了一種用于離群點檢測的兩階段聚類算法。在第一階段,對K-means算法進行了改進,當數據點遠離所有聚類時,將這個數據點指定為一個新的聚類中心。在第二階段,根據第一階段得到的聚類中心構造最小生成樹,在小子樹中的簇被視為離群點。文獻[71]提出了一種同時從數據集中聚類和識別離群點的ORC(Outlier Removal Clustering)算法。ORC算法由兩個連續的階段組成:第一階段是純K-means算法;第二階段迭代地刪除遠離聚類中心的數據點。文獻[72]提出了一種基于馬氏距離的離群點檢測方法。文獻[73]提出了K-means-L算法,它需要兩個參數:K和L,分別指定所需的聚類數和期望的最大離群點數量。

針對傳統的基于最小生成樹的聚類算法時空復雜度過高且容易漏檢較大簇中局部離群點的問題,文獻[74]將基于K近鄰與基于聚類方法的優勢相結合,提出了一種快速K-NN的最小生成樹聚類離群檢測方法,減小了時空復雜度。該方法首先在數據集上構建平分樹,計算數據點的K近鄰,然后減枝確定全局離群點,通過計算局部離群因子來檢測局部離群點,該方法能夠自適應的識別聚類數目并且能夠檢測出多種類型的離群點。

基于密度的聚類通常需要輸入大量的參數,這時參數的選擇在很大程度上會影響聚類以及檢測的效果。邱華等[75]以用電數據上傳過程中的掉線問題為對象,研究一種基于極限學習機的密度聚類離群點檢測方法,他們發現傳統的LOF算法對于智能電表的報文數據掉線分析效果不理想,于是在此基礎上,提出了基于權值的局部離群因子(WLOF)算法,把預處理后的歷史報文數據放入ELM進行訓練,預測得到判別離群點的WLOF閾值,再用密度聚類算法對實時數據進行離群點檢測。這種算法不用知道離群檢測的閾值,拓寬了算法的應用范圍。

同樣,為了解決參數輸入過多的問題,文獻[76]將自然鄰居搜索算法和密度聚類算法相結合,提出了基于聚類離群因子和相互密度的離群點檢測方法,他們使用相互密度和γ密度構造決策圖,將γ密度異常大的樣本點作為聚類中心進行聚類,最后根據聚類的離群因子找出離群聚類邊界檢測離群點。OPTICS也是常用的基于密度的聚類方法,文獻[77]提出了OD-OPTICS算法,為了過濾無效半徑,選擇合適的半徑,在覆蓋空間(coverspace)中提出了半徑過濾策略(RFS),重新定義了核距離(core-distance),更加突出了離群點與正常點之間的不同。

離群點檢測的方法很多,應用場景也多種多樣,例如在文獻[78]中,利用離群檢測提出了OEDP-K-means方法來保護數據挖掘過程中暴露的個人隱私,文獻[79]采用兩步無監督的聚類方法應用于醫療欺詐的檢測。不管是哪種方法,他們都以聚類為背景檢測離群點,在不同領域做出了貢獻。

2 方法總結及存在的主要問題和進一步研究方向

靜態數據集與數據流是相互對立的,因此在檢測離群點時所應用的方法和所要解決的問題截然不同,然而大規模數據集中的檢測方法與上述兩種稍有重合,只不過它的重點在于如何解決計算復雜度過高這個難題,比如對其進行剪枝、降維等。基于聚類的離群點檢測方法方便高效,在進行聚類的同時,就能完成檢測離群點的任務,由于無監督學習的特點決定了數據無需類標簽,因此適用于大多數數據,這是其他方法不可比擬的。

同時,它的不足與劣勢也十分明顯:

(1)基于聚類的離群點檢測方法檢測結果的好壞受到聚類方法本身的制約,對于不同的數據集沒有普遍適用的聚類方法,因此,對于不同的應用場景和數據特征,需要對算法進行調整,這就增加了應用的難度。

(2)在靜態數據集中,定量與定性分析從兩種截然不同的角度判別離群點,定量分析中離群因子與熵值大小能夠明確衡量離群程度,它們的得出往往需要計算每個數據點與其他所有數據點之間的距離或者與周圍點的密度,當數據維數比較高,數據集比較龐大的時候,這種方法運行起來就十分困難,計算就比較復雜,在文獻[27]中,由于傳統的LOF算法計算可達距離和可達密度的時間復雜度較高為o(Nk2),所以對該算法的相關定義進行了改進,采用數據對象的K距離作為可達距離并用區域半徑求得區域面積代替距離和,這樣就降低了時間復雜度變為了o(Nk),定性分析中根據閾值來判別離群點簡潔明了,但閾值的確定是個十分復雜的問題,文獻[36]提出了基于特征空間超體積概念的噪聲距離確定方法,對于其中參數α的確定需要大量實驗,在文獻[38]中,通過大量實驗提出了將目標函數值的平均變化量的T倍作為閾值,其中T的確定同樣需要重復實驗多次。

(3)在數據流中,無監督的方法更加適用動態變化的數據,但冗余維數和較大的狀態空間導致數據建模能力差,不斷變化的數據需要算法具有很強的及時性。文獻[45]提出的DOKM算法在檢測離群點的同時也優化了聚類,但是此算法只能檢測數值型數據,并且質心的初始值隨機性比較大。文獻[50]提出的基于K均值分區的檢測算法需要對數據流先進行聚類生成均值參考點,而K-均值聚類效果受K的影響較大,因此參數K的選取對該算法效能具有很大影響。

(4)在大規模數據中,基于聚類的檢測方法面臨巨大挑戰,離群因子、熵、閾值等的計算復雜度過高是急需解決的問題。文獻[59]研究了分布式環境下的離群點檢測方法,在數據預處理階段,他們提出了新型的數據劃分方法BDSP來均衡每個計算節點的工作負載并具有良好的過濾效果,基于BDSP算法提出了BOD分布式離群點檢測方法,提高了計算效率并大幅降低了網絡開銷。劉亞梅等[62]采用Hadoop平臺上的MapReduce模型框架,以Hbase作為數據庫,解決了數據規模過大的問題,但是由于對數據進行并行化操作時導致數據集聚類效果受到影響,并且此算法同樣對參數(ε,MinPts)和K距離參數比較敏感。

在基于聚類的離群檢測領域,未來應該針對上述問題提出相應解決方法:

(1)研究一種或幾種具有普適性的且運行穩定的針對離群點檢測的聚類算法,在該算法的指導下使離群檢測能夠適用大部分數據集以及更多的應用場景。

(2)針對靜態數據集中的離群點檢測,需要對閾值的計算方法進行創新,因此需要研究新的離群因子模型,給出更為精確的閾值計算公式是當下研究的關鍵。

(3)針對數據流中的離群點檢測,需要解決對流數據的及時適應的問題,如何減少數據的冗余維數以及提高時效性是未來需要研究的方向。

(4)針對大規模數據集中的離群點檢測,需要研究數據預處理方法,進而減小數據量,同時,與并行計算相結合是未來研究的趨勢。

最后,把本文涉及到的文獻與對應的檢測方法類別進行了整理,如表1所示。

表1 典型檢測方法描述與優缺點

3 結語

基于聚類的離群檢測方法在眾多方法中具有明顯優勢,本文主要從數據類型的角度對其進行了分類,在靜態數據集中又從定性定量的角度進行了劃分。在離群檢測領域,大量的方法已被研究者提出,無論是基于統計的,基于密度的,基于距離的還是基于聚類的方法,它們在大規模高維數據集方面都存在一定的局限性,隨著大數據和分布式計算時代的到來,相信這些檢測方法會迎來新的突破。

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国产尤物视频网址导航| 久久综合激情网| 色综合久久88色综合天天提莫| 91在线中文| 国产精品白浆无码流出在线看| 国产精品无码一区二区桃花视频| 91探花国产综合在线精品| 秋霞午夜国产精品成人片| 成人噜噜噜视频在线观看| 人妻一区二区三区无码精品一区| 国产黄色爱视频| 奇米影视狠狠精品7777| 国产幂在线无码精品| 女人18毛片一级毛片在线 | 日韩成人在线一区二区| 国产精品成人一区二区| 精品国产美女福到在线不卡f| 99久久国产自偷自偷免费一区| 成人在线天堂| 国产在线观看第二页| 国产精品美人久久久久久AV| 免费国产高清视频| 日韩一级二级三级| 欧美成人午夜视频免看| 午夜久久影院| 国产亚洲日韩av在线| 成人va亚洲va欧美天堂| 国产主播一区二区三区| 99视频有精品视频免费观看| 欧美日韩精品一区二区在线线| 国产精品天干天干在线观看| 久久久久亚洲Av片无码观看| 欧美一级夜夜爽www| 精品福利网| 五月综合色婷婷| 日韩精品免费在线视频| 国产成年女人特黄特色毛片免| 国产精鲁鲁网在线视频| 亚洲人成网站在线观看播放不卡| julia中文字幕久久亚洲| 国产精品久久精品| www.狠狠| 91久久精品日日躁夜夜躁欧美| 国产又大又粗又猛又爽的视频| 亚洲无线视频| 亚洲无线一二三四区男男| 欧美a在线视频| 欧美午夜在线观看| 亚洲日韩久久综合中文字幕| 国国产a国产片免费麻豆| 国产精品页| 99精品免费在线| 天堂av综合网| 久久久久夜色精品波多野结衣| 国产99热| 色婷婷久久| 自拍亚洲欧美精品| 国产精品一区在线麻豆| 好吊日免费视频| 国产99视频精品免费视频7| 国产夜色视频| 色综合国产| 精品久久久久久中文字幕女| 国产成人永久免费视频| 看你懂的巨臀中文字幕一区二区| 国产拍在线| 婷婷色丁香综合激情| 久久精品一卡日本电影| 欧美黄色a| 日本在线亚洲| 成人在线天堂| 欧美日韩资源| 国产精品久久久久久久伊一| 日韩国产黄色网站| 青青久视频| 欧美日韩另类国产| 国产精品 欧美激情 在线播放 | 欧美三级日韩三级| 91精品国产自产在线老师啪l| 乱人伦中文视频在线观看免费| 亚洲天堂视频在线播放| 精品国产免费观看|