結合局部敏感哈希和隨機游走的異常檢測算法*

2018-12-25 08:52:02劉華文鄭忠龍徐曉丹

計算機與生活 2018年12期

舒敏，劉華文，鄭忠龍，徐曉丹

浙江師范大學數理與信息工程學院，浙江金華 321004

1 引言

隨著信息技術的快速發展，數據呈現爆炸式的增長。然而由于設備故障、信號干擾、人為操作失誤等各種因素，數據在收集過程中可能會出現一定的偏差或異常。檢測并排除數據中的異常點是數據挖掘的主要任務之一。由于能夠檢測數據中的異常點及噪聲，異常檢測在現實中得到廣泛應用，如欺詐檢測[1]、網絡入侵[2]、醫療數據分析[3]等。

異常檢測可通過如統計方法或鄰域判定等多種方式實現。例如，統計方法通常假定大部分正常的數據對象服從相同的數據分布，而異常的數據不屬于該數據分布。由于統計方法高度依賴于數據分布的假定，因而只適用于低維的數據，不適合高維的數據[4]。面向鄰域的異常點檢測方法則是根據每個數據對象的鄰域情況來判斷其是否屬于異常數據。典型的方法包括局部異常因子算法（local outlier factor，LOF）[5]和K最近鄰算法（K-nearest neighbor，KNN）[6]等，其中LOF算法通過比較每個點與其第k個鄰域的局部密度來判斷該點是否為異常點。注意到LOF算法對鄰域k的選擇較為敏感，若k的取值不合理，將導致檢測結果不準確，且只適用于維度較低的數據。KNN算法[6]是以數據點到第k個近鄰的距離來表示該點異常程度。該方法簡單直觀，可以較好地適應中等維數的數據，但數據稀疏會導致異常檢測的結果出現較大誤差。鄰域離散度算法（dispersion of neighbors，DON）[7]根據數據對象所在鄰域的離散度來判斷其是否為異常點。盡管該算法可以避免邊緣處正常數據對象被誤判為異常點，但需要計算大規模高維數據的離散度。

隨著信息技術的快速發展，各個領域都出現了大規模的數據。盡管目前已提出了許多異常點檢測算法，但大部分檢測算法在處理大規模高維度數據時效率較低。如何從大規模數據中高效地檢測異常點越來越受到關注。大數據的數據量大、維度高、數據分布復雜且稀疏等特性給異常點的檢測帶來了很大的挑戰。針對此問題，本文提出了一種適用于大規模數據的異常點檢測方法，該方法首先采用局部敏感哈希技術高速處理大規模數據，避免了數據高維性帶來的維災難問題，同時還保證原始空間中數據的相似性，進而運用高效的距離度量準則構造數據的相似矩陣。在此基礎上，利用隨機游走技術區分正常數據和異常數據。實驗結果表明，本文所提出的異常點檢測算法能有效地檢測出數據中的異常點。

本文的結構組織如下：第2章介紹異常點檢測的相關工作；第3章簡述局部敏感哈希和隨機游走的基本原理；第4章介紹本文所提算法的主要思路及細節；第5章給出了實驗比較并對實驗結果加以分析；第6章總結全文，并給出了未來工作展望。

2 相關工作

目前，文獻中已提出了許多異常點檢測算法，它們大致可分為[8]：基于統計的異常點檢測方法、基于鄰域的異常點檢測方法、基于子空間的異常點檢測方法、基于分類的異常點檢測方法、基于孤立的異常檢測方法。

基于統計的異常點檢測方法通常假定正常的數據對象產生于某一個統計模型而不屬于該分布規律的數據對象為異常點[4]。該方法擁有成熟的概率統計知識作為支撐，因此檢測出異常數據可以有很好的解釋。但它高度依賴于數據模型分布的假定，即要求已知數據服從某種分布，而實際情況中數據集很難服從該假定。其次，此方法檢測的數據對象是單一維度的，并不合適用在高維度數據。

基于鄰域的異常點檢測方法主要通過比較每個數據對象其鄰域來判斷數據是否異常。LOF算法[5]就是一種典型的基于鄰域的檢測算法，其主要的思想是通過比較每個點和第k鄰域局部密度來判斷該點是否為異常點。由于LOF算法對參數k比較敏感，而不合理的k值會導致較差的檢測效果，為此文獻[9]提出了基于連接性的異常因子算法（connectivity based outlier factor，COF）。該算法根據最短路徑和數據對象的連接性來確定鄰域k，計算與其鄰域的平均連接距離，并以此作為相對密度來判斷異常點。由于COF算法計算量大，因此在處理大規模數據集時效率較低。以上算法檢查出的邊緣數據點的異常程度較高，但是在某些情況下邊緣數據點并非異常點。DON算法[7]根據數據對象所在鄰域的離散度來判斷異常點，可以避免邊緣處的正常數據對象被誤判為異常點，然而此算法計算高維數據的離散度，會存在部分數據維度信息沒有使用，將會導致算法可靠性下降。基于局部距離的異常因子算法（local distance-based outlier factor，LDOF）[10]將數據對象到k個近鄰的距離的均值與k個近鄰彼此之間的距離均值的比值作為該數據對象的異常度。注意到，此算法在大規模高維數據集下運行速度較慢。

基于子空間的異常點檢測方法主要是為每個數據對象尋找最佳的子空間并計算相應的異常程度。具有解釋的局部異常檢測算法（local outlier detection with interpretation，LODI）[11]通過特征分解尋找近鄰間隔最大化的子空間，然后進行異常度計算。子空間異常度算法（subspace outlier degree，SOD）[12]和相關異常概率算法（correlation outlier probability，COP）[13]，這兩種算法能夠對每個數據點選擇最佳的子空間進行異常值計算，但算法復雜性比較高。

基于分類的異常點檢測方法主要通過學習數據對象的邊界，將邊界外的數據點作為異常點。由于數據標簽種類不同，分類的形式有單分類和多分類，因此基于分類的異常檢測方法分為單分類的異常點檢測和多分類的異常點檢測。單分類的異常點檢測是學習數據集的一個邊界，邊界內包裹的數據屬于正常點，邊界之外的數據則是異常點。代表性的算法如一類支持向量機算法（one class support vector machine，One-class-SVM）[14]，該算法在高維特征空間中通過非線性核映射計算一個最小超球體作為邊界，將邊界內的數據作為正常點，而邊界外的數據作為異常點。通常這類問題要求已知的數據集大多數屬于同一類，而另一類數據集的樣本數目很少，此方法效率會較慢。多分類的異常檢測方法主要對數據集學習多個邊界，將不包含在任何邊界內的數據點定義為異常點。最具有代表性的是基于神經網絡的多分類異常點檢測[15]。此方法分為兩個階段：第一個階段利用正常的多分類訓練數據來訓練模型；第二個階段將測試數據輸入模型，若網絡接收則為正常點，反之為異常點。

基于孤立的異常點檢測方法是將異常點與其余點分開，即通過隔離異常點而不是分析正常點的方法來進行異常點的檢測。孤立森林（isolation forest，iForest）[16]主要采用隨機超平面遞歸地分隔異常點，如果某個數據點越容易與其余數據點分隔開，那么該數據點的異常程度也越高，此方法在選擇分隔維度和分隔點時具有隨機性和無目的性。為此，參考文獻[17]提出了熵引導孤立樹（entropy-guided isolation tree，EGiTree），它在選擇分隔維度和分隔點時具有很強的目的性，并且在同一個階段完成異常程度的計算。但是這類方法不適合特別高維的數據，因為高維空間可能存在大量噪音維度或無關維度，而這會影響樹的構建。

3 基本概念

3.1 局部敏感哈希

局部敏感哈希（locality sensitive Hashing，LSH）[18-20]是一種面向大規模數據的最近鄰獲取技術。LSH的主要思想是設計一種特殊的哈希函數，使得兩個相似度很大的數據能以較高概率映射成相同的哈希值，而兩個相似度很小的數據則以很小的概率映射成相同的哈希值。

基于隨機投影的LSH是一種經典的方法。具體是利用隨機超平面將高維的數據向量投影到超平面之上，使高維空間的數據向量之間相似性在海明空間得以保存。假設數據集為X=[x1,x2,…,xn]∈Rn×d，隨機向量v的每一項均取自標準正態分布N(0,1)，則隨機投影的哈希函數定義如下：

隨機超平面技術可用來近似衡量數據之間余弦相似度。數據點xi和xj經過隨機投影之后相似的哈希值概率為：

等式（2）中θ(xi,xj)表示數據點xi和xj之間的角度。從等式中可以知道數據點之間的角度越小，則數據點之間越相似，相似的數據是能以較高的概率映射成相同的哈希值，而不相似的數據映射成相同的哈希值的概率較小。

數據點xi經過等式（1）投影之后，轉化為數據點的一個二進制位。重復L次，將這L個二進制位連接起來獲得長度為L的二進制向量。這樣，高維空間數據之間的相似度量轉化為海明空間二進制之間的相似性度量。

3.2 隨機游走

給定圖G和一個出發節點，隨機游走[21-22]主要思想是在給定的出發節點上隨機選擇鄰節點，并移動到鄰節點上，將此時節點作為新的出發節點，一直重復以上過程。隨機游走是隨機過程的一種方式。文中隨機過程是馬爾可夫鏈，為此介紹馬爾可夫鏈原理。隨機過程是概率空間中一組隨機變量yt=y(t)，t為任意參數。馬爾可夫鏈是如果隨機過程中隨機變量yt取有限個值，即y1…yt…yn，并稱它們為狀態變量，yt表示第t時刻的狀態，以及它們的取值{1,2,…,n}稱為狀態空間，那么對于狀態i,j,k0,k1…,滿足以下概率：

這樣的隨機過程是馬爾可夫鏈，等式（3）是狀態i轉移到狀態j的轉化概率aij。也就是說馬爾可夫鏈下一時刻的狀態僅僅由當前的狀態決定，不依賴以往的任何狀態。圖1給出隨機游走的過程：在t=0時刻從節點1出發，在t=1時刻以1/2的轉移概率達到節點4后選擇下一個目標。

Fig.1 Process of random walks(The number on edge indicates transition probability)圖1 隨機游走的過程（邊上的數字表示轉移概率）

4 結合LSH和隨機游走的異常檢測算法

本章介紹基于LSH和隨機游走的異常點檢測算法，分為兩個階段：第一階段度量數據相似性，利用LSH將原始數據向量表示成海明空間的二進制向量形式，其保證了原始數據空間的相似性，之后度量每個數據點的最近鄰k個點，并構造相似矩陣S；第二階段建立相似矩陣S與轉移概率P之間的關系，并構造馬爾可夫鏈，進而使用隨機游走來區分正常點與異常點。

4.1 數據相似性

給定數據集X=[x1,x2,…,xn]∈Rn×d，假設哈希函數族H，其中函數族中每一個函數均為等式（1）所示。對于LSH哈希函數族H，它是從H中均勻隨機地選擇L個哈希函數h1,h2,…,hL。

數據點x經過這L個哈希函數，可以把L個二進制位連接起來，使得原始數據集可表示成海明空間二進制形式，即B(x)={h1(x),h2(x),…,hL(x)}∈{0,1}L。

對于具有n個數據點的集合X?Rn×d，經過隨機投影之后，可得到相應的二進制向量集B，如下所示：

假設數據集的相似矩陣為S={sij}n×n，sij表示海明空間中數據點B(xi)和B(xj)之間的相似度。在相似矩陣S中，不考慮每個數據點之間的相似性，而只考慮數據最近鄰k個點之間的相似性，因此，sij表示形式如下所示：

式（5）中dH(,)表示海明距離，kB(x)表示數據點B(x)的最近鄰k個點。從等式中可知，如果數據點B(xj)是數據點B(xi)最近鄰k個點之一，那么數據點B(xi)和B(xj)之間相似度是非零數，反之相似度為0。理想情況，正常數據的最近鄰k僅僅含有正常數據，而異常數據的最近鄰k同時含有正常和異常數據。

4.2 隨機游走

由前一階段可得到相似矩陣S，將相似矩陣S表示成有向圖的形式，并稱此有向圖是相似圖G，其中相似圖G的頂點對應數據集X，相似圖G的邊對應相似矩陣S。在相似圖G中，正常數據點的鄰邊僅僅連接在正常數據點上，然而異常數據點的鄰邊存在正常數據點和異常數據點均有邊的情況。

在相似圖G上采用隨機游走的過程來識別正常點與異常點[22]。而此時，隨機游走的過程是一個離散時間的馬爾可夫鏈。定義從某一時刻數據點B(xi)到下一時刻數據點B(xj)的轉移概率aij為：

由于所有的正常點和所有的異常點之間是沒有任何連接的。根據此定義，若隨機游走的初始點是正常的數據點，那么它會一直在正常的數據點之間游走，不會離開正常點的范圍，相反，隨機游走的初始點是異常的數據點，則隨機游走最后可能處于正常的數據點之間游走的狀態，因為隨機游走一旦脫離了異常狀態，到達正常狀態，它將不可能返回異常狀態。隨機游走的初始點處在不同的數據點上，通過觀察隨機游走狀態的最后概率分布，異常點最終會被識別出來，即正常點的概率越來越大，而異常點的概率越來越小。

設P={aij}∈Rn×n是轉移矩陣，轉移矩陣P與相似矩陣S有關。定義是經過t步后所有數據點的狀態概率，則t+1步狀態轉移為：

因此t步轉移概率為π(t)=π(0)·Pt，其中π(0)為所有數據點的初始概率，并設定為：

式（8）表明了初始狀態每個數據點均有可能。對于第t步所有數據點的狀態概率，由于π(t)沒有要求收斂，因此選擇T步平均作為最后的結果，如下所示：

式（9）表明在數據集X中初始隨機游走，之后計算T步所有隨機游走的概率分布平均之和。隨機游走最終狀態轉移是：正常數據點狀態概率高而對于異常數據點狀態概率低。結合LSH和隨機游走的異常檢測算法（outlier detection algorithm with locality sensitive Hashing and random walks，LSH-RWOD）描述如下：

算法1LSH-RWOD算法

輸入：數據集X，二進制碼長度L，最近鄰k，步數T，異常點個數ε。

輸出：異常數據點xj。

（1）使用式（1）得到數據集X的二進制編碼B。

（2）利用式（5）構造數據集相似矩陣S。

（3）由式（6）數據之間的相似性sij和轉移概率aij之間的關系，求轉移矩陣P。

（5）fort=1…T

①計算t步狀態轉移概率：π=π·P。

②計算所有t步狀態轉移概率：。

（6）對最終轉移概率進行排序，返回中前ε個元素作為異常點。

4.3 算法時間復雜度分析

LSH-RWOD算法時間復雜度主要由相似度的構造和隨機游走這兩部分組成。假設數據量及維度分別為n和d，且編碼長度為L，則相似矩陣S的構造的時間復雜度為O(nL2)，而隨機游走的時間復雜度為O(n2)。因此，LSH-RWOD算法的時間復雜度為O(nL2)+O(n2)。通常情況下，編碼長度L遠小于n，故LSH-RWOD算法的時間復雜度為O(n2)。

5 實驗分析

使用幾組數據集來檢測LSH-RWOD算法的異常檢測效果。除One-class-SVM以外的對比算法均根據數據點的局部鄰域來計算異常程度，并且LSHRWOD算法中也涉及最近鄰k，為此實驗將局部鄰域和最近鄰統一設置為20，該值的變化對算法性能的比較影響不大。針對SOD算法，本實驗根據參考文獻[12]中意見將參數l設為k，α設為0.8。對于LSHRWOD算法其不同的二進制碼長度L一定程度上會影響異常檢測的效果，根據文獻[19,21]的建議，本實驗將L分別設置為24、32、48、64、96，同時將步數T設置為1 000。

5.1 實驗環境

實驗采用由索引結構支持的數據挖掘應用開發環境（environment for developing knowledge discovery in database-applications supported by index-structures，ELKI）中的數據（http://elki-project.github.io/）和異常檢測數據集（outlier detection data sets，ODDS）中的數據（http://odds.cs.stonybrook.edu#table1）。所有的數據均做了標準化的處理，其中Mnist是手寫數字樣本，數字0樣本作為正常數據點，從數字6隨機抽取的樣本作為異常點，異常點所占比例為9.2%。Musk是麝香數據集，包含幾個麝香類和非麝香類，將非麝香類j146、j147和252數據記為正常點，而麝香類213和211記為異常值，異常點的數據所占比例為3.2%。Arrhythmia的樣本包含正常的患者和心律失常的患者，將心律失常的患者標記為異常點數據，所占比例為45.8%。Speech為不同口音的英語語音片段組成數據集，大部分數據對應于美國口音，只有1.7%對應于其他7種口音之一，這些數據標為異常點。InternetAds是由來自網頁的圖像組成，分為廣告和不廣告兩種類型，將是廣告的數據標記為異常點數據，其所占的比例為13.9%。實驗數據集簡要描述信息如表1所示。

Table 1 Experimental datasets表1 實驗數據集

為驗證所提算法的有效性，實驗將LSH-RWOD算法與6種流行的異常點檢測算法進行比較，它們分別是局部異常因子算法（local outlier factor，LOF）[5]、基于局部距離的異常因子算法（local distance-based outlier factor，LDOF）[10]、子空間異常度算法（subspace outlier degree，SOD）[12]、一類支持向量機算法（one class support vector machine，One-class-SVM）[14]、基于連接性的異常因子算法（connectivity based outlier factor，COF）[9]和相關異常概率算法（correlation outlier probability，COP）[13]，其中 LOF 算法、COF 算法和LDOF算法是屬于鄰域的異常點檢測方法，SOD算法和COP算法為子空間的異常點檢測方法，而Oneclass-SVM算法是基于分類的異常點檢測算法。所有的算法均采用ELKI數據包中的源碼，實驗也在ELKI中進行比較。

5.2 評價指標

為了衡量各種算法的異常點檢測效果，實驗使用曲線下面積（area under curve，AUC）、平均精度（average precision，AP）、MaxF1這三個度量標準作為評價指標。三個評價指標值越接近1，則表明該算法異常檢測的效果越好。

AUC是受試者工作特征（receiver operating characteristic，ROC）曲線下的面積，其值介于0和1之間。假設數據集為D，數據集中異常點集合為C，正常點集合為D-C，T(ε)為算法檢測出前ε個異常數據點集，則有：

AP為PR曲線的面積。PR曲線的表示為：

MaxF1是算法檢測出前ε個異常點的數據集中基于精確度P(ε)和召回率R(ε)的最大調和平均，其表示形式為：

5.3 實驗結果

本文提出的LSH-RWOD算法，不同的二進制位在一定程度上會影響檢測效果，為此，比較各個數據集上不同二進制位其LSH-RWOD算法的AUC值，如表2所示。從表中可以看出二進制位越長，在一定程度上檢測效果越好，其主要原因是二進制位越長，使得原始信息損失越小，且構造的相似性越準確。

Table 2 AUC value for different binary LSH-RWOD algorithm on each dataset表2 各個數據集上不同二進制LSH-RWOD算法的AUC值

由于LSH-RWOD算法采用了LSH技術獲取數據的相似性，而LSH存在著一定的隨機性。為了驗證LSH-RWOD算法的穩定性，在相同的數據集上固定二進制的長度L，多次循環運行LSH-RWOD算法，獲取評價指標的平均值，并作為最終的檢測結果。為了避免二進制長度較小，導致原始信息損失，設二進制長度為L=96。

圖2給出LSH-RWOD算法在實驗數據集中不同循環次數的平均AUC值。從圖2中可以看到，當循環次數在140次以下時，檢測效果在評價指標值的0.1范圍內波動，而當循環次數達到140次以上，檢測效果趨于穩定。因此，本文所有的實驗均是循環200次后的平均值。同時觀察到算法在循環20次時檢測效果基本上比穩定狀態較好，主要原因在于本文算法采用哈希編碼來構造相似矩陣，從而使得相似的數據映射成相似的哈希值概率更高，同時不相似的數據映射成相似哈希值的概率較低。由于不相似的數據點也可能映射成相似的哈希值，從而導致構造的相似矩陣可能存在誤差，但是多次循環其包含的相似矩陣S的誤差種類多于較小循環次數中相似矩陣S的誤差種類，從而穩定狀態的平均結果會稍低于循環20次時的平均結果。

Fig.2 AverageAUC value of each datum in different cycles圖2 各個數據不同循環次數下的平均AUC值

圖3和圖4是LSH-RWOD算法在各個數據集中不同循環次數的平均AP值和MaxF1值。當循環次數達到140次以上時，檢測效果趨于穩定。且注意到循環次數較低時其異常檢測效果不穩定，產生的主要原因是LSH-RWOD算法采用哈希編碼來構造相似矩陣，此過程的哈希編碼技術具有一定的概率性，使得相似矩陣S存在誤差，而當循環次數過多時，LSH-RWOD算法包含誤差種類多于較小循環次數中誤差種類，因此循環次數過少，實驗結果有時不盡理想。

Fig.3 AverageAP value of each datum in different cycles圖3 各個數據不同循環次數下的平均AP值

Fig.4 Average MaxF1 value of each datum in different cycles圖4 各個數據不同循環次數下的平均MaxF1值

綜上所述，本文提出的LSH-RWOD算法具有穩定性。

從表2的實驗結果可知，為更好地保留樣本的信息，選擇L=96構造數據的二進制位。LSH-RWOD算法將原始數據哈希到海明空間二進制表示，哈希函數選擇隨機向量v均取自標準正態分布，同時參考圖2～圖4的實驗結果，LSH-RWOD算法結果取自各個數據集循環200次得到的平均值。

在評價指標AUC下，不同方法在各個數據集中異常檢測效果，如表3所示。實驗表明在該評價指標，LSH-RWOD算法在Mnist、Musk、Arrhythmia這三個數據集上優于其他算法。但在Speech數據集上，One-class-SVM算法的檢測效果是優于LSH-RWOD算法的，原因是One-class-SVM算法適合解決極度不平衡的數據集，即一種類型樣本的數目遠遠多于另一種類型樣本的數目，那該方法異常檢測的效果會更明顯。而在Speech數據集上，它包含異常樣本比例最小，因此，One-class-SVM算法能更有效檢測出邊界外的異常數據點。在Internet Ads數據集上，One-class-SVM算法也是優于LSH-RWOD算法，其主要原因是Internet Ads數據集維數過大，此時LSHRWOD算法的二進制長度較小不能完全刻畫數據的原始數據信息，導致部分數據信息流失，在計算相似矩陣時存在誤差，使得在隨機游走的過程中識別異常點的效果變差。LOF、LDOF、SOD、COF、COP這五種算法在各個數據集中檢測效果均在80%以下，原因是局部鄰域較小，并不能刻畫數據點的局部特性，且這些算法不能較好地處理大規模維度高的數據，因此異常檢測效果差。

Table 3 AUC value of different algorithms in each dataset表3 不同算法在各個數據集中的AUC值 %

在評價指標AP下，不同方法在各個數據集中異常檢測效果，如表4所示。實驗表明LSH-RWOD算法在這五組數據上遠優于其他算法。LOF、LDOF、SOD、One-class-SVM、COF、COP這六種算法在Mnist、Musk、Speech、Internet Ads這四組數據集上檢測效果過差，原因是這四個數據集中異常數據的比例在15%以下，局部鄰域較小，不能準確刻畫數據點的局部性，因此大部分算法表現效果不佳是合理的。而在Arrhythmia數據集上，此數據集異常點所含比例大，這六種方法較其他數據集，檢測效果較好。

Table 4 AP value of different algorithms in each dataset表4 不同算法在各個數據集中的AP值 %

在評價指標MaxF1下，不同方法在各個數據集中異常檢測效果，如表5所示。實驗表明LSH-RWOD算法優于其他算法。在這五組數據集上，樣本所含異常點的比例按從小到大的順序分別為Speech、Musk、Mnist、InternetAds、Arrhythmia。而 LOF、LDOF、SOD、COF、COP五種算法在前四個數據集上表現效果不佳，主要原因是局部鄰域較小，不能很好地刻畫數據點的局部性，但在Arrhythmia數據集上，這五種方法較其他數據集，檢測效果較好。

Table 5 MaxF1 value of different algorithms in each dataset表5 不同算法在各個數據集中的MaxF1值 %

綜合分析可以知道，LSH-RWOD方法在這五組數據集上異常檢測效果整體優于其他算法。

6 結束語

針對大規模數據的特點，本文結合局部敏感哈希和隨機游走技術，提出了一種高效的異常點檢測算法LSH-RWOD，以克服大規模、高維數據的異常點檢測問題。首先，利用局部敏感哈希高效地處理大規模數據，隨后運用數據之間距離獲取其相似性，并轉化為相應的轉移概率，在此基礎上，使用隨機游走技術計算數據之間的游走概率，從而最終辨別異常數據。為驗證有效性，LSH-RWOD算法與六種常用的異常檢測算法在公開數據集上進行實驗比較。實驗結果表明，所提出的方法能有效地檢測出異常點，性能總體上優于其他異常點檢測算法。未來的工作將分析LSH方法之間的關系，并使用集成學習技術進一步提高異常點檢測的準確度。