摘要:為了滿足大規模數據集快速離群點檢測的需要,提出了一種基于分化距離的離群點檢測算法,該算法綜合考慮了數據對象周圍的密度及數據對象間的距離等因素對離群點的影響,通過比較每一對象與其他對象的分化距離來計算其周圍的友鄰點密度,挖掘出數據集中隱含的離群點。實驗表明,該算法能有效地識別離群點,同時能反映出數據對象在數據集中的孤立程度。算法的復雜度較低,適用于大規模數據集快速離群點檢測。
關鍵詞:離群點檢測;分化距離;分化度;友鄰點
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2010)09-3316-03