逄琳 劉方愛



摘 要:針對傳統的聚類算法對數據集反復聚類,且在大型數據集上計算效率欠佳的問題,提出一種基于層次劃分的最佳聚類數和初始聚類中心確定算法——基于層次劃分密度的聚類優化(CODHD)。該算法基于層次劃分,對計算過程進行研究,不需要對數據集進行反復聚類。首先,掃描數據集獲得所有聚類特征的統計值;其次,自底向上地生成不同層次的數據劃分,計算每個劃分數據點的密度,將最大密度點定為中心點,計算中心點距離更高密度點的最小距離,以中心點密度與最小距離乘積之和的平均值為有效性指標,增量地構建一條關于不同層次劃分的聚類質量曲線;最后,根據曲線的極值點對應的劃分估計最佳聚類數和初始聚類中心。實驗結果表明,所提CODHD算法與預處理階段的聚類優化(COPS)算法相比,聚類準確度提高了30%,聚類算法效率至少提高14.24%。所提算法具有較強的可行性和實用性。
關鍵詞:聚類算法;層次劃分;最佳聚類數;初始聚類中心;聚類有效性指標
中圖分類號: TP301.6 文獻標志碼:A英文標題