李玉波,楊余旺,唐 浩,陳光煒
(1.南京理工大學 計算機科學與工程學院,江蘇 南京 210094;2.普渡大學,印第安納州 西拉法葉 47906)
基于Spark的K-means安全區間更新優化算法
李玉波1,楊余旺1,唐 浩1,陳光煒2
(1.南京理工大學 計算機科學與工程學院,江蘇 南京 210094;2.普渡大學,印第安納州 西拉法葉 47906)
每次K-means算法更新聚類中心后,會對數據集中所有的點迭代計算它們與最新聚類中心的距離,進而獲取點的最新聚類。這種全局迭代計算的特征導致傳統K-means算法時間效率低。隨著數據集增大,算法的時間效率和聚類性能下降過快,因此傳統的K-means算法不適合大數據環境下的聚類使用。針對大數據場景下的時間效率和性能優化問題,提出了一種基于Spark的K-means安全區間更新優化算法。在每次更新聚類中心后,該算法更新安全區間標簽,根據標簽是否大于0每次判斷落在該區間內的全部數據的簇別,避免計算所有點與中心的距離,減少因全局迭代造成的時間和計算資源開銷。算法基于Spark機器MLlib組件的點向量模型優化了模型性能。通過衡量平均誤差準則和算法時間兩個指標,進行了優化K-means與傳統K-means聚類的性能對比實驗。結果表明,所提出的優化算法在上述兩個指標上均優于傳統的K-means聚類算法,適用于大數據環境下的數據聚類場景。
K-means;安全區間;Spark;大數據;時間效率
聚類分析是數據挖掘領域中的重要分析,廣泛應用于網絡入侵檢測、醫學圖像處理、文本檢索、生物信息學等領域[1]。K-means算法是針對具有連續特征屬性的數值型數據進行聚類劃分,因為其較好的伸縮性和簡單的實現方式而被廣泛采用[2]。……