摘要:分層聚類技術(shù)在圖像處理、入侵檢測(cè)和生物信息學(xué)等方面有著極為重要的應(yīng)用,是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一。針對(duì)目前基于SIMD模型的并行分層聚類算法處理海量數(shù)據(jù)時(shí)效果不理想的問題,提出一種基于數(shù)據(jù)預(yù)處理的自適應(yīng)并行分層聚類算法,在O((λn)2/p)的時(shí)間內(nèi)對(duì)n個(gè)輸入數(shù)據(jù)點(diǎn)進(jìn)行聚類。其中1≤p≤n/log n,0.1≤λ≤0.3。將提出的算法與現(xiàn)有文獻(xiàn)結(jié)論進(jìn)行的性能對(duì)比分析表明,本算法明顯改進(jìn)了現(xiàn)有文獻(xiàn)的研究結(jié)果。
關(guān)鍵詞:分層聚類;并行算法;預(yù)處理數(shù)據(jù)
中圖分類號(hào):TP301文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2010)01-0071-03
doi:10.3969/j.issn.10013695.2010.01.020