祝 鵬,郭艷光
(內(nèi)蒙古農(nóng)業(yè)大學 計算機技術(shù)與信息管理系,內(nèi)蒙古 包頭 014109)
隨著信息和電子網(wǎng)絡(luò)社會的不斷發(fā)展,人們生活和生產(chǎn)等各領(lǐng)域都存在各種信息,多數(shù)信息都依靠網(wǎng)絡(luò)作為獲取和分享載體,其擁有海量的信息資源,為滿足用戶的需求,根據(jù)信息的類型和功能分為不同的信息平臺.但隨著日益上升的數(shù)據(jù)量以及時刻都在更新變化的信息需求,各統(tǒng)計類、計算類、儲存類等平臺均受到一定程度的制約.而信息數(shù)據(jù)集成算法能高效解決上述問題,可將具有多元、異構(gòu)的數(shù)據(jù)進行統(tǒng)一化集成管理,從而高效、快速地獲取用戶所需的信息.
文獻[1]提出了一種基于適應(yīng)高維海量數(shù)據(jù)的并行聚類集成算法,在數(shù)據(jù)采樣階段計算每個少數(shù)類樣本的近鄰值,再生成與該值相關(guān)的多個平衡數(shù)據(jù)集,將數(shù)據(jù)經(jīng)過訓(xùn)練用于分類器上,分類后將平衡數(shù)據(jù)完成集成,該算法只對數(shù)量較少且較穩(wěn)定的數(shù)據(jù)集有用,而在數(shù)量多且難度較大的數(shù)據(jù)上進行對比時,集成效果較差,實用性不強; 文獻[2]采用一種基于迭代模糊聚類算法的集成模糊分類器,該分類器在第0階段輸出被擴充到原始空間的數(shù)據(jù),以并行方式計算存在所有空間特征的數(shù)據(jù),根據(jù)泛化原理將同特征數(shù)據(jù)集成到特定空間內(nèi),但該算法的適應(yīng)能力較差,收斂速度較低,不能很好地消化過多的數(shù)據(jù)信息,導(dǎo)致集成次數(shù)相對較高.
針對上述問題,本文基于K-medoids聚類算法對多源信息數(shù)……