賈麗麗
文獻[1-9]分別提出了基于核心集的模糊聚類算法、隨機抽樣的聚類算法、基于平衡樹結構的一種增量式聚類算法、基于單元和密度的GARDENHD聚類算法、增量式的聚類算法、基于譜聚類的增量式聚類算法來處理海量數據問題,但上述聚類算法都是使用硬聚類方法,這種算法與現實問題不夠匹配。為克服以上缺陷,文獻[10]提出模糊聚類中的隸屬度表示一個數據屬于所有類的程度解決現實問題更符合。文獻[11-12]分別提出了單通模糊C均值聚類算法、在線模糊C 均值聚類算法,這兩種算法都是將整個大規模數據分塊后對每個塊處理,最后從中獲取到的信息構成數據集的中心點。文獻[13-15]提出了有效的并行聚類算法,都是處理對象型的海量數據,也存在著通信代價高,總體效率低,算法太過簡單、聚類精度受限于原始數據的空間分布等問題。為了克服以上缺點,陳愛國等研究使用多個代表點的適用于海量數據處理的聚類算法,提出了基于多代表點的LS-FMMdC 模糊聚類算法應用于海量數據問題,但LS-FMMdC 算法相對于聚類初始化具有敏感性。
綜上,國內外學者提出了一些海量數據的分析方法,并取得了一定進展,但已有的方法主要是采用聚類算法,然而聚類算法存在兩個缺點:1)對初始值選取非常敏感,會導致不能聚類的結果;2)容易陷入局部極值。上述兩個缺點導致基于聚類算法來分析海量數據具有一定的局限性。隨著物聯網、“互聯網+”等技術的廣泛應用,各行業的數據規模將進一步擴大,數據類型也變得多樣復雜,基于聚類算法來處理海量數據問題的局限性越顯突出。因此,在已有成果基礎上深入開展海量數據分析方法的研究具有重要的理論價值和科學意義。

圖1 文化-K均值聚類混合算法框架
傳統的K-均值聚類算法存在兩個固有的缺點:1)可能會導致不同的聚類結果,主要是由于初始值選取的敏感性;2)該算法很容易陷入局部優化,主要原因是該算法采用梯度下降法,搜索方向是沿著能量減少的方向進行。這兩個缺點,限制了該算法的范圍。為了克服K-均值聚類算法初始化敏感性和容易陷入局部優化兩大缺點,引入文化算法加以改進,以文化算法為框架,K 均值算法為聚類模型的混合聚類算法,針對聚類問題建立文化算法的雙層空間進化模型,設計適合于聚類問題的知識空間、群體空間、接受函數和影響函數,并使用多種知識進行指導,使得該問題在求解過程中能夠利用經驗知識來指導搜索過程,對于獲得全局最優解有較好的效果,在聚類中起到了良好的指導作用,從而具有較好的全局尋優性能,能夠有效地克服K-均值算法的兩大缺點。適用于求解海量數據分析中的聚類問題。

圖2 文化-LS-FMMdC新模糊聚類混合算法框架
LS-FMMdC 方法是一種新的能夠有效處理大規模數據的模糊聚類算法,該算法具有更優越的聚類性能和參數的魯棒性,但LS-FMMdC 算法在聚類初始選取時具有敏感性,需要進一步減少其敏感性。引入文化算法加以改進,以文化算法為框架,LS-FMMdC新模糊聚類算法為聚類模型的混合聚類算法,設計適合于LS-FMMdC 新模糊聚類問題的知識空間、群體空間、接受函數和影響函數,提高LS-FMMdC 方法的全局優越性,同時克服聚類初始化的敏感性。
文化-聚類混合算法可以在云南天文臺NVST(New Vacuum Solar Telescope)海量數據的計算與推理中,對NVST 海量數據進行深度挖掘,提取蘊含在異構數據中的模式和知識,聚合各種時間、空間模式,分析模式之間的相關關系,辨識各種模式的發展和演化機制,建立“由因導果”及“執果溯因”推理模型。
在醫院圖像灰度密度的研究基礎上,文化算法的LS-FMMdC 新模糊聚類混合算法可以提出基于圖像帶修正的密度構造聚類算法,對現有圖像數據挖掘算法加以比較篩選和改進,深入研究醫學圖像數據的核密度函數、數據分箱等,使圖像更精確。