陳硒
中南大學湘雅二醫院信息網絡中心
面向大數據處理的劃分聚類新方法
陳硒
中南大學湘雅二醫院信息網絡中心
在大數據處理中,在物聯網的研究和應用上還存在許多的難題,而且常用的聚類方法在大數據處理上還有許多不適應的地方。因此,需要我們提出一些新的劃分聚類的方法。我們可以利用大數據的抽樣技術,對多次進行抽取的大規模樣本進行聚類,然后來確定其自然簇質心的初始位置。本文重點和大家分析和研究一下關于面向大數據的劃分聚類新方法的有關問題。
大數據 劃分聚類 抽樣 質心
聚類分析是指將物理或抽象對象的集合分組為由類似對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
1.1 大數據的定義
大數據(big data),是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
1.2 大數據的發展趨勢
大數據離不開云處理,云處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。此外,在不久的將來數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基于數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之后,數據共享將擴展到企業層面,并且成為未來產業的核心一環。
劃分聚類是指給定一個有N個元組或者紀錄的數據集,用分裂法構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:每一個分組至少包含一個數據紀錄;每一個數據紀錄屬于且僅屬于一個分組。
對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。
大部分劃分方法是基于距離的。給定要構建的分區數k,劃分方法首先創建一個初始化劃分。然后,它采用一種迭代的重定位技術,通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般準備是:同一個簇中的對象盡可能相互接近或相關,而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質量的其他準則。傳統的劃分方法可以擴展到子空間聚類,而不是搜索整個數據空間。當存在很多屬性并且數據稀疏時,這是有用的。為了達到全局最優,基于劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數應用都采用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的數據庫中小規模的數據庫中的球狀簇。為了發現具有復雜形狀的簇和對超大型數據集進行聚類,需要進一步擴展基于劃分的方法。
使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。
3.1 在商業方面的應用
聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。
3.2 在生物工程方面的應用
聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識,增強人們對生物的形成、演變和進化了解和認知。
3.3 在地理方面的應用
聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性,合一利用其進行天氣氣候的分析,以及地質構造和地殼運動的推演和預測。
3.4 在商業方面的應用
聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組。在電子商務中網站建設數據挖掘中也有很重要的應用,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。
大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態系統。而今,面向大數據的劃分種類的方法和系統的也已經確立,接下來的發展將趨向于系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得數據生態系統復合化程度逐漸增強。
[1]陳寧,陳安.基于密度的增量式網格聚類算法[J].軟件學報,2002,13(1):1-7
[2]劉銘,王曉龍,劉遠超.一種大規模高維數據快速聚類算法[J].自動化學報,2009,35(7):859-866