朱 賀,黃克清
(中國電子科技集團第15研究所,北京 100083)
二十一世紀是互聯網的時代,如今互聯網已經成為人們日常生活中必不可少的一部分。互聯網信息鋪天蓋地的進入人們的視野中,這其中大量的信息產生的了大量的數據[1]。然而,傳統的數據處理能力已經不能夠滿足互聯網時代對數據分析的需求,因此一種切實可行、高效的數據處理技術越來越受人們的關注。分布式數據挖掘算法作為近些年新起的數據分析方法,由于其高效的計算能力和數據處理能力已經適用于各個行業領域中[2]。
針對大部分分布式計算環境廣泛應用于互聯網中。本文著重對分布式數據挖局算法在熱點微博分析系統的應用進行了研究,對數據挖掘算法的基本設計思想和相關算法分析的基礎上,設計一套基于分布式數據挖掘算法的熱點微博分析系統。本系統的設計思路為:通過貝葉斯分類算法完成對文本的分類;通過K-Means算法實現對微博相關特征的聚類分析。
樸素貝葉斯分類算法設計的理念在于對貝葉斯分類算法的重組的基礎上,通過編程完成了分布式數據挖掘算法的構建。貝葉斯文本分類算法的流程圖大致可設計為如圖1所示的結構。
分析圖1可知,貝葉斯分類算法可以設計可以概括為三步:第一,實現對訓練集的規劃;第二,實現對訓練集的精簡;第三,實現對測試集的規劃[3]。經實踐應用表明,樸素貝葉斯分類算法所實現的文本分類是很難滿足實際需求的,故需在樸素貝葉斯分類算法的基礎上引入TFIDF計算,如圖2所示。引入TFIDF計算的樸素貝葉斯分類算法從根本增強了分布式貝葉斯的實際研究意義。

圖1 貝葉斯分類算法流程圖

圖2 改進后貝葉斯分類算法實現步驟
分布式數據挖掘K-Means算法是基于K-Means算法實現的,該算法的實現步驟是在傳統K-Means聚類算法的基礎上完成的。
分布式數據挖掘K-Means算法實現步驟:第一,將所有的數據樣本進行分類,保證其在各自的節點上,并保證每個節點只對其自身的數據樣本進行運算;第二,以“全局變量”的原則對本地所有數據樣本的簇進行計算;第三,對比第二步計算的結果,若該結果與整個數據樣本的中心相同,則此時的分類結果為最優;若計算結果不一致,則重復第二步的計算,直至滿足要求[4]。分布式數據挖掘K-Means算法的具體計算流程如圖3所示:
本文以熱點微博分析為研究對象,著重對分布式數據挖掘算法在其中的應用效果進行研究分析,故需對熱點微博分析系統的基本組成進行說明。簡單的說,熱點微博分析系統主要包括有:數據預處理、文本處理、相關特征獲取及預處理以及最終的分析等幾個部分[5]。具體如圖4所示:

圖3 分布式數據挖掘K-Means算法計算過程

圖4 熱點微博分析系統組成圖
在圖4所述的幾個組成部分中,若想準備、快速的實現對熱點微博的分析,主要部分是對微博相關特征信息的獲取,并對該特征進行預處理。
本文的分布式樸素貝葉斯算法文本分類是通過兩個步驟實現的。其一,完成對已知的數據樣本的訓練;其二,完成對數據集的測試。因此,基于分布式樸素貝葉斯算法實現對文本分類算法的設計主要包括了對訓練集數據處理的設計和對測試集數據處理的設計。為了確保對微博進行精準、快速的分析,本文引入了IKAnalyzer分詞器。基于上述步驟設計的文本分類軟件界面如圖5所示:

圖5 文本分類軟件截面圖
基于3.1實現了對微博文本內容的分類處理,在此基礎上,本文基于分布式K-Means算法實現對熱點微博信息的歸類劃分,進而得到微博的熱點信息。經分析,本文選取轉發數、評論數以及點贊數三項指標作為熱點微博的特征向量。基于分布式K-Means算法實現對熱點微博特征向量的處理,需要進行如下步驟的計算:
首先,將數據樣本中的每個數據分配至離其最近的群中,并通過式(1)的計算替換該群。

本文將各個數據樣本之間的相對距離采用歐式距離作為評價標準,其計算公式為:

其中,d為兩個數據樣本之間的距離,ci為該群的中心,x為屬于該群數據樣本的集合點。
通過上述計算得到熱點微博數據樣本的聚類,基于K-Means算法度熱點微博特征向量的計算,從而得出某條微博的轉發數、評論數以及點贊數,從而可以確定該條微博是否為熱點微博。
本文所搭建的熱點微博分析系統是基于貝葉斯分類方法對微博文本分類的基礎上,基于分布式K-Means聚類算法對熱點微博的特征向量進行細分類并最終獲得劃分結果。
本次實驗仿真采取對比的方式驗證分布式數據算法在熱點微博分析系統中的應用效果。該實驗對照組采用的數據分析方法是在單機環境下進行的。除此之外,二者所處理的數據大小和內容是完全一致的。最終熱點微博分析結果如表1所示:
當前,正處于互聯網時代,在如今大數據時代中,如何快速、準備的掌握熱點信息是一個國家、一個企業、個體能夠正確做出決策的基礎。本文以“熱點微博”為研究對象,著重對分布式數據挖掘算法進行了研究。本文基于貝葉斯算法對微博文本分類結合基于K-Means算法對熱點微博聚類劃分兩步驟設計了熱點微博分析系統。并通過實驗證明:基于分布式貝葉斯算法和分布式K-Means算法設計的熱點微博分析系統的性能遠優于單機環境下的數據分析系統。

表1 不同算法下熱點微博分析效果對比