999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式數據挖掘算法在熱點微博分析系統中的應用

2018-11-12 03:13:42黃克清
數字通信世界 2018年10期
關鍵詞:數據挖掘分類分析

朱 賀,黃克清

(中國電子科技集團第15研究所,北京 100083)

1 引言

二十一世紀是互聯網的時代,如今互聯網已經成為人們日常生活中必不可少的一部分。互聯網信息鋪天蓋地的進入人們的視野中,這其中大量的信息產生的了大量的數據[1]。然而,傳統的數據處理能力已經不能夠滿足互聯網時代對數據分析的需求,因此一種切實可行、高效的數據處理技術越來越受人們的關注。分布式數據挖掘算法作為近些年新起的數據分析方法,由于其高效的計算能力和數據處理能力已經適用于各個行業領域中[2]。

針對大部分分布式計算環境廣泛應用于互聯網中。本文著重對分布式數據挖局算法在熱點微博分析系統的應用進行了研究,對數據挖掘算法的基本設計思想和相關算法分析的基礎上,設計一套基于分布式數據挖掘算法的熱點微博分析系統。本系統的設計思路為:通過貝葉斯分類算法完成對文本的分類;通過K-Means算法實現對微博相關特征的聚類分析。

2 樸素貝葉斯分類算法的設計

樸素貝葉斯分類算法設計的理念在于對貝葉斯分類算法的重組的基礎上,通過編程完成了分布式數據挖掘算法的構建。貝葉斯文本分類算法的流程圖大致可設計為如圖1所示的結構。

分析圖1可知,貝葉斯分類算法可以設計可以概括為三步:第一,實現對訓練集的規劃;第二,實現對訓練集的精簡;第三,實現對測試集的規劃[3]。經實踐應用表明,樸素貝葉斯分類算法所實現的文本分類是很難滿足實際需求的,故需在樸素貝葉斯分類算法的基礎上引入TFIDF計算,如圖2所示。引入TFIDF計算的樸素貝葉斯分類算法從根本增強了分布式貝葉斯的實際研究意義。

圖1 貝葉斯分類算法流程圖

圖2 改進后貝葉斯分類算法實現步驟

3 分布式數據挖掘K-Means算法的設計

分布式數據挖掘K-Means算法是基于K-Means算法實現的,該算法的實現步驟是在傳統K-Means聚類算法的基礎上完成的。

分布式數據挖掘K-Means算法實現步驟:第一,將所有的數據樣本進行分類,保證其在各自的節點上,并保證每個節點只對其自身的數據樣本進行運算;第二,以“全局變量”的原則對本地所有數據樣本的簇進行計算;第三,對比第二步計算的結果,若該結果與整個數據樣本的中心相同,則此時的分類結果為最優;若計算結果不一致,則重復第二步的計算,直至滿足要求[4]。分布式數據挖掘K-Means算法的具體計算流程如圖3所示:

4 分布式數據挖掘算法的應用

本文以熱點微博分析為研究對象,著重對分布式數據挖掘算法在其中的應用效果進行研究分析,故需對熱點微博分析系統的基本組成進行說明。簡單的說,熱點微博分析系統主要包括有:數據預處理、文本處理、相關特征獲取及預處理以及最終的分析等幾個部分[5]。具體如圖4所示:

圖3 分布式數據挖掘K-Means算法計算過程

圖4 熱點微博分析系統組成圖

在圖4所述的幾個組成部分中,若想準備、快速的實現對熱點微博的分析,主要部分是對微博相關特征信息的獲取,并對該特征進行預處理。

4.1 基于分布式樸素貝葉斯算法實現對特征量的處理

本文的分布式樸素貝葉斯算法文本分類是通過兩個步驟實現的。其一,完成對已知的數據樣本的訓練;其二,完成對數據集的測試。因此,基于分布式樸素貝葉斯算法實現對文本分類算法的設計主要包括了對訓練集數據處理的設計和對測試集數據處理的設計。為了確保對微博進行精準、快速的分析,本文引入了IKAnalyzer分詞器。基于上述步驟設計的文本分類軟件界面如圖5所示:

圖5 文本分類軟件截面圖

4.2 基于分布式K-Means算法的特征向量處理

基于3.1實現了對微博文本內容的分類處理,在此基礎上,本文基于分布式K-Means算法實現對熱點微博信息的歸類劃分,進而得到微博的熱點信息。經分析,本文選取轉發數、評論數以及點贊數三項指標作為熱點微博的特征向量。基于分布式K-Means算法實現對熱點微博特征向量的處理,需要進行如下步驟的計算:

首先,將數據樣本中的每個數據分配至離其最近的群中,并通過式(1)的計算替換該群。

本文將各個數據樣本之間的相對距離采用歐式距離作為評價標準,其計算公式為:

其中,d為兩個數據樣本之間的距離,ci為該群的中心,x為屬于該群數據樣本的集合點。

通過上述計算得到熱點微博數據樣本的聚類,基于K-Means算法度熱點微博特征向量的計算,從而得出某條微博的轉發數、評論數以及點贊數,從而可以確定該條微博是否為熱點微博。

5 基于分布式數據算法熱點微博分析系統實驗仿真

本文所搭建的熱點微博分析系統是基于貝葉斯分類方法對微博文本分類的基礎上,基于分布式K-Means聚類算法對熱點微博的特征向量進行細分類并最終獲得劃分結果。

本次實驗仿真采取對比的方式驗證分布式數據算法在熱點微博分析系統中的應用效果。該實驗對照組采用的數據分析方法是在單機環境下進行的。除此之外,二者所處理的數據大小和內容是完全一致的。最終熱點微博分析結果如表1所示:

6 結束語

當前,正處于互聯網時代,在如今大數據時代中,如何快速、準備的掌握熱點信息是一個國家、一個企業、個體能夠正確做出決策的基礎。本文以“熱點微博”為研究對象,著重對分布式數據挖掘算法進行了研究。本文基于貝葉斯算法對微博文本分類結合基于K-Means算法對熱點微博聚類劃分兩步驟設計了熱點微博分析系統。并通過實驗證明:基于分布式貝葉斯算法和分布式K-Means算法設計的熱點微博分析系統的性能遠優于單機環境下的數據分析系統。

表1 不同算法下熱點微博分析效果對比

猜你喜歡
數據挖掘分類分析
分類算一算
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产97视频在线观看| 99久久国产精品无码| 亚洲免费福利视频| 亚洲视频免费在线看| 99视频在线观看免费| 亚洲成人免费在线| 尤物午夜福利视频| 国产chinese男男gay视频网| 无码日韩精品91超碰| 67194在线午夜亚洲| 亚洲无码电影| 亚洲成A人V欧美综合| 亚洲欧美激情小说另类| 91欧美亚洲国产五月天| 中文字幕在线永久在线视频2020| 久久久精品国产亚洲AV日韩| 中文字幕人成人乱码亚洲电影| 午夜性爽视频男人的天堂| 日韩区欧美国产区在线观看| 国产美女91呻吟求| 一级毛片基地| 日本高清有码人妻| 看国产毛片| 成人91在线| 谁有在线观看日韩亚洲最新视频| 免费在线看黄网址| 久久亚洲综合伊人| 久久亚洲中文字幕精品一区| 三级欧美在线| 91精品啪在线观看国产60岁| 久久99国产综合精品1| 国产欧美日韩综合一区在线播放| 成人免费黄色小视频| a毛片基地免费大全| 久久中文字幕2021精品| 欧美在线中文字幕| 精品国产一二三区| 国产精品成人啪精品视频| 免费观看精品视频999| 亚欧美国产综合| 国产一级在线播放| 日韩中文精品亚洲第三区| 综合五月天网| 另类综合视频| 91亚洲精选| 亚洲精品国产成人7777| a级毛片网| 色婷婷久久| 精品福利视频导航| 亚洲欧美日韩成人高清在线一区| 国产乱人乱偷精品视频a人人澡| 国产精品lululu在线观看| 一级爆乳无码av| 国产第一页第二页| 精品日韩亚洲欧美高清a| 欧美日韩免费| 成人在线观看不卡| 亚洲精品波多野结衣| 九色最新网址| 国产成人av大片在线播放| 国产成人亚洲无码淙合青草| 欧美亚洲国产精品第一页| 亚洲精品欧美重口| 色综合婷婷| 亚洲第一黄片大全| 国产区91| 九九热精品视频在线| 国产欧美日韩视频怡春院| 国产精品白浆无码流出在线看| 黄色网址手机国内免费在线观看| 日本福利视频网站| 91丝袜乱伦| 999精品在线视频| 国产超碰一区二区三区| 成人国产一区二区三区| 久久黄色小视频| 国产精品99在线观看| 一级在线毛片| 精品国产一区91在线| 手机永久AV在线播放| 久久夜色精品| 国产主播在线一区|