999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺的熱點話題發現算法并行化研究

2016-11-07 18:06:15王新星
軟件導刊 2016年9期

王新星

摘要:話題發現中最常用的方法是基于增量式的SinglePass聚類算法,但是其依賴于文檔的輸入順序且效率低下。針對這兩個問題,提出在多層次話題發現基礎上,基于Spark平臺的算法并行化,將傳統的Kernel Kmeans算法進行并行化處理,以并行化的方式對數據進行初步聚類,并對后續數據進行增量式聚類。實驗表明,多層次處理提高了話題的準確性;同時,并行化方式相比傳統的話題發現方法,其效率有較大提高。

關鍵詞:話題發現;SinglePass;Spark平臺;Kernel Kmeans算法

DOIDOI:10.11907/rjdk.161712

中圖分類號:TP312

文獻標識碼:A文章編號文

章編號:16727800(2016)009005104

基金項目基金項目:

作者簡介作者簡介:王新星(1991-),男,陜西渭南人,西安工程大學計算機科學學院碩士研究生,研究方向為大數據、云計算。

0引言

隨著各種網絡社交媒體的普及,網絡平臺已成為人們了解社會動態、掌握社會熱點新聞的主要渠道,話題發現(Topic Detection,TD)成為當前研究的熱點。卡內基梅隆大學采用經典的SinglePass算法識別新聞中的事件[1],但是其過于依賴新聞報道的輸入順序。Forestiero等[2]提出了一種基于MultiAgent思想的SinglePass聚類,使用分散的自底向上和自組織策略對相似的數據點進行分類。賈自艷等[3]提出了一種基于動態進化模型的新聞事件話題發現算法,應用基于時間距離的相似度計算模型自動對新聞資料進行組織,生成新聞專題。稅儀冬等[4] 針對增量式聚類初始時話題模型不夠充分和準確的問題,提出周期分類和SinglePass相結合的話題識別與跟蹤方法,提高了話題的精度。格桑多吉等[5]結合網絡事件的時間距離,提出了改進的SinglePass算法,提高了文檔的相似度計算能力。

然而,上述研究都是通過算法自身來提高數據的處理能力與話題的聚類精度,并沒有考慮話題發現的效率。面對網絡信息的爆炸式增長,對于大規模且需要實時更新的數據處理,傳統方式已經顯得力不從心。因此,結合大數據處理平臺將會是后續發展的必然趨勢。

目前,在處理海量數據方面,Hadoop是一個應用比較廣的大數據處理平臺,基于Hadoop中的MapReduce并行化計算模型,可以高效地對海量數據進行挖掘處理。其中,Kmeans算法在Hadoop中的并行化已經成為研究的熱點[68]。然而,Hadoop也存在一些不足,它需要不斷操作磁盤文件系統,將中間運行結果寫回文件系統,這樣在面對需要不斷迭代的操作過程時,其效率和性能會受到嚴重影響。為此,Apache開發了一種基于內存的快速處理框架Spark[9],其能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce算法,使得在交互式數據分析和數據挖掘工作負載中表現得更加優秀。因此,本文提出基于大數據處理平臺Spark的話題發現,以并行化的方式提高數據處理效率。

4結語

本文在結合多層次話題發現的基礎上,采用基于Kernel函數的Kmeans算法,借助Kernel函數在高維特征空間的轉換,提高了話題發現的精確度;同時實現了KernelKmeans算法在Spark平臺上的并行化,借助大數據處理平臺,改變了傳統話題發現算法的運行方式,從而解決了傳統方式對于大規模數據處理效率低下的問題,使得計算效率得到極大提高。實驗證明,其聚類結果更加準確,且計算效率相比傳統方式有很大提高。

參考文獻參考文獻:

[1]BAEZAYATES R,RIBEIRONETO B.Modern information retrieval[M].Boston:Addison Wesley,2000.

[2]FORESTIERO A,PIZZUTI C,SPEZZANO G.A single pass algorithm for clustering evolving data streams based on swarm intelligence[J].Data Mining & Knowledge Discovery,2013,26(1):126.

[3]賈自艷,何清,張海俊,等.一種基于動態進化模型的事件探測和追蹤算法[J].計算機研究與發展,2004,41(7):12731280.

[4]稅儀冬,瞿有利,黃厚寬.周期分類和SinglePass聚類相結合的話題識別與跟蹤方法[J].北京交通大學學報:自然科學版, 2009,33(5):8589.

[5]格桑多吉,喬少杰,韓楠,等.基于SinglePass的網絡輿情熱點發現算法[J].電子科技大學學報,2015(4):599604.

[6]周婷,張君瑛,羅成.基于Hadoop的Kmeans聚類算法的實現[J].計算機技術與發展,2013,23(7):1821.

[7]趙衛中,馬慧芳,傅燕翔,等.基于云計算平臺Hadoop的并行Kmeans聚類算法設計研究[J].計算機科學,2011,38(10):166168.

[8]江小平,李成華,向文,等.Kmeans聚類算法的MapReduce并行化實現[J].華中科技大學學報:自然科學版,2011,39(S1):120124.

[9]ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al.Spark:cluster computing with working sets[J].Book of Extremes,2010,15(1): 17651773.

[10]GIROLAMI MARK.Mercer kernelbased clustering in feature space[J].IEEE Transactions on Neural Networks,2002,13(3):780784.

責任編輯(責任編輯:孫娟)

主站蜘蛛池模板: 国内精品九九久久久精品| 五月婷婷综合在线视频| 国产内射一区亚洲| 99久久国产自偷自偷免费一区| 亚洲精品老司机| 亚洲精品777| 日韩精品久久久久久久电影蜜臀| 亚洲一级色| 97se亚洲综合| 国产永久在线视频| 欧美日韩中文字幕二区三区| 成人av专区精品无码国产| 国产视频入口| 亚洲av无码成人专区| 夜夜操狠狠操| 欧美日韩国产综合视频在线观看 | 国产综合日韩另类一区二区| 亚洲国产清纯| 国产综合日韩另类一区二区| 国产91在线|中文| 一级爆乳无码av| 中文字幕亚洲乱码熟女1区2区| 一边摸一边做爽的视频17国产| 亚洲精品在线影院| 92午夜福利影院一区二区三区| 亚洲天堂成人在线观看| 人妻夜夜爽天天爽| 国产极品嫩模在线观看91| 色久综合在线| 精品小视频在线观看| 国产在线观看第二页| 人妻一本久道久久综合久久鬼色| 欧美不卡在线视频| 国产精品hd在线播放| 国产精品久久久久久久久久久久| 久久久久久久久久国产精品| 国产无码精品在线播放| 一级做a爰片久久免费| 亚洲视频欧美不卡| 四虎影视永久在线精品| 爆乳熟妇一区二区三区| 亚洲欧美日韩另类在线一| 欧美特级AAAAAA视频免费观看| 亚洲a级毛片| 99热这里只有精品在线播放| 国产麻豆aⅴ精品无码| 99国产精品免费观看视频| 成人福利在线免费观看| 久久精品人人做人人爽97| 久久久久久久97| 国产乱子精品一区二区在线观看| 99人妻碰碰碰久久久久禁片| 日本精品视频一区二区| 一本大道无码日韩精品影视| 亚洲欧洲日韩久久狠狠爱| 日本高清免费一本在线观看 | 无码内射中文字幕岛国片| 福利在线不卡一区| 成人免费黄色小视频| 呦系列视频一区二区三区| 无码aaa视频| 尤物视频一区| 日韩国产一区二区三区无码| 日韩福利在线视频| 亚洲专区一区二区在线观看| 午夜无码一区二区三区| 一级福利视频| 亚洲欧美激情小说另类| 国产成人免费| 亚洲欧美日本国产综合在线| 精品91视频| 国产超碰一区二区三区| 免费在线不卡视频| 香蕉视频在线观看www| 在线观看亚洲精品福利片 | 九九热在线视频| 波多野结衣视频一区二区| 国产剧情无码视频在线观看| 国产精品私拍在线爆乳| 在线免费不卡视频| 亚洲成人在线播放 | 久久精品人妻中文系列|