999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化技術(shù)研究

2018-08-15 10:01:34胡瑞娟
軟件工程 2018年5期
關(guān)鍵詞:可視化

摘 要:在大數(shù)據(jù)背景下,數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍,因此,如何在大數(shù)據(jù)時(shí)代構(gòu)建熱詞發(fā)現(xiàn)與可視化機(jī)制尤為緊迫和重要。本文通過研究Hadoop大數(shù)據(jù)平臺(tái)下的MapReduce計(jì)算框架和TF-IDF算法,給出了TF-IDF算法在Hadoop分布式并行化計(jì)算平臺(tái)下的具體實(shí)現(xiàn),并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法,然后利用可視化工具對(duì)結(jié)果進(jìn)行分析處理。結(jié)果表明,TF-IDF并行化算法可以較好地發(fā)現(xiàn)大規(guī)模數(shù)據(jù)量中的熱點(diǎn)詞匯;與傳統(tǒng)單機(jī)下的算法相比,該算法處理效率更高。

關(guān)鍵詞:Hadoop;TF-IDF并行化;熱詞發(fā)現(xiàn);可視化

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract:The speed of data expansion is far beyond the ability of artificial analysis in the era of big data.Therefore,it is particularly urgent and important how to build hot word discovery and visualization mechanism.By studying the MapReduce computing framework and TF-IDF algorithm under the Hadoop platform,this paper gives the concrete implementation of the TF-IDF algorithm under the Hadoop distributed parallel computing platform,and uses this parallel algorithm as the core algorithm of the hot word discovery technology based on the big data architecture,and then uses the visualization tool to display and analyze the results.The results show that the TF-IDF parallelization algorithm can find the hot words in large amount of data much better.Compared with traditional single-machine algorithms,this algorithm is more efficient.

Keywords:Hadoop;TF-IDF parallelization;hot word discovery;visualization

1 引言(Introduction)

大數(shù)據(jù)時(shí)代,數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍。要從這些龐雜的數(shù)據(jù)中獲取有效信息更是難上加難。如何能夠簡單、快速并且有效地得知人們感興趣的內(nèi)容是一個(gè)重要的問題。熱詞發(fā)現(xiàn)作為近年來的一個(gè)研究熱點(diǎn),不失為一個(gè)切實(shí)可行的解決方案。因?yàn)闊嵩~[1]往往能夠反映一個(gè)國家、一個(gè)地區(qū)在一個(gè)時(shí)期人們普遍關(guān)注的問題和事物,具有時(shí)代特征,所以及時(shí)準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點(diǎn)信息并進(jìn)行整理分析對(duì)于了解民意動(dòng)向、分析輿情走勢十分重要。其結(jié)果不僅為政府和有關(guān)機(jī)構(gòu)及時(shí)了解并處理重大社會(huì)熱點(diǎn)問題提供很大的參考價(jià)值,也為廣大人民群眾能夠在信息爆炸時(shí)代里了解社會(huì)熱點(diǎn)提供了快速而有效的方法[2]。

本文通過研究Hadoop大數(shù)據(jù)平臺(tái)下的MapReduce計(jì)算框架和TF-IDF算法,給出了TF-IDF算法在Hadoop分布式并行化計(jì)算平臺(tái)下的具體實(shí)現(xiàn),并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法,然后利用可視化工具R語言[3]對(duì)結(jié)果進(jìn)行分析處理。

2 大數(shù)據(jù)與Hadoop平臺(tái)(BigData and Hadoop)

IDC公司從四個(gè)特征定義大數(shù)據(jù),即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)模態(tài)(Variety)和巨大的數(shù)據(jù)價(jià)值(Value)。根據(jù)大數(shù)據(jù)的生命周期,大數(shù)據(jù)的技術(shù)體系可以分為大數(shù)據(jù)采集與預(yù)處理[2]、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)計(jì)算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化計(jì)算和大數(shù)據(jù)隱私安全等方面。我們通常選用Hadoop系統(tǒng)來存儲(chǔ)、管理、分析這些數(shù)據(jù),以獲取更多有價(jià)值的信息[4]。

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái),以Hadoop分布式文件系統(tǒng)HDFS和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);由于Hadoop擁有可計(jì)量、成本低、高效、可信等特點(diǎn),基于Hadoop的應(yīng)用已經(jīng)開始遍布互聯(lián)網(wǎng)領(lǐng)域。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下運(yùn)行應(yīng)用程序[5]。

3 大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)理論基礎(chǔ)(Theoretical

foundation of hot word discovery based on

bigdata architecture)

3.1 MapReduce計(jì)算框架

分布式文件系統(tǒng)(HDFS)和MapReduce編程模型是Hadoop的主要組成部分。MapReduce模型[6]的計(jì)算流程如圖2所示。分布式文件系統(tǒng)主要負(fù)責(zé)各節(jié)點(diǎn)上的數(shù)據(jù)的存儲(chǔ),并實(shí)現(xiàn)高吞吐的數(shù)據(jù)讀寫。MapReduce計(jì)算模型的核心部分是Map和Reduce兩個(gè)函數(shù)[7]。Map的輸入是in_key和in_value,指明了Map需要處理的原始數(shù)據(jù)。Map的輸出結(jié)果是一組對(duì)。系統(tǒng)對(duì)Map操作的結(jié)果進(jìn)行歸類處理。Reduce的輸入是(key,[value1…value m])。Reduce的工作是將相同key的value值進(jìn)行歸并處理最終形成(key,final_value)的結(jié)果,所有的Reduce結(jié)果并在一起就是最終結(jié)果。

3.2 TF-IDF熱詞發(fā)現(xiàn)算法

TF-IDF(Term Frequency-Inverse Document Frequency)[8]是一種服務(wù)數(shù)據(jù)挖掘的常用的加權(quán)技術(shù)。該算法可以評(píng)價(jià)一個(gè)單詞對(duì)于語料庫中的某一文件的重要程度。該算法的計(jì)算公式為:

(1)

其中,TF(詞頻,Term Frequency)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。同一個(gè)詞語在長文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語重要與否。對(duì)于在某一特定文件里的詞語ti來說,它的重要性可表示為:

(2)

其中,ni,j是該詞ti在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。

IDF(逆向文件頻率,Inverse Document Frequency)是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:

(3)

其中,|D|:語料庫中的文件總數(shù),:包含詞語ti的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用。

可以看到,TF-IDF與一個(gè)詞在文檔中出現(xiàn)的次數(shù)成正比,同時(shí)與該詞在整個(gè)語料庫中出現(xiàn)的次數(shù)成反比。因此,要想得到TD-IDF值,需要分別求出TF、IDF兩個(gè)值。無論是計(jì)算TF還是IDF的值,由于文檔總數(shù)是一個(gè)常量,所以在得到TF后,只需要統(tǒng)計(jì)所有語料中包含該單詞的文檔的個(gè)數(shù),即可進(jìn)行TF-IDF值的計(jì)算。從TF-IDF的計(jì)算公式中不難看出,它非常適合利用分布式并行化平臺(tái)進(jìn)行計(jì)算求解。

3.3 R語言

R語言是一個(gè)擁有強(qiáng)大的統(tǒng)計(jì)計(jì)算和制圖能力的可視化工具。作為一個(gè)統(tǒng)計(jì)分析軟件,R集統(tǒng)計(jì)分析和圖形顯示于一體,與其他統(tǒng)計(jì)分析軟件相比,R還具有開源且免費(fèi)使用、與各種OS兼容性好、豐富的插件支持、互動(dòng)性好等特點(diǎn)[9,10]。

4 大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化系統(tǒng)的構(gòu)建

(Construction of hot word discovery and visualization

system based on bigdata architecture)

根據(jù)MapReduce、TF-IDF算法等基本理論,本文設(shè)計(jì)了大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)系統(tǒng),在Hadoop平臺(tái)上實(shí)現(xiàn)了TF-IDF并行化算法。該系統(tǒng)主要包括數(shù)據(jù)采集(獲取實(shí)驗(yàn)語料)、數(shù)據(jù)預(yù)處理、Hadoop平臺(tái)搭建、TF-IDF算法并行化實(shí)現(xiàn)及結(jié)果可視化五部分。系統(tǒng)總體框架如圖2所示。

4.1 數(shù)據(jù)采集與預(yù)處理

(1)實(shí)驗(yàn)數(shù)據(jù)

本文的實(shí)驗(yàn)數(shù)據(jù)是從人民日?qǐng)?bào)官網(wǎng)http://paper.people.com.cn上,利用網(wǎng)絡(luò)爬蟲獲取2011年至2016年這六年間每一天的人民日?qǐng)?bào)電子版,得到格式為PDF,總大小為34.3GB,共計(jì)2191個(gè)文件。本設(shè)計(jì)以上述文件作為實(shí)驗(yàn)的原始數(shù)據(jù)。

(2)數(shù)據(jù)預(yù)處理

首先對(duì)爬取到的人民日?qǐng)?bào)進(jìn)行格式轉(zhuǎn)換,格式化文件名(文件名中不得含有中文及中文字符),修改文檔的編碼方式,并去除所有的特殊符號(hào),為接下來的中文分詞做準(zhǔn)備。然后利用斯坦福大學(xué)NLP研究室提供的Stanford CoreNLP工具包對(duì)語料進(jìn)行中文分詞。最終將數(shù)據(jù)集按年度分開(years),每年分為12個(gè)文檔(每月一個(gè)文檔,month)。

4.2 TF-IDF算法的并行化實(shí)現(xiàn)

利用Hadoop集群環(huán)境及MapReduce計(jì)算框架,對(duì)TF-IDF算法進(jìn)行并行化實(shí)現(xiàn),其核心思想是將任務(wù)進(jìn)行分割,并分配到集群主機(jī)運(yùn)行。通過分割數(shù)據(jù),可以將統(tǒng)計(jì)文檔中單詞詞頻的任務(wù)并行化處理,從而減少處理時(shí)間,提高處理效率。

具體流程如下:

(1)計(jì)算各文檔中單詞的詞頻TF

在讀入目標(biāo)文檔所在的HDFS路徑后,將原始數(shù)據(jù)進(jìn)行分片并傳給Map函數(shù),在Map中利用正則表達(dá)式刪除空行和空字符串,然后傳給Reduce函數(shù)統(tǒng)計(jì)單詞詞頻,并將結(jié)果輸出到臨時(shí)文件中保存,作為下一個(gè)MapReduce的輸入。該函數(shù)設(shè)計(jì)如下:

Map():

Input:

Output:

Reduce():

Input:

Output:

(2)計(jì)算單詞的逆文檔頻率IDF

讀取上一步輸出的臨時(shí)文件tfidf-tf作為本次Map函數(shù)的輸入。在Map中拆分單詞,按頻次為1,以便Reduce分文件名進(jìn)行合并。在Reduce中統(tǒng)計(jì)所有語料中包含wordname一詞的文檔總數(shù)termdocnum和文檔總數(shù)alldoc,然后按照公式計(jì)算idf值,并將結(jié)果以鍵值對(duì)的形式輸出到臨時(shí)文件中保存,作為下一個(gè)MapReduce的輸入。該函數(shù)設(shè)計(jì)如下:

Map():

Input:

Output:

Reduce():

Input:

Output:

(3)計(jì)算單詞的TF-IDF

利用兩個(gè)Map函數(shù)分別讀取前兩步輸出的臨時(shí)文件tfidf-tf和tfidf-idf作為輸入。在Reduce中按照公式計(jì)算tfidf值,并將結(jié)果以鍵值對(duì)的形式輸出到結(jié)果文件tfidf-tfidf中保存,作為結(jié)果分析的依據(jù)。該函數(shù)設(shè)計(jì)如下:

Map():

Input:

Output:

Reduce():

Input:

Output:

計(jì)算TF-IDF的整個(gè)流程如圖3所示。

4.3 利用R語言進(jìn)行結(jié)果可視化

以數(shù)據(jù)集years作為實(shí)驗(yàn)語料,在集群模式下運(yùn)行程序,得到結(jié)果后利用R語言分別對(duì)2011—2016年的年度熱詞進(jìn)行可視化展示,2016年度熱詞可視化結(jié)果如圖4所示。

可以看出,2016年度的熱點(diǎn)詞匯有“兩學(xué)一做”“三嚴(yán)三實(shí)”“供給側(cè)結(jié)構(gòu)性改革”“大數(shù)據(jù)”“黨風(fēng)廉政建設(shè)”“創(chuàng)新”“改革”“全面二孩”“戰(zhàn)略支援部隊(duì)”“深化國防軍隊(duì)改革”“工匠精神”“強(qiáng)軍目標(biāo)”“軍事斗爭準(zhǔn)備”“人工智能”“營改增”等。而互聯(lián)網(wǎng)中給出的2016年年度熱詞為:“供給側(cè)改革”“全面二孩”“工匠精神”“人工智能”“營改增”“不忘初心”“里約奧運(yùn)會(huì)”“電信詐騙”“房價(jià)”“網(wǎng)約車”??紤]到本實(shí)驗(yàn)的語料來源僅為《人民日?qǐng)?bào)》,其中并不完全包含互聯(lián)網(wǎng)中的內(nèi)容,而互聯(lián)網(wǎng)上公布的結(jié)果則是綜合多方面內(nèi)容得到的,因此二者的結(jié)果存在一定的出入。但從整體上來看,由該問題導(dǎo)致的誤差在可接受范圍內(nèi),實(shí)驗(yàn)結(jié)果較為可靠,該實(shí)驗(yàn)?zāi)軌蜉^好地完成大數(shù)據(jù)規(guī)模下的熱詞發(fā)現(xiàn)任務(wù)。

5 結(jié)論(Conclusion)

大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化技術(shù)研究,可以幫助相關(guān)人員及時(shí)準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點(diǎn)信息,這些信息為政府和有關(guān)機(jī)構(gòu)及時(shí)了解并處理重大社會(huì)熱點(diǎn)問題提供很大的參考價(jià)值;另一方面,通過對(duì)熱詞發(fā)現(xiàn)結(jié)果的可視化,直觀形象地展示出熱詞,可以為廣大人民群眾能夠在信息爆炸時(shí)代里了解社會(huì)熱點(diǎn)提供了快速而有效的方法;同時(shí),一些優(yōu)秀的網(wǎng)絡(luò)熱詞可以作為漢語言文庫的一種有益補(bǔ)充和豐富,為語言學(xué)家研究漢語言提供一定的幫助。

參考文獻(xiàn)(References)

[1] 耿升華.新詞識(shí)別和熱詞排名方法研究[D].重慶大學(xué),2013.

[2] 劉晨,焦合軍.基于HADOOP集群的數(shù)據(jù)采集和清洗[J].軟件工程,2016,19(11):20-24.

[3] 湯銀才.R語言與統(tǒng)計(jì)分析[M].高等教育出版社,2008.

[4] 崔文斌,牟少敏,王云誠,等.Hadoop大數(shù)據(jù)平臺(tái)的搭建與測試[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)自然科學(xué)版,2013,44(4):550-555.

[5] 孟永偉,黃建強(qiáng),曹騰飛,等.Hadoop集群部署實(shí)驗(yàn)的設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理,2015,32(1):145-149.

[6] 郝樹魁.Hadoop HDFS和MapReduce架構(gòu)淺析[J].郵電設(shè)計(jì)技術(shù),2012(7):37-42.

[7] Luis Torgo,李洪成,陳道輪,等.數(shù)據(jù)挖掘與R語言[J].計(jì)算機(jī)教育,2013(12):102-102.

[8] 張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報(bào)科學(xué),2012(10):110-112;123.

[9] 吳丹露,魏彤,許家清.R語言環(huán)境下的文本可視化及主題分析——以社會(huì)服務(wù)平臺(tái)數(shù)據(jù)為例[J].寧波工程學(xué)院學(xué)報(bào),2015,27(1):19-25.

[10] 葉文春.淺談R語言在統(tǒng)計(jì)學(xué)中的應(yīng)用[J].中共貴州省委黨校學(xué)報(bào),2008(4):123-125.

[11] 使用Stanford CoreNLP工具包處理中文[EB/OL].http://blog.csdn.net/u014749291/article/details/51152007,2016-04-14.

[12] 使用Stanford NLP進(jìn)行中文分詞[EB/OL].http://blog.sectong.com/blog/corenlp_segment.html,2016-03-26.

[13] 趙偉燕.基于Hadoop平臺(tái)的TFIDF算法并行化研究[D].內(nèi)蒙古科技大學(xué),2013.

作者簡介:

胡瑞娟(1983-),女,碩士,講師.研究領(lǐng)域:大數(shù)據(jù)智能處理.

猜你喜歡
可視化
無錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
北京測繪(2022年6期)2022-08-01 09:19:06
三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
主站蜘蛛池模板: 蝌蚪国产精品视频第一页| 在线va视频| 国产亚洲精品97在线观看| 久久a级片| 国产国语一级毛片| 日本尹人综合香蕉在线观看| 国产在线97| 国产精品一区二区在线播放| 欧美在线一二区| 亚洲日韩在线满18点击进入| 丰满人妻中出白浆| 在线观看热码亚洲av每日更新| 2021国产乱人伦在线播放| 欧美不卡在线视频| 国产成人啪视频一区二区三区| 第九色区aⅴ天堂久久香| V一区无码内射国产| 97视频免费看| 91福利片| 青青草国产在线视频| 亚洲三级影院| 超碰色了色| 久久一级电影| 国产精品漂亮美女在线观看| 欧美精品影院| 中文字幕有乳无码| 在线网站18禁| 国产日产欧美精品| 在线a视频免费观看| 丰满少妇αⅴ无码区| 日韩视频免费| 米奇精品一区二区三区| 国产91在线|日本| 男女男精品视频| 成人国产免费| 亚洲无码精彩视频在线观看| 美女潮喷出白浆在线观看视频| 高清不卡一区二区三区香蕉| 国产AV无码专区亚洲A∨毛片| 国产精品极品美女自在线网站| 亚洲精品大秀视频| 中文字幕乱码二三区免费| 午夜无码一区二区三区在线app| 成人福利在线观看| 免费无码一区二区| 亚洲女同一区二区| 99ri国产在线| 制服无码网站| 成人福利视频网| 中文字幕久久亚洲一区| 国产精品熟女亚洲AV麻豆| 久热中文字幕在线| 日韩在线网址| 澳门av无码| 欧美全免费aaaaaa特黄在线| 丝袜国产一区| 麻豆精选在线| 国产一级做美女做受视频| 视频二区中文无码| 欧美日韩国产精品综合| 日韩一二三区视频精品| 丰满人妻中出白浆| 国产永久免费视频m3u8| 亚洲狠狠婷婷综合久久久久| 亚洲国产av无码综合原创国产| 第一页亚洲| 人妻中文久热无码丝袜| 亚洲成肉网| 亚洲一道AV无码午夜福利| 亚洲最大综合网| 国产精品香蕉在线| 免费观看国产小粉嫩喷水| 免费无码AV片在线观看国产| 极品私人尤物在线精品首页| 精品福利视频导航| 午夜啪啪福利| 2021国产v亚洲v天堂无码| 91av国产在线| 中文字幕有乳无码| 欧美精品影院| 久久综合九九亚洲一区| 色综合久久久久8天国|