999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

我國網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究綜述

2017-04-07 23:09:33游丹丹陳福集
現(xiàn)代情報(bào) 2017年3期
關(guān)鍵詞:綜述

游丹丹+陳福集

〔摘要〕隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情對社會的影響不容忽視。若能夠及時從海量數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)話題,追蹤熱點(diǎn)話題演變以及預(yù)測話題的傾向,對于幫助相關(guān)部門及時有效地對其引導(dǎo)和控制具有較大意義。本文通過對我國網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行收集、整理及分析,歸納其中的主要研究思想和方法,同時發(fā)現(xiàn)存在的不足,并提出進(jìn)一步的展望,以期對后來研究者提供參考。

〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;熱點(diǎn)話題發(fā)現(xiàn);發(fā)現(xiàn)模型;綜述

DOI:10.3969/j.issn.1008-0821.2017.03.029

〔中圖分類號〕G2062〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2017)03-0165-07

〔Abstract〕With the rapid development of the Internet,the impact of network public opinion on society can not be ignored.If we can timely find the hot topic,track the evolution of hot topics and predict the tendency of hot topics,it will be of great significance to help the relevant departments guide and control the development of network public opinion.The paper studied and reviewed the related literatures of the hotspot topic detection of network public opinion in China,analyzed and summarized the main ideology,key technology and existing problems,besides,gave the working directions of next steps.

〔Key words〕network public opinion;hotspot topic detection;detection models;review

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息交互與傳播迅速且敏捷,網(wǎng)絡(luò)中重要的信息常淹沒在海量數(shù)據(jù)中,因此如何有效地從不斷涌現(xiàn)的海量非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)話題、追蹤熱點(diǎn)話題演變以及預(yù)測話題的發(fā)展傾向,為相關(guān)單位部門及時提供有效網(wǎng)絡(luò)輿情信息、輿情監(jiān)控和競爭情報(bào)具有較大意義。

本文在文獻(xiàn)調(diào)研的基礎(chǔ)上,對我國網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析和回顧整理。然后從數(shù)據(jù)采集、文本處理以及熱點(diǎn)話題發(fā)現(xiàn)模型等方面對現(xiàn)有研究進(jìn)行整理歸納,意在發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)中有待解決的難點(diǎn),以期為未來深入研究奠定基礎(chǔ),最后分析總結(jié)網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究中存在的問題與不足,并指出下一步的展望方向。

1文獻(xiàn)統(tǒng)計(jì)及分類

為了充分掌握我國網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的現(xiàn)況,截至2016年6月對中國學(xué)術(shù)期刊網(wǎng)CNKI、萬方學(xué)位論文期刊網(wǎng)以及維普等數(shù)據(jù)庫進(jìn)行檢索搜集,采用“微博”、“輿情”、“網(wǎng)絡(luò)”、“論壇”與 “熱點(diǎn)話題發(fā)現(xiàn)”關(guān)鍵字組合作為檢索條件進(jìn)行模糊搜索,檢索2005-2016年期間的相關(guān)文獻(xiàn)。檢索命中135條,其中期刊論文64篇,學(xué)位論文66篇,會議論文5篇。從圖1可以看出,從2007-2014年,網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的相關(guān)文獻(xiàn)逐年增多,2014年相關(guān)文獻(xiàn)數(shù)量達(dá)到高峰,近兩年有所減少。隨著互聯(lián)網(wǎng)的迅速壯大,網(wǎng)名規(guī)模的持續(xù)擴(kuò)大,網(wǎng)絡(luò)輿情事件的不斷爆發(fā),相關(guān)部門對網(wǎng)絡(luò)輿情的監(jiān)控越來越加大重視力度,并且隨著相關(guān)研究不斷深入,學(xué)術(shù)成果不斷呈現(xiàn)。

2我國網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)分析

21熱點(diǎn)話題發(fā)現(xiàn)研究路線

熱點(diǎn)話題指的是在某個時間段內(nèi)人們比較關(guān)注的話題,涉及民生、政治、經(jīng)濟(jì)以及文化等方面。網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)過程一般遵循數(shù)據(jù)采集、數(shù)據(jù)處理以及話題識別3個大步驟,具體流程如圖2所示。

22熱點(diǎn)話題數(shù)據(jù)采集

作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的前提,數(shù)據(jù)采集是網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的重要一部分,主要通過數(shù)據(jù)采集工具,對目標(biāo)站點(diǎn)的數(shù)據(jù)進(jìn)行監(jiān)測和數(shù)據(jù)采集。目前數(shù)據(jù)源主要來自微博、新聞網(wǎng)站、論壇以及相關(guān)網(wǎng)頁等。從數(shù)據(jù)采集方式上,目前主要是采用網(wǎng)絡(luò)爬蟲技術(shù)從互聯(lián)網(wǎng)中抓取下來。從網(wǎng)絡(luò)爬蟲的功能和結(jié)構(gòu)上分類,可分為通用類型的網(wǎng)絡(luò)爬蟲、專用型的網(wǎng)絡(luò)爬蟲以及增量型網(wǎng)絡(luò)爬蟲[1]。關(guān)于網(wǎng)頁信息抽取技術(shù),大體上分為基于DOM樹的抽取方法、基于統(tǒng)計(jì)的抽取方法以及基于模板的抽取方法。

孫勝平提出基于時間判斷的廣度優(yōu)先網(wǎng)頁采集技術(shù),在網(wǎng)頁采集流程中添加時間分析器來判斷頁面內(nèi)容的時效性,從而決定是否對該頁面進(jìn)行廣度采集,避免了采集無用信息,提高了采集效率和覆蓋率[2]。羅磊針對微博信息在內(nèi)部傳播時易于擴(kuò)散至其他新媒體,提出基于改進(jìn)的Shark-Search的主題擴(kuò)散跟蹤方法,通過主題爬蟲參數(shù)來逆向測評主題在網(wǎng)絡(luò)中的密度,另外對主題爬蟲算法進(jìn)行修改,解決在短期小規(guī)模搜索時易陷入粘滯狀態(tài)的問題[3]。衣波在分析網(wǎng)絡(luò)輿情數(shù)據(jù)的主要來源和抓取模塊中的網(wǎng)絡(luò)爬蟲的基礎(chǔ)上,對開源網(wǎng)絡(luò)爬蟲進(jìn)行改進(jìn),采用多個哈希碼映射彌補(bǔ)原算法高內(nèi)存消耗的不足,從而提高內(nèi)存的利用率,以及在一定程度上減少誤判率[4]。

23文本處理

231文本分詞

采集的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗后,進(jìn)行文本分詞、詞性標(biāo)注、識別命名實(shí)體、特征選擇等數(shù)據(jù)處理步驟,進(jìn)而建立文檔表示模型,最后進(jìn)行熱點(diǎn)話題發(fā)現(xiàn)與更新。

其中目前比較常用的分詞方法有基于詞典匹配、基于理解以及基于統(tǒng)計(jì)3種[5]。以下表1對3類方法優(yōu)缺點(diǎn)進(jìn)行簡單歸納[6]。

232文本表示

文本表示指的是將文本轉(zhuǎn)換為電腦可識別的結(jié)構(gòu)化形式的過程。目前比較常見的文本表示模型有向量空間模型、概率模型以及布爾模型[7]。其中向量空間模型應(yīng)用最為廣泛。向量空間模型經(jīng)過不斷改進(jìn),常見的VSM擴(kuò)展模型有廣義向量空間模型(GVSM)、潛在語義標(biāo)引、概率向量處理模型以及基于語義分析的向量空間模型(SVSM)等。三大類模型優(yōu)缺點(diǎn)歸納如表2所示,常見的文本表示應(yīng)用模型歸納如表3所示。

24熱點(diǎn)話題發(fā)現(xiàn)模型

熱點(diǎn)話題發(fā)現(xiàn)的核心部分實(shí)質(zhì)上是文本聚類的過程,不同的聚類算法對應(yīng)不同的有效性。從聚類內(nèi)容上看,可大致分為基于詞、基于內(nèi)容以及基于信息3個角度;從聚類方法上來看,目前比較常見的具聚類算法有:基于劃分、層次、密度、網(wǎng)格及其他聚類算法,歸納如表4所示。

在熱點(diǎn)提取方面,比較常見的有基于改進(jìn)的聚類算法、多層次聚類、遺傳算法、粒子群算法等模型。按照時間順序?qū)κ占南嚓P(guān)文獻(xiàn)的主要研究內(nèi)容進(jìn)行簡單歸納列舉,如表5所示。

3研究結(jié)論及展望

31研究中存在的不足

通過對現(xiàn)有網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的研究進(jìn)行分析歸納,尚存在以下幾點(diǎn)不足:

1)微博是全中國主流、具人氣以及較火爆的互聯(lián)網(wǎng)產(chǎn)品,平臺上具有較為全面、及時的中文資訊,因此常被學(xué)者們作為網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)研究的數(shù)據(jù)采集源。微博中網(wǎng)絡(luò)用語呈現(xiàn)較大隨意性、碎片化、語言非結(jié)構(gòu)化等特點(diǎn),導(dǎo)致分詞準(zhǔn)確率受影響,使得熱點(diǎn)話題發(fā)現(xiàn)受一定程度的影響。

2)雖然目前關(guān)于網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的研究比較多,其中的方法和模型也比較成熟,但是比較系統(tǒng)、成體系的網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)應(yīng)用不是很多,從數(shù)據(jù)采集、熱點(diǎn)話題發(fā)現(xiàn)以及話題追蹤的整套解決方案較少。

3)另外,針對數(shù)據(jù)采集的專門研究較為缺乏,大多文獻(xiàn)側(cè)重文本挖掘研究,大多聚類算法只針對較單一類型的數(shù)據(jù),較少的文獻(xiàn)關(guān)注到數(shù)據(jù)源中的圖片、音頻以及視頻等的數(shù)據(jù)采集。而現(xiàn)實(shí)中的數(shù)據(jù)多是混合數(shù)據(jù)類型的數(shù)據(jù),而簡單的忽略其中的一種數(shù)據(jù)類型或者轉(zhuǎn)換為同種數(shù)據(jù)類型都會影響話題發(fā)現(xiàn)的準(zhǔn)確率。

32研究展望

通過對網(wǎng)絡(luò)輿情熱點(diǎn)話題發(fā)現(xiàn)的相關(guān)文獻(xiàn)進(jìn)行總結(jié),本文認(rèn)為接下來可從以下幾方面改進(jìn):

1)分詞的準(zhǔn)確性直接影響到主題分析的準(zhǔn)確性,目前在中文分詞上,基于詞典匹配的機(jī)械分詞方法和基于統(tǒng)計(jì)的分詞方法比較成熟,其二者結(jié)合使用也可使分詞達(dá)到較好的效果,但基于語義的分詞是較為理想的分析方法,如專家系統(tǒng)分詞、神經(jīng)網(wǎng)絡(luò)分詞等,這也是未來發(fā)展的方向。

2)在數(shù)據(jù)采集方面,大數(shù)據(jù)背景下數(shù)據(jù)呈爆發(fā)式增長,海量數(shù)據(jù)的抓取分析會使得熱點(diǎn)話題發(fā)現(xiàn)更為精確。而當(dāng)今大數(shù)據(jù)存儲和分析的主流技術(shù)Hadoop是解決這一問題有效途徑,采用基于API和結(jié)構(gòu)樹網(wǎng)頁正文抽取解析結(jié)合的方案,可實(shí)現(xiàn)海量數(shù)據(jù)的高效處理和深度并行化的分析。另外,在數(shù)據(jù)預(yù)處理方面,當(dāng)前的海量數(shù)據(jù)大而雜亂,對數(shù)據(jù)進(jìn)行有效的去噪處理頁是提高聚類效果的關(guān)鍵所在。

3)熱點(diǎn)話題發(fā)現(xiàn)的重要部分在于聚類,其聚類結(jié)果的準(zhǔn)確性直接影響熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確度,在盡量減少聚類所需時間的同時,保證聚類的精確度也是重點(diǎn)。另外,在面對動態(tài)變化的數(shù)據(jù)時,傳統(tǒng)的聚類方法效率較低,應(yīng)提高聚類動態(tài)數(shù)據(jù)的效率。

參考文獻(xiàn)

[1]陳震.基于云平臺的網(wǎng)絡(luò)新聞熱點(diǎn)話題檢測與發(fā)現(xiàn)[D].北京:北京郵電大學(xué),2013.

[2]孫勝平.中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究[D].北京:北京交通大學(xué),2011.

[3]羅磊.微博輿情熱點(diǎn)檢測與跟蹤方法研究[D].杭州:杭州電子科技大學(xué),2013.

[4]衣波.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2013.

[5]馮穎.網(wǎng)絡(luò)輿情敏感話題發(fā)現(xiàn)平臺的研究[D].北京:北京交通大學(xué),2009.

[6]中文分詞技術(shù)(中文分詞原理)[EB/OL].http:∥www.cnblogs.com/flish/archive/2011/08/08/2131031.html,2011-08-08.

[7]夏立新,金燕,方志,等.信息檢索原理與技術(shù)[M].北京:科學(xué)出版社,2009:21-37.

[8]王娟琴.三種檢索模型的比較分析研究:布爾,概率,向量空間模型[J].情報(bào)科學(xué),1998,16(3):225-230.

[9]劉奕群.搜索引擎技術(shù)基礎(chǔ)[M].北京:清華大學(xué)出版社,2010.

[10]張海東.基于論壇的熱點(diǎn)話題識別與趨勢預(yù)測研究[D].上海:上海師范大學(xué),2015.

[11]王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào),2009,33(4):422-426.

[12]馬雯雯.基于隱含語義分析的微博熱點(diǎn)話題發(fā)現(xiàn)策略[D].重慶:重慶大學(xué),2013.

[13]吳妮,趙捧未,秦春秀.基于語義分析和相似強(qiáng)度的微博熱點(diǎn)發(fā)現(xiàn)方法[J].現(xiàn)代圖書情報(bào)技術(shù),2015,31(5):57-64.

[14]米文麗,孫曰昕.利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,(8):163-167.

[15]李鳳嶺,朱保平.基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,(10):24-26.

[16]談成訪,汪材印,張亞康.基于LDA模型的中文微博熱點(diǎn)話題發(fā)現(xiàn)[J].宿州學(xué)院學(xué)報(bào),2014,29(4):71-73.

[17]黃波.基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D].成都:西南交通大學(xué),2012.

[18]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優(yōu)化的微博熱點(diǎn)話題發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程,2016,42(3):208-213.

[19]龍志,程葳.基于詞聚類的熱點(diǎn)話題檢測算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(6):2214-2216.

[20]林思娟,林柏鋼,許為,等.一種基于詞語能量值變化的微博熱點(diǎn)話題發(fā)現(xiàn)方法研究[J].信息網(wǎng)絡(luò)安全,2015,(10):46-52.

[21]韓忠明,張慧,張夢,等.大規(guī)模短文本的快速話題發(fā)現(xiàn)方法與評價研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):717-722.

[22]丁若堯.基于博客的網(wǎng)絡(luò)話題發(fā)現(xiàn)及追蹤的研究[D].北京:北京交通大學(xué),2011.

[23]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結(jié)合的話題識別與跟蹤方法[J].北京交通大學(xué)學(xué)報(bào),2009,33(5):85-89.

[24]方星星,呂永強(qiáng).基于改進(jìn)的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J].計(jì)算機(jī)與數(shù)字工程,2014,(7):1233-1237.

[25]楊長春,周猛,葉施仁,等.基于改進(jìn)CURE算法的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)仿真,2013,30(11):383-387.

[26]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識別與人工智能,2012,25(3):382-387.

[27]馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50.

[28]楊菲,黃柏雄.詞共現(xiàn)網(wǎng)絡(luò)的遺傳聚類在話題發(fā)現(xiàn)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):126-129.

[29]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優(yōu)化的微博熱點(diǎn)話題發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程,2016,42(3):208-213.

[30]黃敏.網(wǎng)絡(luò)輿情熱點(diǎn)挖掘算法研究與實(shí)現(xiàn)[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2012,36(6):67-72.

[31]楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2012,26(1):84-90.

(本文責(zé)任編輯:郭沫含)

猜你喜歡
綜述
2021年國內(nèi)批評話語分析研究綜述
認(rèn)知需要研究綜述
氫能有軌電車應(yīng)用綜述
高速磁浮車載運(yùn)行控制系統(tǒng)綜述
5G應(yīng)用及發(fā)展綜述
電子制作(2019年10期)2019-06-17 11:45:16
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
深度學(xué)習(xí)認(rèn)知計(jì)算綜述
JOURNAL OF FUNCTIONAL POLYMERS
Progress of DNA-based Methods for Species Identification
主站蜘蛛池模板: 日韩精品一区二区三区swag| 99久久婷婷国产综合精| 婷婷成人综合| 国产91无毒不卡在线观看| yjizz国产在线视频网| 久久77777| 中文字幕在线看| 在线亚洲小视频| 毛片大全免费观看| 国产精品一区不卡| 国产18在线| 国产成人精品在线| 国产 在线视频无码| 一区二区三区四区精品视频 | 她的性爱视频| 亚洲国产综合精品中文第一| 亚洲va精品中文字幕| 日韩欧美成人高清在线观看| 黄色福利在线| 亚洲国产成人久久精品软件 | 精品国产成人av免费| 99久久99视频| 国产农村妇女精品一二区| 国产成人毛片| 色吊丝av中文字幕| 亚洲综合日韩精品| 中文成人在线| 久久永久免费人妻精品| 免费国产小视频在线观看| 亚洲欧美在线精品一区二区| 国产精品人人做人人爽人人添| 97人人做人人爽香蕉精品| AⅤ色综合久久天堂AV色综合| 欧美日韩专区| 色综合久久无码网| 欧美日韩一区二区在线播放 | 在线观看网站国产| 无遮挡一级毛片呦女视频| 91小视频在线播放| 91青青视频| 久久综合九色综合97网| 中文字幕人妻av一区二区| 成人日韩视频| 亚洲成人福利网站| 日日摸夜夜爽无码| 天天躁狠狠躁| 国产屁屁影院| 日韩成人免费网站| 免费人成在线观看成人片| 国产又粗又猛又爽| 亚洲香蕉在线| 一本大道香蕉中文日本不卡高清二区 | 在线中文字幕网| 精品国产免费观看| 亚洲啪啪网| 亚洲无码久久久久| 欧美亚洲一二三区 | 欧美亚洲国产精品第一页| 午夜一级做a爰片久久毛片| 色综合久久久久8天国| 一本大道香蕉高清久久| 91麻豆久久久| 国产乱码精品一区二区三区中文 | 国产午夜一级毛片| 免费无码AV片在线观看中文| 激情亚洲天堂| 欧美精品v欧洲精品| 国产免费久久精品99re不卡| 成人午夜久久| 美女免费黄网站| 日本成人精品视频| www精品久久| 99ri精品视频在线观看播放| 狠狠亚洲婷婷综合色香| 无码aⅴ精品一区二区三区| 亚洲一区二区三区国产精品| 欧美三级视频在线播放| 国外欧美一区另类中文字幕| 欧美在线一级片| 国产成人一级| 免费在线不卡视频| 久久精品无码专区免费|