999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

我國網絡輿情熱點話題發現研究綜述

2017-04-07 23:09:33游丹丹陳福集
現代情報 2017年3期
關鍵詞:綜述

游丹丹+陳福集

〔摘要〕隨著互聯網的快速發展,網絡輿情對社會的影響不容忽視。若能夠及時從海量數據中發現熱點話題,追蹤熱點話題演變以及預測話題的傾向,對于幫助相關部門及時有效地對其引導和控制具有較大意義。本文通過對我國網絡輿情熱點話題發現的相關文獻進行收集、整理及分析,歸納其中的主要研究思想和方法,同時發現存在的不足,并提出進一步的展望,以期對后來研究者提供參考。

〔關鍵詞〕網絡輿情;熱點話題發現;發現模型;綜述

DOI:10.3969/j.issn.1008-0821.2017.03.029

〔中圖分類號〕G2062〔文獻標識碼〕A〔文章編號〕1008-0821(2017)03-0165-07

〔Abstract〕With the rapid development of the Internet,the impact of network public opinion on society can not be ignored.If we can timely find the hot topic,track the evolution of hot topics and predict the tendency of hot topics,it will be of great significance to help the relevant departments guide and control the development of network public opinion.The paper studied and reviewed the related literatures of the hotspot topic detection of network public opinion in China,analyzed and summarized the main ideology,key technology and existing problems,besides,gave the working directions of next steps.

〔Key words〕network public opinion;hotspot topic detection;detection models;review

隨著互聯網的快速發展,網絡信息交互與傳播迅速且敏捷,網絡中重要的信息常淹沒在海量數據中,因此如何有效地從不斷涌現的海量非結構化數據中發現熱點話題、追蹤熱點話題演變以及預測話題的發展傾向,為相關單位部門及時提供有效網絡輿情信息、輿情監控和競爭情報具有較大意義。

本文在文獻調研的基礎上,對我國網絡輿情熱點話題發現的相關文獻進行統計分析和回顧整理。然后從數據采集、文本處理以及熱點話題發現模型等方面對現有研究進行整理歸納,意在發現網絡輿情熱點話題發現中有待解決的難點,以期為未來深入研究奠定基礎,最后分析總結網絡輿情熱點話題發現研究中存在的問題與不足,并指出下一步的展望方向。

1文獻統計及分類

為了充分掌握我國網絡輿情熱點話題發現研究的現況,截至2016年6月對中國學術期刊網CNKI、萬方學位論文期刊網以及維普等數據庫進行檢索搜集,采用“微博”、“輿情”、“網絡”、“論壇”與 “熱點話題發現”關鍵字組合作為檢索條件進行模糊搜索,檢索2005-2016年期間的相關文獻。檢索命中135條,其中期刊論文64篇,學位論文66篇,會議論文5篇。從圖1可以看出,從2007-2014年,網絡輿情熱點話題發現研究的相關文獻逐年增多,2014年相關文獻數量達到高峰,近兩年有所減少。隨著互聯網的迅速壯大,網名規模的持續擴大,網絡輿情事件的不斷爆發,相關部門對網絡輿情的監控越來越加大重視力度,并且隨著相關研究不斷深入,學術成果不斷呈現。

2我國網絡輿情熱點話題發現分析

21熱點話題發現研究路線

熱點話題指的是在某個時間段內人們比較關注的話題,涉及民生、政治、經濟以及文化等方面。網絡輿情熱點話題發現過程一般遵循數據采集、數據處理以及話題識別3個大步驟,具體流程如圖2所示。

22熱點話題數據采集

作為網絡輿情熱點話題發現的前提,數據采集是網絡輿情熱點話題發現的重要一部分,主要通過數據采集工具,對目標站點的數據進行監測和數據采集。目前數據源主要來自微博、新聞網站、論壇以及相關網頁等。從數據采集方式上,目前主要是采用網絡爬蟲技術從互聯網中抓取下來。從網絡爬蟲的功能和結構上分類,可分為通用類型的網絡爬蟲、專用型的網絡爬蟲以及增量型網絡爬蟲[1]。關于網頁信息抽取技術,大體上分為基于DOM樹的抽取方法、基于統計的抽取方法以及基于模板的抽取方法。

孫勝平提出基于時間判斷的廣度優先網頁采集技術,在網頁采集流程中添加時間分析器來判斷頁面內容的時效性,從而決定是否對該頁面進行廣度采集,避免了采集無用信息,提高了采集效率和覆蓋率[2]。羅磊針對微博信息在內部傳播時易于擴散至其他新媒體,提出基于改進的Shark-Search的主題擴散跟蹤方法,通過主題爬蟲參數來逆向測評主題在網絡中的密度,另外對主題爬蟲算法進行修改,解決在短期小規模搜索時易陷入粘滯狀態的問題[3]。衣波在分析網絡輿情數據的主要來源和抓取模塊中的網絡爬蟲的基礎上,對開源網絡爬蟲進行改進,采用多個哈希碼映射彌補原算法高內存消耗的不足,從而提高內存的利用率,以及在一定程度上減少誤判率[4]。

23文本處理

231文本分詞

采集的數據經過數據清洗后,進行文本分詞、詞性標注、識別命名實體、特征選擇等數據處理步驟,進而建立文檔表示模型,最后進行熱點話題發現與更新。

其中目前比較常用的分詞方法有基于詞典匹配、基于理解以及基于統計3種[5]。以下表1對3類方法優缺點進行簡單歸納[6]。

232文本表示

文本表示指的是將文本轉換為電腦可識別的結構化形式的過程。目前比較常見的文本表示模型有向量空間模型、概率模型以及布爾模型[7]。其中向量空間模型應用最為廣泛。向量空間模型經過不斷改進,常見的VSM擴展模型有廣義向量空間模型(GVSM)、潛在語義標引、概率向量處理模型以及基于語義分析的向量空間模型(SVSM)等。三大類模型優缺點歸納如表2所示,常見的文本表示應用模型歸納如表3所示。

24熱點話題發現模型

熱點話題發現的核心部分實質上是文本聚類的過程,不同的聚類算法對應不同的有效性。從聚類內容上看,可大致分為基于詞、基于內容以及基于信息3個角度;從聚類方法上來看,目前比較常見的具聚類算法有:基于劃分、層次、密度、網格及其他聚類算法,歸納如表4所示。

在熱點提取方面,比較常見的有基于改進的聚類算法、多層次聚類、遺傳算法、粒子群算法等模型。按照時間順序對收集的相關文獻的主要研究內容進行簡單歸納列舉,如表5所示。

3研究結論及展望

31研究中存在的不足

通過對現有網絡輿情熱點話題發現的研究進行分析歸納,尚存在以下幾點不足:

1)微博是全中國主流、具人氣以及較火爆的互聯網產品,平臺上具有較為全面、及時的中文資訊,因此常被學者們作為網絡輿情熱點話題發現研究的數據采集源。微博中網絡用語呈現較大隨意性、碎片化、語言非結構化等特點,導致分詞準確率受影響,使得熱點話題發現受一定程度的影響。

2)雖然目前關于網絡輿情熱點話題發現的研究比較多,其中的方法和模型也比較成熟,但是比較系統、成體系的網絡輿情熱點話題發現應用不是很多,從數據采集、熱點話題發現以及話題追蹤的整套解決方案較少。

3)另外,針對數據采集的專門研究較為缺乏,大多文獻側重文本挖掘研究,大多聚類算法只針對較單一類型的數據,較少的文獻關注到數據源中的圖片、音頻以及視頻等的數據采集。而現實中的數據多是混合數據類型的數據,而簡單的忽略其中的一種數據類型或者轉換為同種數據類型都會影響話題發現的準確率。

32研究展望

通過對網絡輿情熱點話題發現的相關文獻進行總結,本文認為接下來可從以下幾方面改進:

1)分詞的準確性直接影響到主題分析的準確性,目前在中文分詞上,基于詞典匹配的機械分詞方法和基于統計的分詞方法比較成熟,其二者結合使用也可使分詞達到較好的效果,但基于語義的分詞是較為理想的分析方法,如專家系統分詞、神經網絡分詞等,這也是未來發展的方向。

2)在數據采集方面,大數據背景下數據呈爆發式增長,海量數據的抓取分析會使得熱點話題發現更為精確。而當今大數據存儲和分析的主流技術Hadoop是解決這一問題有效途徑,采用基于API和結構樹網頁正文抽取解析結合的方案,可實現海量數據的高效處理和深度并行化的分析。另外,在數據預處理方面,當前的海量數據大而雜亂,對數據進行有效的去噪處理頁是提高聚類效果的關鍵所在。

3)熱點話題發現的重要部分在于聚類,其聚類結果的準確性直接影響熱點話題發現的準確度,在盡量減少聚類所需時間的同時,保證聚類的精確度也是重點。另外,在面對動態變化的數據時,傳統的聚類方法效率較低,應提高聚類動態數據的效率。

參考文獻

[1]陳震.基于云平臺的網絡新聞熱點話題檢測與發現[D].北京:北京郵電大學,2013.

[2]孫勝平.中文微博客熱點話題檢測與跟蹤技術研究[D].北京:北京交通大學,2011.

[3]羅磊.微博輿情熱點檢測與跟蹤方法研究[D].杭州:杭州電子科技大學,2013.

[4]衣波.網絡輿情信息的話題發現和追蹤技術的研究與應用[D].廣州:廣東工業大學,2013.

[5]馮穎.網絡輿情敏感話題發現平臺的研究[D].北京:北京交通大學,2009.

[6]中文分詞技術(中文分詞原理)[EB/OL].http:∥www.cnblogs.com/flish/archive/2011/08/08/2131031.html,2011-08-08.

[7]夏立新,金燕,方志,等.信息檢索原理與技術[M].北京:科學出版社,2009:21-37.

[8]王娟琴.三種檢索模型的比較分析研究:布爾,概率,向量空間模型[J].情報科學,1998,16(3):225-230.

[9]劉奕群.搜索引擎技術基礎[M].北京:清華大學出版社,2010.

[10]張海東.基于論壇的熱點話題識別與趨勢預測研究[D].上海:上海師范大學,2015.

[11]王巍,楊武,齊海鳳.基于多中心模型的網絡熱點話題發現算法[J].南京理工大學學報,2009,33(4):422-426.

[12]馬雯雯.基于隱含語義分析的微博熱點話題發現策略[D].重慶:重慶大學,2013.

[13]吳妮,趙捧未,秦春秀.基于語義分析和相似強度的微博熱點發現方法[J].現代圖書情報技術,2015,31(5):57-64.

[14]米文麗,孫曰昕.利用概率主題模型的微博熱點話題發現方法[J].計算機系統應用,2014,(8):163-167.

[15]李鳳嶺,朱保平.基于LDA模型的微博話題發現技術研究[J].計算機應用與軟件,2014,(10):24-26.

[16]談成訪,汪材印,張亞康.基于LDA模型的中文微博熱點話題發現[J].宿州學院學報,2014,29(4):71-73.

[17]黃波.基于向量空間模型和LDA模型相結合的微博客話題發現算法研究[D].成都:西南交通大學,2012.

[18]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優化的微博熱點話題發現算法[J].計算機工程,2016,42(3):208-213.

[19]龍志,程葳.基于詞聚類的熱點話題檢測算法[J].計算機工程與設計,2011,32(6):2214-2216.

[20]林思娟,林柏鋼,許為,等.一種基于詞語能量值變化的微博熱點話題發現方法研究[J].信息網絡安全,2015,(10):46-52.

[21]韓忠明,張慧,張夢,等.大規模短文本的快速話題發現方法與評價研究[J].計算機應用研究,2015,32(3):717-722.

[22]丁若堯.基于博客的網絡話題發現及追蹤的研究[D].北京:北京交通大學,2011.

[23]稅儀冬,瞿有利,黃厚寬.周期分類和Single-Pass聚類相結合的話題識別與跟蹤方法[J].北京交通大學學報,2009,33(5):85-89.

[24]方星星,呂永強.基于改進的single-pass網絡輿情話題發現研究[J].計算機與數字工程,2014,(7):1233-1237.

[25]楊長春,周猛,葉施仁,等.基于改進CURE算法的微博熱點話題發現[J].計算機仿真,2013,30(11):383-387.

[26]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發現[J].模式識別與人工智能,2012,25(3):382-387.

[27]馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發現方法[J].計算機工程與應用,2014,50.

[28]楊菲,黃柏雄.詞共現網絡的遺傳聚類在話題發現中的應用[J].計算機工程與應用,2013,49(14):126-129.

[29]馬慧芳,吉余崗,李曉紅,等.基于離散粒子群優化的微博熱點話題發現算法[J].計算機工程,2016,42(3):208-213.

[30]黃敏.網絡輿情熱點挖掘算法研究與實現[J].安徽大學學報:自然科學版,2012,36(6):67-72.

[31]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發現[J].中文信息學報,2012,26(1):84-90.

(本文責任編輯:郭沫含)

猜你喜歡
綜述
2021年國內批評話語分析研究綜述
認知需要研究綜述
氫能有軌電車應用綜述
高速磁浮車載運行控制系統綜述
5G應用及發展綜述
電子制作(2019年10期)2019-06-17 11:45:16
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
深度學習認知計算綜述
JOURNAL OF FUNCTIONAL POLYMERS
Progress of DNA-based Methods for Species Identification
法醫學雜志(2015年2期)2015-04-17 09:58:45
主站蜘蛛池模板: 欧美成人午夜影院| 中文字幕久久波多野结衣| 成人免费一级片| 小13箩利洗澡无码视频免费网站| 精品国产成人a在线观看| 国产精品.com| 久久久久亚洲AV成人人电影软件| 国产成人福利在线| 欧美精品啪啪一区二区三区| 亚洲中文字幕97久久精品少妇| 国产噜噜在线视频观看| 国产高清在线精品一区二区三区 | 欧美黄网站免费观看| 色婷婷在线影院| 亚洲色成人www在线观看| 永久毛片在线播| 国产主播喷水| 亚洲熟女偷拍| 亚洲高清免费在线观看| 人妻免费无码不卡视频| 亚洲人成日本在线观看| 最近最新中文字幕在线第一页| 色综合天天综合| 亚洲天堂2014| 成人免费一区二区三区| 999国产精品| 久久天天躁夜夜躁狠狠| 色偷偷av男人的天堂不卡| 国产成人av大片在线播放| 免费无码又爽又黄又刺激网站 | 亚洲国产综合自在线另类| 欧美视频免费一区二区三区 | 女人18毛片一级毛片在线| 无码免费视频| 国产黄色爱视频| 国产成人精品男人的天堂下载 | 不卡午夜视频| 欧美午夜精品| 青青青视频免费一区二区| 激情综合网激情综合| 啊嗯不日本网站| 丁香婷婷在线视频| 国产一区二区三区精品欧美日韩| 亚洲日本韩在线观看| 亚洲成人黄色在线观看| 91偷拍一区| 国产精品亚洲一区二区三区z| 日韩最新中文字幕| 国产亚洲精品97在线观看| 久久中文字幕2021精品| 国产二级毛片| 一个色综合久久| 97精品伊人久久大香线蕉| 亚洲人在线| 三上悠亚精品二区在线观看| 波多野结衣一二三| 国产乱人伦AV在线A| 亚洲日韩Av中文字幕无码| 天天激情综合| 国产第二十一页| 99热国产这里只有精品9九| 亚洲香蕉伊综合在人在线| 广东一级毛片| 国内精品久久久久久久久久影视| 中文天堂在线视频| 在线免费观看AV| 日本三级精品| 国产91小视频| 中国成人在线视频| 国产精品免费入口视频| 国产丝袜丝视频在线观看| 久久伊人操| 欧美狠狠干| 久久精品人妻中文系列| 国产特一级毛片| 亚洲欧美极品| 亚洲视频影院| 久久99国产综合精品1| 欧美午夜网| 中文字幕2区| 国产偷国产偷在线高清| 日本人妻一区二区三区不卡影院|