999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時序主題的網絡輿情熱點話題演化分析方法

2016-11-29 06:45:16王雪怡陳福集

陳 婷, 王雪怡, 曲 霏,陳福集

(1.南開大學 商學院,天津 300071; 2.天津大學 仁愛學院,天津 301636; 3.福州大學 經濟與管理學院, 福州 350108)

?

基于時序主題的網絡輿情熱點話題演化分析方法

陳 婷1*, 王雪怡2, 曲 霏2,陳福集3

(1.南開大學 商學院,天津 300071; 2.天津大學 仁愛學院,天津 301636; 3.福州大學 經濟與管理學院, 福州 350108)

針對輿情話題演化中的話題漂移和衍生效應,提出基于時序主題信息的輿情話題演化分析方法并通過加入時序標簽,對輿情熱點話題內容和強度的演化過程進行了可視化.實例證明,該文提出的話題追蹤算法能夠有效探測出各階段的輿情熱點話題、分析輿情演化趨勢,為突發事件發展態勢的預測提供理論借鑒.

網絡輿情; 話題追蹤; 時序主題; 話題演化

近十年來,由于自然災害肆虐、資源爭奪困境等諸多困擾,影響國家主權穩定、社會和諧發展的突發事件日益頻發,已成為各國政府需要重點應對的關鍵問題.突發事件爆發后,由于網民、媒體的主動行為和隨機行為,一時間網絡上各種消息報道鋪天蓋地,引起公眾的不斷跟進與討論,逐漸產生具有影響力的公眾情感傾向和政治態度傾向,并形成一股強大的社會輿論力量—網絡輿情[1].突發事件網絡輿情的發展和演化規律,能在很大程度上反映突發事件自身的內在發展機理.關注突發事件網絡輿情的發展演化,實現對網絡中輿情話題的有效發現與監控,有助于突發事件應急管理相關部門跟蹤事態發展,從容不迫地應對各種問題,從根本上提升決策環節的效率和效果.因此,輿情話題追蹤與演化分析具有重要的現實意義.

對輿情話題的追蹤和演化分析可從輿情話題追蹤算法的設計和實現[2-4]、熱點話題演化分析兩部分進行研究[5-8].文獻[2-4]以話題追蹤算法中的話題相關度的計算和基于時序信息的話題發現為著眼點,引入隱含語義分析的方法對語料信息進行建模,通過兩階段的聚類策略發現網絡上較受關注的話題[2],或把時間離散化為時間點,然后利用其極限情況來處理連續時間的動態主題跟蹤問題[3-4].文獻[5-8]關注點是話題演化分析,話題演化分析是指挖掘話題隨時間發展在屬性上的變化,主要表現在話題強度和話題內容發生的變化.

綜上,大部分的學者將關注點放在話題追蹤算法的改進和實現上,集中精力研究話題的識別與演化方法,鮮有學者將話題的識別和追蹤同話題的演化分析結合起來,缺乏對輿情話題演變規律和話題發現的整體研究.由于互聯網輿情所具有的衍生性和動態性,輿情話題會呈現出更復雜的演化特性.本文在輿情話題追蹤方法的設計和實現上為克服話題漂移和衍生現象造成的追蹤效率不高的問題,在話題相關度分析中對以往算法中僅僅基于內容相似度的方法進行了改進,并在話題識別出來之后,根據時序信息加入時序標簽,對話題隨時間演化過程進行可視化展示,分析突發事件的話題內容側重點的遷移規律和發展趨勢,從而了解和預測突發事件本身的演化機制.

1 基于動態話題模型的輿情話題追蹤方法

1.1 話題相關度調整策略

話題追蹤的關鍵是根據話題相關度探測新話題,以往話題追蹤方法大多基于內容相似度考量話題相關性.輿情話題傳播演化過程極易發生話題漂移和話題衍生現象,新話題往往是在對前一個話題或種子話題的回顧性描述或評論中產生的,通過這種方式產生的新話題往往與原網頁有鏈接關系,但是兩者的內容相似度較小,因此,針對圍繞突發事件的輿情話題的相關報道的語料信息,話題模型中話題信息層中的節點與輿情話題的相關度計算需要綜合考慮節點網頁之間的鏈接關系和內容相似度.因此,本文提出網頁間話題相關度的計算公式為

R=RL⊕RC,

(1)

式中,RC是根據網頁的內容計算得到的相關度,具體做法是計算互聯網新聞報道語料的內容空間向量與輿情話題的內容空間向量二者之間的相似度.因此(1)中的RL是根據網頁間的鏈接關系,在區分鏈接性質的前提下計算出的網頁主題之間的相關度.新入網頁Pa與原輿情話題相關度RL(Pa)的具體計算公式為

RL(Pa)=(RC(P1)+RC(P2)+…+

RC(Pn))/N(a).

(2)

公式(2)是新入報道的話題與原話題之間相似度的計算公式,由于原話題可能涉及多個網頁,而新入的輿情報道網頁若與多個原有報道的網頁之間均有鏈接關系,則新入網頁的話題與原話題的相似度須取與原有網頁報道的相關度總和的平均值,RC(Pi)為網頁Pa與原有報道的網頁Pi的內容相似度,N(a)是新入網頁Pa發出的鏈接總數.

⊕表示對RL和RC之間的運算是廣義加法運算即網頁間的話題相關度R滿足max(RL,RC)≤R≤min(1,RL+δRC),δ是根據RL和RC的相對重要性設置的調節系數.

1.2 基于動態話題模型的輿情話題追蹤方法

互聯網輿情報道隨著時間的演進不斷更新,新話題產生與否是未知的,因此話題的識別是一種增量式的聚類過程,并且話題挖掘過程是無監督的.首先,對于一系列的輿情報道,按照發布的時間信息將其劃歸到對應的時間片,在一個特定的時間片內對報道進行特征抽取,關于某特定時間的輿情報道中可能涉及多個話題,因此通過特征抽取形成多個話題向量,在此過程中將該報道轉換為對應的話題向量矩陣.

本文的話題追蹤方法從兩個方面捕捉輿情報道的動態變化:一方面,在模型的話題信息層中保存當前時刻的話題信息,主要是通過話題挖掘已經得到的聚類結果;另一方面,根據話題相關度調整策略計算新入報道的話題相關度,將新話題及其相關度的信息加入原有話題模型.這種增量式的話題聚類過程相當于是對整個報道集的聚類算法,算法按照時間片的順序,對報道集進行增量聚類,依次處理輿情報道信息流中的報道網頁,屬于當前神經網絡學習使用較多的批處理學習算法[9].具體算法實現如下.

2) for each Ri {//Ri為后續的輿情報道網頁;

4) R=R.add(Ri)//若Ri為相關報道,則將加入話題模型,并更新話題模型;

5) to extract effective link from Ri//區分Ri發出的網頁鏈接類型,去除友情鏈接和廣告鏈接;

6) for each link Lj {

7) if (Pj?Ti) then {//鏈接Lj指向網頁Pj,且Pj不在已有的話題集中;

8) num(Ti)++;//將網頁Pj加入話題模型;

update(Tj);

9) T=T.addLink(Ri,Pj)//更新話題模型的網頁信息層,添加Ri指向Pj的鏈接信息;

10) T=T.computeRL(Ri)//基于鏈接關系分析報道Ri的相似度;

11) for each link Lj {

12) T=T.updateR(Ri,Pj)};//根據公式(4)調整與報道Ri有鏈接關系的所有網頁Pj的相關度;

13) };

16) num(Ti)++;

update(Tj);//報道Ri的相關度超過了預設的閾值,認為輿情報道Ri出現了新話題,更新話題集;

18) End.

在上述算法中,步驟1)是確定種子報道和種子話題的模型初始化過程,步驟2)~步驟4)是判斷新入報道是否與種子報道相關的過程,如果相關則將該報道加入話題模型,并更新報道集.步驟5)~步驟13)是基于鏈接關系計算報道的相關度和鏈接所指網頁的相關度,并根據計算結果更新話題模型.步驟14)~步驟15)是判斷報道中是否有新話題產生的過程,最后返回某個時間片內的話題集.算法中的話題聚類方法采取研究成果[10],該方法自動挖掘熱點關鍵詞閉關聚類,可及時發覺熱點話題并對突發事件實時追蹤監測.

1.3 話題演化分析方法

綜合上述內容,基于時序主題的話題演化分析方法包括3個部分,即熱點話題的獲取、主題識別、對識別的主題添加時序標簽.通過話題相關度計算和話題聚類算法獲取熱點話題后,對熱點話題進行人工分析判斷實現主題識別,根據話題討論的具體內容和方向創建不同的主題,然后將識別出的主題添加時序標簽,發現主題的發展演化情況,如甄別哪些主題的討論隨時間變化越來越強烈,哪些主題隨時間變化逐漸變冷,對主題演化的判斷可幫助有關部門把握網絡熱點話題的發展方向,從而采取相關措施.

2 實驗分析

選擇“馬航MH370失聯”事件為案例,利用“網絡神采”數據采集器,以定向采集方式從騰訊和新浪兩大新聞門戶網站獲得相關的新聞報道5826條,作為實驗的數據源.實驗中對算法的實現方面選擇的編程語言采用Java語言,并通過開源的CRF中文分詞工具對文集進行分詞、停用詞過濾等預處理.經過預處理后相關語料就作為本實驗室的測試報道流,模擬互聯網輿情報道.

依照表1的話題追蹤算法,對算法的實現方面選擇的編程語言采用Java語言,對上述測試報道流進行實驗.通過話題追蹤結果進行人工分析和判斷,得到8個熱點主題:

Topic 00: MH370去向;Topic 01: 乘客家屬的安撫工作;Topic 02: 失聯航班的搜救;Topic 03: 飛機黑匣子打撈工作進展;Topic 04: 飛機失事原因調查;Topic 05: 各國搜救力量對比;Topic 06: 悼念MH370遇難者;Topic 07: 馬來西亞官方報道.

2.1 輿情話題內容演化分析

對上述8個熱點話題建立時間軸,添加時序標簽,見圖3~圖6.據此可分析“MH370失聯事件”發生后輿情話題隨時間發展的遷移路徑和公眾關注的側重點.

圖1 Topic 00與Topic 01隨時間演化情況Fig.1 Evolution of Topic 00 and Topic 01

圖2 Topic 02與Topic 03隨時間演化情況Fig.2 Evolution of Topic 02 and Topic 03

圖3 Topic 04與Topic 05隨時間演化情況Fig.3 Evolution of Topic 04 and Topic 05

圖4 Topic 06與Topic 07隨時間演化情況Fig.4 Evolution of Topic 06 and Topic 07

依圖1~圖4所示,各話題熱度的時間分布差異較大,各話題隨時間的變化趨勢不盡相同,說明事件發生后,由于事件發展,各輿情話題存在明顯的話題遷移.從整體分布而言,事件的主要聚焦對象為“馬航370墜毀”的真相、搜救工作、事件的處理和善后等方面.主題00“MH370去向”在3月10日形成一個小高峰,隨后迅速降低,這是由于越南海軍在越南南部海域發現油污帶,而在馬方確認油污帶與MH370航油不符后話題熱度迅速走低,在3月25日馬來西亞總理宣布MH370 終結于南印度洋后達到頂峰,隨后在4月24日再次形成一個小高峰,這符合當時澳大利亞宣布已打撈出疑似馬航370殘骸的實際情況.主題02“失聯航班的搜救”,從3月8日事件發生當天開始,在初期一直持續高強度報道,說明該階段對失聯航班的搜救工作一直在持續,然而在后期報道的重心由“搜救”轉向“黑匣子搜尋”.主題03“飛機黑匣子打撈工作”在事件剛發生的一段時間內一直處于低潮,在3月15日話題熱度不斷高漲,特別是在3月25日之后逐步達到白熱化,在3月29日左右出現整個情勢的峰值.而現實情況與此規律吻合:在3月25日馬來西亞總理宣布飛機墜毀之前,并無明確消息指向飛機的墜亡,所以之前的搜救工作重心是尋找客機,調查其失聯原因,“機長有最大嫌疑”、“恐怖分子劫機”等相關的熱點話題正是在該時間段內正式形成.而在馬來西亞總理公布飛機終結于印度洋后,國際相關突發事件應急組織的工作重點由搜救轉向尋找飛機黑匣子,所以該主題一直在高漲,并在黑匣子失效前期隨著搜尋力度的加大,包括澳大利亞、美國、中國等多涉事主體的加入,該主題的輿情影響力達到了空前高度.從圖中可看出,主題04“飛機失事原因調查”從3月15日后開始頻繁報道,究其原因是由3月14日后馬航確認有持假護照登機者引起的,由此產生的“恐怖分子襲擊”等熱點話題開始形成,在3月26日,由于各國媒體直指機長為最大嫌疑人,關于機長個人成長背景、家庭背景、馬方政府調查的相關報道短時間內激增,在28日該主題的熱度達到峰值.隨后由于馬方政府及時公布調查結果而熱度逐漸衰退.必須指出的是主題06“悼念MH370遇難者”,該主題下的話題“澳政府擬建馬航MH370紀念碑”屬于衍生話題,而且發生在事件后期,而該時期的工作重點仍是尋找飛機黑匣子,與此類似由04主題“飛機失事原因調查”衍生出的“馬航未能呼救之謎”、“副機長與澳大利亞旅客合照”等話題也出現在事件后期,說明在輿情衰退期,由于公眾視線轉移,原始輿情已失去生命力,這時極易產生與原事件相關度不大的新話題,同時也驗證了本文話題追蹤方法的有效性,能夠在報道語料中發現輿情發展后期的衍生話題.

通過圖1~圖4的話題演化情況還可以刻畫“馬航370失聯”事件的網絡輿情的走勢,大概可以分為四個階段,筆者已在圖1中標示.

2.2 輿情話題強度變化

話題強度描述了話題的關注度,討論某話題的文章數越多,說明該話題的強度越高,可以被認為是熱門話題[11].

通過對各時間段內形成的輿情話題的媒體關注度進行展示可以分析輿情話題強度的變化,筆者針對國內主流網媒如新華網、鳳凰網等26家網媒對上述輿情熱點話題的報道頻率,展示了話題強度的變化,限于篇幅,以前四個話題為例,見圖5和圖6.

為保證圖形美觀,國內主要網媒:人民網、新華網、人民日報、光明日報、新民周刊、 鳳凰網、重慶晚報、華龍網、新京報、浙江在線、齊魯網、中國河南網、蘭州晚報、北京商報、城市晚報、解放網—解放日報、東方早報、蘭州晨報、第一財經日報、法制網、大河網、中證網、北京商報、廣東—南方網、西安日報、金羊網—羊城晚報,分別用A~Z字母表示.

圖5 Topic00和Topic01的網媒報道情況Fig.5 Reports of Topic 00 and Topic 01

圖6 Topic02和Topic03的網媒報道情況Fig.6 Reports of Topic 02 and Topic 03

每個時段內的最熱門的話題并不固定,網媒報道的側重點差異度較大,主要集中在:主題00,03,04和07.從整體分布情況看,人民網和鳳凰網對“馬航MH370失聯事件”的關注度最高,且各網媒關注的側重點有較大差異.例如新華網關注的側重點為主題01,02和07,重慶晚報對主題00,02和07的報道頻率較高,人民日報對主題00,02,05和07展開了重點報道,人民網對主題02,05,和06表現了較高關注度.由此可見主題05和07是各網媒爭相報道的重點,兩個主題受到了主流網媒的共同關注,說明“失聯航班的搜救”和“馬來西亞官方報道”受到了高度關注,中國和國際組織的救援工作一直是公眾關注的焦點問題,同時也是解決問題的關鍵.由此可看出馬航事件背后的未來國際多邊合作的新端倪和新趨勢.

綜合輿情熱點話題的內容和強度的演化,可以實現“馬航MH370失聯事件”輿情情況的全面展現,從而得到事件的發展趨勢,筆者將其整理為表格,見表1.

有效合理地研究突發事件的網絡輿情,通過對輿情話題演化路徑的分析,有助于全面認識事件的變化情況,直觀展現事件整體發展過程,這對于熱點事件的研究至關重要.

表1 “馬航MH370事件”發展過程各階段情況

3 結語

突發事件網絡輿情的發展和演化情況,在很大程度上反映了突發事件自身的內在規律,本文的核心工作在于將話題追蹤和話題演化分析結合起來,將互聯網輿情報道離散到時間序列上的時間片,探測每個時間片上的熱點話題,提出了一種綜合考慮內容和鏈接度的話題追蹤方法,并在此基礎上提出了基于時序主題的話題演化分析方法.以“馬航MH370失聯事件”為例,根據時間序列上的話題熱度變化,從話題內容和話題強度兩方面,展示熱點輿情主題的分布情況.通過分析輿情話題的演化情況,可為政府突發事件后的應急處理中,及時了解輿情動態,預測事件發展態勢,進而提高決策環節的效率和效果,提供有益借鑒.

限于篇幅,綜合考慮鏈接度和內容的話題追蹤方法與以往話題追蹤方法的對比分析,以及對衍生話題的探測效果的考察,筆者并未撰文分析.另外,如何進一步挖掘衍生話題特點,更好探索話題之間的關聯,將是未來的研究重點.

[1] 陳福集, 鄭小雪. 面向網絡輿情的政府知識模型研究[J].圖書情報工作, 2012, 56(8):123-127,122.

[2] 馬雯雯, 魏文晗, 鄧一貴. 基于隱含語義分析的微博話題發現方法[J].計算機工程與應用,2014, 50(1):96-100.

[3] BLEI D M, LAFFERTY J D. Dynamic topic models[C]//Proceedings of the 23rd International Conference on Machine Learning, 2006:113-120.

[4] 趙 華, 趙鐵軍, 趙 霞. 時間信息在話題檢測中的應用研究[J].計算機科學, 2008, 35(1):221-223.

[5] GRIFFITHS A T, STEYVERS M. Finding scientific topics[J]. Proceeding of the National Academy of Science, 2004, 101(S1):5228-5235.

[6] HALL D, JURAFSKY D, MANNING C D. Studying the History of Ideas Using Topic Models[C]//Proceedings of the 2008 Conference on Empirical Methods in National Language Processing, 2008:363-371.

[7] 高 田, 杜軍平. 基于領域知識本體的突發事件演化[J].中南大學學報(自然科學版), 2011, 42(S1):847-852.

[8] 朱恒民, 劉 凱, 盧子芳. 媒體作用下互聯網輿情話題傳播模型研究[J].現代圖書情報術, 2013(3):45-50.

[9] 許 彪, 李明楚. 基于終身學習RBF神經網絡的網絡安全態勢預測[EB/OL].http://www. paper.edu.cn/html/releasepaper/2008/09/690/.

[10] 張壽華, 劉振鵬. 網絡輿情熱點話題聚類方法研究[J].小型微型計算機系統, 2013, 34(3):471-474.

[11] 賀 亮, 李 芳. 科技文獻話題演化研究[J].現代圖書情報技術,2012(4):61-67.

Research on method of public opinion topic evolution analysis based on time sliced topic

CHEN Ting1, WANG Xueyi2, QU Fei2, CHEN Fuji3

(1.School of Business, Nankai University, Tianjin 300071; 2.School of Renai,Tianjin University, Tianjin 310363;3.School of Economics and Management, Fuzhou University, Fuzhou 350108)

For the topic drift and derivative effect in the evolution of internet public opinion, in this paper a topic tracking method is proposed based on link degree and content similarity. Experiments showed that, the method effectively detects the hot topics in various stages and analyze the evolution trends of public opinion, suggesting its function on providing theoretical reference for the governments’ forecasting work in emergencies.

internet public opinion; topic tracking; time sliced topic; topic evolution

2016-01-23.

國家自然科學基金項目(71271056).

1000-1190(2016)05-0672-05

G206.3

A

*E-mail: 215003771@qq.com.

主站蜘蛛池模板: 日本国产在线| 激情無極限的亚洲一区免费| 亚洲精品动漫| 97久久人人超碰国产精品| 国产高清无码麻豆精品| 欧美激情综合| 国产va在线观看免费| 欧美亚洲欧美区| 777午夜精品电影免费看| 女人一级毛片| 久久国产高潮流白浆免费观看| 色欲综合久久中文字幕网| 亚洲福利视频一区二区| 伊人久热这里只有精品视频99| 国产香蕉在线视频| 成人va亚洲va欧美天堂| 精品国产成人av免费| 国模视频一区二区| 成人福利在线观看| 国产又粗又爽视频| 在线看片中文字幕| 午夜精品影院| 四虎永久免费地址在线网站| 一级黄色片网| 美女无遮挡免费网站| 亚洲中字无码AV电影在线观看| 亚洲另类色| 国产亚洲成AⅤ人片在线观看| 日韩在线播放中文字幕| 国产99视频免费精品是看6| 欧美午夜视频| 国产一区二区三区免费| 国产美女叼嘿视频免费看| 欧洲成人免费视频| 国产爽妇精品| 免费欧美一级| 国产手机在线小视频免费观看 | 91福利在线看| 在线观看视频99| 国产丝袜啪啪| …亚洲 欧洲 另类 春色| 58av国产精品| 亚洲精品不卡午夜精品| 欧美日在线观看| 国模视频一区二区| 欧美成在线视频| 97视频在线精品国自产拍| 666精品国产精品亚洲| 亚洲欧美不卡视频| 欧美特级AAAAAA视频免费观看| 亚洲欧美色中文字幕| 亚洲无码高清视频在线观看| 99ri国产在线| 久久人搡人人玩人妻精品| 欧美日本中文| 婷婷成人综合| 免费高清自慰一区二区三区| 麻豆国产精品视频| 无码一区二区三区视频在线播放| 69综合网| 丰满的熟女一区二区三区l| 99九九成人免费视频精品| 国产福利一区在线| 色哟哟国产精品| 99在线视频网站| 99久久国产自偷自偷免费一区| 国产精品一区不卡| 久久这里只精品热免费99| 狠狠操夜夜爽| 国产亚洲现在一区二区中文| 无套av在线| 国产人人乐人人爱| 蜜桃臀无码内射一区二区三区 | 真实国产精品vr专区| 亚欧成人无码AV在线播放| 成人午夜久久| 久久香蕉国产线看观| 欧美成人午夜视频免看| 欧美中文字幕第一页线路一| 亚洲精品天堂自在久久77| 亚洲黄色激情网站| 精品欧美日韩国产日漫一区不卡|