張聰聰,李思彤,湯 藝,殷復蓮
?
基于數據挖掘的國際涉華輿情分析關鍵技術研究
張聰聰,李思彤,湯 藝,殷復蓮*
(中國傳媒大學 信息工程學院,北京 100024)
針對新媒體時代國際涉華輿情廣度和強度急劇增強的問題,本文提出了基于數據挖掘的國際涉華輿情分析方案,采用數據挖掘相關技術得出周邊與非周邊國家在熱點事件上的輿情共性與差異。本文對中美貿易戰進行Twitter和微博全面數據分析對比,深入探究其微博轉發結構,得到了國際涉華輿情的特點以及我國輿情演變機制。
涉華輿情;數據挖掘;數據分析;微博轉發結構
一直以來,西方媒體在輿論場都處于主導地位。隨著互聯網技術的發展,大數據時代的來臨使得以推特、微博為代表的自媒體取代傳統媒體成為輿論的重要產生地。新型媒體領域的出現將改變輿情的整體格局,對我國也是一個不可錯失的機遇。準確把握新媒體領域國際輿論場的走向,有利于正確判斷我國所處國際輿情的新形態,有利于推進中國國際傳播能力建設,有利于向世界展現真實、立體、全面的中國。
數據挖掘(Data Mining),指“通過仔細分析大量數據來揭示有意義的新的關系、趨勢和模式的過程”[1]。傳統的數據挖掘包括分析用戶地域分布,性別分布、情感走向以及詞云制作,如今為更好的挖掘潛在價值,輿情轉發結構和輿情預警被廣泛研究。西方媒體已經通過數據挖掘的方式進行新聞報道,發現其中的新穎點并對此進行深度剖析,不僅在呈現上更加簡明而且更加有說服力。彭博新聞社開設的數據挖掘類欄目今日圖表將彭博新聞、彭博數據與彭博分析結合起來,全面解讀數據挖掘在新聞報道中的應用。國內在此方面開展較晚,架構仍不清晰,但主流媒體都在紛紛跟進[2-3]。
本文主要是基于“Python+Google+Selenium”的平臺進行數據的爬取[4],對爬取的數據做清洗、集中;其次利用R語言做出熱點事件周邊國家和非周邊國家整體內容詞云,分析得出兩者關注點的差異之處;之后以微博平臺為例,做出中美貿易戰多關鍵點型轉發結構,最終以可視化系統的形式呈現以上全部分析結果。
通過Python工具對國內和國外的社會媒體、新聞網站和政府機構進行數據獲取,采集得到有關中國的各類文本以及數值型數據。對國家進行區域分類,因地制宜通過MySQL建立各區域的數據庫,為后續各類研究奠定堅實的基礎。

圖1 國際涉華輿情分析方案
通過使用跨學科研究方法融合應用,進行關注焦點分析、用戶標簽分析、事件走向趨勢分析、地域分布分析、性別比例分析以及意見領袖的挖掘。利用意見領袖進行微博轉發結構的繪制,微博轉發結構分為單關鍵點型、鏈式型以及多關鍵點型。單關鍵點型微博信息傳播速度快,關鍵點為強勢微博用戶節點,但輿情挖掘深度稍低;鏈式型結構信息傳播速度較慢,但針對性強;多關鍵點型結構輿情傳播深度高,影響范圍廣[6]。
具體而言使用R語言對數據進行可視化處理,顯示熱點事件內容詞云,以進行周邊國家和非周邊國家的“中國觀”分析;以微博和Twitter平臺為例,以進行輿情內容、用戶畫像、情感傾向分析;深入微博進行意見領袖的挖掘,對輿情事件發生過程中的輿情傳播特征進行分析。
本文選取“博鰲亞洲論壇”、“中美貿易戰”、“全國兩會”、“金正恩訪華”、“嫦娥四號登月”5個熱點事件,基于“Python+Selenium+Google”平臺采集周邊國家和非周邊國家政府、媒體、娛樂網站數據,同時利用R語言進行數據預處理、數據分析以及詞云繪制;對于中美貿易戰深入解讀,利用Python分詞然后導入WordArts制作詞云以及分析事件的整體內容詞云、用戶簡介詞云、情感傾向[7]、地域信息、男女比例等。
實驗一 周邊與非周邊國家內容詞云對比
周邊國家包含俄羅斯、日本、新加坡以及韓國,非周邊國家包含澳大利亞、美國、英國。以下選取兩個事件進行整體內容對比展示。

圖2 周邊國家--中美貿易戰

圖3 非周邊國家--中美貿易戰
對于“中美貿易戰”,從詞云對比圖可以看出,周邊國家更關注“經濟”、“貿易”、“關稅”以及如何和平解決,而從非周邊國家關注熱詞“戰爭、全球、冷戰、經濟”等可以看出輿論聲音強烈,而且態度更加強硬。

圖4 周邊國家—博鰲亞洲論壇

圖5 非周邊國家—博鰲亞洲論壇
對于博鰲亞洲論壇,周邊國家的詞云熱詞為“亞洲、海南、經濟、貿易、發展”,表明周邊國家更多是考慮此次會議會如何推動自身發展,而非周邊國家詞云顯示“習近平、特朗普、講話”為熱詞,表明他們更傾向于關注領導人之間的對話。
實驗二 微博和Twitter輿情分析和對比
本實驗以中美貿易戰為例。中美貿易戰,起源于美國總統唐納德。特朗普于2018年3月22日簽署備忘錄,宣布依據1974年貿易法第301條對中國進口的商品征收關稅,中國商務部做出反制措施向128種美國進口商品征稅。中美雙方曾于2018年5月達成和平共識,但2018年7月特朗普政府正式對中國商品加征25%關稅,中方報復措施也在之后即行實施。中美貿易戰實則是美國霸權主義遏制中國崛起的手段,隨著時間推移國際形勢對我們將更加有利;同時我們應正確辨認有利因素和不利條件,解決好貿易糾紛[8]。
(1)熱度趨勢走向圖

圖6 熱度趨勢圖
從熱度圖可以看出,國內外整體熱度圖走向基本是一致的,說明中美貿易戰這件事給雙方都帶來了影響。但是特朗普于2018年3月22日簽署備忘錄后2018年3月23日在國內立即引起熱議,而國外民眾則是在2018年4月在美國政府發布加征關稅商品清單時熱度才達到頂峰。而且相較于第一次的關注度,在2018年7月6日美國對華征稅清單第一部分正式生效時,國內關注度不如上次;而國外民眾則達到該事件關注頂峰。這種差異說明國內對于中美貿易戰的關注是集中在這件事背后對中國發展的深遠影響,而國外民眾(絕大多數為美國)可能更關注加征關稅商品清單,這與他們的生活直接相關。
(2)內容詞云圖

圖7 中美貿易戰-微博

圖8 中美貿易戰-Twitter
微博詞云圖顯示的熱詞為“經濟、市場、貿易、談判、股市”,可見國內民眾還是希望和平解決貿易糾紛,最終實現經濟繁榮,雙方共贏;Twitter詞云圖熱詞為“War、Go、Talk、Fight、Economy、Win”,可以看出國外民眾絕大部分還是希望通過談判以求得和解,但是仍有小部分激進分子企圖挑起戰爭,鞏固美國的霸權主義。
(3)用戶標簽詞云圖

圖9 微博用戶標簽詞云

圖10 Twitter用戶標簽詞云
從該事件兩個平臺的用戶關注者的詞云圖來看,絕大多大數為商人、證券分析師、股民、政治家以及其他涉及到經濟的一些行業,說明中美貿易戰不僅是中國和美國的貿易沖突,更和國際經濟市場密切相關,所以應妥善解決以避免經濟市場的動蕩。
(4)情感傾向

圖11 情感傾向圖
從對比可以看出,國內民眾對于此事件大多持積極態度,堅持維護國家利益;相比之下,國外民眾持中立態度,觀望者較多,同時有小部分民眾直接表示不支持此種做法,但是仍有民眾選擇支持政府決定。
(5)微博用戶地域分布圖、性別分布圖

圖12 微博用戶地域分布圖
從上圖可以看出(由藍到黃表示關注用戶越來越多),對于中美貿易戰比較關注的用戶仍集中在北京、上海和廣東這些一線大城市,其次是沿海城市如山東、江蘇和浙江,而內陸或者偏遠的西部地區則關注度較低。

圖13 微博用戶性別分布圖
從上圖可以看出,對于中美貿易戰,由于涉及政治、經濟等領域知識,在所觀察人群中男性關注度遠遠高于女性。
實驗三 微博轉發結構圖
微博是一種基于用戶關系的信息分享、傳播以及獲取的平臺,涵蓋了從個人導向到群體導向,從簡單信息傳播到整體輿論網絡行為協作的的多元化功能。基于信息傳播模型建立網狀的微博轉發結構模型,有利于預測用戶的轉發行為,進而可以預測當前事件的傳播速度和傳播范圍[9]。本文以中美貿易戰為例,采用多關鍵點模型,選取大V節點作為中心繪制微博轉發結構模型。

圖14 微博轉發結構圖
本文選取轉發量最高的三個節點(占豪2106、新浪財經1261、任澤平878)作為意見領袖,并以其為轉發中心點做出中美貿易戰傳播結構,由此我們可以清晰的看見該事件的傳播路徑。同時這種層級的網狀結構能快速找到改變輿論走勢的關鍵性節點,一方面有利于政府在輿情初期控制輿情發展趨勢,另一方面有助于識別破壞國家安全的反動分子和維護社會和諧穩定[10]。
本文選取2018年度上半年的5個熱點涉華事件,整體比較周邊國家和非周邊國家在熱點事件上關注點的不同之處,有利于我國因地制宜,在國際社會中贏得更為友善的輿論空間[11];重點比較了社交平臺微博和Twitter,詳細分析了對于中國貿易戰兩平臺的關注趨勢走向、關注點、關注者基本標簽的差異以及情感傾向的不同,有利于新聞工作者的研究工作以及我國媒體對外國家形象的傳播;此外本文給出了對于此事件多關鍵點模型的微博轉發結構圖,達到了輔助決策的目的。
[1] 王光宏、蔣平: 《數據挖掘綜述》[J]. 同濟大學學報自然科學版, 2004(2): P246.
[2] 史尤昭. 數據挖掘技術研究與應用[J]. 軟件, 2015, 36(11): 38-42.
[3] 卓廣平. 數據挖掘開發及應用研究[J]. 軟件, 2015, 36(5): 81-83.
[4] 王鐵剛. 社交媒體數據的獲取分析[J]. 軟件, 2015, 36(2): 86-91.
[5] 尹培培. 大數據時代的網絡輿情分析系統[J]. 廣播電視技術, 2013(15): 44-47.
[6] 劉繼、李磊. 基于微博用戶轉發行為的輿情信息傳播模式分析[J]. 情報雜志, 2013-7, 32(7): 75.
[7] 王非. 基于微博的情感新詞發現研究[J]. 軟件, 2015, 36(11): 06-08.
[8] 姚枝仲. 形勢正在發生對我有利的變化[N]. 光明日報, 2018-8-21(15).
[9] 劉瑋. 基于用戶行為特征的微博轉發預測研究[J]. 計算機學報, 2016-10, 39(10): 1994.
[10] 張軍芳. 對我國涉華國際輿情研究的解讀與反思—以1998-2011年間190篇相關論文危機為基礎的分析[J]. 新聞記者, 2012: 58.
[11] 董堅峰. 基于Web挖據的突發事件網絡輿情預警研究[J]. 現代情報, 2014-2, 34(2): 51.
Research on Key Technologies of International Public Opinion Analysis Based on Data Mining
ZHANG Cong-cong, LI Si-tong, TANG Yi, YIN Fu-lian*
(Communication University of China, Beijing 100024, China)
Aiming at the problem of the vastness and intensity of international sensationalism in China in the new media era, this paper proposes an international public opinion analysis program based on data mining and uses related techniques to obtain the similarities and differences between the surrounding and non-surrounding countries in hot events.This paper analyzes the comprehensive data of Twitter and Weibo in the China-US trade war , deeply explores its microblog forwarding structure, and obtains the characteristics of international sensationalism in China and the evolution mechanism of China's public opinion.
International sensationalism; Data mining; Data analysis; Microblog forwarding structure
TP391
A
10.3969/j.issn.1003-6970.2018.12.039
張聰聰(1997-),女,本科生,主要研究方向:大數據與數據挖掘;李思彤(1997-),女,本科生,主要研究方向:大數據與數據挖掘;湯藝(1997-),男,本科生,主要研究方向:大數據與數據挖掘。
殷復蓮(1982-),女,副教授,主要研究方向:大數據與數據挖掘。
張聰聰,李思彤,湯藝,等. 基于數據挖掘的國際涉華輿情分析關鍵技術研究[J]. 軟件,2018,39(12):172-176