張聰聰,李思彤,湯 藝,殷復(fù)蓮
?
基于數(shù)據(jù)挖掘的國際涉華輿情分析關(guān)鍵技術(shù)研究
張聰聰,李思彤,湯 藝,殷復(fù)蓮*
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
針對新媒體時(shí)代國際涉華輿情廣度和強(qiáng)度急劇增強(qiáng)的問題,本文提出了基于數(shù)據(jù)挖掘的國際涉華輿情分析方案,采用數(shù)據(jù)挖掘相關(guān)技術(shù)得出周邊與非周邊國家在熱點(diǎn)事件上的輿情共性與差異。本文對中美貿(mào)易戰(zhàn)進(jìn)行Twitter和微博全面數(shù)據(jù)分析對比,深入探究其微博轉(zhuǎn)發(fā)結(jié)構(gòu),得到了國際涉華輿情的特點(diǎn)以及我國輿情演變機(jī)制。
涉華輿情;數(shù)據(jù)挖掘;數(shù)據(jù)分析;微博轉(zhuǎn)發(fā)結(jié)構(gòu)
一直以來,西方媒體在輿論場都處于主導(dǎo)地位。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代的來臨使得以推特、微博為代表的自媒體取代傳統(tǒng)媒體成為輿論的重要產(chǎn)生地。新型媒體領(lǐng)域的出現(xiàn)將改變輿情的整體格局,對我國也是一個(gè)不可錯(cuò)失的機(jī)遇。準(zhǔn)確把握新媒體領(lǐng)域國際輿論場的走向,有利于正確判斷我國所處國際輿情的新形態(tài),有利于推進(jìn)中國國際傳播能力建設(shè),有利于向世界展現(xiàn)真實(shí)、立體、全面的中國。
數(shù)據(jù)挖掘(Data Mining),指“通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢和模式的過程”[1]。傳統(tǒng)的數(shù)據(jù)挖掘包括分析用戶地域分布,性別分布、情感走向以及詞云制作,如今為更好的挖掘潛在價(jià)值,輿情轉(zhuǎn)發(fā)結(jié)構(gòu)和輿情預(yù)警被廣泛研究。西方媒體已經(jīng)通過數(shù)據(jù)挖掘的方式進(jìn)行新聞報(bào)道,發(fā)現(xiàn)其中的新穎點(diǎn)并對此進(jìn)行深度剖析,不僅在呈現(xiàn)上更加簡明而且更加有說服力。彭博新聞社開設(shè)的數(shù)據(jù)挖掘類欄目今日圖表將彭博新聞、彭博數(shù)據(jù)與彭博分析結(jié)合起來,全面解讀數(shù)據(jù)挖掘在新聞報(bào)道中的應(yīng)用。國內(nèi)在此方面開展較晚,架構(gòu)仍不清晰,但主流媒體都在紛紛跟進(jìn)[2-3]。
本文主要是基于“Python+Google+Selenium”的平臺(tái)進(jìn)行數(shù)據(jù)的爬取[4],對爬取的數(shù)據(jù)做清洗、集中;其次利用R語言做出熱點(diǎn)事件周邊國家和非周邊國家整體內(nèi)容詞云,分析得出兩者關(guān)注點(diǎn)的差異之處;之后以微博平臺(tái)為例,做出中美貿(mào)易戰(zhàn)多關(guān)鍵點(diǎn)型轉(zhuǎn)發(fā)結(jié)構(gòu),最終以可視化系統(tǒng)的形式呈現(xiàn)以上全部分析結(jié)果。
通過Python工具對國內(nèi)和國外的社會(huì)媒體、新聞網(wǎng)站和政府機(jī)構(gòu)進(jìn)行數(shù)據(jù)獲取,采集得到有關(guān)中國的各類文本以及數(shù)值型數(shù)據(jù)。對國家進(jìn)行區(qū)域分類,因地制宜通過MySQL建立各區(qū)域的數(shù)據(jù)庫,為后續(xù)各類研究奠定堅(jiān)實(shí)的基礎(chǔ)。

圖1 國際涉華輿情分析方案
通過使用跨學(xué)科研究方法融合應(yīng)用,進(jìn)行關(guān)注焦點(diǎn)分析、用戶標(biāo)簽分析、事件走向趨勢分析、地域分布分析、性別比例分析以及意見領(lǐng)袖的挖掘。利用意見領(lǐng)袖進(jìn)行微博轉(zhuǎn)發(fā)結(jié)構(gòu)的繪制,微博轉(zhuǎn)發(fā)結(jié)構(gòu)分為單關(guān)鍵點(diǎn)型、鏈?zhǔn)叫鸵约岸嚓P(guān)鍵點(diǎn)型。單關(guān)鍵點(diǎn)型微博信息傳播速度快,關(guān)鍵點(diǎn)為強(qiáng)勢微博用戶節(jié)點(diǎn),但輿情挖掘深度稍低;鏈?zhǔn)叫徒Y(jié)構(gòu)信息傳播速度較慢,但針對性強(qiáng);多關(guān)鍵點(diǎn)型結(jié)構(gòu)輿情傳播深度高,影響范圍廣[6]。
具體而言使用R語言對數(shù)據(jù)進(jìn)行可視化處理,顯示熱點(diǎn)事件內(nèi)容詞云,以進(jìn)行周邊國家和非周邊國家的“中國觀”分析;以微博和Twitter平臺(tái)為例,以進(jìn)行輿情內(nèi)容、用戶畫像、情感傾向分析;深入微博進(jìn)行意見領(lǐng)袖的挖掘,對輿情事件發(fā)生過程中的輿情傳播特征進(jìn)行分析。
本文選取“博鰲亞洲論壇”、“中美貿(mào)易戰(zhàn)”、“全國兩會(huì)”、“金正恩訪華”、“嫦娥四號(hào)登月”5個(gè)熱點(diǎn)事件,基于“Python+Selenium+Google”平臺(tái)采集周邊國家和非周邊國家政府、媒體、娛樂網(wǎng)站數(shù)據(jù),同時(shí)利用R語言進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析以及詞云繪制;對于中美貿(mào)易戰(zhàn)深入解讀,利用Python分詞然后導(dǎo)入WordArts制作詞云以及分析事件的整體內(nèi)容詞云、用戶簡介詞云、情感傾向[7]、地域信息、男女比例等。
實(shí)驗(yàn)一 周邊與非周邊國家內(nèi)容詞云對比
周邊國家包含俄羅斯、日本、新加坡以及韓國,非周邊國家包含澳大利亞、美國、英國。以下選取兩個(gè)事件進(jìn)行整體內(nèi)容對比展示。

圖2 周邊國家--中美貿(mào)易戰(zhàn)

圖3 非周邊國家--中美貿(mào)易戰(zhàn)
對于“中美貿(mào)易戰(zhàn)”,從詞云對比圖可以看出,周邊國家更關(guān)注“經(jīng)濟(jì)”、“貿(mào)易”、“關(guān)稅”以及如何和平解決,而從非周邊國家關(guān)注熱詞“戰(zhàn)爭、全球、冷戰(zhàn)、經(jīng)濟(jì)”等可以看出輿論聲音強(qiáng)烈,而且態(tài)度更加強(qiáng)硬。

圖4 周邊國家—博鰲亞洲論壇

圖5 非周邊國家—博鰲亞洲論壇
對于博鰲亞洲論壇,周邊國家的詞云熱詞為“亞洲、海南、經(jīng)濟(jì)、貿(mào)易、發(fā)展”,表明周邊國家更多是考慮此次會(huì)議會(huì)如何推動(dòng)自身發(fā)展,而非周邊國家詞云顯示“習(xí)近平、特朗普、講話”為熱詞,表明他們更傾向于關(guān)注領(lǐng)導(dǎo)人之間的對話。
實(shí)驗(yàn)二 微博和Twitter輿情分析和對比
本實(shí)驗(yàn)以中美貿(mào)易戰(zhàn)為例。中美貿(mào)易戰(zhàn),起源于美國總統(tǒng)唐納德。特朗普于2018年3月22日簽署備忘錄,宣布依據(jù)1974年貿(mào)易法第301條對中國進(jìn)口的商品征收關(guān)稅,中國商務(wù)部做出反制措施向128種美國進(jìn)口商品征稅。中美雙方曾于2018年5月達(dá)成和平共識(shí),但2018年7月特朗普政府正式對中國商品加征25%關(guān)稅,中方報(bào)復(fù)措施也在之后即行實(shí)施。中美貿(mào)易戰(zhàn)實(shí)則是美國霸權(quán)主義遏制中國崛起的手段,隨著時(shí)間推移國際形勢對我們將更加有利;同時(shí)我們應(yīng)正確辨認(rèn)有利因素和不利條件,解決好貿(mào)易糾紛[8]。
(1)熱度趨勢走向圖

圖6 熱度趨勢圖
從熱度圖可以看出,國內(nèi)外整體熱度圖走向基本是一致的,說明中美貿(mào)易戰(zhàn)這件事給雙方都帶來了影響。但是特朗普于2018年3月22日簽署備忘錄后2018年3月23日在國內(nèi)立即引起熱議,而國外民眾則是在2018年4月在美國政府發(fā)布加征關(guān)稅商品清單時(shí)熱度才達(dá)到頂峰。而且相較于第一次的關(guān)注度,在2018年7月6日美國對華征稅清單第一部分正式生效時(shí),國內(nèi)關(guān)注度不如上次;而國外民眾則達(dá)到該事件關(guān)注頂峰。這種差異說明國內(nèi)對于中美貿(mào)易戰(zhàn)的關(guān)注是集中在這件事背后對中國發(fā)展的深遠(yuǎn)影響,而國外民眾(絕大多數(shù)為美國)可能更關(guān)注加征關(guān)稅商品清單,這與他們的生活直接相關(guān)。
(2)內(nèi)容詞云圖

圖7 中美貿(mào)易戰(zhàn)-微博

圖8 中美貿(mào)易戰(zhàn)-Twitter
微博詞云圖顯示的熱詞為“經(jīng)濟(jì)、市場、貿(mào)易、談判、股市”,可見國內(nèi)民眾還是希望和平解決貿(mào)易糾紛,最終實(shí)現(xiàn)經(jīng)濟(jì)繁榮,雙方共贏;Twitter詞云圖熱詞為“War、Go、Talk、Fight、Economy、Win”,可以看出國外民眾絕大部分還是希望通過談判以求得和解,但是仍有小部分激進(jìn)分子企圖挑起戰(zhàn)爭,鞏固美國的霸權(quán)主義。
(3)用戶標(biāo)簽詞云圖

圖9 微博用戶標(biāo)簽詞云

圖10 Twitter用戶標(biāo)簽詞云
從該事件兩個(gè)平臺(tái)的用戶關(guān)注者的詞云圖來看,絕大多大數(shù)為商人、證券分析師、股民、政治家以及其他涉及到經(jīng)濟(jì)的一些行業(yè),說明中美貿(mào)易戰(zhàn)不僅是中國和美國的貿(mào)易沖突,更和國際經(jīng)濟(jì)市場密切相關(guān),所以應(yīng)妥善解決以避免經(jīng)濟(jì)市場的動(dòng)蕩。
(4)情感傾向

圖11 情感傾向圖
從對比可以看出,國內(nèi)民眾對于此事件大多持積極態(tài)度,堅(jiān)持維護(hù)國家利益;相比之下,國外民眾持中立態(tài)度,觀望者較多,同時(shí)有小部分民眾直接表示不支持此種做法,但是仍有民眾選擇支持政府決定。
(5)微博用戶地域分布圖、性別分布圖

圖12 微博用戶地域分布圖
從上圖可以看出(由藍(lán)到黃表示關(guān)注用戶越來越多),對于中美貿(mào)易戰(zhàn)比較關(guān)注的用戶仍集中在北京、上海和廣東這些一線大城市,其次是沿海城市如山東、江蘇和浙江,而內(nèi)陸或者偏遠(yuǎn)的西部地區(qū)則關(guān)注度較低。

圖13 微博用戶性別分布圖
從上圖可以看出,對于中美貿(mào)易戰(zhàn),由于涉及政治、經(jīng)濟(jì)等領(lǐng)域知識(shí),在所觀察人群中男性關(guān)注度遠(yuǎn)遠(yuǎn)高于女性。
實(shí)驗(yàn)三 微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖
微博是一種基于用戶關(guān)系的信息分享、傳播以及獲取的平臺(tái),涵蓋了從個(gè)人導(dǎo)向到群體導(dǎo)向,從簡單信息傳播到整體輿論網(wǎng)絡(luò)行為協(xié)作的的多元化功能。基于信息傳播模型建立網(wǎng)狀的微博轉(zhuǎn)發(fā)結(jié)構(gòu)模型,有利于預(yù)測用戶的轉(zhuǎn)發(fā)行為,進(jìn)而可以預(yù)測當(dāng)前事件的傳播速度和傳播范圍[9]。本文以中美貿(mào)易戰(zhàn)為例,采用多關(guān)鍵點(diǎn)模型,選取大V節(jié)點(diǎn)作為中心繪制微博轉(zhuǎn)發(fā)結(jié)構(gòu)模型。

圖14 微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖
本文選取轉(zhuǎn)發(fā)量最高的三個(gè)節(jié)點(diǎn)(占豪2106、新浪財(cái)經(jīng)1261、任澤平878)作為意見領(lǐng)袖,并以其為轉(zhuǎn)發(fā)中心點(diǎn)做出中美貿(mào)易戰(zhàn)傳播結(jié)構(gòu),由此我們可以清晰的看見該事件的傳播路徑。同時(shí)這種層級的網(wǎng)狀結(jié)構(gòu)能快速找到改變輿論走勢的關(guān)鍵性節(jié)點(diǎn),一方面有利于政府在輿情初期控制輿情發(fā)展趨勢,另一方面有助于識(shí)別破壞國家安全的反動(dòng)分子和維護(hù)社會(huì)和諧穩(wěn)定[10]。
本文選取2018年度上半年的5個(gè)熱點(diǎn)涉華事件,整體比較周邊國家和非周邊國家在熱點(diǎn)事件上關(guān)注點(diǎn)的不同之處,有利于我國因地制宜,在國際社會(huì)中贏得更為友善的輿論空間[11];重點(diǎn)比較了社交平臺(tái)微博和Twitter,詳細(xì)分析了對于中國貿(mào)易戰(zhàn)兩平臺(tái)的關(guān)注趨勢走向、關(guān)注點(diǎn)、關(guān)注者基本標(biāo)簽的差異以及情感傾向的不同,有利于新聞工作者的研究工作以及我國媒體對外國家形象的傳播;此外本文給出了對于此事件多關(guān)鍵點(diǎn)模型的微博轉(zhuǎn)發(fā)結(jié)構(gòu)圖,達(dá)到了輔助決策的目的。
[1] 王光宏、蔣平: 《數(shù)據(jù)挖掘綜述》[J]. 同濟(jì)大學(xué)學(xué)報(bào)自然科學(xué)版, 2004(2): P246.
[2] 史尤昭. 數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J]. 軟件, 2015, 36(11): 38-42.
[3] 卓廣平. 數(shù)據(jù)挖掘開發(fā)及應(yīng)用研究[J]. 軟件, 2015, 36(5): 81-83.
[4] 王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件, 2015, 36(2): 86-91.
[5] 尹培培. 大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)輿情分析系統(tǒng)[J]. 廣播電視技術(shù), 2013(15): 44-47.
[6] 劉繼、李磊. 基于微博用戶轉(zhuǎn)發(fā)行為的輿情信息傳播模式分析[J]. 情報(bào)雜志, 2013-7, 32(7): 75.
[7] 王非. 基于微博的情感新詞發(fā)現(xiàn)研究[J]. 軟件, 2015, 36(11): 06-08.
[8] 姚枝仲. 形勢正在發(fā)生對我有利的變化[N]. 光明日報(bào), 2018-8-21(15).
[9] 劉瑋. 基于用戶行為特征的微博轉(zhuǎn)發(fā)預(yù)測研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2016-10, 39(10): 1994.
[10] 張軍芳. 對我國涉華國際輿情研究的解讀與反思—以1998-2011年間190篇相關(guān)論文危機(jī)為基礎(chǔ)的分析[J]. 新聞?dòng)浾? 2012: 58.
[11] 董堅(jiān)峰. 基于Web挖據(jù)的突發(fā)事件網(wǎng)絡(luò)輿情預(yù)警研究[J]. 現(xiàn)代情報(bào), 2014-2, 34(2): 51.
Research on Key Technologies of International Public Opinion Analysis Based on Data Mining
ZHANG Cong-cong, LI Si-tong, TANG Yi, YIN Fu-lian*
(Communication University of China, Beijing 100024, China)
Aiming at the problem of the vastness and intensity of international sensationalism in China in the new media era, this paper proposes an international public opinion analysis program based on data mining and uses related techniques to obtain the similarities and differences between the surrounding and non-surrounding countries in hot events.This paper analyzes the comprehensive data of Twitter and Weibo in the China-US trade war , deeply explores its microblog forwarding structure, and obtains the characteristics of international sensationalism in China and the evolution mechanism of China's public opinion.
International sensationalism; Data mining; Data analysis; Microblog forwarding structure
TP391
A
10.3969/j.issn.1003-6970.2018.12.039
張聰聰(1997-),女,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘;李思彤(1997-),女,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘;湯藝(1997-),男,本科生,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。
殷復(fù)蓮(1982-),女,副教授,主要研究方向:大數(shù)據(jù)與數(shù)據(jù)挖掘。
張聰聰,李思彤,湯藝,等. 基于數(shù)據(jù)挖掘的國際涉華輿情分析關(guān)鍵技術(shù)研究[J]. 軟件,2018,39(12):172-176