張璐琳,肖雯宇,諸雯婷,張聰聰,殷復蓮
(中國傳媒大學 信息工程學院,北京 100024)
基于數據挖掘的中國對外國際輿論差異化分析
張璐琳,肖雯宇,諸雯婷,張聰聰,殷復蓮
(中國傳媒大學 信息工程學院,北京 100024)
涉華國際輿論研究一直是中國對外傳播的一個重要研究領域,互聯網技術的發展使得網絡媒體成為當下國際涉華輿論的重要場域。針對大數據技術目前在國際輿情分析領域應用較少的現狀,本文提出基于數據挖掘和文本分析的方案,利用從國內外網絡媒體獲取的數據進行用戶特征分析,國內外輿情分析,共性信息對比分析,得到了中國對外國際輿論差異化特點。
涉華國際輿論;數據挖掘;文本分析;輿論差異化
隨著中國在國際問題上的話語權逐漸增大,國際輿論對于中國的關注度呈上升趨勢,國內外輿論場的連通性進一步加強。同時,PC端、移動端等的普及使得受眾的互動性增強,國際事件的解讀更加多元化。新聞網站的普及一方面給人們提供一個更加便利快捷獲取信息的方式,另一方面引導輿論的發展方向,左右受眾的思考和行為方式。由于新聞網站受制于當地的政治體質、經濟發展和文化差異的影響,會造成國內外新聞網站報道的方式和角度的不同。此外,以微博、Twitter、facebook為首的社交平臺更側重于交互性的表現[1],體現用戶的立場和觀點,同時體現該觀點的支持率,加上用戶的隱蔽性,使得用戶的發言更具有真實性和研究價值。
21世紀初,隨著信息技術的發展,國際輿情研判手段發展到多文檔精選法和模板因子法。如今,基于網絡技術發展,又發展出關鍵詞搜索法、網絡實驗法和數據庫比對法。以上各種方法,在輿情研判的工作中曾經發揮著重要的作用,也取得了一定的成效[2]。而在如今這個互聯網信息的時代,使用大數據技術進行輿情分析是國際輿情分析的主要潮流和方向,大數據分析的主要技術手段是采用數據挖掘,數據挖掘又稱數據庫中的知識發現,即指從數據庫的大量數據中揭示出隱含的、前所未有的并具有潛在價值的信息的價值聚合、提煉的過程[3]。緩解了傳統輿情分析中樣本代表性不足、缺乏包容性、效率低下等問題[2]。目前國內學界對國際自媒體涉華輿情的研究較少,基于大數據和全樣本的分析還沒有涉及[4]。
針對該現狀,本文從國內外各大新聞網站和社交平臺獲取數據,多角度多維度對國際熱點事件進行數據的挖掘和分析,通過橫向縱向的比較,從而得出深刻的社會結論,對中國對外國際輿論差異化研究有著更加科學化的意義。
中國對外國際輿論差異化分析方案層次結構包括數據采集,數據倉庫建立,數據分析與數據挖掘,
數據可視化四個部分,如圖1所示,可以實現對熱點事件在中國和國外的搜索關注熱度,輿情信息和用戶信息展示,以及共性信息差異化對比展示。

圖1 中國對外國際輿論差異化分析方案圖Fig.1 Analy sis process
在數據采集環節,為了分析中國對外國際輿論差異,需要獲得盡可能真實、及時的相關數據,同時要分析各個平臺網站的網頁結構來考慮數據獲取的可行性。本文基于Python的selenium瀏覽器自動化測試框架進行國內外部分社交平臺和新聞網站的結構化和非結構化數據獲取[5],結構化數據包括用戶轉發數、評論數、點贊數等數值化數據,非結構化數據包括用戶評論,個人簡介,新聞網站標題內容等文本類信息。數據采集爬蟲框架在技術上涉及深度鏈接爬取,通過獲取當前頁面內的相關超鏈接再進入鏈接頁面獲取更深度的信息,例如由主評論頁面進入各個參與評論的用戶個人主頁進行用戶信該事件的關注熱點。另外,基于文本數據提取特征詞,基于貝葉斯分類得到用戶情感分類,再進一步分析計算情感傾向差異,同時根據分類得到正負情感的詞頻統計詞云,用于分析不同情感傾向的用戶所關注的事件熱點[8]。息的采集等[6]。對所獲數據進行數據歸類處理,由基礎信息數據庫和指標計算數據庫整合,進行數據清洗、預處理之后分類得到國內輿論數據庫,國際輿論數據庫,國內用戶數據庫,國外用戶數據庫。
所獲數據經過上一環節的整合預處理,數據清洗后進行數據分析挖掘。提取結構化數據進行數值歸一化處理再分析,非結構化數據進行文本分析,首先進行文本預處理,分詞處理,根據詞頻提取特征詞,建立特征詞庫,根據訓練集計算貝葉斯分類的先驗概率,再進行測試集的情感分類,得到各平臺上的用戶對事件的情感傾向[7]。另外,通過用戶地點的關聯將信息按區域劃分,從數值上分析各州的關注比例,文本上分析各州用戶的關注熱點以及情感趨勢等。
非結構化數據中的文本分析結果的呈現形式主要是給出由詞頻統計結果畫出的詞云,包括:地點詞云(由于基于詞頻統計,未區分國家和城市),用于直觀地展示出該事件在全球各地受關注的程度;用戶簡介詞云,用于展示關注該事件的用戶特點;推文內容詞云,用于展示在關于該事件的推文中出現頻率最高的詞,它代表了參與討論的各國用戶對

圖2 國際輿情地區分類流程圖Fig.2 The classification based on international area
最終利用 D3,HTML5,Javascript,CSS等技術結合,進行數據可視化的展示處理,中國和國際的數據信息根據可獲數據有獨立信息展示模塊,再根據所有的數據信息提取共性信息進行對比展示,有更加直觀的效果,通過一系列的交互更好的實現用戶對信息的獲取,可得出對于同一事件國內外輿情的熱度,關注點以及情感傾向的差異[9]。

圖3 國內外用戶文本情感分類流程圖Fig.3 The programming model of users’ textual classification
本文基于Python的selenium瀏覽器自動化測試框架采集各大網站平臺數據,利用R語言進行數據預處理,數據分析以及詞云繪制等。本部分以薩德事件為例,韓國為了預防朝鮮的軍事行動,要求美國在自己本土上部署薩德導彈,因為韓美是軍事同盟。薩德導彈屬于一種維護韓國自己的安全防御系統。但由于薩德的覆蓋范圍太大,對中國也同樣造成了威脅,所以中方反對韓部署薩德導彈。韓國國內也分兩派,一派要求為了自己領土安全,抵御朝鮮的威脅,支持部署薩德導彈,韓國國民也能得到安全保障。另一派人反對部署薩德,原因是中國因為反對薩德導彈,對韓國進行一些制裁,會對國內經濟造成損失。
實驗一 國內外用戶特征分析
中國用戶特征的數據分析基于微博用戶數據,利用R語言對可獲數據進行預處理然后提取分析,得到關注該事件的用戶的地域信息,男女比例,年齡構成,用戶簡介詞云等。
圖4中國用戶地域分布圖上的顏色深淺代表該省份用戶對薩德事件的關注熱度,由分析所得的可視化結果可以明顯看出東部沿海地區對該事件的關注程普遍較高,也是因為韓國部署薩德地理位置上將直接大程度影響東部沿海地區,從而引起這些地區用戶的關注。

圖4 中國用戶地域分布圖Fig.4 Regional distribution map of chinese users
在圖5用戶性別分布上,由數據分析可得,男性用戶占 67.66%,女性用戶占 32.34%,可見在薩德這樣有關國際軍事的事件上,男性用戶的關注程度更加高。由用戶數據得到的年齡構成圖可以看出,微博上關注該事件的人群主要集中在15-30歲。

圖5 中國用戶性別和年齡構成圖Fig.5 Gender and Age Composition of Chinese Users
對用戶信息進一步挖掘,針對他們的微博個人簡介進行詞云分析如圖6所示,可以看到“喜歡”“努力”“生活”“追星”等詞具有較高的出現頻率,可見用戶群體有較大的正面特性。
國際用戶數據主要來自 twitter的用戶數據采集,利用R語言對可獲數據進行預處理然后提取分析,得到關注該事件的用戶的地域信息,發推者地點詞云,用戶簡介詞云等[10]。

圖6 中國用戶簡介詞云圖Fig.6 The word cloud based on chinese users’ profiles
由圖7數據可視化結果得到的全球用戶地域分布圖可見,對薩德事件關注程度較高的是亞洲地區和美洲地區。由于twitter是美國社交網絡平臺,美洲的用戶數量較多,所以美洲的地區的討論熱度較高,但是與事件直接相關的部分亞洲地區用戶也激起了一定的討論熱度。
圖8可得對twitter發推用戶進行地域分析,可見發推者最多來自韓國和美國,即在國際方面,與薩德事件直接相關的國家的用戶對此事件進行大量討論。由用戶的簡介詞云可見,用戶涉及傳媒行業較多,還有大量的韓國標簽用戶。
根據獲得的結構化數值型數據計算中國社交平臺(微博)和國際社交平臺(twitter)參與薩德事件討論的用戶在平臺上的各項指標,從而進行對比。

圖7 全球用戶地域分布圖Fig.7 Regional distribution map of international users

圖8 國際用戶地點詞云和簡介詞云圖Fig.8 The word clouds based on the international users’locations and profiles

圖9 國內外社交平臺用戶指標對比圖Fig.9 Comparison of user target between social platforms at home and abroad
由圖 9國內外社交平臺用戶各項指數可以看出,關注薩德事件的國外twitter用戶的關注數,粉絲數,推文數比中國的微博用戶高出將近三倍,可見國外關注該事件的用戶都是較為活躍的用戶,而中國的許多一般用戶也參與了該事件的討論和發表自己的觀點。
實驗二 國內外輿情信息分析
本部分實驗主要基于獲得的非結構化文本類數據,如用戶評論,新聞網站報道標題內容等,利用R語言進行文本預處理,分詞,去停用詞,計算詞頻,繪制詞云等,從而由出現的高頻詞匯分析國內外輿論中關注的熱點。
在圖 10中國新聞網站輿情圖上,可以看到中國、薩德、導彈、美國、朝鮮等事件關鍵詞出現頻率較高,可見中國新聞媒體更側重于薩德事件對中國的影響,以及美國在此事件中扮演的角色,報道相對客觀。

圖10 中國新聞網站輿情圖Fig.10 The word cloud based on news website of china
2月27日,樂天集團董事局決定,為薩德供地。對此我國外交部回應,堅決采取必要措施維護國家的自身安全和利益,保護人民的權益不被侵犯。國內的各大新聞平臺、新聞媒體也紛紛發聲,表達了對韓國政府的不滿,而在華一度風光的樂天也淪為眾矢之的,國內掀起了一系列抵制樂天的行動。
相較于上文的國內新聞網站針對韓國部署薩德事件的分析,相關微博的評論和轉發就比較情緒化、個人色彩濃重。在微博輿情詞云中,總體輿情詞云相對中立客觀,正面情感傾向的用戶更多是希望做好安保措施,保障多國之間的和平,而負面輿情詞云能夠很明顯地看到“抵制”一詞。抵制樂天,抵制韓貨,抵制韓國旅游以及韓國明星來華演出集參加活動?!皣颐媲盁o偶像”是當時一句流行于相關微博評論區的流行語。

圖11 薩德事件微博輿情圖Fig.11 The word cloud based on weibo

圖12 Facebook、NPR、Time輿情圖Fig.12 The word cloud based on facebook、npr and time
在國際方面,以時代周刊為代表的美國新聞網站,針對美韓部署薩德系統一事,報道偏少,新聞和內容相對客觀。主要圍繞韓國,朝鮮,中國,美國,俄羅斯等進行報道,其中還涉及了美國總統特朗普(Trump)。

圖13 T witter地域輿情圖Fig.13 The word cloud based on twitter
針對該形勢,國際社交平臺上的總體評價較為客觀,主要涉及事件的關鍵詞,如韓國,部署,導彈等。其中,根據地點進行列聯分析信息提取獲得的各洲詞云可見,美洲和歐洲的輿情相對客觀,亞洲出現了“defense”“security”等詞,情感色彩較濃。

圖14 韓國中央日報和日本經濟新聞網輿情圖Fig.14 The word cloud based on joongang ilboa &nihon keizai shimbun
3月12日有日媒報道稱,在韓國股票市場上旅游概念股出現下跌。其背景是中國當局采取限制中國游客赴韓旅游的舉措。此舉也被認為是中方對韓部署薩德系統采取的“報復”行為。所以,在韓國中央日報和日本經濟新聞網的輿情圖中可以很醒目地看到“報復”一詞,韓國方面將中方采取的一系列舉措歸為“報復”行為,包括禁韓令、樂天集團事件、旅游禁令以及經濟上的制裁等。由于韓國的大型企業如三星、現代等對韓國經濟有著舉足輕重的作用,當中國對韓國實行經濟政治上的制裁時,再加上中國人民對其自發性的抵制,這些財團會不可避免地收到影響,從而影響韓國經濟的發展。
所獲文本信息利用貝葉斯分類器得到情感分類,分為正面情感,中性情感和負面情感三類。由于新聞網站報道普遍客觀,對于情感分析上,本文選取微博,twitter,facebook這三大社交平臺進行國內外用戶的情感傾向對比。

圖15 國內外輿情信息對比圖Fig.15 Comparison of informaton on international public opinion
微博是中國主要的社交平臺,由圖中可以看到,針對美韓部署薩德事件,微博平臺上的負面情感最高,達到了0.4,是Twitter的近四倍。而Twitter和Facebook的則偏中性。因此,我國人民對于美韓部署薩德的反應較為激烈,而國際上的反應以中性客觀態度居多。
本文針對有國際上有代表性的熱點事件,依照搜索趨勢,調查分析國內外各大新聞網站、社交網站,橫線縱向多角度多維度的比較和分析,研究和認識國內外不同地區受眾的不同特點,得出結論。對國際輿論的研究是做好國際媒體涉華輿論引導的前提和基礎,只有充分認識國際媒體以及國外網民們的言論特點,才能讓更好地通過輿論樹立現代中國在國際上的正確形象[11-12]。對于中國自身而言,也有利于解決對外傳播中的問題,如單向僵化的“宣傳”面孔,也能為其他相關國家的新聞、外交等領域的從業者提供參考。
[1] 劉毅. 略論網絡輿情的概念、特點、表達與傳播[J]. 理論界, 2007, (1): 11-12.
[2] 聶書江. 大數據技術與國際輿情研判對外傳播2017. 09.
[3] 喻國明. 大數據分析下的中國社會輿情: 總體態勢與結構性特征 中國人民大學學報2013年第5期.
[4] 相德寶. 國際自媒體涉華輿論傳者特征及影響力研究——以Twitter為例[J]. 新聞與傳播研究, 2005(1).
[5] 唐雪峰, 宋俊德, 宋美娜. 基于改進的慢開始算法的網絡機器人爬取策略的研究[J]. 新型工業化, 2012, 2(11):42-49.
[6] 張振華, 劉瑞芳. 微博社交網絡中面向機構的用戶挖掘[J].軟件, 2013, 34(1): 121-124
[7] Shulong Tan, Yang Li, Huan Sun, Ziyu Guan, Xifeng Yan,Jiajun Bu, Chun Chen, Xiaofei He. Interpreting the Public Sentiment Variations on Twitter. IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 5, pp. 1158-1170, May 2014.
[8] Baocheng Huang, Guang Yu. Research on the mining of opinion community for social media based on sentiment analysis and regional distribution[C]. 2016 Chinese Control and Decision Conference (CCDC), Yinchuan, 2016, pp.6900-6905.
[9] 季丹, 謝耘耕. 社會輿情傳播特征的區域差異研究[J]. 情報雜志, 2014, (01): 108-113.
[10] Number of monthly active Twitter users worldwide from 1st quarter 2010 to 2nd quarter 2017 (in millions)[Z].
[11] 劉鵬飛, 張力, 周亞瓊——2015年中國互聯網國際輿論研究報告, 2016.
[12] 曾霖. 基于Web數據庫的數據庫挖掘技術探究[J]. 軟件,2013, 34(2): 58-60.
Research on Differentiation of International Public Opinion of China Based on Data Mining
ZHANG Lu-lin, XIAO Wen-yu, ZHU Wen-ting, ZHANG Cong-cong, YIN Fu-lian
(Communication University of China, Beijing 100024, China)
Research about China-related International public opinion has always been an important studying field of Chinese external communication. Network media now becomes a significant field of international China-related public opinion because of development of network technology. Aiming at current situation that big data technology is being applied relatively little in field of analysis of international public opinion, this paper proposes a scheme basing on data mining technology and textual analysis, making use of data gained by domestic and abroad network media to conduct analyses of users' characteristics,public opinion at home and abroad,comparison of generality information, and then we get characteristics of differentiation of international public opinion of China.
China-related international public opinion; Data mining; Textual analysis; Differentiation of public opinion
TP391
A
10.3969/j.issn.1003-6970.2017.11.021
本文著錄格式:張璐琳,肖雯宇,諸雯婷,等. 基于數據挖掘的中國對外國際輿論差異化分析[J]. 軟件,2017,38(11):107-113
張璐琳(1995-),女,本科生,主要研究方向:大數據與數據挖掘;肖雯宇(1996-),女,本科生,主要研究方向:大數據與數據挖掘;諸雯婷(1996-),女,本科生,主要研究方向:大數據與數據挖掘;張聰聰(1997-),女,本科生,主要研究方向:大數據與數據挖掘;殷復蓮(1982-),女,副教授,主要研究方向:大數據與數據挖掘。