■ 劉麗群 劉麗華
近年來,伴隨著信息通信技術、數據存儲技術、計算技術的發展,“大數據”的相關話題逐漸進入人們的視野,并成為流行詞匯在社會上激發了廣泛的討論。通俗地看,大數據就是把人們在日常生活中創造出來的各種各樣的數據收集起來,根據一定的應用目的通過科學的算法進行分析。目前,大數據在底層技術、基礎設施和應用形式三個層面已經形成了較為成熟的體系,各行各業都積累了海量的數據,數據也成為當前社會重要的生產資料。不過與此同時,人們也開始意識到,大數據發展的關鍵不在于擁有多少數據,而在于如何發展出相應的科學模型分析應用這些數據。在對全社會進行大數據理念科普之后,實踐中對于大數據愿景的落實卻不盡如人意,如何結合實際問題推進大數據應用能力和分析水平成為當前亟須解決的重要問題。
自然災害微博輿情分析是建立在自然災害危機應對具體情境下的大數據方法應用問題。當前自然災害中,來自各個方面的輿情信息流匯聚在以微博為主的社交媒體平臺,使得這些平臺成為獲取和評估輿情的重要渠道。隨著社交媒體的持續發展,利用大數據分析社會輿情、社會態勢與社會生態系統成為共識①,大數據成為輿情研究關鍵技術的支撐和核心概念②。當前網絡輿情研究的創新來自于社交媒體的發展和大數據的推動,在海量數據面前,傳統的輿情研究方法顯然已經無能為力,這就需要繼續解決如何高效準確地對網絡輿情進行分析的問題。
大數據紛繁雜亂,對于自然災害微博輿情內容的分析多種多樣,然而網絡輿情分析是應用導向的研究,其目的最終指向都是促進相關機構的科學決策和有效溝通,缺乏統一規范的可操作方案將不利于大數據應用能力和分析水平的提升。
因此,本文在社會計算視角的指導下,以自然語言處理技術為基礎,將情感分析和主題建模兩個維度結合起來,建構自然災害微博輿情分析的社會計算模型,并選取“江蘇鹽城623龍卷風災害”為案例對該模型進行了應用,為大數據背景下自然災害微博輿情分析的標準化、操作化提供借鑒。
輿情研究最初采納的方法就是民意調查,調查者針對特定事件或議題設計相關的調查問卷,根據人口統計學特征對受訪者進行抽樣,通過郵寄、面談、電話、網絡等方式收集數據,較為著名的有蓋洛普民意測驗(Gallup Poll)。這類調查主要有三方面缺陷,一是調查者的問題,問卷設計不夠科學,問項可能隱含某種導向性;二是受訪者的問題,受訪者出于自身主觀原因在隱瞞想法,未如實填寫問卷;三是大規模民意調查耗資不菲。隨著互聯網的興起,人們漸漸習慣于在網絡媒體上發表自己的情緒、態度和意見等,特別是在論壇、博客、微博等社交媒體上聚集了大量的輿情信息。傳統的網絡輿情研究以提供決策支持為目標,遵循確定選題、輿情抽樣、統計分析、寫作報告等步驟進行運作,在分析方法上以內容分析法為主,這種以人工分析為主的分析模式呈現出片面和靜態的特點,難以及時應對變幻莫測、快速發展的網絡輿情,而大數據的發展帶來的社會計算理念則為解決此類問題提供了一個新的思路。
國內最早關注到社會計算的學者王飛躍認為,社會計算是面向社會活動、社會過程、社會結構、社會組織和社會功能的計算理論和方法③。而孟小峰等則認為,社會計算蘊含著理論和方法論兩層,是指使用系統科學、人工智能、數據挖掘等科學計算理論作為研究方法,結合社會科學理論和計算理論,來解決復雜性社會問題④。
社會計算研究視角被引入到網絡輿情研究中,最初幫助研究者認識到了新的網絡傳播現象(如新媒體社會群體特征研究、突發時間的階段研究、群體復雜互動關系研究⑤),隨著研究的深入,研究者深入現象背后的輿情產生及擴散機制,對相關因素關系進行論證,也可以利用大數據進行更為準確和更具普遍性的研究,社會計算方法推動了輿情研究的系統化與科學化。
社會計算對于網絡輿情研究的貢獻在于,前者為后者提供了新的研究視角,并創新了新的輿情信息搜集和分析方法,社會計算指導下的網絡輿情研究模型也更易于在實踐中被接受。
不同種類的社交媒體,有著不同的運營邏輯,在具體的研究中籠統地使用社交媒體的概念并不可取,需要根據研究目標個別地篩選特定的社交媒體來研究。就中國自然災害的實踐來看,一方面,微博對于自然災害中的信息傳播有著不可替代的作用,微博已經成為自然災害事件中的信息匯集地;另一方面,在眾多社交媒體的激烈競爭中,微博的媒體屬性一直是其最突出的特點。微博在兩方面滿足了用戶對媒體內容的需求,一方面是作為剛需的新聞資訊,另一方面則是提供了比較多元的看待資訊的視角⑥。
突發的自然災害事件往往因其影響重大而短時間內集聚了全社會的注意力,在微博平臺上會呈現出相關內容的大爆發,形成體量龐大、復雜多樣的大數據,由此構成了豐富的輿情分析語料,在社會計算研究視角下,就需要通過數據驅動的內容分析技術來發現語料中的情感及主題。以微博為代表的社交平臺為用戶提供了豐富的表達,特別是在自然災害這一特殊的情景下,人們發布的微博往往包含了情感和觀點,這些是構成微博輿情的主要方面,在文獻中的微博輿情分析中主要體現為傾向性分析和聚類分析。
在傾向性分析的研究中,主要研究取向分為兩類,一類是從語義即自然語言的意義角度進行研究,另一類則是是從機器學習的角度進行研究。如O’Connor 等采用情感分析技術,從海量微博文本中獲取了網民對重大事件的立場,這就是遵循語義方法的研究⑦。機器學習研究實例則會基于情感記號的情感詞典構造與情感分析方法來應對微博文本長度短、內容多樣性強、表達形式自由、語言較不規范等分析難點⑧。
聚類分析方法可以對微博輿情進行話題識別。利用話題檢測技術將微博文本信息按照話題進行歸類組織,便于在動態變化的信息環境下高效獲取個性信息或熱點話題。謝思發等借助Hadoop平臺在大數據挖掘方面的優勢,挖掘微博中熱點詞的分布式算法,以提取熱點詞組織熱點事件并以Twitter和新浪微博上的數據集作為測試樣本進行試驗⑨。馬彬等則針對微博文本短、半結構、上下文信息豐富等特點,嘗試用基于線索樹的雙層聚類的話題檢測方法,對垃圾微博進行過濾,他們的實驗結果表明該方法有助于解決數據稀疏的問題⑩。
結合自然語言處理技術,用于探索微博輿情情感及主題的傾向性分析和聚類分析的主要技術有情感分析和主題建模的方法。
1.微博輿情情感分析
情感分析(Sentiment analysis)是自然語言處理范圍下逐漸發展出的一個細分區域,最初產生于20世紀90年代,是在文檔分類、語言極性測量的基礎上進一步進行內容情緒表達的解析。隨著網絡尤其是Twitter、微博等社交媒體的出現和日益普及,豐富的交流在線平臺為內涵更豐富的語言表達提供了可能,網絡上的信息文本包含了大量觀點和情感,繼續使用傳統的針對主題等分析方法是對這類情緒性、傾向性信息的浪費,情感分析的相關研究順應而生并漸成熱門。
情感分析試圖對文本中的意見和情緒文本進行識別,主要是完成意見情緒等主觀性內容的挖掘、分析,是一個情感計算的過程。理想的情緒分析工具應當能夠“為給定項目處理一組搜索結果,生成產品屬性(質量、特性等)列表并聚合意見”。通過對文本內容的情感分析,能夠確定內容的積極、消極屬性以及識別其中有關情緒和評價表達。目前大部分研究對情感分析采取二元(正向和負向)或三元(正面、負面、中性)進行分類。
情感分析的方法依照采取的常用分析手段可以分為兩類,一種是基于機器的學習算法,另一種是基于情感辭典的分析方法。
基于機器的學習算法,是涉及到整個文檔情感的系統研究。基本思路包括分析對象文本內容,并以此選擇合適的情感傾向特征標注集進行訓練和測試,是一種自動化情感分析方法,同時可以通過自動收集合適的訓練數據進行數據集擴充。隨著在線表達形式的多樣化,新形式的數據集也開始出現,一些研究員開始收集分析表情符號、標簽等來定義相應的訓練數據。
基于情感辭典的分析方法則是一種通過語義分析提取關鍵詞的方法,通過對上下文語義傾向性進行分析,對已有標記的文本、句子內容構建分類器,手動創建對應單詞帶有語義方向、極性、強度注釋的情感詞典。根據詞典選取對象的不同可以將分為不同詞典。如Taboada等在研究中提取名詞、動詞、副詞、形容詞進行詞典構建,進行內容文本的極性二元分類,分析電影評論中的對該電影公司的情感傾向性。
2.微博輿情主題建模
主題建模(Topic model)是概率模型的一種,可用于在大規模文本或語料庫中抽取抽象主題信息,其本質是一種快速的非監督機器學習算法,通過對文本或語料庫中詞的分布規律的觀察實現對相似分布規律詞集的聚類,發現文本內隱含的主題及主題間的關聯變化等。這一方法最早可追溯至潛在語義索引方法,該方法通過奇異值分解得到文本主題,但是由于存在計算耗時、不能解決文本一詞多義等問題,之后Thomas Hofmann對其進行了改進并提出了PLSA概率模型,Blei等人則在PLSA的基礎上加入Dirichlet先驗分布提出了基于“文本-主題-單詞”3層貝葉斯模型的LDA模型,這也是“主題建模”這一概念第一次被正式的提出。
曾嘉等人對國內外主題建模的方法進行了綜述并指出當前主題建模的方法包括LDA(latent Dirichlet allocation,即隱含狄利克雷分布)主題模型、動態主題模型、二階和高階關系主題模型、多通路主題模型、分布式主題模型等多種方法。其中,LDA是主題建模中最為基礎的主題模型,且具有較好的模型擴展能力,是主題建模中最為常用的方法之一,被學者用于微博話題特征抽取、網絡輿情觀點提取。
然而,在微博輿情分析這一主題下,不能將情感分析和主題建模兩個維度割裂開來,實際應用中應該綜合這兩個維度來考察輿情內容,我們不僅希望得到微博輿情中的情感分布,還希望研究出不同情感中的主題分布。因此,本文建構自然災害微博輿情分析的社會計算模型時,除了分別對微博輿情數據進行情感分析和主題建模之外,還會以情感分類為基礎進行主題建模。進一步的,大數據背景下的研究現在更強調操作化,本文建構的模型也將分步驟闡述如何科學有效地對自然災害微博輿情進行分析。
大數據背景下微博輿情分析都是從數據收集開始,綜合情感分析和主題建模兩個維度,對自然災害微博輿情進行分析的步驟又可以分為對所有微博輿情數據的情感分析、對所有微博輿情數據的主題建模、以情感分類為基礎的主題建模,總結得到的便是圖1中呈現的自然災害微博輿情分析的社會計算模型,其實施步驟如下。
1.第一步:收集自然災害微博輿情數據
微博用戶公開在微博平臺上發布的內容可以通過網絡爬蟲工具來收集,模型主要借助了Python語言提供的Beautiful Soup庫編寫網絡爬蟲程序,在收集微博數據時,首先通過微博搜索功能獲得關鍵詞相關的微博數量,搜索結果中選取用戶原創微博,在此基礎上進行人工抽檢,確定相關自然災害事件的搜索關鍵詞(組),再使用網絡爬蟲程序爬取數據。
2.第二步:對所有微博輿情數據的情感分析
以收集到的自然災害微博輿情數據作為完整的語料庫,模型以SnowNLP提供的樸素貝葉斯文本傾向性算法為基礎,編寫程序先對足夠的positive和negative文本數據做訓練,提取出合適的分類模型,再利用分類模型對文本數據分類,計算出最后的傾向性概率。模型對每一條微博進行處理之后,會得到一個取值為[0,1]的情感值,其中情感值越接近0表示情感越負面,情感值越接近1表示情感越正面,進一步的,模型會將情感值小于0.5的微博歸類為負面情緒微博,情感值為0.5的微博歸類為中立情緒微博,情感值大于0.5的微博歸類為正面情緒微博。
3.第三步:對所有微博輿情數據的主題建模
模型的主題建模使用LDA(latent Dirichlet allocation,即隱含狄利克雷分布)這一非監督式學習算法,使用Python程序設計語言的LDA包,通過吉布斯采樣來實現隱含狄利克雷分布,在進行計算訓練時不需要耗費人工手段對訓練集進行標注,只需要研究者提供文本構成的語料庫及指定要得出的主題數量,LDA便可以找出一些詞語來描述每一個主題。
4.第四步:以情感分類為基礎的主題建模
模型中情感分析的基本工作是從用戶生成的帶有情感色彩的文本中提取觀點和意見并加以分析其情感傾向。在情感分析之后,模型將特定自然災害事件的微博按照情感的正負關系被分為兩組,情感值大于或等于0.5的微博歸類至“正面情感組”,情感值小于0.5的微博歸類至“負面情感組”,進而按照主題建模方法分別發現“正面情感組”微博和“負面情感組”微博的主題,從而實現對自然災害微博輿情進行以情感分類為基礎的主題建模。在比較思維指導下,進行更為深入的輿情分析。

圖1 自然災害微博輿情的社會計算模型
江蘇鹽城623龍卷風災害名列2016年全國十大自然災害事件,是當年特別重大的自然災害,其強度接近于最高級,風力已經“爆表”,超過了最強的17級。江蘇鹽城623龍卷風災害也是幾十年來同類災害中造成的傷亡最嚴重的。在微博平臺進行數據收集時,本文根據案例實際,以“2016年6月23日至2016年6月30日”為搜索時間段,以“鹽城 龍卷風”“鹽城 風災”“鹽城 大風”“鹽城 冰雹”為搜索關鍵詞組,共收集到微博11050條。
1.情感分析結果
對微博輿情數據進行預處理后,共剩余7043條微博進入情感分析。具體的統計結果呈現在表1和圖2中,圖表顯示:江蘇鹽城623龍卷風災害中呈現極端正面情感的微博超過80%,處于絕大多數,呈現極端負面情感的微博雖然也有980條,約占總數的14%,但整體上江蘇鹽城623龍卷風災害中的微博輿情是相當正面的。
江蘇鹽城623龍卷風災害每日微博情感平均值(表2)也佐證了該次自然災害事件中微博輿情情感是相當正面的,每日微博情感平均值自始至終都保持在0.7以上,在收集數據的最后一天2016年6月30日的微博情感平均值甚至逼近于極端正面。因此,從圖表可以看出政府對于江蘇鹽城623龍卷風災害的治理較為得當,在微博上正面情感始終占了主流。

圖2 江蘇鹽城623龍卷風災害微博情感值分析統計圖
表2江蘇鹽城623龍卷風災害每日微博情感平均值統計表

日期情感平均值(保留10位小數)2016-06-230.79794879282016-06-240.75779582802016-06-250.77725898012016-06-260.86798132902016-06-270.88348486322016-06-280.82790028112016-06-290.85591596732016-06-300.9760358280

圖3 江蘇鹽城623龍卷風災害每日微博情感平均值變化折線圖
2.主題建模結果
通過對江蘇鹽城623龍卷風災害微博輿情數據的主題建模,語料庫中最為核心的12個主題呈現出來,每個主題有7個關鍵詞:
主題1:工作 救災 人員 受災 災害 群眾 江蘇
主題2:龍卷風 強 級 大風 阜寧 房屋 鹽城
主題3:天氣 事件 氣候 發生 時 強 江蘇
主題4:鹽城 醫院 龍卷風 江蘇 冰雹 救援 醫生
主題5:龍卷風 鹽城 江蘇 冰雹 災害 阜寧 強
主題6:龍卷風 名 中 說 時 孩子 住
主題7:龍卷風 強 預警 人員 中 天氣 發生
主題8:龍卷風 級 鹽城 天氣 強 江蘇 氣象
主題9:災區 救援 鹽城 救災 受災 阜寧 物資
主題10:龍卷風 強 發生 天氣 卷 龍 時
主題11:理賠 車 險 服務 元 客戶 公司
主題12:說 鹽城 天 中 請 新聞 想
以這12大主題為線索,進一步檢索微博語料庫可以發現這些主題大致可以再組合為5類,這5類主題即是“江蘇鹽城623龍卷風災害”微博輿情中民眾的主要關切:
其一是介紹此次重大自然災害的基本情況,還包括此次災情對于城市正常運轉和因為天氣災害導致的次生危害等影響。這一類包括了主題7、主題8和主題12。微博輿情主要關注的是造成的人員傷亡情況和經濟社會危害兩大指標,國家媒體和當地媒體通過實時更新受災人數和極端天氣的變化情況,讓公眾從數字上直觀感受到此次自然災害災情的嚴重程度。@央視新聞在這次災害發生后,于6月23日20點18分先發布關于災情描述的微博“央視快訊:JHJ江蘇鹽城龍卷風冰雹JHJ已造成51人死亡”10分鐘后又再次更新微博,發布預計到來的惡劣天氣,提醒市民不要外出,“擴散!鹽城未來6小時可能出現雷雨大風!盡量不要外出!”
其二是從公眾的角度表達此次重大自然災害對日常工作和生產的影響,這一類包括了主題2和主題5。如@京華時報在6月23日發布的微博則報道了此次自然災害對普通人民生命健康、正常生活的重大毀損,“重災區救援現場:房屋夷為平地,轎車被刮飛”。
其三是展現政府對此次特大災害的應對情況和救援措施,這一類包括了主題1和主題9。其中,具有官方背景的媒體微博多發布黨和國家領導人及地方救援指揮機構對此次災害的關注指示和搶險救災舉措。如@人民日報在6月23日發布的微博體現了國家領導人層面對此事的關注。普通微博用戶也會將親身所見發布到微博平臺,如@圣戈戈轉發@新浪江蘇講述救災官兵累倒在廢墟角落休息的微博,并評論“辛苦了”,從側面表達了人民子弟兵應對災情時的奮力拼搏與不易。
其四是普通社會公眾和組織對這次災情的應對,既有對災區人民的祈禱和祝福,又包含災害中發生的具體感人細節和故事的傳達。這一類包括了主題4、主題6和主題11。“志愿者排隊獻血并送來救災物品”“幼兒園老師拼死堵門護住120名兒童”這些災害中的動人細節通過微博得到了更廣泛的傳播。
其五是部分微博用戶對此次災害成因和破壞力的分析,特別是一些機構微博(如@云南消防)以此次自然災害為契機在微博平臺對龍卷風災害的相關知識進行了科普。
3.以情感分類為基礎的主題建模結果
情感分析中以正負面情感為基礎對“江蘇鹽城623龍卷風災害”的所有微博進行了分類,形成“正面情感組”和“負面情感組”兩個子語料庫,分別進行主題建模,各得出了10組包含7個關鍵詞的主題。
其中,“正面情感組”主題建模包括:
主題1:萬萬 心寒 救治 情緒 佩服 癥狀 挽救
主題2:生命 睡著 加油 生病 鹽城 官兵 好好
主題3:龍卷風 鹽城 江蘇 武警 愛心 咨詢 國家
主題4:鹽城 眾多 轉交 補助 武警 匯集 螢
主題5:鹽城 龍卷風 江蘇 冰雹 猝死 生命 救
主題6:龍卷風 鹽城 江蘇 冰雹 縫 成熟 愛心
主題7:大風 龍卷風 鹽城 趕緊 專家組 謠言 趕赴
主題8:鹽城 龍卷風 冰雹 生命 愛心 江蘇 市
主題9:關心 魏 號召 生命 鹽城 網 江蘇
主題10:愛心 鹽城 龍卷風 祈福 生命 值得 明白
從中可以總結出此次自然災害正面情感組所包括主題的主要有3類。
其一是面對突如其來的龍卷風和冰雹災害,部分公眾感慨人類在災害面前的無能無力,在微博祈禱親朋好友或是一線救災人員的生命安全,體現自然災害面前人類的渺小和感情的真摯。這一類包括主題2和主題10。如@LING-正品美瞳在感慨人類在災害面前的無能無力,呼吁大家對大自然的保護“什么時候開始,人們對環境的不愛護,各種糟蹋,造成了今天這個局面。幾十年前的天災又重演,熱到人死、洪水、龍卷風,在大自然面前人類是渺小的,生命也很脆弱,盡可能的維護地球吧,不然只會越來越糟糕”。
其二是報道政府的救災行動,特別是災難中的救援和搶險工作,政府的有效作為和消防人民子弟兵的辛苦在微博中得到了正面評價。這一類包括主題3、主題4、主題5和主題7。如@那時便是最好的我發布微博“昨天1500個消防員入住我們學校,我們學校有兩棟宿舍樓,然后,我們高二的已經放假了,他們有的人就睡在我們的教室還有水房,昨晚他們還冒雨卸下物資,一大早他們離開了我們的學校,也沒有早飯吃,就直接走了,剛剛聽說有好多好多的消防員的腳都磨破了,他們才是真正的英雄。”這則微博以自身經歷講述了消防官兵在這次救災行動中的具體作為,不僅給予了極高的評價,還飽含了博主的感恩之情。
其三是在此次龍卷風和冰雹特別重大災害面前,普通社會民眾和機構自發行動起來,奉獻愛心,參與到救災工作中,展現了大災面前形成搶險救災共同體的巨大力量。這一類包括主題1、主題6、主題8和主題9。如@靜雅520的微博“阜寧的信息 新溝南灣現場!需要一批手電筒,請好心人聯系我!!!朱〇東1323****000 再次向社會求助,阜寧吳灘街道急需要:救護車、吊車、救護人員、專業搶救人員!麻煩大家幫忙轉發,請求多方救助!! 本人微信174****98”,還有@hey我就是這個姑娘的微博中說“災區需要:清障機械、帳篷、蠟燭、電筒,心理疏導等,吃喝暫不缺,有資源的跟我聯系。另由于災區樹木房屋倒塌嚴重加上道路狹窄,請志愿者不要開車前往造成擁堵!”展現了部分民眾主動參與到救災中的溫暖力量。
而“負面情感組”主題建模包括:
主題1:鹽城 救 財產 網民 地理 情況 龍卷風
主題2:龍卷風 鹽城 無人機 志哀 救 間 傷員
主題3:鹽城 網民 龍卷風 救 氣溫 條 通道
主題4:鹽城 地理 氣象局 大風 外出 龍卷風 雷雨
主題5:存有 視頻 廠房 危 現場 救 受
主題6:龍卷風 廠房 平方米 地理 命 突發 救
主題7:慈善 全省 鹽城 龍卷風 風災 男子 接
主題8:龍卷風 鹽城 救 地理 華南 蛀蟲 平安
主題9:龍卷風 保護 與會 地理 志哀 石泰峰 網民
主題10:組 集 前來 鹽城 救 地理 龍卷風
這些主題也可以被歸納為3類,但是內容顯然與正面情感組有所區別。
其中出現最多的還是普通民眾面對突如其來的自然災害所感受到的無可奈何和無能為力,微博中呈現了此次龍卷風與冰雹特大災害所導致的重大人員傷亡的數據,并對在此次災害中不幸遇難的社會公眾表示哀悼。這一類包括主題1、主題2、主題5、主題6和主題10,相關微博中多次出現蠟燭表情。
其二是部分微博用戶對氣象部門的不信任、失望甚至質問,這一類包括主題3、主題4和主題9。如@假扮領導說“我一直懷疑:我們是不是有全世界最多的國家財政供養的氣象從業人員?”但也有部分用戶直接為氣象臺發聲,強調天災的不可抗性。如@南海姑娘吖稱“大家不要再噴氣象單位了,有本事自己去研究,不是氣象局天氣預報誰報的?你們這些人嘛?預報準確不是你們說說就能做到的,理論上最精確也只能預計達到80%,更何況科學水平現在還不夠。人類永遠也不可能完全了解自然。有些人上了這么多年學只學會了當鍵盤俠。光在這噴了,也沒見去一線救援。讓人心寒。”
其三是對關于此次重大災害中民眾捐款去向的質疑,和對紅十字會的不信任,這一類包括主題7和主題8。如@全民情敵天蝎審判者在2016年6月30日發布的微博“外面廣場,紅十字會又在招搖過市,熱死這幫蛀蟲。鹽城龍卷風才撥款1.6億好像。世博會,奧運會幾千億,有個屁用!”直接表達了對紅十字會的不信任和對本次災難捐款的不滿意,這也是紅十字會遭遇“郭美美”等輿情事件沖擊之后慈善形象崩塌的具體體現。
通過上述研究,本文綜合情感分析和主題建模兩個維度完成了模型的建構及應用,在自然災害微博輿情的社會計算模型中所有的步驟均可以通過Python程序語言實現,可以根據不同需求爬取不同的數據進行分析。從中總結出自然災害微博輿情分析的社會計算模型所具有的4個特點:
其一,該模型具有可操作性,適合于進行微博大數據分析。在應用中,原始微博研究數據超過了一萬條,利用這些數據進行情感分析和主題建模之后,得出了體現江蘇鹽城623龍卷風災害微博輿情特征的微博情感值分析統計表(圖)、每日微博情感平均值統計表(圖)、基于事件全體微博的主題建模和區分正負面情感的主題建模,實現了情感分析和主題建模的基本目標,且可以根據不同的研究問題篩選各類語料庫進行分別處理。
其二,該模型從微博數據出發,能夠得到自然災害微博輿情的個性化結果。基于傳統內容分析法的輿情研究往往先要根據相關主題的文獻得出輿情研究的類目建構,再回歸到輿情內容進行具體分析,因而這種研究思路是從文獻出發而不是從輿情內容出發,所以得到的輿情分析結果常常缺少特定事件的個性化特征,就自然災害而言,所有的輿情分析都固定在災情基本情況及影響、政府災害應對、公眾災害應對、災民感受、對災害的評論與思考等方面范疇內。而該模型并不預先對輿情內容進行假設,通過算法直接得出輿情內容的情感分析和主題建模,從結果上看更加貼近輿情本身。
其三,該模型節約成本。傳統輿情分析中采用的內容分析法,在數據搜集、內容編碼等過程中都需要人工去識別和分類,為了保證信度往往還需要多名研究人員進行重復操作,極為耗時耗力,成本相對較高。而該模型中,數據采集、分析均由相應的程序直接完成,只需要研究人員對相關數值進行配置,減輕了人工負擔,也節約了整個研究的成本。
其四,基于社會計算的輿情分析是今后發展的趨勢。互聯網各色應用的發展給人們帶來了各式各樣的言論平臺,網絡輿情信息的大數據特征已經成為其基本特征,人工方法面對大型輿情分析項目時已經無能為力。此外,在媒體形式上,網絡輿情已經不限于文本,而呈現廣泛應用表情、圖片、視頻等多媒體表現方式的趨勢,使得網絡輿情日趨復雜,給網絡輿情分析工作帶來了巨大的挑戰,必須發展基于社會計算的輿情分析方法,通過提升算法技術來提升對網絡輿情新形態的分析能力。
然而,我們也必須認識到,自然災害微博輿情的社會計算模型也有一定的缺陷。首先,在進行主題建模基礎上的內容歸納時,自然災害微博輿情的社會計算模型還是依賴于研究人員的主觀因素,不同研究人員對微博內容的理解不同,可能會得出不同的結果;其次,通過網絡爬蟲技術得到了許多個人微博,用于研究時并未征得個人同意,可能涉及侵犯隱私的問題,需要創新相應的法律法規進行規范。
注釋:
① 王飛躍:《從社會計算到社會制造:一場即將來臨的產業革命》,《中國科學院院刊》,2012年第6期。
② 謝耘耕、劉銳、喬睿、張旭陽、袁會:《大數據與社會輿情研究綜述》,《新媒體與社會》,2014年第4期。
③ 王飛躍:《從社會計算到社會制造:一場即將來臨的產業革命》,《中國科學院院刊》,2012年第6期。
④ 孟小峰、李勇、祝建華:《社會計算:大數據時代的機遇與挑戰》,《計算機研究與發展》,2013年第12期。
⑤ 徐明華、馮亞凡:《社會計算視域下傳播學研究的嬗變與反思》,《現代傳播》,2017年第12期。
⑥ 企鵝智酷:《2016微博用戶研究:新歡、舊愛、核心價值與迫切之疾》,騰訊科技,http://tech.qq.com/a/20160907/010154.htm,2016年。
⑦ O’Connor B,Balasubramanyan R,Routledge B R,et al.FromTweetstoPolls:LinkingTextSentimenttoPublicOpinionTimeSeries.InternationalConferenceonWeblogsandSocialMedia,ICWSM2010,Washington,DC,USA,2010 May.pp.122-129.
⑧ 崔安頎:《微博熱點事件的公眾情感分析研究》,清華大學博士學位論文,2013年,第73-79頁。
⑨ 謝思發、林琛、蘇旋、江弋:《Hadoop平臺的微博熱點事件挖掘》,《小型微型計算機系統》,2014年第4期。
⑩ 馬彬、洪宇、陸劍江、姚建民、朱巧明:《基于線索樹雙層聚類的微博話題檢測》,《中文信息學報》,2012年第6期。