張榮顯 曹文鴛
網絡輿情研究新路徑:大數據技術輔助網絡內容挖掘與分析
張榮顯 曹文鴛

張榮顯 亞太區互聯網研究聯盟主席,澳門易研網絡研究實驗室總裁,博士
曹文鴛 珠海橫琴博易數據技術有限公司資深研究顧問,碩士
國內的輿情分析研究文獻顯示,輿情主要涵蓋分析社會的現實和變動的狀況,包括引發的事件本身及相關輿論生成的因素推論。針對當前網絡輿情研究缺乏對輿情本質的理解和系統的分析框架,分析結果亦只依據描述性統計來作出等缺憾,提出一種全新的網絡輿情研究路徑,以覆蓋度、測量和解釋為網絡輿情挖掘三大要素,搭建以人機結合的網絡輿情大數據分析平臺,即利用機器學習和網絡挖掘技術初步概覽輿情面貌,再以人工在線內容分析方法深度挖掘和解釋輿情事件。將以具體案例說明此路徑的實用性和可操作性。
網絡輿情;大數據技術;網絡挖掘;機器學習;內容分析
依據中國互聯網絡信息中心最新的統計報告(2016),截至2016年6月,中國大陸互聯網普及率達51.6%,網民數量為7億人,已經形成具有龐大規模的網民體量,網絡成為重要的輿論平臺。
隨著網絡輿情研究進入大數據時代,網絡挖掘和機器學習等新技術使得快速甚至是即時搜集和處理大量網絡數據成為現實,但是,大數據技術并非萬能,在研究和探索輿情本質的過程中,依然需要人工判斷作為主要的分析和解釋手段,我們以此嘗試解決當前輿情研究中缺乏整合性和系統性不足,甚至是被技術導向主宰的問題。
本研究針對網絡輿情研究之現況及需要,提出一個全新的網絡輿情研究路徑,以覆蓋度、測量和解釋為網絡輿情挖掘要素,搭建以人機結合的網絡輿情大數據分析平臺。在實踐方面,將整個分析框架和機制,集合于一實時數據挖掘平臺上,透過一體化的輿情監測和分析流程,力圖達到高效、準確、廣度和深度并重,以及隨時跟蹤輿情事件發展動向之目的。
閔大洪(2016)總結過去對輿情理論的研究成果,尤其是對概念的定義方面,匯整并形成總結性的概念定義:“輿情,系指社會的現實和變動的狀況,包括各種原因引發的事件本身及相關輿論的生成。”輿情監測既有苗頭性又有全局性,苗頭性即是需要在事件未形成輿論之前及早察覺和監測;全局性則是指需要對社會不同階層、政經勢力、利益相關或某一專門領域狀況的整體呈現。
目前輿論陣地已大幅度延伸至網絡環境中,喻國明(2010)、謝耕耘(2011)及尹培培(2013)等學者對網絡輿情進行了全面論述,即是認為網絡輿情是指民眾通過互聯網針對自己所關心或自身權益緊密相關的公共事件、社會現象等作出的主觀反映,是多重態度、意見等交互的綜合表現。網絡輿情特點包括自由、情緒化、分散、即時、多變等,影響力強。網絡輿情監測的總體目標是能夠在最短的時間內發現所需要監測的輿情信息,尋找到首發的信息源,接著監測范圍擴大至所有涉及信息來源,并分析傳播的趨勢和范圍,時刻跟蹤事態發展及帶來的新情況(閔大洪,2016)。
相比傳統媒體信息,網絡數據內容更新快速(Velocity),數據形式多樣(Variety),不僅限于傳統內容的圖文形式,更具有視頻、動畫等內容形式,網絡輿論趨勢不確定性高(Veracity),數據體量巨大(Volume),內容復雜(Complexity)和數據的非結構化(Unstructured)特征明顯,蘊含無法忽視的高價值(Value)屬性。從數據結構上的特點來說,如果數據簡單、規律、重復性高,那么運用傳統分析手段或簡單的數據挖掘方法就能進行歸類分析,然而,正是因為當前網絡輿情數據包括大量的社交媒體和移動互聯網數據在內,數據間存在關聯性,同時呈現明顯的非結構化特征(胥琳佳,2013),使其分析難度加大。
從事件特征上來說,在網絡輿情的環境下,傳統新聞敘事上的5W1H較難以辨認,不再有明確的事件發生地點(Where),取而代之是多樣的來源;無固定的內容發布時間(When),即時更新成為常態;人物(Who)身份模糊、隱蔽;事件(What)本身焦點模糊;敘事(How)散亂;欲對事件原因(Why)的挖掘,則變成了難于理解事件的背后故事;難以測量理論;更難以發現形態。
因網絡輿情具有前述特點,加大了輿情研究工作的難度,加上輿情監測行業發展年份尚淺,在當前網絡輿情監測和分析領域中,存在諸多問題和不足。
目前國內網絡輿情監測服務機構主要區分為三類,分別是:(1)依托人民網、新華網等主流媒體建立的輿情監測平臺,以服務政府有關部門為主;(2)由高校或學術機構創辦的輿情研究所,具有學術傳統;(3)由軟件公司或其與傳統的市場調查公司聯合成立的輿情監測軟件企業,抓取互聯網輿情數據能力較強。不同的網絡輿情監測機構由于背景不同,在產學研等方面各有其優勢及不足,整體而言,相關產業存在不同程度發展產品單一,同質化嚴重或缺乏產業內融合機制等問題(于新揚,2015)。
多位研究者在匯總和整理當前網絡輿情研究文獻及行業發展現狀后,總結認為大數據時代下的網絡輿情研究研究學科視角單一,缺乏跨學科的有關研究,未能進行動態化、立體化、全局化的綜合探討,為研究而研究,研究結果難以轉化為實際應用系統。整體而言,存在系統性不足的問題(林源,2015)。由于當前網絡輿情研究缺乏對數據的整合,未能有效地結合網絡輿情數據與相關外部數據,導致數據割裂及解讀片面;研究偏于平面和孤立,未能精到地解析輿情事件或話題背后的深層原因(燕道成和姜超,2015;上海交通大學輿情研究實驗室,2014)。
更進一步,有研究者指出,當前網絡輿情研究出現了技術導向的研究特點,即是過于圍繞大數據展開網絡輿情研究,缺少對社會輿情生成、發展、演化和衰退的內在機理來研究社會輿情信息的獲取與識別、監測分析與預警、導控等治理決策方案(蔡立輝和楊欣翥,2015)。
本研究提出一種新的輿情研究路徑——大數據技術輔助網絡內容挖掘與分析,是以人機結合基本理念的輿情研究機制,有別于當前主流的網絡輿情研究手段,以改善網絡輿情研究遇到的方法論問題,具有挖掘廣度、深度及監測結果更為全面和準確的特點。
(一)新輿情研究路徑的理論框架
大數據時代,網絡技術手段已可以支持以普查方式覆蓋處理海量的網絡數據,不再如傳統輿情信息需要抽樣以代表母體的處理方式,也由此得出了“數據足夠大的時候,就可以自己說話結論”的論斷。然而,雖然不再擔心抽樣偏差,卻產生新的憂慮,即是需要考慮數據源本身的偏差。由于整體數據可能含有噪音,如不排除,則容易高估算法的精確度。同時,大部分的數據是孤島狀態,在整合處理時,無法準確地忽略和重合數據,也易導致數據結果偏差。可見,讓數據“自己說話結論”是危險的論斷,其中需要對數據源的清理,才能避免潛在誤差。
本研究指出處理網絡輿情數據面臨的挑戰,并提出以社會科學邏輯和業務思考為基礎的解決方式,包括覆蓋度(Coverage)、測量(Measurement)和解釋(Explanation)三大要素。
1. 覆蓋度(Coverage)
覆蓋度即是解決數據是否齊全、代表性及數據質量的問題。輿情研究中,不論是傳統媒體條件下還是大數據時代,相比全部數據來源,數據信息是否具有代表性更為重要。數據的過度覆蓋易引入過多的含有歧義或無關的信息,會影響算法的精確度。同時應高度關注關鍵字搜索的設計和操作。由于自然語言使用靈活和含義豐富,簡單的關鍵字設置搜索出的數據結果,與實際所需要的數據庫結果可能存在較大偏差,從而導致誤差存在。
不少學者也曾經以“谷歌流感趨勢預測”(Google Flu Trend,GFT)為例,來說明這個問題。谷歌發現某些搜索關鍵詞能夠很好地標示流感疫情的現狀,因此,谷歌使用經過匯總的谷歌搜索數據來預測流感疫情,并將其預測結果與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的監測報告作對比。然而在2009年,谷歌依據2008年前的資料建立起的數據模型所預測出來的結果遠低于2009年實際所發生。而后,修正模型后,在2013年,其數據再次出現高估的問題,至此,谷歌關閉了GFT的功能,并且未再更新資料(https://www.google.org/futrends/about/)。一項發表在《科學》雜志的研究指出,出現這種結果的兩個重要原因是“大數據傲慢(Big Data Hubris)”和算法變化。“大數據傲慢”即認為大數據可以完全取代傳統的數據收集方法,而這種觀點最大的問題在于,絕大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的差異,因為其忽略了最基本的有關測量、概念的信度與效度及數據之間的依賴性。另一方面,算法本身會經過調整和改進,算法的改變合并用戶的搜索行為或是媒體的報道,均可能會影響GFT的預測,即是數據持續更新,算法無法做到隨時調整,由此帶來其結果的誤差(Lazer et al,2014)。
因此,為掌控研究質量,需認識到數據過度覆蓋和數據來源不足同樣易造成數據質量不佳的情況,我們提出,輿情研究需要考慮合理的數據范圍,可利用搜索關鍵詞的邏輯設置,將輿論話題概念化,并利用可人工二度判斷的手段來解決數據覆蓋度的問題。
2. 測量(Measurement)
測量即是解決可以挖掘什么的問題。在大數據技術的協助下,機器已經能夠完成許多自動化的測量工作,如網民行為(點贊數、閱讀數、分享數、來源、路徑、發展趨勢、評論聲量等)及文本的情感測量,當前輿情監測工作較為重視對行為的測量,準確度高,但是對于態度的測量僅以正負面的標尺為主,對輿情本質,如態度或意見的強度、有條件式的立場或意向等方面的測量較為欠缺,無法分析在什么情況下的“支持”或“反對”的意向,也難以辨別不同利益相關者之間的態度差異。
再者,往往對網民的意見數據測量存在缺乏理論概念、甚至偷換概念的情況,如以聲量代替影響力的測量、以正負面的情感來代替滿意度和支持度等情況,因此導致測量效度不確定。另一方面,以中文語義技術為手段的情感分析,準確度尚不理想,與傳統民調結果難以相提并論。以語料匹配方式所能達到的分析準確度少于60%,即便使用有優良的訓練集的機器學習方式,在理想的場景下,可將準確度提高至80%(祝建華,2012),但此結果依然難以滿足需求。因此,需要在適合輿情研究的理論框架和依據的支持下,建立具有科學性和系統性的測量標準,才能正確地進行輿情的深度挖掘。
3. 解釋(Explanation)
解釋即是解決如何分析和解釋發現的問題。網絡輿情的解釋度視乎分析的深度,而當前主流的機器自動化分析,絕大多數基于描述性分析,即是以單變量分析為主,如各種排名榜單,分析單薄,解釋性不強,提煉洞察困難。因此,需要在掌握單變量的數據信息基礎之上,關注變量之間的差異和關系,以回答有意義和有深度的研究問題或檢驗假設。
(二)大數據技術輔助網絡內容挖掘與分析研究機制
基于上述對輿情研究路徑的理論框架的探討,大數據技術輔助網絡內容挖掘與分析研究機制設計使用人機結合的理念,力圖避免當前網絡輿情研究的誤區和偏差。該路徑的執行流程為,先采集網絡上的海量信息,再結構化處理,隨后利用網絡挖掘和機器學習技術,結合人工在線內容分析,充分考慮分析結果的準確度,深度挖掘輿情事件,最終獲得有價值的洞察。
1. 網絡挖掘與機器學習
網絡挖掘(Web Mining)是指互聯網中普遍使用的數據挖掘方式。以研究目的區分,網絡挖掘區分為三種類型:(1)內容挖掘(Content Mining):以單個文件或網頁為分析單位,以文本分析為主,用于分析半結構化或結構化處理后的信息;(2)結構挖掘(Structure Mining):分析網頁的節點和結構,包括從網頁超鏈接中提取規則,或是挖掘文本結構;(3)使用行為挖掘(Usage Mining):挖掘網頁訪問者的使用記錄(Herrouz et al., 2013)。
機器學習(Machine Learning)定義為“機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能(Langley,1996)”,是借助數據或以往的經驗,以此優化計算機程序的性能標準的方法(Alpaydin,2004)。
本研究綜合運用網絡挖掘與機器學習技術,結合技術專長與社會科學研究知識的積累,設定合適輿情分析的網絡挖掘研究框架,具體為通過機器算法、語意分析技術和自動化關鍵字匹配等技術,快速挖掘網絡輿情信息,以描述和挖掘輿情事件或現象的面貌。在網絡挖掘的研究框架下,當前可透過機器挖掘自動化分析的主要面向和指標包括(不限于):

分析面向分析指標1傳播來源網絡數據來自具體的媒體來源,如社交網站(如Facebook、微博)、新聞網站、博客、論壇等;網絡輿情或口碑的聲量,以描繪事件的發展趨勢;詞云圖以字體在圖中的大小來表示聲量大小或關注點等;3傳播內容2傳播量度網絡輿情所涉及的話題、人物、機構、品牌等;4傳播特征以數量來描繪輿情話題的走勢、事件發生的路徑等,以解釋傳播過程和特征;5傳播力度點贊量、跟帖量、分享量、閱讀量、排行榜等,還有參與度、曝光量、KOL等,以多項參數來綜合解釋輿情的傳播力度;6傳播效果以情感分析作為尺度,衡量傳播效果。
以下分別以兩個發生在澳門的案例來說明上述的機器自動化分析結果。
例1:“臺風“妮妲”襲澳事件輿論分析
本部分以臺風“妮妲”襲澳事件為例,透過網絡挖掘和機器分析結果,綜合說明輿情事件的傳播來源、傳播量度、傳播內容、傳播特征、傳播力度、傳播效果以及不同階段的態度差異和變遷。
背景:2016年8月,臺風“妮妲”來襲,澳門于1日下午開始懸掛3號風球。香港天文臺1日晚8點40分懸掛八號西北烈風或暴風信號(8號風球),澳門未有像香港懸掛8號風球,引發社會質疑。
觀察期內網絡輿論(包括Facebook、網絡論壇、新浪微博和YouTube)信息量明顯高于傳統媒體,其中以Facebook信息量最多,占97.6%,明顯高于其他傳播來源。

進一步觀察信息量最大的Facebook社交媒體,三個現場直播氣象局發布會的Facebook專頁獲得較高的點贊數、評論數和轉發數,三條直播主帖短時間內共獲得3.5萬回帖,占Facebook總帖數74.1%,引起網民極大回響。其中,以Facebook專頁「Lotus TV」直播發布會傳播力度最為顯著,共計獲得點贊數2,073個,27,910條回帖,轉發次數達2,491次。

三條直播主帖及其回帖談及“落臺”、“局長”、“下地獄”等詞最多,負面表達較為強烈,對局長的不滿意見明顯,要求其落臺呼聲較大。

注:詞云圖以相關文本數據源為分析基礎,其結果的繁簡體表達受文本數據自身字體限制,下同。
觀察整個事件的發展趨勢及信息量,可明顯區分事件發展階段,以8月1日零時至次日15:00為升溫期,網絡輿情內容有2,837條民意帖,該階段的反對態度達到75.6%,詞云圖顯示關鍵詞為“氣象局”、“妮妲”、“臺風”等,可見民意討論集中于臺風形勢本身;第二階段,8月2日15:01至16:30,短短一個半小時內網絡民意猛烈增加,相關民意帖達到14,018帖,事件發展至爆發期,該階段輿論反對態度擴散至85.3%,“落臺”為最明顯的關鍵詞,信息量遠超其他關鍵詞,說明該意見占據主流輿論;隨后8月2日16:31至8月5日23:59,對該事件的探討明顯下降,網絡民意有9,326帖,討論進入降溫期,反對意見稍微減少,為82.6%,但是依然高于升溫期,關鍵詞為“局長”、“氣象局”、“落臺”等。
結合事件發展的趨勢及信息量,可以發現,在輿論爆發期發帖量最為集中,同時發言的趨同性升高,由詞云圖反映出,輿論走向由對臺風天氣本身的關注,轉向對政府相關部門失職的問責,表達出強烈的反對態度。

注:其中各階段態度取向分析為人工內容分析結果,在此引用僅為了更好配合網絡挖掘數據進行解釋。
例2:“2015年澳門施政報告”四象限詞云圖
2015年11月17日下午,澳門特區政府行政長官崔世安在立法會發布2016年施政報告。報告范圍包括持續提升民生素質、促進經濟適度多元、建設宜居城市、深化公共行政改革等四方面。觀察施政報告發布前后整一個月的相關輿情內容,利用分詞、機器學習及數據可視化等一系列的技術手段,制作出四象限的詞云圖,以初步解釋輿情的度量、內容和傳播效果。在對詞云圖解讀方面,關鍵字的字體大小表示討論聲量的多少,橫坐標為正面及負面,縱坐標為討論什么和怎么討論。
如下圖,在涉及“2016年澳門施政報告”的輿情中,在詞云圖左側“正面”情感方向上,網民討論“施政”和“政府”最多(右上角),其次為“行政”和“博彩”,與施政報告內容和熱點相關議題密切相關;在如何討論(右下角)中,以“直播”為涉及最多,是對信息傳播方式的討論,再次為“保障”,說明其為網民提及施政報告時較為關心的方面。
詞云圖右側“負面”情感方向上,左上角網民討論什么中,最明顯的關鍵詞為“政府”和“施政”,與政府發布施政報告議題高度相關,其余較為明顯且較為相關的關鍵詞為“公屋”、“土地”、“承建商”和“房屋”,說明住房問題為網民討論中較為負面的議題;右下角網民如何討論話題以“填海”為最關鍵詞,說明該議題的動作是討論較多負面的內容。

2. 人工在線實時內容分析
輿情研究的本質是為在盡可能短的時間內于茫茫信息中獲得所需要監測的輿情內容,并且深入解析輿情事件的方方面面,包括前因后果,即時動態,未來可能的發展趨勢。因此,僅掌握機器挖掘出的數據并不足夠。機器可幫助掌握包括傳播來源、傳播量度等單變量數據,然而在輿情研究中多變量之間的關系和差異是社會實證研究的核心問題,因此必須引入人工分析處理機制,以尋找更為深層次的解釋。本研究主要從差異和關系兩方面為挖掘重點。差異可使用交叉和聚類的方式獲得,如交叉可了解議題之間的態度差異、強度差異,聚類能夠幫助細分利益相關者等。對關系方面的挖掘,以相關關系、因果關系和預測及解釋力為主。
1) 內容分析法
本研究中人工在線實時內容分析以傳統內容分析法(Content Analysis)為研究方法理論依據,在此基礎上改進操作,以改善運作效率、提高數據及編碼的質量、產出更有信度和效度的分析結果。
內容分析法是社會科學研究方法中的一種對文本內容進行編碼、分類、語義判斷及形成可供統計分析之用的量化分析方法。它是指一種以系統、客觀與量化的方式,來研究與分析傳播內容,藉以測量及解讀內容的研究方法(Kerlinger,1973)。在方法設計和執行方面,強調:(1)系統的方法,需采用隨機樣本、系統的類目建構和編碼程序;(2)客觀的程序,需遵守明確的標準與規則;(3)量化的分析,需為所有的變量下操作性定義,確定測量標尺,進行統計分析。
傳統的內容分析流程包含多個程序,設計以保證理論和操作的合規和準確性。整個流程以話題(研究題目)擬定為始,進而進行文獻探討,以確定研究問題及解釋;在對分析對象范疇的確定時,可考慮對母體進行分析,或者采取抽樣的方式,確定研究對象;通過資料搜集建立樣本集;定義分析單位后,建構類目量化系統,制作編碼簿,在正式編碼之前,對編碼員進行訓練,進行前測編碼,計算信度,當編碼員間信度達至一定水平時,可開始正式編碼,此后輸入數據,分析資料,最終獲得結果呈現。

內容分析可以支持多種資料類型作為研究范疇,如采訪稿、焦點小組結果、教材、新聞、論文、雜志、文章、政治演講、小說、廣告、社交媒體內容等,呈現的格式包括文字、圖片、音頻、視頻等。內容分析方法可靈活應用于多種研究目的及不同領域,其中最為知名和經典的案例之一為Harold Lasswell在一次世界大戰中的研究。Lasswell在其著作《世界大戰中的宣傳技巧》(Propaganda Technique in World War I)中以宣傳信息所使用的符號為分析對象,包括報紙、宣傳手冊、傳單、書籍、海報、電影、圖片等,發展出內容分析法以研究宣傳運動中的技巧。還有其他的研究領域包括有研究者利用該方法確定文章作者的著作權的比例,例如Mosteller和Wallace(1963)采用基于詞頻的貝葉斯技術,解決了《聯邦主義者》(The Federalist)文章中的原作者的分布問題。商業領域中,有研究者使用內容分析法評估食品行業的發展趨勢,例如,1998年有一項研究鈣攝入和減肥之間的關系,研究范圍是青少年和女性雜志上的廣告、文章和專欄內容(Kondracki, Wellman, Amundson , 2002)。社會服務方面,美國農業部森林服務局(United States Department of Agriculture Forest Service)利用內容分析法監測社會環境對國家森林管理措施的評價意見(West , 2001)。
2) 編碼員之間信度(Inter-coder Reliability)
在內容分析中,需要多于一個的編碼員來進行編碼工作,這些獨立的編碼員對一段信息/記錄內容的特征(也就是記錄單位)作出判斷,并且達成一致的結論。這種一致性以量化方式呈現,稱之為編碼者間的信度。不同的編碼員應該對每一個分析的對象給予相同的評分(對等距或者等比標尺而言,即使不是完全相同的數值,也應該是相近的值),這種實質的同意程度是檢驗“編碼者間的信度”的基礎(Tinsley & Weiss, 2000)。
通常我們研究的信息有明顯的內容(manifest content)和隱藏的內容(latent content)。對于明顯的內容,例如文章字數、消息來源、人物或單位名稱等,很容易以客觀的判斷來達成高度一致性。但是,對于隱藏的內容來說,例如報導態度或者價值觀,編碼員必須根據他們自己的思維系統作出主觀的詮釋。這樣的話,編碼員之間的相互主觀判斷變得更加重要,因為當這些主觀判斷由所有編碼員共享的時候,也就是它們更有可能讓讀者產生相同的意義(Potter and Levine-Donnerstein,1999)。
編碼員間信度評估流程由編碼指引開始,需要依據編碼簿制作編碼指引,幫助編碼員準確理解編碼類目,幫助編碼員熟悉議題,理解編碼類目;之后選取少量樣本,各編碼員需要獨立進行編碼,不可相互討論或指導,計算信度系數以觀察不同編碼員是否已經達到可接受的認知一致性水平,如未能達到理想的信度水平,則需要對編碼員再次進行培訓和指導,以確保編碼員達到理想信度水平,可開始正式編碼。學術上常用的編碼員間信度有Holsti的信度系數(Holsti's Coeffcient Reliability)及Krippendorff的alpha值(Lombard, Snyder-Duch 和 Bracken, 2002)。

3) 人工在線實時內容分析流程
在參考傳統內容分析法的理論和操作方法基礎上,本研究建立了由大數據技術輔助人工在線實時內容分析機制及平臺—博易數據挖掘平臺(DataMiner),整個流程包括準備階段、編碼及質量控制和結果呈現三大部分。
在完成前期文獻搜索、確定研究問題等預備工作,可于平臺上進行準備階段的設定數據源、通過設置多重關鍵詞以設定概念,在該過程中,可通過篩選工作以確保數據高度相關和精確度,并且完成編碼庫管理和設置類目的工作;進入編碼及質量控制階段,該部分尤為重要,正式編碼前需要進行前測編碼,以確保編碼員間信度達到可接受的理想水平,在正式編碼過程中,透過平臺隨時監控編碼結果,并可定期校對以保證編碼質量;完成上述過程后,可對結果進行分析和可視化呈現。

該操作流程設置多種質量保證機制,可隨時監管編碼員效率、編碼準確度,以確保最終的工作結果可真正為輿情研究提供價值。
下圖為線上內容分析機制頁面,支持即時編碼、即時檢驗、即時監控和即時結果。

以下分別以發生在澳門的兩個案例來進一步說明通過這種方法可以做到的分析結果。
例3:“澳門康復政策”的網民態度分析
在某些輿情事件中,涉及的話題面向多向且復雜,需要人工處理和區分,在此基礎上,才能得以進一步解析細分議題之間的態度差異及強度差異。
下圖著重于對澳門的一項康復政策不同范疇的態度差異的解讀。康復政策為總體政策類型,下屬多個細分政策范疇,情況較為復雜,必須使用人工判斷的方式予以分類和歸整。結果顯示,針對康復政策,除整體性的“康復服務十年規劃”,其余區分分類共14個細分范疇,進而需要判斷這14個范疇的態度如何。對態度的測量以七個層次劃分觀察網絡輿情,區分為是無條件認同/完全認同、主體認同、有條件認同、中立態度/無明確態度、有條件反對、主體反對和無條件反對/完全反對。觀察分析結果(模擬數據),以對“公眾教育”范疇的認同程度較高,有42.9%為“無條件認同/完全認同”,42.9%為“主體認同”;觀察另一個方向的認同程度,以“學前訓練及托兒所”和“醫療康復”兩個方面的反對態度最為明顯,分別有22.2%和20.0%表示了“有條件反對”態度。

例4:“食品安全問題”的網民意向分析
另一個案例是有關食品安全的輿情分析,探討關于不同利益相關者對于食品安全所持的立場差異。下圖為關于食品安全問題的分析結果,采用機器學習和人工編碼結合的方式得出。觀察不同媒體來源中對食品安全問題的整體立場,可以看到新聞評論、論壇、YouTube和Twitter上反對的聲音較多(71.4%、75.0%、76.9%、70.0%)。不同媒體來源對于不同利益相關者(包括政府單位、政黨和社團)的態度存在較明顯的分布差異,以Twitter上的反對聲音最多(77.8%),在論壇和新聞中表達出來的輿論聲音以中立為主(100%,89.2%)。該案例說明,不同媒體渠道上所收集到的輿論聲音可能存在差異,對事件的看法和立場會不一樣。如單獨使用網絡挖掘,僅僅能看到整體的聲量,無法解讀到不同層次的內容,因此可見,僅僅看傳播量等內容是遠不足夠的。
3. 大數據技術與人工在線實時內容分析的互動和促進關系
在本研究的網絡輿情研究新機制中,以人機結合為核心理念,大數據技術框架下的網絡挖掘和機器學習可執行廣度的自動化分析和快速挖掘輿情信息,人工在線內容分析則能完成深度挖掘和解釋輿情間差異和關系的任務。從輿情分析和解讀的整體角度出發,以網絡挖掘及機器學習為代表的大數據技術與人工在線內容分析兩個體系是相輔相成的關系,構成一個良性循環,且存在彼此優化的特點,具體體現在三個方面:

(1)機器技術改善人工編碼流程。通過網絡和計算機技術的輔助,提供編碼文本關鍵詞高亮設置,相似主題文本優先派發等算法支持,得以提高人工編碼效率;另一方面,平臺提供快速簡單的前測編碼和即時質量監督功能,解決了傳統內容分析中編碼質量難以控制和校正延遲的難題。
(2)詞云圖幫助制作編碼類目。利用詞云分析技術,能夠快速發現和掌握輿情事件主要面向,從某種程度上,以關鍵詞的形式,表達了相關內容的熱度情況。在傳統的人工內容分析法中,制作編碼類目前需大量檢視相關內容文本,以獲得對研究問題的大致了解。有詞云的幫助,其快速挖掘的關鍵詞能提供編碼類目的線索,大大改善制作編碼類目的效率及效度。
(3)人工內容分析結果幫助改良機器學習的準確度。經過信度檢驗的人工內容分析所累積的大量人工編碼結果,可以作為優質的機器學習的訓練集,用于改善自動化分析結果,如情感分析,以此方式不斷提升機器分析的準確度。
回顧當前網絡輿情研究發展現況,網絡輿情監測和分析的工作難度大,面對復雜的輿論場景,單靠機器或人工方式無法解答我們的研究問題及現實需求。為此,本研究提出新的輿情研究路徑——大數據技術輔助網絡內容挖掘與分析,并通過博易數據技術公司的“博易數據挖掘平臺-DataMinder”來實現。該路徑綜合匯總多年輿情研究經驗,以社會科學實證研究的核心要素——覆蓋度、測量和解釋作為網絡輿情挖掘的理論框架,配合人工在線實時內容分析方法,探索輿情事件變量間的差異與關系。其中所建立的分析機制及流程,乃將研究視角落實至研究輿情的本質,以回應學術界、政府和業界期望了解輿情的真正意涵及價值。
本研究著重于提供一種輿情研究的思路與方法論,不限于特定輿情研究的目的和用途,適用于實務應用,亦可用于學術研究;可用來掌握輿論形勢,又可用于深度挖掘某一個話題,以解決實際問題為目的。
以上作為網絡輿情分析路徑上的初步嘗試,乃經過一段時間的實踐,并已取得一定的成效。然而作為新的探索,需要持續優化,尤其是理論上需要強化和補充,在實踐上需要改善和提升。其中需要考慮是否能夠應對各種輿情研究類型和情況,例如,當需要處理的數據量特別大的時候,運用人工內容分析時人力部分的壓力過大,時效性會大打折扣,可考慮按照一定規則抽樣處理,如對文本內容采用系統抽樣或分層隨機抽樣方式,形成可供操作的編碼樣本庫,這也是筆者提出作為未來研究和探討的一個方向。
另一個值得關注的方向是,將質化與量化結果的相互結合解讀的研究方法論。在對輿情的研究實踐中,網絡挖掘和機器學習是研究輿情的第一步,可快速獲得初步的量化結果;第二步是使用人工編碼和分析將文本內容做量化處理,即是質化文本材料的量化過程;第三步是量化和質化內容的相互補充,即是以原文文本補充和解讀量化結果。以此完成由質化內容得出量化結果,再次回到質化內容,量化結果與文本之間相互補充和解釋的循環方法論,未來或可進一步實踐和探索該方法對輿情或其他類型研究的解釋度和操作性。
[1]于新揚.中國網絡輿情監測發展現狀及不足。《傳媒觀察》,2015(1),8-9頁。
[2]上海交通大學輿情研究實驗室.大數據與社會輿情研究綜述。《新媒體與社會》,第十一輯。
[3]中國互聯網絡信息中心.《中國互聯網絡發展狀況統計報告(2016年7月)》。http://www.cnnic.cn/gywm/ xwzx/rdxw/2016/201608/W020160803204144417902. pdf
[4] 尹培培.大數據時代的網絡輿情分析系統。《廣播與電視技術》,2013(07)。
[5]閔大洪.閔大洪:對中國網絡輿情監測工作的觀察與思考。《網絡空間研究學刊》,2016年10月16日。
[6]林源.網絡輿情研究綜述。《科技情報開發與經濟》,第25卷,146-150頁。
[7]祝建華.一個文科教授眼中的大數據。中關村大數據日,2012年12月13日北京。
[8]胥琳佳.大數據對于傳播學研究內容和方法的影響——基于社交媒體和移動互聯網的思考。中國出版,2013(18)。
[9] 喻國明.《中國社會輿情年度報告》。人民日報出版社。
[10] 謝耘耕主編.《中國社會輿情與危機管理報告》。社科文獻出版社。
[11]蔡立輝和楊欣翥.大數據在社會輿情監測與決策制定中的應用研究。《行政論壇》,第128期,1-10頁。
[12] 燕道成和姜超.大數據時代網絡輿情研究綜述。《視聽》,2015(9),133-146頁。
[13] Alpaydin, E. (2004). Introduction to Machine Learning; MIT Press: Cambridge, MA, USA, 2004.
[14] Herrouz, A, Khentout, C, & Djoudi, M. (2013). Overview of Web Content Mining Tools. The International Journal of Engineering and Science. 2(6).
[15] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.
[16] Kondracki, N. L., Wellman, N. S., Amundson, D.R. (2002). Content Analysis: Review of Methods and Their Applications in Nutrition Education, 2002(34), 224-230.
[17] Langley, P. (1996). Elements of Machine Learning. Morgan Kaufmann, San Francisco, CA.
[18] Lasswell. H. D.. (1971). Propaganda Technique in World War I. Mit Press.
[19] Lazer, D., Kennedy, R., King, G., Vespignani, A.. The Parable of Google Flu: Traps in Big Data Analysis Science 14 March 2014: Vol. 343 no. 6176 pp. 1203-1205.
[20] Lombard, M., Snyder-Duch, J., & Bracken, C. C. (2002). Content analysis in mass communication: Assessment and reporting of intercoder reliability. Human Communication Research, 28, 587-604.
[21] Mosteller, F., & Wallace, D. L. (1963). Inference in an authorship problem: A comparative study of discrimination methods applied to the authorship of the disputed Federalist Papers. Journal of the American Statistical Association, 58(302), 275-309.
[22] Potter, W. J., & Levine-Donnerstein, D. (1999). Rethinking validity and reliability in content analysis. Journal of Applied Communication Research, 27(3), 258.
[23] Tinsley, H. E. A. & Weiss, D. J. (2000). Interrater reliability and agreement. In H. E. A. Tinsley &S. D. Brown, Eds., Handbook of Applied Multivariate Statistics and Mathematical Modeling, pp. 95-124. San Diego, CA: Academic Press.
[24] West, M. D. (2001). Applications of Computer Content Analysis. Ablex Publishing Corporation.
(責任編輯:李曉暉)
New approaches to online public opinion research: Online content mining and analysis using big data technology
ZHANG Rong-xian CAO Wen-yuan
Previous domestic research shows that public opinion mainly covers the social events and changes in society including the deductive factors triggering these events and public opinions related. Nowadays, most of online public opinion research lacks the understanding of the nature of public opinion and the systematically analytical framework is rarely adopted. Descriptive statistics are widely used to draw conclusion. Considering the above limitations of the current public opinion research, this paper presents a novel approach for online public opinion research which takes three major elements into accounts: coverage, measurement and explanation and is achieved by the combination of an online big data analytics and human judgment methodology. It frst gives the overview of public opinion with the help of the machine learning and web mining technology built on the platform; then it mines deeply and explains events via a manual online content analysis method. Some cases will be elaborated in this paper to show the practicability and operability of this approach.
online public opinion; big data technology; web mining; machine learning; content analysis
G20
A