杜洪濤,孟慶國,王君澤
(1. 清華大學 公共管理學院,北京 100084; 2. 華中科技大學 公共管理學院,湖北 武漢 430074)
?
互聯網數據在輿情研判中的效用研究
杜洪濤1,孟慶國1,王君澤2
(1. 清華大學公共管理學院,北京100084; 2. 華中科技大學公共管理學院,湖北武漢430074)
摘要:雖然互聯網數據對于輿情研判工作具有重大價值,但由于互聯網數據的海量、多源、異構等特性,以及數據噪聲的存在,使目前的互聯網數據處理技術表現出了一定的局限性,影響了互聯網數據效用的發揮。大數據分析和計算實驗技術能夠提升互聯網數據在輿情研判中的效用,在實際操作中應注重人的主導作用與技術輔助功能的互動耦合。
關鍵詞:網絡輿情;輿情研判;互聯網數據;Web數據挖掘;效用分析
一、引言
輿情是指在一定的社會空間內,圍繞中介性社會事項的發生、發展和變化,作為輿情主體的民眾對國家管理者產生和持有的社會政治態度[1]。及時準確地進行輿情研判,是順利開展輿情引導和管控工作的重要前提條件。
近年來,隨著互聯網尤其是移動互聯網的發展,網絡媒體特別是微博、微信等自媒體的出現,網絡空間開始成為日益重要的輿論場,互聯網數據也日益受到輿情研判工作者的重視。傳統上依靠社會訪談、民意調查等來獲取社會輿情的方式,不僅成本高,而且獲取到的數據規模也相對有限。與此不同,互聯網數據可以通過Web爬蟲等技術手段來相對全面和廉價地加以獲取,這就為互聯網數據在輿情研判工作中的大量使用提供了可能。
網絡輿情研究領域的諸多問題已經吸引了學術界的廣泛關注,研究人員圍繞網絡輿情的形成[2]、演化[3]、管控[4]、評價指標[5]、引導策略[6]等問題,開展了大量的研究工作。數據挖掘、語義分析等領域中的不少模型和算法也被應用于輿情信息處理領域,以描述網絡中傳播的輿情信息,推論網絡輿情信息傳播主體的意圖以及態度和情緒的傾向性,或分析網絡輿情信息的產生和演化趨勢[7],進而更科學地利用互聯網中的海量信息進行輿情研判[8]。其中,涉及到多種應用場景,包括網民的情感傾向分析[9]、網頁轉載關系識別[10]、論壇和微博等網絡社區中意見領袖和網絡推手的識別[11-12]、輿情傳播網絡分析[13]等。
與已有工作不同的是,本文主要關注互聯網數據在輿情研判中的效用問題。首先,介紹輿情研判工作中使用互聯網數據的目標;其次,論述輿情研判工作中互聯網數據的特征選取,以及應用于互聯網數據處理的常見技術及其處理的具體對象;繼而分析在發揮互聯網數據效用過程中所面臨的困難;最后給出可能提升互聯網數據效用發揮的策略。
二、輿情研判中的互聯網數據使用
目前,針對在輿情研判工作中如何使用互聯網數據的問題已開展了大量的研究工作,并取得了一些成果。本文從使用目標、特征選取、分析技術和處理對象等方面對這些成果的研究要素進行初步劃分,結果見表1。
(一)輿情研判中使用互聯網數據的目標
鑒于網絡空間已經成為重要的輿論場,而互聯網數據又可以通過Web爬蟲等技術手段快速、大量地獲取,因此互聯網數據在輿情研判工作中得到了廣泛的使用,以輔助輿情分析人員更好地開展輿情研判工作?;诨ヂ摼W數據,輿情研判人員可以對網絡輿情進行描述;對網絡輿情的關聯性進行分析;對網絡輿情信息的真實性進行判別,對網絡輿情信息傳播主體的意圖及態度傾向進行推論;對網絡輿情的產生原因進行分析;預測和推論網絡輿情信息的產生和變化趨勢等[14]。更具體的,基于新聞或者網帖中的用戶評論信息,可以分析網民對于目標輿情事件的觀點態度和情感傾向[15];基于各種社交媒體中用戶之間的關系網絡,以及用戶之間的交流和互動特征,可以評估用戶的影響力[16]和社群之間的互動模式[17];互聯網中的海量數據,也為輿情研判人員分辨不同時期、不同環境中的輿情特征提供了依據,有助于獲取個人與群體的態度和興趣,揭示網民關注的熱點話題等[18];同時,互聯網數據中的各類統計信息,如有關特定目標事件的總發文數、單位時間發文數、參與討論總人數等統計信息,也是輔助輿情研判的重要指標。

表1 輿情研判中互聯網數據使用的研究分類
(二)輿情研判中互聯網數據的特征選取
目前,圍繞Web爬蟲技術,已經有大量的改進策略用于獲取互聯網數據[19-20]。但是,對于獲取到的互聯網數據,需要有針對性地抽取其中的特征,并基于這些特征,結合相應的模型算法或者處置流程,才能獲得對于輿情研判工作有價值的信息。
對互聯網數據特征的選取,主要包括以下幾個方面:
第一,語義特征。如文本信息的情感傾向(即正負面情感極性的標識)、數據內容中所涉及的命名實體或者事件、數據內容中包含的敏感詞或關鍵詞等。
第二,結構特征。如網絡社區用戶之間互相“加關注”成為“粉絲”,服務器端記錄的人際關系等數據,能夠描述用戶構成的社會化網絡等。
第三,各類元數據。如信息的轉發數量、評論數量,以及信息發布者的資料等。在很多輿情指標體系中,對各類元數據都進行了明確的規定。如談國新等人設計的網絡輿情監測評價指標體系,包含了輿情發布者影響力、輿情發布者活躍度、輿情受眾負面指數、輿情受眾參與頻度等多個指標。而這些指標中涵蓋了瀏覽次數、發帖數、回復數、轉載率、回帖總數、負面回帖總數、中性回帖總數,以及點擊、評論、回復某一輿情的總次數等多個末級指標[21]。
(三)輿情研判中互聯網數據的分析技術
對于獲取到的互聯網數據,可以從兩個方面對其進行分析:一是對網絡傳播的信息內容進行研究,利用內容分析法發現重要輿情內容;二是構建網民間的社會關系網絡,利用社會網絡分析法分析網絡結構特征[22]?;谝陨蟽蓚€方面,可以對網絡輿情進行描述,對網絡輿情的關聯性和網絡輿情信息的真實性進行分析,對傳播主體的意圖及態度傾向進行推論,并對網絡輿情的演化趨勢加以預測。
1.內容分析法
內容分析法是輿情研判工作中分析互聯網數據的常用方法,能對具有明確特性的傳播內容進行客觀、系統和定量的描述。內容分析法在網絡信息處理方面的應用,主要體現在對網絡信息的內容挖掘、對網絡的結構挖掘和對網絡的使用記錄挖掘上[23]。研究者們很早就注意到內容分析法在輿情信息分析中的作用,情感分析、話題檢測與追蹤、文本摘要、熱點識別等多種技術都被嘗試用于互聯網數據的分析環節。如利用文本特征提取技術發現輿情信息涉及的目標事件、識別并追蹤社會熱點和焦點內容;利用文本分類技術判斷目標事件所屬社會問題的類別;利用網絡信息內容的主題檢測和追蹤技術發現突發事件的輿情信息流主題;利用多維分析對輿情信息進行跨時間、跨空間的綜合分析,描述起因事件發生的全貌及產生的影響等。
(1)數據預處理及表示技術
數據預處理及表示技術是計算機分析互聯網數據內容的基礎,其中涉及表示模型、特征表示和特征提取等。
在輿情研判工作中,互聯網數據的效用在很大程度上依賴于對互聯網數據的語義分析能力。其中,涉及到中文分詞、詞性標注、命名實體識別、新詞識別和人名消歧等技術,同時配合關鍵詞抽取、自動摘要生成等技術,以完成互聯網數據的預處理及表示。
(2)情感分析及觀點識別技術
情感分析技術可以對各種新聞資源、社會化媒體評論和其他用戶生成的內容進行提取、分析、處理、歸納和推理,并可以對網絡輿情信息傳播主體的意圖以及態度和情緒的傾向性進行推論。針對目標輿情信息的相應評論文本進行情感傾向性分析,有助于輿情研判人員明確網民關于目標輿情信息所持的觀點和態度。
(3)分類和聚類
文本分類和聚類技術也是對互聯網數據進行分析的主要手段。對于文本主題的分類,有助于從宏觀角度開展輿情研判的研究。如談國新等人將輿情信息主題分為六類,即生存危機、分配差距、腐敗現象、公共安全、時事政治和公共治理?;诖朔诸愺w系,利用文本分類技術對互聯網數據進行分類,有助于有針對性地進行輿情研判和應對。
聚類是將一組未標定或未做出任何分類的信息按照某種相近程度的度量分成互不相同的類別。作為一種探索性的分析,聚類分析能夠從信息本身出發自動進行分類。聚類分析的結果是一系列相近信息組成的集合,同一組中的信息相近,不同組的信息相差較大,據此可以判別當前網絡輿情的共性話題和熱點話題。
(4)話題檢測與跟蹤
話題檢測與跟蹤可以針對目標事件完成報道邊界自動識別、鎖定和收集突發性新聞話題、跟蹤話題發展以及跨語言檢測與跟蹤等相關任務。針對輿情事件的突發性,也可以利用話題檢測與跟蹤技術來探測互聯網中的突發熱點事件。
(5)趨勢預測分析
通過跟蹤目標事件輿情在不同時間段內被關注的程度,可以獲取輿情隨時間的發展變化趨勢或規律,以實現對輿情環境的監控和預警,進行適時控制和疏導[24]。
2.社會網絡分析法
社會網絡分析法是適應研究社會結構和社會關系的需要而發展起來的一種分析方法。在輿情研判中,社會網絡指的是由多個結點(輿情參與者)和各結點之間的連線(輿情參與者之間的關系)組成的集合,通常被用于描述和測量輿情參與者之間的關系,或通過這些關系流動的各種信息資源等[25]。使用社會網絡分析法,可以在輿情研判工作中基于互聯網數據中的文本內容開展輿情分析工作,也可以通過分析輿情參與者的網絡結構和關聯來探尋網絡輿情的發展規律[26]。
基于社會網絡分析所開展的互聯網數據研究主要包括三個方面:
(1)動態分級
研究社會網絡的動態變化,并根據社會網絡中結點之間的相互關系,對網絡中的結點進行動態的等級劃分??祩ヒ?011年重大突發事件“7·23”動車事故為實證研究對象,基于鄰接矩陣數據進行了網絡密度可達性聚類系數和中心性測度,依據測度結果和位置角色分析,通過將網絡中的節點分為中心核心、普通核心和邊緣三種類型,完成了對輿情參與者的等級劃分[13]。
(2)角色評價
依據社會網絡分析理論,網絡中的每個結點都扮演著不同的角色。角色評價的研究目標就是確定網絡中的結點對網絡的結構和動態變化等所起到的不同作用。有研究者以突發事件“11·16”校車事故為實證研究對象,基于鄰接矩陣數據對信息傳播網絡進行了整體網絡結構、內部子結構和個體位置結構測度,并借助結構對等性測度和結構洞測量等手段,研究了網絡節點對輿情網絡中其他成員之間的交流及信息傳播和共享的控制力[25]。
(3)“意見領袖”和社群的發現
通過社會網絡分析法,研究社會網絡中結點之間的關系,可以發現其中潛在的“意見領袖”和社群?!耙庖婎I袖”是在社會網絡中占有核心位置的結點,它能夠影響網絡中的其它結點對事件的看法,社群則是由相互聯系緊密的結點組成。有研究者結合社會網絡分析方法在網絡輿情研究中的現有應用,通過分析網絡輿情的結構,進而發掘網絡輿論領袖[25]。
綜上所述,通過運用內容分析法或者社會網絡分析法等自動或半自動的技術,能夠從海量的互聯網數據中快速分析和發現輿情信息,并有助于重組和優化輿情信息處理和輿情研判的業務流程。
然而,目前各類分析技術大都并非針對輿情分析領域開發的,研究人員往往是將其它領域的成果直接應用到輿情分析領域。在此背景下,如何充分發揮互聯網數據在輿情研判中的效用,就成為一個待解決的問題,需要對其進行深入的研究和創新。
(四)輿情研判中互聯網數據處理的具體對象
就目前對于互聯網數據的研究工作來看,內容分析法所研究的對象涵蓋了新聞正文及評論、論壇主帖及回帖、博客文章及評論,以及微博信息及相應的轉發內容和評論內容。
在現階段,由于受技術的限制,內容分析法主要的處理對象還停留于文本數據。對于語音數據、視頻數據、圖片數據等,可以采用的策略相對較少,主要還是對瀏覽量、轉發量,以及針對語音、視頻、圖片的網民評論文本進行處理。但恰恰是這類多媒體數據,可能包含了對于輿情研判具有重要價值的信息。為提升輿情研判中互聯網數據的效用,應該進一步關注光學字符識別、語音識別、圖像語義分析[27]、視頻語義分析[28]等技術的發展。
對互聯網數據的分析,還可以從數據發布者的網絡結構和關聯入手。社會網絡分析法通過對各種關系進行量化分析,從而揭示群體關系結構,研究關系結構對群體功能或群體內部個體的影響。較之內容分析法,社會網絡分析側重于研究輿情事件之間或者輿情參與者之間的聯系,以及不同網絡關系結構下所引發的網民行為發展變化情況。如可以通過網絡論壇中的主題帖和回帖,在用戶間建立明顯的連接,并通過積累的有關網絡論壇的數據,挖掘用戶間的復雜關系,以及最終形成的關系網絡,在此關系網絡上開展輿情分析研究[29]。
三、互聯網數據效用發揮面臨的挑戰
雖然互聯網數據在輿情研判領域得到廣泛重視,也有諸多技術策略被應用于互聯網數據分析的實踐工作,但依然存在諸多因素制約著互聯網數據效用的發揮。網絡輿情分析流程大致可以劃分為互聯網數據采集、互聯網數據預處理、輿情關鍵信息抽取、網絡輿情內容分析,以及輿情研判平臺構建與服務等環節。下面結合上述部分環節,對制約互聯網數據效用發揮的因素進行分析。
(一)互聯網數據采集方面
從Web1.0到Web2.0,網民從內容的消費者轉變成為內容的制造者,使互聯網產生數據的速度得到極大提升,同時也使對互聯網數據進行全面、實時的獲取和利用面臨著更多挑戰。目前,對于網絡輿情匯集分析的研究還不夠深入,尤其是實證研究很少,經過實踐檢驗的輿情匯集方案和指標體系等還沒有出現[30]。例如:不少研究者嘗試利用總發文數、單位時間發文數、參與討論總人數和單位時間參與討論人數等指標對網絡輿情熱度進行評估。但針對目標輿情事件,其相關報道可能被發布在多個數據源,而這些報道又可能被諸多網站轉載,而且各個網站上的報道又引發大量的網民評論。從理論上講,如果需要統計針對目標輿情事件的總發文數和參與討論人數等指標,則必須要完整地獲取目標輿情事件相關信息在互聯網上的分布狀況,而這意味著需要在全網范圍內檢索信息。該任務勢必會帶來極大的計算和存儲壓力,以及對網絡帶寬的消耗,并且很難保證數據獲取的實時性。而在輿情研判過程中,為了保證對敏感輿情的及時發現和快速處置,對數據獲取和分析的實時性要求較高,這無疑又對互聯網數據的快速獲取和處理能力提出了更高的要求。
可以看出,對于輿情研判而言,不但在互聯網數據的獲取上面臨著數據過載的挑戰,而且還需滿足數據獲取及分析的時效性要求。在此狀況下,合理的策略是放棄獲取全網數據,而是選擇互聯網中影響力較大的網站作為數據源,有針對性地完成數據獲取任務。這樣既可以緩解信息過載的壓力,又能保證獲取到的數據可以大致準確地反映目標輿情事件的狀況。
事實上,互聯網中各數據源的質量良莠不齊,在網絡輿情分析時,如果可以對權威性較高的互聯網數據源所發布的信息加以重點關注,則可能提升輿情信息處理的效果。然而,目前雖然已有不少對網站影響力進行評價的工作,如借助入鏈接數、出鏈接數、網絡影響因子和網站訪問量等一些可量化的指標來對網站影響力進行評價分析[31],但是幾乎還沒有專門對網絡輿情信息源影響力進行評價的研究工作。有研究者構建了網絡輿情信息源影響力的評估體系,但僅能得出定性分析的結果,且評估結果的客觀性和合理性仍有提升空間,距離實際應用仍有距離[32]??紤]到互聯網中數據源的規模,以及各數據源的影響力和可信度等方面的差異,亟需對監控范圍內的各數據源進行信度和權重設置,以供后續的輿情研判工作參考。
此外,互聯網數據采集環節還存在著采集標準不統一的問題。先前已經有研究人員嘗試構建網絡輿情監測評價指標體系,以明確互聯網數據采集的來源、范圍和方向,進而全面了解網絡輿情的發展狀況和動態,將網絡輿情信息定量化,以保證輿情研判的客觀性。如談國新等人構建了突發公共事件網絡輿情監測指標體系,其中包括輿情發布者、輿情受眾和輿情傳播等二級指標,利用綜合回帖數、回復數和轉載率等統計信息進行輿情態勢評估。但目前輿情監測指標的設計仍具有一定程度的主觀性,缺少相應的論證過程,也缺少對互聯網數據來源指標的權威度、準確度和公眾參與度等要素的考量。這也暴露出對于這類要素數據所存在的量化研究不足,缺少實證研究和數據分析等問題。
(二)數據噪聲處理方面
噪聲數據的存在使得互聯網數據的效用受到制約。一方面,并非所有的網頁內容都蘊含著網民的信念、態度、意見和情緒等輿情相關信息,與目標事件輿情分析無關的互聯網信息應視為輿情分析過程中的噪聲數據;另一方面,即使對于輿情研判具有實際意義的新聞或者網帖頁面,在頁面中也會混雜著導航欄、相關鏈接、友情站點、廣告和推薦等內容,這些內容同樣屬于噪聲數據。
除了新聞和網帖等之外,網民評論中也會混雜著垃圾評論及廣告信息,如果不對其加以消除,同樣會對分析結果造成影響。Wang等人對網民評論的有用性進行評級,試圖找到與目標事件最相關的評論,以避免垃圾評論對于網民觀點分析的影響,提升信息匯聚的質量[33]。但總體而言,現有的網絡輿情分析領域較少有關注該問題的工作。
同時,由于互聯網數據的來源問題,數據本身存在著真實性難以確定的狀況[34]。各類原始公開數據雖然在形式上是客觀的,但是在內容上則未必可靠,需要對其進行信息甄別[35]。
此外,目前的推手研究和水軍研究等,也都蘊含了對互聯網數據進行真偽甄別的思想。但總體而言,噪聲因素對互聯網數據效用發揮的影響問題尚未得到足夠的重視。
(三)數據分析方面
在獲取互聯網數據并剔除數據噪聲之后,可以利用各種數據挖掘或者自然語言處理領域的技術對預處理后的互聯網數據進行分析。這其中涉及到兩個方面的要素,即分析技術和對分析結果的評價標準。如前文所述,對于獲取到的互聯網數據,可以從內容分析和社會網絡分析兩個方面著手。
1.內容分析技術方面
內容分析方面的常用技術包括情感分析、話題探測與追蹤、分類與聚類、觀點抽取等。其中,情感分析是指對包含用戶表示的觀點、喜好和情感等的主觀性文本進行檢測分析以及挖掘。情感分析最初被廣泛應用于對互聯網上的產品評論進行挖掘與分析,主要目的是能夠比較精確地發現產品的優缺點[36]。針對商品等實體應用,其中的情感指向的客體基本上是明確的,或者是可以預先定義的。但在輿情分析領域,需要對關于目標事件的新聞和博客后的評論或者網帖后的回帖進行處理。然而,目標事件中可能涉及到多個不同的機構、組織和特定人物,或者是其它事件,且這些評論或回帖可能是針對該事件本身發表意見,也可能是針對這些機構、組織和人物,又或者是針對其它事件發表意見或做出評價。因此,需要在輿情分析環節中對評價對象加以抽取,以確定網民是針對何客體發表意見和評論。這相較于針對特定商品的評論處理,其難度更大。同時,在商品評論中,由于不需要顧忌網絡審查問題,消費者可以非常直接和明確地表達自己的觀點和態度。而在輿情分析領域,由于網絡審查機制的存在,網民或是選擇反諷的方式表達態度,或是利用各種策略規避敏感詞監控,進一步增加了抽取評價對象和分析情感傾向性的難度。此外,情感分析的最大挑戰在于精確識別包括評價者和被評價者、情感類別和情感極性在內的完整的情感表達式[37],這也是目前情感分析技術研究所亟待解決的問題。
還需要強調的是,輿情研判領域所存在的一些特殊情況,也對目前的觀點識別技術提出更高的要求。如對文本中蘊含的思想傾向進行分析(左派/右派),以識別網民的政治態度等。雖然在政治事件分析方面,先前有研究者通過分析大量美國大選時的網絡新聞評論,來推斷大部分選民是支持共和黨還是民主黨[38],且Lin等人也構造過一個“巴以戰爭”評論分析系統,來區分某一評論是支持巴方還是支持以方[39],但在如何判斷政治傾向性方面,仍未見到有相應的研究工作。
2.社會網絡分析技術方面
在輿情研判中,基于社會網絡分析技術所開展的研究工作,主要集中在輿情參與者動態分級、輿情參與者角色評價、“意見領袖”和社群的發現等方面。不僅能夠考察行動者個體,還能夠考察行動者之間的關系以及網絡對個體的影響[40]。但是,在對于負面信息、敏感信息的分析識別和預警方面較為欠缺,需要同時應用內容分析技術,才能更好地發揮互聯網數據的效用。比如在“意見領袖”識別方面,基于社會網絡分析技術可以通過分析行動者之間在網絡中的互動關系來挖掘社區中的活躍分子,而“意見領袖”不僅需要在互動關系上享有主動權,還應該在其他成員中享有較高的聲望。因此,挖掘網絡“意見領袖”時,還應輔以內容分析技術,通過對其所表達觀點中涉及的情緒和態度進行分析,以確保網絡“意見領袖”識別的準確性。
應用社會網絡分析法的基礎是構建基于互聯網數據的關系網絡。但由于網絡水軍、用戶“馬甲”等形式的存在,使得相關的互聯網數據中存在噪聲,影響了關系網絡的構建。甚至在很多網站中,由于網站本身的設置,在數據采集環節并不能獲得足夠的數據,也就無法完成關系網絡的構建。
可見,社會網絡分析法不僅需要關注輿情行動者,還需要關注輿情行動者之間的互動關系。但受限于客觀情況,互聯網數據獲取環節無法滿足這些要求,進而影響了互聯網數據的效用發揮。
還需要強調的是,隨著Twitter和新浪微博等應用的興起,其中的轉發和推薦機制也會影響到互聯網數據分析技術的實際應用。轉發機制決定了信息多級流動的可能性與擴散的速度,而推薦機制決定了信息超越人際關系網絡鏈條的約束進行傳播的能力,重點信息推薦、熱門信息聚合、最新信息推薦以及標簽等方式,都可以帶來信息傳播速度和幅度的提升[41]。面對此種情況,單純使用內容分析技術或者社會網絡分析技術,都無法充分發揮微博客數據的效用,必須將兩者充分結合使用,才能收到更好的效果。
3.效果評價方面
對各種互聯網數據分析技術的效果進行評估,是在輿情研判中發揮互聯網數據效用的重要步驟。
比如情感語料庫就是情感分析的重要前提和基礎。目前,情感語料庫研究多以英語情感語料庫為主,且多致力于觀點持有者和被評價對象的抽取。國外的情感語料庫主要有Hu&Liu的產品評論語料庫、Wiebe的新聞評論語料庫、TREC2006-2009博客數據庫、NTCIR2006新聞報道評測系統和Whissell語料庫等[42]。而國內漢語情感語料庫建設方面主要有:清華大學標注的有關旅游景點描述的情感語料庫、大連理工大學建立的記敘文體情感語料庫、哈爾濱工業大學構造的含有20000個情感句的無人工標注大規模語料庫等。
就目前狀況看,一方面,漢語情感語料庫標注方面的資源較少;另一方面,在輿情分析領域,還未形成專門的情感語料庫。這對情感分析技術在輿情分析領域的應用構成了障礙。事實上,對于特定領域的情感傾向性研究成果,尤以運用監督分類方法所得出的實驗結果較為理想。但若將此類方法直接運用于不同領域的文本,其效果卻不能令人滿意。在這種情況下,利用已標注情感傾向性的源領域文本去判斷未知情感傾向性的目標領域文本的傾向性,即跨領域的情感傾向性分析,或許可以成為一種可行的解決方案[43]。
再比如輿情主題分類方面,前文已述及,談國新等將輿情信息主題分為生存危機、分配差距、腐敗現象、公共安全、時事政治和公共治理等,但并未涉及客觀分類標準,且主題之間也存在相互重疊的現象。
總體而言,對互聯網數據分析技術在輿情研判領域的效果進行評測,缺少得到廣泛認同的數據集合。雖然這些技術最終的效用還需要在輿情研判實際工作中加以檢驗,但依據統一的評價標準,可以有助于學術界不斷提升相應算法的性能和效果。
(四)指標體系方面
科學的網絡輿情指標體系有助于形成網絡輿情監測、評估和預警的量化系統,最大可能地發揮互聯網數據的效用,可以推進對網絡輿情的管控和治理工作。但是,在目前網絡輿情指標體系的構建中,還存在著諸多影響互聯網數據效用發揮的因素。
首先,網絡輿情權重確定方法和模型無法完全排除主觀因素的干擾。在網絡輿情指標量化研究中,只能將主觀因素最小化,尚且沒有方法可以將其完全排除,這就對輿情研判中互聯網數據的效用發揮造成了影響。
其次,尚未形成完整系統的網絡輿情指標體系。網絡輿情研判工作過程涉及從網絡輿情信息匯集到網絡輿情信息分析等環節,涵蓋了從網絡輿情監測到網絡輿情安全評估,并進行預警的完整科學流程。但是,目前還未有指標體系可以全面涵蓋此流程,多數研究集中在網絡輿情預警及監測指標體系和網絡輿情安全評估指標體系方面,而對于網絡輿情匯集和分析機制的具體量化指標的相關研究較少,致使網絡輿情指標體系未能形成一個完整的系統研究。缺乏系統化、全生命周期的網絡輿情指標體系,同樣影響了互聯網數據在輿情研判中的效用[44]。
四、提升互聯網數據在輿情研判中效用的策略
網絡輿情監測分析技術隨著網絡應用的更新換代而不斷推陳出新。以網絡輿情數據源為例,最早的數據僅有網絡新聞、網絡論壇等傳統應用,之后又出現了博客、維基、聚合新聞等新形態的信息交互模式,信息獲取技術也從早期的靜態頁面信息獲取過渡到動態數據獲取[45]。與此同時,信息分析技術也在不斷改進,數據挖掘、模擬仿真和文本挖掘等技術的不斷革新,使網絡輿情研究呈現細粒度和語義化發展趨勢[46]。
然而,從現有的實踐來看,一方面,基于內容挖掘的輿情監測分析方法受限于當前語義分析技術的精確度和速率,語義支持的缺失仍然是普遍存在的問題。現有技術難以有效地處理復雜的人類語言和不斷變化的網絡語言,而且對大規模數據分析的支持也較弱[47],這些因素都影響了互聯網數據在輿情研判任務中的效用發揮。而通過分析輿情參與者的網絡結構和關聯來探尋網絡輿情的發展規律,如果僅依賴于公開的互聯網數據,又會受制于數據完整性等方面的影響,這些因素都會影響互聯網數據效用的提升。另一方面,輿情研判的困境根本上還是由于復雜社會系統建模的困難性導致的。為了有效地解決復雜社會系統的建模問題,學術界引入了人工社會的概念[48],并在理論和應用上都取得了一定研究成果。但目前還存在著許多難點,使其限于特定領域的小規模模擬,無法滿足對復雜社會系統的全方位模擬需求。
此外,在當前輿情監控系統中,輿情應對的策略最終是由人制定的,缺少智能化的決策機制。雖然可以從數據采集和清洗模塊、數據分析模塊和決策支持三大模塊來構建輿情分析和決策支持系統,且也有研究者提出在輿情監測模型中整合決策支持模塊作為決策輔助工具[49-50],但這些工作并不能自主生成決策策略,無法在更深層次上將人的主導作用與技術的輔助功能進行互動耦合,也就無法通過不斷優化來提升互聯網數據在輿情研判中的效用發揮。
基于以上原因,可以認為無論是單純地提升互聯網數據的效用還是提升輿情研判能力,都需要在現有方法之外,尋求各領域研究成果的有效結合。而大數據和計算實驗領域的研究成果能夠提升輿情研判中互聯網數據的效用發揮,并能夠提升輿情研判能力。
(一)基于大數據分析技術
隨著互聯網技術和應用的發展,互聯網數據在體量、復雜性和產生速度等方面發生了巨大變化?;ヂ摼W的開放性使得網絡輿情的數據規模急速增長,多媒體的發展使網絡輿情的數據形態包括了文本、圖片、音頻和視頻等,呈現出多樣性特征。此外,各種觀點互動頻繁,輿論多元且多樣,網絡輿情變化快速。各種因素共同作用,使得網絡輿情數據越來越呈現出大數據特征[51]。
Science雜志在2011年推出關于數據處理的??癉ealing with Data”[52],其中特別指出,大數據中蘊含著海量信息、知識和智慧,借助有效組織和使用大數據的工具和技術,將會極大提升人類的決策能力[53]。毋庸置疑,輿情研判工作也需要在大數據分析的思路下有所創新。需要注意的是,這里的大數據,并不僅僅局限于傳統輿情研判工作所直接關注的互聯網數據,而是包含了人類社會中各領域、各來源和各模式的數據。
大數據分析技術對于互聯網數據效用的提升,關鍵在于對互聯網數據之間的關系進行識別。為了對網絡輿情進行研判,需要匯集海量的互聯網數據,這些數據涉及到人類社會生活的各個方面,是對人類現實社會的一個投影。在輿情研判工作中,需要處理的是由人類社會這個開放復雜的巨系統所產生的超大規模數據。但是,面對極大量的數據,傳統的因果分析往往難以奏效。因為整個系統中各個組成部分之間相互有影響,甚至可能互為因果,因果關系隱藏在整個系統之中。而與傳統的邏輯推理研究有所不同,大數據研究主要側重于對數量巨大的數據做統計性的搜索、比較、聚類和分類等分析歸納,更多的是關注數據之間的相關性或稱關聯性,大數據研究的目的即為尋找數據集合里隱藏的相關關系。比如將用戶職業數據、地域數據、年齡數據、專注領域等和社會網絡數據加以結合,把搜索數據、點擊數據、人際關系數據、網民個人特征數據、相關社會數據等進行關聯,不僅可以分析出不同的輿情熱點在哪些職業、哪些地域、哪些年領段、哪些團體中傳播廣泛,深度挖掘出有價值的輿情,還有助于對復雜社會系統進行更細致的描述和建模。
互聯網數據中記錄的網民言論信息直接呈現出網民的態度和意見;搜索引擎服務器端的日志數據,可以反映網民的搜索熱點;網絡社區中的人際關系數據能夠描述用戶構成的社會化網絡;用戶之間互相轉發和評論帖文所形成的轉發量和評論量數據,可以反映帖文的重要程度等。這些數據雖然不是直接的網絡輿情內容,卻也從側面客觀反映了網民的關注熱點、輿情主體之間的關系等,對這些數據加以整合,可以提升數據效用的發揮。
目前,基于大數據輿情研究還處于探索階段,諸多相關處理技術還未形成統一模式。有研究者通過對已有輿情預警系統模型的歸納并結合大數據處理相關技術和決策支持系統相關理論,提出將大數據輿情分析與決策支持流程劃分為數據搜集與存儲、數據分析和決策支持三個模塊,其中數據搜集與存儲和數據分析模塊在原有的輿情分析系統基礎上增加了大數據存儲和分析技術,在決策支持模塊增加了專家知識庫[54]。利用該模型,不僅可以從數據挖掘和分析的視角來使用大數據,以助力輿情研判工作,還可以在輿情處理中整合專家知識庫,將大數據分析與輿情研判人員的經驗相結合,實現輿情研判人員的主導作用與技術輔助功能的互動耦合,即實現人與機器的良性互動機制,從而提升互聯網數據的效用。當然,在實踐中還需要不斷對人與機器的互動機制進行優化和創新,以更好地發揮互聯網數據在輿情研判中的效用。
從現有的實踐來看,由于受限于當前語義分析技術的精確度和速率,語義支持的缺失仍然是普遍存在的問題,同時對大規模數據分析的支持也較弱。因此,要不斷創新網絡輿情大數據分析思路,借助大數據技術使輿情研究的視角更加多元化[55]。一是繞開語義分析的技術瓶頸,以大數據分析的視角,增強互聯網數據中結構信息和其他元數據的使用;二是突破抽樣分析的思維,用大數據方法分析收集到的全體數據;三是將搜索數據、點擊數據、人際關系數據、網民個人特征數據、相關社會數據等關聯起來進行分析,深度挖掘出有價值的輿情。只有這樣,才能從單向度的內容研究轉向“內容+關系”的多維度研究,改變僅注意網民話語表達的單向度研究視角,在話語這類外在社會表達的淺表層面以外,進一步分析網民群體的社會行為、社會心理和社會訴求。
(二)基于計算實驗技術
計算實驗是計算機仿真進一步發展的必然結果,但卻是由代理計算人工社會方法的出現和復雜系統研究的需要而引發和催生的。計算實驗方法不僅僅是把計算機簡單地作為一種仿真工具,而是把它作為“生長培育”自然實際系統的替代版本的“實驗室”,并進行各類有關系統行為和決策分析的“試驗”[56]。從宏觀角度看,基于多源多維的大數據,利用計算實驗方法來構建輿情事件發生、發展、轉化和演變的“情景”,仍然是解決輿情研判任務中各種困難的重要途徑。對以仿真為核心的、以實時監測數據為驅動源的計算實驗展開研究,并通過信息網絡獲取實時監測數據,利用建模仿真工具和其它分析工具進行預測和分析,以輔助輿情研判工作,無疑是一條提升互聯網數據效用的科學路徑。在此過程中還可以利用海量的歷史數據,對計算實驗中的具體參與實體和仿真機制本身進行模擬和驗證。
在大數據的支撐下,可以構建開放式、可擴展的模擬仿真環境,提供基礎的自然、社會與人文環境的標準化建模支持,以實現輿情事件全過程的動態建模;可以自動獲取社交媒體等互聯網數據與其它多源異構數據,實現人工社會與真實事件系統的交互與協同演化[57];能夠提供基于模擬仿真平臺的綜合集成研討支持,實現通過對多種涌現過程與結果的研判。這些都將為輿情研判提供更有力的輔助,也更有利于互聯網數據效用的發揮。
此外,網絡輿情研究主要由社會科學領域的學者和計算機以及信息管理系統領域的學者所主導,這些研究人員分別根據自己的理論基礎和研究背景開展研究??傮w上看,長期跟蹤研究和實證研究較少。如果能夠加強社會科學領域學者和計算機以及信息管理系統領域學者的交流與合作,也將有助于促進理論研究和應用研究的融合。
五、結束語
互聯網上日益增多的數據為輿情研判工作提供了更多參考。然而,受限于數據處理技術和輿情研判思路等方面的因素,互聯網數據在輿情研判工作中尚未充分發揮其效用,且目前專注于解決此問題的研究工作仍很缺乏。本文從輿情研判角度出發,研究互聯網數據的效用發揮問題,對輿情研判中互聯網數據的使用情況進行了介紹與分析,從互聯網數據采集、數據噪聲處理、數據分析和指標體系等方面對影響互聯網數據效用發揮的制約因素進行了論述。提出了使用大數據分析技術和計算試驗技術提升互聯網數據在輿情研判中效用的策略,強調在實際操作中應注重輿情研判人員的主導作用與技術輔助功能的互動耦合,即實現人與機器的良性互動機制,并通過不斷對其進行優化和創新來促進互聯網數據效用的提升,為輿情研判工作中充分發揮互聯網數據的效用提供了可借鑒的理論和方法。
利用互聯網數據開展輿情研判工作已成為現階段國家治理、政府治理和社會治理的重要工作,也是網絡空間治理的基礎性工作,且是其中的重要環節。在我國主張并致力于構建公正合理的全球互聯網治理體系之際,對互聯網數據在輿情研判中的效用進行研究,對于建立一個安全、和諧的網絡秩序具有重要的理論和實踐意義。本文的研究有益于推進我國網絡空間治理新體系的構建,有益于推進網絡強國戰略的實施,可以為構建公正合理的全球互聯網治理體系做出積極的貢獻。
參考文獻:
[1]王來華, 林竹, 畢宏音. 對輿情、民意和輿論三概念異同的初步辨析[J]. 新視野, 2004(5):64-66.
[2]魏麗萍. 網絡輿情形成機制的進化博弈論啟示[J]. 新聞與傳播研究, 2010(6): 29-38.
[3]易承志. 群體性突發事件網絡輿情的演變機制分析[J]. 情報雜志, 2011, 30(12): 6-12.
[4]曾潤喜. 網絡輿情管控工作機制研究[J]. 圖書情報工作, 2009, 53(18): 79-82.
[5]曾潤喜, 徐曉林. 網絡輿情突發事件預警系統、指標與機制[J]. 情報雜志, 2009, 28(11): 52-54.
[6]肖文濤, 范達超. 網絡輿情事件的引導策略探究[J]. 中國行政管理, 2011(12): 24-28.
[7]劉毅. 內容分析法在網絡輿情信息分析中的應用[J]. 天津大學學報:社會科學版, 2006, 8(4): 307-310.
[8]謝海光, 陳中潤. 互聯網內容及輿情深度分析模式[J]. 中國青年政治學院學報, 2006, 25(3): 95-100.
[9]楊超, 馮時, 王大玲等. 基于情感詞典擴展技術的網絡輿情傾向性分析[J]. 小型微型計算機系統, 2010, 31(4): 691-695.
[10]王君澤, 曾潤喜, 杜洪濤. 基于網頁轉載關系判別的網絡輿情傳播態勢分析[J]. 情報雜志, 2015, 34(1): 144-149.
[11]王君澤, 王雅蕾, 禹航等. 微博客意見領袖識別模型研究[J]. 新聞與傳播研究, 2011(6): 81-88.
[12]李綱, 甘停, 寇廣增. 基于文本情感分類的網絡推手識別[J]. 圖書情報工作, 2010, 54(8): 77-80.
[13]康偉.基于SNA的突發事件網絡輿情關鍵節點識別——以“7·23動車事故”為例[J].公共管理學報,2012,9(3): 101-111.
[14]黃曉斌, 趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學, 2009(1):94-99.
[15]李光敏, 張行文, 張磊等. 面向網絡輿情的評論文本情感分析研究[J]. 情報雜志, 2014, 33(5): 157-160.
[16]劉志明, 劉魯. 微博網絡輿情中的意見領袖識別及分析[J]. 系統工程, 2011(6): 8-16.
[17]沈陽, 劉朝陽, 蘆何秋等. 微公益傳播的動員模式研究[J]. 新聞與傳播研究, 2013(3): 96-111.
[18]王偉, 許鑫. 基于聚類的網絡輿情熱點發現及分析[J]. 現代圖書情報技術, 2009(3): 74-79.
[19]許笑, 張偉哲, 張宏莉等. 廣域網分布式Web爬蟲[J]. 軟件學報, 2010, 21(5): 1067-1082.
[20]周立柱, 林玲. 聚焦爬蟲技術研究綜述[J]. 計算機應用, 2005, 25(9): 1965-1969.
[21]談國新, 方一. 突發公共事件網絡輿情監測指標體系研究[J]. 華中師范大學學報(人文社會科學版), 2010, 49(3): 66-70.
[22]石彭輝. 基于社會網絡分析的網絡輿情實證研究[J]. 現代情報, 2013, 33(2): 27-31.
[23]曾潤喜. 我國網絡輿情研究與發展現狀分析[J]. 圖書館學研究, 2009(8):2-6.
[24]張玉峰, 何超. 基于Web挖掘的網絡輿情智能分析研究[J]. 情報理論與實踐, 2011, 34(4): 64-68.
[25]康偉. 突發事件輿情傳播的社會網絡結構測度與分析——基于“11·16 校車事故”的實證研究[J]. 中國軟科學, 2012(7): 169-178.
[26]李卓卓, 丁子涵. 基于社會網絡分析的網絡輿論領袖發掘——以大學生就業輿情為例[J]. 情報雜志, 2011, 30(11): 67-70.
[27]張素蘭, 郭平, 張繼福等. 圖像語義自動標注及其粒度分析方法[J]. 自動化學報, 2012, 38(5): 688-697.
[28]白亮, 劉海濤, 老松楊等. 基于本體的視頻語義內容分析[J]. 計算機科學, 2009, 36(7): 170-174.
[29]董亞倩, 鄧尚民. 基于社會網絡分析的網絡輿情主體挖掘研究[J]. 情報資料工作, 2011(6): 45-49.
[30]蘇楠, 張璇, 楊紅崗,等. 基于知識圖譜的國內網絡輿情研究可視化分析[J]. 情報雜志, 2012(10):42-47.
[31]陳斯杰. 基于用戶視角的科技信息服務網站影響力評估研究[D]. 南京理工大學, 2009.
[32]郭巖, 劉春陽, 余智華, 等. 網絡輿情信息源影響力的評估研究[J]. 中文信息學報, 2011, 25(3): 64-71.
[33]Wang J, Yan Z, Yang L T, et al. An approach to rank reviews by fusing and mining opinions based on review pertinence[J]. Information Fusion, 2015, 23(3): 3-15.
[34]丁波濤. 國外開源情報工作的發展與我國的對策研究[J]. 情報資料工作, 2011(6): 103-106.
[35]曾鴻. 競爭情報與信息甄別[J]. 圖書館理論與實踐, 2006(4): 40-42.
[36]張紫瓊, 葉強, 李一軍. 互聯網商品評論情感分析研究綜述[J]. 管理科學學報, 2010, 13(6): 84-96.
[37]崔曉玲. 基于漢語網絡新聞評論的情感語料庫標注研究[J]. 北京郵電大學學報(社會科學版), 2013(6): 21-29.
[38]Kim M,Hovy E. Crystal: Analyzing predictive opinions on the web[C]. // Proc. of the Joint Conf.on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007:1056-1064.
[39]Lin H,Wilson T,Wiebe J. Which side are you on? Identifying perspectives at the document and sentence levels[C]. // Proc. of the Conf. on Natural Language Learning, 2006: 109-116.
[40]張玉峰, 王志芳. 基于內容相似性的論壇用戶社會網絡挖掘[J]. 情報雜志, 2010, 29(8): 125-130.
[41]高承實, 榮星, 陳越. 微博輿情監測指標體系研究[J]. 情報雜志, 2011, 30(9):66-70.
[42]Athanaselis T, Bakamidis S, Dologlou I. Recognizing verbal content of emotionally colored speech[C]. // European Signal Processing Conference,2006.
[43]呂韶華, 楊亮, 林鴻飛. 基于SimRank的跨領域情感傾向性分析算法研究[J]. 中文信息學報, 2012, 26(6): 38-44.
[44]曾潤喜, 杜換霞, 王君澤. 網絡輿情指標體系、方法與模型比較研究[J]. 情報雜志, 2014(4): 96-101.
[45]許鑫, 章成志, 李雯靜. 國內網絡輿情研究的回顧與展望[J]. 情報理論與實踐, 2009, 32(3):115-120.
[46]李綱, 陳璟浩. 突發公共事件網絡輿情研究綜述[J]. 圖書情報知識, 2014(2):111-119.
[47]李廣建, 楊林. 大數據視角下的情報研究與情報研究技術[J]. 圖書與情報, 2012(6): 1-8.
[48]Epstein J M, Axtell R. Growing artificial societies: social science from the bottom up[J]. MIT Press Books, 1996, 1(99): 113-116(4).
[49]Cao F, Zhan Z, Jing Y, et al. A model of ecological monitoring and response system for Internet public opinion[J]. International Journal of Multimedia & Ubiquitous Engineering, 2014, 9(5):373-390.
[50]Jie, Ding, Jungang, Xu. Ipoms: An Internet public opinion monitoring system[J]. Applications of Digital Information & Web Technologies, 2009(1): 433-437.
[51]唐濤. 基于大數據的網絡輿情分析方法研究[J]. 現代情報, 2014, 34(3):3-6,11.
[52]Los W, Wood J. Dealing with data: upgrading infrastructure[J]. Science, 2011, 331(6024): 1515-1516.
[53]李國杰, 程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J]. 中國科學院院刊, 2012, 27(6): 647-657.
[54]夏火松, 甄化春. 大數據環境下輿情分析與決策支持研究文獻綜述[J]. 情報雜志, 2015(2):1-6.
[55]李彪. 大數據視域下社會輿情研究的新境界[J]. 編輯之友, 2013(6):13-15.
[56]王飛躍. 計算實驗方法與復雜系統行為分析和決策評估[J]. 系統仿真學報, 2004, 16(5): 893-897.
[57]王飛躍, 邱曉剛, 曾大軍等. 基于平行系統的非常規突發事件計算實驗平臺研究[J]. 復雜系統與復雜性科學, 2010, 7(4): 1-10.
(本文責編:王延芳)
Effectiveness of Internet Data in the Public Opinion Analysis Task
DU Hong-tao1, MENG Qing-guo1, WANG Jun-ze2
(1.SchoolofPublicPolicyandManagement,TsinghuaUniversity,Beijing100084,China;2.SchoolofPublicAdministration,HuazhongUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:The data on Internet is very useful for the public opinion analysis task. However, due to the massive amounts and the multi-source heterogeneous characteristics, and the noise data on the Internet, current Internet data processing techniques didn’t perform well. This situation has severely hampered the data on the Internet to play its effect. Big data analysis and computational experiments technologies can enhance the effectiveness of Internet data in the public opinion analysis task. In practice, we should pay more attention to the interaction between the leading role of human and assistive technologies.
Key words:online public opinion; public opinion analysis; Internet data; Web data mining; effectiveness analysis
中圖分類號:G353.12
文獻標識碼:A
文章編號:1002-9753(2016)04-0034-11
作者簡介:杜洪濤(1979-),男,山東高密人,清華大學公共管理學院助理研究員,博士,研究方向:互聯網治理、網絡輿情與公共政策。
基金項目:國家社會科學基金重大項目“意識形態視域下的網絡文化安全治理研究”(批準號:15ZDA039);國家社會科學基金特別委托項目“大數據治國戰略研究”(批準號:15@ZH012);中國博士后科學基金資助項目“面向輿情預警的微博社區潛在熱點信息識別研究”(資助編號:2015M570123)。
收稿日期:2015-11-08修回日期:2016-03-16