摘要:微博作為一種近年出現的新型網絡媒體形式,已經成為網絡輿論的強磁場。通過微博自身的特點,分析其對網絡輿情的價值,然后設計基于微博的網絡輿情分析系統,包括文本預處理、微博文本的向量表示與提取、話題發現以及微博的傳播態勢和傾向性分析等過程,微博特征提取采用了TF-IDF模型,話題發現采用MBT形式化表述,最后展望該系統的前景。
關鍵詞:微博;向量空間模型;TF-IDF;話題發現;輿情分析
中圖分類號:TP391 文獻標識碼:A
1引言
微博,即微博客,源自于英文單詞Microblog。作為web2.0的產物,微博屬于博客的一種形式,但單篇的文本內容通常限制在一定范圍內(國內通常為140個漢字),使用戶能夠通過微博融合的多種渠道(包括網頁、手機、即時通訊、博客、SNS社區、論壇等) 發布文字、圖片、視頻、音頻等形式的信息,具有內容碎片化、使用方式便捷、傳播迅速、交互性強等特點。
2010 年以來,互聯網繼續成為輿論超強磁場,其中微博已成為輿論發酵并放大的主要平臺之一。微博是近年來網絡上出現的新興媒體形式,它綜合應用網絡、無線通信等技術,方便地滿足了用戶隨時隨地進行溝通的需求。我國微博總體上處于起步階段,但發展速度迅猛。據統計[1],2012年1月,據中國互聯網絡信息中心(CNNIC)報告顯示,截至2011年12月底,我國微博用戶數達到2.5億,較上一年底增長了296.0%,網民使用率為48.7%。微博用一年時間發展成為近一半中國網民使用的重要互聯網應用。有人說,2010年是中國的微博元年,那么2011年就是中國的微博壯年。2012年5月16日[2],新浪公布未經審計的第一季度財報顯示,新浪微博用戶數已增至3.24億。一種傳播媒體普及到5000萬人, 收音機用了38年,電視用了13年,互聯網用了4年,而微博只用了15個月。作為一種新興的傳播載體,微博不僅在中國社交網絡中占據領先地位, 更成為中國最具影響力的主流媒體之一。
網絡輿情是指通過互聯網或者其他網絡手段傳播出的廣大公眾對于現實生活中存在的某些焦點、熱點問題所持的有較強影響力和傾向性的言論及觀點。開通微博、建立專區留言板,新聞跟帖,BBS論壇,都已經成為了群眾與組織展開交流的重要手段,這些網絡手段的確起到了一定的交流作用。
網絡自身具有虛擬性、隱蔽性、隨意性和滲透性等特點,廣大用戶都很樂意通過這些渠道參與到各種話題的討論中去,盡管起到了一定的積極作用,然而一旦引導不利,產生一系列的負面的網絡輿情就會嚴重的威脅到社會大環境的安全,甚至會對公共環境的發展起到消極作用。這就要求要加強對于網絡輿情的及時監測和有效的引導,并且及時的關注網絡輿情的負面危機。這對于維護社會安全發展,穩定民情民心有著重要的作用,對于促進國家的發展與進步更是有著重要的現實意義。
從當前網絡輿情的傳播速度來看,爆炸性消息3小時之內就能夠迅速被各大論壇轉載,6小時內就有可能已經出現在各大新聞網站的網頁上,那么可想而知,24小時之后,關于新聞事件的追蹤和跟帖就會使其成為熱點事件,并且很有可能在網絡上掀起輿論討論的熱潮。所以對于有關部門來說,能夠在第一時間掌握哪些是熱點輿情,哪些有可能在短時間內發展成熱點輿論,哪些又會對社會安全造成影響是十分必要的。
輿情分析系統就是在這樣的背景下產生的,網絡輿情分析平臺是針對在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,民眾對社會管理者產生和持有的社會政治態度于網絡上表達出來意愿集合而進行的計算機分析的系統統稱。通過這個系統,能夠讓我們有效的對網絡輿情進行預警和應對。這個系統的產生在一定程度上解決了一些網絡輿情帶來的負面影響。
2微博對于網絡輿情研究的價值
網絡輿情研究一直被國內外研究組織重視,主要目的是對于海量網絡信息,分析出隱含在其中的輿情動態,挖掘網絡的熱點、焦點和敏感話題,其核心技術主要包括文本分類與聚類,主題檢測與跟蹤等。但近年來,特別是web2.0業務普及應用以來,網頁所帶來的交互性、動態性,待抽取內容的多態性等使得沒有一個系統的工具可以適應所有的信息提取需求。
微博具有以下幾種特點:
1)微博是一種新興的網絡媒體,與以往的博客有較大的不同。首先,從傳播效果來看,微博以傳播廣度為主,與博客有很大不同(以傳播深度為主)。其次,微博的聚合度非常高,能夠快速的吸引十幾萬人的關注。第三,雖然博客也有交互,但博主是主體,訪者對于博主的影響極其微小,而微博是信息的匯聚點,同時發布信息和接受信息。
2)微博聚集了大量的用戶群體,它是一種允許用戶及時更新的簡短文本,允許任何人閱讀或者只能由作者指定的群組閱讀。因此,利用微博可以方便地發布、獲取即時信息,構建與維護人際網絡。同時,微博具有跨平臺、跨網絡、跨業務、跨網站的技術特征,且承載多樣化的網絡應用,使得微博上聚集了大量的用戶群體。
3)微博加速和擴展了信息傳播。微博用戶可以將自己的微博與手機綁定,隨時隨地更新信息,不再受時間與空間的限制,使得信息傳播更加及時,特別是對突發事件的報道和反饋。2011年5月,一個名叫厄本的人在微博上率先發布美軍擊斃本﹒拉登的消息,厄本在政治以外的其他領域的知名度并不高,但迅速贏得1000多名粉絲,1分鐘內這條消息被轉發80次,2分鐘后,有300多人轉發了厄本的消息,引發了這條消息的大爆炸,可見微博這一新興媒體對信息的傳播能力是十分驚人的。
因此,微博拓寬了信息傳播的渠道,對經濟的發展、社會的進步、科技的普及起到了積極的作用。但另一方面,隨之產生的負面問題也越來越突出:
1)反動、淫穢、迷信、暴力等有害信息在微博上傳播,嚴重危害了國家和社會的穩定。
2)社會突發事件經微博快速傳播后,造成網絡上的小消息流傳,容易引起公眾的不理性判斷和行為混亂,從而釀成嚴重后果。
突尼斯“茉莉花革命”,正是利用微博這一新興媒體,由推手在其中推波助瀾,沒有得到政府足夠的重視,使得一個普通事件的影響力無窮的放大,最終導致突尼斯政局大變。
雖然微博業務得到了快速應用,但對微博的研究目前還不多,主要集中于從心理學、傳媒學的角度分析網絡新業務。從社會需求,其信息提取與輿情分析技術急需重視,如何從微博空間獲取重要的信息對于當前輿情分析領域是非常重要的研究課題。
3基于微博的網絡輿情分析系統設計
整個系統由微博信息爬取、文本預處理、微博特征表示與提取、話題發現和輿情分析等幾個部分組成,下面將分別介紹。
3.1文本預處理
微博文本的預處理包括網頁的爬取,分詞和停用詞的處理。
3.1.1網頁爬取
目前對微博的收集工作主要由爬蟲程序來進行,但由于數據量過于龐大,爬蟲效率已達不到實時信息收集的要求,因此需要一款軟件來指導爬蟲程序運行,去有目的的收集應該值得關注的微博人群的情報,而不是在海量數據中漫無目的的搜索。
3.1.2分詞
對文本進行分詞是預處理的重點,中文分詞與英文分詞是不同的,英語單詞與單詞之間用空格作為分隔符以便對語句進行識別,而中文的排列方式是根據不同的漢字組合實現的,字與字,詞與詞間無明顯分隔符,要讓計算機識別中文信息就必須對中文文本進行必要的分詞。目前最常用的中文分詞技術[3]為字符串匹配分詞方法和基于統計的分詞方法。在上述理論推動下,中科院計算所開發出了較好的漢語詞法分析器:ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)[4],其主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別,同時支持用戶詞典。目前該版本已經升級到了ICTCLAS2012。ICTCLAS2012分詞速度單機達到996KB/s,分詞精度98.45%,API不超過2M,各種詞典數據壓縮后不到3M。本文將使用該開源系統用于微博信息的分詞。
3.1.3停用詞過濾
停用詞是與微博內容不相干或者對理解微博不起作用的詞,如“哦、啊、了”等語氣詞還有一些頻率過高或者過低的詞。據研究,中文語句中高頻的停用詞占到文本語句的30%-50%。在實際的算法應用中,這些沒有實際意義的詞不能作為文本的特征項對分類結果產生作用,若不處理這些停用詞將對后續算法的效率產生影響。我們采用“停用詞庫”的方法來處理停用詞,停用詞庫中包含了一些經常被去除的高頻停用詞,如“的”、“我”等這些具有很高的文檔頻率和非常低的反文檔頻率的詞語。
3.2文本向量表示與提取
3.2.1文本向量表示
例如:如果想要在多篇微博中得到AI這個特征項,那么某篇微博M中“AI”會出現很多次,因此“AI”在這篇微博里面的TF會很高。然而我們庫中里面的N篇微博并不是每一篇都在講AI,因此“AI”可能只有在 N 篇微博里面的某 3 篇文章出現,因此 DF 只有 3,IDF 變成 0.33,假設我們 N = 100 有 100 篇微博,常見詞像“the”在每一篇都出現,DF 就是 100,IDF 就是 0.01。所以“AI”的 IDF 會比“the”的 IDF 高,假設這篇微博M中“AI”和“the”兩個字出現的次數剛好一樣,乘上 IDF后,“AI”這個字的分數就比“the”這個字的分數來的高,就會判斷“AI”是這篇文章重要的特征詞,而“the”這個字并不是這篇文章的特征詞。
3.3熱點話題分析
在固定時間周期內通過微博發布的信息流中,一組內容相同或相近,參與者數量超過一定閾值的微博所涉及的話題內容,稱為微博熱點話題MBHT(Microblog Hot Topic)。
微博話題形式化描述為[5]:MBT=(MS,N,T,MF)。其中MS(Microblog Set)表示非空的微博信息集合;N表示參與者個數;T表示微博消息發生的時間跨度;MF(Microblog Feature)表示抽取的微博特征詞表。
根據熱點話題的定義,每次熱點話題提取和分析的對象,是時間跨度T內微博的集合,表示為CM,MS∈CM。因此微博的話題發現就是基于微搏內容的歸類處理,每一類微博就能說明用戶群所關注的一個焦點,即熱點話題。
在微博內容的劃分上,由于微博數量巨大且內容復雜,并且在研究中沒有先驗學習語料,所以不能直接通過有監督的文本分類方法來獲得歸類后的微博子集合。因此類別特征能被視為話題的對應體,通過計算每個微博話題的特征詞表就能夠發現這段時間內微博中的熱點話題。
在無監督學習條件下直接獲取每一個話題對應的特征詞表是不現實的,可以通過詞頻統計[6]的方式發現整個微博流中的特征集合,根據內容關聯度對這個特征集合進行劃分就能得到每個微博話題對應的特征詞表,每個特征詞表對應一個話題,通過這樣的方法完成微博的話題發現。
3.4基于話題發現的輿情分析
微博的每個話題對應相應的特征詞表,根據特征詞表中構建話題數據庫,繼而對其進行傳播態勢分析,社會關系分析以及傾向性分析。
1)基于熱點話題的微博信息傳播態勢分析
首先,微博中存在著海量信息,但往往很難快速提取有用的輿情信息。對微博信息進行數據結構化分析,并對數據進行處理,過濾掉重復的內容,統一對象模型,最后進行信息提取。其次,構造微博熱點話題的傳播態勢模型,即根據提取的熱點話題關鍵信息,研究微博信息的傳播在網絡空間到地理空間的映射,在時間標度下,該熱門話題空間區域內的分布,以何種速度傳播,影響哪些地域范圍,形成時間、空間二維傳播態勢模型。
2)基于熱點話題的社會關系分析
從微博的粉絲、關注、信息反饋、信息傳播等關鍵信息可以看出,微博網絡可以映射到社會網絡拓撲結構,通過對微博人際關系結構特征的研究,統計出社會網絡中個體的鏈接度、個體之間的連接關系等特征。通過分析這些個體節點間的交互關系,挖掘出微博空間中的關鍵人和關鍵事件。
3)基于熱點話題的傾向性分析
在包含主觀情感傾向的微博中,用戶對于話題的態度可以是贊揚、抨擊或者支持、反對或者高興、沮喪,對于這些情感狀態,我們將之統一分為正面,中立和負面三個大類,其基本劃分標準如下[8]:
1)正面:描述內容持肯定態度,帶有稱贊、歌頌或哀悼、惋惜等語氣。
2)中立:相關事件的客觀報道或者描述。
3)負面:描述內同持否定、質疑、諷刺或者抨擊、痛斥、鄙視等色彩。
微博話題傾向性分析在于總結和分析微博文本語句中,用戶對熱點話題所持有的態度,態度主要體現在微博消息中的主觀句中,而主觀句又是由態度詞構成,態度詞可以理解為極性詞,即感情色彩的詞。情感詞基本都是類似“喜歡”,“討厭”等形容詞或者副詞,再加上否定詞“不”、“非\"等就能基本反映一段話所包含的用戶觀點。分析過程可以先人工建立一個褒貶詞庫作為判斷基準,從而與態度詞進行相似度對比,詞與詞的相似度反映其語義相似度,繼而通過語義的相似度計算得到微博信息的傾向。
4結論
基于微博的網絡輿情分析系統能快速找出值得關注的微博用戶群,并將關心的某個熱門話題在地理空間上的傳播情況直觀的展現出來,在茫茫海量微博信息下,能夠為相關用戶快速發現話題,鎖定目標,進行輿情分析,提供有價值的軍用或商用情報。因此,研究微博用戶的人際關系和傳播態勢對分析網民用戶感情、生活、態度等價值很大。在微博上利用話題發現與追蹤技術對內容按主題的分類以及實現對特定話題的追蹤以掌握民情將引起廣泛的關注。
參考文獻
[1]百度百科.微博[EB/OL] http://baike.baidu.com/view/1567099.htm
[2]維基百科.新浪微博 [EB/OL].http://zh.wikipedia.org/zh-cn//新浪微博
[3]孫茂松,王洪君,李行健,等.信息處理用現代漢語分詞詞表[J].語言文字應用,2001,(4):23-28.
[4]ICTCLAS[EB/OL].http://www.ictclas.org.
[5]黃美璇.基于主題發現的輿情分析系統的設計與實現[J]. 北京聯合大學學報,2012(2):34-36.
[6]唐果,陳宏剛.基于BBS熱點主題發現的文本聚類方法[J].計算機工程,2010(7):79-81.
[7]蒲筱哥.Web自動文本分類技術研究綜述[J].情報學報,2009(2):233-241.
[8]楊震,段立娟,賴英旭.基于字符串相似性聚類的網絡短文本輿情熱點發現技術[J].北京工業大學學報,2010(5):669-673.
[9]王淑群.影響網絡信息檢索的因素與對策[J] .圖書館論壇,,2006(2):197-199.
[10]程顯毅,朱倩.文本挖掘原理[M].北京:科學出版社,2010.