摘 要:針對微博客在信息更新頻率、組織結構、用戶關聯等方面與其他社會化媒體有較大差異,具有驚人的聚合力和滲透力,文章通過研究其特點提出了五維一體的微博輿情監測指標體系(MBPOI),用以衡量和評價微博客中話題/事件的輿情度。同時以A自動化世界活動為例分析,對指標體系和分析挖掘系統進行驗證,結果表明該指標體系使用五種統計方式(QI,II,RI,PI,CI),從多維度、多層次量化話題/事件的影響力有較好的效果,為A公司自動化世界活動監控和追蹤提供了有效的社會化媒體分析依據。
關鍵詞:微博客;輿情監測指標;中文信息處理;社會化媒體
1 概述
國內已有一些輿情指標體系的研究,這些研究多數建立在輿情分析和網絡安全的基礎上,國內外已有一些相關的研究工作,如基于網絡性能度量指標[1],社會學角度計量社會穩定指標體系[2]等。還有一些系統開發工作,如:中國傳媒大學網絡輿情研究所的IRI網絡輿情指數和Imonitor輿情系統,中科院計算所的網絡安全輿情指數和天璣監測系統,TRS公司的網絡輿情指標體系和網絡輿情監控解決方案以及skeye輿情監控系統。
前人的研究[3]一般針對常規社會化媒體來構建輿情指標體系,然而微博在傳播機制、聚合力、影響力等特點與傳統社會化媒體有很大的不同,常規的輿情指標體系和監測工具已不完全適用。因此,文章針對微博的特點,提出了專門的微博輿情監測指標體系,基于該體系實現了微博監控與分析系統,并通過“A自動化世界活動”實例分析,驗證該指標體系和系統的有效性。
2 微博輿情監測指標體系構建
微博用戶及傳播的信息具有自由化、隱蔽化、發散化、復雜化等特點,微博輿情指標的選取要有相對穩定性或具有自動更新機制,能夠在時間上延續和空間上擴展,從而用于衡量話題/事件的輿情態勢進行有效的引導。其定義如下:
定義1:MBPOI={Quantity Index(QI), Intensity Index(II), Relation Index(RI), Polarity Index(PI),Confidence Index(CI)}
其中QI表示量度指標,II表示強度指標, RI表示關聯指標,PI表示情感傾向指標,CI信度指標。
圖1 微博輿情監控指標體系圖
2.1 量度
量度體現了總體演化趨勢,事件持續、輿情參與度等宏觀方面的度量。
量度將加入分類模型,對話題相關信息更有效的過濾,增加量度的準確度;同時,引入聚類模型,有效的發現領域相關熱點話題,提煉關聯話題。
2.2 強度
強度體現了輿情熱點和行為活躍性分布、涉及話題/事件的重要程度、興趣熱點等方面的度量。
分析的數據來源是將整體數據集中進行過濾、歸類獲得。強度可以對話題/事件相關博主影響力進行計算,以確定話題意見領袖;同時,話題/事件一般有產生、熱議、消減的周期,強度計算將話題周期也納入計算范圍,進行及時預警。
2.3 關聯度
關聯度體現了波及的傳播關聯網絡、層次維度,涉及話題/事件的覆蓋面、影響力等方面的度量。
分析來源于整體數據中抽取的用戶粉絲和關注信息。關聯度可以在網絡圖中,增加話題相關博主重要性,關聯緊密度的分析,并以節點的大小,弧的粗細來可視化展示。同時,可將話題相關微博在博主中轉博的路徑進行勾勒,以便捷的進行溯源和追蹤。
2.4 情感度
情感度體現了情緒傾向和社會狀態,涉及關注、社會心理、和諧等方面的度量。
分析數據來源于話題相關博文和用戶發布的博文的評論內容,文章采取基于HowNet1的詞粒度語義傾向性分析方法,建立具有強烈褒貶傾向的詞典,在設定種子情感詞后,使用HowNet計算相似度。根據博文中情感詞語與詞典中詞語的語義傾向相似度來判斷博文內容和評論的支持度分布。
2.5 信任度
信任度體現了權威性和可信度,涉及話題/事件的準確、真實、有用性等方面的度量。
信任度的數據來源為話題相關的某一條博文內容發布用戶發布站點的相關屬性數據。以上屬性建立影響力模型,基于模型判斷某條博文的可信度。信任度將建立不同細分領域的影響力模型,并結合領域專家知識不斷調整模型,以達到對信息可信度的有效判斷。
3 微博客實時監控分析系統
在微博輿情指標體系的基礎上,文章實現了微博客實時監控分析分布式系統,server負責分配站點、調度URL、抽取與分析任務分配等以實現采集分析系統的負載均衡,client端實現其具體監控與分析功能,圖2為系統client的模塊設計,由微博用戶登陸模塊、采集模塊、抽取模塊、中文信息處理模塊、分析模塊組成。
文章采集時使用HttpClient2和Heritrix3開源工具,將網頁下載的同時以ARC文件形式保存到本地,本地ARC文件作為備份,用于系統評測。信息抽取模塊采用xPath定位html網頁中所需的內容,對html樹進行進行抽取,實現對各個站點以可配置的形式對微博內容定向抽取有價值信息,使用了JS異步加載模式,無法直接獲得,文章實現了Json插件用于處理動態頁面內容。
分析模塊以微博輿情指標體系為理論,在中文信息處理處理模塊的基礎上進行,中文信息處理模塊包括分詞、名詞短語識別、共指消解、語義相似度計算[9]等,使用哈工大自然語言處理工具進行內容識別與預處理,識別內容將作為指標體系分析五種方法的數據輸入,由各分析算法進行處理,具體處理方法在第2節已做詳細介紹。
圖2 微博客監控分析系統圖
4 微博輿情指標體系實例分析
根據用戶單位的具體微博活動主題監測的需求,選取A公司自動化活動為主題做實例研究。A公司在新浪設有官方微博,本次實驗在微博監測分析指標數據選取時,選取新浪微博數據作為量度、情感度、關聯度的分析源,強度的數據源則有主流的11個微博網站構成,網站列表在圖5中有所展示。
本次實驗收集2011年3月1日至2011年8月2日時間段內11個微博網站的話題相關數據,其中,在新浪微博中A公司自動化相關的微博和A公司自動化世界官方發布的微博數據量,如圖3所示。
4.1 量度分析結果
量度分析相關話題發布內容的總量,量度分析結果如圖4所示,A公司自動化世界3月入駐的新浪微博,評論數值在3月下旬比轉發和微博量高出很多,5月上旬量度達到頂峰,相關的微博和評論出現了井噴的異常現象,隨后量度值降低。通過查閱采集數據不難發現這是由于5月10-12日有A公司自動化世界活動,相關博主紛紛發布展會參會心得體驗,公司官方博主也加強與粉絲的互動;6月下旬的評論和轉發量度升高幅度較大,通過分析發現這段時間A公司自動化世界發布了一些用戶感興趣的工廠照片并發起了一個有獎投票,增加互動獲得較多的轉發和評論。
該指標為企業微博營銷管理措施提供了有效的實時跟蹤和效果反饋功能。
圖4 A公司自動化世界的量度分析
4.2 強度分析結果
強度分析話題各個微博站點中出現的強度分布,圖5為截止到2011年8月2日所有監控站點微博相關信息量。統計圖表明A公司自動化世界活動話題強度分布,有效話題統計依次為新浪微博、騰訊微博和搜狐微博,百度i貼吧雖然信息量較多,但以水貼為主,去噪后有效信息較少。同時部分站點話題強度基本為零,如同學網、做啥、嘀咕等。
該分析結果可以為A公司自動化世界活動下一步官方參與互動,設置官方微博的站點提供有效的支持。
4.3 情感度分析結果
情感度分析話題中的大眾博文中體現的總體輿情傾向,圖6可看出5月份自動化世界活動期間中立情感度值更高,用戶對A公司自動化活動多是客觀的描述,包括各界媒體的報道、活動的通知以及活動情況的互相轉述等信息。其次用戶是正面評價居多反映出此次活動的新引力,以及對A公司自動化世界的認可,如“大愛自動化世界”,“太專業了,希望有一套”等信息。同時包括極少量的負面信息,如“為什么沒有我,恨死了”等信息。
該分析結果可以直接為自動化世界提供清晰的整理出意見和建議,并及時解決負面話題進行危機公關。
圖6 情感傾向度分析
4.4 關聯度分析結果
關聯度分析構建出話題相關博主的社會化網絡關聯,分析其核心任務和核心群體。分析結果可以清晰的分析出話題相關的意見領袖和核心群體,便于公司自動化世界活動對此類用戶增加公關互動,使得營銷策略得意迅速推廣。
5 結束語
文章提出的微博輿情監測指標體系,與其他傳統輿情指標體系相比,微博輿情監測指標體系融合了多層面和多粒度指標,各項熵值指標相互融合又相對獨立,共同標識事件、活動、話題的微博輿情態勢。同時,在該體系的基礎上實現微博監控分析系統,系統智能的采集微博數據并自動分析統計指標結果。最后以A公司自動化世界為實例初步驗證該輿情指標體系的有效性和可行性。
下一步,指標體系將融合社會學、傳播學的領域專家構建模型支持,精細化輿情指標的計算方法,并融入微博監測與分析系統,更好的為個人、企業、國家提供全方位把握微博輿情的分析指標與系統支持。
參考文獻
[1]Salim Hariri,Qu Guangzhi,Tushneem Dharmagadda,et al.Impact analysis offaults and attacks in large-scale networks.IEEE Security&Privacy.2003,1(5):49-54.
[2]閻耀軍.社會穩定的計量及預警預控管理系統的構建[J].社會學研究,2004(3):54-60.
[3]Kanagasabi Rajaraman, Ah-Hwee Tan. Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks. Lecture Notes in Computer Science, 2001(LANI2035):102-107.
[4]http://rp-www.cs.usyd.edu.au/~aquigley/3dfade.
[5]S.A. Golder, D. Willkinson, B.A. Huberman. Rhythms of Social Interaction: Messaging within a Massive Online Network[J].3rd International Conference on Communities and Technologies, 2010,10(6):583~593.
[6]李耘濤,劉妍,劉毅.網絡輿情灰色預警評價研究[J].情報雜志,2011,30(4):24-27.
作者簡介:白傳棟(1975,12-),男,漢族,山東省鄆城縣,講師,碩士,研究方向:機電一體化。