□文/劉海鷗(1.燕山大學經濟管理學院;2.燕山大學互聯網+與產業發展研究中心 河北·秦皇島)
?
微博集群行為輿情感知大數據挖掘機制研究
□文/劉海鷗1,2
(1.燕山大學經濟管理學院;2.燕山大學互聯網+與產業發展研究中心河北·秦皇島)
[提要]海量微博集群行為大數據環境下,如何感知微博用戶的情緒變化,如何掌握微博集群行為輿情預警方法,成為維護社會穩定和政府執政安全的重要議題。本文提出基于輿情語義感知的微博集群行為大數據挖掘方法,通過計算微博輿情語義傾向相似程度,基于大數據并行挖掘技術進行輿情分析。
關鍵詞:微博集群行為;大數據挖掘;輿情語義感知
收錄日期:2016年3月21日
當前,異軍突起的新媒體——微博逐步成為最具影響力的信息分享社交平臺,由此帶來的微博評論與微博轉發等行為也衍生出海量的數據信息。國內外學者據此對微博輿情進行研究,如Saki.Knafo強調美國總統競選中奧巴馬對twitter的使用,Mili論證了微博影響危機信息傳播的程度,任立肖等提出的輿情預警系統Web數據挖掘技術,朱曉峰等探討微博輿情監測K-Means聚類算法。上述模型與方法對發現微博熱點話題、跟蹤事件動態、預警危機事件都具有重大意義。但當前研究多利用文本挖掘來實現網絡輿情的預警,而在海量網絡數據處理中采用并行計算與分布式處理技術,同時輔以基于大數據態勢決策分析對網絡突發事件進行跟蹤與監督的研究很少。面對微博大數據與日俱增的語義文本,采用傳統的機器學習方法難以對上述文本內容的語義關系與輿情傾向進行深度挖掘,該問題也成為當前輿情挖掘研究的熱點問題。在輿情的傾向性挖掘方面,基于輿情語義上下文的挖掘方法得到了較為廣泛的應用。本文在輿情挖掘過程中引入了微博輿情語義感知方法,充分考慮微博文本輿情語義上下文分析的模式特點,同時借助Hadoop并行算法提升了微博集群行為大數據環境下的并行挖掘性能,取得了較好的實驗測試效果。
本文首先對基于輿情語義感知的微博集群行為大數據挖掘方法進行細致描述。在微博輿情挖掘系統中,假設存在微博用戶組M、輿情信息S、微博輿情語義信息Context以及微博用戶間的信任關系TU,采用協同挖掘方法計算目標用戶ui對輿情信息Sj的傾向,然后按計算結果的高低進行排列,挖掘出傾向得分高的輿情信息,基于輿情語義感知的微博集群行為大數據挖掘主要包括如下幾個步驟:
(一)輿情語義表示。假設微博用戶的情境信息存在用戶發布微博的位置L、發布時間T等n種不同類型的情境信息,本文記為Contexty=(C1,C2,…Cn),向量Ck(k=1,2,…n)則表示微博用戶的某種具體情境,則存在:ItemRatingContext=(Item,Context1,Context2,…Contextn)。設某微博用戶的兩種不同情境向量為Contextx、Contexty,則可將用戶上述兩種情境的相似程度表示為Sim(Contextx,Contexty),即表示該用戶在發表某微博時Contextx和Contexty的情境相似程度,記為:

(二)輿情語義感知。獲取微博用戶情境信息,建立用戶-輿情傾向矩陣RSM×N,該矩陣RSM×N表示微博用戶User對輿情Item的傾向,通過向量公式表示為:


根據Pearson法計算微博用戶與其他用戶的輿情語義相似程度,具體方法為:

式中,sim(ui,uj)表示微博用戶ui與微博用戶uj的輿情語義相似度。
(三)微博輿情挖掘。按照輿情語義協同挖掘的步驟,采用Pearson相似性度量公式sim(ui,uj)挖掘出輿情語義相似度最大的M條微博輿情信息,然后對用戶發布的微博信息與具有相似輿情語義的其他微博信息進行加權,得出最終的輿情語義傾向評分:

根據計算的微博輿情傾向評分的高低對微博輿情信息進行排名,當微博用戶的輿情語義與已進行微博輿情傾向評分用戶的輿情語義相似度Simi(ItemContext,ItemRatingContext)最為接近時,則說明該輿情傾向為本次挖掘的最佳結果。
(四)Mapreduce化的大數據并行挖掘機制。為提高對微博集群行為大數據的挖掘性能,本文通過在Hadoop云環境來對微博集群行為大數據進行MapReduce化的并行挖掘,具體步驟主要包括:Step1:將輸入MapReduce的微博集群行為大數據文件分解為N個任務;Step2:通過主控程序Master將N個微博集群行為大數據處理任務分配到MapReduce空閑的Worker節點;Step3:對每一個Map的微博集群行為大數據處理任務進行數據預處理,通過Map函數接收處理后的關鍵關鍵字Key;Step4:通過Map函數存儲計算得出的中間結果,使用主機程序Master定時將信息傳遞到Reduce子任務節點;Step5:得到Master處理任務后,執行Reduce子任務的節點通過遠程程序讀取Map上的緩沖數據,通過Reduce函數輸出關鍵字Key和相對應的計算結果集合;Step6:為用戶輸出R個計算完成的Map和Reduce輿情大數據處理結果,并進行信息整合。
為對本文基于輿情語義感知的微博集群行為大數據挖掘方法進行驗證,本文將實驗的MapReduce環境搭建在具有9臺服務器的Hadoop平臺上,其中安裝系統軟件的服務器為NameNode(Lenovo服務器,4G內存,IT硬盤,2.8G主頻,命名為Hadoop),其余8臺服務器為DataNode,命名為hadoop1,hadoop2,…hadoop8,采用redhat5.5-x64安裝VMware虛擬機的Linux系統,使用Hadoop-0.21.0版本。實驗的輿情數據集為中國移動應用商城抓取到的上百種最常被下載和評論的移動服務數據集,同時選取了200多位微博用戶進行測試,基于上述用戶發表微博的服務評論信息構建一個移動社會化網絡,通過對其1個多月時間的評論信息收集,共獲得了4,000多條關于中國移動應用商城移動應用服務的評語,如能夠體現微博用戶對移動應用服務正向輿情傾向值的輿情語義詞包括:“服務周到、服務溫馨、舒適方便、貼心親切、擺設整潔、服務熱情、設備齊全、網速不錯、性價比高”等,而“差評、環境惡劣、臟亂差、網速捉雞、失望、手續繁瑣、不爽、大呼上當”等則為反向的輿情語義傾向詞。實驗對傳統的協同挖掘方法、傳統的上下文挖掘方法以及本文挖掘方法的處理性能進行了比較。通過比較可以看出,本文實驗條件下,傳統的協同挖掘方法很難在較大程度上減小挖掘誤差,而傳統的上下文挖掘方法與本文提出的基于輿情語義感知的挖掘方法得出的MAE值與傳統協同挖掘方法相比有所下降,這表明在微博輿情挖掘過程中引入上下文與輿情語義可以取得更為理想的挖掘效果;而從輿情挖掘的覆蓋率指標Coverage來看,本文方法對輿情信息的覆蓋范圍顯著高于傳統的協同挖掘與傳統的上下文挖掘方法,導致這一結果的原因是因為基于輿情語義感知的輿情挖掘方法通過加權計算用戶發表微博信息的情境相似性來進一步強化目標用戶輿情傾向與輿情挖掘結果的相似性。由此可見,云環境下基于輿情語義感知的微博集群行為大數據挖掘方法顯著提升了并行挖掘速度以及對輿情信息的覆蓋率,降低了挖掘誤差,在較大程度上提升了對微博大數據輿情傾向挖掘的深度,因此是一種非常有效的應對微博輿情的大數據挖掘方法。
主要參考文獻:
[1]Saki Knafo.NDAA Trends On Twi t t er Duri ng The Debat e[N]. The Huffi ngt on Post,2012. 10. 23. 9.
[2]Mil l A,Che,R Lee.Web 2. 0 Emergency Appl i cat i ons:HowUseful Can Twit t er Be for Emergency Response[J]. Journal of Informat i on Pri vacy Securi t y,2009. 3.
[3]任立肖,張亮.食品安全突發事件網絡輿情的分析模型[J].圖書館學研究,2014. 1.
基金項目:河北省社會科學基金項目(編號:HB15GL016、HB15GL009);河北省教育廳自然科學基金(編號:QN2015248);燕山大學自主研究項目(編號:14SKB002)
中圖分類號:TP393
文獻標識碼:A