徐 潔
(徐州工業職業技術學院,江蘇 徐州 221000)
新媒體背景下,以微博、新聞客戶端、微信等為代表的移動社交網絡平臺興起,地域不再是限制突發事件影響力的因素,事件一旦爆發,其影響的深度、廣度會急劇擴大,對國家安全和社會安定造成威脅[1]。新浪微博作為當下主流的社交網絡平臺,擁有海量的活躍用戶。人們可以自由地在平臺上發表言論,通過博文的發表、轉發、點贊與評論,各種消息傳播都極為迅速。很多突發事件相關信息都是先在微博上爆發,隨后主流媒體才報道。微博成為人們迅速感知社會熱點事件和參與社會熱點事件討論的重要平臺[2]。從微博博文中獲取數據價值,挖掘有效信息,進行事件檢測,分析輿論態度,可以更好地指導相關部門進行輿情管控。因此面向微博的事件檢測成為突發事件檢測的研究熱點。
本文主要面向新浪微博數據進行事件檢測,對新浪微博網絡數據進行采集與預處理,檢測詞的突發性以獲取突發特征詞集,對突發詞進行聚類生成突發詞簇,對突發詞簇熱度進行排序,從而檢測出微博網絡Top-N 突發事件,對把握公眾動態、促進社會和諧有著積極的意義。
本文基于新浪微博數據進行突發事件檢測,搭建出系統框架圖如圖1所示。

圖1 面向新浪微博的Top-N突發事件檢測系統框架
本文所用的實驗數據為采集的新浪微博數據。對于新浪微博數據的獲取,通常有兩種方式:第一種是通過新浪微博提供的應用程序編程接口(Application Programming Interface,API) 獲取新浪博文數據;第二種是采用Python 編寫代碼實現網絡爬蟲。一方面,考慮到微博數據傳播速度快、數據噪聲多等特點;另一方面,考慮到爬蟲所帶來的道德風險和法律責任,本文最終采用第一種新浪微博提供的API 獲取數據。
在正式開始進行數據采集之前,需要登錄微博開放平臺創建應用,按要求填寫相關信息,基本信息中“App Key”和“App Secret”是獲取微博API使用權限的關鍵,這相當于一個通行證,只有獲得許可后才可以申請到開發者身份,然后才可以根據API 文檔構造API參數。高級信息中 “Oauth2.0授權設置”模塊設置兩個回調地址,在Oauth2.0 認證通過后會返回Acess Token。之后便可以用“App Key”和“App Secret”獲得訪問密令并使用API提供的不同服務的接口[3]。
微博作為一個分享實時、簡短信息的社交網絡平臺,用戶在發表博文的時候具有很強的隨意性,由此采集下來的源數據包含較多的無用信息,需要對其進行過濾,以提高后期的計算效率與準確度。
根據微博文本的特點,需對博文進行如下預處理:
1) 去除博文中的無用標記:對文本中的網址鏈接、“@”符號、“#”符號、“//”符號、表情符號等無用標記進行過濾刪除。
2) 去除字數過少的博文:長度小于5個字的博文不具有分析價值,直接進行刪除。
3) 中文文本分詞:利用jieba 分詞對博文進行分詞,去除停用詞,保留名詞和動詞[4]。
根據突發詞的特性,本文提出融合詞頻熱度、詞頻增長率以及詞頻權重的詞突發性計算模型[5]。
1.4.1 詞頻熱度
在某一時間段內,若某個詞匯的出現頻率明顯上升,則可以認為在這段時間爆發了與該詞匯相關的突發事件。
1.4.2 詞頻增長率
假設當前突發事件檢測的時間段為t,與此前相鄰的h個時間段的歷史數據進行分析對比,根據數據獲取與分析的成本綜合考慮h的設置。但歷史數據不宜過多,一方面歷史數據的采集與分析會消耗大量時間,另一方面過量的歷史數據會影響突發事件的實時檢測。詞增長率的計算公式如下:
其中,Fw,t表示在t時間段內詞匯w的增長率,Nw,t表示t時間段內詞匯w出現的頻率,Nw,h表示與t時間段相鄰的h時間段內詞匯w出現的頻率,Nw,n表示在n時間段內詞匯w出現的平均頻率。
1.4.3 詞頻權重
為保證突發事件發生時一些事件關鍵突發詞具有較高的權值,對傳統的TF-IDF方法進行了改進,計算公式如下:
其中,μ為詞頻權重初始值,Nmax,t是t時間段內最大詞頻數。
綜合上述三個指標,最終計算詞語w在t時間段內的突發值為:
其中,Mw,t表示詞語w在t時間段內的詞頻熱度,α、β、γ為調節系數,α+β+γ=1,α≥0,β≥0,γ≥0。
Bw,t越大,說明詞w在t時間段內的突發性越大。計算出博文集中每個詞的突發值后,按照詞突發值進行降序排序,得到突發特征詞集SW。
基于獲取的突發特征詞集SW,構建出突發詞關聯網絡SWN=(SW,R),其中R 為突發詞之間的相關程度,詞Wi、Wj的相關程度通過計算其在同一條博文中出現的次數獲得。
得到突發詞關聯網絡SWN 之后,通過開源的CLUTO 工具包對其進行聚類,從而得到突發詞簇SWC={swc1,swc2,…,swcq}。CLUTO 提供3 種聚類算法,結合實際情況,本文采用凝聚層次聚類方法[6]。
人們樂于在微博上發表與美食、明星、旅游等相關的博文,與這些主題相關的詞匯出現頻率會增高,而此類事件并不是突發事件。因此需要對經過聚類得到的突發詞簇SWC按照熱度進行排序,提取出更加準確的Top-N突發事件。
詞簇swci的熱度計算綜合了詞簇swci頻率Fswci、詞簇swci相關博文MNswci、詞簇swci相關博文影響力MBIswci以及詞簇swci相關用戶UNswci4 個指標,計算方式為:
本文所使用的數據集來自新浪微博,采集了2023年4 月1 日和31 日共計約800 萬條數據,包含原博文內容、評論內容、點贊數、轉發數及相關用戶信息等。以天為單位,驗證各種事件檢測方法的有效性。
通過訪問多個新聞媒體平臺,提取出4月1日~30日期間多平臺共同報道的熱點事件如表1所示。

表1 多平臺媒體報道的突發事件
由于突發事件的發生是未知的、不可預測的,所以參考目前主流的研究方法。使用查準率P,查全率R和F1值作為評價指標。計算公式如下所示:
其中,x1表示使用本文方法檢測出的突發事件與相應時間段內媒體報道的突發事件切合的事件數,x2表示檢測到媒體未報道的突發事件數,x3表示未檢測到媒體報道的突發事件數。
每天檢測出的Top-N 突發事件與媒體報道的突發事件相比較,人工判斷是否為突發事件。突發事件不可能每天發生,Top-N 檢測出的事件數量較少,所以人工評測并不耗時耗力。
使用本文提出的方法進行微博網絡突發事件檢測,與利用傳統的TF-IDF 方法進行詞頻權重計算的模型進行對比,實驗結果如圖2所示。

圖2 實驗結果對比
從圖中可以看出,利用本文提供方法,各評價指標都有所提升。同時還檢測出某些媒體未報道的“女子潑水節被眾男子圍著潑水撕雨衣”等社會民生類事件,在突發事件的檢測方面有著良好的效果。
本文搭建了面向新浪微博網絡的Top-N 突發事件檢測的系統框架,包括博文數據的采集、博文的預處理、突發詞的檢測、突發詞的聚類、突發事件熱度排序等模塊,對實際應用具有一定的參考價值,對突發事件的檢測起到了較好的效果。在后續的研究中,還有下列問題需要進一步探討:1) 面對大量的博文數據,如何實現更加準確的事件的實時發現與檢測,需要引入大數據處理技術進一步地研究;2) 針對特定類別的突發事件,建立特定類別的事件檢測模型,以更加準確地發現特定類別的突發事件。