999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向新浪微博的Top-N突發事件檢測方法

2023-12-07 12:11:28
電腦知識與技術 2023年30期
關鍵詞:檢測

徐 潔

(徐州工業職業技術學院,江蘇 徐州 221000)

0 引言

新媒體背景下,以微博、新聞客戶端、微信等為代表的移動社交網絡平臺興起,地域不再是限制突發事件影響力的因素,事件一旦爆發,其影響的深度、廣度會急劇擴大,對國家安全和社會安定造成威脅[1]。新浪微博作為當下主流的社交網絡平臺,擁有海量的活躍用戶。人們可以自由地在平臺上發表言論,通過博文的發表、轉發、點贊與評論,各種消息傳播都極為迅速。很多突發事件相關信息都是先在微博上爆發,隨后主流媒體才報道。微博成為人們迅速感知社會熱點事件和參與社會熱點事件討論的重要平臺[2]。從微博博文中獲取數據價值,挖掘有效信息,進行事件檢測,分析輿論態度,可以更好地指導相關部門進行輿情管控。因此面向微博的事件檢測成為突發事件檢測的研究熱點。

本文主要面向新浪微博數據進行事件檢測,對新浪微博網絡數據進行采集與預處理,檢測詞的突發性以獲取突發特征詞集,對突發詞進行聚類生成突發詞簇,對突發詞簇熱度進行排序,從而檢測出微博網絡Top-N 突發事件,對把握公眾動態、促進社會和諧有著積極的意義。

1 微博Top-N突發事件檢測實現

1.1 系統框架

本文基于新浪微博數據進行突發事件檢測,搭建出系統框架圖如圖1所示。

圖1 面向新浪微博的Top-N突發事件檢測系統框架

1.2 數據采集

本文所用的實驗數據為采集的新浪微博數據。對于新浪微博數據的獲取,通常有兩種方式:第一種是通過新浪微博提供的應用程序編程接口(Application Programming Interface,API) 獲取新浪博文數據;第二種是采用Python 編寫代碼實現網絡爬蟲。一方面,考慮到微博數據傳播速度快、數據噪聲多等特點;另一方面,考慮到爬蟲所帶來的道德風險和法律責任,本文最終采用第一種新浪微博提供的API 獲取數據。

在正式開始進行數據采集之前,需要登錄微博開放平臺創建應用,按要求填寫相關信息,基本信息中“App Key”和“App Secret”是獲取微博API使用權限的關鍵,這相當于一個通行證,只有獲得許可后才可以申請到開發者身份,然后才可以根據API 文檔構造API參數。高級信息中 “Oauth2.0授權設置”模塊設置兩個回調地址,在Oauth2.0 認證通過后會返回Acess Token。之后便可以用“App Key”和“App Secret”獲得訪問密令并使用API提供的不同服務的接口[3]。

1.3 數據預處理

微博作為一個分享實時、簡短信息的社交網絡平臺,用戶在發表博文的時候具有很強的隨意性,由此采集下來的源數據包含較多的無用信息,需要對其進行過濾,以提高后期的計算效率與準確度。

根據微博文本的特點,需對博文進行如下預處理:

1) 去除博文中的無用標記:對文本中的網址鏈接、“@”符號、“#”符號、“//”符號、表情符號等無用標記進行過濾刪除。

2) 去除字數過少的博文:長度小于5個字的博文不具有分析價值,直接進行刪除。

3) 中文文本分詞:利用jieba 分詞對博文進行分詞,去除停用詞,保留名詞和動詞[4]。

1.4 突發詞檢測

根據突發詞的特性,本文提出融合詞頻熱度、詞頻增長率以及詞頻權重的詞突發性計算模型[5]。

1.4.1 詞頻熱度

在某一時間段內,若某個詞匯的出現頻率明顯上升,則可以認為在這段時間爆發了與該詞匯相關的突發事件。

1.4.2 詞頻增長率

假設當前突發事件檢測的時間段為t,與此前相鄰的h個時間段的歷史數據進行分析對比,根據數據獲取與分析的成本綜合考慮h的設置。但歷史數據不宜過多,一方面歷史數據的采集與分析會消耗大量時間,另一方面過量的歷史數據會影響突發事件的實時檢測。詞增長率的計算公式如下:

其中,Fw,t表示在t時間段內詞匯w的增長率,Nw,t表示t時間段內詞匯w出現的頻率,Nw,h表示與t時間段相鄰的h時間段內詞匯w出現的頻率,Nw,n表示在n時間段內詞匯w出現的平均頻率。

1.4.3 詞頻權重

為保證突發事件發生時一些事件關鍵突發詞具有較高的權值,對傳統的TF-IDF方法進行了改進,計算公式如下:

其中,μ為詞頻權重初始值,Nmax,t是t時間段內最大詞頻數。

綜合上述三個指標,最終計算詞語w在t時間段內的突發值為:

其中,Mw,t表示詞語w在t時間段內的詞頻熱度,α、β、γ為調節系數,α+β+γ=1,α≥0,β≥0,γ≥0。

Bw,t越大,說明詞w在t時間段內的突發性越大。計算出博文集中每個詞的突發值后,按照詞突發值進行降序排序,得到突發特征詞集SW。

1.5 突發詞聚類

基于獲取的突發特征詞集SW,構建出突發詞關聯網絡SWN=(SW,R),其中R 為突發詞之間的相關程度,詞Wi、Wj的相關程度通過計算其在同一條博文中出現的次數獲得。

得到突發詞關聯網絡SWN 之后,通過開源的CLUTO 工具包對其進行聚類,從而得到突發詞簇SWC={swc1,swc2,…,swcq}。CLUTO 提供3 種聚類算法,結合實際情況,本文采用凝聚層次聚類方法[6]。

1.6 突發事件排序

人們樂于在微博上發表與美食、明星、旅游等相關的博文,與這些主題相關的詞匯出現頻率會增高,而此類事件并不是突發事件。因此需要對經過聚類得到的突發詞簇SWC按照熱度進行排序,提取出更加準確的Top-N突發事件。

詞簇swci的熱度計算綜合了詞簇swci頻率Fswci、詞簇swci相關博文MNswci、詞簇swci相關博文影響力MBIswci以及詞簇swci相關用戶UNswci4 個指標,計算方式為:

2 實驗與分析

2.1 實驗數據與評價指標

本文所使用的數據集來自新浪微博,采集了2023年4 月1 日和31 日共計約800 萬條數據,包含原博文內容、評論內容、點贊數、轉發數及相關用戶信息等。以天為單位,驗證各種事件檢測方法的有效性。

通過訪問多個新聞媒體平臺,提取出4月1日~30日期間多平臺共同報道的熱點事件如表1所示。

表1 多平臺媒體報道的突發事件

由于突發事件的發生是未知的、不可預測的,所以參考目前主流的研究方法。使用查準率P,查全率R和F1值作為評價指標。計算公式如下所示:

其中,x1表示使用本文方法檢測出的突發事件與相應時間段內媒體報道的突發事件切合的事件數,x2表示檢測到媒體未報道的突發事件數,x3表示未檢測到媒體報道的突發事件數。

每天檢測出的Top-N 突發事件與媒體報道的突發事件相比較,人工判斷是否為突發事件。突發事件不可能每天發生,Top-N 檢測出的事件數量較少,所以人工評測并不耗時耗力。

2.2 實驗結果與分析

使用本文提出的方法進行微博網絡突發事件檢測,與利用傳統的TF-IDF 方法進行詞頻權重計算的模型進行對比,實驗結果如圖2所示。

圖2 實驗結果對比

從圖中可以看出,利用本文提供方法,各評價指標都有所提升。同時還檢測出某些媒體未報道的“女子潑水節被眾男子圍著潑水撕雨衣”等社會民生類事件,在突發事件的檢測方面有著良好的效果。

3 結束語

本文搭建了面向新浪微博網絡的Top-N 突發事件檢測的系統框架,包括博文數據的采集、博文的預處理、突發詞的檢測、突發詞的聚類、突發事件熱度排序等模塊,對實際應用具有一定的參考價值,對突發事件的檢測起到了較好的效果。在后續的研究中,還有下列問題需要進一步探討:1) 面對大量的博文數據,如何實現更加準確的事件的實時發現與檢測,需要引入大數據處理技術進一步地研究;2) 針對特定類別的突發事件,建立特定類別的事件檢測模型,以更加準確地發現特定類別的突發事件。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 亚洲天堂久久久| 真实国产乱子伦视频 | 六月婷婷激情综合| 成人精品免费视频| 国产九九精品视频| 欧美日韩在线国产| 蜜桃视频一区| 99久久国产综合精品女同| 亚洲av日韩综合一区尤物| 亚洲精选高清无码| 欧美全免费aaaaaa特黄在线| 黄色在线网| 怡春院欧美一区二区三区免费| 黄色免费在线网址| 欧美一区二区三区欧美日韩亚洲| 久久黄色一级片| 国产极品美女在线播放| 精品国产免费观看一区| 成人在线视频一区| 欧美另类第一页| 久久亚洲日本不卡一区二区| 国产99精品视频| 91精品专区| 国产色婷婷| 免费看的一级毛片| 国产日韩精品一区在线不卡| 国产经典在线观看一区| 日本精品视频| 欧美一区中文字幕| 搞黄网站免费观看| 中文字幕久久亚洲一区| 夜夜拍夜夜爽| 欧美成人看片一区二区三区 | 中文字幕在线观| 久久夜色精品国产嚕嚕亚洲av| 国产青榴视频| 性激烈欧美三级在线播放| 亚洲午夜福利精品无码不卡| 亚洲欧美另类日本| 免费人成网站在线观看欧美| 园内精品自拍视频在线播放| 丰满少妇αⅴ无码区| 91av成人日本不卡三区| 黄色网站在线观看无码| 国产福利不卡视频| 亚洲国产成人精品青青草原| 国产精品毛片一区| 2022国产无码在线| 欧美日韩另类国产| 亚洲精品你懂的| 国产精品吹潮在线观看中文| 国产99欧美精品久久精品久久| 成人va亚洲va欧美天堂| 国产一区二区三区在线观看免费| 久久青青草原亚洲av无码| 99re这里只有国产中文精品国产精品 | 欧美一区二区啪啪| 色哟哟国产精品一区二区| 日韩高清无码免费| 亚洲人网站| 亚洲一区精品视频在线| 欧美高清视频一区二区三区| 国产精品无码一二三视频| 热这里只有精品国产热门精品| 国产成人久久综合一区| 免费高清a毛片| 澳门av无码| 久爱午夜精品免费视频| 国产成年无码AⅤ片在线| 免费人成又黄又爽的视频网站| 亚洲国产亚洲综合在线尤物| 操国产美女| 亚欧成人无码AV在线播放| 国产成人禁片在线观看| 伊人成人在线| 国产精品久久久久久久久久久久| 中文字幕亚洲综久久2021| 91精品国产综合久久香蕉922 | 国产在线视频福利资源站| 欧美激情第一欧美在线| 日本久久久久久免费网络| 国产精品亚洲一区二区在线观看|