


摘? 要:為了從大量微博信息中提取重要事件并預測發展趨勢,基于微博的地理特征和時間特征,提出了一種對微博進行聚類和索引的多層次方法。該方法使用X均值聚類,根據用戶輸入的關鍵詞建立索引,并根據索引自動評估聚類的數量。同時,基于情感特征對微博進行聚類,創建包含負面情感微博和正面情感微博的兩個聚類。實驗結果表明,所提索引機制不僅便于搜索,而且有利于檢索任務。與其他微博聚類方法相比,所提方法在DBI指標和S系數兩個指標上均有更好的表現,且時間復雜度較傳統方法更低,與輸入數據量的對數成正比。
關鍵詞:微博檢索;時間特征;地理特征;情感特征
中圖分類號:TP391? ? ?文獻標識碼:A
Research on Multi-level Microblog Retrieval Method based on Multiple Features
FAN Yimin
(College of Computer Information and Engineering, Nanchang Institute of Technology, Nanchang 330044, China)
rowan521@163.com
Abstract: In order to extract important events from a large amount of microblog information and predict the development trend, this paper proposes a multi-level method for clustering and indexing microblogs based on geographic and temporal characteristics of microblogs. X-mean clustering is used in this method, an index is built based on the keywords entered by the user, and the number of clusters is automatically evaluated based on the index. At the same time, the microblogs are clustered based on emotional characteristics, and two clusters containing negative emotional microblogs and positive emotional microblogs are created. Experimental results show that the proposed indexing mechanism is not only convenient for searching, but also conducive to retrieval tasks. Compared with other microblog clustering methods, the proposed method has better performance on both the DBI (Discriminated Bond Index) indicator and the S coefficient. The time complexity is lower than that of the traditional method, which is proportional to the logarithm of the input data volume.
Keywords: microblog retrieval; temporal characteristics; geographic characteristics; emotional characteristics
1? ?引言(Introduction)
過去幾年中,網絡媒體得到了飛速發展,越來越多的出版公司將重心從紙媒體轉移到網絡媒體。在線媒體通過社交網絡平臺完成點對點分享和廣播。在博客和微博中,用戶可以與特定人群共享信息,或向大量用戶傳播信息。由于微博的主體或元數據中包含了大量信息,因此,以微博時間、地理位置或空間特征為基礎,可以提取重要事件及其發展趨勢[1]。
微博的聚類檢索是一個熱門研究課題,已經有很多研究者對其進行了研究。王李冬等[2-3]提出了基于HowNet知識庫系統的微博語義檢索方法。楊震等[4]提出了一種微博檢索結果的二次重排算法,基于微博內容相似關系構建關系圖模型,利用PageRank算法對微博檢索結果進行二次排序。SAMUEL等[5]提出了一個Lex-Rank算法的變體,以提取微博中存在的不同類型的時間信息,并將之用于摘要創建。韓中元等[6]提出了一種面向微博檢索的基于詞匯時間分布的查詢擴展方法。DEMIRIZ等[7]提出了基于數據的空間和時間特征進行數據分析的方法,并使用模糊規則將該方法應用到欺詐檢測任務中,表現出較好的性能。
本文的目標是開發一個含有微博時間、地理坐標和情感特征的框架,并使用這些特征進行聚類,建立起時間摘要處理的索引。本文提出了一個框架,以克服傳統聚類(如K均值算法[8])算法的缺陷,并提出了一個多層級聚類方法,其中,空間特征進行1級聚類,時間特征完成2級聚類。同時,還可以基于情感對微博進行聚類。
2? ?提出的方法(Proposed method)
本文提出的方法主要以微博的時間、地理位置和情感特征為基礎,對微博進行索引并創建聚類。以往的方法依靠用戶指定的聚類數量,而本文的方法則基于建立的索引,自動評估聚類的數量。所提方法對K均值聚類做出了改進,有助于以微博的時間、地理位置和情感特征為基礎,從微博中確定聚類的數量[9]。
首先,定義一個數據集,包含總計 個文檔,該數據集共維,有不同的模型,利用完成對模型的評分。使用柯西-施瓦茲準則對后驗進行逼近,如下所示:
(1)
式中,為第個模型的似然對數,取最大似然點;為中的參數數量,選擇得分最高的模型。點概率的計算公式如下:
(2)
自由參數的數量為,X均值在全局用柯西-施瓦茲準則選擇最佳模型,并在局部引導形心的分割。的范圍表示為。開始時,X均值從開始,并在需要時持續添加形心,直到達到上限為止。在該過程中,將得分最高的形心集合記錄為最佳路線,并將之作為輸出結果。對微博的定義如下:
(3)
式中,為微博ID,為用戶名,為微博正文文本,為微博發表時間,為發布微博的地理位置,為微博語言,為用戶ID,為微博中包含的主題標簽,為回復微博,為轉發微博,為微博的轉發數量。
每條微博中包含的特征數量不同,最高可能超過30 個特征。本文僅利用了少數幾個特征,利用基于查詢的方法完成對微博的索引,其中用戶向系統提供搜索話題,利用該關鍵詞建立一個索引。在建立索引的過程中,本文將首先對帶噪數據的微博進行預處理,移除不包含原始內容的微博。
本文提出的基于時間和空間特征對微博進行聚類和索引的框架如圖1所示。首先,移除時間和空間之外的其他特征,用包含微博用戶所用的普通文本的最新詞語和縮寫形式的微博字典,對微博進行標準化,并從微博中移除停用詞;然后,對微博進行詞語切分,在微博上執行“詞干”搜尋,將“詞干”切分存儲在數據庫中,建立兩個數據框架;最后,將查詢與微博庫進行匹配,如果數據框架中存在該詞語,則該微博將被放入一個新的數據集中。利用X均值聚類算法[1-9]得出位置的數量和與該數量相對應形成的聚類數量,找出聚類的最優數量。完成初始聚類的形成后,在每個以地理位置特征形成的聚類上,完成基于微博時間特征的聚類,得到在地理位置特征中與微博的時間相關的2級聚類。
3? ?實驗與分析(Experiments and Analysis)
本文實驗使用Intel Core i7處理器、RAM為16 GB的個人電腦作為實驗平臺,利用Fire-hose API得到所有的微博數據,包括地理位置信息的微博數量為134,540 條。數據收集于2019 年2 月至2019 年5 月。
基于Vincenty公式[9],使用大圓距離計算出兩個地理坐標之間的距離,以保證微博位置在用戶設定的距離閾值內。如果該微博在閾值之外,則該微博形成一個單獨的聚類。距離定義如下:
(4)
式中,、為點1的緯度和經度;、為點2的緯度和經度;為點之間的圓心角。
利用兩個位置坐標,通過上述公式得出兩個位置之間的距離。接著,進行如下實驗:首先,計算兩微博之間的距離,利用給定的閾值形成聚類;然后,利用微博的發帖時間對聚類內的微博再次進行聚類,即通過X均值完成該聚類;最后,利用微博的創建時間得出聚類。
3.1? ?評價分析
為了進行聚類評價,本文實驗首先得出基于地理位置的第一個聚類,然后使用微博的創建時間對這些聚類再次進行聚類。基于地理坐標的聚類形成如圖2所示,其中,“×”表示聚類的中心。圖3給出了聚類1中的聚類,基于微博事件再次形成聚類的結果。可以看出,相比于1級聚類,2級聚類具有更好的類間和類內的特征,特征樣本更加清晰明了。
本文使用DBI指標和S系數兩種方法進行評價,這兩種指標數值越高,表示結果越好。不同方法的聚類評價結果如表1所示。實驗中,每種方法在不同數量的微博上運行3 次。由表1可知,在所有場景中,本文提出的系統均表現出超過其他聚類系統的性能。文獻[5]提取微博中存在的不同類型的時間信息,并將之用于摘要創建,所用的元素比較少,獲得的聚類結果較差。文獻[8]使用較為傳統的K均值聚類,在總體微博聚類過程中,使用的特征元素和層次較少。文獻[7]將數據的空間和時間特征進行數據分析,取得了聚類結果最為接近本文的方法,優于文獻[5]和文獻[8]。總體來說,本文方法兩種評價結果最優,其使用的特征元素和層次較為充分,因此,獲得的聚類效果更好。
3.2? ?復雜度分析
本文提出框架的復雜度為,其中,表示微博數量,表示要形成的數據量。這表明所提方法的執行時間與輸入數據的對數成正比,本文方法并不需要使用所有數據。傳統微博K均值方法的復雜度為,其中,表示待聚類的項數,表示要形成的聚類數,表示維度。這表明其運行時間取決于因子數量,例如,待聚類的項數、要形成的聚類數和維度等。這證明與傳統的微博聚類算法相比,所提方法的復雜度更低。
4? ?結論(Conclusion)
本文提出了一種基于微博的時間特征、地理位置和情感對微博進行聚類的方法,該方法能夠對屬于某個特定位置、某個特定的時間段或包含某種特定情感的微博進行聚類。在聚類之前,本文首先建立兩個索引,分別用于非詞干關鍵詞和詞干關鍵詞,以達到有利于搜索過程和匯總過程的目的,使得微博的搜索工作量降低,搜索時間加快。
參考文獻(References)
[1] 曹霧,張景鵬,胡含凱,等.基于文森特公式計算遙測天線理論跟蹤彈道[J].探測與控制學報,2015,37(6):103-106.
[2] 王李冬,張慧熙.基于HowNet的微博文本語義檢索研究[J].情報科學,2016,34(9):134-137.
[3] 王李冬,呂明琪.融合語義和時間因子的微博檢索[J].情報雜志,2016,35(4):190-194.
[4] 楊震,張廣源,范科峰.基于圖模型決策的微博檢索二次排序算法[J].北京工業大學學報,2017,43(1):94-99.
[5] SAMUEL A, SHARMA D K. Modified lexrank for tweet summarization[J]. International Journal of Rough Sets and Data Analysis (IJRSDA), 2016, 3(4):79-90.
[6] 韓中元,楊沐昀,孔蕾蕾,等.基于詞匯時間分布的微博查詢擴展[J].計算機學報,2016,39(10):2031-2044.
[7] DEMIRIZ A, LU B? E. Fuzzy rule-based analysis of spatio-temporal ATM usage data for fraud detection and prevention1[J]. Journal of Intelligent & Fuzzy Systems, 2016, 31(02):805-813.
[8] 張云偉,宋安軍.基于K-Means改進算法在微博話題發現中的應用研究[J].計算機系統應用,2016,25(10):308-311.
[9] 曹鵬,李博,栗偉,等.結合X-means聚類的自適應隨機子空間組合分類算法[J].計算機應用,2013,33(2):550-553.
作者簡介:
范怡敏(1981-),女,碩士,講師.研究領域:軟件工程,大數據.