龍永深 彭沖 陳衛彌


摘要??? 本文的目的即是自動從海量社交短文本中,自動發現熱點事件或熱點話題,利用Python編程對短文本中的詞語進行處理,進一步提取出候選詞組,最后再進行話題的話題精篩,從而可以挖掘出相關人群重點關注的內容。
【關鍵詞】網絡輿情 話題分析 貝葉斯平均 注意力機制
隨著社交網絡的發展和積累,內容的產生、傳播、消費等已經根深蒂固地融入在人們的生活里。隨之內容分析的工作也就走進了人們的視野。信息的流動不再是單方向的,報紙的信息流動是從報紙到讀者,而在互聯網應用中,可以方便地通過“評論”、“回復”等技術手段,使信息流動變成雙向的,甚至評論和回復成為信息中的有機組成部分,進一步地豐富原有信息的內容。因此,從互聯網上主動地收集信息,用數據挖掘方法或者自然語言處理的方法來分析信息中用戶的觀點,成為當前輿情分析的一種非常重要和直接的手段,也就是“網絡輿情分析”。
1 熱詞處理
本文從以下的一些方面進行熱詞提取工作。首先是文本的預處理,這里主要包括文本去重、廣告識別等方法,對數據進行一些去躁的工作。
其次進行熱度分數計算:利用貝葉斯平均對梯度分數進行修正。貝葉斯平均的典型應用包括用戶投票排名,產品評分排序,廣告點擊率的平滑等等。以用戶投票排名為例,用戶投票評分的人很少,則算平均分很可能會出現不夠客觀的情況。這時引入外部信息,假設還有一部分人(C人)投了票,并且都給了平均分(m分)。把這些人的評分加入到已有用戶的評分中,再進行求平均,可以對平均分進行修正,以在某種程度或角度上增加最終分數的客觀性。容易得到,當投票人數少的時候,分數會趨向于平均分;投票人數越多,貝葉斯平均的結果就越接近真實投票的算術平均,加入的參數對最終排名的影響就越小。
再通過頻繁項集、word2vector等方法,發現出共現詞語的關系。利用共現詞語的信息,對熱詞進行一輪篩選,提取出最有價值的熱詞,避免信息冗余。通過對詞頻進行時間序列分析,可以更詳細地區分短期、長期與周期性熱點;對一些更有價值的熱詞做熱度預警;對熱詞的增長趨勢進行分析等。
綜上,本文在周期時間間隔內,通過貝葉斯平均修正的詞語梯度分數來分析詞語熱度,并利用語料中詞語的共現信息,進一步篩選得出熱詞。通過時間序列分析,得出熱詞的特性和增長趨勢等。
2 話題提取
話題提取的工作也分為兩步,第一步先找出一些候選的話題詞組;第二步利用Attention的思想,從候選詞組中找出一個包含的詞語更加重要的詞組,作為輸出話題。
2.1 候選詞組提取
信息熵是用來衡量一個隨機變量出現的期望值,一個變量的信息熵越大,表示其可能的出現的狀態越多,越不確定,也即信息量越大。互信息可以說明兩個隨機變量之間的關系強弱。定義如下:
公式
對上式做變換可以得到:
公式
則可知表示由X引入而使Y的不確定度減小的量。越大,說明X出現后,Y出現的不確定度減小,即Y很可能也會出現,也就是說X、Y關系越密切。反之亦然。在實際應用中,詞組的內部聚合度即為詞語間的內部聚合度。對于一個詞組,選取使不確定性減少的程度最多的一種詞語組合,來說明詞組的內部聚合度。
2.2 話題精篩
對于某一個熱詞,挑選出來一批候選詞組后,每個詞組所含的詞語不同,包含的信息量也不同。篩選的主要依據或思想,其實和Attention機制是一樣的,關鍵是要找出重要的詞語。比如與“巴黎”的搭配,“巴薩”、“逆轉”、“時裝周”比“球迷”、“球員”、“心疼”、
“法國”包含的信息更多,意義更大。可以想到,“巴薩”、“逆轉”、“時裝周”這些詞語在其他無關語料中不常出現,“球迷”、“球員”、“心疼”、“法國”在不同語料中都常會出現,信息不明確。所以,可以通過TF-IDF的思路來確定Attention。
熱詞的候選詞組s的事件或話題表示能力分數可由以下公式求得:
公式
其中,N為候選詞組中的詞語個數,為候選詞組中包含的第i個詞語,Corpus(w)表示含有詞語w的相關語料。另一方面也需要考慮詞組出現的頻次,詞組出現的次數越多,說明事件越重要。
綜上所述,本文通過候選詞組的事件或話題表示能力分數以及出現頻次,精篩出熱詞的相關話題。
3 結論
近年來,各種公眾趨勢分析類產品涌現,各大公司都利用自身資源紛紛搶占一席之地。公眾趨勢分析平臺利用自然語言處理、機器學習方法對數據進行分析,給用戶提供輿情分析、競品分析、數據營銷、品牌形象建立等幫助。其中,熱點發現問題是公眾趨勢分析中不可或缺的一部分。本文集中在文本數據方面進行分析,挖掘相關人群重點關注的內容。
參考文獻
[1]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現代圖書情報技術,2016(12).
[2]劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測[J].計算機技術與發展,2016(06).
[3]葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點話題發現[J].計算機應用與軟件,2016(02).