999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向短文本的網絡輿情話題

2019-06-20 10:31:23龍永深彭沖陳衛彌
電子技術與軟件工程 2019年5期

龍永深 彭沖 陳衛彌

摘要??? 本文的目的即是自動從海量社交短文本中,自動發現熱點事件或熱點話題,利用Python編程對短文本中的詞語進行處理,進一步提取出候選詞組,最后再進行話題的話題精篩,從而可以挖掘出相關人群重點關注的內容。

【關鍵詞】網絡輿情 話題分析 貝葉斯平均 注意力機制

隨著社交網絡的發展和積累,內容的產生、傳播、消費等已經根深蒂固地融入在人們的生活里。隨之內容分析的工作也就走進了人們的視野。信息的流動不再是單方向的,報紙的信息流動是從報紙到讀者,而在互聯網應用中,可以方便地通過“評論”、“回復”等技術手段,使信息流動變成雙向的,甚至評論和回復成為信息中的有機組成部分,進一步地豐富原有信息的內容。因此,從互聯網上主動地收集信息,用數據挖掘方法或者自然語言處理的方法來分析信息中用戶的觀點,成為當前輿情分析的一種非常重要和直接的手段,也就是“網絡輿情分析”。

1 熱詞處理

本文從以下的一些方面進行熱詞提取工作。首先是文本的預處理,這里主要包括文本去重、廣告識別等方法,對數據進行一些去躁的工作。

其次進行熱度分數計算:利用貝葉斯平均對梯度分數進行修正。貝葉斯平均的典型應用包括用戶投票排名,產品評分排序,廣告點擊率的平滑等等。以用戶投票排名為例,用戶投票評分的人很少,則算平均分很可能會出現不夠客觀的情況。這時引入外部信息,假設還有一部分人(C人)投了票,并且都給了平均分(m分)。把這些人的評分加入到已有用戶的評分中,再進行求平均,可以對平均分進行修正,以在某種程度或角度上增加最終分數的客觀性。容易得到,當投票人數少的時候,分數會趨向于平均分;投票人數越多,貝葉斯平均的結果就越接近真實投票的算術平均,加入的參數對最終排名的影響就越小。

再通過頻繁項集、word2vector等方法,發現出共現詞語的關系。利用共現詞語的信息,對熱詞進行一輪篩選,提取出最有價值的熱詞,避免信息冗余。通過對詞頻進行時間序列分析,可以更詳細地區分短期、長期與周期性熱點;對一些更有價值的熱詞做熱度預警;對熱詞的增長趨勢進行分析等。

綜上,本文在周期時間間隔內,通過貝葉斯平均修正的詞語梯度分數來分析詞語熱度,并利用語料中詞語的共現信息,進一步篩選得出熱詞。通過時間序列分析,得出熱詞的特性和增長趨勢等。

2 話題提取

話題提取的工作也分為兩步,第一步先找出一些候選的話題詞組;第二步利用Attention的思想,從候選詞組中找出一個包含的詞語更加重要的詞組,作為輸出話題。

2.1 候選詞組提取

信息熵是用來衡量一個隨機變量出現的期望值,一個變量的信息熵越大,表示其可能的出現的狀態越多,越不確定,也即信息量越大。互信息可以說明兩個隨機變量之間的關系強弱。定義如下:

公式

對上式做變換可以得到:

公式

則可知表示由X引入而使Y的不確定度減小的量。越大,說明X出現后,Y出現的不確定度減小,即Y很可能也會出現,也就是說X、Y關系越密切。反之亦然。在實際應用中,詞組的內部聚合度即為詞語間的內部聚合度。對于一個詞組,選取使不確定性減少的程度最多的一種詞語組合,來說明詞組的內部聚合度。

2.2 話題精篩

對于某一個熱詞,挑選出來一批候選詞組后,每個詞組所含的詞語不同,包含的信息量也不同。篩選的主要依據或思想,其實和Attention機制是一樣的,關鍵是要找出重要的詞語。比如與“巴黎”的搭配,“巴薩”、“逆轉”、“時裝周”比“球迷”、“球員”、“心疼”、

“法國”包含的信息更多,意義更大。可以想到,“巴薩”、“逆轉”、“時裝周”這些詞語在其他無關語料中不常出現,“球迷”、“球員”、“心疼”、“法國”在不同語料中都常會出現,信息不明確。所以,可以通過TF-IDF的思路來確定Attention。

熱詞的候選詞組s的事件或話題表示能力分數可由以下公式求得:

公式

其中,N為候選詞組中的詞語個數,為候選詞組中包含的第i個詞語,Corpus(w)表示含有詞語w的相關語料。另一方面也需要考慮詞組出現的頻次,詞組出現的次數越多,說明事件越重要。

綜上所述,本文通過候選詞組的事件或話題表示能力分數以及出現頻次,精篩出熱詞的相關話題。

3 結論

近年來,各種公眾趨勢分析類產品涌現,各大公司都利用自身資源紛紛搶占一席之地。公眾趨勢分析平臺利用自然語言處理、機器學習方法對數據進行分析,給用戶提供輿情分析、競品分析、數據營銷、品牌形象建立等幫助。其中,熱點發現問題是公眾趨勢分析中不可或缺的一部分。本文集中在文本數據方面進行分析,挖掘相關人群重點關注的內容。

參考文獻

[1]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現代圖書情報技術,2016(12).

[2]劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測[J].計算機技術與發展,2016(06).

[3]葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點話題發現[J].計算機應用與軟件,2016(02).

主站蜘蛛池模板: 99爱视频精品免视看| 特级做a爰片毛片免费69| 久久亚洲黄色视频| 四虎国产永久在线观看| 免费国产无遮挡又黄又爽| 日韩在线2020专区| 成人av手机在线观看| 香蕉蕉亚亚洲aav综合| 国产成人精品第一区二区| 福利一区在线| 国产毛片不卡| 中国一级特黄视频| 欧美伦理一区| 久久青草精品一区二区三区| 日本欧美成人免费| 国产91精品最新在线播放| av在线人妻熟妇| 亚洲欧美在线精品一区二区| a欧美在线| 色婷婷亚洲十月十月色天| 国产人成在线观看| 欧美成人综合在线| 久久综合九九亚洲一区| 国产激情第一页| 98超碰在线观看| 粗大猛烈进出高潮视频无码| 在线网站18禁| 亚洲av片在线免费观看| 一区二区欧美日韩高清免费| 亚洲第一成人在线| 亚洲国产成人久久77| 国产日韩精品欧美一区喷| 久久精品视频亚洲| 丰满人妻中出白浆| 97精品国产高清久久久久蜜芽| 美女潮喷出白浆在线观看视频| a级毛片免费播放| 亚洲成人一区在线| 日日摸夜夜爽无码| 精品国产香蕉伊思人在线| 国产成人AV男人的天堂| 在线观看国产网址你懂的| 国产精品无码久久久久AV| 久久人搡人人玩人妻精品一| 露脸一二三区国语对白| 在线精品欧美日韩| 一区二区影院| 毛片网站在线看| 欧美色综合网站| 久久99国产视频| 日韩精品毛片| 亚洲精品桃花岛av在线| 国产丝袜无码一区二区视频| 伦精品一区二区三区视频| 国产精品视频导航| 国产无人区一区二区三区| 免费jizz在线播放| 新SSS无码手机在线观看| 日本亚洲成高清一区二区三区| 91亚瑟视频| 经典三级久久| 精品一区二区三区无码视频无码| 99热这里只有精品2| 日韩天堂视频| 91精品国产一区自在线拍| 亚洲综合欧美在线一区在线播放| 男人天堂亚洲天堂| 欧美不卡二区| 免费在线视频a| 偷拍久久网| 九九九精品成人免费视频7| 国产青青草视频| 国产丝袜啪啪| 五月天香蕉视频国产亚| 97国产精品视频人人做人人爱| 亚洲无码熟妇人妻AV在线| 欧美一区二区精品久久久| 国产在线视频二区| 美女内射视频WWW网站午夜| 91视频免费观看网站| 色九九视频| 国产不卡一级毛片视频|