999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LDA在提取涉警輿情關鍵詞中的應用

2018-12-19 12:44:28羅玉王玲
現代計算機 2018年32期
關鍵詞:文本模型

羅玉,王玲

(西華大學計算機與軟件工程學院,成都 610039)

0 引言

伴隨著社會的迅速發展和信息技術的廣泛應用,涉警輿情越來越多輿情信息的增長速度越來越快,一些負面涉警輿情,甚至是謠言,在網上傳播,如果不引起重視任由其發展,必然會對公安工作的正常建設造成不良影響,引發涉警輿情危機。所以如果能通過一些關鍵詞幫助公安人員進行輿情分析,那么無疑對社會的長治久安具有重大意義。

1 主題爬蟲

考慮到涉警輿情數據來源廣,文本數量龐大,種類多,本文使用主題爬蟲技術,主題爬蟲技術是一種依照特定的對象,主動的抓取萬維網信息的程序或者腳本[1]。相較于通用爬蟲,主題爬蟲對爬取對象更加聚焦,抓取的網頁信息與特定主題相關。主題爬蟲主要面對兩個問題主題的描述和主題的相似度計算。主題描述,指用戶對所要爬取主題的描述。主題描述的好壞,對于爬蟲的結果有著較大的影響[2]。通常主題描述有兩種方法,一種是專家確定關鍵詞集,另一種是通過初始頁面提取關鍵詞。

當前學者在此基礎上提出了一些新的方法,李東暉[3]等提出了一種無監督的主題自動擴展技術,能讓一個簡單抓取腳本從開始的主題不斷積累主題知識。主題爬蟲的另一個核心問題,主題相似度計算根據符合要求的主題判斷當前網頁和當前網頁的URL是否保留的算法。有兩處需要進行主題相似度計算,一是對當前爬取頁面的正文內容,二是對當前頁面中的URL。根據網頁結構、內容,判斷是否與期望主題相關,Guo[4]等提出基于SVN分類的主題爬蟲技術,通過訓練SVN分類器,來表現文字內容和鏈接的主題相關度。

由于依據擔負任務、職能、領域的不同,人民警察種別,分為戶籍、交通、治安、消防森林、經濟、經濟犯罪偵查等警種,在這里,我們可以把警種類別看作不同的主題,每個警種對應一個或多個主題,每個主題下有與之相關的關鍵詞。

本文將采取LDA方法來進行主題爬蟲,利用Word2Vec詞向量表示計算主題和網頁內容的相似度,主題之間的相似度[5]。

2 LDA主題模型

LDA主題模型屬于監督學習,它是一種文檔的主題生成模型,它可以從語料中抽取潛在的主題,已經被普遍的應用到信息的主題發現中。

該模型的主要思想是一個主題由一些詞生成,一篇文章則由一些主題生成,即一篇文章由某些詞語生成。LDA模型如圖1所示。

圖1

其中,wd,n是可計算變量,表示一個文檔D中的詞匯,zd,n代表每個詞在主題上的設定值,θd代表每個文檔在主題空間中的比例,βk代表主題空間中第K個主題,α和η分別代表預先設定的比例系數和主題參數。圖中矩形部分表示重復過程,|D|表示該語料庫中文檔的數量,K是當前主題空間的主題數。

因此,文檔集D={d1,d2,...,dn}中的任意一個文本d={w1,w2,...,wn}的概率生成過程如下:

(1)D中詞的總個數N服從泊松分布。

(2)主題分布 θ服從狄利克雷分布,即 θ|α~Dir(α)

(3)關于每個n,n∈{1,2,...,N}均存在潛在主題zn服從多元分布,zn|θ~Mult(θ)參數

(4)每個詞wn也服從多元分布,即:

ξ,α,β表示超參數,其中,ξ僅僅確保表達的完整性,對模型的求解過程無影響;α表示任意一個與文檔中主題分布有關的狄利克雷超參數;β表示一個與文本集合中主題詞概率相關的狄利克雷超參數。這些超參數根據經驗或多次訓練來設定。

綜上所述,LDA模型采用對文檔中每一個詞語的概率來進行計算,即:

P(wj|di)表示每個文檔中單詞出現的概率,即詞頻,P(wj|zk)表示某個主題中每個單詞出現的概率,P(zk|di)表示某個文檔中每個主題出現的概率。故得到文檔中每個詞的生成概率為:

3 關鍵詞提取

本文的關鍵詞算法采取融合LDA和TF-IDF的自動擴展提取算法。TF-IDF(Term Frequency-Inverse Document Frequency)在自然語言中通常用來表示詞語的重要性的加權技術。TF表示詞語的頻率(Term Fre?quency)如公式(4)所示,IDF表示的是是逆文本頻率(Inverse Document Frequency),一個特定詞語的IDF,表示總的文件數除以包含該詞的文件的數,為了簡化計算將得到的商取對數。如公式(5)所示。

這里ni,j表示第j篇文檔的第i個詞語,|D|代表總的文檔數,|{j:ti∈dj}|代表包含詞語ti的文件數目。

我們選定部分初始關鍵詞,將其加入到爬取種子集中,作為數據抓取的初始種子,通過這些初始種子檢索新聞網站,通過融合LDA和TF-IDF算法抽取出文本關鍵詞,將符合標準的關鍵詞作為種子加入到種子集中,再進行新一輪的爬取。如圖2所示。

圖2 種子集獲取流程圖

4 實驗結果和分析

本實驗主要是使用Python實現,通過爬取互聯網上的新聞作為訓練語料,主要來自新浪、新華網、中國新聞網等,抓取新聞正文五萬篇。使用Gensim包實現LDA主題模型的訓練,訓練過程采用Gibbs采樣,由于時間和資源有限,選取三個區分度較高的主題作為實驗素材,考察實驗效果,選取消防、經濟犯罪偵查、刑事案件三個主題,結果如表1所示。

表1 F值對比表

表1結果表明,LDA融合TF—IDF的算法在F值上優于單純地使用LDA和TF-IDF,證明了LDA主題爬蟲的可行性和有效性,并隨著主題更新的次數不斷增加,會有一定提升。

實驗進行了6次更新,得到更新后的主題文檔,通過統計對比了前后主題文檔中出現相同的詞,詞的主題概率提高了3.12%。

5 結語

本文提出了一種涉警輿情關鍵詞提取方法,通過使用融合LDA和TF-IDF抽取關鍵詞的方法和為垂直領域的關系抽取提供了一種新思路,為垂直領域的關鍵詞提取建提供了良好的借鑒,后續的工作中將會加大對數據的采集,提高關鍵詞抽取的準確率。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中文字幕乱妇无码AV在线| 97se亚洲综合在线韩国专区福利| 国产激情国语对白普通话| 97超碰精品成人国产| 欧美视频在线播放观看免费福利资源 | 99在线视频免费观看| 久久婷婷五月综合色一区二区| 亚洲天堂日韩av电影| 日韩在线1| 国产精品自在拍首页视频8 | 谁有在线观看日韩亚洲最新视频| 91亚瑟视频| 婷婷丁香色| 国产精品永久不卡免费视频| 人人爽人人爽人人片| 亚洲美女一级毛片| 国产制服丝袜91在线| 国产欧美视频综合二区 | 国产va在线观看免费| 国内熟女少妇一线天| 日本高清免费不卡视频| 欧美福利在线观看| 国产97公开成人免费视频| 国产精品三级专区| 四虎精品黑人视频| 亚洲成人播放| 亚洲色图综合在线| 亚洲三级成人| 国产国拍精品视频免费看| 久久香蕉欧美精品| 国产激情无码一区二区免费| 好久久免费视频高清| 国产毛片不卡| 亚洲无卡视频| 久久久久久久97| 无码精油按摩潮喷在线播放| 无码专区在线观看| 精品一区二区无码av| 天天摸天天操免费播放小视频| 亚洲人成电影在线播放| 国产精品久久自在自2021| 91年精品国产福利线观看久久| 日韩区欧美区| 无码aaa视频| 欧美中文字幕在线二区| 国产女人喷水视频| 欧美国产在线一区| 伊人成人在线| 亚洲乱码在线播放| 国产免费高清无需播放器| 国产xx在线观看| 在线观看热码亚洲av每日更新| 一本视频精品中文字幕| 国产一二视频| 午夜一区二区三区| 国产福利影院在线观看| 中国毛片网| 啦啦啦网站在线观看a毛片| 欧美成一级| 国产精品福利导航| 一级成人a毛片免费播放| 亚洲—日韩aV在线| 久久77777| 欧美区国产区| 国产在线观看一区精品| 青青青草国产| 国产欧美精品一区二区| 欧美日韩国产一级| 久久精品波多野结衣| 欧美日韩久久综合| 国产真实乱子伦视频播放| 欧美日韩中文字幕在线| 一本色道久久88亚洲综合| 伊人激情综合网| 国产精品七七在线播放| 波多野结衣久久精品| 91青青视频| 黄片一区二区三区| 99久久精品免费看国产免费软件 | 久久九九热视频| 久久精品只有这里有| 97青草最新免费精品视频|