999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向貴州省三大戰略行動的文本挖掘及LDA 模型分析研究

2020-10-13 08:58:32楊秀璋武帥夏換于小民范郁鋒叢楠張懿源
現代計算機 2020年25期
關鍵詞:文本模型

楊秀璋,武帥,夏換,于小民,范郁鋒,叢楠,張懿源

(1.貴州財經大學信息學院,貴陽550025;2.貴州財經大學,貴州省經濟系統仿真重點實驗室,貴陽550025;3.貴州財經大學計劃財務處,貴陽550025;4.貴州財經大學,貴州省電子商務大數據營銷工程研究中心,貴陽550025)

0 引言

隨著大數據和計算機技術的迅速發展,政務信息逐漸依托于互聯網發布,然而,網絡上存在著數量龐大、語義復雜的文本數據,如何從這些數據中挖掘出用戶需要的精準信息,獲取民眾對國家和省部級政策、戰略的關注主題及輿情影響,已經成了當今研究的熱點內容[1]。

目前國內外很少利用數據挖掘或機器學習算法深層次分析政用信息,也沒有針對貴州省三大戰略行動的主題挖掘和輿情分析研究。因此,本文研究了面向貴州省三大戰略行動的文本挖掘及LDA 模型分析。首先通過Selenium 和XPath 技術抓取微信公眾號關于貴州省大扶貧、大數據、大生態的網頁文本信息,再進行數據預處理,最終利用LDA 模型和K-means 聚類算法進行文本主題挖掘。本文提出的模型可以廣泛應用于國家戰略和社會話題的主題分析、輿情檢測、文本挖掘、知識計算等領域,更好地幫助國家和各省份進行輿情分析和預測,實現政用信息主題挖掘,為政府管理、社會治理和民生服務提供輿情預警,推進社會經濟的穩定發展。

1 相關研究進展

1.1 貴州省三大戰略

貴州省堅守發展和生態兩條底線[2],統籌推進國家大數據綜合試驗區、生態文明試驗區和內陸開放型經濟試驗區建設。中共貴州省第十二次代表大會明確提出了“決戰脫貧攻堅、同步全面小康、奮力開創百姓富生態美的多彩貴州新未來”三大奮斗目標,吹響了“大扶貧”、“大數據”和“大生態”三大戰略行動。

在大扶貧方面,貴州省尋求問題根源,致力于脫貧攻堅第一線[3]。在大數據方面,貴州省率先深挖大數據潛在的商業、政用以及民用價值,成立了全國首家大數據綜合試驗區,全國首個省級政府大數據平臺——“云上貴州”大數據平臺[4]。在大生態方面,貴州省全面貫徹落實習總書記關于“青山綠水就是金山銀山”的理念,堅守發展和生態兩大底線。堅持綠色發展優先的同時,推進貴州生態文明建設,共同為多彩貴州新未來而奮斗[5]。

1.2 主題挖掘

主題挖掘旨在通過主題模型與識別不同來源文本的主題、關鍵詞、情感分散、聚類類標等對文本挖掘以及輿情分析[6]。主流的主題模型算法包括LSA 和LDA。Blei 等人[7]提出了LDA(Latent Dirichlet Alloca?tion)主題模型,并被廣泛應用于各個領域。王世杰等人[8]將Hawkes 模型與LDA 模型結合深度學習算法進一步提高信息擴散過程中的預測精準度。在應用領域上,孟超穎等人[9]提出基于LDA 耦合空間計算文章之間相似度來提高作文檢測準確度。金苗等人[10]基于LDA模型分析構建西方主流媒體輿論地圖。周娜等人[11]基于LDA 主題模型揭示學科領域隱性知識組合。熊回香等人[12]基于LDA 生成的標簽準確地描述微博用戶的使用特征。馮勇等人[13]基于TF-IDF 和LDA 主題模型來提高中文短文本分類精確度。楊秀璋[14]針對水族文獻進行了LDA 主題挖掘研究。

盡管國內外學者就主題挖掘在算法創新和應用領域都有些許研究,但很少有學者利用數據挖掘或機器學習的算法來分析政務信息,也不能很好地完成針對政務知識的輿情分析和文本主掘研究,甚至由于不及時處理某些突發性的新聞報道,可能會給政府和社會造成非常重大的損失。針對上述問題,本文擬采用LDA 模型和文本聚類分析貴州省大扶貧、大數據、大生態三大戰略的政用主題知識,為政府提供更好的輿情監測,掌握民生動態。

1.3 LDA模型

LDA 是一種文檔主題生成模型,由Blei 等人[7]在2003 年首次提出,是一種基于主題(T)、文檔(D)和主題詞(W)的三層貝葉斯結構,其中文檔到主題(D-T)以及主題到主題詞(T-W)層面均服從多層分布。LDA 主題模型將多個文檔(D)映射到k 個主題(T)中,每個主題(T)包括一定量的主題詞(W)的主題模型。

本文主要針對貴州省“大扶貧、大數據、大生態”三大戰略行動完成主題挖掘研究,經過LDA 主題分布后,得到各個文檔的不同主題所占比例,實現貴州省三大戰略行動各主題關鍵詞的挖掘,并給出每篇文檔對應的關鍵詞及比例。

2 文本主題挖掘算法

2.1 基本思路與流程

本文采用LDA 模型、K-means 算法進行政務數據分析,旨在挖掘貴州省三大戰略行動的微信公眾號網頁文本知識,獲取深層次的語義主題詞,實現政務數據輿情分析。該算法的框架圖如圖1 所示。

(1)調用Python、Selenium 和XPath 技術自動抓取微信公眾號關于貴州省大扶貧、大數據、大生態的網頁文本,并存儲至本地保存。

(2)對抓取的文本語料進行數據預處理,包括中文分詞、停用詞過濾、特征提取和權重計算。

(3)進行LDA 主題模型分析和文本聚類挖掘,并采用可視化技術進行文本類別識別和結果展示。同時,LDA 模型可以獲取<主題,詞>和<文檔,主題>的概率分布矩陣,最終將相似性較高的主題及文本聚類在一起。

圖1 文本主題挖掘框架圖

2.2 自定義爬蟲抓取數據

本文主要分析貴州省政用信息,通過自定義爬蟲抓取貴州省大扶貧、大數據、大生態的網頁文本信息。構建一個基于Python 語言環境下的Selenium、XPath和PhantomJS 技術的網頁自動爬蟲,所抓取的信息包括網頁標題、發表時間、正文內容、涉及主題等相關字段,其抓取流程如圖2 所示。爬蟲管理器依次遍歷含微信公眾號的URL 隊列,輸入關鍵詞并設置需要抓取網頁的日期,然后發送HTTP 請求調用XPath 技術解析貴州省三大戰略網頁文本,最后將網頁下載至數據存儲器進行主題挖掘實驗。

圖2 自定義爬蟲流程圖

2.3 基于LDA模型和K-means聚類算法的貴州三大戰略主題挖掘

本文基于LDA 主題模型以及K-means 文本聚類算法對貴州省三大戰略行動的網頁文本信息進行主題挖掘。采用Jieba 工具進行中文分詞和停用詞過濾;依托TF-IDF 計算各特征詞權重,其主要程度由特征詞在文檔中出現的次數以及在整個數據集中出現文檔頻率決定的,從而盡可能保留影響程度高的主題詞,進而起到降維的效果;最后利用LDA 主題模型分析各主題的Top-N 個主題詞及文檔主題分布,通過K-means 算法進行文本聚類,旨在盡可能提高文檔間的相識度,將原本無標簽的文檔依托文檔相似性自動歸類。完整算法如下所示:

算法1:貴州三大戰略主題挖掘方法

輸入:貴州省三大戰略主題網頁文本數據

輸出:文檔-主題-關鍵詞、聚類類標、情感分數

步驟:

①對所抓取的數據集進行基于Python 環境下Jie?ba 工具進行中文分詞;

②對分詞后的數據集進行停用詞過濾、數據清洗、特殊符號去除等數據預處理;

③提取文本語料特征,利用向量空間模型VSM 將中文文本數據轉化為數值向量;

④對第③步所篩選的特征詞進行TF-IDF 權重計算,將每篇文檔轉換為主題詞矩陣;

⑤利用LDA 模型進行分析,設置主題數為3,分別計算每個主題下的Top-N 主題詞,計算每篇網頁文本所屬主題;

⑥采用KMeans 聚類算法進行文本聚類,對所有網頁文本進行聚類分析;

3 實證分析

(1)數據抓取與預處理

本文數據集采用Python 自定義爬蟲抓取微信公眾號關于貴州省“大扶貧、大數據、大生態”的網頁文本信息,所抓取的字段包括新聞標題、發布時間、超鏈接、關鍵詞、網頁文本等。數據的起始時間為2018 年7 月20日,每類主題抓取各100 篇網頁,圖3 表示抓取至本地的數據集。

數據預處理主要將所采集的政務數據集進行中文分詞,導入Jieba 詞典進行停用詞和特殊標點過濾,最終提供干凈且高質量的數據集,為后續分析提供支撐。

圖3 貴州三大戰略部分數據集

(2)評價指標

本實驗采用準確率(Precision)、召回率(Recall)和F 值(F-measure)進行實驗評估。其中,準確率P(i,j)定義如公式(1),召回率R(i,j)定義如公式(2),F 值定義如公式(3)所示。

其中,ni表示主題為i 的文本數目,nj表示聚類主題為j 的文本數目,nij表示聚類主題為j 中屬于原主題i 的數目,最終結果通過F 值平衡。

2)在60℃時,加入0.021 mol/L的亞鐵離子,1.0 mol/L的氨水,恒溫攪拌8 min,混合礦赤鐵礦的回收率由70.86%提高到83.39%,同時尾礦鐵品位由16.59%降低到11.63%。

(3)文本聚類實驗

文本聚類實驗采用TF-IDF 計算各特征詞權重,其主要程度由特征詞在文檔中出現的次數以及在整個數據集中出現文檔頻率決定的,從而盡可能保留影響程度高的主題詞,進而起到降維的效果從而提升實驗的準確率、召回率和F 值。

TF-IDF 計算公式如(4)所示,它能按照特征詞在文檔中的重要程度進行權重計算,從而盡可能提升影響程度較高的特征詞重要性,降低影響程度較低的特征詞重要性。

其中,tfidfi,j表示詞頻tfi,j和倒文檔詞頻idfi,j乘積,tfidfi,j值越大則該特征詞對這個文檔的重要性就越高。TF 表示某個主題詞在整個文檔中出現的頻率,其計算如公式(5)所示,ni,j為特征詞在訓練文本dj中出現的次數,分母是文本dj中所有特征詞個數,計算結果為特征詞的詞頻。

IDF 表示計算倒文本頻率,其計算公式如(6)所示,|D|表示數據集中文本的總數,|Dti|表示文本中包含特征詞ti的數量。為防止某些詞語在數據集中不存在,及公式(6)中的分母為0,故使用1+|Dti|作為分母,以防止無法計算。

貴州省三大戰略的K-means 文本聚類結果如圖4所示,共將網頁文本聚集成三類主題,其中紅色圓圈表示大數據、藍色方塊表示大扶貧、綠色星星表示大生態。從圖4 可以看到三個類簇有效的分隔開來,說明文本聚類效果顯著。

圖4 K-means文本聚類圖

文本聚類實驗結果如表1 所示,其中“大數據”主題聚類實驗結果最好,準確率為0.905,召回率為0.570,F 值為0.699;而大扶貧和大生態實驗結果不太理想,F 值為0.674 和0.645。由于三大戰略主題相互融合,部分網頁可能同時描述三大戰略不同主題的內容,所以會出現主題識別不精準的情況,接下來的LDA主題模型分析將會進一步優化。

表1 K-means 文本聚類實驗結果

(4)LDA 主題分布實驗

在基于LDA 模型的主題挖掘實驗中,設置的主題數(n_topic)為3,迭代次數(iterations)為500,調用基于Python 的LDA 主題模型進行模擬訓練及計算,LDA 主題模型三大主題的前30 個主題詞如表2 降序排列。

表2 LDA 模型主題-詞識別結果

由表2 可知,每個主題的差異明顯。主題0 中的特征詞主要是大扶貧戰略,包括“脫貧”、“扶貧”、“貧困戶”、“建檔立卡”、“搬遷”等相關詞匯;主題1 中的特征詞主要是大數據戰略,包括“數據”、“貴陽”、“互聯網”、“融合”、“人工智能”等相關詞匯;主題2 中的特征詞主要是大生態戰略,包括“生態”、“綠色”、“旅游”、“苗族”、“環保”、“健康”等相關詞匯。

圖5 是三大戰略“文檔-主題”分布圖。圖中表示了文檔下標為0、1、101、102、201 和202 六篇網頁的主題分布。X 軸表示3 個主題(0 代表大扶貧主題、1 代表大生態主題、2 代表大數據主題),Y 軸表示每個主題所占的比例,其中文檔0、文檔1、文檔101 預測的主題為0(大扶貧),文檔102 預測的主題為2(大數據),文檔201、文檔202 預測的主題為1(大生態),文檔下標為0、1、102、201、202 的預測成功,而文檔101 真實主題為大數據,卻被預測為大扶貧。

圖5 LDA文檔-主題分布圖

圖6 是比較LDA 模型和K-means 文本聚類算法的F-值實驗結果。圖中X 軸表示大扶貧、大數據、大生態三個主題,Y 軸表示F-值,實驗結果顯示:LDA 主題模型的方法優于傳統基于TF-IDF 模型的文本聚類方法,其中大扶貧主題的F-值從0.674 提升到0.704,大數據主題的F 值從0.699 提升到0.838,大生態主題的F 值從0.645 提升到0.671。

圖6 LDA主題算法與K-means聚類算法F值對比圖

4 結語

本文的研究成果主要應用于政務信息的文本挖掘與輿情分析,以貴州省大扶貧、大數據、大生態網頁文本為例進行主題分布和文本聚類的研究。實驗結果表明,本文提出的算法有效地挖掘出貴州省三大戰略的主題關鍵詞及民眾關注話題,各提取了30 個主題詞,使得文本的主題脈絡更加清晰,同時計算出各類政用信息相關的輿情主題詞及聚類結果,當給出一篇新的新聞網頁時,能準確實現新聞主題分類和關鍵詞挖掘。同時,本文也存在一些不足,如沒有進行更深入的語義關系識別、情感分析及海量數據獲取。

綜上,為了更好地幫助政府部門、企業公司、高校及科研單位進行政務文本挖掘,實現文本知識主題提取,為政府管理、社會治理和民生服務提供輿情分析基礎,推進社會經濟的穩定發展,本文面向貴州省三大戰略行動進行了詳細的文本挖掘及LDA 模型分析研究,具有一定的理論研究意義和實際應用價值。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中国一级特黄视频| 日韩欧美色综合| 91丝袜美腿高跟国产极品老师| 久久免费看片| 久久精品人人做人人爽97| 国产超薄肉色丝袜网站| 在线免费亚洲无码视频| 一级片免费网站| 日韩国产欧美精品在线| 91九色国产porny| 无遮挡一级毛片呦女视频| 国产性生大片免费观看性欧美| 久久一日本道色综合久久| 无码专区第一页| 国产精品自拍合集| 亚洲国产成人精品青青草原| 97精品国产高清久久久久蜜芽 | 国产乱子伦精品视频| 国产精品露脸视频| 毛片最新网址| 日韩av资源在线| 72种姿势欧美久久久大黄蕉| 国产精品网曝门免费视频| 欧美精品1区| 欧美激情首页| 亚洲无线观看| 日韩精品无码一级毛片免费| 亚洲欧美另类中文字幕| 精品伊人久久久香线蕉| 一级毛片在线播放| 无码国产偷倩在线播放老年人| 久久五月天综合| 精品综合久久久久久97超人| 国产精品久久精品| 亚洲一区波多野结衣二区三区| 91精品国产一区自在线拍| 亚洲高清无码精品| 久久综合成人| 5555国产在线观看| www亚洲天堂| 欧美日韩午夜视频在线观看| 天天摸夜夜操| 91破解版在线亚洲| 青青草a国产免费观看| 国产在线高清一级毛片| 色婷婷在线播放| 特级欧美视频aaaaaa| 国产极品美女在线| 黄色网在线免费观看| 国产在线精品美女观看| 国产成人8x视频一区二区| 国产成人91精品免费网址在线| 免费观看男人免费桶女人视频| 国产激情无码一区二区免费| 成人在线观看一区| 波多野结衣无码中文字幕在线观看一区二区| 最近最新中文字幕免费的一页| 成人国内精品久久久久影院| 影音先锋亚洲无码| 国禁国产you女视频网站| 色天天综合久久久久综合片| 男人天堂伊人网| 日韩精品无码免费专网站| 亚洲精品久综合蜜| 亚洲成aⅴ人片在线影院八| 精品视频一区二区观看| 亚洲第一视频区| 中文字幕第4页| 精品国产三级在线观看| www精品久久| 久久午夜夜伦鲁鲁片不卡| 高清码无在线看| 手机在线免费不卡一区二| 久久久无码人妻精品无码| 91丝袜乱伦| 亚洲最新地址| 99热这里只有精品在线观看| 999国产精品永久免费视频精品久久| 永久在线精品免费视频观看| 欧美在线免费| 97久久免费视频| 国内丰满少妇猛烈精品播|