999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的公安院校公眾號主題類型挖掘研究

2020-09-15 16:30:34陳樂遙洪磊陳楊王川楊永舟劉姝文
計算機時代 2020年8期

陳樂遙 洪磊 陳楊 王川 楊永舟 劉姝文

摘要:旨在通過分析國內各大公安院校官方公眾號和微博發(fā)布的數(shù)據(jù),得出每個院校的關鍵詞分布,在此基礎上對各校如何展開新媒體工作提出輔助性可視化幫助。文章運用網絡爬蟲技術和LDA主題聚類算法,對互聯(lián)網上獲取的某警院數(shù)據(jù)進行分析,然后使用Flask和Vue將分析出的結果可視化,使之呈現(xiàn)出警院的詞云圖,該結果可以對警院的新媒體建設提出輔助性建議。

關鍵詞:微博;微信公眾號;LDA算法;Web可視化

中圖分類號:G202 文獻標識碼:A 文章編號:1006-8228(2020)08-06-04

0引言

網絡技術的迅猛發(fā)展,讓新媒體、自媒體等詞不再是一個遙遠陌生的概念,新媒體技術的高速推進在為公安院校思想政治教育工作的創(chuàng)新帶來了契機。目前各大公安院校基本都在努力做到依托現(xiàn)代化模式下的新媒體矩陣來創(chuàng)新公安院校大學生的思想政治工作路徑,搭建好以微信、微博、今日頭條、抖音、B站等為主體的新媒體矩陣,更好地服務公安教育工作,不斷為新時代公安新媒體建設培養(yǎng)技能突出、政治可靠的接班人。為了更好的對現(xiàn)階段警院新媒體提出發(fā)展建議,我們選取了主流文字新媒體平臺,從微信和微博來研究各大公安院校該如何在之后的新媒體文字工作中采取更貼合讀者需要,更能講好警院故事的方法。現(xiàn)今網絡數(shù)據(jù)繁雜,我們可以借助人工智能算法建立模型,自動化的處理數(shù)據(jù),并且借助當下最流行的B\S架構的Web服務來動態(tài)地可視化呈現(xiàn)數(shù)據(jù)的處理結果。

1 研究現(xiàn)狀

在現(xiàn)階段針對新浪微博與微信公眾號的研究較多,但是限定發(fā)聲主體范圍,尤其是特定針對公安院校新媒體的研究目前還是少數(shù)[2-4]。目前針對新媒體主題的研究主流方向仍然是針對發(fā)布文字內容的研究,從發(fā)文內容中所含的情感傾向、關鍵詞、傳播方向趨勢預測等方面切入[1.5-7],并結合這些內容對于人們的生活會造成什么樣的影響作為研究輸出點,將研究結果通俗化,讓冷冰冰的數(shù)據(jù)更“接地氣”。其中使用LDA人工智能文本主題聚類算法的居多,這一算法讓文本的聚類處理更加便捷直觀,其結果對于后續(xù)的分析更具有說服力。我們也依照這一想法從現(xiàn)階段的研究方向出發(fā),逐步深入,得出針對公安院校新媒體建設的主流趨勢,并最終就研究結果在大方向上對各新媒體主體給予一定的建議。

2 研究設計

本項目的研究和實現(xiàn)主要分為三個階段:數(shù)據(jù)獲取,數(shù)據(jù)處理和科學的可視化數(shù)據(jù)呈現(xiàn)。現(xiàn)就每一階段采取的研究方式和技術原理進行描述,具體流程如圖1所示。

以下探討在數(shù)據(jù)處理階段我們主要采用的模型分析思維。

2.1 首先是選用的人工智能數(shù)據(jù)處理模型:LDA主題模型

LDA(Latent Dirichlet Allocation)是現(xiàn)階段比較風靡和體系化的文本主題挖掘模型,它從本質來看就是一個包括了主語、文檔和主題的嵌套了三層的貝葉斯模型,因為其完全基于貝葉斯的推理機制,所以擁有很好的解釋能力。但是,該模型僅僅提供了針對文本數(shù)據(jù)的主題模型提取,并沒有更多的涉及細化的演變機制和主題演化的解釋。它一開始就把概率分布與貝葉斯的先驗理論帶入到有關主題的分析當中,再去利用先驗估計的超參數(shù)經迭代計算來估計“文檔一主題”和“主題一特征詞”的概率分布這兩個參數(shù);由于采用Dirichlet分布進行了模型簡化,所以這種方法可以部分避免LSA和PLSA等模型中的過擬合問題[8-11]。

模型生成過程如圖2所示。

(1)按照先驗概率p(di)選擇一篇文檔di;

(2)在從Dirichlet分布的a中取出樣本生成文檔d的主題分布θi;

(3)從主題的多項式分布θi中取出樣本生成文檔d;第j個詞的主題z(i,j);

(4)從Dirichlet分布β中取出樣本生成主題z(i,j)對應的詞語分布φz(i,j),詞語分布φz(i,j),由參數(shù)為B的Dirichlet分布生成;

(5)從詞語的多項式分布φz(i,j)中采集樣本,最終生成詞語ω(i,j)。

2.2 處理數(shù)據(jù)的整體思維

在針對具有更多指標性數(shù)值的微博文本數(shù)據(jù)的處理中,我們充分參考了點贊量和轉發(fā)量這兩個指標值,數(shù)據(jù)處理的最終目標是既要得到文本關鍵詞也要能夠讓這些關鍵詞為新媒體主題提供對發(fā)布內容的修改意見。所以我們先進行文本內容有無點贊量、閱讀量的第一批處理,將處理后的數(shù)據(jù)再放入LDA模型中進行分析,得到熱門主題詞。與此同時將全樣本數(shù)據(jù)也進行LDA模型的分析。最終的生成結果中進行關鍵詞比對,即從全樣本關鍵詞中去尋找熱門關鍵詞是否存在,如果存在則說明文本的健全性有保障,繼續(xù)輸出得到的熱點關鍵詞和全樣本關鍵詞即可,其過程如圖3所示。

對于無指標性數(shù)值的微信公眾號文本來說,則直接使用LDA模型進行分析,得到全樣本數(shù)據(jù)的關鍵主題詞,然后與微博中出現(xiàn)的關鍵詞拼接以及去重。在總體層面上得出該新媒體主體的新媒體全樣本關鍵詞。

2.3 科學的可視化數(shù)據(jù)

對于數(shù)據(jù)的可視化,我們選擇了現(xiàn)在的主流開發(fā)模式,即B/S架構的Web服務模式。在后端使用flask的基礎上,我們充分利用前端vue的開放性開發(fā)的特點,與處理后的數(shù)據(jù)進行結合,并最終使用詞云圖來展示經處理過后的數(shù)據(jù)。采取更科學的數(shù)據(jù)可視化手段,在保證了數(shù)據(jù)結果展示準確性的同時也使得后續(xù)的研究工作可以更高效的展開。

3 實證分析

在微博方面,首先我們基于scrapy框架定制開發(fā)了給予微博開發(fā)者接口的數(shù)據(jù)獲取程序。程序以深度優(yōu)先的原則,將共27個公開官方微博號上的歷史記錄都依據(jù)時間順序爬下,將十三個固定賬戶的微博uid輸入隊列程序中,隊列循環(huán)后依次爬取,共獲取316752條微博信息和相關的賬號粉絲人數(shù)以及其他賬戶信息。

通過觀察,我們將對獲取數(shù)據(jù)中的content(微博內容)和repost_num(轉發(fā)數(shù))進行研究分析,在此我們先對獲取的全部微博數(shù)據(jù)中的轉發(fā)數(shù)進行平均數(shù)計算,算出全樣本平均數(shù)后,依據(jù)經驗可以嘗試劃定高轉發(fā)的閾值大于平均數(shù)并且不低于平均數(shù)的1.5倍。在此基礎上實現(xiàn)第一步的數(shù)據(jù)處理,得到高轉發(fā)微博數(shù)據(jù)樣本。

在這里我們只選擇江蘇警官學院一所院校的數(shù)據(jù)作為論證數(shù)據(jù),而且實際上我們在實驗中從微博的樣本中得到了五處主題的概率分布,這里只舉例示意列舉具有高轉發(fā)特征的第1處主題概率分布,并且在實驗過程中我們不斷調試主題數(shù)與單個主題內詞語數(shù)量的關系,如表l所示,最終選擇了體現(xiàn)效果最佳的一個組合。

從總體的主題分布來看,樣本數(shù)據(jù)生成的所有主題的詞分布如表2。

對于微信公眾號的全樣本文本數(shù)據(jù)我們也同樣采取相應的算法和措施來進行分析,我們直接通過最終的可視化界面來分析這套實驗的最終效果。

從微博的LDA模型處理后的結果,如圖4所示,我們可以看出,受到新型冠狀病毒的影響,即使是在2020年前四個月發(fā)布的內容,且整體文本數(shù)量不多的情況下,新冠相關主題的微博依然能夠引起粉絲的高量轉發(fā)。但在微信公眾號中,我們選擇了2018和2019年兩年的全樣本數(shù)據(jù),從上述詞云圖中可以看到還是公安工作、學警學習這幾類主題是江蘇警官學院微信公眾號平臺最常發(fā)布的,同時因為時間跨度的問題,沒有出現(xiàn)在微博內容分布中被高度關注的防疫和抗疫的內容。在這一實驗的最后,我們通過得出的可視化圖片可以得出一些一般性結論。不論是什么樣的公眾自媒體或者新媒體形式,只要貼著社會的熱點話題來進行一些發(fā)文,就可以獲得粉絲群體的高關注度和互動性,這一點是毋庸置疑的。但是從抹除了社會熱點的高關注度話題后的數(shù)據(jù)來看,也就是從我們在實驗中的微信公眾號數(shù)據(jù)來看,真正決定新媒體工作建設的方向還是建立在本身特色和發(fā)布內容類型的基礎上的,從可視化平臺的大多數(shù)公安院校的結果中可以看出,省屬的公安院校的內容更加貼近公安工作的底層,宣傳的事例或者一些行文風格更樸素,宣傳方向更單一,而幾所部屬高校的微博則不同,他們的文章中體現(xiàn)的人文關懷和綜合性更強,所以各公安院校應當積極把握自身建設中形成的特色,并就與公安工作或者學警教育工作有教育指導意義的社會熱點事件行文是每一個公眾號主體都要遵循的大前提。

4 結束語

在現(xiàn)階段針對公安院校的新媒體的建設特點分析中,新媒體平臺中的短文本就注定了使用LDA模型可以滿足絕大多數(shù)的分析情形。只需要在建模的過程中控制好主題數(shù)和詞數(shù)的關系,就一定能夠調試出一個合理科學的實驗結果。公安院校的公眾號還是要在維持自身人文關懷與堅持政治方向的基礎上,不斷發(fā)掘社會話題,弘揚警院正能量,講好警院故事,為更多的青年一代的新時代預備警官夯實堅固的思想政治基礎和紅色意識。以思想帶動實踐,為建設四個“鐵一般”的公安鐵軍儲備優(yōu)良人才,為實現(xiàn)中華民族偉大復興奉獻力量。

參考文獻(References):

[1]王博,劉盛博,丁堃等.基于LDA i題模型的專利內容分析方法[J].科研管理,2015.36(3):111-117

[2]趙翔宇.新媒體時代公安院校思想政治教育創(chuàng)新研究[J].遼寧警察學院學報,2020.22(2):113-116

[3]秦大強,熊猛.移動互聯(lián)時代公安院校大學生思想政治教育工作路徑創(chuàng)新——以新媒體矩陣發(fā)展與運維為視角[J].上海公安學院學報,2019.29(5):90-96

[4]周殷玄.淺談新媒體為公安院校思想政治工作開創(chuàng)的新格局[J].才智,2018.17:138-139

[5]唐可.利用多種建模方法從社交媒體中挖掘短文本結構[J].電腦編程技巧與維護,2020.2:140-142

[6]韓肖赟,侯再恩,孫綿.基于i題模型及其擴展的短文本算法評述[J].計算機應用與軟件,2020.37(1):1-7

[7]吳廣建.面向政務微博的數(shù)據(jù)分析系統(tǒng)設計與實現(xiàn)[D].杭州師范大學,2020.

[8]李牧南,王雯殊.基于文本挖掘的人工智能科學i題演進研究[J].情報雜志:1-7[2020-04-20].http://kns.cnki.net/kcms/detaiV61. 1167.G3.20200319. 1351.019.html

[9] Latent Dirichlet allocation. Blei D M, Ng A Y,Jordan M I.Journal of Machine Learning Research,2003.

[10] Content analysis of e-petitions with topic modeling: Howto train and evaluate LDA models?[J]. Loni Hagen.Information Processing and Management,2018.

[11] Short text similarity based on probabilistic topics[J].Xiaojun Quan, Gang Liu, Zhi Lu, Xingliang Ni, LiuWenyin.Knowledge and Information Systems,2010.3.

★基金項目:江蘇省現(xiàn)代教育技術研究課題“基于現(xiàn)代信息技術的公安網絡輿情教學模式創(chuàng)新研究”(2017-R-59195);江蘇警官學院重點教改項目“互聯(lián)網信息巡查課程線上線下混合式‘金課教學體系的重塑研究”(2019A30);江蘇省大學生實踐創(chuàng)新創(chuàng)業(yè)訓練計劃項目“大數(shù)據(jù)背景下的公安院校新媒體平臺影響力研究”( 201910329031Y)

作者簡介:陳樂遙(1999-),男,江蘇連云港人,江蘇警官學院學生,主要研究方向:網絡安全與信息安全

主站蜘蛛池模板: 四虎永久免费在线| 亚洲第一视频区| 91外围女在线观看| 日韩精品无码免费一区二区三区| 日本福利视频网站| 99久久无色码中文字幕| 久久人人爽人人爽人人片aV东京热| 欧美成人手机在线视频| 一级毛片在线播放免费| 又污又黄又无遮挡网站| 亚洲综合中文字幕国产精品欧美| 亚洲综合国产一区二区三区| 成人日韩欧美| 久操线在视频在线观看| 精品一区二区三区中文字幕| 国产精品观看视频免费完整版| 日韩欧美高清视频| 成人免费网站久久久| 日本不卡在线| 极品私人尤物在线精品首页| 99久久精品视香蕉蕉| 国产美女久久久久不卡| а∨天堂一区中文字幕| 国产自在线播放| 在线网站18禁| 色网站免费在线观看| 青青青亚洲精品国产| 成人精品亚洲| 欧美成人国产| 亚洲成人在线免费观看| 国产精品久久久久婷婷五月| 亚洲天堂日本| 亚洲第一页在线观看| 久久免费精品琪琪| 九色综合伊人久久富二代| 亚洲精品福利网站| 亚洲人成成无码网WWW| 久久无码av三级| 国产精品第页| 欧美一级特黄aaaaaa在线看片| 国产尹人香蕉综合在线电影 | 最新国产午夜精品视频成人| 激情无码字幕综合| 91精品伊人久久大香线蕉| 人妻一区二区三区无码精品一区 | 欧美三级日韩三级| 欧美丝袜高跟鞋一区二区| 毛片最新网址| 亚洲AV无码不卡无码| 东京热高清无码精品| 极品私人尤物在线精品首页| 国产青榴视频在线观看网站| 精品视频在线一区| 国产微拍一区二区三区四区| 成人综合网址| 久久免费看片| 91丝袜美腿高跟国产极品老师| 亚洲伦理一区二区| 中文字幕天无码久久精品视频免费 | 国产欧美精品午夜在线播放| 免费jjzz在在线播放国产| av在线无码浏览| 亚洲一区二区视频在线观看| 伦伦影院精品一区| 欧美一级在线| 国产日本视频91| 欧美三級片黃色三級片黃色1| 91久久国产热精品免费| 无码日韩精品91超碰| 在线观看无码av五月花| 精品人妻系列无码专区久久| 91久久夜色精品国产网站| 精品国产欧美精品v| 日本福利视频网站| 亚洲愉拍一区二区精品| 国产一区三区二区中文在线| 国产亚洲高清视频| jijzzizz老师出水喷水喷出| 99精品国产自在现线观看| 亚洲精品卡2卡3卡4卡5卡区| 欧美精品亚洲精品日韩专区va| 97国产在线视频|