999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)在線詞對主題模型的微博熱點(diǎn)話題演化

2021-12-21 13:50:00張夢甜黃竹韻顧明星
計算機(jī)工程與應(yīng)用 2021年24期
關(guān)鍵詞:模型

吳 迪,張夢甜,生 龍,黃竹韻,顧明星

河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲056038

微博因其文體較短、話題內(nèi)容廣泛、傳播迅速、實(shí)時性好等特點(diǎn),已經(jīng)成為傳播各種資訊的重要平臺[1]。往往一件引發(fā)熱議的事情可以在微博上形成熱點(diǎn)話題,繼而,網(wǎng)民會通過搜索話題標(biāo)簽來發(fā)表自己的觀點(diǎn)并關(guān)注事態(tài)發(fā)展。因此,對微博熱點(diǎn)話題進(jìn)行演化分析,可以較完整地描繪熱點(diǎn)話題的演化趨勢,這對于網(wǎng)民了解事件演化、網(wǎng)絡(luò)監(jiān)管部門引導(dǎo)輿情有著很重要的現(xiàn)實(shí)意義[2]。

話題檢測與跟蹤(Topic Detection and Tracking,TDT)[3]技術(shù)最初是由美國國防高級研究計劃局提出的。隨后,根據(jù)不同的引入時間方式,話題演化分為先建模后離散時間、將時間這個變量引入到模型中(如TOT模型[4])以及先離散化時間再建模(如DTM模型[5])三種[6]。

鑒于上述模型不能在線處理文本,Alsumait等人提出了在線LDA(On-Line LDA,OLDA)[7]模型和晏小輝等人提出了OBTM[8]模型,較好地解決了這一局限性,且OBTM更適用于短文本。裴可鋒等人[9]考慮到OLDA存在主題混合以及定義權(quán)重的問題,提出了可變在線LDA(Variable Online LDA,VOLDA)模型,通過刪除含舊主題的時間片、優(yōu)化動態(tài)權(quán)重計算公式以及先驗(yàn)參數(shù),有效地減少了新舊主題混合問題并提高了主題演化的表示能力。蔣權(quán)等人[10]設(shè)計了動態(tài)負(fù)載策略并優(yōu)化了文檔權(quán)值計算公式,提出了分布式OLDA(Distribute Online LDA,DOLDA)模型,緩解了OLDA效率低下和發(fā)現(xiàn)新主題能力差的問題。余本功等人[11]利用雙通道模式對主題-詞分布的遺傳度進(jìn)行優(yōu)化,提出了基于雙通道的OLDA模型,有效緩解了主題混合以及冗余詞多的問題。李慧等人[12]充分利用微博的文體特征,提出了基于話題標(biāo)簽的微博熱點(diǎn)話題演化模型(Label On-line LDA,LOLDA),增強(qiáng)了模型演化主題的能力。

綜上所述,現(xiàn)有文獻(xiàn)尚未充分利用OBTM進(jìn)行話題演化研究。針對OBTM建模得到的主題混合且冗余詞較多導(dǎo)致不能明確描述主題的問題,本文提出基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。在OBTM的基礎(chǔ)上,首先,分別將前一時間片內(nèi)基于標(biāo)簽、微博內(nèi)容的文檔-主題分布作為當(dāng)前時間片內(nèi)對應(yīng)文檔-主題分布的Dirichlet先驗(yàn)參數(shù),以提高發(fā)現(xiàn)新主題的水平,緩解主題混合的缺陷;其次,在前一時間片文檔-主題分布的基礎(chǔ)上增加主題排名,優(yōu)化當(dāng)前時間片上主題-詞分布的Dirichlet先驗(yàn)參數(shù)計算方法,以減少冗余詞,從而更準(zhǔn)確地描述主題。

1 相關(guān)技術(shù)

1.1 OBTM主題模型

OBTM是一種借鑒了OLDA并更適用于短文本的主題演化模型,該模型的主要思想是:首先,將所有文本集按時間片劃分;然后,對于每一個時間片上的文本子集分別使用BTM建模,為了使建模結(jié)果具有延續(xù)性,OBTM將歷史時間片的主題-詞分布作為當(dāng)前時間片上主題-詞分布φtk的Dirichlet先驗(yàn)參數(shù)[13]:

1.2 LOLDA主題模型

文獻(xiàn)[12]提出了一種在OLDA的基礎(chǔ)上增加微博話題標(biāo)簽的主題演化模型LOLDA,在建模前,通過參數(shù)λd來判斷一篇微博短文本是否含有話題標(biāo)簽“#”:

其中,λd=0表示含標(biāo)簽,則該微博的文檔-主題分布θd由基于標(biāo)簽內(nèi)容的文檔-主題分布θs決定;相反,λd=1表示不含標(biāo)簽,則θd由基于微博內(nèi)容的文檔-主題分布θr決定。

2 基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法

針對微博短文本有特殊的文體特征、OBTM建模得到的主題混合且冗余詞頻率高導(dǎo)致不能明確描述主題的問題,本文提出基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。首先,采集微博數(shù)據(jù)并按時間片切分;然后,在每一個時間片內(nèi)依據(jù)話題標(biāo)簽區(qū)分語料庫(含標(biāo)簽和不含標(biāo)簽的兩類數(shù)據(jù)集),再進(jìn)行文本預(yù)處理;最后,利用LPOBTM建模,進(jìn)行熱點(diǎn)話題在內(nèi)容和強(qiáng)度上的演化分析。算法流程圖如圖1所示。

圖1 算法流程圖Fig.1 Flowchart of algorithm

2.1 微博短文本集預(yù)處理

微博短文本集預(yù)處理主要包括按時間片切分?jǐn)?shù)據(jù)集、根據(jù)標(biāo)簽區(qū)分語料庫和文本預(yù)處理三個部分,其中,文本預(yù)處理又包括微博短文本過濾、分詞及詞性標(biāo)注、去停用詞和特征選擇四個部分。具體流程如圖2所示。

圖2 微博短文本集預(yù)處理流程圖Fig.2 Flowchart of microblog short text set preprocessing

2.2 LPOBTM主題模型

借鑒文獻(xiàn)[12]中利用λd判斷是否含有話題標(biāo)簽,以區(qū)分語料庫的方法,本文在OBTM主題模型的基礎(chǔ)上進(jìn)行改進(jìn)。LPOBTM模型圖如圖3所示。圖中,各符號表示的含義如表1所示。

圖3 LPOBTM圖模型Fig.3 Diagram model of LPOBTM

表1 符號及其含義Table 1 Symbols and their meanings

LPOBTM具體改進(jìn)方法如下:

(1)針對原始OBTM建模主題混合,導(dǎo)致不易發(fā)現(xiàn)新主題的問題,本文將t-1時刻建模生成的基于標(biāo)簽、微博內(nèi)容的文檔-主題分布作為t時刻對應(yīng)文檔-主題分布的Dirichlet先驗(yàn)參數(shù)

其中,K為主題個數(shù);M為文檔總數(shù);θm,k為文檔dm中主題k的概率,由Gibbs抽樣得到的θs,k和θr,k決定,采樣的條件概率如下[15]:

基于標(biāo)簽、微博內(nèi)容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w如下:

其中,nk表示主題k中詞對的個數(shù),nw|k表示詞w賦給主題k的個數(shù),n.|k表示賦給主題k的總詞數(shù),W為數(shù)據(jù)集的總詞數(shù)。

(2)針對冗余詞頻率高,導(dǎo)致不能準(zhǔn)確描述主題的問題,本文對公式(1)進(jìn)行改進(jìn),增加t-1時刻的主題強(qiáng)度排名,并借鑒Sigmod函數(shù)優(yōu)化先驗(yàn)參數(shù)β的計算方法:

8.根據(jù)公式(8)、(9)和(10)計算基于標(biāo)簽、微博內(nèi)容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

實(shí)驗(yàn)在Win 10以及Ubuntu 15.10,配置8 GB內(nèi)存和Intel Core i5-5200U 2.20 GHz CPU的硬件環(huán)境下進(jìn)行,數(shù)據(jù)采集軟件為八爪魚V7.6.4,編譯語言為Python3。

本文采用2019年3月12日至3月17日新浪平臺發(fā)布的微博作為話題演化的數(shù)據(jù)集,以1天為時間片劃分。經(jīng)過文本預(yù)處理,保留了10 000條微博,其中7 000條作為訓(xùn)練集,3 000條作為測試集。

3.2 模型參數(shù)的確定

本文利用困惑度(perplexity)[16]確定最優(yōu)主題數(shù)K值,困惑度用來評價模型的泛化能力,其值越小表明建模效果越好。公式如下:

其中,W表示文本集,p(wd)為第d篇文本中詞的概率,Nd為第d篇文本中的詞數(shù)。

圖4 LPOBTM在不同主題數(shù)下的困惑度Fig.4 Perplexity of LPOBTM under different topic numbers

由圖4可知,當(dāng)主題數(shù)目K=6時,困惑度最小,表明此時LPOBTM的建模效果最好,故本文選取最優(yōu)主題數(shù)目K=6。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 內(nèi)容演化分析

本文選取Topic 4在每個時間片上的Top 6個特征詞,展示該話題的內(nèi)容演化情況,如表2所示。

表2 Topic 4的內(nèi)容演化情況Table 2 Content evolution of Topic 4

從表2可以看出,Topic 4說的是“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”,隨著時間變化,特征詞也在發(fā)生變化,說明話題內(nèi)容在進(jìn)行演化。時間片1中展示了成都七中學(xué)生胃疼,家長前往食堂拍照取證并發(fā)現(xiàn)食材發(fā)霉,事件由此開始;時間片2和3中,家長聚集并發(fā)生踩踏事故,警方帶離,隨后省教育廳對成都教育局進(jìn)行核查,溫江區(qū)公安對食堂責(zé)任人進(jìn)行調(diào)查;時間片4中,主要側(cè)重點(diǎn)包括食材的溯源調(diào)查、照片中相關(guān)食材的檢測、檢測結(jié)果符合標(biāo)準(zhǔn)說明、相關(guān)人員停職檢查等;時間片5中,國務(wù)院食安辦表態(tài)該事件尚未查清,隨后溫江區(qū)市場監(jiān)督管理局再次核查食材;時間片6中,主要包括召開發(fā)布會、校長解聘、董事會重組并澄清相關(guān)不實(shí)信息等。

3.3.2 強(qiáng)度演化分析

本文選取Topic 1(315晚會)、Topic 2(李勝利事件)、Topic 4(成都七中實(shí)驗(yàn)學(xué)校食品安全事件)這三個話題,根據(jù)公式(13)計算主題強(qiáng)度,進(jìn)行強(qiáng)度演化分析,話題強(qiáng)度演化圖如圖5所示。

圖5 話題強(qiáng)度演化圖Fig.5 Intensity evolution of topics

從圖5可以發(fā)現(xiàn),“315晚會”這個話題在3月15日之前只有很少的主題強(qiáng)度,而在3月15日當(dāng)天,主題強(qiáng)度急速增長,并且在之后的兩天都保持較高的強(qiáng)度;“李勝利事件”這個話題在3月12日已經(jīng)有相當(dāng)高的主題強(qiáng)度且在之后的時間片內(nèi)保持緩慢下降的趨勢,說明該話題在3月12日當(dāng)天或者之前已經(jīng)達(dá)到了事件的高潮,從13日開始演化直至逐漸消亡;“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”這個話題在3月12日已經(jīng)有較少的主題強(qiáng)度且隨著時間推移較快增長,最終在3月15日到達(dá)頂峰,說明該話題在3月12日已經(jīng)開始產(chǎn)生,經(jīng)過2天的演化,在3月15日達(dá)到高潮,然后逐漸消亡。

3.4 與其他熱點(diǎn)話題演化模型的比較

為了驗(yàn)證LPOBTM在話題演化方面的優(yōu)勢,本文將LPOBTM與文獻(xiàn)[8]的OBTM模型、文獻(xiàn)[11]的基于雙通道的OLDA模型以及文獻(xiàn)[12]的LOLDA模型進(jìn)行比較,利用這四種模型對數(shù)據(jù)集進(jìn)行建模并分析實(shí)驗(yàn)結(jié)果。

為展示四種模型的話題演化能力,本文選用“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”這個話題的詞分布進(jìn)行分析,因?yàn)樵撛掝}在6個時間片內(nèi)具有較為完整的演化過程,且在時間片1和6上的特征詞區(qū)別較大,便于作比較。表3展示了Topic 4在時間片1和6上的Top 5個特征詞。

表3 四種模型關(guān)于Topic 4在時間片1和6上的特征詞Table 3 Four models about specific words of Topic 4 on Time 1 and 6

如表3所示,LPOBTM建模得到的特征詞可以更好地概括和描述主題,在不同的時間片內(nèi)可以更確切地發(fā)現(xiàn)話題在內(nèi)容上的演化趨勢。這是因?yàn)長POBTM在考慮了微博話題標(biāo)簽的同時,改進(jìn)了先驗(yàn)參數(shù)的計算方法,刪除了容易導(dǎo)致主題意義不明確的冗余詞,因此LPOBTM相比其他三種模型能夠更準(zhǔn)確地描述話題內(nèi)容的演化情況。

為了量化地比較這四種模型在話題演化方面的能力,本文計算了不同時間片內(nèi)四種模型的困惑度,如圖6所示。

圖6 四種模型在不同時間片內(nèi)對應(yīng)的困惑度Fig.6 Perplexity of four models in different time slices

由圖6可知,LPOBTM的困惑度在任意時間片上均小于其他三種模型的困惑度,由此說明LOBTM模型有更好的主題泛化能力,可以獲得更好的話題演化效果。

4 結(jié)束語

本文研究了如何更準(zhǔn)確地描述微博熱點(diǎn)話題的演化趨勢,提出了基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。針對主題混合、新主題挖掘困難的問題,按照有無話題標(biāo)簽,本文將文檔-主題分布分為基于標(biāo)簽、微博內(nèi)容的文檔-主題分布,并設(shè)置了對應(yīng)的先驗(yàn)參數(shù)傳遞,以此來保持舊主題在新時間片內(nèi)的連續(xù)性;其次,為了更準(zhǔn)確地描述主題演化趨勢,通過增加主題強(qiáng)度排名,提高了重要主題的遺傳度,優(yōu)化了主題-詞分布的先驗(yàn)參數(shù)計算方法,減少了冗余詞的概率。實(shí)驗(yàn)結(jié)果表明,LPOBTM能夠?qū)崿F(xiàn)熱點(diǎn)話題內(nèi)容和強(qiáng)度的演化分析,且與OBTM、基于雙通道的OLDA以及LOLDA模型相比,LPOBTM能夠更準(zhǔn)確地描述熱點(diǎn)話題的內(nèi)容演化情況,并且在各時間片內(nèi)都有更低的模型困惑度。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 黄色网在线免费观看| 搞黄网站免费观看| 久操中文在线| 亚洲成人精品| 国产欧美另类| 亚洲综合精品香蕉久久网| 五月婷婷综合在线视频| 四虎影视国产精品| 亚洲国产一成久久精品国产成人综合| 99久久国产自偷自偷免费一区| 精品国产美女福到在线不卡f| 国产网站黄| 亚洲国产看片基地久久1024| 伊人成人在线视频| av午夜福利一片免费看| 国产迷奸在线看| 色综合婷婷| 91亚洲免费| 国产精品护士| 久久精品人人做人人爽电影蜜月 | 欧美日韩中文国产va另类| 中文国产成人精品久久一| 片在线无码观看| 无码粉嫩虎白一线天在线观看| igao国产精品| 国产91小视频在线观看| 97国产一区二区精品久久呦| 四虎影视库国产精品一区| 高清色本在线www| 久久精品aⅴ无码中文字幕| 四虎综合网| 亚洲中文无码av永久伊人| 亚洲国产成熟视频在线多多 | 精品视频福利| 亚洲第一在线播放| 国产成人91精品免费网址在线| 亚洲精品少妇熟女| 九色在线观看视频| 亚洲三级a| 久久精品一品道久久精品| 自拍偷拍欧美| 国产成人av一区二区三区| 国产高清无码麻豆精品| 国产成年无码AⅤ片在线| 在线欧美国产| 91久久偷偷做嫩草影院| 国产在线观看精品| 91精品啪在线观看国产60岁 | 亚洲综合色区在线播放2019| 亚洲va视频| 99久视频| 国产欧美亚洲精品第3页在线| 99视频精品全国免费品| 国产情精品嫩草影院88av| 成人免费视频一区| 国产97视频在线| 亚洲精品第一页不卡| 67194在线午夜亚洲| h网址在线观看| 四虎精品黑人视频| 精品一区二区三区自慰喷水| 乱人伦视频中文字幕在线| 在线免费看黄的网站| 最新加勒比隔壁人妻| 欧美另类一区| 秋霞国产在线| 亚洲欧美日韩中文字幕一区二区三区 | 一级爆乳无码av| 最新国语自产精品视频在| 国产精品久久久久久久久久98| 国产精品片在线观看手机版| 少妇极品熟妇人妻专区视频| 亚洲无码日韩一区| 国产免费a级片| 国产网站免费看| 欧美成人综合在线| 久久久精品无码一区二区三区| 亚洲视频a| 91丝袜美腿高跟国产极品老师| 久久香蕉国产线| 丰满人妻久久中文字幕| 波多野结衣在线se|