999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義增強的短文本主題模型①

2021-06-28 06:27:58張曉濱
計算機系統應用 2021年6期
關鍵詞:一致性語義實驗

高 娟,張曉濱

(西安工程大學 計算機科學學院,西安 710600)

隨著微博、推特等社交平臺成為人們日常生活中信息的主要來源,在網絡中進行評論與交談信息的語義挖掘和關聯信息的研究對于互聯網應用(如:文本分類,社區發現,興趣推薦)來講是非常有價值的[1,2],其中最為基礎的是主題模型的研究.

傳統主題模型例如PLSA (Probabilistic Latent Semantic Analysis)和LDA (Latent Dirichlet Allocation)被廣泛地用來推斷文檔的潛在主題結構.在線PLSA 模型[3]在文檔流中使用一個固定大小的移動窗口,以合并新文檔同時丟棄舊文檔,從而動態地更新訓練模型.LDA[4]構建了一個三層貝葉斯模型,每個文檔可以看作是主題的多項分布,同時主題看作是在詞上的多項分布.然而短文本由于缺乏足夠的上下文信息,使得其在傳統主題模型上表現出數據稀疏的問題.為解決這個問題,Chen 等[5]提出一種基于LDA與K 近鄰的短文本分類算法,算法利用生成主題概率模型使其更關注于文本的語義關系,并利用主題-詞矩陣及其分詞信息來度量兩篇短文本之間的主題相似度,一定程度上減緩了數據稀疏的問題.但是K 近鄰的計算過程導致部分文本分類不準確的問題.Papanikolaou 等[6]在帶標簽的主題模型LLDA (Labeled-LDA)上引入了子集LLDA方法,擴展了帶標簽的LDA 算法主題模型,它不僅可以有效地解決成千上萬個標簽的問題,而且在預測精度方面比LLDA 的最新技術有所提高.Cheng 等[7]提出一種BTM (Biterm Topic Model)模型,BTM 通過直接對語料庫中詞對共現模式(即位詞)進行建模來學習主題,利用豐富的語料庫級信息有效地進行推理.學者們還提出了一些其他可行的方法:(1)根據元數據如用戶標簽[8]、用戶位置等將短文本聚合成長的偽文檔[9,10].這個方法存在的缺陷是有的數據沒有或者很難找到元數據.(2)限制主題的分布[11],即每一篇文檔只屬于一個主題.但這些方法都只使用了詞共現的方法,而沒有充分地考慮到詞的語義關系.Li 等[12]引入GPU(General Pólya Urn) 模型,并結合DMM 模型提出GPU-DMM (GPU-Dirichlet Multinomial Mixture)方法,

該方法通過引入詞嵌入的方法對外部語料庫進行訓練,利用GPU 模型來提升詞之間的語義關系,從而解決語義關系不足的問題.Liang 等[13]提出GLTM (Global and Local word embedding-based Topic Model)模型,模型同樣引入詞嵌入但將其分為全局詞嵌入與局部詞嵌入進一步增強了詞的語義信息,提高采樣詞與語義相關詞的主題相關性.然而該語義增強模型沒有考慮詞相關性強弱的問題,對所有的主題語義相關詞進行了增強,使得主題相關性不夠緊密,對外部語料庫進行訓練得到的全局詞嵌入向量與短文本數據集訓練的局部詞嵌入向量存在維數、語義信息不一致等問題.

本文提出STMSE (Short text Topic Model based on Semantic Enhancement)模型,模型從兩個方面進行改進:首先對外部語料庫進行詞的全局詞嵌入向量訓練,并計算全局詞嵌入向量間的余弦相似度,對收集的短文本數據進行詞的局部詞嵌入向量訓練,并計算局部詞嵌入向量間的余弦相似度,然后進行詞向量融合計算得到詞間的語義相關度,從而解決語義信息不一致和向量維數不同的問題;其次在主題詞采樣過程中選出與采樣詞語義相關性較強的詞,并計算詞的主題語義相關詞權重從而進行詞語義增強.最后將提出的STMSE 模型與BTM,GPU-DMM,GLTM 模型在數據集Web Snippets和Amazon Review 上進行對比實驗,實驗結果表明提出的STMSE 模型在主題一致性與文本分類問題上有更好的表現.

1 STMSE 模型

1.1 DMM 主題模型

生成模型認為一篇文章中的每個詞都是通過“以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語”這樣的一個過程得到.DMM 就是一種生成概率模型,并且認為每個文檔都是由單個主題生成的[14],也就是說文獻集中的每一篇文檔只有一個主題.給定文獻集D,文獻集中的文檔d,詞匯表V和預定義的主題數K.假設每個文檔d都只與一個特定的主題k相關.文檔d中的Nd個詞{wd,1,wd,2···,wd,Nd}由主題-詞多項分布p(w|z=k) 獨立生成,表示為?k,且p(w|z=k)服從參數為β的先驗Dirichlet分布.文檔的主題服從多項式分布,表示為p(z=k)=θk,其中k=1,…K,且主題概率服從參數為α的先驗Dirichlet分布.DMM 生成過程如算法1.

算法1.DMM 生成過程1.采樣主題概率分布k∈{1,···,K}θ~Dirichlet(α)2.對于每個主題采樣主題-詞項分布d∈{1,···,D}?k~Dirichlet(β)3.對于每個文檔zd~Multionmial(θ)(1) 采樣主題(2) 遍歷每個詞w~Multionmial(?zd)w∈{wd,1,···,wd,Nd}采樣詞

算法1 中隱藏變量 φzd通過Gibbs Sampling 過程進行推斷.圖1為DMM 模型的概率圖模型.

圖1 DMM 概率圖模型

1.2 語義增強

傳統主題模型主要是通過詞之間的共現模式即兩個詞出現的次數與前后位置等來確定詞語之間是否相關.但僅以這種方法計算詞語之間的相關性不能充分捕捉短文本的上下文信息,而且不適用于短文本,因為具有較高語義相關度的單詞可能不會在相同的短文本中頻繁出現.而詞嵌入可以保留單詞的上下文信息,故而學習的單詞可以捕獲一般單詞的共現模式[15],即語義或句法上相關的單詞在潛在空間中會被映射得更近.在文獻[16,17]中引入了詞嵌入的方法,通過詞嵌入的方法計算詞與詞之間的語義相關度.為了能夠更好的計算詞之間的語義相關度,本文利用外部知識(谷歌語料)進行詞嵌入訓練,為全局詞嵌入.對實驗數據集進行嵌入學習,獲得短文本上下文的語義特征信息,為局部詞嵌入,然而全局詞嵌入訓練的詞向量與局部詞嵌入訓練的詞向量存在語義信息不兼容的問題且嵌入向量維數存在較大的差距,因此提出通過向量融合計算詞向量間的語義相關度來解決這個問題.

通過全局詞嵌入向量和局部詞嵌入向量對詞進行余弦相似度計算,進而計算出詞的語義相關度.向量間的余弦相似度用下式計算:

其中sim(w,wi)表示詞w與詞wi的余弦相似度,v(w)為詞w的向量表示.通過式(1)計算全局詞嵌入向量的余弦相似度simg(w,wi)與局部詞嵌入的余弦相似度siml(w,wi),通過式(2)計算兩個詞之間的語義相關度:

其中,S R(w,wi) 表示詞w和詞wi的語義相關度.

根據詞的語義相關度構建詞w的語義相關詞集Mw={wi|wi∈V,S R(w,wi)>?}.對采樣詞w的語義相關詞集Mw中的wi應用式(3)計算語義提升矩陣Aw,wi.具體公式如式下:

一般來說,按照詞的語義相關度值降序排序后靠后的詞對主題模型的貢獻率不大,所以只對語義相關詞集Mw中的語義相關度較高的部分詞做語義提升.故先將Mw中詞對的語義相關度值按降序排列,并取前num個詞進行語義提升,計算語義提升矩陣Aw,wi中的語義相關詞權重 μw,wi,如式(4):

由此獲得語義增強的相關詞權重.通過利用GPU模型思想進行詞的語義增強,即對于采樣詞,增加與其主題語義相關性強的詞的個數,從而增強語義相關詞與主題詞間的關系,計算如式(5)、式(6):

1.3 主題模型推斷

主題模型推斷的Gibbs Sampling 過程如下:在每一輪迭代過程中,采樣一篇文檔并記錄相關統計量;為采樣的文檔重新采樣一個新的主題,更新文檔的相關統計量,并對采樣詞的語義相關詞進行語義增強計算.對于文檔中的每個詞,并不是對所有的詞進行語義提升,因為在文檔中不是所有的詞都與主題存在很強的關聯,其中存在一定的噪音詞,因此需要計算主題與單詞的相似性來判斷是否對采樣詞進行語義提升.通過計算采樣主題與采樣詞的語義相關度,如果相似度SR(z,w)>ε,則對采樣詞進行增強計算.其中為每一篇文檔采樣一個主題遵從條件概率:

其中,mk是與主題k相關的文本數.下標?d表示不包括文檔d.采樣算法完成后,對模型中的主題-詞項后驗概率分布p(w|z=k)進行計算,如式(8):

STMSE 模型的Gibbs Sampling 算法過程如算法2.

算法2.Gibbs Sampling輸入:主題數K,α,β,和短文檔集D輸出:主題-詞后驗概率分布Mw

1.初始化數據統計量在每一輪迭代過程中2.在文檔集D 中采樣一篇文檔d,(1)更改與主題相關的文檔的個數,;w∈dnwk=nwk?Nwd nk=nk?Nwd nk=nk?1(2) 對于文檔d 中的詞w,即,更新相關統計量:,;wi∈MwAw,winwik=nwi k?Nwd Aw,wink=nk?Nwd Aw,wi(3) 對于,計算語義提升矩陣 并更新相關統計量,;3.根據式(7)為文檔d 重新采樣一個新主題z,nk=nk+1;(1) 更改與主題相關的文檔的個數w∈d ε nwk=nwk+Nwd nk=nk+Nwd(2) 對于詞,如果SR(z,w)>,更改相關統計量,;wi∈MwAw,winwik=(3) 對每個,計算語義提升矩陣 并更新相關統計量,.nwi k+Nwd Aw,wink=nk+Nwd Aw,wi

2 實驗分析

2.1 實驗數據與參數設置

本文使用Web Snippets 數據集和Amazon Review數據集進行驗證.其中Web Snippets 數據集包括12 340個搜索片段,每個片段屬于8 個類別中的一個類別.Amazon Review 數據集是一系列從1996年5月到2014年7月的亞馬遜產品評論,其中每個片段屬于7 個類別中的一個類別,本文從中隨機采樣20 000 條數據作為本文的數據集.對上述兩個數據集進行預處理,經過數據預處理后的數據集信息如表1所示.

表1 數據集信息

2.2 模型評估與分析

2.2.1 短文本分類

在短文本分類實驗中,根據主題模型的結果,每篇文檔可表達為主題分布p(z|d),即每篇文檔可以表示成一個向量分布.用支持向量機做分類器,并使用其默認參數,進行文檔分類實驗,文檔的分類正確率越高,主題模型學習到的主題結果就越合理,主題之間的區分度也就越高,分類實驗的執行效果就越好.文獻[12]中提到兩種文檔主題條件概率分布的推斷方法:

Naive Bayes (NB) rule:

Summation over Words (SW):

其中,p(w|d)可以用文檔d中出現的詞w的次數來估計,p(z=k|w)可以由貝葉斯準則推斷:

本文采用SW 方法來獲得文檔的主題概率分布.圖2為提出的STMSE 模型與其他基線模型在分類正確率上的實驗結果比較.其中F1 值為式(12)所示:

從圖2(a)與圖2(c)中可看出,本文提出的STMSE模型在分類效果上得到了較好的結果,在兩個數據集上的分類效果比其他模型的都要好.對比圖2的4 個子圖能夠發現:由于Amazon Review 數據集在數據預處理之后的平均文本長度要稍微長一些,具備更豐富的上下文語義,故而在Amazon 數據集上的實驗結果比在Snippets 數據集上的效果要穩定,此外這與語料庫的質量也有一定的關系.GLTM 模型進行了全局與局部詞的嵌入訓練,導致在進行訓練模型的相似度計算上存在一定的數據相似度的冗余計算,因而在進行語義增強的時候沒能將主題進行更好的分類,故而分類準確率相對本文提出的模型較差.而GPU-DMM 模型因為只進行了外部語料庫的詞嵌入訓練,沒有對訓練集進行詞嵌入訓練來獲取上下文信息,同時也沒有根據詞的語義權重進行語義提升故而實驗效果沒有GLTM 的好;而BTM 模型的分類效果最差,是因為利用詞對在建模過程中,詞對共現使得主題的區分性相對變弱了一些,只使用短文本中的詞也使得主題的相關信息比較稀疏,主題識別具有一定的局限性,使得分類效果差.但從圖中BTM 的數據可以得知,直接使用詞對進行主題建模時,使得BTM 模型的穩定性比其他模型要好.

圖2 實驗結果比較

2.2.2 主題一致性

主題一致性表明如果一個主題中最可能出現的詞在語料庫中出現的頻率更高,那么這個主題就更加一致.這個想法與BTM 模型的基本假設一致,即更經常同時出現的詞應該更屬于同一個主題.PMI-Score 利用外部源(例如,維基百科)的大規模文本數據集,基于點態互信息來測量主題相關性,因這些外部源數據集與模型無關,故而PMI-Score 對所有主題模型都是公平的.因此,實驗利用PMI-Score 來驗證主題一致性.

給定主題k和該主題概率排序在前T的詞(w1,···,wT),主題k的PMI值的計算公式如下:

其中,P(wi,wj)為詞對wi和wj在外部數據集(如維基百科)中共現的概率,P(wi)為詞wi在外部數據集中出現的概率.每個模型的主題一致性是所有學習到的PMI-Score的平均值.PMI-Score值越高,主題一致性就越好.實驗給出在主題-詞項分布排列前10 的主題詞,主題個數K分別為20,40,60,80 上的主題一致性評估結果.實驗結果如圖3所示.

從圖3(a)與圖3(b) 可以看出,提出的STMSE模型在主題一致性上表現出了良好的結果,都優于其他主題模型.是因為模型結合了外部知識訓練的全局詞嵌入和短文本訓練的局部詞嵌入并進行了向量的融合計算,提高了語義表示能力和更為準確的主題語義,根據詞的相關度強弱進行了詞的權重比語義增強,加強了詞間的語義關系.實驗結果在Amazon 數據集上比在Snippets 數據集上表現出更好的效果,原因是Snippets 比Amazon 有更高的數據稀疏性.

圖3 PMI 實驗結果

BTM 模型取得了最差的結果,由于訓練過程采用了詞對的模式,所以在主題區分上的效果沒有其他模型效果好.但BTM 主題模型在建模時是通過詞對共現模式來完成的,保留了一部分語義相關詞集以及上下文信息,增強了語義間的關系,給模型帶來了一定的穩定性.在兩個數據集上都表現出相當不錯的效果,且隨著主題數的增加,主題一致性波動不大.GPU-DMM模型相對BTM 模型來說在主題一致性實驗上有的結果要好,是因為GPU-DMM 模型考慮到上下文相關信息,同時也考慮詞匯的語義相關度并增強語義相關度.但當主題數量增多時,主題一致性開始會隨著主題數量的增多效果會變的更好,這是因為主題數量的增多使得語義信息的表達更為充分,而當主題數再增多時,就使得語義的稀疏性變得更強,因此這時增加主題數量使得主題一致性表現變得更差.GLTM 模型利用了外部知識庫進行了語料的訓練從外部知識中獲得的詞的共現詞較多,并結合短文本的上下文信息進行結合分析,實現了在數據集上的主題一致性,取得了次優的結果.

3 總結

本文利用全局詞嵌入與局部詞嵌入進行模型訓練,以獲得外部知識與文本的上下文信息,并根據嵌入向量計算詞的語義相關度,以更好的表達詞之間的語義關系;其次計算語義相關度提升矩陣,對詞進行語義增強,使得同屬于一個主題的單詞之間聯系更加緊密;實驗表明,本文提出的模型在文本分類與主題一致性實驗上要優于其他基線模型,在短文本主題模型構建中具有良好的表現,對于短文本的信息分類有很高的應用價值.

猜你喜歡
一致性語義實驗
記一次有趣的實驗
關注減污降碳協同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
語言與語義
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于事件觸發的多智能體輸入飽和一致性控制
主站蜘蛛池模板: 国产精品妖精视频| 天堂成人在线| 午夜福利网址| 国产成人一区免费观看| 国产一区二区色淫影院| 精品少妇人妻一区二区| 色综合激情网| 欧洲高清无码在线| 国产又粗又爽视频| 999精品色在线观看| 国产精品2| 全免费a级毛片免费看不卡| 亚洲欧美在线综合一区二区三区| 午夜三级在线| 全部毛片免费看| 欧美一级99在线观看国产| 久热中文字幕在线| 久久久久亚洲av成人网人人软件| 国禁国产you女视频网站| 69综合网| 91日本在线观看亚洲精品| 亚洲国语自产一区第二页| 午夜精品区| 国产黄色片在线看| 美女一级毛片无遮挡内谢| 欧美精品亚洲精品日韩专区| 亚洲午夜国产片在线观看| Jizz国产色系免费| 亚洲av无码成人专区| 91久久国产热精品免费| 国产精品手机在线播放| 欧美福利在线观看| 欧美中文字幕无线码视频| 免费a在线观看播放| 97国产精品视频自在拍| 久久黄色毛片| 国产白浆视频| 毛片视频网| 国内精品自在自线视频香蕉| 9啪在线视频| 欧美三级视频在线播放| 国产成人精品一区二区免费看京| 久久青草精品一区二区三区| 欧美啪啪网| 在线视频亚洲欧美| 中文字幕av无码不卡免费| 直接黄91麻豆网站| 欧美区国产区| 夜色爽爽影院18禁妓女影院| 性做久久久久久久免费看| 三级欧美在线| 在线视频精品一区| 久久大香香蕉国产免费网站| 中文字幕在线视频免费| 久久伊人久久亚洲综合| 国产内射一区亚洲| 免费观看成人久久网免费观看| 丰满少妇αⅴ无码区| 国产成人三级| 五月婷婷导航| 亚洲中文在线看视频一区| 日韩无码真实干出血视频| 国产99久久亚洲综合精品西瓜tv| 亚洲日韩高清无码| 亚洲综合二区| 91欧美亚洲国产五月天| 国产凹凸视频在线观看| 国产不卡一级毛片视频| 日韩免费视频播播| a毛片免费在线观看| 2021国产在线视频| 免费人成在线观看成人片| 久久国产V一级毛多内射| 毛片基地视频| 美女无遮挡免费网站| 在线观看亚洲国产| 91国内外精品自在线播放| 国产无遮挡裸体免费视频| 国产在线精品香蕉麻豆| 综合久久五月天| 成人综合网址| 毛片免费观看视频|