999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義詞向量的自媒體短文本主題建模

2019-12-23 07:24:21黃嬋
計算機時代 2019年12期

黃嬋

摘? 要: 短文本建模的稀疏問題是短文本主題建模的主要問題,文章提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。采用半自動的方法對短文本信息進行擴充,對短文本相應詞語進行同義詞林處理,增加短文本集合中詞共現信息,豐富文檔內容,推理出較高質量的文本主題結構,解決短文本的詞共現信息不足的問題。實驗表明,SWEM模型優于LDA、BTM等傳統模型。

關鍵詞: 短文本; 主題建模; 同義詞; SWEM

中圖分類號:TP311? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)12-57-04

Topic modeling of self-media short text based on semantic word vector

Huang Chan

(Ganzhou teachers college, Ganzhou, Jiangxi 341000, China)

Abstract: The sparse problem of short text modeling is the main problem of short text topic modeling. This paper proposes a word-vector based short text topic modeling model SWEM (Semantics word embedding modeling). It uses semi-automatic method to expand short text information, the word in short text is processed with corresponding synonyms of the word, to increase word co-occurrence information in short text set, to enrich document content, so as to infer a high quality text topic structure and to solve the problem of insufficient co-occurrence of words in decisive texts. Experiments show that SWEM model is superior to traditional models such as LDA and BTM.

Key words: short text; topic modeling; synonym; SWEM

0 引言

自媒體是指以現代化、電子化的手段,向不特定的大多數或者特定的單個人傳遞規范性及非規范性信息的新媒體的總稱。通常以短文本的形式活躍于視野中。其特點主要有文本長度較短,內容表達隨意常出現一些錯別字、同音字詞,甚至出現流行網絡用語。因此,在海量的短文本數據內挖掘有價值的信息是一項極具挑戰的任務。

1 相關研究

主題模型(topic model)是指以非監督學習的方式對文集的隱含語義結構進行聚類的統計模型[1],而主題建模能夠從一個文本對象中自動識別它的主題,且發現隱藏的模式,有助于作出更好的決策。自媒體作為短文本的一種常見特性,挖掘其主題具有較強的實用價值,已經得到了科研工作者的關注與研究。

Malone[2]等人在1987年就發表了具有影響力的論文,提出了最早的協同過濾。2003年,Blei等學者提出了隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[3]模型。晏小輝[4]等的學者提出了一個雙詞主題模型(Biterm Topic Model,BTM),對雙詞來建模,構成了雙詞-主題-單詞的三層結構。唐曉波等[5]人建立了基于主題圖的用戶興趣模型,運用無尺度圖K-中心點算法對主題圖進行更深層次的聚類挖掘。鄧智龍[6]則提出了用戶興趣關聯規則的興趣發現方法,發現各個興趣之間的關聯規則。趙捧未等[7]提出的用戶興趣模型構建方法是利用了本地節點資源和知識地圖的構建。胡吉明等[8]從模塊度改進的角度,針對用戶興趣多元化和關系社區的交叉性特點對社區發現算法進行了改進。

從上述的研究成果中可以看出,其核心部分都是建立主題模型,但建模過程中都面臨了短文本的稀疏問題,遺憾的是多數作者并沒有提出快速而簡易的方法。

本文結合其他研究者思路對解決短文本的稀疏問題進行分析與研究。提出語義詞向量模型(Semanticswordembedding modeling,SWEM),對詞向量進行建模,對海量短文本自媒體信息構建結構化主題,發現社團和意見領袖。

2 一種基于語義詞向量的自媒體短文本主題建模

2.1 自媒體短文本主題建模分析

傳統的主題模型是對文檔產生過程建模,認為存在文檔、主題、詞三層結構,文檔包含多個主題,詞由每個詞產生,隱式地利用文檔級別的詞共現信息推理主題結構,這類模型較適應于長文本。然而,短文本文檔經過去停用詞等手段處理之后,每個文本包含的詞數通常非常少,當傳統模型應用在短文本時,詞頻信息和詞共現信息嚴重不足,導致稀疏問題。在使用推理算法時,難以準確地推理出文檔中主題分布參數與主題和詞的分布參數,大大影響短文本主題建模的效果。因此,解決短文本的稀疏問題是重點。

2.2 語義詞向量模型

哈工大同義詞詞林能針對不同的詞語的語義進行不同角度的詞匯擴充。面對同義詞林的優勢,不難想到利用哈工大同義詞詞林,采用半自動的方法對短文本信息進行擴充,緩解短文本信息量少的問題。將所有的短文本相應詞語進行同義詞林處理,使文檔組成一個語料集合,在短文本語料集合內詞共現信息就會明顯增加,豐富文檔級別的詞共現信息,能夠推理較高質量的主題結構,解決短文本的詞共現信息不足的問題。基于此,提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。

⑴ 同義詞詞林簡介

《同義詞詞林》[9]是80年代出版的一部對漢語詞匯按語義全面分類的詞典,收錄詞語近7萬。

同義詞詞林共提供3層編碼,隨著級別的遞增,詞義刻畫越來越細,到了第五層,每個分類里詞語數量已經不大,常常是只有一個詞語,已經不可再分,可以稱為原子詞群、原子類或原子節點。其中第一級用大寫英文字母表示大類;第二級用小寫英文字母表示中類;第三級用二位十進制整數表示小類;新增的第四級和第五級的編碼與原有的三級編碼并構成一個完整的編碼,唯一代表詞典中出現的詞語。具體編碼如表1所示。

⑵ SWEM模型

語義詞向量模型(Semantics Word Embedding Modeling,SWEM)將假設整個短文本數據集合服從一個主題分布,主題服從高斯分布,對全局內的詞向量,包括原來集合內可觀察到的詞向量和對應詞的同義詞向量進行建模。

對于短文本來說,文檔級的詞頻信息和詞共現信息不足,SWEM模型摒棄了文檔級的主題分布,假設整個語料集合服從同一個主題分布,其具體描述表述如下:首先,根據超參數[α]生成語料集合的主題分布[θ],然后,在該主題分部下選擇一個主題[Zk],通過參數[μk]和[σk2]生成主題詞向量的高斯分布,最后,在這個高斯分布中生成每個詞向量。SWEM模型的概率圖模型如圖1所示。

模型含義:給定一個短文本語料D{d1, d2, ...,dn},每篇文檔對應的詞向量是[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1代表原本文檔中的詞項,[w1']等代表的是文檔中詞向量的同義詞向量。取zk∈[1,k]當做主題的標量,[θ]表示短文本語料集合的主題分布,其中[θ]采用狄利克雷先驗,其超參[α],主題跟詞向量之間采用高斯混合分布,[α]代表第k個高斯模型權重,[μk]代表的是第k個高斯模型的均值,[σ2k]代表的是第k個高斯模型的協方差。

⑶ 基于SWEM主題模型描述

① 對每篇文檔內詞向量進行同義詞林泛化,求得隱含詞向量[w'] ,加入原來的短文本文檔中。

② 對整個短文本語料集合采樣一個主題分布:[θ~ Dirichlet(α)]。

③ 對每個主題[Zk],k∈[1,k],采樣一個主題詞向量分布[ψk~ Gaussian(μk,σ2k)]。

④ 對于每個詞向量w∈W,包括原文檔的詞向量和生成的同義詞向量:

(a) 采樣一個主題[Zk~Multinomial(θ)];

(b) 采樣一個詞向量[W~Multinomial(ψk)]。

根據以上的產生式可知:詞向量集合W是觀測變量,包括原來文本中的詞向量和對應生成的同義詞向量,主題分布[θ]和主題詞向量分布[μk]主題z是隱含變量,[α]為模型超參,[μk],[σ2k]是第k個分部高斯模型的均值和協方差。

給定觀測數據詞向量集合[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1等代表原本文檔中的詞項,[w'n+1]等代表對應生成的同義詞向量。模型是包含 K個高斯分布的高斯混合分布,假設詞向量W來自如下的高斯混合分布的似然函數為:

[p(W|p)=i=1N+N'k=1kλkf(wi|uk,σ2k)]? ⑴

對式⑴取對數,似然函數變換為:

[log(p(W|p))=i=1N+N'log(k=1kλkf(wi|uk,σ2k))]? ⑵

從式⑵中可以看出目標函數難以對其進行求偏導處理。于是采用無EM算法[10]估計參數[λk], [μk], [σ2k]的值。

3 實驗

3.1 實驗數據

為驗證模型的主題建模能力。本文選擇近期搜集Twitter自媒體數據165360條數據。在對這些數據進行去噪過濾基礎上分詞處理,去除停用詞等及舍棄在文檔集合內出現低于10次數的詞。如表2展示了每個數據集的文檔數目、詞典大小、平均文檔的長度。

在詞向量的選擇上,使用谷歌新聞語料訓練的詞向量,詞向量維數為200。在除停用詞等無意義的詞后,選擇Skip-gram算法訓練,其他參數為模型默認值,最終生成數據集。同時在數據集中本文采用Twitter提供的主題標簽(Hashtag)功能對數據集進行分類(工具采用線性SVM分類器),并提取其中的內容。抽取20個高頻的Hashtag作為分類數據的標簽。如表3所示。

從表3中可以看到Twitter數據集的主題種類繁多,能為檢驗模型分類性能試驗提供支持。

3.2 模型對比

實驗中首先根據不同模型對文檔進行主題建模之后,分別得出文檔的主題概率分布,用主題概率分布將文檔表示成主題向量,維數為主題的個數,每一維用其包含主題的概率表示。得到文檔d的主題向量表示為D=[P(z=1|d),(z=2|d),…,(z=K|d)],然后,隨機的在數據集合中選出70%作為訓練數據集,其余30%作為測試分類性能的數據集。

為更清晰的對比,本文將選擇LDA模型、BTM模型及本文提出的SWEM模型進行對比,驗證各種模型在同一短文本數據集上學習主題的能力,并用PMI Score[11]方法進行測評,一般來說,PMI越大表示的是這兩個單詞主題相關性強。

在各模型的超參數的設置上,為能更好的解決短文本的稀疏問題,分別對LDA模型超參數設置為[α]=0.05,[β]=0.01;BTM模型超參數設置為[α]=50/K,[β]=0.01,并同本文提出的SWEM模型對不同的主題數量下的分類性能PMI Score對比,如圖2所示。

4.3 結果分析

從圖2中Twitter數據集上模型分類性能實驗中可以看出,SWEM模型分類性能優于BTM模型及LDA模型。在主題數為80左右的時候,發現SWEM模型表現達到最好。但是隨著主題數增大,分類性能出現下降,可能的原因是某些額外生成的詞向量質量降低,隨著主題數的增大,干擾了主題的學習的質量。

5 結束語

短文本建模的稀疏問題是短文本主題建模的短板,文章采用半自動的方法對短文本信息進行擴充,緩解短文本信息量少的問題。將所有的短文本相應詞語進行同義詞林處理,使文檔組成一個語料集合,在短文本語料集合內詞共現信息就會明顯增加,豐富文檔級別的詞共現信息,能夠推理較高質量的主題結構,解決短文本的詞共現信息不足的問題。實驗表明SWEM模型優于BTM、LDA模型,說明通過同義詞向量建模可以解決稀疏問題。

參考文獻(References):

[1] Papadimitriou,C.H.,Raghavan,P.,Tamaki,H.and Vempala,S.,2000.Latent semantic indexing:A probabilistic analysis.Journal of Computer and System Sciences,61(2),pp.217-235

[2] Malone,T W,Grant,K R,Turbak,F A,et al. Intelligent? information-sharing? systems.Communications of the ACM,1987.

[3] Blei D M,Ng A Y,Jordan M I. Latent dirichletallocation[J].Journal of Machine Learning Research,2003.3:993-1022

[4] Yan X,Guo J,Lan Y,et al. A biterm topic model for short texts[C]// Proceedings of the 22nd international conference on World Wide Web.ACM,2013.1445-1456

[5] 唐曉波,張昭.基于混合圖的在線社交網絡個性化推薦系統研究[J].情報理論與實踐,2013.2:91-95

[6] 鄧智龍,淦文燕.復雜網絡中社團結構發現算法[J].計算機科學,2012.6.

[7] 趙捧未,李春燕,竇永香.語義對等網環境下基于節點知識地圖的用戶模型構建[J].情報理論與實踐,2012.35(2):104-108

[8] 胡吉明,胡昌平.基于關系社區發現改進的用戶興趣建模[J].情報學報,2013.7,32(7):763-768

[9] Mei Jiaju,Zhu Yiming,GaoYunqi,et al.,TongyiciCilin [M]. Shanghai:Shanghai Lexicographical Publishing House,1993.106-108

[10] Moon T K.The expectation-maximization algorithm[J]. IEEE Signal Processing Magazine,1996.13(6):47-60

[11] Newman D,Lau J H,Grieser K,et al.Automatic evaluation of topic coherence[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010.100-108

主站蜘蛛池模板: 超清无码熟妇人妻AV在线绿巨人| 国产成人91精品免费网址在线| 久久精品国产91久久综合麻豆自制| 青草视频久久| 成人国产精品一级毛片天堂| 高潮爽到爆的喷水女主播视频| 日韩成人在线视频| 98超碰在线观看| 四虎亚洲精品| 中文字幕2区| 国产精品视频白浆免费视频| 日韩在线永久免费播放| 亚洲免费黄色网| 国产精品视频系列专区| 特级精品毛片免费观看| 亚洲精品不卡午夜精品| 久久黄色视频影| 97狠狠操| 亚洲av无码人妻| 在线综合亚洲欧美网站| 超碰91免费人妻| 欧美日本在线观看| 99爱在线| 欧美另类第一页| 一级毛片基地| 2021国产在线视频| 国产9191精品免费观看| 国产99免费视频| 欧美亚洲一二三区| 亚洲高清在线播放| 国产成人亚洲精品无码电影| 国产精品一区二区国产主播| 制服丝袜国产精品| 天天综合色天天综合网| 亚洲天堂网站在线| 美女裸体18禁网站| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产理论最新国产精品视频| 一本大道在线一本久道| 97国产成人无码精品久久久| 萌白酱国产一区二区| 免费人成视网站在线不卡| 青青网在线国产| 免费又黄又爽又猛大片午夜| 亚洲一级色| 国内精品视频| 日韩欧美亚洲国产成人综合| 色婷婷在线影院| 国产精品网址你懂的| 狠狠色狠狠综合久久| 四虎在线观看视频高清无码| 免费啪啪网址| 国产精品无码久久久久久| 四虎精品黑人视频| 亚洲人成影院在线观看| 精品欧美视频| 国产精品亚洲αv天堂无码| 日本不卡视频在线| 亚洲黄色视频在线观看一区| a毛片免费观看| 国产 日韩 欧美 第二页| 免费jizz在线播放| 中文字幕久久亚洲一区| 亚洲aaa视频| 国产成人免费手机在线观看视频| 国产在线无码av完整版在线观看| 亚洲综合欧美在线一区在线播放| 99久久精品国产精品亚洲| 好吊色妇女免费视频免费| 成人久久18免费网站| 日韩精品无码免费专网站| 亚洲天堂久久新| 国产精品一线天| 国产亚洲精品97在线观看 | 色综合久久88色综合天天提莫| 女人18毛片水真多国产| 亚洲国产中文综合专区在| 男女男精品视频| 国产又粗又猛又爽视频| 岛国精品一区免费视频在线观看| 欧美午夜在线观看| 91在线丝袜|