999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于約束型LDA的評價對象-情感詞關聯關系提取

2021-11-03 01:58:11萬紅新彭欣悅
現代信息科技 2021年8期

萬紅新 彭欣悅

DOI:10.19850/j.cnki.2096-4706.2021.08.008

摘? 要:隨著社交媒體的發展,網絡上產生了大量的評論類文本數據,這些數據蘊含了豐富的情感信息。對這些文本數據進行情感極性分類,需要提取評價對象-情感詞的匹配關系。文章提出了基于約束LDA主題模型的評價對象-情感詞關系提取模型CE-LDA,將語義先驗知識嵌入到LDA模型,在有效提取評價對象和情感詞的同時,發現它們之間的關聯性。通過實驗分析,CE-LDA模型對于評價對象和情感詞及其關聯關系的提取具有較好的效果。

關鍵詞:語義知識;主題模型;約束嵌入;情感分類

中圖分類號:TP311? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)08-0027-03

Extraction of Association Relationship between Evaluation Object and

Emotion Words Based on Constrained LDA

WAN Hongxin,PENG Xinyue

(School of Mathematics and Computer Science,Jiangxi Science & Technology Normal University,Nanchang? 330038,China)

Abstract:With the development of social media,a large amount of comment text data has been generated on the internet,which contain rich emotion information. To classify the sentiment polarity of these text data,it is necessary to extract the matching relationship between the evaluation object and the emotion words. An the evaluation object and the emotion words relationship extracting model CE-LDA based on the constrained LDA topic model is proposed,which embeds semantic prior knowledge into the LDA model,and discovers the relevance between evaluation object and emotion words while effectively extracting them. Through experimental analysis,the CE-LDA model has a good effect on the extraction of evaluation object,emotion words and their associated relationships.

Keywords:semantic knowledge;topic model;constraint embedding;emotion classification

0? 引? 言

互聯網的發展普及使得網絡上產生了大規模的評論類文本數據。如何有效提取海量文本中存在的情感知識,是文本數據挖掘面臨的挑戰問題。應用情感分析技術可以對評論類文本進行情感極性分類,了解輿情走向,從而實現輿情管控和疏導。要有效實現情感分類,首先要能夠提取評價對象和情感詞,并發現它們之間的匹配關系,在此基礎上才可能進行情感分析。

現有評價對象-情感詞提取模型和算法存在的主要問題有:

(1)語義先驗知識的提取。中文文本語義結構復雜,模型對于中文語義難以理解,需要提取語義信息引入到模型。

(2)中文文檔的有效表示。網絡文本的數據量極其龐大,需要有效降低文檔表示的向量維度。

(3)模型的語義嵌入。需要設計有效的語義知識嵌入機制,提高模型對中文文本的語義理解能力。

針對已有模型在評價對象和情感詞提取中存在的問題,本文提出了加入語義知識的CE-LDA(Constraint Embedded LDA)模型,提升模型對于復雜文本中評價對象和情感詞的識別度。

1? 研究現狀

LDA(Latent Dirichlet Allocation)主題模型[1]是一種概率型文本生成模型,可以利用模型進行關鍵詞聚類,從而提取評價對象、評價詞及其關聯關系。

譚旭等(2018)[2]結合文本解析和深度學習來實現文本數據的多層次特征選擇及情感極性分類,并結合LDA模型和時間序列分析實現動態的多粒度的情感分析;Titov等(2008)[3]將LDA主題模型擴展為廣粒度的MG-LDA(Multi-Grain LDA)模型,進行了全局評價對象和局部評價對象的區分;Lin等(2009)[4]對LDA模型進行改進,將情感特征作為層結構加入LDA,設計了JST(Joint Sentiment Topic)模型來抽取評價對象和評價詞;Ozyurt等(2020)[5]考慮到數據稀疏問題和缺乏共現模式,設計了SS-LDA(Sentence Segment LDA)模型用于提取商品特征屬性;Thenmozhi等(2019)[6]提出了基于LDA的話題提取模型,跟蹤和分析可以為各種領域的決策意見提供參考的情感信息;Albuquerque等(2019)[7]提出了基于適用于不同類型數據的Rlda分析模型:模型的數據聚類分析可以應用于生態、遙感、營銷和金融等不同領域;彭云等(2017)[8]提出了語義關聯介入的SRC-LDA(Semantic Relation constrained LDA)模型,用語義先驗知識嵌入到LDA模型,提高模型對于上下文關系的理解力;Lu等(2011)[9]利用種子詞語來強化主題和評價詞之間的關系,提出了STM(Sentiment Topic Model)主題模型,可以實現文檔級別和句子級別的主題提取;Park等(2019)[10]通過基于LDA的主題建模來識別和預測文本主題信息,在加權參數的幫助下提取與未來相關的風險主題;崔雪蓮等(2018)[11]基于LDA模型提出了無監督的評論文本的情感分析主題模型,利用情感詞典的詞語褒貶性進一步計算,從而獲取情感極性分類。

2? 模型設計

在LDA模型中嵌入詞語的語義關系先驗知識,來影響LDA模型的詞語屬于主題的概率分布,發現更多的符合語義要求的評價詞和情感詞,并通過主題聚類來挖掘它們之間的關聯關系。語義關系主要考慮評價對象詞語之間的主題必然關系和互斥關系。

2.1? 評價對象之間的必然語義關系

必然語義關系是指這類評價對象詞語在主題分布中,盡可能地分配到同一主題。評價對象的必然語義聯系主要考慮同義詞,同義詞在主題分配時,分配到同一主題的概率要高于非同義詞,這樣可以提高主題對于評價對象的內聚度,如商品評論中的“價格”“價位”和“價碼”等詞語,如圖1所示,其中有邊直接連接的評價對象具有必然語義關系。利用同義詞詞典可以實現評價對象的必然語義關系。

2.2? 評價對象之間的互斥語義關系

利用句法依存和詞性分析,可以實現互斥語義關系的提取,如以上2個例句中的評價對象可表示為如圖2所示,其中有邊直接連接的評價對象具有互斥關系。

互斥語義關系是評價對象詞語在主題分布中,盡可能地分配到不同主題。這種關系可以從句式結構中進行挖掘,一般一個完整句子中評價對象不會重復出現,如商品評論中的句子“不但價格合適,而且外形也很漂亮”“色彩很亮,重量很輕,運行速度也飛快!”等,這些句子中的評價對象基本不會重現,可以利用這種互斥關系來影響主題的詞語分配。

2.3? CE-LDA模型設計

CE-LDA模型在標準LDA模型基礎上,將提取的語義信息引入到主題-詞語分配,提高LDA模型的語義關系理解能力。

2.3.1? 語義約束

在詞語進行主題分配時,查找詞語的必然語義關系集合Sm和互斥語義關系集合Sc,如果詞語存在于相應集合中,則和主題已分配的詞語進行關系確認,并找出已分配詞語和當前詞語的關系。如果主題與詞語關系屬于Si,則增加當前詞語屬于該主題的概率,否則減少屬于該主題的概率。

2.3.2? CE-LDA模型

CE-LDA模型依然保持為三層結構:文檔層、主題層和詞語層。只是在主題-詞語分配時,需要根據當前詞語與已分配主題詞語的必然關系和互斥關系進行概率的調整。CE-LDA模型設計如圖3所示,符號說明如表1所示。

2.3.3? 評價對象和情感詞關聯關系提取算法

算法主要考慮主題-文檔分布θ、主題-詞語分布φ以及受約束的主題-詞語分布φm和φc,具體步驟為:

(1)選擇主題分布θ~Dirichlet(α)。

(2)選擇詞語分布φ:

1)if(r=1)選擇詞語分布φc~ζc·Dirichlet(β);(ζc是互斥語義關系權重參數)。

2)else if(r=2)選擇詞語分布φm~ζm·Dirichlet(β);(ζm是必然語義關系權重參數)。

3)else選擇分配概率φ~Dirichlet(β)。

(3)對于待分配的文檔詞語w:

1)主題分布概率z~θ。

2)if(w∈Sm)選擇詞語w~φm

3)if(w∈Sc)選擇詞語w~φc

4)else選擇詞語w~φ。

(4)文檔-主題分布參數θ和詞語-主題分布參數φ如式(1)和(2)所示。

3? 實驗比較和分析

實驗數據來源于淘寶購物平臺用戶的“平板電腦”商品評論文本數據,共采集98 647篇文檔,包含374 632個句子。對商品評論文本數據的評價對象-情感詞的關聯關系提取進行比較,主要考察關系提取的召回率,對比的模型包括:JST模型、STM模型和CE-LDA模型。用召回率來評估評價對象-情感詞的關聯關系的提取率,如圖4所示。其中,橫坐標表示主題個數,縱坐標表示召回率。

從圖4不同模型的召回率對比可以發現,隨著主題個數的增加,召回率都在提升,這是由于主題詞語增加后,必然會發現更多的關聯關系。CE-LDA模型的提取率優于其他模型,尤其是當主題數設置為90~120個時,其他模型的關系提取率沒有顯著提升,而CE-LDA模型的提取率明顯高于其他模型。由于在CE-LDA模型中嵌入了2類語義約束,使得主題內部的內聚度提高,而主題之間的耦合度減少。

4? 結? 論

在海量的中文網絡文本數據挖掘中,復雜的語義關系增加了評價對象和情感詞的挖掘難點。CE-LDA模型對現有LDA模型進行了改進,提出了約束型的LDA主題模型,將詞語間的必然語義關系和互斥語義關系加入LDA。通過對不同模型的評價對象和評價詞關聯關系提取進行比較和分析,發現本文提出的CE-LDA模型的召回率優于其他模型。通過實驗數據表明,在LDA模型中引入語義先驗知識,可以改善LDA概率型模型對于詞語語義關系理解的不足,在主題-詞語分配中提高詞語的主題內聚度,同時降低詞語的耦合度,提升主題對詞語關系的識別度和區分度,從而更有效地提取評價對象詞、情感詞及其之間的關聯關系。

參考文獻:

[1] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3(3):993-1022.

[2] 譚旭,吳俊江,徐磊,等.面向深度學習的多維度中文網絡輿情分析 [J].小型微型計算機系統,2018,39(7):1471-1477.

[3] TITOV I,MCDONALD R. Modeling online reviews with multi-grain topic models [C]//Proceedings of the 17th international conference on World Wide Web(WWW).New York:Association for Computing Machinery,2008:111-120.

[4] LIN C H,HE Y L. Joint sentiment/topic model for sentiment analysis [C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management(ACM CIKM).New York:Association for Computing Machinery,2009:375-384.

[5] OZYURT B,AKCAYOL M A. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis:SS-LDA [J].Expert Systems with Applications,2020,168:114-231.

[6] THENMOZHI M,INDIRA R,DHARANI R. Using Lexicon and Random Forest Classifier for Twitter Sentiment Analysis [J].International Journal of Computer Science and Engineering,2019,7(6):591-594.

[7] ALBUQUERQUE P,VALLE D,LI D J. Bayesian LDA for mixed-membership clustering analysis:The Rlda package [J].Knowledge-Based Systems,2019,163:988-995.

[8] 彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取 [J].軟件學報,2017,28(3):676-693.

[9] LU B,OTT M,CARDIE C,et al. Multi-aspect Sentiment Analysis With Topic Models [C]//Proceedings of the 11th IEEE International Conference on Data Mining Workshops(ICDMW).Vancouver:IEEE,2011:81-88.

[10] PARK I,YOON B,KIM S,et al. Technological Opportunities Discovery for Safety Through Topic Modeling and Opinion Mining in the Fourth Industrial Revolution:The Case of Artificial Intelligence [J].IEEE Transactions on Engineering Management,2019,99:1-16.

[11] 崔雪蓮,那日薩,劉曉君.基于主題相似性的在線評論情感分析 [J].系統管理學報,2018,27(5):821-827.

作者簡介:萬紅新(1970—),女,漢族,江西南昌人,教授,碩士,研究方向:數據挖掘、軟件工程;彭欣悅(2001—),女,漢族,江西宜春人,研究方向:軟件工程、數據庫技術。

收稿日期:2021-03-16

基金項目:江西省高校人文社科項目(JC191 17);江西省教育廳科技項目(GJJ201127);江西科技師范大學大學生創新創業訓練計劃項目(2021 11318002)

主站蜘蛛池模板: 亚洲男人的天堂久久香蕉| 中文字幕人妻av一区二区| 91久久精品日日躁夜夜躁欧美| 极品尤物av美乳在线观看| 欧美另类精品一区二区三区| 亚洲浓毛av| 国产欧美日本在线观看| a天堂视频在线| 成人免费视频一区二区三区 | 午夜老司机永久免费看片| 国产亚洲精品无码专| 91免费国产在线观看尤物| 在线观看国产精品日本不卡网| 91麻豆精品国产高清在线| 国产一级毛片高清完整视频版| 91精选国产大片| 亚洲AⅤ无码国产精品| 亚洲成综合人影院在院播放| 综合亚洲网| 在线观看国产小视频| 国产一区成人| 亚洲欧美日韩色图| 亚洲免费福利视频| 亚洲香蕉久久| 中文一区二区视频| 99热在线只有精品| 天天综合网亚洲网站| 亚洲日韩精品综合在线一区二区| 亚洲第一视频网| 国产精品人成在线播放| 精品视频91| 精品91在线| 国产视频一区二区在线观看| 激情六月丁香婷婷四房播| 久久性视频| 天天综合网色中文字幕| 欧美日韩在线观看一区二区三区| 国产一级一级毛片永久| 国产免费好大好硬视频| 午夜精品影院| 青青草国产在线视频| 中文字幕在线一区二区在线| 欧美在线导航| 韩日无码在线不卡| 国产性生交xxxxx免费| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲欧美极品| 久久不卡精品| 2021无码专区人妻系列日韩| 91麻豆国产在线| 日本成人一区| 日韩视频免费| 茄子视频毛片免费观看| 99视频精品全国免费品| 国产av一码二码三码无码| 亚洲精品视频免费观看| 中文字幕自拍偷拍| 又粗又硬又大又爽免费视频播放| 欧美成在线视频| 国产96在线 | 亚洲精品无码不卡在线播放| 久久黄色小视频| 亚洲天堂久久久| 欧美亚洲网| 日韩经典精品无码一区二区| 狠狠躁天天躁夜夜躁婷婷| 国产剧情国内精品原创| 亚洲国产日韩视频观看| 国产免费自拍视频| AV片亚洲国产男人的天堂| 九九免费观看全部免费视频| 久久久久国产一级毛片高清板| 国产精品丝袜在线| 国产91无毒不卡在线观看| 国产免费看久久久| 久久婷婷综合色一区二区| 国产在线自揄拍揄视频网站| 亚洲欧美日韩色图| 极品av一区二区| 国模极品一区二区三区| 久久五月天综合| 欧美a网站|