萬紅新 彭欣悅
DOI:10.19850/j.cnki.2096-4706.2021.08.008
摘? 要:隨著社交媒體的發展,網絡上產生了大量的評論類文本數據,這些數據蘊含了豐富的情感信息。對這些文本數據進行情感極性分類,需要提取評價對象-情感詞的匹配關系。文章提出了基于約束LDA主題模型的評價對象-情感詞關系提取模型CE-LDA,將語義先驗知識嵌入到LDA模型,在有效提取評價對象和情感詞的同時,發現它們之間的關聯性。通過實驗分析,CE-LDA模型對于評價對象和情感詞及其關聯關系的提取具有較好的效果。
關鍵詞:語義知識;主題模型;約束嵌入;情感分類
中圖分類號:TP311? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)08-0027-03
Extraction of Association Relationship between Evaluation Object and
Emotion Words Based on Constrained LDA
WAN Hongxin,PENG Xinyue
(School of Mathematics and Computer Science,Jiangxi Science & Technology Normal University,Nanchang? 330038,China)
Abstract:With the development of social media,a large amount of comment text data has been generated on the internet,which contain rich emotion information. To classify the sentiment polarity of these text data,it is necessary to extract the matching relationship between the evaluation object and the emotion words. An the evaluation object and the emotion words relationship extracting model CE-LDA based on the constrained LDA topic model is proposed,which embeds semantic prior knowledge into the LDA model,and discovers the relevance between evaluation object and emotion words while effectively extracting them. Through experimental analysis,the CE-LDA model has a good effect on the extraction of evaluation object,emotion words and their associated relationships.
Keywords:semantic knowledge;topic model;constraint embedding;emotion classification
0? 引? 言
互聯網的發展普及使得網絡上產生了大規模的評論類文本數據。如何有效提取海量文本中存在的情感知識,是文本數據挖掘面臨的挑戰問題。應用情感分析技術可以對評論類文本進行情感極性分類,了解輿情走向,從而實現輿情管控和疏導。要有效實現情感分類,首先要能夠提取評價對象和情感詞,并發現它們之間的匹配關系,在此基礎上才可能進行情感分析。
現有評價對象-情感詞提取模型和算法存在的主要問題有:
(1)語義先驗知識的提取。中文文本語義結構復雜,模型對于中文語義難以理解,需要提取語義信息引入到模型。
(2)中文文檔的有效表示。網絡文本的數據量極其龐大,需要有效降低文檔表示的向量維度。
(3)模型的語義嵌入。需要設計有效的語義知識嵌入機制,提高模型對中文文本的語義理解能力。
針對已有模型在評價對象和情感詞提取中存在的問題,本文提出了加入語義知識的CE-LDA(Constraint Embedded LDA)模型,提升模型對于復雜文本中評價對象和情感詞的識別度。
1? 研究現狀
LDA(Latent Dirichlet Allocation)主題模型[1]是一種概率型文本生成模型,可以利用模型進行關鍵詞聚類,從而提取評價對象、評價詞及其關聯關系。
譚旭等(2018)[2]結合文本解析和深度學習來實現文本數據的多層次特征選擇及情感極性分類,并結合LDA模型和時間序列分析實現動態的多粒度的情感分析;Titov等(2008)[3]將LDA主題模型擴展為廣粒度的MG-LDA(Multi-Grain LDA)模型,進行了全局評價對象和局部評價對象的區分;Lin等(2009)[4]對LDA模型進行改進,將情感特征作為層結構加入LDA,設計了JST(Joint Sentiment Topic)模型來抽取評價對象和評價詞;Ozyurt等(2020)[5]考慮到數據稀疏問題和缺乏共現模式,設計了SS-LDA(Sentence Segment LDA)模型用于提取商品特征屬性;Thenmozhi等(2019)[6]提出了基于LDA的話題提取模型,跟蹤和分析可以為各種領域的決策意見提供參考的情感信息;Albuquerque等(2019)[7]提出了基于適用于不同類型數據的Rlda分析模型:模型的數據聚類分析可以應用于生態、遙感、營銷和金融等不同領域;彭云等(2017)[8]提出了語義關聯介入的SRC-LDA(Semantic Relation constrained LDA)模型,用語義先驗知識嵌入到LDA模型,提高模型對于上下文關系的理解力;Lu等(2011)[9]利用種子詞語來強化主題和評價詞之間的關系,提出了STM(Sentiment Topic Model)主題模型,可以實現文檔級別和句子級別的主題提取;Park等(2019)[10]通過基于LDA的主題建模來識別和預測文本主題信息,在加權參數的幫助下提取與未來相關的風險主題;崔雪蓮等(2018)[11]基于LDA模型提出了無監督的評論文本的情感分析主題模型,利用情感詞典的詞語褒貶性進一步計算,從而獲取情感極性分類。
2? 模型設計
在LDA模型中嵌入詞語的語義關系先驗知識,來影響LDA模型的詞語屬于主題的概率分布,發現更多的符合語義要求的評價詞和情感詞,并通過主題聚類來挖掘它們之間的關聯關系。語義關系主要考慮評價對象詞語之間的主題必然關系和互斥關系。
2.1? 評價對象之間的必然語義關系
必然語義關系是指這類評價對象詞語在主題分布中,盡可能地分配到同一主題。評價對象的必然語義聯系主要考慮同義詞,同義詞在主題分配時,分配到同一主題的概率要高于非同義詞,這樣可以提高主題對于評價對象的內聚度,如商品評論中的“價格”“價位”和“價碼”等詞語,如圖1所示,其中有邊直接連接的評價對象具有必然語義關系。利用同義詞詞典可以實現評價對象的必然語義關系。
2.2? 評價對象之間的互斥語義關系
利用句法依存和詞性分析,可以實現互斥語義關系的提取,如以上2個例句中的評價對象可表示為如圖2所示,其中有邊直接連接的評價對象具有互斥關系。
互斥語義關系是評價對象詞語在主題分布中,盡可能地分配到不同主題。這種關系可以從句式結構中進行挖掘,一般一個完整句子中評價對象不會重復出現,如商品評論中的句子“不但價格合適,而且外形也很漂亮”“色彩很亮,重量很輕,運行速度也飛快!”等,這些句子中的評價對象基本不會重現,可以利用這種互斥關系來影響主題的詞語分配。
2.3? CE-LDA模型設計
CE-LDA模型在標準LDA模型基礎上,將提取的語義信息引入到主題-詞語分配,提高LDA模型的語義關系理解能力。
2.3.1? 語義約束
在詞語進行主題分配時,查找詞語的必然語義關系集合Sm和互斥語義關系集合Sc,如果詞語存在于相應集合中,則和主題已分配的詞語進行關系確認,并找出已分配詞語和當前詞語的關系。如果主題與詞語關系屬于Si,則增加當前詞語屬于該主題的概率,否則減少屬于該主題的概率。
2.3.2? CE-LDA模型
CE-LDA模型依然保持為三層結構:文檔層、主題層和詞語層。只是在主題-詞語分配時,需要根據當前詞語與已分配主題詞語的必然關系和互斥關系進行概率的調整。CE-LDA模型設計如圖3所示,符號說明如表1所示。
2.3.3? 評價對象和情感詞關聯關系提取算法
算法主要考慮主題-文檔分布θ、主題-詞語分布φ以及受約束的主題-詞語分布φm和φc,具體步驟為:
(1)選擇主題分布θ~Dirichlet(α)。
(2)選擇詞語分布φ:
1)if(r=1)選擇詞語分布φc~ζc·Dirichlet(β);(ζc是互斥語義關系權重參數)。
2)else if(r=2)選擇詞語分布φm~ζm·Dirichlet(β);(ζm是必然語義關系權重參數)。
3)else選擇分配概率φ~Dirichlet(β)。
(3)對于待分配的文檔詞語w:
1)主題分布概率z~θ。
2)if(w∈Sm)選擇詞語w~φm。
3)if(w∈Sc)選擇詞語w~φc。
4)else選擇詞語w~φ。
(4)文檔-主題分布參數θ和詞語-主題分布參數φ如式(1)和(2)所示。
3? 實驗比較和分析
實驗數據來源于淘寶購物平臺用戶的“平板電腦”商品評論文本數據,共采集98 647篇文檔,包含374 632個句子。對商品評論文本數據的評價對象-情感詞的關聯關系提取進行比較,主要考察關系提取的召回率,對比的模型包括:JST模型、STM模型和CE-LDA模型。用召回率來評估評價對象-情感詞的關聯關系的提取率,如圖4所示。其中,橫坐標表示主題個數,縱坐標表示召回率。
從圖4不同模型的召回率對比可以發現,隨著主題個數的增加,召回率都在提升,這是由于主題詞語增加后,必然會發現更多的關聯關系。CE-LDA模型的提取率優于其他模型,尤其是當主題數設置為90~120個時,其他模型的關系提取率沒有顯著提升,而CE-LDA模型的提取率明顯高于其他模型。由于在CE-LDA模型中嵌入了2類語義約束,使得主題內部的內聚度提高,而主題之間的耦合度減少。
4? 結? 論
在海量的中文網絡文本數據挖掘中,復雜的語義關系增加了評價對象和情感詞的挖掘難點。CE-LDA模型對現有LDA模型進行了改進,提出了約束型的LDA主題模型,將詞語間的必然語義關系和互斥語義關系加入LDA。通過對不同模型的評價對象和評價詞關聯關系提取進行比較和分析,發現本文提出的CE-LDA模型的召回率優于其他模型。通過實驗數據表明,在LDA模型中引入語義先驗知識,可以改善LDA概率型模型對于詞語語義關系理解的不足,在主題-詞語分配中提高詞語的主題內聚度,同時降低詞語的耦合度,提升主題對詞語關系的識別度和區分度,從而更有效地提取評價對象詞、情感詞及其之間的關聯關系。
參考文獻:
[1] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3(3):993-1022.
[2] 譚旭,吳俊江,徐磊,等.面向深度學習的多維度中文網絡輿情分析 [J].小型微型計算機系統,2018,39(7):1471-1477.
[3] TITOV I,MCDONALD R. Modeling online reviews with multi-grain topic models [C]//Proceedings of the 17th international conference on World Wide Web(WWW).New York:Association for Computing Machinery,2008:111-120.
[4] LIN C H,HE Y L. Joint sentiment/topic model for sentiment analysis [C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management(ACM CIKM).New York:Association for Computing Machinery,2009:375-384.
[5] OZYURT B,AKCAYOL M A. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis:SS-LDA [J].Expert Systems with Applications,2020,168:114-231.
[6] THENMOZHI M,INDIRA R,DHARANI R. Using Lexicon and Random Forest Classifier for Twitter Sentiment Analysis [J].International Journal of Computer Science and Engineering,2019,7(6):591-594.
[7] ALBUQUERQUE P,VALLE D,LI D J. Bayesian LDA for mixed-membership clustering analysis:The Rlda package [J].Knowledge-Based Systems,2019,163:988-995.
[8] 彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取 [J].軟件學報,2017,28(3):676-693.
[9] LU B,OTT M,CARDIE C,et al. Multi-aspect Sentiment Analysis With Topic Models [C]//Proceedings of the 11th IEEE International Conference on Data Mining Workshops(ICDMW).Vancouver:IEEE,2011:81-88.
[10] PARK I,YOON B,KIM S,et al. Technological Opportunities Discovery for Safety Through Topic Modeling and Opinion Mining in the Fourth Industrial Revolution:The Case of Artificial Intelligence [J].IEEE Transactions on Engineering Management,2019,99:1-16.
[11] 崔雪蓮,那日薩,劉曉君.基于主題相似性的在線評論情感分析 [J].系統管理學報,2018,27(5):821-827.
作者簡介:萬紅新(1970—),女,漢族,江西南昌人,教授,碩士,研究方向:數據挖掘、軟件工程;彭欣悅(2001—),女,漢族,江西宜春人,研究方向:軟件工程、數據庫技術。
收稿日期:2021-03-16
基金項目:江西省高校人文社科項目(JC191 17);江西省教育廳科技項目(GJJ201127);江西科技師范大學大學生創新創業訓練計劃項目(2021 11318002)