基于詞加權LDA算法的無監督情感分類

2016-09-27 06:25:26郝潔謝珺蘇婧瓊續欣瑩韓曉霞

智能系統學報 2016年4期

關鍵詞：詞匯分類情感

郝潔，謝珺，蘇婧瓊，續欣瑩，韓曉霞

(太原理工大學信息工程學院，山西晉中 030600)

基于詞加權LDA算法的無監督情感分類

郝潔，謝珺，蘇婧瓊，續欣瑩，韓曉霞

(太原理工大學信息工程學院，山西晉中 030600)

主題情感混合模型可以有效地提取語料的主題信息和情感傾向。本文針對現有主題/情感分析方法主題間區分度較低的問題提出了一種詞加權LDA算法(weighted latent dirichlet allocation algorithm，WLDA)，該算法可以實現無監督的主題提取和情感分析。通過計算語料中詞匯與情感種子詞的距離，在吉布斯采樣中對不同詞匯賦予不同權重，利用每個主題下的關鍵詞判斷主題的情感傾向，進而得到每篇文檔的情感分布。這種方法增強了具有情感傾向的詞匯在采樣過程中的影響，從而改善了主題間的區分性。實驗表明，與JST(Joint Sentiment/Topic model)模型相比，WLDA不僅在采樣中迭代速度快，也能夠更好地實現主題提取和情感分類。

情感分類；主題情感混合模型；主題模型；LDA；加權算法

中文引用格式：郝潔，謝珺，蘇婧瓊,等. 基于詞加權LDA算法的無監督情感分類[J]. 智能系統學報， 2016, 11(4): 539-545.

英文引用格式：HAO Jie， XIE Jun， SU Jingqiong， et al. An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545.

互聯網不僅是獲取信息的重要途徑，也是廣大網民表達觀點和看法的平臺。隨著博客、微博、微信等自媒體的流行，網絡購物的盛行和網購評價體系的不斷完善，對事件的觀點、對物品的評價等具有情感傾向的文本飛速增長。這些信息對于政府部門的輿情監控、企業的經營決策和個人的購買決定都起著至關重要的作用。然而，這些評價信息數量巨大、變化迅速，僅依賴人工收集整理不僅成本高，也難以滿足時效性要求。因此文本情感分析受到了學術界與工業界越來越多的關注[1-2]。

情感分類是文本情感分析的重要組成部分。它是指根據文本所表達的含義和情感信息將文本劃分為褒揚或貶義兩種或幾種類型，是對文本作傾向性、觀點和態度的劃分。目前，大多數情感分類方法都是監督模型或半監督模型，但標記好的語料常常難以獲取，給情感分類造成困難。基于主題模型的情感分類，不僅具有無監督的優勢，也具有較強的可移植性[3]。

Lin 等[4]提出了LSM模型(latent sentiment model)，該模型將情感作為主題的特例，認為文檔中詞匯的分布與情感有關，從而實現了文檔的無監督情感分類，但無法識別出更細粒度的情感信息。Titov等[5]提出的MG-LDA模型(multi-grain model)能夠以較細的粒度提取主題，該算法是一個有監督學習模型，需要對樣本類別進行人工標注。TAM(topic-aspect model)[6]和TSM(topic sentiment mixture)[7]能夠無監督地抽取文檔的主題和情感信息。但這兩種算法假定主題和情感的分布相互獨立，忽略了二者的聯系，也給解釋主題和情感的關系造成困難。ASUM模型(aspect and sentiment unification model)考慮了主題和情感的相關性，建立了“句子—主題—詞”的3層模型，有效提取了情感和主題信息，但這種方法將每個句子視為一個文檔，丟失了上下文信息[8]。JST模型(joint sentiment/topic model)是一種可以無監督地提取文檔主題和情感信息的4層貝葉斯網絡，但該算法的復雜度較高，結果不夠穩定[3]。歐陽繼紅等在JST模型的基礎上，提出了多粒度的主題情感混合模型MG-R-JST和MG-JST，該方法同時考慮到文檔和局部兩個粒度的情感主題分布，穩定性好，但面臨復雜度較高的問題[9]。

本文在LDA模型的基礎上，提出了應用于主題/情感分析的詞加權LDA算法(weighted latent dirichlet allocation，WLDA)，通過計算語料中詞匯與情感種子詞的距離，在吉布斯采樣中對各詞區分對待，利用每個主題下的關鍵詞判斷主題的情感傾向，進而得到每篇文檔的情感分布。實驗表明，WLDA可提取細粒度情感，并且具有迭代速度快、分類精度高的優點。

1　LDA模型

LDA(latent dirichlet allocation)[10]是一種3層貝葉斯模型，它描述了文檔、主題、詞匯間的關系。LDA模型自2003年提出以來，已經有了諸多的改進和變形算法，并在文本分類[11]、信息檢索[12]等領域得到了廣泛應用。其圖模型見圖1。

圖1　LDA圖模型[10]Fig.1　Graphical model of LDA[10]

圖1中，各個符號的含義見表1。

表1　LDA符號含義對照表

根據LDA模型，文檔的產生過程見算法1。

算法1[10]LDA文檔產生過程。

輸入α、β、K；

輸出文檔。

對每個主題k∈[1,K]，采樣詞分布φk～Dir(β)

對每篇文檔m∈[1,M]

采樣一個主題分布θm～Dir(α)

對文檔m中的每個詞w

根據θm采樣一個主題z～Mult(θm)

根據主題z采樣一個詞w～Mult(φz)其中，隱含變量θ和φ可按式(1)和式(2)估計：

(1)

(2)

2　本文算法

LDA模型假設每個詞都是同等重要的。然而，無論是從信息論或是語言學來看，該假設都并不完美。文獻[13]指出高頻停用詞對LDA模型的主題推理有很大影響。然而，對于文本情感分類任務，在去除通常的停用詞后，仍有大量與領域相關但對情感分類作用較小的詞，具有褒貶傾向的詞匯淹沒其中，而使得LDA模型主題間區分度較小，分類精度不高。以酒店評價語料為例，大量文檔中都出現有“酒店”、“房間”、“前臺”等詞，這些詞是情感分類時的廣義“停用詞”，若不加以處理，將隨機散布在各個主題的關鍵詞當中。

由于這些詞與領域相關，無法通過構建統一的詞表去除該類詞匯，給主題的提取和情感傾向的劃分造成困難。本文針對情感語料的詞匯分布特點，根據每個詞與情感種子詞的點互信息(point mutual information，PMI)[14]，賦予詞匯不同權重，并將權值信息融入吉布斯采樣過程，利用每個主題下的關鍵詞判斷主題的情感傾向，從而實現文檔的情感分類。整個算法的步驟如圖2所示。

圖2　WLDA算法步驟Fig.2　Road map of WLDA algorithm

點互信息可根據兩個離散隨機變量的共現概率度量其相關性。對于兩個變量x和y，其點互信息：

(3)

顯然，兩個變量共現的概率越大，其PMI值越大。以此為理論基礎，文獻[15]根據某一詞匯與正面情感種子詞和負面情感種子詞的PMI值度量該詞的情感傾向。考慮到種子詞在語料中的出現可能不均衡，本文對原公式稍加改動，根據語料中出現的正向和負向種子詞個數添加歸一化因子。對于詞w，其權重定義為

(4)

式中：pos為語料中包含的正面情感種子詞集合，a為正面情感種子詞個數，neg為語料中包含的負面情感種子詞集合，b為負面情感種子詞個數。

p(zi=k|z,w,weight)=

(5)

整個模型的“文檔—主題”分布θ和“主題—詞匯”分布φ可分別按照式(6)和式(7)計算：

(6)

(7)

與LDA模型類似，此處選取每個主題下φ值最大的S個詞作為該主題的關鍵詞。定義主題k的情感傾向E(k)：

(8)

“文檔-情感”矩陣π表征了文檔的情感分布，其規模為M×2，由正面情感分布πpos和負面情感分布πneg組成。其定義見式(9)和式(10)：

(9)

(10)

式中：θi為每一篇文檔分配給主題i的概率，πpos和πneg分別是文檔為正面或負面的概率值，刻畫了每篇文檔的情感分布情況。在后面的實驗中，認為文檔d的情感傾向：

E(d)=argmax(πd)

(11)

完整的WLDA算法如下：

算法2基于WLDA的情感分類算法。

輸入待分類文檔，情感種子詞；

輸出情感分類結果。

For w∈W

按式(4)計算weight(w)

Repeat

For m∈M

For n∈N

按式(5)采樣每個詞的主題

Until 收斂 or 達到最大迭代次數

分別按照式(6)和式(7)計算θ、φ

For k∈K

For s∈S

按式(8)計算主題k的情感傾向E(k)

If E(k)>0

π1=π1+θk

If E(k)<0

π2=π2+θk

For m∈M

If πm,1>πm,2

文檔情感為正面

Else

文檔情感為負面

3　實驗結果與分析

3.1實驗設置

語料1為中科院譚松波等收集整理的酒店評論語料，從中隨機選取帶有正向和負向情感傾向標注的評論各500篇；語料2為從互聯網爬取的酒店評論11 197篇，包含正向文本5 891篇和負向文本5 306篇。WLDA和JST 模型的正面和負面情感種子詞來自知網的《中文情感分析用詞語集》。實驗前，首先對語料進行了分詞、去停用詞等預處理。

WLDA參數取經驗值α=50/K，β=0.01，S=100。實驗以LSM和JST兩種經典算法作為對比，LSM模型中，選取α=50/K，β=0.01；JST模型參數設置與文獻[6]保持一致。3種算法的迭代次數均為1 000次。

3.2加權方式對比

表2列舉了部分詞匯在3種加權方式下的權重值。

表2　各加權方式下部分詞匯權重對比

方法1 PMI已在上文詳述，方法2IDF權重計算方法來自文獻[16]，方法3的二值化見式(12)：

(12)

當一個詞的權重大于1時，表明其作用在采樣中將會被增強；小于1時，其重要性降低。若將全部權重置為1，則為一般的吉布斯采樣。

方法1和方法3均能將“舒適”、“實惠”等詞賦以較大權重，將部分沒有情感色彩的詞如“服務員”、“酒店”等賦以較小權重，但對于未收錄的情感詞匯如“很臟”、“破”等，方法3表現不佳。方法2將提高出現次數較少的罕見詞的權重，而同時降低高頻情感詞和高頻非情感詞的權重。綜上，3種方法中PMI加權最適用于本文，故以下實驗中采用的均是PMI加權方式。

3.3WLDA和LSM模型對比

在主題模型中，通常以各個主題下的關鍵詞來表征該主題的含義。表3為采用語料1時WLDA與LSM模型的關鍵詞對比。

表3　WLDA和LSM關鍵詞

在WLDA中，超過一半的關鍵詞都具有明顯的情感傾向，如“不錯”、“方便”、“失望”等，使讀者更容易區分主題的情感傾向；而在LSM模型中，正如上文所提到的，體現情感的詞匯出現較少，而“酒店”、“房間”、“入住”等不能表達明確情感色彩的詞散布在正面和負面兩類情感的關鍵詞中。

表4展示了WLDA和LSM模型對文檔的情感分類精度。在關鍵詞部分，雖然LSM中涉及的具有情感傾向的詞匯較少，仍可辨別兩類關鍵詞的正負情感傾向。但具體到刻畫各個文檔的情感，其精度遠低于WLDA，可見這類廣義停用詞對模型性能的影響。

表4　WLDA和LSM模型情感分類精度

此處以LSM為對比，說明了詞匯加權對吉布斯采樣結果的影響，但由于LSM模型只能將文檔劃分為正面、負面兩類或正面、負面、中性三類，無法提取更細粒度的主題和情感信息，后文的實驗均采用WLDA與JST兩個模型的對比。

3.4WLDA和JST模型的情感分類精度對比

圖3為WLDA和JST模型選取不同主題數目時，在語料1和語料2下的情感分類精度。

圖3　WLDA和JST模型分類精度對比Fig.3　Sentiment classification accuracy of WLDA and JST

對于語料1和語料2，WLDA不僅在情感分類上均有良好表現，受主題數目選取的影響也比JST模型更小。

3.5WLDA和JST模型的關鍵詞對比

在語料1中，當K=6時，兩種算法的分類精度達到最高。表5列舉了K=6時，WLDA和JST模型得到的關鍵詞，并歸納了關鍵詞的主要內容。

表5　WLDA和JST關鍵詞

可以看到，WLDA得到的關鍵詞多為單一方面評價，一致性較強，易于人的理解。而在JST模型中，部分主題由多個方面的評價組成，如主題2，在15個關鍵詞中，同時涉及到房間、服務、餐飲三方面內容；主題6 同時涉及房間、服務、交通三方面內容。除此之外，WLDA的關鍵詞中涵蓋的情感詞匯更豐富，主題的情感傾向也更加突出。與JST模型相比，WLDA得到的各個主題的關鍵詞語義和情感都更加明晰。

3.6WLDA和JST模型的主題KL距離對比

上文通過關鍵詞的列舉直觀展示了WLDA的性能，本部分將借助主題與背景主題的平均KL距離定量描述主題的區分性。其核心思想是一個合理的主題總傾向于在部分文檔集中出現，主題在所有文檔中出現的概率越平均，說明該主題越可能為垃圾/非重要主題[17]。極端情況，當某個主題在所有文檔中出現的概率都相同，該主題對文檔的區分能力為零。主題與背景主題的平均KL距離KL_b定義如下：

(11)

表6　WLDA和JST模型中主題與背景主題的平均KL距離

表6展示了WLDA和JST模型主題與背景主題的平均KL距離，其值越大，說明主題與背景主題的距離越遠，主題的可區分性越強。可以看到，在各個主題數目下，WLDA的主題區分能力均優于JST模型。

3.7WLDA和JST模型的時間消耗對比

以語料1為例，圖4對比了K=6時WLDA和JST模型不同迭代次數所需的時間。

圖4　WLDA和JST模型運行時間對比Fig.4　Time consumption comparison of WLDA and JST

由于本文算法需要首先計算詞匯權重，故吉布斯采樣前的處理時間比JST模型長，但單次迭代速度比JST更快。當吉布斯采樣的次數較小時，JST模型消耗時間更短，然而，隨著采樣次數的增加，WLDA的時間優勢愈發明顯。另外，對于同一語料庫，取不同K值或其他參數發生改變時無需重復計算詞匯權重，故在多次試驗中，其平均運行時間將比圖3所展示的更短。

4　結束語

本文提出了一種用于情感分類的詞加權LDA算法，通過度量詞匯與情感種子詞的點互信息，在吉布斯采樣中為不同詞匯賦予不同權重，并利用每個主題下的關鍵詞判斷主題的情感傾向，從而實現文檔的情感分類。實驗表明，WLDA不僅具有無監督、可提取細粒度情感的優點，而且分類精度較高，在采樣中迭代速度較快。由于WLDA采用的是“詞袋”模型，忽略了詞與詞之間的聯系，可能會出現局部情感判斷錯誤，因此，如何將詞序信息融入WLDA是下一步的工作重點。

[1]AGARWAL B, PORIA S, MITTAL N, et al. Concept-level sentiment analysis with dependency-based semantic parsing: a novel approach[J]. Cognitive computation, 2015, 7(4): 487-499.

[2]CAMBRIA E. Affective computing and sentiment analysis[J]. IEEE intelligent systems, 2016, 31(2): 102-107.

[3]LIN Chenghua, HE Yulan. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China: ACM, 2009: 375-384.

[4]LIN Chenghua, HE Yulan, EVERSON R. A comparative study of Bayesian models for unsupervised sentiment detection[C]//Proceedings of the Fourteenth Conference on Computational Natural Language Learning. Stroudsburg, PA, USA: ACM, 2011: 144-152.

[5]TITOV I, MCDONALD R. A joint model of text and aspect ratings for sentiment summarization[C]//Proceedings of Annual Meeting of the Computational Linguistics. Columbus, USA: Association for Computational Linguistics, 2008: 308-316.

[6]PAUL M, GIRJU R. A two-dimensional topic-aspect model for discovering multi-faceted topics[C]//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence. Atlanta, USA: AAAI, 2010: 545-550.

[7]MEI Qiaozhu, LING Xu, WONDRA M, et al. Topic sentiment mixture: modeling facets and opinions in weblogs[C]//Proceedings of the 16th International Conference on World Wide Web. North Carolina, USA: ACM, 2010: 171-180.

[8]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. Hong Kong, China: ACM, 2011: 815-824.

[9]歐陽繼紅, 劉燕輝, 李熙銘, 等. 基于LDA的多粒度主題情感混合模型[J]. 電子學報, 2015, 43(9): 1875-1880.

OUYANG Jihong, LIU Yanhui, LI Ximing, et al. Multi-grain sentiment/topic model based on LDA[J]. Acta electronica sinica, 2015, 43(9): 1875-1880.

[10]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The journal of machine learning research, 2003, 3: 993-1022.

[11]RUBIN T N, CHAMBERS A, SMYTH P, et al. Statistical topic models for multi-label document classification[J]. Machine learning, 2012, 88(1/2): 157-208.

[12]ANDRZEJEWSKI D, BUTTLER D. Latent topic feedback for information retrieval[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, USA: ACM, 2011: 600-608.

[13]WALLACH H M. Topic modeling: beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning. New York, USA: ACM, 2006: 977-984.

[14]CHURCH K W, HANKS P. Word association norms, mutual information, and lexicography[J]. Computational linguistics, 1990, 16(1): 22-29.

[15]TURNEY P D, LITTMAN M L. Measuring praise and criticism: inference of semantic orientation from association[J]. ACM transactions on information systems, 2003, 21(4): 315-346.

[16]張小平. 主題模型及其在中醫臨床診療中的應用研究[D]. 北京: 北京交通大學, 2011: 57-58.

ZHANG Xiaoping. Study on topic model and its application to TCM clinical diagnosis and treatment[D]. Beijing: Beijing Jiaotong University, 2011: 57-58.

[17]ALSUMAIT L, BARBARá D, GENTLE J, et al. Topic significance ranking of LDA generative models[C]//Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases. Bled, Slovenia: ACM, 2009: 67-82.

郝潔，女，1992年生，碩士研究生，主要研究方向為自然語言處理、粗糙集。

謝珺，女，1979年生，副教授，主要研究方向為粒計算、粗糙集、數據挖掘、智能信息處理。

蘇婧瓊，女，1991年生，碩士研究生，主要研究方向為自然語言處理、粒計算。

An unsupervised approach for sentiment classification based on weighted latent dirichlet allocation

HAO Jie， XIE Jun， SU Jingqiong， XU Xinying， HAN Xiaoxia

(Information Engineering College, Taiyuan University of Technology, Jinzhong 030600, China)

The topic and sentiment unification model can efficiently detect topics and emotions for a given corpus. Faced with the low discriminability of topics in sentiment/topic analysis methods, this paper proposes a novel method, the weighted latent dirichlet allocation algorithm (WLDA), which can acquire sentiments and topics without supervision. The model assigns weights to terms during Gibbs sampling by calculating the distance between seed words and terms, then counts the weights of key words to estimate the sentiment orientation of each topic and obtain the emotional distribution throughout documents. This method enhances the impact of words that convey emotional attitudes and obtains more discriminative topics as a consequence. The experiments show that WLDA, compared with the joint sentiment/topic model (JST), not only has a higher iteration sampling speed, but also gives better results for topic extraction and sentiment classification.

sentiment classification; topic and sentiment unification model; topic model; LDA; weighting algorithm

10.11992/tis.201606007

網絡出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.020.html

2016-06-02. 網絡出版日期：2016-08-08.

山西省回國留學人員科研項目(2015-045，2013-033)；山西省留學回國人員科技活動擇優資助項目(2013)；山西省自然科學基金項目(2014011018-2).

謝珺. E-mail：xiejun@tyut.edu.cn.

TP391

1673-4785(2016)04-0539-07

基于詞加權LDA算法的無監督情感分類

1 LDA模型

2 本文算法

3 實驗結果與分析

4 結束語

1　LDA模型

2　本文算法

3　實驗結果與分析

4　結束語