崔雪蓮,那日薩,劉曉君
(大連理工大學 系統工程研究所,遼寧 大連 116023)
互聯網的發展帶來了電子商務的發展和壯大,大部分電子商務網站提供消費者評論功能,激勵用戶分享消費后的體驗[1]。隨著文本情感分析研究的興起,越來越多的學者從在線文本評論挖掘消費者情感信息[2-4],以期得到更加真實的消費者購買體驗及其偏好。
評論情感分析又稱評論挖掘或意見挖掘,是指通過自動分析某種商品評論的文本內容,發現消費者對該商品的褒貶態度和意見[5]。傳統的機器學習方法在應用于情感分類時,分類效果不穩定,且大部分為有監督方法,需要一定數量的經過標注的訓練樣本,而人工標注過程相對耗時費力,且領域移植性差,效率相應比較低。因此,無監督學習算法成為在線評論情感分析的重要研究方向[6]。
近年來,基于主題模型的無監督情感傾向分析越來越受到學者的青睞,其中最有影響、應用效果最好的當屬LDA 模型[7],該模型是一種典型的無監督生成式主題模型。為實現情感分類通常的方法是在LDA 主題模型中,加入不同的情感隱變量層,即可獲得不同類型的主題情感混合模型[4,8-9]。
然而,現有的主題情感混合模型,雖然能同時抽取文檔的主題和情感信息,但受主觀性文檔中局部否定以及主題數目的影響,模型的情感分類效果及穩定性并不理想[10]。事實上,文本情感分類本質上仍是一種文本分類問題,利用已有的文本分類方法可以有效解決情感分類問題。Pang等[11]將傳統的文本分類方法SVM(Support Vector Machines)、NB (Naive Bayes)以 及ME(Maximum Entropy Classification)等應用于電影評論情感分類,取得了比較理想的結果;同時也指出,將評論的所有句子不加區分地作為同一個話題的描述,會導致評論情感極性判別錯誤。鑒于此,基于主題模型的文本分類方法不斷涌現[12-13],該類方法通過LDA 等主題模型將文本表示為主題分布形式,通過比較兩篇文本的主題得到其相似度,并基于相似度實現文本分類。該類方法有效地解決了文本分類問題中特征稀疏的問題,應用到情感分類中,張佳明等[14]通過主題模型挖掘微博文檔中的隱含主題,并通過情感詞典分析隱含主題的情感分布,進而獲得整條微博的情感傾向。在產品評論的短文本情感分類問題上,消費者評論主題存在有限性和差異性,主題內容的差異性會導致評論情感相似性的計算誤差。為了弱化主題內容對情感分類的干擾,本文引入理想評論,并構造正、負向代表評論集,通過比較評論和理想評論的主題相似性,獲得評論的情感傾向。采用LDA 主題模型挖掘在線評論的隱含主題,結合情感詞典計算主題的情感極性。并根據主題的情感極性構造具有強烈感情色彩的理想評論,通過計算評論和理想評論的主題相似度,構建正、負向代表評論集,進而計算得到每條評論的情感傾向值,實現在線評論的自動情感分類。
給定產品評論文檔集D={d1,d2,…,d M},其中:M為文檔數目;d i為第i條評論。評論d i具有情感傾向,本文研究問題僅限于對文檔的正、負情感極性分類。評論文檔集可以進一步表示為

其中,Si表示評論d i的情感傾向,Si=1表示對應的評論d i情感極性為正向,Si=-1表示對應的評論d i情感極性為負向。本文的研究問題即是求解向量(S1,S2,…,SM),即判斷每條評論的情感傾向,將評論進行情感分類。
本文通過計算每條評論和理想評論的主題相似度獲得評論的情感傾向值,為使問題更加清楚,以下給出主題、評論及理想評論的相關定義:
D——評論集
N——評論集含有的詞數
R——一條評論的向量表示
z——主題
k——評論集的主題數
T——評論的主題向量
θR——評論R在k個主題上概率分布
φz——主題z的詞分布
Twordszi——主題zi的代表詞
Dpos,Dneg——正、負向代表評論集
λ——相似度閾值
Hennig-Thurau等[15]定義在線產品評論為:潛在的、當前的以及過去的消費者公開發布在網絡上的對某個產品或企業的正向或負向的陳述。消費者在線產品評論主要圍繞產品特征進行評價,包括產品屬性特征,如電腦屏幕、系統等,也包含產品購買平臺特征,如物流、服務等,并通常伴有情感表達。由于在線產品評論通常比較簡短,所含詞語較少,隨意性較強,完整性較差,一條評論所評價的產品特征數目較少,導致產品特征向量稀疏。而且,由于評論巨大的數據量,產品特征提取本身已是一項艱難的任務,將對應的觀點與產品特征匹配又進一步提升了對算法技術的要求,且經常需要領域本體的支持[16]。因此,本文引入主題的概念,將一條評論表示為一個主題分布向量。具體地,主題的描述性定義如下:
定義1主題。一個主題可由產品特征、特征觀點及情感3個維度描述,以“電腦散熱性能”主題為例,“CPU 溫度高”“風扇噪聲大”,包含了對不同產品特征CPU、風扇,及對應的觀點的情感表達。記第i個主題為z i,對應的情感傾向為1}=1表示正向情感極性=0表示負向情感極性。
本文中,以主題作為基本情感極性單位,每個主題的情感傾向為正向或負向。基于主題情感極性構建理想評論,首先定義評論:
定義2評論。假設整個評論文檔集D共包含k個主題,則一條評論R可以表示為一個多維向量R=T=(t1,t2,…,tk),其中,ti∈[0,1],表示評論R屬于第i個主題z i的概率。
若兩條評論的主題概率分布相似,則認為兩條評論相似,而且兩條評論的情感傾向值近似。因此,可以通過評論間的主題相似性判別評論情感傾向。Turney[5]在計算情感詞的情感傾向值時,通過計算該情感詞和正向詞“excellent”的關系值及其與負向詞“poor”的關系值的差值獲得。借鑒此思想,本文在計算每條評論的情感傾向值時,通過計算每條評論和具有強烈正向情感的正向評論的關系值及其與具有強烈負向情感的負向評論的關系值差值獲得。相比于詞之間的關系,評論之間的關系更為復雜,為了突出情感維度的關系,本文構造評論文檔集D上的兩條理想評論和分別稱為理想正向評論和理想負向評論。具體定義:
定義3理想評論。理想正向評論即為包含且僅包含所有正向情感表達的主題的評論,而理想負向評論即為包含且僅包含所有負向情感表達的主題的評論。即

其中,0<ti<1,若=1,則ti=0;

其中,0<ti<1,若=0,則ti=0。
第1節中將評論表示為主題向量,并且引入了具有強烈情感傾向的理想評論。在此基礎上,通過計算每條評論和理想評論的主題相似性,獲得每條評論的情感傾向值,進而構造一種基于主題相似性的情感分類模型,自動對在線評論進行情感分類,具體的模型結構如圖1所示。

圖1 基于主題相似性的情感分類模型總體結構
為獲得評論文檔集的主題,采用LDA 主題模型方法訓練評論集。
潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)由Blei等[7]提出,它是一個“文檔-主題-詞”的3層貝葉斯生成式模型,其特點是參數空間的規模與語料庫大小無關,適合于處理大規模語料庫,在文本分析領域應用廣泛。
LDA 模型中,語料庫中的每一篇文檔可以表示為若干主題構成的一個概率分布,而每個主題又可表示為若干個詞構成的一個概率分布。如圖2 所示,各文檔的主題概率分布服從參數為α的Dirichlet分布,而各主題的詞分布服從參數為β的Dirichlet分布。

圖2 LDA 的圖模型表示
具體地,對于語料庫中的每篇文檔,LDA 模型的文檔生成過程為:
(1)對于每篇文檔d,從參數為α的Dirichlet分布中選擇主題參數θd;
(2)對于文檔d中的單詞,從參數為θd的多項式主題分布中產生一個主題;從參數為的多項式單詞分布中產生單詞;
(3)重復上述步驟,直至生成整個文檔。
將評論文檔集D,輸入LDA 模型,訓練可以得到文檔集D的k個主題;同時,每篇評論r∈D被表示為k個主題的概率向量分布,實現了評論的主題表示;而每個主題z也被表示為一個詞向量,隱含著不同的產品特征和對應的聲明及情感表達。
對于給定的評論集D,其中并不包含理想評論,需要自動生成。以下給出生成該評論集上的理想評論的具體方法。
(1)以Gibbs抽樣方法訓練評論集D得到評論LDA 模型,產生k個主題,評論在主題上的分布為θ,主題在詞上的分布為φ;θR表示評論R在k個主題上概率分布。
(2)計算主題z的情感傾向值。?z=(?z1,?z2,…,?zN)表示主題z的詞分布,N是評論集D中的所有詞,結合情感詞典(臺灣大學情感詞典),主題z的情感傾向值計算公式為

其中:x i為決策變量,若第i詞為褒義詞,則x i=1,若為貶義詞,則x i=-1,若不在詞典內,則x i=0;Sz>0,表示主題z為正向情感,否則為負向情感。
(3)構造近似理想評論。?z為所有詞屬于主題z的概率,取概率值大于p0的詞作為主題z的代表詞,表示為;取所有正向主題zi的,所有詞構成一條理想正向評論;取所有負向主題zi的,所有詞構成一條理想負向評論。
(4)將理想評論輸入LDA 模型,估計它們的主題分布,得到理想評論的主題表示。
由LDA 模型得到每條評論以及理想評論的主題向量為:

每條評論可量化為各自的主題概率分布為:


以評論和理想評論之間的主題相似度差值作為判別評論情感傾向的依據,具體地,評論R∈D的情感傾向值可由下式計算:


由于理想評論包含主題數較多,而普通評論通常較為簡短,所包含的主題數較少,即使具有相同的情感傾向,但是由于兩者對應的主題概率分布的差別,由式(2)計算得到的相似度會有所降低,進而,由式(1)計算得到的評論情感傾向值也會有偏差。為了降低此偏差,分別以正、負向表示評論集Dpos、Dneg代替正、負向理想評論。給定閾值λ∈[0,1],若sim(R,>λ,則R∈Dpos;若>λ,則R∈Dneg。評論R∈D的情感傾向值可由下式計算:

若sentiment(R)>0,則評論R情感傾向為正向;若sentiment(R)≤0,則評論R情感傾向為負向。
具體地,評論集D上的情感分類算法的步驟為:
(1)對評論集D進行預處理。①采用中科院的分詞系統ICTCLAS 分詞;②剔除停用詞,得到評論集D′。
(2)以評論集D′作為訓練數據集,輸入LDA模型獲得評論集D的主題分布矩陣θD等,以及評論集D的LDA 模型final-model。

(4)根據式(2)計算普通評論和理想評論的相似度,取相似度閾值λ,構造正、負向代表評論集Dpos、Dneg。
(5)根據式(3)計算每條評論的情感傾向值sentiment(R),對所有評論進行情感分類。
下載譚松波公布的關于計算機、酒店及圖書的情感分類數據集,并從數據堂下載關于手機的情感分類數據集。對4個數據集進行整理:①剔除字數在10字以下以及無效評論;②刪除情感標注明顯不恰當的評論。整理后,共得到有效評論9 259條,每種數據集的大小和正負情感分布如表1所示。

表1 實驗數據集
其中,數據集Corp1主要用于算法性能測試,而Corp2~4則主要用于驗證算法的領域可移植性。
首先是情感詞典的構建,本文采用臺灣大學情感詞典,從語料中提取在線產品評論中特有的表達情感的詞和短語,如“性價比高”“實惠”“節能”“退貨”“燙”“噪聲”“劃痕”等,擴充為適用于本文研究的情感詞典。
其次,以LDA 模型發現評論集主題及每條評論的主題向量表示,參數設置為:α=0.625,β=0.01,主題數k=80(依據困惑度選?。?,迭代次數10 000。本文所用LDA 工具包下載地址:http://jgibblda.sourceforge.net/#Griffiths04。
利用LDA 模型的文檔-主題矩陣θ可以得到第i條評論的k維主題向量θi,即R i=θi,i=1,2,…,M;利用主題-詞矩陣?可以得到第i個主題的N維詞向量?i,結合情感詞典,得到主題zi的情感傾向,i=1,2,…,k,具體如表2所示。限于空間,只列出計算機Corp1的部分主題。

表2 主題代表評論
依據主題情感極性及其詞向量分布?,由2.2節理想評論構造方法分別構造了近似理想正評論和近似理想負評論,并由該評論集的LDA模型得到兩條近似理想評論的主題向量:

計算向量θP和θN的皮爾遜相關相似度,值為-0.78,顯著負相關,驗證了本文提出的構造近似理想評論方法的有效性。
利用基于主題相似性的情感分類模型對實驗語料進行情感分類。為了檢測閾值λ對最終分類結果的影響,在數據集Corp1上,取不同規模評論語料,研究了λ取值對分類結果的影響,利用F1值作為實驗結果的評估標準。從評論集Corp1 中隨機抽取相應規模的評論數(為簡便計算,正、負向評論數相同),獲得6個評論測試集,規模分別為:500、1 000、1 500、2 000、2 600和3 000。研究的λ取值范圍為[0,0.3],實驗結果如圖3所示。

圖3 不同規模評論預測結果F1值(子圖為固定λ值,語料規模增大對應的F1值變化情況)
由圖3可以看出,雖然評論語料規模不同,但是,隨著閾值λ的增大,實驗結果F1值總體呈波動下降趨勢。在所研究的λ取值范圍內,實驗結果的F1值在[0.723,0.817],若除去規模為500條評論的小規模測試集,F1值的波動范圍僅為[0.761,0.805]。可見,λ取值對具有一定規模的評論集的實驗結果有影響,但是影響不大。在λ∈[0,0.03]時,F1值均在0.785 以上,正負情感傾向判別結果較好。另外,由子圖可以發現,對于固定的λ值,隨著評論語料規模的逐漸增大,F1值并未有明顯的規律,基本上是在某個固定值上下波動。這說明,λ的取值與語料規模無明顯關系。
基于上述分析,本文中λ的取值方法為隨機取自區間[0,0.03]。表3所示為當λ隨機取自區間[0,0.03]時,在計算機評論集Corp1的評論情感分類的實驗結果,以準確率P、召回率R以及F1值作為評判實驗結果的標準,結果為10次實驗的平均值。

表3 實驗結果
由表3可以看出,當λ在區間[0,0.03]內隨機取值時,計算機類評論集Corp1 的正、負情感傾向判別結果的準確率P、召回率R以及F1值均在80%,且10次實驗的結果變化幅度極小,F1值的變化幅度僅為0.001。因此,λ在區間[0,0.03]內任意取值,可以降低程序計算的復雜度,在簡化實驗過程的同時又不會降低算法性能。
為進一步驗證本文所提模型的有效性,將本文模型與其他情感分類模型進行比較,包括ASUM 模型[4]、JST 模型[8]、Pang等[11]的方法和UTSU 模型[9],采用數據集Corp1。比較結果如圖4所示。

圖4 情感分類效果對比圖
5種方法中,Pang方法是有監督的學習方法,其他4種均為無監督的主題情感混合模型。由圖4可以看出,綜合考慮準確率和召回率,效果最好的是Pang方法。但Pang方法是基于向量空間模型的有監督學習方法,需要先對標注好的樣本進行訓練才能測試。其他4種無監督算法中,USTU 模型、ASUM模型以及本文提出的基于主題相似性的情感分類模型中,本文的結果明顯優于其他模型,綜合評價指標F1值比其他模型高3%~20%,驗證了本文算法的有效性。綜合上述實驗,本文所提出的基于主題相似性的情感分類模型,在當λ在區間[0,0.03]內任意取值時,評論的情感分類F1值可以達到比較理想的結果,能夠有效地判別評論的情感傾向。
為了進一步驗證本文所提出的基于主題相似性的無監督情感分類方法具有較好的領域可移植性,分別在酒店、圖書及手機3類產品的數據集(見表1 Corp2~4)上進行測試。算法參數設置與Corp1實驗相同,參數λ隨機取自區間[0,0.03],情感分類結果如圖5所示。

圖5 領域可移植性實驗結果
由圖5可以看出,本文方法在不同領域的評論上均展現了較好的性能,綜合F1值達到80%以上,充分說明了該方法在領域可移植上的優越性。另外,在F1值表現上,酒店類評論達到85%以上,而圖書類和手機類均在80%左右。這是因為,酒店類評論主題相對集中,基本圍繞地理位置、房間大小及衛生、周邊環境等,因而理想評論能夠更全面地包含所有評論的主題;而圖書類評論中,消費者大多會對圖書的內容進行評價,由于圖書題材及內容的廣泛性,使得構造理想評論的全面性較低,進而判別結果有所降低;同樣地,手機類產品的評論主題通常也較多,包括手機多樣的性能及用戶差異性體驗等,因而F1值也在80%左右。
針對中文在線產品評論進行情感傾向判別,即在篇章級別上判斷一條評論情感極性的正負。近年來,基于主題模型的無監督情感傾向分析越來越受到學者的青睞,而現有主題情感混合模型中,由于主題分布和情感分布會有一個是局部分布,在線評論文檔的情感偏移或主題數目變化會導致局部分布不確定性增加,而使最終分類效果不佳且不穩定。因此,本文在基于主題模型的文本分類方法的基礎上對情感分類問題進行研究,采用最常用的LDA 主題模型,以情感詞典方法獲得主題的情感傾向,提出一種基于主題相似性的無監督在線評論情感分類模型。為弱化主題內容對情感分類的影響,引入理想評論并構造理想評論代表集。通過計算評論和理想評論集的主題相似度,獲得在線評論的情感傾向值,實現情感分類。
為驗證算法的有效性,在計算機、酒店、圖書及手機4個不同領域產品的評論數據集上進行實驗。實驗結果表明:①利用情感詞典及主題詞向量能有效判別主題的情感極性;②基于主題情感極性的近似理想評論構造方法產生的理想正、負評論的相似度達-0.78,情感極性兩極化明顯;③在準確率、召回率及F1值表現上,本文算法比Pang等[11]的有監督算法低,但是優于其他主題情感混合模型;④本文方法具有優越的領域可移植性,在不同領域數據集上表現較好。
本文的研究結果在中文在線評論情感分類相關理論和實踐應用中均具有一定的參考價值。①理論貢獻。基于文本相似性的情感分類方法通常是兩條評論相互比較,而本文引入理想評論并擴充為理想評論集,通過比較評論和理想評論集內所有評論的相似度得到每條評論的情感傾向值,豐富了在線評論情感分類方法和理論。②實踐貢獻。在線評論的情感極性反映了消費者對購物體驗的綜合情感,電子商務環境下,商家可以通過在線評論情感極性推測消費者的再購意愿及行為,為制定個性化營銷策略提供參考依據。
以下兩個方面值得深入探討:①本文研究內容限于在線評論篇章級別的情感分類問題,而現在更多的評論則是從多方面對商品進行闡述,對在線評論進行細粒度的情感分類將是下一步的研究重點。②本文研究方法為無監督學習,當數據含有標簽或部分有標簽時,如何利用標簽信息改進模型也是一個可行的研究方向。