改進主題模型的短文本評論情感分析①

2019-03-11 06:02:52花樹雯張云華

計算機系統應用 2019年3期

花樹雯,張云華

(浙江理工大學信息學院,杭州 245000)

引言

2016年,Li等人根據評論語料中的時間、發布人等信息,為短文本分配不同的權重,將分配權重后的短文本合并為偽長文本,將LDA模型中的單詞w替換成權重微博鏈組成的三元組形式,提出了使用微博鏈改進的LDA主題模型(WMC-LDA)對短文本進行分類[1].2017年,Liu等人嘗試使用與訓練語料相關的外部語料庫進行詞嵌入模型的訓練,學習到詞語間的語義關系,作為高斯LDA對短文本分析時的詞向量的擴充[2].2018年,Bunk 等人提出了 WELDA模型,將提取詞的先驗語義信息的詞嵌入模型運行在LDA模型詞采樣的內層,基于訓練語料的詞義增強主題模型的訓練[3].

綜合目前的研究,現有的短文本主題分類有以下兩點不足:

(1)傳統通過利用外部語料擴充詞義或者合并短文本的方法提高語料的語義信息,但是主題模型對訓練語料中的詞義信息提取不充分.

(2)主題模型中詞嵌入空間的詞向量的能力有限,詞嵌入模型運行在吉布斯采樣的內層時,模型的運行效率十分緩慢.

上述存在的問題,則是本文開展研究的出發點.

1 相關工作

1.1 LDA主題模型

LDA主題模型是Blei等人在03年提出的,模型為文檔集中的每個文檔以概率分布的形式分配多個主題,每個單詞都由一個主題生成[4],LDA的模型如圖1所示.

圖1 LDA 模型結構圖

圖1中,α和β表示先驗參數,θ表示從先驗參數α中提取的主題分布,z表示從θ主題分布中提取的主題,Φ表示從先驗參數β中提取的主題z對應的詞語分布,w為最后生成的詞[5].

LDA模型中,詞w采樣是根據主題z和模型的先驗參數β,主題z是從先驗參數α中提取,所以他們的聯合概率分布如式(1)所示.

在模型中先驗參數β服從關于參數Φ獨立的多項分布,使用參數Φ將式(1)更新如下:

因為詞服從于主題即參數為w的多項分布,所以將上式展開化解如下:

1.2 詞嵌入模型和LDA模型的對比

詞嵌入模型認為可以將語料中的每個單詞分配給高維向量空間的實際向量,通常這個向量空間可以包含50到600個維度.提出了Word2Vec模型,在訓練過程中,滑動窗口將覆蓋文本和神經網絡中的每一個單詞的權重以學習預測周圍的單詞,通過PCA降維,投射出詞嵌入模型和LDA模型的兩個維度的單詞嵌入空間,通過可視化方法使得詞的距離更容易理解.兩點之間的距離越短,表示詞義越相近,PCA的降維結果如圖2所示.

圖2 詞向量 PCA 圖

選取LDA模型中前10個單詞,在圖2中用實心點表示,空心點表示詞向量模型訓練出的詞向量,由圖可以得出,實心點在距離上更近,而空心點之間的距離比實心點較遠,說明詞向量訓練出的詞在詞義上更近.Batmanghelich等人在NSTM模型中提出詞義的相似性可以通過詞向量(x1,x2,x3,…,xn)的余弦距離cos來衡量,余弦的計算如式(4)所示.

Batmanghelich等人的實驗證明這種衡量方式,比通過嵌入模型中的歐幾里得距離衡量要準確[6].

2 WELDA 模型的建立

2.1 替換詞向量模型構建

詞語的關系有相似性和相關性,語義的相似性關系例如詞語‘醫生’和‘大夫’,相關性例如詞語‘醫生’和‘護士’.基于詞嵌入的模型關注于語義的相似性,而基于文檔的主題模型則擅長捕捉語義的相關性.考慮到實驗的數據量并不十分巨大,因此使用的Skip-Gram模型進行模型的構建.

(1)語料庫通過Skip-Gram模型進行詞向量訓練,Skip-Gram模型能很好的表示相似的詞匯,使用余弦距離的值計算表示詞義的相似性.

表1表示實驗中在Skip-Gram模型下輸入語料庫后抓取的‘復查’詞義相近的詞匯.

(2)模型中,替換單詞w的具體做法是,從Skip-Gram模型空間中抽取一個與w`相近的詞向量w*,w*是詞嵌入空間中產生的余弦距離上最近的單詞,最后,替換單詞w`.例如,對上文中的‘復查’來說,替換詞新詞是‘復診’.

(3)借鑒LFTM模型的方法,替換詞向量模型時引入了伯努利參數s～ber(λ),詞的采樣可以以一定概率從從詞嵌入空間v或者從主題分布的詞語分布Φ中進行采樣[7].

表1 ‘復查’的相近詞向量余弦距離示例

2.2 WLDA模型構建

在WLDA模型中,首先將預處理文本輸入到替換詞向量模型層v,得到訓練好的詞嵌入空間.其次,在模型中加入替換詞向量模型層,最后,將詞w`輸入替換詞向量模型層,模型的結構圖如圖3所示.

圖3 WLDA 模型結構圖

WLDA模型生成過程如下:

(1)選擇文檔集合中的主題k=1,…,k;

(2)選擇單詞分布Φk～Dir(β);

(3)對每篇文檔d=1,…,M:

1)生成文檔主題分布θd～Dir(α);

2)對文檔中的每個詞i=1,…,Nd;

① 生成詞的主題zdi～Mult(θd);

其次，這支40mm F1.4 DG HSM |Art鏡頭是適馬第一支為了達到電影鏡頭所追求的視角和性能標準而開發的Art系列鏡頭。這支鏡頭使用三枚FLD螢級低色散鏡片和三枚SLD特殊低色散鏡片，最大限度地校正了軸向色差和倍率色差。大光圈下即可在焦平面上呈現清晰的成像效果，與柔和的焦外虛化部分相比，可以更好地突出主體?；儽豢刂圃?%或以下，彗形像差也得到了良好的校正。

② 選擇w～Mult(Φzdi),Ψd,i～Ber (λ),如果Ψd,i=1,替換新單詞w*.

替換詞w為在上述替換詞向量模型中抓取相似的單詞w*,用表示wi被分配給話題j的次數,根據步驟 a 中得到的公式,以及貝葉斯法則和 Diri 先驗,將公式推導如下.

更新吉布斯采樣器如式(7)所示.

其中,基于伯努利分布,從替換詞向量模型層v中采樣詞w*,交換當前單詞w`的新主題的分布,由于詞向量訓練并不運行在吉布斯采樣的內層,而是在詞向量模型訓練好之后,主題模型在詞采樣階段從詞嵌入空間中以一定概率提取詞義相近的詞進行替換.

由此在理論上來說,詞的替換使該模型的主題的困惑度下降,而在外部訓練好詞嵌入空間,使WLDA模型的運行效率更高.

3 實驗與分析

3.1 實驗環境及數據預處理

實驗硬件環境為酷睿i7處理器,運行內存為16 GB,操作系統為 Win10,實驗的軟件是 Eclipse,采用的語言是Python.

實驗數據處理分為以下兩步:

(a)在掛號網上爬取出評論數據,去除標點符號.

(b)使用結巴分詞,進行停用詞處理和將語料庫進行分詞.

分詞得到的txt局部文本如圖4所示.

3.2 實驗內容及結果分析

實驗分為2個部分.

(a)配置λ參數,找出合適的重采樣概率λ.

(b)基于WLDA的進行情感詞抽取并和其他模型進行實驗對比.

實驗中我們采用Perplexity(困惑度)值作為評判標準,式(8)為Perplexity的計算公式[7].

其中,M代表測試預料集的文本數量,Nd代表第d篇文本的大小(即單詞的個數),p(wd)代表的是文本的概率[8].如果重采樣的參數等于1,則實驗中使用的為標準的LDA,當重采樣次數等于0時,文檔中所有的詞全部是從詞嵌入的空間中抽取.Perplexity對比的數據如圖5所示.

圖4 分詞得到的 txt文本局部圖

圖5 Perplexity 值對比

圖5中的λ為重采樣次數,橫坐標為模型的迭代次數,縱坐標為困惑度,實驗得出當收斂次數需要小于1000次,重新采樣次數為0.5時,模型的困惑度較小.

DMM模型通過假設每個短文本只包含一個主題[8],15年,das等人首次提出了高斯LDA模型,使用詞向量代替離散的值[9],這兩個模型都在一定程度上,解決了短文本的上下文依賴性差的問題.實驗選擇DMM模型,高斯LDA模型和重采樣概率為0.5的WLDA模型進行對比.

針對測試的評論數據,使用PMI來量化這三個主題模型中的主題質量.PMI(主題一致性標準)常常被用來量化主題模型中的主題的質量,PMI的定義如式(9)所示[9].

圖6 模型的 PMI對比

實驗結果表明,WLDA模型的表現要優于高斯LDA模型模型,困惑度最小,這一點得益于WLDA在吉布斯采樣階段,選擇詞嵌入空間的詞向量w*,對單詞w`選擇性替換,而替換的詞向量提高了模型訓練中詞向量的相似性,補充了上下文的語義,當模型中的主題數為120時,模型的PMI值變低,是由于替換的詞向量的質量不高,對短文本的主題學習造成了影響.

運行時間如表2所示.

表2 運行時間表(單位:min)

DMM模型的運行時間最短,但是由于DMM模型假設每個短文本只包含一個主題,這個假設十分不嚴謹,因此,DMM的PMI值遠遠小于WLDA模型.

4 結束語

本文提出了一種基于主題模型的短文本評論情感分析模型,通過在某醫院的評論數據上實驗,證明了該模型對主題詞的分類更加的突出,并且有較高的主題一致性.

在下一步工作中,將進一步研究降低模型的時間復雜度,提高模型的運行效率.