999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進主題模型的短文本評論情感分析①

2019-03-11 06:02:52花樹雯張云華
計算機系統應用 2019年3期
關鍵詞:單詞實驗模型

花樹雯,張云華

(浙江理工大學 信息學院,杭州 245000)

引言

2016年,Li等人根據評論語料中的時間、發布人等信息,為短文本分配不同的權重,將分配權重后的短文本合并為偽長文本,將LDA模型中的單詞w替換成權重微博鏈組成的三元組形式,提出了使用微博鏈改進的LDA主題模型(WMC-LDA)對短文本進行分類[1].2017年,Liu等人嘗試使用與訓練語料相關的外部語料庫進行詞嵌入模型的訓練,學習到詞語間的語義關系,作為高斯LDA對短文本分析時的詞向量的擴充[2].2018年,Bunk 等人提出了 WELDA模型,將提取詞的先驗語義信息的詞嵌入模型運行在LDA模型詞采樣的內層,基于訓練語料的詞義增強主題模型的訓練[3].

綜合目前的研究,現有的短文本主題分類有以下兩點不足:

(1)傳統通過利用外部語料擴充詞義或者合并短文本的方法提高語料的語義信息,但是主題模型對訓練語料中的詞義信息提取不充分.

(2)主題模型中詞嵌入空間的詞向量的能力有限,詞嵌入模型運行在吉布斯采樣的內層時,模型的運行效率十分緩慢.

上述存在的問題,則是本文開展研究的出發點.

1 相關工作

1.1 LDA主題模型

LDA主題模型是Blei等人在03年提出的,模型為文檔集中的每個文檔以概率分布的形式分配多個主題,每個單詞都由一個主題生成[4],LDA的模型如圖1所示.

圖1 LDA 模型結構圖

圖1中,α和β表示先驗參數,θ表示從先驗參數α中提取的主題分布,z表示從θ主題分布中提取的主題,Φ表示從先驗參數β中提取的主題z對應的詞語分布,w為最后生成的詞[5].

LDA模型中,詞w采樣是根據主題z和模型的先驗參數β,主題z是從先驗參數α中提取,所以他們的聯合概率分布如式(1)所示.

在模型中先驗參數β服從關于參數Φ獨立的多項分布,使用參數Φ將式(1)更新如下:

因為詞服從于主題即參數為w的多項分布,所以將上式展開化解如下:

1.2 詞嵌入模型和LDA模型的對比

詞嵌入模型認為可以將語料中的每個單詞分配給高維向量空間的實際向量,通常這個向量空間可以包含50到600個維度.提出了Word2Vec模型,在訓練過程中,滑動窗口將覆蓋文本和神經網絡中的每一個單詞的權重以學習預測周圍的單詞,通過PCA降維,投射出詞嵌入模型和LDA模型的兩個維度的單詞嵌入空間,通過可視化方法使得詞的距離更容易理解.兩點之間的距離越短,表示詞義越相近,PCA的降維結果如圖2所示.

圖2 詞向量 PCA 圖

選取LDA模型中前10個單詞,在圖2中用實心點表示,空心點表示詞向量模型訓練出的詞向量,由圖可以得出,實心點在距離上更近,而空心點之間的距離比實心點較遠,說明詞向量訓練出的詞在詞義上更近.Batmanghelich等人在NSTM模型中提出詞義的相似性可以通過詞向量(x1,x2,x3,…,xn)的余弦距離cos來衡量,余弦的計算如式(4)所示.

Batmanghelich等人的實驗證明這種衡量方式,比通過嵌入模型中的歐幾里得距離衡量要準確[6].

2 WELDA 模型的建立

2.1 替換詞向量模型構建

詞語的關系有相似性和相關性,語義的相似性關系例如詞語‘醫生’和‘大夫’,相關性例如詞語‘醫生’和‘護士’.基于詞嵌入的模型關注于語義的相似性,而基于文檔的主題模型則擅長捕捉語義的相關性.考慮到實驗的數據量并不十分巨大,因此使用的Skip-Gram模型進行模型的構建.

(1)語料庫通過Skip-Gram模型進行詞向量訓練,Skip-Gram模型能很好的表示相似的詞匯,使用余弦距離的值計算表示詞義的相似性.

表1表示實驗中在Skip-Gram模型下輸入語料庫后抓取的‘復查’詞義相近的詞匯.

(2)模型中,替換單詞w的具體做法是,從Skip-Gram模型空間中抽取一個與w`相近的詞向量w*,w*是詞嵌入空間中產生的余弦距離上最近的單詞,最后,替換單詞w`.例如,對上文中的‘復查’來說,替換詞新詞是‘復診’.

(3)借鑒LFTM模型的方法,替換詞向量模型時引入了伯努利參數s~ber(λ),詞的采樣可以以一定概率從從詞嵌入空間v或者從主題分布的詞語分布Φ中進行采樣[7].

表1 ‘復查’的相近詞向量余弦距離示例

2.2 WLDA模型構建

在WLDA模型中,首先將預處理文本輸入到替換詞向量模型層v,得到訓練好的詞嵌入空間.其次,在模型中加入替換詞向量模型層,最后,將詞w`輸入替換詞向量模型層,模型的結構圖如圖3所示.

圖3 WLDA 模型結構圖

WLDA模型生成過程如下:

(1)選擇文檔集合中的主題k=1,…,k;

(2)選擇單詞分布Φk~Dir(β);

(3)對每篇文檔d=1,…,M:

1)生成文檔主題分布θd~Dir(α);

2)對文檔中的每個詞i=1,…,Nd;

① 生成詞的主題zdi~Mult(θd);

其次,這支40mm F1.4 DG HSM |Art鏡頭是適馬第一支為了達到電影鏡頭所追求的視角和性能標準而開發的Art系列鏡頭。這支鏡頭使用三枚FLD螢級低色散鏡片和三枚SLD特殊低色散鏡片,最大限度地校正了軸向色差和倍率色差。大光圈下即可在焦平面上呈現清晰的成像效果,與柔和的焦外虛化部分相比,可以更好地突出主體?;儽豢刂圃?%或以下,彗形像差也得到了良好的校正。

② 選擇w~Mult(Φzdi),Ψd,i~Ber (λ),如果Ψd,i=1,替換新單詞w*.

替換詞w為在上述替換詞向量模型中抓取相似的單詞w*,用表示wi被分配給話題j的次數,根據步驟 a 中得到的公式,以及貝葉斯法則和 Diri 先驗,將公式推導如下.

更新吉布斯采樣器如式(7)所示.

其中,基于伯努利分布,從替換詞向量模型層v中采樣詞w*,交換當前單詞w`的新主題的分布,由于詞向量訓練并不運行在吉布斯采樣的內層,而是在詞向量模型訓練好之后,主題模型在詞采樣階段從詞嵌入空間中以一定概率提取詞義相近的詞進行替換.

由此在理論上來說,詞的替換使該模型的主題的困惑度下降,而在外部訓練好詞嵌入空間,使WLDA模型的運行效率更高.

3 實驗與分析

3.1 實驗環境及數據預處理

實驗硬件環境為酷睿i7處理器,運行內存為16 GB,操作系統為 Win10,實驗的軟件是 Eclipse,采用的語言是Python.

實驗數據處理分為以下兩步:

(a)在掛號網上爬取出評論數據,去除標點符號.

(b)使用結巴分詞,進行停用詞處理和將語料庫進行分詞.

分詞得到的txt局部文本如圖4所示.

3.2 實驗內容及結果分析

實驗分為2個部分.

(a)配置λ參數,找出合適的重采樣概率λ.

(b)基于WLDA的進行情感詞抽取并和其他模型進行實驗對比.

實驗中我們采用Perplexity(困惑度)值作為評判標準,式(8)為Perplexity的計算公式[7].

其中,M代表測試預料集的文本數量,Nd代表第d篇文本的大小(即單詞的個數),p(wd)代表的是文本的概率[8].如果重采樣的參數等于1,則實驗中使用的為標準的LDA,當重采樣次數等于0時,文檔中所有的詞全部是從詞嵌入的空間中抽取.Perplexity對比的數據如圖5所示.

圖4 分詞得到的 txt文本局部圖

圖5 Perplexity 值對比

圖5中的λ為重采樣次數,橫坐標為模型的迭代次數,縱坐標為困惑度,實驗得出當收斂次數需要小于1000次,重新采樣次數為0.5時,模型的困惑度較小.

DMM模型通過假設每個短文本只包含一個主題[8],15年,das等人首次提出了高斯LDA模型,使用詞向量代替離散的值[9],這兩個模型都在一定程度上,解決了短文本的上下文依賴性差的問題.實驗選擇DMM模型,高斯LDA模型和重采樣概率為0.5的WLDA模型進行對比.

針對測試的評論數據,使用PMI來量化這三個主題模型中的主題質量.PMI(主題一致性標準)常常被用來量化主題模型中的主題的質量,PMI的定義如式(9)所示[9].

圖6 模型的 PMI對比

實驗結果表明,WLDA模型的表現要優于高斯LDA模型模型,困惑度最小,這一點得益于WLDA在吉布斯采樣階段,選擇詞嵌入空間的詞向量w*,對單詞w`選擇性替換,而替換的詞向量提高了模型訓練中詞向量的相似性,補充了上下文的語義,當模型中的主題數為120時,模型的PMI值變低,是由于替換的詞向量的質量不高,對短文本的主題學習造成了影響.

運行時間如表2所示.

表2 運行時間表(單位:min)

DMM模型的運行時間最短,但是由于DMM模型假設每個短文本只包含一個主題,這個假設十分不嚴謹,因此,DMM的PMI值遠遠小于WLDA模型.

4 結束語

本文提出了一種基于主題模型的短文本評論情感分析模型,通過在某醫院的評論數據上實驗,證明了該模型對主題詞的分類更加的突出,并且有較高的主題一致性.

在下一步工作中,將進一步研究降低模型的時間復雜度,提高模型的運行效率.

猜你喜歡
單詞實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
做個怪怪長實驗
看圖填單詞
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 丁香六月综合网| 亚洲性影院| 亚洲黄网视频| 中文字幕久久精品波多野结| 日本午夜影院| 精品视频一区二区观看| 国产精品女主播| 久996视频精品免费观看| 国产精选小视频在线观看| 欧美在线中文字幕| 在线观看免费国产| 国产一区二区网站| 九九热这里只有国产精品| 国产美女无遮挡免费视频网站| 国产91全国探花系列在线播放| 日本91视频| 久久熟女AV| 亚洲熟女偷拍| 欧美成人影院亚洲综合图| 91亚洲精选| 视频二区亚洲精品| 久久综合丝袜日本网| 国产靠逼视频| 日韩av手机在线| 亚洲一区二区三区中文字幕5566| 国产一级视频在线观看网站| 免费xxxxx在线观看网站| 久久婷婷五月综合色一区二区| 中文国产成人精品久久| 熟女视频91| 久久一级电影| 国产综合无码一区二区色蜜蜜| 国产一级二级三级毛片| 国产精品yjizz视频网一二区| 在线va视频| 亚洲最猛黑人xxxx黑人猛交| 日韩免费中文字幕| 精品伊人久久久久7777人| 精品国产aⅴ一区二区三区| 亚洲免费福利视频| 精品国产成人三级在线观看| 国产精品手机视频一区二区| 国产午夜福利在线小视频| 日韩一级毛一欧美一国产| 亚洲色图欧美在线| 欧美一区二区三区欧美日韩亚洲| 亚洲精品视频免费看| 国产精品美女自慰喷水| 久久国产精品电影| 国产成人综合久久精品下载| 58av国产精品| 午夜久久影院| 亚洲人妖在线| 国产欧美精品专区一区二区| 亚洲欧美色中文字幕| 91小视频版在线观看www| 亚洲欧美在线综合图区| 女人毛片a级大学毛片免费 | 色噜噜狠狠狠综合曰曰曰| 99re这里只有国产中文精品国产精品 | 亚洲精品国产精品乱码不卞| 亚洲日韩精品无码专区97| 天天躁日日躁狠狠躁中文字幕| 国产成人永久免费视频| 日韩国产精品无码一区二区三区 | 免费可以看的无遮挡av无码| 美臀人妻中出中文字幕在线| 国产在线观看精品| 最新国产在线| 一级全免费视频播放| 日本一区高清| 国产精品成人一区二区| 亚洲日韩高清在线亚洲专区| 特级精品毛片免费观看| 国产成人精品免费av| 国产在线观看成人91| 欧美国产在线看| 伊人久久福利中文字幕| 亚欧成人无码AV在线播放| 91精品国产综合久久香蕉922| 99爱视频精品免视看| 欧美曰批视频免费播放免费|