999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力機(jī)制Bi-LSTM的中文短文本情感分析

2020-10-24 08:41:04陶怡軒
福建質(zhì)量管理 2020年19期
關(guān)鍵詞:分類機(jī)制文本

陶怡軒

(西北民族大學(xué)中國(guó)民族信息技術(shù)研究院 甘肅 蘭州 730000)

一、引言

隨著社交媒體及互聯(lián)網(wǎng)平臺(tái)的迅速發(fā)展,網(wǎng)民的規(guī)模迅速增長(zhǎng),越來越多的人喜歡通過社交媒體表達(dá)自己的觀點(diǎn)和想法并從中獲取有價(jià)值的信息,例如:時(shí)事新聞、頭條信息、微博評(píng)論、電商買家評(píng)論,針對(duì)短文本進(jìn)行情感傾向性分析,通常沒有綜合考慮文本中隱含的依賴關(guān)系和局部關(guān)鍵信息這一問題,提出自注意力機(jī)制和雙向長(zhǎng)短時(shí)記憶模型,利用雙向長(zhǎng)短時(shí)捕獲上下文隱藏依賴關(guān)系,優(yōu)化短文本特征稀疏的問題,利用自注意力機(jī)制加大對(duì)短文本中局部關(guān)鍵信息的注意力[1]。從中提取有價(jià)值信息,一直備受研究者們的關(guān)注。

文本情感分析是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。互聯(lián)網(wǎng)(如博客和論壇等)上產(chǎn)生了大量的用戶參與的、對(duì)于諸如人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息。這些評(píng)論信息表達(dá)了人們的各種情感色彩和情感傾向性,如喜、怒、哀、樂和批評(píng)、贊揚(yáng)等。基于此,潛在的用戶就可以通過瀏覽這些主觀色彩的評(píng)論來了解大眾輿論對(duì)于某一事件或產(chǎn)品的看法。循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN)模型在處理時(shí)間序列數(shù)據(jù)方面更加有效,借助RNN的狀態(tài)記憶單元,使得一個(gè)序列位置的輸出在數(shù)學(xué)計(jì)算上與之前的所有時(shí)間序列上的輸入都存在一定的關(guān)系,但是原生的RNN由于梯度的乘性問題,前面的序列影響近乎為0,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的提出與實(shí)現(xiàn),通過加入“門控”機(jī)制控制信息的傳遞改善了原生RNN的梯度消失或爆炸問題[1]。短文本作為一種信息的載體,如何高效正確地理解短文本即要從有限的文本信息中找到這段短文本真正想要表達(dá)的意思,對(duì)短文本進(jìn)行合理準(zhǔn)確的建模,分析出短文本內(nèi)在的主體結(jié)構(gòu)[3]。短文本長(zhǎng)度短小,包含內(nèi)容較少,數(shù)據(jù)稀疏性較強(qiáng),詞向量映射方法的性能很大程度上依賴于分析的準(zhǔn)確性。例如:“結(jié)婚的和尚未結(jié)婚的”,有“結(jié)婚/的/和/尚未/結(jié)婚/的”和“結(jié)婚/的/和尚/未/結(jié)婚/的”其主要困難在于分詞歧義,此外未登錄詞、分詞粒度粗細(xì)等都是影響分詞效果的重要因素,針對(duì)不同分詞產(chǎn)生的語(yǔ)義歧義問題,徐云等人[4]提出了一種不需分詞的n元語(yǔ)法文本分類方法。與傳統(tǒng)文本分類模型相比,該方法在字的級(jí)別上利用了n元語(yǔ)法模型,文本分類時(shí)無(wú)需進(jìn)行分詞,并且避免了可能造成有用信息丟失的特征選擇過程由于字的數(shù)量遠(yuǎn)小于詞的數(shù)量,所以該分類方法與其它在詞級(jí)別上的分類方法相比,有效地降低了數(shù)據(jù)稀疏帶來的影響[4]。實(shí)驗(yàn)證明詞向量在字級(jí)別的精確度要遠(yuǎn)高于詞級(jí)別作為原始特征。

本文針對(duì)短文本中詞級(jí)別的詞向量性能依賴于分詞的準(zhǔn)確性及普通時(shí)序模型無(wú)法更多地關(guān)注短文本中稀疏特征的關(guān)鍵特征問題,在雙向的長(zhǎng)短時(shí)記憶時(shí)網(wǎng)絡(luò)中結(jié)合前向的LSTM和后向的LSTM,例如前向的LSTM(L)依次輸入“我”,“愛”,“蘋果”得到三個(gè)向量H1lH2lH3l和后向的LSTM(R)依次輸入“蘋果”,“愛”,“我”得到三個(gè)向量H1rH2rH3r,最后將前后的隱向量進(jìn)行拼接得到三個(gè)新向量,計(jì)算評(píng)論語(yǔ)句中的全部詞語(yǔ)信息來獲得注意力焦點(diǎn),提取句子所表達(dá)信息的重要部分來獲得句子中對(duì)當(dāng)前評(píng)論信息任務(wù)中的關(guān)鍵信息,最后經(jīng)過SoftMax分類器得到情感類別。

二、相關(guān)工作

(一)字向量表示方法

目前使用最為廣泛的文檔表示方法都是以詞袋法為基礎(chǔ),詞袋法將短文檔看作是一些詞匯的集合,在該集合中,每個(gè)單詞出現(xiàn)的概率都是相互獨(dú)立的,且不考慮詞的順序、語(yǔ)法、語(yǔ)義等多信息條件的影響。它將所要研究的短文檔表示為與訓(xùn)練詞匯集合相同維度的向量,向量中每個(gè)位置的數(shù)值大小表示為該位置所代表的詞在文檔中出現(xiàn)的次數(shù),并且隨著新詞匯的增加,文檔向量維度也會(huì)增加[5]。

近年來深度學(xué)習(xí)的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的自特征抽取的詞向量表示方法越來越受學(xué)術(shù)界的關(guān)注,基于前人的研究,Mikolov等人在2013年提出了Word2Vec模型[6]用于計(jì)算詞向量。Word2Vec模型利用詞的上下文信息將一個(gè)詞轉(zhuǎn)化為一個(gè)低維的實(shí)數(shù)向量,越相似的詞在詞向量空間中越相近。

(二)LSTM模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)一般使用梯度下降算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,但使用的Sigmoid激活函數(shù)會(huì)產(chǎn)生梯度消失或梯度爆炸等問題,LSTM是1997年Hochreiter等人針對(duì)RNN的不足而提出的改進(jìn)模型,它在原始RNN模型之上加入“門”來控制信息的傳遞,可在一定程度上避免梯度消失與爆炸問題,以更好的獲取文本語(yǔ)義的長(zhǎng)距離依賴信息。模型內(nèi)部主要包括輸入門it遺忘門ft輸出門ot。和記憶單元ct,等部分,具體結(jié)構(gòu)如圖1所示。

圖1 LSTM-Cell內(nèi)部結(jié)構(gòu)圖

LSTM模型的引入,為解決長(zhǎng)期依賴的問題,必須通過“遺忘門”決定上一個(gè)Cell單元中哪些信息遺棄。它由Sigmoid函數(shù)完成,通過接收上一時(shí)刻輸出與本時(shí)刻輸入的加權(quán)和計(jì)算出0到1之間的一個(gè)數(shù)值,且0表示完全拋棄,1表示全部保留,其計(jì)算表達(dá)式如式(1)所示。

ft=δ(Wf·[ht-1xt]+bf)

(1)

例如,我們需要使用LSTM模型嘗試根據(jù)之前的詞學(xué)習(xí)預(yù)測(cè)下一個(gè)詞,在這個(gè)問題中,單元狀態(tài)包含了當(dāng)前主語(yǔ)的性別,應(yīng)該可以正常使用。但當(dāng)我們見到一個(gè)新的主語(yǔ)時(shí),希望它能夠忘記之前主語(yǔ)的性別。

(三)Attention模型

注意力(Attention)機(jī)制來源于人的視覺處理過程,通過瀏覽全部信息來獲取視覺注意力焦點(diǎn),提取句子所表達(dá)信息的主要部分來獲取短文本中的句子對(duì)當(dāng)前任務(wù)的關(guān)鍵信息。注意力機(jī)制的實(shí)現(xiàn)是通過保留LSTM編碼器對(duì)輸入序列的中間輸出結(jié)果,然后將訓(xùn)練的模型來對(duì)期望輸入的語(yǔ)句進(jìn)行選擇性的學(xué)習(xí)并且在模型輸出時(shí)將輸出序列與之進(jìn)行關(guān)聯(lián)。

Attention函數(shù)本質(zhì)上是一個(gè)由諸多Query和Key-Value組成的映射函數(shù),計(jì)算過程分為以下三步:

(1)將索引記錄和每一個(gè)鍵進(jìn)行相似度計(jì)算得到相應(yīng)的權(quán)重

f(Q,k)=QkT

(2)

(2)使用SoftMax函數(shù)對(duì)權(quán)重歸一化

ai=SoftMax(f(Q,k))

(3)

(3)通過計(jì)算Query和各個(gè)Key的相似性或者相關(guān)性,得到每個(gè)Key對(duì)應(yīng)Value的權(quán)重系數(shù),然后對(duì)Value進(jìn)行加權(quán)求和,即得到了最終的Attention數(shù)值。

三、基于BiLSTM網(wǎng)絡(luò)引入Self-Attention機(jī)制

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))本身對(duì)于長(zhǎng)距離的依賴關(guān)系有一定的捕捉能力,但由于序列模型是通過門控單元使得信息保持流動(dòng),并且選擇性地傳遞信息。但隨著短文本的內(nèi)容增加,文本的長(zhǎng)度逐漸增長(zhǎng)的條件下,捕捉依賴關(guān)系的能力越來越弱,每一次遞歸都伴隨著信息的損耗,引入自注意力機(jī)制來增強(qiáng)短文本情感分析所關(guān)注依賴關(guān)系的捕捉,此外,序列模型無(wú)法對(duì)層次結(jié)構(gòu)的信息進(jìn)行有效的表達(dá)。

為了獲取短文本中對(duì)于情感分類任務(wù)更關(guān)鍵的信息,本文提出由BiLSTM模型引入自注意力機(jī)制,通過BiLSTM改進(jìn)后的短文本情感分析算法,自注意力機(jī)制可以更好地提取短文本中具有稀疏特征的信息,傳統(tǒng)的注意力機(jī)制通過計(jì)算源端的每個(gè)詞與目標(biāo)端的每個(gè)詞之間的依賴關(guān)系來更新訓(xùn)練參數(shù),自注意力機(jī)制僅通過關(guān)注自身信息更新訓(xùn)練參數(shù),無(wú)需添加額外的關(guān)注信息[7]。

(一)情感主題信息提取

對(duì)于短文本TEX={W1,W2,…,Wn},其中Wn為短文本中的第n個(gè)字,短文本的情感分析主要對(duì)短文本TEX進(jìn)行情感主題詞的特征分析提取,通過基于詞典的情感分類方法。其主要特點(diǎn)是,分類是基于一個(gè)包含已標(biāo)注的情感詞和短語(yǔ)的詞典,其中包含了情感詞和情感短語(yǔ)的情感傾向性和情感強(qiáng)度,每篇短文本的情感得分還需要結(jié)合情感加強(qiáng)詞和否定詞來進(jìn)行計(jì)算,這種方法之前用于基于屬性的情感分類和句子級(jí)的情感分類,針對(duì)短文本的情感細(xì)粒度還應(yīng)從字級(jí)別的角度出發(fā),判斷所屬極性,考慮到在一般情況下中性情感對(duì)短文本情感分析影響不大,故只將情感劃分為兩個(gè)極性,即正面情感和負(fù)面情感。

(二)文本向量化表示層

傳統(tǒng)適用于短文本的主題模型例如LDA,通常是被設(shè)計(jì)在文檔篇章級(jí)別上隱式地去捕捉字詞與字詞之間的共現(xiàn)信息,從而挖掘出文檔中的主題分布結(jié)構(gòu),數(shù)據(jù)集給我們提供的字詞共現(xiàn)信息越多,則主題模型就能得到情感細(xì)粒度更為優(yōu)質(zhì)可靠的主題表達(dá)和主題分布,在以評(píng)論信息為主的短文本中往往只有10到20詞左右,傳統(tǒng)的詞袋模型通常基于統(tǒng)計(jì)學(xué)的文本表示,將句子看作是詞語(yǔ)的集合,用詞語(yǔ)的頻率和概率去統(tǒng)計(jì),忽略了句子原有的結(jié)構(gòu)信息,主題模型對(duì)包含詞語(yǔ)較少的短文本效果較差,采用字向量表示方法將每個(gè)字作為信息的基本單位,使用Skip-gram算法以字為單位在一定規(guī)模數(shù)據(jù)集上訓(xùn)練,將其映射為128維的字向量作為模型的輸入。

(三)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層

在單向的循環(huán)神經(jīng)網(wǎng)絡(luò)中,模型實(shí)際上只使用到了“上文”的信息,而沒有考慮到“下文”的信息。為了考慮到短文本評(píng)論中的上下文語(yǔ)義信息,預(yù)測(cè)可能需要使用到整個(gè)輸入序列的信息。作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種拓展,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合逆向的序列,組成雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),融合了輸入序列在前向和后向兩個(gè)方向上的信息。對(duì)于t時(shí)刻的輸出,前向LSTM層具有輸入序列中t時(shí)刻以及之前時(shí)刻的信息,而后向LSTM層中具有輸入序列中t時(shí)刻以及之后時(shí)刻的信息。前向LSTM層t時(shí)刻的輸出,記作后向LSTM層t時(shí)刻的輸出結(jié)果,記作兩個(gè)LSTM層輸出的向量可以使用相加、平均值或連接等方式進(jìn)行處理。

(四)自注意力機(jī)制層

利用Bi-LSTM模型結(jié)合自注意力機(jī)制來表示短文本,結(jié)合自注意力機(jī)制處理信息冗余和短文本信息的稀疏特征的優(yōu)勢(shì),加強(qiáng)字級(jí)別的向量對(duì)短文本關(guān)鍵信息的注意力,從而優(yōu)化短文本表示,強(qiáng)化文本的語(yǔ)義特征。

本文利用將短文本表示成不同組情感詞和短文本評(píng)論信息鍵值對(duì)的映射,自注意力捕獲關(guān)鍵信息表示如圖2所示:

圖2 自注意力機(jī)制鍵值對(duì)映射

(五)模型訓(xùn)練及優(yōu)化

本文采用隨機(jī)梯度下降算法優(yōu)化雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型,損失函數(shù)采用交叉熵函數(shù),y為訓(xùn)練樣本的實(shí)際值,y*作為模型計(jì)算過程中的預(yù)測(cè)輸出值,交叉熵函數(shù)對(duì)嵌入矩陣中的每一個(gè)字向量進(jìn)行計(jì)算,且經(jīng)過SoftMax分類函數(shù)得到的正、負(fù)面標(biāo)簽值都是獨(dú)立分布,相互之間無(wú)影響,計(jì)算的短文本情感分類標(biāo)簽值只有兩種可能值,交叉熵的簡(jiǎn)化計(jì)算公式也可簡(jiǎn)化為:

loss=-ylog(y*)-(1-y)log(1-y*)

(4)

其中,loss為損失值,y為樣本實(shí)際值,y*為模型預(yù)測(cè)輸出值。

四、實(shí)驗(yàn)

本文在字向量分析的基礎(chǔ)上,結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)引入attention機(jī)制進(jìn)行以評(píng)論信息為主的短文本情感分類,將訓(xùn)練文本使用字向量文本化表示,設(shè)定每個(gè)詞向量維度為50,且和嵌入矩陣的每個(gè)詞的維度相同,輸入模型迭代訓(xùn)練,最后輸出為預(yù)測(cè)值。

(一)實(shí)驗(yàn)數(shù)據(jù)

本文采用搜狗實(shí)驗(yàn)室公開數(shù)據(jù)集作為實(shí)驗(yàn)的語(yǔ)料庫(kù)。它包含了從3000多個(gè)新聞源上選取的40000篇已經(jīng)標(biāo)注的評(píng)論短文本包含三個(gè)類別,分別是酒店住宿評(píng)論、外賣點(diǎn)評(píng)、電影影評(píng)短文本,使用情感詞典和評(píng)論信息兩個(gè)領(lǐng)域,構(gòu)建本文的實(shí)驗(yàn)語(yǔ)料庫(kù),包含12000條數(shù)據(jù)作為訓(xùn)練語(yǔ)料,其中驗(yàn)證集占30%,使用5000條數(shù)據(jù)作為測(cè)試語(yǔ)料,根據(jù)統(tǒng)計(jì)顯示類別住宿評(píng)論包含了10000條語(yǔ)料,外賣點(diǎn)評(píng)包含了20000條語(yǔ)料,電影影評(píng)包含了10000條語(yǔ)料,從統(tǒng)計(jì)數(shù)目上看,訓(xùn)練語(yǔ)料中的三個(gè)種類評(píng)論信息條數(shù)分布均勻,本文使用的每篇評(píng)論文章包含30至40的字詞,認(rèn)定屬于短文本。

本文建立通用的情感詞典包含副詞、連詞、否定詞、正面觀點(diǎn)詞、負(fù)面觀點(diǎn)詞、停用詞,情感詞典中每一個(gè)字詞都設(shè)定情感表達(dá)值從-2極度否定到+2極度肯定,0值偏向表達(dá)中立情感態(tài)度,對(duì)短文本的情感分類意義不大,故排除在計(jì)算之外,其中包含100個(gè)標(biāo)注評(píng)分的副詞、30個(gè)標(biāo)注評(píng)分的連詞、25個(gè)標(biāo)注評(píng)分的否定詞以及正反面評(píng)論觀點(diǎn)詞共計(jì)8900個(gè),停用詞22條記錄。將短文本的12000條評(píng)論信息訓(xùn)練語(yǔ)料與情感詞典中劃分出不同詞性的情感評(píng)分相對(duì)應(yīng)。在已標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)集上多次實(shí)驗(yàn)進(jìn)行交叉驗(yàn)證,盡可能減少情感評(píng)分的誤差值對(duì)實(shí)驗(yàn)結(jié)果的影響。部分?jǐn)?shù)據(jù)樣例如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)樣例

(二)評(píng)價(jià)標(biāo)準(zhǔn)

本文采用國(guó)際通用評(píng)價(jià)標(biāo)準(zhǔn)準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。準(zhǔn)確率指分類器正確分類樣本在數(shù)據(jù)集中的比例,它反映了分類器對(duì)分類樣本的正確識(shí)別能力;召回率反映了分類器可以檢測(cè)出來的所有正確樣本占數(shù)據(jù)集中此類樣本的比例;F值是準(zhǔn)確率和召回率的調(diào)和均值,當(dāng)a=1時(shí),即最常見的F1值。其相關(guān)計(jì)算如下式所示。

(5)

(6)

(7)

公式中變量的表示含義如下表所示。

表2

(三)實(shí)驗(yàn)參數(shù)

采用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,其模型的參數(shù)設(shè)置非常關(guān)鍵,本文實(shí)驗(yàn)主要參數(shù)與參數(shù)值設(shè)置如表3所示。

表3

(四)對(duì)比實(shí)驗(yàn)設(shè)置

為證明在雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)下引入自注意力機(jī)制模型的有效性,將本文經(jīng)對(duì)比分析后提出的字向量表示方法結(jié)合Self-Attention和BiLSTM的模型與傳統(tǒng)的詞袋模型[9],在統(tǒng)一的語(yǔ)料環(huán)境中進(jìn)行對(duì)比實(shí)驗(yàn)。模型中的字向量,基于矩陣的分布式表示,分別采用word2vec和skip-gram算法,其中skip-gram模型直接以生成詞向量為目的,在無(wú)標(biāo)注的預(yù)料中學(xué)習(xí)語(yǔ)義豐富的詞向量,保證對(duì)比實(shí)驗(yàn)單一變量原則,均使用同一類的預(yù)訓(xùn)練字向量。

(1)RNN針對(duì)序列數(shù)據(jù)進(jìn)行精確建模的有效工具,但是無(wú)法解決長(zhǎng)時(shí)依賴的問題以及梯度消失或梯度爆炸等問題,為此引入LSTM,雖然LSTM在RNN的基礎(chǔ)上加入門控機(jī)制,但是使用到LSTM模型結(jié)構(gòu)與參數(shù)設(shè)置均有差異,本文以Zaremba[10]等描述的LSTM網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)作為標(biāo)準(zhǔn)模型。為更好地捕捉到上下文的語(yǔ)義信息,結(jié)合前向的LSTM網(wǎng)絡(luò)模型與后向的LSTM網(wǎng)絡(luò)模型共同組成的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),在短文本情感分類上相比較單一的LSTM網(wǎng)絡(luò)均有提升。

(2)Self-Attention-BiLSTM。在雙向的長(zhǎng)短時(shí)記憶中增加自注意力機(jī)制層,利用自注意力機(jī)制層分配相應(yīng)的權(quán)重來突出短文本的重點(diǎn)特征,并直接可以將字和詞向量級(jí)別的序列兩兩比較,從而捕捉到全局的信息,依據(jù)特征對(duì)分類任務(wù)的重要程度區(qū)別表示。

(五)實(shí)驗(yàn)結(jié)果與分析

表4 短文本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

(1)通過對(duì)比表格44短文本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果,在短文本評(píng)論信息處理上LSTM模型從數(shù)據(jù)結(jié)果中雖然可以看出優(yōu)化了RNN處理長(zhǎng)期依賴關(guān)系的不足等問題,但相比較雙向長(zhǎng)短期記憶模型,增加后向傳播單元可以同時(shí)分析短文本的上下評(píng)論信息,通常較單向的LSTM更優(yōu)。

(2)通過對(duì)比BiLSTM和Self-Attention-BiLSTM算法的實(shí)驗(yàn)結(jié)果可知,加入注意力機(jī)制依據(jù)短文本評(píng)論信息的稀疏特征根據(jù)重要程度區(qū)別表示,可以很大程度上結(jié)合情感字典的評(píng)分,獲取到句子局部的情感分類特征,模型的準(zhǔn)確率、召回率、F1值分別提高了1.94%,1.04%,1.00%。

(3)通過對(duì)比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,兩種語(yǔ)言模型word2vec、skip-gram,當(dāng)需要學(xué)習(xí)較大的訓(xùn)練數(shù)據(jù)時(shí),且隨著字向量維度的增加,處理短文本的上下文情感信息遠(yuǎn)不及Self-Attention-BiLSTM捕獲的信息全面,從實(shí)驗(yàn)結(jié)果可以看出,模型的準(zhǔn)確率、召回率、F1值分別提高了4.96%,2.75%,1.77%。

五、結(jié)束語(yǔ)

本文提出了基于Self-Attention機(jī)制BiLSTM短文本情感分析。通過字向量對(duì)短文本中的評(píng)論信息向量化表示,利用BiLSTM提取短文本的上下文特征,結(jié)合已有的情感字典評(píng)分機(jī)制,引入Self-Attention機(jī)制對(duì)特征重要程度動(dòng)態(tài)調(diào)整,在住宿評(píng)論、外賣點(diǎn)評(píng)、電影影評(píng)的數(shù)據(jù)集上實(shí)驗(yàn)證明了字向量表示方法的基于Self-Attention和BiLSTM算法在短文本情感分類方面的有效性。然而,本文主要考慮了短文本特征稀疏性問題,后期工作將會(huì)考慮對(duì)其他特征建模,提高算法性能。由于僅研究短文本評(píng)論信息的情感分類,未來還將會(huì)在擴(kuò)充數(shù)據(jù)集的基礎(chǔ)上對(duì)已有的字向量特征進(jìn)改進(jìn),更加優(yōu)化對(duì)文本情感細(xì)粒度的分析與研究。

猜你喜歡
分類機(jī)制文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: 欧美日韩动态图| 毛片网站免费在线观看| 亚洲欧美极品| 五月丁香伊人啪啪手机免费观看| 国产精品嫩草影院av| 97在线观看视频免费| 欧美三级视频网站| 97se亚洲| 精品伊人久久大香线蕉网站| 五月婷婷导航| 特黄日韩免费一区二区三区| 久久综合丝袜长腿丝袜| 97成人在线视频| 大乳丰满人妻中文字幕日本| 久久五月视频| 欧美精品H在线播放| 国产超碰一区二区三区| 中文无码精品A∨在线观看不卡| 亚洲无码精彩视频在线观看 | 四虎综合网| 美女视频黄又黄又免费高清| 国产中文一区二区苍井空| 999精品色在线观看| 国产成人高清在线精品| 欧美人与性动交a欧美精品| 精品福利视频导航| 国产91九色在线播放| 国产女人18水真多毛片18精品| 伊人色在线视频| 精品视频在线观看你懂的一区| 一级不卡毛片| 国产女主播一区| 婷婷午夜影院| 色综合国产| 亚洲无线国产观看| 99在线观看视频免费| 毛片一级在线| 日韩中文字幕免费在线观看| 午夜毛片免费观看视频 | 999在线免费视频| 国产精品亚洲一区二区三区z | 中文字幕精品一区二区三区视频 | 玖玖精品在线| 免费毛片全部不收费的| 日韩av高清无码一区二区三区| 日本高清免费不卡视频| 99热国产这里只有精品9九| 日韩专区欧美| 国产在线视频二区| 热伊人99re久久精品最新地| 片在线无码观看| 亚洲自拍另类| 亚洲第一色视频| 尤物精品视频一区二区三区| 国产精品无码制服丝袜| 欧美成人一区午夜福利在线| 亚洲无限乱码| 欧美一区中文字幕| 视频国产精品丝袜第一页| 强奷白丝美女在线观看| 国产香蕉在线| 日韩精品毛片| 欧美h在线观看| 99人妻碰碰碰久久久久禁片| 天堂av高清一区二区三区| 亚洲AV无码久久精品色欲| 麻豆精品在线视频| 免费国产小视频在线观看| 久久香蕉国产线| 国产在线91在线电影| 永久免费av网站可以直接看的| 精品成人免费自拍视频| 国产精品手机在线观看你懂的| 国产亚洲视频免费播放| 538国产在线| 人人看人人鲁狠狠高清| 天天色天天综合| 青青青国产免费线在| 青青青视频91在线 | 思思热在线视频精品| 无码专区第一页| 国产精品偷伦在线观看|