999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力機制在評論文本情感分析中的應用研究

2020-07-15 05:01:44申靜波李井輝孫麗娜
計算機技術與發展 2020年7期
關鍵詞:單詞分類機制

申靜波,李井輝,孫麗娜

(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)

0 引 言

情感分析是自然語言處理NLP領域最受歡迎的應用之一,挖掘出來的情感信息可以反映發布者當時的情感狀態,在個性化推薦、輿情控制、基于社會調查的政策制定等方面蘊含著極大的應用價值[1-2]。利用情感極性,即情緒的正值或負值量化,判定文本情感傾向并抓住文本情感趨勢[3-4]。LSTM[5-7]應用于情感分析領域,結合Word2Vec詞嵌入技術[8]來進行實驗可取得不錯的情感分類效果。注意力機制最早是在計算機視覺領域被提出的,應用在圖像處理任務中,其目的是利用注意力機制的特征針對性使網絡模型在訓練時重點關注重要信息。傳統的Seq2Seq模型是不含注意力機制的解碼-編碼模型,模型訓練過程中只利用唯一的背景變量,效果不明顯[9]。文中介紹了應用于機器翻譯任務的編碼-解碼器的工作原理,同時揭示了其生成的固定長度的背景變量在長序列文本處理中的局限。而注意力機制是從編碼-解碼器的內部表征結構中衍生出來的一種方法,注意力機制可以有選擇地關注輸出與輸入樣本的相關性[10-11]。文中引入注意力機制與神經網絡相結合,處理文本分類問題,不但降低了高維數據的計算難度,而且直觀地表現出了分類結果與相關極性詞語的關聯性,提升了實驗的準確率。

1 注意力機制方法研究

1.1 Seq2Seq模型

注意力機制在解決序列學習任務上有巨大的提升意義。與循環神經網絡不同,RNN的輸入是不定長序列,而輸出為定長序列,例如情感分類模型的詞語。然而注意力機制的提出最早應用于機器翻譯工作中,機器翻譯的輸入是不定長,輸出也是不定長的[12]。最典型的模型為編碼-解碼模型,該模型的實質結構是兩個RNN網絡的鏈接。一個RNN模型作為編碼器,將輸入的不定長序列轉化為定長的背景向量c,這個背景向量相當于整個模型的隱藏層的輸出;另一個RNN模型作為解碼器,它的作用是接受編碼器產生的背景向量,同時結合之前生成的歷史信息生成當前時刻的單詞[13]。結構示意圖如圖1所示。

圖1 Seq2Seq模型結構

y1=f(c)

(1)

y2=f(c,y1)

(2)

yt=f(c,y1,y2)

(3)

1.2 自注意力機制

注意力機制的基本功能可以理解為,當人們在觀察一樣東西的時候,不可能將這個東西的全部特征同時記載下來,而關注點只在當前觀察的東西的每一個局部。或者說,當人們的視線在轉移的同時注意力也在發生轉移,這就意味著當人們觀察某個物品或者是某個背景,該目標內的每一處空間位置上的注意力分布是不一樣的。將注意力機制引入到自然語言處理任務中時,可以理解為,當人們去描述一件事情或者轉述一個消息的時候,最先表達的單詞和句子正是這件事情中某個片段的最相關部分[14]。針對Seq2Seq模型只依賴于唯一一個背景向量的局限及軟注意力機制的編碼解碼結構一般是應用在機器翻譯、圖像標注和語音識別上,這種任務對應的輸入和輸出都是序列,并表示了輸入輸出之間的相似對齊模型。但是對于文本情感分析這種只有輸入是序列而輸出是二分類的任務來說,編碼解碼結構是不適應的,為此,對于所需的任務引入自注意力機制(self attention)。

抽象地介紹自注意力機制的本質思想:將輸入序列Source中的構成元素拆分為即關鍵詞和有用信息的二元組表示,并將此刻的查詢元素Query看作是Source中的某個詞。此刻將進行Query對Source的相似度計算,得到每一個關鍵詞對有用信息的相關性權重系數,然后對于得到的有用信息即Value進行加權求和計算:

f(xi,xj)=WTσ(W1*xi+W2*xj)

(4)

(5)

其中,xj表示Query查詢序列,xi表示t時刻與xj呈對齊關系的Source源句中的單詞,f(xi,xj)表示對應關系的相似度,也就是注意力機制的權重。自注意力機制的結構如圖2所示。

圖2 自注意力機制結構

圖中Query查詢序列就代表了Source源句中的單詞,并對句子中的每個詞計算相關性。自注意力機制可以捕獲同一句子中單詞之間的一些語義語法的相關性依賴關系,它解決了LSTM按序列逐步計算的局限。對于LSTM來說,遠距離相互依賴特征要經過若干時間步的信息累積才能將兩者聯系起來,顯然距離越遠,有效捕捉可能性越小。而自注意力機制在計算過程中會直接將句子中的任意兩個單詞的聯系通過一個計算步驟直接聯系起來,所以遠距離依賴特征之間的距離被極大地縮短了,有利于有效利用這些特征來提高情感分類的準確率。

2 基于LSTM方法與注意力機制的結合

研究者們發現注意力機制的動機主要來自人類對于語言描述存在的側重性,在分析文本情感時,需要對文本語義進行理解。以語句“我今天非常高興”為例,可以看出,文本前半段的“我今天”對本次情感分析的貢獻性較小,因為“我今天”這三個字(或者是“我”和“今天”構成的兩個詞組)并不傳達特殊的情感信息。相反,“非常高興”顯然傳達出強烈的積極情感。因此,分類模型應該能夠認識到這種表意能力的區別,為“非常高興”部分添加更大的權重,在決定分類結果時重點考慮該部分的激活值。受此啟發,文中提出中文場景下的情感分析對應的注意力機制。

通過對編碼器所有時間步的隱藏狀態做加權求和來得到背景變量。模型每一時間步調整這些權重,即注意力權重,從而能夠在不同時間步分別關注輸入序列中的不同部分并編碼進相應時間步的背景變量。文中設計的LSTM模型與注意力機制的結合示意圖如圖3所示。

圖3 LSTM中的注意力機制示意圖

注意力機制整體設計如下:

(1)計算背景變量。首先,模型根據時間步1的隱藏狀態及其在各個時間步的隱藏狀態計算一個softmax 運算的輸入。然后,softmax運算輸出該概率分布并對模型各個時間步的隱藏狀態做加權求和,從而得到背景變量,加權求和公式如下:

(6)

其中,c為背景變量,α為權重,h為原隱含層狀態。

(2)更新隱藏層的狀態。在得到背景變量后,利用其對隱藏層的狀態進行更新,提出將隱藏層的狀態修改為:

(7)

上式中的忘記門、更新門和候選隱含狀態分別被更新為:

r{t'}=σ(w{yr}y{t'-1}+w{sr}s{t'-1}+w{cr}c{t'-1}+br)

(8)

z{t'}=σ(w{yz}y{t'-1}+w{sz}s{t'-1}+w{cz}c{t'}+bz)

(9)

w{cs}ct'+bs)

(10)

其中,W和b分別為LSTM中門控循環單元的權重和偏置參數。

LSTM具有序列中每個字的輸出向量。使用LSTM的最常用方法是將序列中最后一個單詞的輸出向量作為整個序列的表示。

(3)只需使用最后一個單詞的向量提供了一種將可變長度序列轉換為固定長度向量的簡單方法。易于使用密集層進行分類等。

由此可見,財務會計在保障企業經濟收益方面發揮著非常重要的作用。供水企業為了保障自身的經濟效益,并且獲得長期可持續的發展,就應該加強財務會計管理工作,通過改變老舊的管理理念,不斷順應變化的市場環境的需求。并且還應該對資金進行合理的安排,同時也確保資金的使用合理有效,以此來實現增值企業資產的目的。

(4)假定遞歸神經網絡使當前字的輸出向量取決于序列的先前字。LSTM應該將此功能擴展到很長的序列。因此最后一個字的輸出矢量編碼來自整個序列的信息。

實際上,將整個序列中的信息編碼到單個向量中是不合理的,LSTM也不能為過多的時間步保證良好的依賴性,因為這試圖在有限的空間內壓縮過多的信息。可以通過如下方式解決這個問題:不使用最后一個單詞的輸出向量,而是使用所有單詞的輸出向量。然而,這不容易實現,因為現在處理的是一個可變維數矩陣而不是固定長度的矢量,即存在一個序列的每個字的向量。因此,更好的方法是基于某些上下文將單詞向量聚合成固定長度向量。以圖2中神經機器翻譯的例子來更好地理解,其中位置t處的譯文取決于輸入序列的所有輸出矢量的聚合。通過這種方式,網絡可以選擇哪些單詞是重要的,并且僅使用來自那些單詞的信息來構造固定長度向量。

注意力模型是進行上述將神經網絡隱層的輸出聚合的一種方式。它提供了一種方法,用于根據某些上下文將每個單詞的輸出向量聚合為單個向量。

3 基于LSTM方法與注意力機制的實驗設計

LSTM實際工作機理是通過識別輸入序列對接受的所有特征進行相同的操作,由于這種的無差別對待,LSTM模型的輸出結果不能直觀地體現出每一個輸入單詞對于分類結果的重要程度。例如文本情感判斷中,一個句子中決定情感極性的只是帶有感情色彩的詞語,這樣只與特定目標相關的描述信息才是最重要的。針對文中所要解決的任務,對于微博評論文本的情感分類進行了實驗設計,使注意力機制與LSTM相結合,首先根據LSTM輸出向量和上下文向量計算權重系數,其中第一個階段根據LSTM輸出向量和上下文向量計算兩者的相似性或者相關性[15];第二個階段對第一階段的原始分值進行歸一化處理;然后,根據權重系數對構成元素進行加權求和,得到最終的表示。

具體步驟如下:

(1)將LSTM輸出向量與上下文向量混合并得到中間狀態:

e{ij}=f(hi,cj)

(11)

通常,f是具有2個全連接層的前饋網絡,向量cj表示上下文,hi表示位置i處的詞的LSTM輸出向量。

ut=tanh(Wwe{ij}+bw)

(12)

其中,Ww與bw為Attention的權重與偏置項。

(3)計算每個單詞向量hi的權重,經過softmax進行歸一化就得到了符合概率分布取值區間的注意力分配概率分布數值(也就是注意力權重),這對應著不同的源句子單詞的注意力分配概率分布:

(13)

這里,每個單詞將有n個中間狀態,中間狀態的softmax操作為每個單詞向量生成權重,權重的總和為1(這符合概率分布的特征)。這里的加權機制為模型提供了更好的解釋性,可以決定在文本分類中哪些詞或句子更重要。

(4)對構成元素加權求和,計算最終的固定長度的向量。用i時刻的隱層節點狀態hi去一一和輸入句子中每個單詞對應的LSTM隱層節點狀態進行對比,獲得向量v和每個輸入單詞對應的對齊可能性。定義一個條件概率如下:

p(yi|y1,y2,…,yi-1,X)=g(yi-1,αi)

(14)

(5)在合并這些輸出向量時,希望可以自適應地將注意力集中在那些對當前任務更重要的向量上,也就是給它們都分配一個權值,將所有的輸出向量加權求和。合并后的表示為:

(15)

這里假設hi為輸出向量,αi為權值,不同輸出向量的注意力權重是作為訓練的一部分學習到的。此項計算成為網絡計算圖的一部分。要學習的參數是函數f的參數。在該流程中,計算每個上下文cj的注意力,使得到的特征可以更好地表征文本,也使訓練出的模型具有更好的表現。

4 實驗結果與分析

4.1 數據集選取

使用斯坦福的大規模電影評論數據集(Stanford’s large movie review dataset,IMDb[3])作為文本情感分析實驗的數據集。該數據集從IMDB電影評論網站收集了50 000條評論,每部電影不超過30條評論。在該數據集中,標簽為“正面情感”和“負面情感”的評論數量相等,因此隨機猜測將產生50%的準確性。該數據集只保留了高度兩極化的評論,負面評價的得分≤4分,總分為10分,正面評價的得分≥7分。中性評價不包括在數據集中。該數據集分為訓練和測試兩個集合,分別包含25 000條評論(數據來源:http://www.andrew-maas.net/data/sentiment)。

4.2 注意力機制引入的實驗結果分析

注意力機制的引入是文中對傳統深度學習網絡對于情感分析方法的一個改進。注意力機制的主要目的就是在模型做最后的極性分類預測時,在重要的句子成分加上權重,加大對最后分類的預測概率的影響因素。在注意力機制引入的LSTM網絡結構的實驗結果如表1所示,表中結合展示了特征提取兩種方法的對比。

表1 評價標準對比

%

表中數據展示了在微博數據集中,文中提出的加入注意力機制的網絡結構模型的分類效果以及準確率的對比,可以明顯看出,通過加入注意力機制,網絡可以選擇哪些單詞是重要的,并且僅使用來自那些單詞的信息來構造固定長度向量。考慮相關場景下計算序列到序列網絡的注意力的方式,字符序列由編碼器部分轉換成矢量(編碼表示),并且解碼器接收該輸入并產生輸出字。這種編碼表示向量只不過是編碼器中LSTM層的最后隱藏狀態的輸出。當計算注意力向量時,使用編碼器的所有隱藏狀態。因此,解碼器可以捕獲某些全局信息,而不僅僅是基于正常網絡中的一個隱藏狀態進行推斷,因為文中使用了所有的隱藏狀態。

5 結束語

主要介紹了注意力機制的作用與應用目的,通過對不含注意力機制的傳統Seq2Seq模型的原理講解,以及加入注意力機制的模型,Soft Attention模型的工作原理的對比,突出表現隨時間變化的背景向量對于生成單詞的貢獻率的不同,并著重引入了Self Attention針對于只有輸入數據的結構,對文中的文本情感分析做出闡述,加入注意力機制的模型更能表現出輸入詞語對于輸出詞語的相關性和重要程度。并通過與機器翻譯進行對比,進一步解釋了注意力機制應用于分類模型的應用原理。同時,設計了注意力機制的結構,并主要研究了注意力機制與長短期記憶模型的結合方法與算法構架的設計。

猜你喜歡
單詞分類機制
分類算一算
單詞連一連
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 亚洲欧美日韩另类| 2019国产在线| 无码中文字幕精品推荐| 国产精品欧美亚洲韩国日本不卡| 国产乱码精品一区二区三区中文 | 伊人天堂网| 无码粉嫩虎白一线天在线观看| 香蕉国产精品视频| 欧美有码在线| 国产在线日本| 欧美激情福利| 青青草国产免费国产| 亚洲成aⅴ人在线观看| 日韩av电影一区二区三区四区 | 青草免费在线观看| 精品综合久久久久久97超人| 热这里只有精品国产热门精品| 国产成人精品一区二区秒拍1o| 热99精品视频| 国内熟女少妇一线天| 国产精品嫩草影院av| 内射人妻无套中出无码| 在线观看免费黄色网址| 国产美女一级毛片| 九九线精品视频在线观看| 在线国产资源| 国产成人精品2021欧美日韩| 日韩精品中文字幕一区三区| 91精品人妻互换| 色噜噜在线观看| 又猛又黄又爽无遮挡的视频网站| 全裸无码专区| 日韩在线1| 日韩国产亚洲一区二区在线观看| 欧美色丁香| 在线日本国产成人免费的| 一区二区午夜| 澳门av无码| 中文字幕在线看| a免费毛片在线播放| 香蕉久久国产超碰青草| 亚洲欧美精品日韩欧美| 国产青榴视频| аv天堂最新中文在线| 精品无码一区二区在线观看| 国产极品美女在线播放| 亚洲一区二区日韩欧美gif| 国产丝袜啪啪| 国产一区二区三区在线精品专区| 亚洲大尺码专区影院| 国产成人精品2021欧美日韩| 国模私拍一区二区| aⅴ免费在线观看| 国产精品欧美在线观看| 精品免费在线视频| 99久久国产综合精品2023| 91国内视频在线观看| 国产日韩欧美视频| 精品视频在线观看你懂的一区| 成人福利在线视频免费观看| 欧美一区二区丝袜高跟鞋| 免费人成网站在线观看欧美| 亚洲女人在线| 国产在线视频导航| 成人一区在线| 激情五月婷婷综合网| 日韩视频免费| 久久一本精品久久久ー99| 国产新AV天堂| 久久久久久久久久国产精品| 久久精品最新免费国产成人| 啪啪国产视频| 国产网站在线看| 视频二区欧美| 91精品亚洲| 搞黄网站免费观看| 久久精品国产一区二区小说| 亚洲第一国产综合| 亚洲品质国产精品无码| a亚洲天堂| 2021国产精品自产拍在线| 国产高清无码麻豆精品|