廖美紅



【關鍵詞】雙向注意力;問答情感分析;深度學習
【中圖分類號】TP391.1 【文獻標識碼】A 【文章編號】1674-0688(2021)09-0095-03
0 引言
隨著時代發展進程的不斷加快,處于Web2.0時代背景下,各大電商平臺獲得了迅猛發展,大量賣家選擇刷單作為提升自家店鋪銷量和信譽度的方法,這種不正當行為給用戶購物帶來了負面影響。所以,如何準確地挖掘產品評論輿情,對虛假的網絡平臺嚴格遏制,成為目前各大電商平臺迫切需要解決的問題之一[1]。于是,各大電商平臺近年來逐漸推出問答型評論這一功能,此功能可以滿足潛在買家對自己所關注商品,提出自己疑惑的問題,平臺會以用戶的購物信譽度隨機挑選已經購買此產品的用戶,對問題進行回答[2]。這一功能的應運而生相較傳統商品評論,在很大程度上避免了產生虛假信息,也能夠為潛在購買者提供更可靠、具體的回答[3-5]。怎樣對問答型評論內信息進行充分挖掘與分析,為商家和平臺用戶提供可靠的產品信息導向,本文提出通過深度學習基于雙向注意力機制的問答情感分析技術進行問答情感分類。這不僅在目前有關問答文本情感分析研究領域上具有理論創新意義,也能保證電商平臺公平性,幫助商家調整產品營銷策略,提升信息轉化率,促進我國電商事業良好發展具有指導價值。
1 主要技術概述
1.1 分布式詞向量模型
在運用深度學習前期,一般在文本表示上要構建向量空間模型,自1986年Hinton提出詞向量,作為向低維空間映射的向量,用于表示詞語間語義關系的一種形式。在以往研究中,大多采用訓練語言模型獲得詞向量,建立連續詞袋模型,以上下文為依據,對目標詞語進行預測,能夠獲得對應詞向量。該模型給定wt該詞的上下文ct=wt-n,…,wt-1,wt+1,…,wt+n;那么,該詞出現條件概率公式如下[6]:
給定訓練樣本(w1,…,wt),建立連續詞袋模型目標函數公式如下:
1.2 長短時記憶神經網絡
長短時記憶神經網絡于1997年提出,作為循環神經網絡的一個變體,能夠成功地解決循環神經網絡內存在的梯度消失、爆炸等問題,廣泛應用于文本分類、語音識別、機器翻譯等領域。相較傳統循環神經網絡,因為記憶單元加入其中能夠很好地保存歷史信息,所以能夠有效避免梯度爆炸、衰減問題。
傳統循環神經網絡主要是單向序列模型,本文運用的是雙向循環神經網絡,包括兩個循環神經網絡,■t、■t分別代表過去、未來信息高層語義,公式如下[7]:
雙向長短時記憶網絡能夠替換雙向循環神經網絡中前、后各項網絡,均為長短時記憶網絡(如圖2所示)。
1.3 語料資源
首先,在語料收集中,本文運用爬蟲程序收集源于京東、淘寶平臺“問大家”這一問答功能中的問答評論,集中在美妝、鞋、數碼產品這三大領域,問答評論共計收集20余萬條。
其次,在語料標注中,本文主要劃分為兩個部分,一是判斷問答型評論情感,二是標注規范問答評論的正、負情感。
最后,在語料統計中,本文所統計的問答文本情感分類語料庫信息,統計了3個領域各自10 000條問答文本,共計30 000條(見表1),作為統計的語料內情感類別分布情況。
根據表1統計情況發現每一個領域都存在正、負情感數量差距,所以面向問答文本情感分類面臨巨大的不平衡問題。
一般情況下,分類任務內機器學習領域衡量分類指標包括正確率、召回率、精準率、F值,表示公式如下[8]:
公式(4)~公式(6)中:分類預測總計樣本數量用TP表示;其他分類器錯誤預測樣本數目用FP表示;分類器錯誤預測其他類別樣本數目用FN表示;其他分類被分類器正確預測對應類別樣本數目用TN表示。
其中,F作為精準率、召回率評價指標,公式如下[9]:
根據公式(7),在β為1的情況下,召回率、精準率二者同樣關鍵,在β>1的情況下,相較召回率,精準率更加重要,反之,β<1則召回率更加重要,本文中β值均取1。
2 基于雙向注意力機制的問答情感分類
該方法不同于傳統情感分類,對于問答文本情感分類運用上文提出的雙向神經網絡解決,建立雙向注意力機制神經網絡模型(如圖3所示)。
首先,在輸入映射層,主要需要轉變問、答文本內詞語為詞向量,輸入至該神經網絡中。
其次,在Bi-LSTM層,需要運用上文提出的雙向LSTM獲得問、答文本高層語義信息。
再次,在注意力層,運用注意力機制分別在問答文本內提取關鍵情感相匹配信息。
最后,在Softmax層,經該層完成問答文本向量的情感分類。
3 實驗分析
3.1 實驗設計
結合上述兩部分的基礎技術與建立的雙向注意力機制神經網絡模型,對前期提取的10 000條問答數據集作為輸入樣本展開試驗分析,劃分了70%的訓練集、10%的樣本集、20%的測試集。在對樣本進行分詞后,通過Word2vec訓練詞向量共計200 000條問答。在本次實驗中,運用SVM算法經Kreas完成LSTM神經網絡模型,驗證本文提出該分析技術的準確率與FI值。
3.2 實驗結果
為了驗證本文提出的基于雙向注意力機制的問答情感分析技術的準確性與有效性,對比設計了幾種情感方法,得出試驗結果(見表2)。
根據表2能夠發現,相較SVM分類器,運用神經網絡分析具備更優越的性能,證明了本文提出對問答情感分析采用神經網絡方法的可行性;通過分別對比Uni-ATT Q、Uni-ATT A、Bi-ATT 3種輸入方法發現,問答文本情感分析如果拼接處理并不適合;通過在本次雙向注意力機制神經網絡模型中輸出問答文本,對比Bi-ATT與單向注意力機制分析方法Uni-ATT Q、Uni-ATT A能夠看出本文提出此分析方法的性能更好。
根據以上研究結果,為了進一步驗證本文提出此種問答情感分析技術的有效性,選擇目前該研究領域更新型處理方法展開對比,其中對比CNN-Tensor(此方法目前在句子級情感分類領域的性能最優)、ATT-LSTM(作為目前該研究領域在屬性級情感分析中能夠達到的性能最優方法,經LSTM隱層輸出即可獲得分析權重)、BiMPM(此方法能夠在該研究領域問答匹配任務上達到最優性能),通過對比得出試驗結果(見表3)。
根據表3能夠發現,本文基于雙向注意力機制的神經網絡模型對問答文本情感分析的準確率與FI值,相較其他幾種方法明顯更優,證實了該方法能夠準確地對問答文本情感相匹配信息進行有效的捕捉。將本文提出的方法對比BiMPM方法,反映出問答情感匹配機制的應用性能優勢,并且將Bi-ATT相較其他方法,同樣發現本文提出的方法可以對問答文本中情感匹配信息進行高準確率的捕捉。
4 結論
本文提出了基于雙向注意力機制的問答情感分析技術,建立了基于雙向注意力機制神經網絡模型,并對本文所應用的主要技術進行說明,通過輸入映射層、Bi-LSTM層、注意力層、Softmax層構建了分析模型。將本文提出的方法對比了幾種情感分類方法,根據試驗結果發現本文提出此分析方法的性能更好;為了證實本文提出此分析技術的準確度,又進一步對比分析了目前最新的幾種處理方法,研究發現本文提出的基于雙向注意力機制問答情感分析方法準確率更高,達到76%的問答情感分析準確率,FI值最終為62%,在實驗中相較其他分析技術的應用效果明顯提升。
參 考 文 獻
[1]翟社平,楊媛媛,邱程,等.基于注意力機制Bi-LSTM算法的雙語文本情感分析[J].計算機應用與軟件,2019,36(12):251-255.
[2]陳亞茹,陳世平.融合自注意力機制和BiGRU網絡的微博情感分析模型[J].小型微型計算機系統,2020,41(8):24-29.
[3]支淑婷,李曉戈,王京博,等.基于多注意力長短時記憶的實體屬性情感分析[J].計算機應用,2019,39(1):160-167.
[4]梁斌,劉全,徐進,等.基于多注意力卷積神經網絡的特定目標情感分析[J].計算機研究與發展,2017,54(8):1724-1735.
[5]林原,李家平,許侃,等.基于多頭注意力的雙向LSTM情感分析模型研究[J].山西大學學報(自然科學版),2020,43(1):1-7.
[6]王麗亞,劉昌輝,蔡敦波,等.CNN-BiGRU網絡中引入注意力機制的中文文本情感分析[J].計算機應用,2019,39(10):2841-2846.
[7]孫凱.基于詞注意力的BiLSTM和CNN集成模型的中文情感分析[J].計算機科學與應用,2020,10(2):312-324.
[8]胡德敏,褚成偉,胡晨,等.預訓練模型下融合注意力機制的多語言文本情感分析方法[J].小型微型計算機系統,2020,41(2):278-284.
[9]胡朝舉,梁寧.基于深層注意力的LSTM的特定主題情感分析[J].計算機應用研究,2019,36(4):121-125.