999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于方面級的餐廳用戶評論細粒度情感分析

2019-10-08 11:55:52袁丁章劍林吳廣建
軟件 2019年8期

袁丁 章劍林 吳廣建

摘 ?要: 評論數據的情感分析一直是自然語言研究的熱點之一,特別是評論觀點豐富性、情感化、多元化、非結構化等特征方面的研究近年來深受大家關注。本文基于AI Challenger2018細粒度情感分析比賽為研究背景,在分析GCAE和SynATT兩種模型基礎上,通過研究方面類別情緒分析(ACSA)方法,提出了CNN-GCAE和CNN-SynATT模型,解決了原來模型在數據處理方面的不足,提高了情感分析的精準度和召回率。實驗結果表明,改進模型對評論數據情感分析的準確率效果明顯。

關鍵詞: 方面級;情感分析;word2vec;字詞向量聯合

中圖分類號: TP339 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.08.042

本文著錄格式:袁丁,章劍林,吳廣建. 基于方面級的餐廳用戶評論細粒度情感分析[J]. 軟件,2019,40(8):181189

【Abstract】: The emotion analysis of comment data has always been one of the hot topics in the study of natural language, especially the research on the richness, emotion, diversity and unstructure of comment views. Based on the AI Challenger2018 fine-grained emotion analysis competition as the research background, this paper challenges two models, GCAE and SynATT, and proposes the CNN-GCAE and CNN-SynATT models through the research category emotion analysis (ACSA) method. It solves the shortage of the original model in data processing and improves the accuracy and recall rate of emotion analysis. The experimental results show that the improved model has a significant effect on the accuracy of emotional analysis of critical data.

【Key words】: Aspect level; Emotional analysis; Word2vec; Word-Char vector association

0 ?引言

在2018年AI Challenger2018細粒度用戶評論情感分析的比賽中,要求對給定的用戶餐廳評論數據進行細粒度情感分析。在線評論的細粒度情感分析對于深刻理解商家和用戶、挖掘用戶情感等方面有至關重要的價值,并且在互聯網行業有極其廣泛的應用。情感分析[1]-[3](Sentiment Analysing)又稱為觀點挖掘、意見挖掘等。其主要任務是通過對包含情感傾向的文本進行挖掘分析,識別消費者對該商品的褒貶態度和意見。

按照分析的目的不同,情感分析可以分為“粗粒度情感分析”和“細粒度情感分析”[4]。比賽中的數據內容是來自于用戶餐廳評論的數據,屬于文本片段或者句子級的單位,所屬于細粒度情感分析范圍。W.Medhat等[5]認為情感分析的主要任務是識別情感并進行分類。所以W.Medhat等以產品評論細粒度情感分析為例,將情感分析分為情感識別、產品屬性選擇、情感分類和情感極性識別4個步驟。Xue[6]提出有伴有實體提取。針對細粒度情感分析開發了許多模型,但是有兩個不同的子任務,即類別情緒分析(ACSA)和實體情緒分析(ATSA)。通過對數據進行細粒度情感分析,并且使用了情緒分析的方法,從不同層次和不同方面來對數據進行充分的分析解剖,可以更精準的得到結果。本文提出了一種情緒分析和情感分析相結合的用于餐飲行業評論數據的細粒度情感識別,方法的核心思想是利用以有的數據資源,抽取情感特征,采用字詞向量相結合的模型表示評論文本,借助GCAE模型和SynATT模型改進的方法構建評論數據細粒度情感分析模型。

1 ?相關技術

1.1 ?詞典構建

從一個規模較大的用戶評論語料庫集合中,根據已給出的數據可以看到對于每一個評論數據,都有相對應的情感分數標注。但是數據還是帶有一定的噪音,針對這樣的語料集合還是需要對其進行清理的。為了讓數量小的數據集合有更準確的情感體現,在這里不僅對數據進行了分詞的向量顯示,更細致到對于字的向量處理。這樣可以對數據的現實最大化的體現了它的情感特色。

這里使用的是AI Challenger2018細粒度情感分析比賽的數據,數據共包含6大類20個細粒度要素的情感傾向。數據中的評價對象按照粒度不同劃分為兩個層次,層次一為粗粒度的評價對象,例如評論文本中涉及的服務、位置等要素;層次二位細粒度的情感對象,例如“服務”屬性中的“服務人員態度”、“排隊等候時間”等細粒度要素。評價對象的具體劃分如下表1。

每個細粒度要素的情感傾向有4種狀態:正向、中性、負向、未提及。使用[1,0,-1,-2]四個值對情感傾向進行描述。每條語料都給予了如表2的所有標注。

對每一條語料都需進行如下處理:

(1)過濾。在這里使用了哈工大停用詞數據庫來對語料數據進行清洗;

#使用停詞表函數

def get_stop_word_set(only_punctuation=False):

words_set = set()

fname = '../data/哈工大停用標點表.txt' if only_punctuation else '../data/哈工大停用詞表擴展.txt'

with open(fname) as f_r:

for line in f_r:

words_set |= set(line.strip())

if only_punctuation:

words_set |= set([' '])

return words_set

在自然語言處理時,與文章包含的情感信息,或文章主題信息關系性不強的詞語,所以如果進行篩選過濾之后,更便于主題分析,或者情感分析。這里使用了哈工大提供的公開的停用詞數據庫。如圖1所示,這是停用詞的內容,通過使用停用詞函數對原數據進行停用詞的數據清洗。

(2)分詞。使用word2vec語言模型對語料進行分詞處理;

Word2vec由谷歌研究人員Mikolov等提出[7]。

可以高效的將單詞映射成實數值向量,在向量空間上表示單詞。Word2Vec有兩種模型架構,分別為CBOW模型和Skip-gram模型。關于這兩個模型,Tomas Mikolov[8]在2010年所發表的論文中給出了這兩種模型和傳統的神經網絡結構類似,都是由三層網絡結構組成的。本文用到的方法是Skip-gram模型,如代碼所示,分別對字詞向量進行語言模型的處理。

#Word2vec處理詞向量

model = Word2Vec(sentences, sg=1, size=100, compute_loss=True, window=5, workers=8, iter=8, min_count=2)

#Word2vec處理字向量

model = Word2Vec(sentences, sg=1, size=100, compute_loss=True, window=10, workers=8, iter=15, min_count=2)

(3)詞向量和字向量。在這里使用了語言模型對數據進行向量化的處理,通過對語料庫的詞和字的兩種不同的程度進行向量化。如表3顯示,原語料數據轉化成詞向量和字向量的結果展示,使用Word2vec的語言模型對預料進行分詞處理后得到如下結果。

1.2 ?特征提取

基于情感詞典、數據自身的結構以及相關情感資源,在對原始數據進行清洗分詞后,對詞向量還有特征提取的步驟,這里用到的是讀取詞向量后,先進行TF-IDF特征矩陣,再去其進行TruncatedSVD的操作,其中這里輸出數據的維數是20*4的,迭代次數用到的是7。

基于方面級的情感分析內容,包括分成兩個部分:方面類的提取和方面級的情感識別。首先,需要對方面類的識別,在給定一個句子和句子中出現的某個方面,它的情感分析目標是分析出這個句子在給定方面的情感傾向如何。方面詞的提取指的是從原文本中直接提取涉及到的方面級的單詞或詞組,而方面級分類指的是為每個領域預定義方面級種類,然后對每個句子進行分類。例如:"Great food but the service was dreadful!" 在“food”這個aspect上,情感傾向為正,而在“service”這個aspect上情感傾向為負。本文還使用到的是梯度提升決策樹[9]LightGBM,一種應用廣泛的機器學習算法,具有高效、準確和可解釋性。通過對數據進行LightGBM跑了20次二分類,并根據特征重要性選取了TopK作為方面詞,然后選擇了前七個,如下所示。

subjects = ['地鐵站 地鐵 地理位置 位置 公交車 公交車站 公交站',

'百貨 商圈 商場 廣場 購物中心 城 商業街',

'容易 位置 醒目 找到 找 地理位置 顯眼',

'小時 排隊 等 排 排號 隊 號',

'態度 服務員 熱情 服務態度 老板 服務 服務生',

'開車 停車費 停車位 停 停車場 車位 泊車',

'很快 催 慢 速度 分鐘 上菜 等',

'小貴 不貴 價位 原價 塊錢 價格 性價比',

'不劃算 物有所值 不值 物美價廉 超值 性價比 實惠',

'活動 團 霸王餐 代金券 團購 優惠 券',

'裝修 布置 燈光 古色古香 裝飾 優雅 情調',

'安靜 環境 裝修 氛圍 嘈雜 吵鬧 音樂',

'大 寬敞 空間 面積 裝修 擁擠 店面',

'整潔 干凈 環境 衛生 蒼蠅 不錯 臟',

'吃不完 一份 量 量足 個頭 好大 少',

'入味 吃 不錯 味道 好吃 口味 好喝',

'造型 顏色 精致 賣相 好看 色香味 食欲',

'推薦 強烈推薦 值得 強推 一試 極力推薦 菜品',

'好 滿意 紀念品 內地 之 腸 灌',

'還會 機會 再 不會 來 值得 推薦']

2 ?模型

2.1 ?字詞向量聯合模型

借鑒一種基于端到端神經網絡的閱讀理解式問答模型R-NET[10]的方法,采用詞向量和字向量聯合表示。這是一種首先將詞和字與基于門控注意的遞歸網絡進行匹配,得到問題感知的字再現。在此基礎上,提出了一種自匹配注意機制,通過對詞本身進行匹配來細化表征,從而有效地對整個內容的信息進行編碼。這樣不僅僅有詞向量的輸入,還能添加字向量的輸入,可以更準確的分析語料的情感程度。

例如:

奶茶十分好喝

詞向量表示:[W2V(奶茶),W2V(十分),W2V(好喝)]

經過BiRNN的字向量:[BiRNN(奶,茶),BiRNN(十,分),BiRNN (好,喝)]

最終向量表示:[Concat(W2V(奶茶),BiRNN(奶,茶)),Concat(W2V(十分),BiRNN(十,分)),Concat(W2V(好喝),BiRNN(好,喝))]

2.2 ?GCAE模型

基于實體的情感分析(ABSA)能夠提供比一般情感分析更詳細的信息,因為它的目的是預測文本中給定的方面或實體的情感極性。將以前的方法總結為兩個子任務:類別情緒分析(ACSA)和實體情緒分析(ATSA)。以往的方法大多采用長短期記憶和注意機制來預測相關目標的情緒極性,這往往比較復雜,需要更多的訓練時間。提出了一種基于卷積神經網絡和門控機制的模型,該模型更加準確有效。

面向方面嵌入的門控卷積網絡(gate tional network with Aspect embedded, GCAE)是一種新的ACSA和ATSA模型,它比基于遞歸網絡的模型更加高效和簡單。GCAE模型更適合于并行計算,這樣可以大量的減少運行時間。此外,模型還配備了兩種有效的過濾機制:卷積層之上的門控單元和最大池化層,兩者都可以準確生成和選擇與方面相關的情感特征。如圖2就是關于GCAE模型的運行流程。

原模型GCAE在性能和效果上并不能展現出最好的效果,但是改進后的模型卻能在這個方面有部分的提高,如圖3所示,是改進后GCAE模型的流程圖,在這個改進模型中先是對語料進行了一個單向的LSTM后,再用如上方法GCAE模型進行處理的。長短期記憶(LSTM)是一種網絡,是RNN的一個優秀的變種模型,具有記憶來自輸入的先前數據并基于該知識作出決定的存儲器。這些網絡更直接適用與書面數據的輸入。因為在句子中的每一個單詞都有基于周圍的單詞的含義(先前和即將出現的單詞)。LSTM通過給簡單的循環神經網絡增加記憶及控制門的方式,增強了其處理遠距離依賴問題的能力。繼承了大部分RNN模型的特性,同時解決了梯度反傳過程由于逐步縮減而產生的梯度消失的問題。具體到語言處理任務中,LSTM非常適合用于處理與時間序列高度相關的問題,它更真實地表征或模擬了人類行為、邏輯發展和神經組織的認知過程。最后再在線性層之前還用了一個卷積神經網絡模型(CNN)的方法。卷積神經網絡是最初為圖片任務創建的網絡,可以學習捕捉特定的特征而不管局部特征。并且與此同時還對前20個術語值進行了預測。

2.3 ?SynATT模型

層面情緒分類是細粒度情緒分析中的一項重要

任務[10]。給定句子和句子中出現的意見目標(也稱為方面表達),任務的目的是確定句子對意見目標的情感極性。目標是指描述實體某一方面的單詞或短語(單詞序列)。為了提高注意機制有效性,這里用了兩種途徑方法。第一種是一種新的目標編碼方法,它可以更好地捕獲目標表達式的方面語義。目標表示是關鍵的,因為注意力的權重是根據它計算出來的,如公式(5)。它為每個上下文單詞 分配了一個正權重 ,這可以解釋為在推斷給定目標的情緒極性時, 是要關注的正確單詞的概率。權重 一般計算為 的隱式表示 和目標表示 的函數,其表達式如下:

其中平均值返回輸入向量的平均值。 捕獲目標信息和上下文信息。 是K個方面嵌入的權重向量,其中每個權重表示目標屬于相關方面的發性。 和 分別為權矩陣和偏置向量。方面嵌入矩陣T是隨機初始化的。通過情緒分類器的訓練是遠遠不夠的,很難獲得連貫的方面嵌入詞。因此,加入了一個無監督的目標函數來保證方面嵌入的質量,這是基于注意力的LSTM聯合訓練的方法。實際上,可以通過公式(6)-(8)自編碼器的過程理解,首先 將從d維降為K維,并采用softmax非線性。 中只保留與方面相關的維度,而刪除其他維度。然后通過方面嵌入的線性組合,從 重構 。

原模型SynATT對數據的處理能力并不能展現出最好的效果,對SynATT模型需進行改進,在方法中也同樣在線性層中加了一個卷積神經網絡模型(CNN)的方法,如圖5所示,是改進SYNATT模型后的流程圖,具體操作方法與GCAE模型類似,同樣的也對20個術語詞進行預測。

3 ?評價指標與結果

將n分類的評價拆成n個二分類的評價,根據每個二分類評價的 、 、 計算出準確率和召回率,再由準確率和召回率計算得到 。

在這里最終提交的結果是在GCAE模型和SynATT模型中分別跑了6折cv的,通過加權融合的方式。下組圖分別是兩種模型對比改進前后的對比圖,稍差的模型可能在某些屬于詞組中比稍好的模型分高,所以融合時以術語詞粒度做融合,而不是直接將多個預測結果分別乘以一個權值相加。比賽中用到本方法后跑出來的結果A榜的f1=0.71564,B榜f1=0.71444。

綜上可知,GCAE模型運用于文本情感分析時效果不如改進后的GCAE模型效果好,如圖6,原模型GCAE在文本情感分析F1分數值只有0.69左右,而對于改進之后,增加了LSTM模型和CNN模型后,原模型的結果普遍F1分數值相對于改進后的模型都會低一到兩個百分點,F1分數值得到了提高。

綜上所示,是關于SynATT原模型和改進模型的對比圖,如圖7,同樣的可以看到改進后要比改進前F1分數值有提高。為了更清楚的對比兩個模型的效果,針對同一個數據集運用不同的模型得出的折線圖,運用改進后的兩個模型針對20個方面詞進行預測,如圖8。

由改進后的GCAE模型和改進后的SYNATT模型6次交叉驗證圖8的實驗結果對比分析可知:

整體而言,改進后的GCAE模型效果會比改進后的SYNATT模型更好些,通過折線圖的波動我們也可以對應表1的數據集劃分得出每個方面詞的情感程度,從第一層上分析可以得到,用戶的評論在服務、價格和環境方面總結的內容更為全面,用戶會更在意這三個方面。從第二層上的情感分析可以得到,用戶對餐廳的服務態度最為重視,最不在意距離商圈的遠近,在價格中對于折扣力度也不太重視,對環境中比較在意就餐的空間和嘈雜情況。對比改進后的兩個模型的折線圖選取最優解做最終結果。

在GCAE模型測試下,對原模型進行一定的改進,改進后的模型LGC,選取20個方面詞做的情感分析,因為用的方式是6折cv的內容,所以分別對比折6次的數據。針對模型改進前后的數據,分析得出改進后的模型F1平均值得到了一定的提高,模型的改進對數據的處理有一定的效果。如表4,展現出GCAE模型改進前后F1平均值的對比。

在SynATT模型測試下,對原模型進行部分改進,是在原模型的線性層前套用CNN模型,再用選取的20個方面詞進行情感分析測試,同樣的對數據用6折cv的方式處理,分別得出6次數據。如表5所示,展現出SynATT模型改進前后對F1平均值的對比。

4 ?結論與展望

本文針對AI Challenger2018細粒度用戶評論情感分析的比賽中,對給定的用戶餐廳評論數據進行細粒度情感分析的任務,給出了相應的解決方案。在特定目標情感分析任務中,大部分研究都是傳統的特征提取的方法,例如基于矩陣的分布表示有TF-IDF、奇異值分解(SVD)等;基于神經網絡的分布表示有語言模型CBOW、Skip-gram、NNLM等,在此次比賽中,運用基于方面級的情感分析方法構造了方面詞,同時利用了字詞向量聯合模型的方法對數據進行預處理,提升了情感分析的準確率,也取得了明顯的效果。同時,利用兩種模型的改進融合方式對比賽的數據進行處理,改進后的模型對數據準確率也取得了較為明顯的效果,然而也需要繼續改進。

方法仍有不小的改進空間,在數據清洗方面,這里只對數據進行分詞、去停詞的操作,還能對數據進行進一步的清洗,包括對無關字符的過濾、過濾無用數據以及整理文本的表情字符,都能對情感分析的準確性得到一定的效果。在方面詞的提取選擇、句子中詞語的權重以及模型的兼容性等等。而基于方面詞的有監督文本情緒分析方法中,模型的參數選擇、使用方法以及模型性能等方面進行進一步研究。

參考文獻

[1] Pang B, Lee L, Vaithy anathan S. Thumbs up?Sentiment Classification using Machine Learning Techniques[J]. Proceeding of Emnlp, 2002: 79-86.

[2] 張紫瓊, 葉強, 李一軍, 互聯網商品評論情感分析研究綜述[J]. 管理科學學報, 2010, 13(6): 84-96.

[3] Turney P D.Thumbs Up or Thumbs Down?Semantic Orientation Applied to Unsupervised Classification of Reviews[J]. Proceedings of Annual Meeting of the Association for Computational Linguistics,?2010: 417-424.

[4] 孟園, 王洪偉, 王偉. 網絡口碑對產品銷量的影響: 基于細粒度的情感分析方法[J]. 管理評論, 2017(01): 144-154.

[5] MEDHAT W, HASSAN A, KORASHY H. Sentiment analysis algorithms and applications:a survey[J]. Ain Shams engineering journal, 2014, 5(4): 1093-1113.

[6] Wei Xue, Wubai Zhou, Tao Li, and Qing Wang. 2017. Mtna: A neural multi-task model for aspect category classification and aspect term extraction on restaurant reviews. In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 2: Short Papers), volume 2, pages151-156.

[7] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26(2): 3111-3119.

[8] Natural Language Computing Group, Microsoft Research Assia. R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS.

[9] Jerome H Friedman. Greedy function approximation: a gradient boosting machine.Annals of statistics, pages 1189-1232, 2001.

[10] Pang B, Lee L, Opinion Mining and Sentiment Analysis[J], Foundations and Trends in International Retrieval, 2008, 2(1-2): 1-135.

[11] Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. 2017. An unsupervised neural attention model for aspect extraction.In Annual Meeting of the Association for Computational Linguistics (ACL 2017).

主站蜘蛛池模板: 国产真实乱子伦精品视手机观看| 77777亚洲午夜久久多人| 欧美色视频在线| 中文字幕伦视频| 日韩精品资源| 欧美a在线看| 毛片在线看网站| 成人免费视频一区二区三区| 综合天天色| 國產尤物AV尤物在線觀看| 71pao成人国产永久免费视频 | 久久精品无码一区二区国产区| 国产精品亚洲αv天堂无码| 国产一区二区三区精品久久呦| 国产一区二区色淫影院| 国产综合日韩另类一区二区| 国产亚洲精品自在线| 日韩AV无码一区| 少妇高潮惨叫久久久久久| 国产成人精品一区二区三在线观看| 人妻丝袜无码视频| 日韩高清欧美| 亚洲男人的天堂在线| 欧美午夜视频| 国产成人高清精品免费| 免费网站成人亚洲| 91伊人国产| 激情亚洲天堂| 久久国产精品国产自线拍| 一本色道久久88综合日韩精品| 国产91在线免费视频| 国产一级在线播放| 国产高清不卡| 欧美精品v| 3D动漫精品啪啪一区二区下载| 亚洲国产AV无码综合原创| 92精品国产自产在线观看 | 国产精品福利尤物youwu| 成年人午夜免费视频| 日本精品视频| 国产国语一级毛片在线视频| 美美女高清毛片视频免费观看| 92午夜福利影院一区二区三区| 无码AV高清毛片中国一级毛片| 亚洲最大福利网站| 影音先锋亚洲无码| 欧美www在线观看| 99偷拍视频精品一区二区| hezyo加勒比一区二区三区| 欧美亚洲国产视频| 欧美在线视频不卡| 国产激情无码一区二区APP | 国产福利小视频在线播放观看| 欧美激情伊人| 夜夜高潮夜夜爽国产伦精品| 久久精品国产999大香线焦| 无码又爽又刺激的高潮视频| 久久99热这里只有精品免费看| 伊人久综合| 婷婷六月在线| 免费看美女自慰的网站| 欧美午夜在线播放| 日日拍夜夜操| 亚洲天堂视频在线观看| 999国产精品| 欧美午夜在线播放| 国产成人精品高清不卡在线| 国产精品成| 国产高清在线观看91精品| 天堂av高清一区二区三区| 51国产偷自视频区视频手机观看| 国产乱子伦手机在线| 久久精品波多野结衣| 在线欧美国产| 波多野结衣中文字幕一区二区| 极品av一区二区| 黄色a一级视频| 网久久综合| 波多野结衣第一页| 亚洲成人在线免费观看| 九九热精品视频在线| 99久久国产综合精品2020|