999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合情感增強與句法特征的卷煙消費者評價方面級情感分析

2024-06-30 12:32:57邵小東高松劉帥狄濤梅雨婷施旭李禎壽侯秋強單雙呂
科技創新與應用 2024年19期

邵小東 高松 劉帥 狄濤 梅雨婷 施旭 李禎壽 侯秋強 單雙呂

摘? 要:為了解消費者對卷煙產品不同屬性的情感信息,幫助煙草企業了解消費者評價及情感傾向,指導產品開發和市場營銷決策,該文利用爬蟲采集2010—2022年共18 205條卷煙消費者評價數據,基于預訓練模型(BERT)和雙向長短時記憶網絡(Bi-LSTM)對文本進行特征提取,結合句法依賴樹獲取語義間關系,建立融合情感增強和句法特征的方面級情感分類模型BAGCN,將BAGCN模型的分類結果與其他4種方法進行對比。結果顯示,BAGCN模型在方面級情感分類效果最優,準確率和F1值達到79.49%和75.26%,BAGCN的各模塊對最終的分類效果均有貢獻。通過方面級情感分析發現,消費者更關注卷煙產品的價格和口感屬性,對價格方面的評價多為消極情感,而口感方面的情感分布較為均衡,消費者對外觀和品控方面的評價相對積極。

關鍵詞:卷煙;消費者評價;方面級情感;預訓練模型;SVM算法

中圖分類號:TP391.1? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)19-0001-07

Abstract: In order to understand consumers' emotional information about different attributes of cigarette products, help tobacco enterprises understand consumer evaluation and emotional tendency, and guide product development and marketing decisions, this paper uses crawlers to collect a total of 18 205 cigarette consumer evaluation data from 2010 to 2022, extracts the features of the text based on a pre-training model (BERT) and Bidirectional Long Short-Term Memory (Bi-LSTM) network, and combines syntactic dependency tree to obtain semantic relations. An aspect-level emotion classification model BAGCN which combines affective enhancement and syntactic features is established, and the classification results of BAGCN model are compared with the other four methods. The results show that BAGCN model has the best effect in aspect-level emotion classification, and the accuracy and F1 value reach 79.49% and 75.26% BAGCN. Through the aspect-level emotion analysis, it is found that consumers pay more attention to the price and taste attributes of cigarette products, and the evaluation of price is mostly negative emotion, while the emotional distribution of taste is more balanced. Consumers' evaluation on appearance and quality control is relatively positive.

Keywords: cigarette; consumer evaluation; aspect-level emotion; pre-training model; SVM algorithm

方面級情感分析(Aspect-Based Sentiment Analysis,ABSA)是一種細粒度的情感分類任務,目的在于預測文本中某個特定方面的情感極性[1]。近年來,隨著電子商務的快速發展,互聯網中產生了大量消費者對產品的評論數據,這些評論蘊含著用戶的情感傾向和態度信息。通過對這些評論進行分析和進一步挖掘,有利于深入地剖析消費者對產品的消費偏好和潛在需求。周法國等[2]提出一種基于情感詞典和深度學習結合的中文方面級情感模型。潘芳等[3]利用Transformer對中文在線課程評論方面情感分析進行研究。商容軒等[4]利用雙向循環神經網絡對政務APP中的評論進行傾向識別。王萍等[5]結合方面詞的位置權重和條件隨機場對醫療文本信息的方面級情感進行分析。方面級情感分析在各行業的市場營銷和品牌管理中應用越來越廣泛,對企業進行目標市場定位、產品改進及品牌管理等方面具有重要意義。

隨著我國卷煙市場競爭加劇和經濟水平的提高,消費者對卷煙產品需求逐漸呈高端化、個性化、多元化發展,相關煙草部門也開展了面向卷煙消費者評價的情感分類研究。金吉瓊等[6]利用向量空間和TF-IDF對電子煙市場的消費熱點進行挖掘。蘇凱等[7]利用關聯規則的方法分析了消費者斗煙產品市場的偏好性。楊春曉等[8]構建了卷煙在線評論情感詞典,并基于指數表達式挖掘卷煙在線評論中的情感表達。王銳等[9]提取煙草領域的專有詞匯,并構建了融合Bi-LSTM和注意力機制的卷煙評價情感分析模型。上述研究多采用基于統計學習或 Word2vec的方法構建領域詞典和向量表示,尚存在以下問題:①基于統計學習或Word2vec無法解決詞語歧義問題。在卷煙的命名中,為強化當地民眾的品牌自豪感和信心,品牌商通常會用地名命名。例如,“玉溪”“泰山”等,這類詞語在不同語境下的含義不同,對詞向量表示有很大影響。②上述方法僅對整個卷煙消費評論句子預測整體情感極性,無法進行方面級的情感分析。以“軟中華口感很好,但價格實在太貴了”為例,該句包含“口感”和“價格”2個方面,具有不同的情感極性,僅僅預測整個句子的情感極性,顯然無法滿足煙草企業全面分析消費者情感的需求。

與上述研究的情感分析不同,方面級情感分析要求模型對同一事物的不同方面分別進行情感分類。隨著深度學習技術的發展,基于預訓練BERT模型[10]進行文本表示,再利用雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,Bi-LSTM)等模型進行特征提取,成為當下廣泛使用的情感分類方法。在此基礎上,注意力機制[11]常被用于獲取詞語權重,作為Bi-LSTM模型的補充。但注意力機制不能捕捉方面詞與上下文之間的句法依賴關系,導致為方面詞分配錯誤的情感信息。為了緩解這個問題,一些基于依存樹的圖卷積網絡(Graph Convolution Network, GCN)[12]的方法被提出,其使用句法依賴樹對句子進行建模,并通過圖卷積計算來捕獲長距離的句法依賴關系。為此,通過爬蟲收集卷煙消費者評價方面級情感數據,利用預訓練BERT和Bi-LSTM對評價文本上下文進行特征提取,結合句法依賴樹和GCN建模句間關系,構建卷煙消費者評價方面級情感分析模型。旨在幫助煙草企業了解消費者對產品不同方面的情感傾向,進一步改善產品質量以滿足消費者的需求。

1? 數據與方法

1.1? 數據集構建

本文通過Python爬蟲采集煙悅網2010—2022年消費者的評論數據,共計56 724條。對評論數據進行編碼轉換、去除HTML標簽和無效符號,構建初始的卷煙消費者評論語料。為了解消費者對卷煙不同方面的情感傾向,在卷煙領域情感詞典[8]基礎上,采用Jieba分詞對所有的評論語料進行分詞和詞頻統計,并結合專家意見構建了卷煙消費者評價方面級和方面詞表,不同方面級包含的詞匯見表1。

采用字符串匹配的方式從初始語料中抽取包含方面詞的評論句,分別對方面詞的情感極性進行人工標注,標注樣例見表2。

為了確保人工標注的準確性和一致性,使用Kappa系數[13]檢驗評估不同標注者之間的標注差異,對標注差異較大的樣本進行重新標注或剔除。最后構建含18 205條包含方面詞的卷煙消費者評價數據集,將數據集按8∶1∶1的比例隨機劃分為訓練集、驗證集、測試集。各評價方面級情感的標注分布見表3。

1.2? 模型構建

本文提出的BAGCN模型框架如圖1所示。BAGCN模型由BERT編碼層、特征提取層、特征融合層和分類層組成。

1.2.1? 問題定義

給定包含m個字符的卷煙消費者評論Sc={e, e,…,e}和包含n個方面詞集合St={e,e,…,et},其中St是Sc的子序列。方面級情感分析的任務是預測給定方面詞的情感極性et∈{Positive,Negetive,O},其中Positive,Negetive,O分別表示“積極”“消極”和“中性”情感。

1.2.2? 詞嵌入和Bi-LSTM特征提取層

本文采用預訓練模型BERT獲得評論文本和方面詞中的語義表示,根據公式(1)將評論上下文和方面詞結合,輸入BERT模型得到表達式為E∈Rn×d,可以有效解決卷煙品牌一詞多義的問題。

E=BERT([CLS]? 評論文本? [SEP]? 方面詞? [SEP])。 (1)

為捕獲文本的上下文特征,將詞嵌入矩陣E∈Rn×d輸入Bi-LSTM提取語義信息。LSTM引入了特殊的門控機制,通過門結構保留或丟棄信息,解決了傳統RNN存在的梯度消失或爆炸問題。LSTM結構如圖2所示。

圖2中ft為遺忘門,決定前一時刻細胞中有多少信息需要傳遞到當前時刻;it為輸入門,用來控制當前時刻的信息保存到細胞單元的程度;Ct為記憶單元,用來記錄不同門結構情況下細胞的狀態;Ct和輸出門Ot計算得到當前時刻的輸出ht。具體計算過程如下

1.2.3? 注意力機制層

注意力機制可以根據詞語對情感表達的權重衡量不同詞語在情感分類中的重要性,從而進一步提高分類準確率。本文將Bi-LSTM 輸出層的上下文矩陣ht 通過注意力機制計算權重,如式(8)所示

同樣的,計算Bi-LSTM輸出層方面詞的特征矩陣注意力權重,得到Bi,j。最終將上下文注意力和方面詞注意力權重矩陣拼接作為該層輸入AttGCN網絡,如式(9)所示

將處理后的注意力矩陣A作為輸入,根據其相鄰的隱藏表示更新AttGCN第l層中的每個節點。

1.2.4? 句法特征和情感增強層

在方面級情感分析任務中,判斷方面詞的情感極性關鍵在于捕獲文本中方面詞的修飾和描述。本文在考慮上下文特征的基礎上,結合句法結構信息和方面詞增強特征,以提高文本的特征表達能力。

首先,使用 HanLP獲得句法依賴樹(圖3),并根據句法依賴樹構建鄰接矩陣D∈Rn×n。構建規則為:若任意節點i,j之間句法有著依存關系,則Dij=Dji=1,否則 Dij=Dji=0。同時將單詞自身的依存關系設置為 Dij=1。

在此基礎上,選擇BosonNLP[14]作為情感詞典,構建情感增強矩陣S∈Rn×n。如式(12)所示

Si,j=|BosonNLP(wi)|+|BosonNLP(wj)| , (12)

式中:BosonNLP(wi)∈[-1,1]表示詞語在BosonNLP詞典經過歸一化后的情感分數。同理,根據wi是否為方面詞構建方面詞增強矩陣T∈Rn×n,將情感增強和方面詞增強的矩陣與鄰接矩陣D相結合,得到最終的 DepGCN輸入矩陣Gij為

Gij=Dij×(Sij+Tij+1) 。 (13)

1.2.5? Biaffine模塊和分類層

為了提高AttGCN和DepGCN的交互學習效率,本文采用Biaffine模塊[15]計算AttGCN和DepGCN間的特征表示,將最后一層的輸出進行平均池化和拼接后,得到最終的情感特征表示F。如式(14)所示

最后,將情感特征F輸入全連接層進行分類

p=softmax(WF+b), (15)

式中:W、b分別為全連接層的權重矩陣和偏置項;p為情感概率分布,概率分布最大的值即為最終的情感分類結果。

1.3? 模型環境與參數

基于Ubuntu18.06系統搭建Python3.6編程環境,選擇Pytorch1.10構建網絡模型,顯卡為 GeForce RTX 3080。詞嵌入模型選擇BERT-base-chinese,詞向量維度為768;使用學習率為 2×10-5的Adam優化器進行優化;GCN層數設置為2;L2正則化系數設置為10-5;訓練樣本批次大小為32;Dropout丟棄率為0.3;訓練輪數為20;選擇交叉熵損失作為損失函數。

1.4? 模型評估

通過調整參數設置使模型達到最佳分類效果,選擇準確率(Accuracy)和F1值作為評價指標評估模型的性能。同時,為了更好地對比本文模型的算法性能,選擇與情感詞典法、經典的統計學習模型SVM、深度學習模型Bi-LSTM-Attention和SSGCN進行結果比較。

1)SVM算法[16]:一種經典的機器學習算法,通過設定核函數尋找分類超平面,將不同類別的樣本分開,在早期情感分類領域得到了廣泛的應用。

2)Bi-LSTM-Attention模型[17]:采用Word2vec詞嵌入,通過雙向LSTM來捕捉文本中的上下文信息,并利用注意力機制獲得方面詞上下文信息權重,具有很好的文本建模和特征提取能力。

3)SSGCN模型[18]:在句法依賴樹的基礎上,增強特定上下文詞與方面詞之間的關聯,并作為外部特征輸入GCN網絡,提高模型情感分類效果。

2? 結果與分析

2.1? 情感分類結果對比

BAGCN模型與對比模型的結果見表4。從表4可以看出,BAGCN模型在準確率和F1值上均高于其他對比模型。情感詞典法的F1值最低,說明通過情感詞典匹配的方式在泛化能力和語義理解中存在一定的局限性。Bi-LSTM-Attention和SSGCN模型在F1值上均高于SVM模型,表明深度學習方法可以更好地建模文本序列中的長距離依賴關系和關鍵信息,從而在情感分類任務上取得更好的性能。BAGCN相比Bi-LSTM-Attention、SSGCN模型的F1值分別提升了1.82%和1.23%,表明預訓練BERT詞向量具有更好的文本表征能力,而圖卷積網絡則可以捕捉句法結構信息,有利于提升方面級情感分類效果。

方面級情感的分類結果見表5。由表5可知,在標注樣本更少的情況下,外觀和品控方面的分類準確率和F1值均優于口感和價格方面,推測是因為外觀和品控維度的情感描述和修飾比較簡單,比如“盒子很漂亮”“煙嘴細膩”等,這些修飾詞相對明確和直觀,更容易被模型識別。相比之下,口感和價格通常包含更多口語化的評價,比如“價格親民”“口感很順”等,這些修飾詞更加復雜和主觀,也容易受到煙民的個人口味偏好和評價標準的影響,導致分類準確率出現下降。

2.2? 消融實驗結果對比

針對Attention、Bi-LSTM、BERT和DepGCN模塊的消融實驗的結果見表6。由表6可知,在不同消融模塊下,模型的準確率和F1值均有所下降,證明了BAGCN中每個部分對情感分類結果均有貢獻。其中DepGCN、BERT、Bi-LSTM對模型性能的影響最為顯著,注意力機制可以更好地捕捉不同詞語之間的重要性,對模型的性能提升也有一定貢獻。

2.3? 消費者方面級情感分析

不同價位下消費者情感關注程度如圖4所示,圖4中價位-方面級對應區域顏色代表消費者評論中出現的頻率占比,顏色越深代表消費者對該方面的關注度越高。可見,在低價位的卷煙市場中,價格是消費者最關注的因素,而對外觀和品控方面關注明顯較少。但隨著價位的提高,消費者對價格的關注度相對減少,口感、外觀、品控方面得到的關注度持續提升,說明消費者在購買高價位的卷煙品牌時對產品的整體品質和形象均有著較高的期望。

消費者在不同方面級的情感分布隨價格變化情況如圖5所示,圖5中的數字代表該情感評價占整體情感的比例。可見,在低端價位的卷煙評價中,消費者在價格方面表達出的消極情感多于積極情感。口感方面則因個人喜好不同,并未呈現出明顯的情感差異。在整個價格范圍內,消費者對于卷煙產品的外觀和品控方面都是相對穩定且積極的評價。因此,煙草企業在高價位的卷煙市場中應該注重產品質量和口感的提升,以滿足消費者的需求。同時,在低價位市場中,降低價格可以減少消費者對價格的負面情感,但企業也應該注重提升產品的口感和外觀質量,以提高消費者多方面滿意度。

根據消費者評論中不同方面修飾詞的頻率占比,利用Python中的Wordcloud庫生成的方面級評價詞云如圖6所示。可見,在價格方面,“不值”“漲價”“溢價”“貴”等消極的評價詞出現頻率更高。在口感方面,“清新”“柔順”“醇厚”“微甜”是常見的積極評價詞,而“苦”“沒勁”“干”代表大部分負面評價。在外觀方面,“精美”“上檔次”“好看”等積極評價詞詞頻明顯多于“垃圾”“老氣”等消極評價詞。在品控方面,“柔軟”“舒適”“滿意”等積極評價詞占主導地位,“太硬”“沒感覺”“差評”等消極詞匯出現的頻率較低。消費者在不同方面級修飾詞的頻率占比與本文模型識別的情感分布基本一致。

3? 結論

通過采集2010—2022年卷煙消費者評論數據,構建卷煙消費者評價方面級數據集,建立融合情感增強和句法特征的方面級情感分類模型BAGCN,并與主流的SVM、 Bi-LSTM-Attention、SGCN等模型進行對比。研究結果表明,BAGCN模型在準確率和F1值上均高于其他對比模型,BAGCN模型在 F1值上相比SVM、BiLSTM-Attention和SGCN分別提高了5.91%、 1.82%和1.23%。其中,Attention、Bi-LSTM、BERT和DepGCN模塊均證明有利于提升情感分類效果。消費者情感分析結果表明,當購買低價位的卷煙時,消費者往往更加關注價格的變動,其表達出的消極情感多于積極情感。然而,消費者對于口感的要求因個人喜好不同而沒有明顯的情感差異。在外觀和品控方面,消費者的評價在整個價格范圍內都相對穩定,且評價大多數是積極的。本文模型可以幫助煙草企業了解消費者對產品的評價和情感傾向,有助于企業在產品開發和市場營銷方面做出更好的決策。

參考文獻:

[1] PONTIKI M, GALANIS D, PAPAGEORGIOU H, et al. Semeval-2016 task 5: Aspect based sentiment analysis[C]//ProWorkshop on Semantic Evaluation(SemEval-2016). Association for Computational Linguistics,2016:19-30.

[2] 周法國,孫冬雪.融入情感和話題信息的中文方面級情感分析[J].計算機應用研究,2022,39(12):3614-3619,3625.

[3] 潘芳,張會兵,董俊超,等.基于高效Transformer的中文在線課程評論方面情感分析[J].計算機科學,2021,48(S1):264-269.

[4] 商容軒,張斌,米加寧.基于BRNN的政務APP評論端到端方面級情感分析方法[J].數據分析與知識發現,2022,6(Z1):364-375.

[5] 王萍,李璋寅,郭茹燕,等.面向醫療文本信息的方面級情感分析[J].武漢大學學報(理學版),2023,69(1):60-68.

[6] 金吉瓊,劉鴻,鄭賽晶.基于在線評論文本挖掘技術的電子煙市場消費熱點分析[J].煙草科技,2019,52(12):106-114.

[7] 蘇凱,付博,楊永鋒,等.基于互聯網數據的斗煙市場偏好性分析[J].煙草科技,2019,52(8):106-113.

[8] 楊春曉,張鶴馨,黃家雯,等.卷煙在線評論的文本情感分析[J].中國煙草學報,2020,26(2):92-100.

[9] 王銳,鄭新章,宗國浩,等.融合BiLSTM和注意力機制的卷煙消費者評價情感分類方法[J].煙草科技,2022,55(11):106-112.

[10] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[D]. arXiv,2018.

[11] MA D,LI S,ZHANG X,et al.Interactiv eattention networks for aspect-level sentiment classification[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.2017: 4068-4074.

[12] ZHANG C, LI Q, SONG D. Aspect-based sentiment classification with aspect-specific graph convolutional networks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing andthe 9th International Joint Conferenceon Natural Language Processing(EMNLP-IJCNLP),2019:4568-4578.

[13] COHEN J. A coefficient of agreement for nominal scales[J]. Educational and psychological measurement, 1960,20(1):37-46.

[14] MIN K, MA C, ZHAO T, et al. BosonNLP:An ensemble approach for word segmentation and POS tagging[C]//Natural Language Processing and Chinese Computing: 4th CCF Conference, NLPCC 2015, Nanchang, China, October 9-13,2015,Proceedings 4. Springer International Publishing, 2015:520-526.

[15] DOZAT T, MANNING C D. Deep biaffine attention for neural dependency parsing[D].arXiv,2016.

[16] JIANG L, YU M, ZHOU M, et al. Target-dependent twitter sentiment classification[C]//Proceedings of the 49th annual meeting of the association for computational linguistics:human language technologies,2011:151-160.

[17] WANG Y, HUANG M, ZHU X, et al. Attention-based LSTM for aspect-level sentiment classification[C]//Proceedings of the 2016 conference on empirical methods in natural language processing,2016:606-615.

[18] 李帥,徐彬,韓祎珂,等.SS-GCN:情感增強和句法增強的方面級情感分析模型[J].計算機科學,2023,50(3):3-11.

主站蜘蛛池模板: 91系列在线观看| 99久久精品免费看国产电影| 日韩不卡高清视频| 国产成人精品在线1区| aⅴ免费在线观看| 成人免费网站久久久| 91人妻在线视频| 成人在线观看一区| 无码一区二区三区视频在线播放| 日韩欧美国产区| 中文字幕在线观| 高清大学生毛片一级| 中文字幕免费播放| 国产原创自拍不卡第一页| 97人妻精品专区久久久久| 国产成在线观看免费视频| 97在线免费| 日本少妇又色又爽又高潮| 91人人妻人人做人人爽男同| 欧美午夜网站| 免费看av在线网站网址| 国产精品毛片在线直播完整版| 国产精品久久久久久久伊一| 波多野结衣爽到高潮漏水大喷| 毛片免费在线视频| 国内99精品激情视频精品| 99草精品视频| 无码有码中文字幕| 国产香蕉97碰碰视频VA碰碰看 | 亚洲一区二区三区国产精品 | 亚洲手机在线| 日韩成人在线网站| 国产91精品最新在线播放| 亚洲资源站av无码网址| 日韩大片免费观看视频播放| 欧美国产日韩另类| 中文字幕天无码久久精品视频免费| 国产视频你懂得| 午夜精品久久久久久久2023| 国产高清国内精品福利| 成人免费一级片| 婷婷亚洲视频| 亚洲精品无码在线播放网站| 免费高清a毛片| 亚洲人成网站在线播放2019| 成人精品亚洲| 日韩一级毛一欧美一国产| 欧美在线国产| 精品福利国产| 国产精品无码AV中文| 国产在线观看第二页| 亚洲欧美成人影院| 色悠久久综合| 99热国产这里只有精品9九| 久久 午夜福利 张柏芝| 国产国产人成免费视频77777| 日韩a级毛片| 在线日韩日本国产亚洲| 亚洲成A人V欧美综合天堂| 在线观看亚洲精品福利片| 午夜少妇精品视频小电影| 国产成人一区| 国产成人狂喷潮在线观看2345| 97人人模人人爽人人喊小说| 日韩欧美国产另类| 不卡午夜视频| 国产免费自拍视频| 亚洲成人精品| 久久久久无码精品国产免费| 国产国产人在线成免费视频狼人色| 三级国产在线观看| 天天爽免费视频| 国产精品爆乳99久久| 2019国产在线| 亚洲欧美综合在线观看| 色综合网址| 91小视频在线播放| 国产青榴视频| 国产福利2021最新在线观看| 亚洲a免费| 亚洲三级网站| 亚洲日韩在线满18点击进入|