999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合BiLSTM 和注意力機制的卷煙消費者評價情感分類方法

2022-12-20 05:58:42鄭新章宗國浩王永勝馮偉華
煙草科技 2022年11期
關(guān)鍵詞:分類消費者文本

王 銳,鄭新章,宗國浩,王 迪,王永勝,賈 楠,胡 斌,馮偉華

中國煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)楓楊街2 號 450001

情感分類是對帶有感情色彩的文本進行分析、推理的過程,通過分析人的情感傾向可幫助用戶準(zhǔn)確定位所需信息。隨著互聯(lián)網(wǎng)和移動通信技術(shù)的快速發(fā)展,通過獲取用戶評論數(shù)據(jù)并對其情感傾向進行挖掘和分析,對于開展經(jīng)濟活動預(yù)測、輿情監(jiān)控等研究具有重要意義。何炎祥等[1]利用深度學(xué)習(xí)模型研究了中文微博的情感分類。林明明等[2]結(jié)合HowNet 方法和Google 相似距離方法對消費數(shù)據(jù)情感分類進行了分析。劉一伊等[3]提出了基于詞嵌入與記憶網(wǎng)絡(luò)的情感分類算法。劉定一等[4]建立了融合微博熱點分析和長短期記憶神經(jīng)網(wǎng)絡(luò)的輿情預(yù)測方法。近年來煙草行業(yè)也開展了較多卷煙消費者評價的情感分類研究,幫助煙草工商企業(yè)精準(zhǔn)感知消費者的需求,對產(chǎn)品規(guī)格進行有效整合。蔡波等[5]將消費者評價中的感官描述詞與中式卷煙消費體驗感官評價指標(biāo)詞相匹配,驗證了中式卷煙消費體驗感官評價指標(biāo)的實用性和適用性,并得到消費者較為關(guān)注的感官評價指標(biāo);楊春曉等[6]通過人工篩選出卷煙在線評論中的常用情感詞匯,構(gòu)建了卷煙在線評論情感詞典,并建立了卷煙評價文本情感分析模型,以考察卷煙在線評論中的情感表達;蘇凱等[7]利用統(tǒng)計學(xué)方法和關(guān)聯(lián)規(guī)則挖掘算法,分析了消費者對斗煙的產(chǎn)品品牌、香味類型、配方類型及配方組成的偏好性。由于缺少帶標(biāo)注的消費者評價數(shù)據(jù)集,上述研究普遍采用基于詞典和規(guī)則的無監(jiān)督學(xué)習(xí)方法構(gòu)建模型,難以量化評價情感分析結(jié)果的準(zhǔn)確性。此外,由于中文語法復(fù)雜且表達方法的多樣性,依靠人工構(gòu)建的情感詞典進行情感詞匹配,存在無法識別領(lǐng)域新詞、難以顧及上下文語義關(guān)系等問題,特別是在句子結(jié)構(gòu)復(fù)雜、無情感詞出現(xiàn)等情況下,無法有效識別情感傾向。而采用復(fù)雜機器學(xué)習(xí)或深度學(xué)習(xí)方法,通過深層次的特征學(xué)習(xí)可以提高情感分析的準(zhǔn)確性。雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)采用雙向門函數(shù)解決長距離依賴問題,適用于對包含時序信息的數(shù)據(jù)建模,在圖像識別[8]、新詞發(fā)現(xiàn)[9]、文本分類[10]等方面應(yīng)用效果良好。而注意力機制[11]可以使模型更加關(guān)注關(guān)鍵特征,已廣泛應(yīng)用于圖像分類[11]、機器翻譯[12]等領(lǐng)域。為此,通過構(gòu)建有標(biāo)注的消費者評價數(shù)據(jù)集,基于BiLSTM和注意力機制建立卷煙消費者評價情感分類模型,旨在準(zhǔn)確分析消費者對卷煙產(chǎn)品的情感傾向,為卷煙產(chǎn)品研發(fā)和精準(zhǔn)營銷提供支持。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)集構(gòu)建

使用Python的BeautifulSoup庫采集并解析了煙悅網(wǎng)、中國香煙網(wǎng)等平臺上2 066 個國內(nèi)卷煙品牌規(guī)格2006—2021 年的消費者評價數(shù)據(jù),共114 214條。運用正則表達式匹配、字符串匹配等方法去除廣告、重復(fù)評論、網(wǎng)頁標(biāo)簽以及只包含數(shù)字或特殊字符等無效數(shù)據(jù),通過大小寫轉(zhuǎn)換、簡繁體轉(zhuǎn)換、數(shù)字歸一化等方法完成數(shù)據(jù)清洗,并按正向、中性、負(fù)向3 種情感傾向?qū)υu價數(shù)據(jù)進行人工標(biāo)注,構(gòu)建了包含78 226 條數(shù)據(jù)的卷煙消費者評價數(shù)據(jù)集,將數(shù)據(jù)集按4∶1 的比例隨機劃分為訓(xùn)練集和測試集。各情感類別的樣本數(shù)量分布見表1。

表1 各情感類別的樣本數(shù)量分布Tab.1 Sample quantity distribution of each emotion category

1.2 煙草領(lǐng)域?qū)S性~匯提取

由于中文語境下詞與詞之間無明顯邊界,因此如何分詞對文本分析的準(zhǔn)確性影響較大,通用分詞工具應(yīng)用于特定領(lǐng)域往往因缺少領(lǐng)域未登錄詞而難以取得理想效果[13-15]。因不同地區(qū)、不同消費者群體對同一種卷煙產(chǎn)品有不同的稱呼,卷煙消費者評價中存在大量煙草領(lǐng)域約定俗成的短語,如產(chǎn)品名、產(chǎn)品別名、抽吸感受等。本研究中綜合考慮了詞的內(nèi)部聚合程度以及所處語境的豐富程度,利用詞頻、點間互信息(Pointwise Mutual Information,PMI)[16]和左右信息熵提取煙草領(lǐng)域的專有詞匯,建立分詞補充詞典,以提高文本分詞的準(zhǔn)確性。點間互信息體現(xiàn)了詞與詞之間的相互依賴程度,PMI值越高,詞與詞之間的相關(guān)性越高,共同組成短語的可能性越大。PMI計算公式為:

式中:P(X)和P(Y)分別代表詞X和詞Y出現(xiàn)的概率;P(X,Y)代表詞X與詞Y共同出現(xiàn)的概率。

信息熵是衡量信息不確定程度的指標(biāo),左右信息熵代表了一個詞左右可搭配詞的多樣性,計算公式為:

式中:A為詞X的左鄰字集合;B為詞X的右鄰字集合。取左右信息熵中的較小值min(EL(X),ER(X))代表詞X的自由程度,該值越大,說明該詞周圍可搭配的詞越豐富,獨立成詞的可能性也越大。

提取語料庫中所有長度為7 位及以下的字符串作為候選詞,計算各候選詞的詞頻、點間互信息和自由程度,綜合考慮提取的時間復(fù)雜度和準(zhǔn)確性,最終將詞頻的閾值設(shè)為4,點間互信息的閾值設(shè)為10,自由程度的閾值設(shè)為4。提取能夠同時滿足各閾值要求的候選詞作為領(lǐng)域?qū)S性~匯,人工篩選出軟云、軟玉、黃芙、軟藍樓等詞語構(gòu)建卷煙產(chǎn)品別名表,見表2。將提取出的領(lǐng)域?qū)S性~匯作為分詞補充詞典,采用jieba分詞工具對消費者評價數(shù)據(jù)進行分詞?;跇?gòu)建的卷煙產(chǎn)品別名表,統(tǒng)一評價數(shù)據(jù)中產(chǎn)品名稱的不同表述方式。

表2 部分卷煙產(chǎn)品別名表Tab.2 Aliases of some cigarette products

1.3 模型構(gòu)建

基于雙向長短時記憶神經(jīng)網(wǎng)絡(luò)和注意力機制構(gòu)建BiLSTM-Att情感分類模型。模型由輸入層、詞嵌入層、BiLSTM 層、注意力層以及輸出層構(gòu)成,架構(gòu)見圖1。

圖1 情感分類模型架構(gòu)圖Fig.1 Architecture diagram of emotion classification model

1.3.1 輸入層和詞嵌入層

因分詞后的文本序列長度不一致,需要對序列長度進行統(tǒng)一。假設(shè)文本序列最大長度為L,對低于最大長度的序列在其前方用0 補齊,以此統(tǒng)一輸入序列長度。根據(jù)數(shù)據(jù)集特征,將L設(shè)置為200。對于預(yù)處理后的文本序列,采用word2vec[17]的CBOW算法進行詞嵌入,將詞匯轉(zhuǎn)換成向量形式。

1.3.2 BiLSTM層

長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[18]是在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過設(shè)置遺忘門、輸入門和輸出門,選擇性地遺忘過去無意義的信息,保留新的有用信息。相較于循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM 可以更好地捕捉較長距離的依賴關(guān)系。LSTM的網(wǎng)絡(luò)更新規(guī)則[18]見公式(4)~(9),根據(jù)輸入數(shù)據(jù)xt和t-1 時刻記憶單元的輸出ht-1,遺忘門ft控制要丟棄的狀態(tài)信息,輸入門it控制要保留的輸入信息,通過tanh層得到候選記憶單元t;在遺忘門、輸入門的共同作用下,得到當(dāng)前單元的狀態(tài)Ct;最后由輸出門ot和單元狀態(tài)Ct得到當(dāng)前記憶單元的輸出ht。

式中:Wf、Wi、WC、Wo分別為遺忘門、輸入門、控制門和輸出門的權(quán)重矩陣;bf、bi、bC、bo分別為對應(yīng)的偏置矩陣;σ(·)為sigmoid 激活函數(shù);tanh 為雙曲正切函數(shù);*為哈達瑪乘積。

LSTM可以根據(jù)之前時刻的信息預(yù)測下一時刻的輸出,但在文本數(shù)據(jù)中一個詞通常由上下文環(huán)境共同決定,特別是卷煙評價數(shù)據(jù)中存在情感詞、程度副詞、否定詞之間的交互。例如,“有蘇煙的味道。香得很!!”中“很”用于修飾情感詞“香”的程度;“之前的口糧,勁道還是可以的,現(xiàn)在感覺抽完嘴干得不行”中“不行”用于表達情感詞“干”的程度。BiLSTM 由正向LSTM 與反向LSTM 組合而成,可以較好地捕捉這種雙向語義。BiLSTM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,將詞嵌入向量分別傳入正向LSTM和反向LSTM,通過拼接正向LSTM產(chǎn)生的隱向量與反向LSTM 產(chǎn)生的隱向量htR,得到句子的編碼向量ht=]。

圖2 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of BiLSTM network

1.3.3 注意力層和輸出層

由于句子中的每個詞對評論情感的判斷貢獻不同,在BiLSTM模塊中引入注意力機制,以減少或忽略無關(guān)信息,突出評論中與情緒相關(guān)的特征,進一步提升情感分類的準(zhǔn)確性。將BiLSTM的編碼結(jié)果h=(h1,h2,……,hn)作為注意力層的輸入,根據(jù)公式(10)和(11)計算不同特征的權(quán)重系數(shù)和注意力值[11],對輸入信息加權(quán)求和,得到目標(biāo)詞的上下文特征。輸出層的激活函數(shù)采用softmax,針對三分類問題,輸出層設(shè)置3個神經(jīng)元。

1.4 模型訓(xùn)練

采用Python 語言編程,使用Tensorflow GPU

2.5.0 和keras 2.5.0 構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,顯卡采用NVIDIA GeForce RTX 3090。使 用Gensim 中 的word2vec 訓(xùn)練詞向量,訓(xùn)練窗口大小為5,詞向量維度為300。通過網(wǎng)格搜索確定優(yōu)化器Adam 的學(xué)習(xí)率為0.000 2。批樣本大小為64,采用Dropout在訓(xùn)練過程中隨機忽略20%的特征檢測器,提高模型泛化性能,防止模型過擬合,損失函數(shù)為交叉熵?fù)p失函數(shù)。

1.5 模型評估

將BiLSTM-Att模型與基于情感詞典方法[19]、傳統(tǒng)機器學(xué)習(xí)方法(使用tfidf 構(gòu)造特征的SVM[20]和使用詞向量構(gòu)造特征的SVM[21])、通用文本情感分析工具(調(diào)用百度AI 開放平臺中的情感傾向分析接口)、LSTM[18]、BiLSTM 進行對比,通過優(yōu)化參數(shù)使各方法達到最佳效果,并采用精確率(Precision)、召回率(Recall)和F1值評價分類結(jié)果的準(zhǔn)確性。

2 結(jié)果與分析

2.1 統(tǒng)一產(chǎn)品名稱表述對模型的影響

統(tǒng)一產(chǎn)品名稱和未統(tǒng)一產(chǎn)品名稱的情感傾向三分類結(jié)果見表3??梢?,統(tǒng)一產(chǎn)品名稱后模型的精確率、召回率和F1 值分別提高1.88、1.70、1.78 百分點,分類準(zhǔn)確性顯著提升。

表3 統(tǒng)一產(chǎn)品名稱對模型的影響Tab.3 Influence of product alias unifying (%)

2.2 情感分類結(jié)果對比

情感傾向二分類(正向、負(fù)向)和三分類(正向、中性、負(fù)向)結(jié)果見表4。可見,與其他方法相比,BiLSTM-Att 的分類準(zhǔn)確性均有一定提升。在二分類中,BiLSTM-Att的F1值比LSTM和BiLSTM分別提高3.20 和1.51 百分點;在三分類中,BiLSTM-Att的F1 值比LSTM 和BiLSTM 分別提高2.22 和0.71百分點,表明本研究中建立的方法具有有效性。對于較易區(qū)分的二分類問題,基于詞典方法的F1值為89.08%,優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法,接近百度AI 和LSTM,說明在有明顯區(qū)別特征情況下,通過足夠多的規(guī)則匹配可以取得較好分類效果。由于中性情感的文本處于兩極分類的邊緣地帶,區(qū)分難度大,因此在三分類問題中各方法的準(zhǔn)確性均有下降。基于詞典方法和百度AI 的準(zhǔn)確性下降明顯,F(xiàn)1 值分別為72.46%和64.08%,說明這兩種方法無法有效識別煙草領(lǐng)域評論的復(fù)雜情感。兩種SVM 方法中,使用tfidf提取文本特征的SVM分類準(zhǔn)確性較高。

表4 情感傾向二分類和三分類結(jié)果對比Tab.4 Comparison of results of binary and ternary emotion classification (%)

根據(jù)情感分類結(jié)果分別繪制正向、中性、負(fù)向評價的詞云圖,見圖3??梢姡頍熛M者的關(guān)注重點是產(chǎn)品的口味、價格和包裝。正向評價中“喜歡”“口糧”“適合”“值得”“好看”“飽滿”等關(guān)鍵詞的出現(xiàn)頻率較高,負(fù)向評價中“不值”“假煙”“惡心”“不行”“垃圾”“炒作”等關(guān)鍵詞的出現(xiàn)頻率較高,中性評價中的情感詞相對較少。不同類別評價的關(guān)鍵詞與所表達的情感一致,再次驗證了本研究方法的有效性。

圖3 不同情感類別評價詞云圖Fig.3 Word cloud map of comments in different emotion categories

3 結(jié)論

基于2006—2021 年2 066 個卷煙品牌規(guī)格消費者評價數(shù)據(jù),建立了融合雙向長短時記憶網(wǎng)絡(luò)和注意力機制的BiLSTM-Att 情感分類模型,并與基于詞典方法、傳統(tǒng)機器學(xué)習(xí)方法、通用文本情感分析工具、LSTM、BiLSTM 進行分類效果對比,結(jié)果表明:①BiLSTM-Att在卷煙消費者評價情感分類中具有較高準(zhǔn)確性。二分類中,F(xiàn)1 值達到92.89%,比BiLSTM、LSTM和基于詞典方法分別提高1.51、3.20和3.81 百分點;三分類中,F(xiàn)1 值達到80.12%,比BiLSTM、LSTM和基于詞典方法分別提高0.71、2.22和7.66百分點。②在三分類中統(tǒng)一產(chǎn)品名稱可使模型的F1 值提高1.78 百分點。未來將進一步開展細(xì)粒度的情感分析研究,以更好地掌握消費者對卷煙產(chǎn)品口味、價格、包裝等方面的需求。

猜你喜歡
分類消費者文本
分類算一算
消費者網(wǎng)上購物六注意
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
知識付費消費者
悄悄偷走消費者的創(chuàng)意
悄悄偷走消費者的創(chuàng)意
主站蜘蛛池模板: 中文字幕在线视频免费| 免费一级无码在线网站| 亚洲人成成无码网WWW| 久久久91人妻无码精品蜜桃HD| 欧美一级特黄aaaaaa在线看片| 亚洲人成网站日本片| 亚洲欧洲日韩综合色天使| 亚洲天堂在线免费| 四虎成人在线视频| 一区二区无码在线视频| 亚洲综合九九| 欧美一级视频免费| 成人一级免费视频| 欧美在线导航| 久久99国产精品成人欧美| 91蜜芽尤物福利在线观看| 亚洲v日韩v欧美在线观看| 久久毛片免费基地| 永久免费av网站可以直接看的| 日本色综合网| 久久亚洲中文字幕精品一区| 亚洲精品无码久久毛片波多野吉| 国产综合在线观看视频| 毛片一级在线| 色精品视频| 依依成人精品无v国产| 久久亚洲国产视频| 国内精品自在欧美一区| 亚洲一区二区日韩欧美gif| 国产毛片久久国产| 精品撒尿视频一区二区三区| 国产成人亚洲毛片| 亚洲国产综合精品一区| 国产玖玖视频| 91福利国产成人精品导航| 中文字幕在线永久在线视频2020| 国产福利一区视频| 天堂成人av| a级毛片毛片免费观看久潮| 天堂va亚洲va欧美va国产| 男女性午夜福利网站| 高潮毛片无遮挡高清视频播放| 亚洲AV人人澡人人双人| 久久精品国产精品一区二区| 欧美性爱精品一区二区三区| 亚洲性日韩精品一区二区| 久久精品人妻中文系列| 露脸国产精品自产在线播| 18禁高潮出水呻吟娇喘蜜芽| 亚洲AV无码一区二区三区牲色| a级毛片免费网站| 91精品国产丝袜| 国产噜噜噜视频在线观看| 又爽又大又黄a级毛片在线视频| 国产精品一线天| 欧美在线国产| 五月婷婷导航| 国产成人高清精品免费5388| 2018日日摸夜夜添狠狠躁| 亚洲另类国产欧美一区二区| 亚洲制服丝袜第一页| 成人亚洲天堂| 欧美亚洲日韩中文| 成人中文在线| 欧美笫一页| 宅男噜噜噜66国产在线观看| 在线播放91| 热思思久久免费视频| 中日韩一区二区三区中文免费视频| 免费在线看黄网址| 国产精品毛片一区视频播| 视频一区亚洲| 无码'专区第一页| 亚洲天堂.com| 亚洲欧美天堂网| 精品三级网站| 极品国产在线| 国产一级做美女做受视频| 91精品专区国产盗摄| 亚洲最黄视频| 国产精女同一区二区三区久| 国产精品嫩草影院av|