999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意深度學習的商品評論情感分類

2021-06-25 14:18:06
軟件導刊 2021年6期
關鍵詞:分類特征文本

嚴 鵬

(上海工程技術大學機械與汽車工程學院,上海 201620)

0 引言

文本情感分析一般是對表達中的立場、情感、看法、偏向等人為傾向的剖析,作為新興熱點,其蘊含巨大的研究潛力,文本情感分類可認為是文本情感分析的重點研究方向[1-3]。依據表達的長短,文本情感分類為長文、段落和短句[4]。

研究文獻表明,文本情感分類通常使用機器學習與情感規則方法[5-7]。基于機器學習方法需要人工進行特征提取,當文本數量過多時,需要消耗過多的人力和物力。針對這些問題,通過神經網絡進行特征的自動提取成為新的趨勢。

電子商務網站商品評論數據豐富,往往包含充足信息。以商品評論文本為對象進行情感分類,既有現實基礎,也有積極的應用前景[8-13]。

當前使用的方法普遍需要消耗人力物力建立規則和提取特征,當該類方法應用于數據豐富的商品評論情感分類任務時,通常需要花費大量時間進行規則建立與特征提取。針對上述問題,本文提出基于XL-GSAtMSC 的商品評論情感分類模型,運用神經網絡進行特征自動提取,通過與各類機器學習模型進行研究對比驗證了該模型的有效性與實用性。

1 相關工作

1.1 卷積神經網絡

卷積神經網絡[14](Convolutional Neural Networks,CNN)之前用來解析圖片,現用于NLP 領域。CNN 一般由卷積、池化與全連接三層所構,如圖1 所示。2014 年,Kim[14]使用提前生成的詞向量來表達文本,利用卷積層提取特征進行分類。CNN 主要用于提取局部特征,因而忽略了文本上下文語義關系,對文本情感傾向性判斷有一定影響。

Fig.1 The structure of CNN圖1 CNN 結構

1.2 循環神經網絡

循環神經網絡[15](Recurrent Neural Network,RNN)通常用于時序序列數據,通過神經元之間的連接形成有向循環,使神經元對前序的輸出信息進行記憶,并在當前輸出中應用,因此它能對輸入序列可變的數據進行處理。該網絡的記憶功能能在文本處理時考慮上文語義信息,因此廣泛應用于NLP 任務,如情感分析、機器翻譯和智能問答等子領域[16]。在實際應用中,RNN 采用線性序列結構進行反向傳播,易導致梯度消失和梯度爆炸等問題,且難以并行運算。

1.3 Attention 機制

Attention 機制[17]前期用來處理圖片,2014 年Bahdanau等[18]在文本翻譯時最先把Attention 機制結合NLP 使用,利用Attention 機制直接建立源語句與目標語句的聯系,解決Seq2Seq(Sequence to Sequence)[19]無法處理長語句的缺陷,由此引發Attention 機制研究熱潮。Attention 函數的本質可以描述為一個查詢(query)到一系列鍵—值對(key-value)的映射。Attention 函數公式如式(1)所示,計算流程如圖2所示。

Fig.2 Attention calculation process圖2 Attention 計算流程

1.4 自回歸語言模型

自回歸語言模型[20](Auto Regressive Language Model)是根據前文的文本內容預測下一個可能出現的單詞語言模型,即自左向右或自右向左的語言模型。該模型在結構設計上天然匹配自然語言生成任務,如文本摘要、機器翻譯等。由于該模型結構設計上的缺陷,只能單獨使用上文或下文信息,無法同時使用上下文信息。自回歸語言模型如式(2)所示。

2 模型設計與構建

本文模型架構如圖3 所示,由輸入層、XLNet 層、Bi-GRU 層、Self-Attention 層、MSCNN 層、Softmax層和輸出層組成。其中,輸入層、XLNet 層將切分詞轉為數字表達,Bi-GRU層、Self-Attention 層、MSCNN層提取文本向量特征,Softmax 層對特征進行計算和分類,輸出層輸出結果。

Fig.3 The structure of model圖3 Model 結構

2.1 文本獲取與預處理

為保證數據的真實性與可靠性,本文以網絡購物平臺京東商城的電子產品評論作為數據集進行情感分類研究。將網站獲取的用戶評論文本作為原始數據集,并使用人工標注的方法將文本進行初步情感分類,情感分為正面情感、負面情感和中性情感3 類[21]。文本預處理流程如圖4所示。

Fig.4 Text preprocessing flow圖4 文本預處理流程

由于原始數據集中存在語料重復、評論內容包含無用符號等情況,若不進行數據清洗直接使用原始數據集,可能無法從評論文本中獲取正確的情感傾向性,從而導致模型準確率降低。

中文分詞是數據預處理的一個重要環節,目的是將句子劃分為一個個單獨的詞語,通過獨立詞獲取整個句子的語義信息。數據集因包含較多網絡用語,以及在線評論文本的特殊性,易導致普通的情感詞典無法準確分詞。本研究將網絡用語詞與口語化情感詞添加進自定義情感詞典以提高中文分詞的準確性,并使用基于Python 語言的分詞工具jieba 分詞進行中文分詞。

停用詞通常指某類在文本分析中無用、無實義的詞。為了加快模型訓練與運行,應刪掉這類停用詞。本文使用“百度停用詞表”去停用詞,去除停用詞后有利于更好地判斷電商評論文本要表達的情感極性[22]。

文本預處理后得到20 000 條評論文本數據集,其中正面情感7 012 條,中性情感5 711 條,負面情感7 277 條,分別占比35%、28.6%和36.4%。在本模型中,將處理好的文本分為3 部分:訓練樣本用于訓練模型,驗證樣本用于驗證模型,測試樣本用于測試模型,配比為7∶1∶2。正面情感數據集樣例:“用一段時間感覺還不錯可以”;負面情感數據集樣例:“屏幕不錯但是音質很差完全沒有高低音可言介意音效 慎重”;中性情感數據集樣例:“榮耀的性價比不高想說愛你不容易”。

2.2 模型構建

XL-GSAtMSC 模型由XLNet層、Bi-GRU 層、Self-Attention 層和MSCNN層組成。

2.2.1 XLNet 層

當前NLP 任務大都使用Word2Vec 和Glove 預訓練詞向量,本文選用XLNet 生成詞向量,因為它能更好體現句子層語義在空間上的關系。XLNet 屬于自回歸語言模型的變體,為解決自回歸語言模型只能單獨使用上文或者下文信息的缺點,引入排列語言模型(Permutation Language Model,PLM)和雙流自注意力。

PLM 在保證位置編碼不變的情況下,將輸入序列順序打亂,但是預測順序仍按原始位置順序編碼進行預測。如果遍歷所有分解方法PLM 就能學習到所有預測詞的上下文信息,XLNet 就只對隨機排列后的末尾數詞進行預測。

PLM 的結構缺陷會導致無法知道下一個預測詞為何詞,因此需使用雙流自注意力解決這個問題。雙流自注意力有兩個分離的信息流,分別是查詢流和內容流。使用查詢流的目的是找到所需預測詞,該流Query 輸入為預測詞的位置信息;內容流為查詢流提供其它詞的內容向量,該流Query 輸入為預測詞的內容信息和位置信息。

XLNet 主體結構為Transformer-XL,原始Transformer 結構會導致無法捕獲更長遠文本的語義信息,因此Transformer-XL 采用片段級遞歸機制和相對位置編碼機制對原始Transformer 進行結構優化。片段級遞歸機制在當前時刻計算時,通過循環遞歸方式利用上一時刻的隱藏狀態信息,使每次計算可以利用更大范圍的上下文信息,但是由于片段級遞歸機制會導致位置編碼的重疊,因此采用相對位置編碼。

2.2.2 Bi-GRU 層

門控循環單元(Gate Recurrent Unit,GRU)是循環神經網絡RNN 的一種變體,與長短期記憶網絡(Long-Short Term Memory,LSTM)一樣可以學習單詞之間的長距離依賴關系,并能有效解決RNN 梯度消失和優化困難等問題。大多數情況下GRU 與LSTM 模型效果相差不大,但是GRU將LSTM 的“遺忘門”和“輸入門”合并為單獨的“更新門”,同時也合并了cell state 和hidden state,使GRU 結構比LSTM簡化很多,大大加快了模型的收斂速度,提高了訓練效率。

單向GRU 只能使用之前時刻的時序特征進行后續時刻輸出的預測,但忽略了未來的時序特征。在文本分析中,當前時刻詞語的預測不僅與之前的時序信息相關,還可能與后續的文本信息相關,若忽略下文信息可能導致預測結果不準確。因此,本模型采用雙向GRU(Bi-GRU)的網絡結構,不僅能獲取當前時刻詞前文本的有效信息,還能保留當前詞后文本的重要信息,最終基于這些重要信息對當前時刻詞進行預測。

2.2.3 Self-Attention 層

Self-Attention 是注意力機制的變體。實際上卷積神經網絡和循環神經網絡都是對長文本序列的“局部編碼”,無法輕易建立輸入序列的長距離依賴特征,需要進行若干步驟計算累加才能捕獲長距離依賴特征,距離越遠越難捕獲。而Self-Attention 能生成任意兩個單詞的連接權重,借此建立遠距離依賴特征,從而能處理長文本序列。因為Self-Attention 中的Query 是對自身輸入的變換,而經典Attention 的Query 是對外部輸入的變換。

在Bi-GRU 層后添加Self-Attention 層不僅能在一定程度上減輕GRU 的長期記憶負擔,還能學習到長文本內部的遠距離依賴特征。除此之外,Self-Attention 還能增加并行運算,提高模型處理效率。

2.2.4 MSCNN 層

多核跳躍CNN(Multi-Skip CNN,MSCNN)能抽取豐富文本特征,運用融合數個尺寸卷積核的卷積層對Bi-GRU層的提取特征進行卷積操作。單尺寸核不能抽取數個類別特征,抽取數個特征需同時采取數個不同尺寸卷積核,一個卷積核可以抽取單類別特征,獲取縱向差異信息。研究表明,先用一組大小為2、3、4 的一維卷積核進行初步特征提取,再分別接入大小為2 的一維卷積核進行視野擴大,能充分提取文本特征。

卷積層獲取的特征為高維特征,著重詞語在語序中的信息,有時可能忽略了詞語本體語義信息。本模型在傳統CNN 的基礎上進行改進,添加Skip 層,直接引入Bi-GRU 輸出特征,保留較多的低維特征,對卷積層提取特征起到信息補充作用。跳躍層打破對稱性、線性依賴性,增強了網絡的泛化能力,避免為網絡引入多余參數與過多計算,在節省模型訓練時間的同時增強模型準確率。

將Bi-GRU 提取的特征進行跳躍處理后直接進行pooling 處理,與池化層輸出特征進行拼接,最后進行矩陣拉伸輸出到分類層。MSCNN 結構如圖5 所示。

Fig.5 The structure of MSCNN圖5 MSCNN 結構

3 實驗與分析

3.1 實驗環境

為保證各模型對比的公平性,本研究中所有模型都在相同環境下進行。本文使用當前構建深度學習模型與處理數據的主流語言Python,使用的深度學習框架為工業界主流的Tensorflow 框架進行實驗,實驗環境參數如表1 所示。

Table 1 Experimental environmental parameters表1 實驗環境參數

3.2 評價指標

為了對分類模型效果進行有效評測,本研究使用準確比(Accuracy)、精確比(Precision)、查全比(Recall)和F1 值(F1)這4 項測評標準,各測評標準公式分別如式(3)、(4)、(5)、(6)所示。

TP(True Positive)為把正樣本識別成正類的個數,TN(True Negative)為把負樣本識別成負類的個數,FP(False Positive)為把負樣本識別成正類的個數,FN(False Negative)為把正樣本識別成負類的個數。

3.3 結果分析

本研究設計多個模型進行對比,其中傳統機器學習模型為SVM、Bayes 和Logistic Regression(LR),深度學習模型為XL-GSAtMSC,對比結果如表2 所示。

Table 2 Model results表2 模型結果

從表2 可以看出,傳統機器學習模型SVM、Bayes 和LR在評論情感多分類任務中各類評價指標數據相近,而本文提出的改進深度學習模型XL-GSAtMSC 在相同任務中各類評價指標數據均高于機器學習模型10%左右。由此可見,XL-GSAtMSC 對商品評論的情感多分類具有較好的實用性和較高的準確性。

4 結語

本文提出的XL-GSAtMSC 模型著重于CNN 與RNN 改進內部結構的優化設計,并基于XLNet 改進文本矩陣化表示方式。從研究結果可以看出,該模型較傳統情感詞典和機器學習方法有很大優勢,既克服了傳統情感詞典方法中領域詞典不足的缺陷,又不用人為提取特征,預測結果得到很大提升,證明該模型可行及具有實用性。但本研究尚未與基于CNN 與RNN 改進的其它模型進行實驗和比較,后續將從該方向拓展。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 58av国产精品| 久久99热这里只有精品免费看| 亚洲动漫h| 91精品伊人久久大香线蕉| 国产91小视频在线观看| 91小视频在线观看免费版高清| 在线观看免费人成视频色快速| 国产成人精品高清不卡在线| 国产精品久久久精品三级| 日本亚洲最大的色成网站www| 三上悠亚一区二区| 99热最新网址| 欧美色伊人| 婷婷中文在线| 欧美高清视频一区二区三区| 国产人成在线观看| 亚洲床戏一区| 无码中文AⅤ在线观看| 亚洲二区视频| 国产微拍一区| 中文字幕色站| 亚洲国产精品不卡在线| 免费aa毛片| 2021无码专区人妻系列日韩| 久无码久无码av无码| 亚洲日韩高清在线亚洲专区| 97精品伊人久久大香线蕉| 在线欧美日韩| 乱系列中文字幕在线视频| 成人韩免费网站| 国产精品亚欧美一区二区三区 | 亚洲欧美日韩精品专区| 欧美亚洲一区二区三区导航| 女人18一级毛片免费观看| 亚洲国产av无码综合原创国产| 精品无码国产自产野外拍在线| 欧美日本二区| 伊人狠狠丁香婷婷综合色| 久久精品国产999大香线焦| 永久在线精品免费视频观看| 色综合久久综合网| 国产精欧美一区二区三区| 又爽又大又光又色的午夜视频| 免费毛片视频| 亚洲清纯自偷自拍另类专区| 国产女人在线视频| 欧美、日韩、国产综合一区| 亚洲国产午夜精华无码福利| 亚洲无码在线午夜电影| 在线国产你懂的| 久久青草免费91线频观看不卡| 青草视频久久| 999福利激情视频| 国产资源免费观看| 91无码网站| 福利在线一区| 91久久偷偷做嫩草影院| 国产在线98福利播放视频免费| 九九久久精品免费观看| 91久久天天躁狠狠躁夜夜| 午夜精品福利影院| 91网在线| 国产成人精品免费视频大全五级 | 91精品国产91久无码网站| 中文字幕1区2区| 免费aa毛片| 亚洲一区无码在线| 五月婷婷丁香综合| 美女免费黄网站| 欧美69视频在线| 色欲综合久久中文字幕网| 777国产精品永久免费观看| 天天激情综合| 国产精品尤物铁牛tv | 宅男噜噜噜66国产在线观看| 99久久人妻精品免费二区| 毛片一区二区在线看| 亚洲天堂久久| 波多野结衣无码AV在线| 2021国产在线视频| 97色婷婷成人综合在线观看| 伊伊人成亚洲综合人网7777|