摘 要: 隨著社交網(wǎng)絡(luò)平臺的廣泛使用,涌現(xiàn)出大量蘊涵豐富情感信息的在線評論文本,分析評論中表達的情感對企業(yè)、平臺等具有重要意義。為了解決目前針對在線評論短文本情感分析中存在特征提取能力弱以及忽略短文本本身情感信息的問題,提出一種基于文本情感值加權(quán)融合字詞向量表示的模型——SVW-BERT模型。首先,基于字、詞級別向量融合表示文本向量,最大程度獲取語義表征,同時考慮副詞、否定詞、感嘆句及疑問句對文本情感的影響,通過權(quán)值計算得到文本的情感值,構(gòu)建情感值加權(quán)融合字詞向量的中文短文本情感分析模型。通過網(wǎng)絡(luò)平臺在線評論數(shù)據(jù)集對模型的可行性和優(yōu)越性進行驗證。實驗結(jié)果表明,字詞向量融合特征提取語義的能力更強,同時情感值加權(quán)句向量考慮了文本本身蘊涵的情感信息,達到了提升情感分類能力的效果。
關(guān)鍵詞: 在線評論; 情感分析; 字詞向量; BERT; 情感值; 支持向量機
中圖分類號: TP391"" 文獻標(biāo)志碼: A
文章編號: 1001-3695(2022)01-005-0031-06
doi:10.19734/j.issn.1001-3695.2021.06.0253
Chinese online comments sentiment analysis based on weighted char-word mixture word representation
Zhang Xiaoyan, Bai Yu
(College of Computer Science amp; Technology, Xi’an University of Science amp; Technology, Xi’an 710600, China)
Abstract: The widespread use of social networking platforms has led to the emergence of emotionally rich online comment texts,analyzing the emotions expressed in comments is of great significance to companies,platforms,etc.In order to solve the current problem of weak feature extraction ability and ignoring the emotional information of short text in online comment short text sentiment analysis,this paper proposed a model based on text sentiment value weighted char-word mixture word representation-SVW-BERT.First,it based on the fusion of character and word level vectors represented text vectors for maximizing semantic representation.At the same time,considering the influence of adverbs,negative words,exclamation sentences and interrogative sentences on the sentiment of the text,it used the weight to calculate the sentiment value of the text,and constructed sentiment analysis model of Chinese short text based on text sentiment value weighted char-word mixture word representation.Through the network platform online reviews data set,it validated the feasibility and the advantages of the model.The experimental results show that the char-word mixture word representation is stronger in semantic extraction,and the sentiment value weighted sentence vector considers the sentiment information contained in the text itself,which achieves the effect of improving the ability of sentiment classification.
Key words: online comments; sentiment analysis; char-word representation; BERT; sentiment value; SVM
0 引言
在當(dāng)前互聯(lián)網(wǎng)飛速發(fā)展的推動下,網(wǎng)絡(luò)不僅是人們獲取信息的重要渠道,也成為了人們表達觀點、抒發(fā)各種情感的主要平臺。因此,越來越多帶有強烈主觀情感的文本以及評論文章等出現(xiàn)在人們的視野中,僅僅靠人工來識別情感色彩已經(jīng)不能滿足時代的要求。如何實現(xiàn)對這些評論以及文本中蘊涵的情感進行自動、高效的分析,成為人們關(guān)注的熱點,文本情感分析技術(shù)應(yīng)運而生。在商業(yè)案例中,情感分析技術(shù)也成為各企業(yè)、平臺的實用工具,通過使用該技術(shù)挖掘評論信息中客戶對企業(yè)業(yè)務(wù)、產(chǎn)品設(shè)計的情感信息,在企業(yè)發(fā)展和改進中展現(xiàn)出巨大的現(xiàn)實意義。
文本情感分析也叫情感傾向性分析、意見挖掘,是綜合自然語言處理、文本挖掘、計算機和語言學(xué)等技術(shù)對評論或文本中所蘊涵的情感進行識別、提取和分析。目前,針對情感分析的研究層出不窮。從研究方法來看,可分為基于情感詞典[1]、基于傳統(tǒng)機器學(xué)習(xí)[2]以及基于深度學(xué)習(xí)[3]的文本情感分析。
針對文本情感分析的研究,基于情感詞典的情感分析方法根據(jù)構(gòu)造的情感詞典,通過簡單的統(tǒng)計或權(quán)值算法計算句子的情感得分,從而判斷文本的情感極性。Hutto等人[4]提出了一種基于人工整理匯總的Twitter中頻繁使用的情感詞的詞庫的文本情感識別方法,該方法考慮語法規(guī)則對情感傾向的作用。王志濤等人[5]在40余萬條微博評論數(shù)據(jù)支持下擴充情感詞典,并將常用的表情符號賦予語義信息,結(jié)合情感詞典及語法規(guī)則實現(xiàn)微博評論的情感分類任務(wù)。基于情感詞典的情感分析實現(xiàn)簡單并可以很好地鎖定文本的情感信息,但分析結(jié)果過于依賴于構(gòu)造情感詞典的質(zhì)量,并且忽略了文本的上下文信息。
基于傳統(tǒng)機器學(xué)習(xí)的方法首先通過特征工程將文本映射為多維向量,其次使用樸素貝葉斯、最大熵或支持向量機等分類模型進行特征學(xué)習(xí),實現(xiàn)文本情感的分類。Kiritchenko等人[6]基于支持向量機分類算法在SemEval2014數(shù)據(jù)集上進行了情感分類的研究,在方面級的情感分析任務(wù)中表現(xiàn)優(yōu)異。楊爽等人[7]從文本的詞性、情感、句式、語義四個方面,提取動詞、情感詞等14個語義特征,基于SVM分類算法實現(xiàn)劃分更細致的情感五級分類?;跈C器學(xué)習(xí)的方法需要大量的訓(xùn)練語料與復(fù)雜的樣本特征抽取,以獲取較高的分類準(zhǔn)確率,但傳統(tǒng)的機器學(xué)習(xí)方法多基于詞袋模型表示文本特征,不能充分獲取文本中的情感信息。
基于深度學(xué)習(xí)的情感分析方法可以自動學(xué)習(xí)語義特征,通過詞嵌入方法將文本表示為向量矩陣的形式,避免了大量的特征提取過程[8],然后輸入到深度神經(jīng)網(wǎng)絡(luò)模型中根據(jù)訓(xùn)練數(shù)據(jù)對網(wǎng)絡(luò)進行訓(xùn)練。隨著神經(jīng)網(wǎng)絡(luò)語言模型的廣泛應(yīng)用,張冬雯等人[9]結(jié)合word2vec[10]和SVMperf兩類工具,采用擴充情感詞典的方法,在服裝評論情感分析中取得了很好的效果。厙向陽等人[11]提出了一種基于句子情感得分加權(quán)句向量的方法,對中文在線評價進行情感分析。Wang等人[12]基于word2vec獲取文本向量,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提出了一種基于局部CNN-LSTM模型的連續(xù)維度型情感分析策略,該模型利用CNN模型提取句中的情感信息,利用LSTM模型獲得局部語言邏輯關(guān)系即句間的情感信息。基于深度學(xué)習(xí)的情感分析,可以自動學(xué)習(xí)語義特征,但針對網(wǎng)絡(luò)中語義模糊的短文本,該方法難以進行有效的訓(xùn)練,從而影響情感分析的性能[13]。
針對文本的向量化表示方法的研究,基于word2vec神經(jīng)網(wǎng)絡(luò)語言模型可得到文本的詞向量表示,但該模型只考慮了局部信息,未考慮到全局信息對詞向量訓(xùn)練的影響。為此,Pennington等人[14]提出了GloVe模型基于全局詞匯共現(xiàn)的統(tǒng)計信息來對共現(xiàn)矩陣降維得到詞向量,將統(tǒng)計信息和局部上下文窗口方法的優(yōu)點結(jié)合起來,但是利用該模型生成的詞向量與其上下文無關(guān),因此無法處理一詞多義的情況?;诖?,BERT8[15]模型應(yīng)運而生,該模型可以動態(tài)編碼詞向量,有效解決了一詞多義的問題。在該模型基礎(chǔ)上,蘇劍林[16]在2020年開源了以詞為單位的中文BERT模型——WoBERT模型,相比于字義的不確定性,詞義的不確定性更低,可以降低模型的復(fù)雜度。
針對目前網(wǎng)絡(luò)平臺上廣泛存在的在線評論短文本進行情感分析,由于文本較短存在提取特征信息不足且忽略短文本本身所蘊涵的情感信息的問題,本文同時考慮BERT模型在特征提取方面,文本字詞向量結(jié)合在語義表征方面、文本情感值在情感信息表達方面上的優(yōu)勢,提出一種針對中文短文本的基于BERT模型的文本情感值加權(quán)融合字詞向量表示的情感分析模型——SVW-BERT模型。分別基于BERT、WOBERT模型獲取字、詞級別兩種粒度的文本向量表示并將兩種向量進行處理融合,通過情感詞典計算文本情感值并進行加權(quán)文本向量表示,既能夠動態(tài)獲取字詞級別的語義信息,又可以考慮句子本身的情感信息。
1 相關(guān)理論與方法
1.1 短文本情感值計算
短文本情感值的計算基于情感詞典的情感分析方法實現(xiàn),根據(jù)統(tǒng)計或權(quán)值算法計算句子的情感值,通過情感值的正負來辨別文本信息的情感極性,由于這是一種無監(jiān)督學(xué)習(xí)的方法且實現(xiàn)簡單,所以應(yīng)用廣泛[17]。本文結(jié)合現(xiàn)有的情感詞典,同時考慮否定詞、程度副詞、感嘆句、疑問句的影響,對文本遍歷情感詞典找出情感詞,以每個情感詞為中心構(gòu)造情感詞組,向前尋找修飾該情感詞的程度副詞和否定詞,該情感詞的分?jǐn)?shù)乘以副詞的權(quán)值得到該情感詞組的分?jǐn)?shù),最后將句中所有的情感詞組的分?jǐn)?shù)相加獲取句子的情感值。
本文基于BosonNLP情感詞典,該詞典包含社交網(wǎng)絡(luò)中常用的詞語以及該詞的情感分?jǐn)?shù),程度副詞、否定詞整理自知網(wǎng)。
1.1.1 否定詞處理
否定詞修飾情感詞會造成文本情感傾向性的變化。修飾情感詞的否定詞的個數(shù)會影響到情感詞組的情感值:當(dāng)否定詞個數(shù)為奇數(shù)時,得到情感分?jǐn)?shù)的相反數(shù);反之,情感分?jǐn)?shù)不變。
1.1.2 程度副詞處理
文本中的程度副詞表現(xiàn)了情感的強度,根據(jù)不同強度賦予程度副詞不同的權(quán)值,根據(jù)知網(wǎng)整理的程度副詞主要分為most、over、very、more、ish、insufficiently,表示情感強度依次減弱,程度副詞如表1所示。
1.1.3 感嘆句處理
感嘆句包含有強烈的情感信息。在進行情感值計算時,如句末有感嘆號,則向前找到最近的情感詞,并給該情感詞的情感分?jǐn)?shù)乘以“!”的權(quán)值。將“!”的權(quán)值設(shè)為2。
1.1.4 疑問句處理
針對評論信息的處理中,問號的出現(xiàn)一般與感嘆號作用類似,起到強調(diào)情感態(tài)度的作用。因此,對于句末有問號的情感值的計算方法與感嘆號類似,將“?”的權(quán)值設(shè)為2。
1.2 BERT預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型是通過訓(xùn)練大型基準(zhǔn)的數(shù)據(jù)集得到的深度學(xué)習(xí)架構(gòu),將大型文本語料庫進行預(yù)訓(xùn)練得到上下文相關(guān)的文本的向量表示,該架構(gòu)在各種NLP任務(wù)的改進中都發(fā)揮了非常大的作用[18]。隨著預(yù)訓(xùn)練模型的廣泛研究,各種預(yù)訓(xùn)練模型層出不窮,例如EMLo[19]、ULMFiT[20]。而目前最具影響力的模型是基于Transformer[21]模型搭建的雙向深度語言模型——BERT模型,其結(jié)構(gòu)如圖1所示。其中E1,E2,…,EN為模型的輸入向量,Trm為Transformer編碼器,T1,T2,…,TN為模型的輸出向量。
BERT由多層雙向Transformer構(gòu)成,模型包括兩個無監(jiān)督預(yù)訓(xùn)練任務(wù):a)masked語言模型(masked language model),將訓(xùn)練語料中的80%的單詞用[MASK]替換,10%進行隨機替換,剩下的10%保持不變;b)下一句預(yù)測(next sentence prediction),將語料中的句子分為A和B,B中的50%是A中的下一句,剩下的50%是隨機句子。
1.3 支持向量機分類算法
支持向量機是由Vapnik等人研究的對線性分類器的最佳設(shè)計準(zhǔn)則,它在二分類任務(wù)中表現(xiàn)較為優(yōu)秀,因此在文本分析中被廣泛使用。支持向量機(SVM)算法的思路是給定樣本及其對應(yīng)的類別標(biāo)簽,通過訓(xùn)練學(xué)習(xí)找尋一個最優(yōu)的分離超平面,將兩種類別的樣本進行正確分類,使類內(nèi)差別最小,分類間隔最大。原理如下:
3.3 實驗方案與結(jié)果
本文設(shè)計三組對比實驗,分別在數(shù)據(jù)集上分析二分類情感分析的性能。第一組實驗驗證本文模型中字、詞向量表示在各分類器的情感分類能力;第二組實驗在第一組實驗的基礎(chǔ)上驗證本文提出的情感值加權(quán)句向量方法的優(yōu)越性;第三組實驗對比本文提出的情感分析模型與其他模型的綜合性能。實驗均選取數(shù)據(jù)集的80%作為訓(xùn)練樣本集,20%作為測試樣本集。
3.3.1 驗證融合字、詞向量表示能力實驗及結(jié)果
基于Data 1某外賣平臺在線評論數(shù)據(jù)集,針對文本的向量表示方法,設(shè)計五個實驗方案進行對比實驗。根據(jù)不同的文本向量表示方法計算文本的句向量,在支持向量機(SVM)、邏輯斯蒂回歸(LR)、決策樹(DT)、K近鄰分類算法(KNN)等分類器上進行訓(xùn)練并觀察其分類結(jié)果。
a)word2vec:通過word2vec模型得到文本的基于詞級別的向量表示,對詞向量求平均得到文本的句向量表示,在各分類器上進行情感傾向性訓(xùn)練分類。
針對word2vec的預(yù)訓(xùn)練,采用大小約為8.01 GB的維基百科中文語料庫,對其進行數(shù)據(jù)清洗并使用OpenCC工具將正文繁體轉(zhuǎn)簡體,通過jieba工具進行分詞操作并去除停用詞和標(biāo)點符號,最終生成大小約為1 GB的文本作為模型訓(xùn)練的語料庫。
b)BERT:通過BERT預(yù)訓(xùn)練模型得到文本的基于字級別的向量表示,根據(jù)本文方法計算得到基于字級別的句向量后將其輸入到各分類器進行情感傾向性訓(xùn)練分類。
c)BERT+WoBERT_sum:分別通過BERT、WoBERT預(yù)訓(xùn)練模型得到文本的基于字、詞級別的向量表示,分別計算得到基于字、詞級別的句向量并進行句向量求和,將得到的新句向量輸入到各分類器進行情感傾向性訓(xùn)練分類。
d)BERT+WoBERT_mean:與方案c)類似,在得到基于字、詞級別的句向量后進行句向量求平均,并將求平均后的新的句向量輸入到各分類器進行情感傾向性訓(xùn)練分類。
e)BERT+WoBERT_concat:與方案c)類似,在得到基于字、詞級別的句向量后進行句向量連接,并將連接后的新的句向量輸入到各分類器進行情感傾向性訓(xùn)練分類。
將數(shù)據(jù)集Data 1分別根據(jù)上述五個方案進行實驗,針對各分類器的準(zhǔn)確率對比分析,在測試集上的實驗結(jié)果文本向量表示能力如表3所示。
實驗結(jié)果顯示,本文提出的基于字詞級別句向量的融合方法結(jié)合SVM分類器,能較好地提高語義表征能力,帶來一定分類能力的提升。同時,在其他分類器上,本文的文本向量表示方法也有著不錯的分類效果。
3.3.2 驗證句向量加權(quán)情感值分類能力實驗及結(jié)果
基于Data 1某平臺外賣在線評論和Data 2在線購物評論數(shù)據(jù)集,設(shè)計五個實驗方案與本文提出的情感值加權(quán)句向量的方法進行對比實驗并分析結(jié)果。
a)word2vect+SVM:基于維基百科訓(xùn)練的word2vec詞向量,抽取并平均化計算文本的句向量,作為SVM分類器的輸入進行訓(xùn)練分類。
b)BERT+SVM:基于BERT預(yù)訓(xùn)練模型得到文本的基于字級別的向量表示,根據(jù)本文方法計算得到基于字級別的句向量后將其作為SVM分類器的輸入進行情感傾向性訓(xùn)練分類。
c)W-BERT+SVM:基于已驗證的BERT+WoBERT_concat方法,得到融合字詞向量的句向量作為SVM分類器的輸入進行情感傾向性訓(xùn)練分類。
d)Sword2vect+SVM:參考文獻[11]所提出的模型搭建而成,基于知網(wǎng)整理的積極、消極情感詞典進行文本情感值計算,將情感值加權(quán)后的句向量輸入到SVM分類器進行情感傾向性訓(xùn)練分類。
e)Bword2vect+SVM:參考文獻[11]所提出的模型搭建而成,采用本文的情感值計算方法并進行句向量加權(quán),將加權(quán)后的句向量輸入到SVM分類器進行情感傾向性訓(xùn)練分類。
f)SVW-BERT+SVM:本文提出的SVW-BERT將加權(quán)融合字詞向量的句向量輸入到SVM分類器進行情感傾向性訓(xùn)練分類。
將Data 1和Data 2分別根據(jù)上述六個方案進行實驗,針對方案的準(zhǔn)確率Acc、精確率P、召回率R、F1值和AUC值進行對比分析。在數(shù)據(jù)集的測試集上的實驗結(jié)果如表4所示,圖3為Data 1實驗方案的ROC曲線,圖4為Data 2實驗方案的ROC曲線。
實驗結(jié)果表明,本文所提出的SVW-BERT模型在兩組數(shù)據(jù)集上相比于其他五個模型綜合表現(xiàn)均突出。
針對兩個數(shù)據(jù)集的前三組實驗中BERT方法動態(tài)獲取文本的字向量表示,較word2vect方法的靜態(tài)詞向量表示方法的表現(xiàn)好,但卻忽略了文本中字所蘊涵的信息,較融合字詞向量的W-BERT方法在語義獲取的能力上表現(xiàn)差,但W-BERT方法忽略了文本本身的情感信息。后三組實驗充分考慮文本的情感信息,對比情感值加權(quán)文本句向量方法的綜合表現(xiàn)。從表中可以看出,情感值加權(quán)句向量的方法在兩個數(shù)據(jù)集上的表現(xiàn)均明顯優(yōu)于未加權(quán)情感值方法的表現(xiàn),證明了情感值加權(quán)文本向量表示的正確性。
針對文本情感值計算方法設(shè)計Sword2vect和Bword2vect方法進行對比,從Data 1數(shù)據(jù)集的實驗結(jié)果可看出,雖然兩種方法較基礎(chǔ)的word2vect方法在情感分析任務(wù)上的表現(xiàn)好,但Sword2vect在F1值、ACC值提升了1.15%、1.18%,而Bword2vect則均提升了9.52%,實驗證明本文使用的情感值計算方法能夠更好地表示文本的情感信息。但Bword2vect在文本向量表示中忽略了字的含義且得到的向量表示為靜態(tài)詞向量,無法動態(tài)獲取上下文信息。SVW-BERT模型針對以上問題進行改進,采用動態(tài)調(diào)整的字、詞向量并融合來表示語義信息,情感值加權(quán)語義特征增強了模型對情感信息的識別與利用。實驗結(jié)果表明,該模型在Data 1數(shù)據(jù)集上較其他五個模型F1值分別提高了11.98%、5.88%、5.23%、10.83%、2.46%,AUC值分別提高了8.34%、3.85%、3.43%、7.93%、1.49%,在數(shù)據(jù)量更大的數(shù)據(jù)集Data 2上也取得了最優(yōu)結(jié)果。
3.3.3 分類模型實驗與分析
為了驗證本文提出的SVW-BERT模型的優(yōu)越性,基于Data 3酒店在線評論數(shù)據(jù)集,將本文模型和典型的分類模型進行對比實驗并分析結(jié)果。
a)CNN:采用word2vec模型進行文本向量表示,基于卷積神經(jīng)網(wǎng)絡(luò)模型進行情感傾向性訓(xùn)練分類。
b)BiLSTM-CNN:基于文獻[22]提出結(jié)合BiLSTM 和CNN的方法,由word2vec模型進行文本向量表示經(jīng)BiLSTM 處理后,使用CNN進行語義特征提取,完成情感傾向性訓(xùn)練分類。
c)SVM:基于維基百科訓(xùn)練的word2vec詞向量,抽取并平均化計算文本的句向量,作為SVM分類器的輸入進行訓(xùn)練分類。
d)BERT-CNN:文獻[23]提出的BERT-CNN模型在BERT模型后經(jīng)CNN層提取語義特征,進行情感分析任務(wù)。
e)BERT+SVM:基于BERT模型文本向量表示,得到基于字級別的句向量后將其作為SVM分類器的輸入進行情感傾向性訓(xùn)練分類。
f)SVW-BERT:本文提出的SVW-BERT模型通過BERT模型得到融合字詞特征的文本向量表示,情感值加權(quán)充分獲取文本的情感信息,將加權(quán)融合字詞向量表示的句向量輸入到SVM分類器進行情感傾向性訓(xùn)練分類。
將Data 3根據(jù)上述六個方案進行實驗,針對方案的準(zhǔn)確率Acc、精確率P、召回率R、F1值進行對比分析。在數(shù)據(jù)集的測試集上的實驗結(jié)果如表5所示。
由表5可見,與傳統(tǒng)的分類模型相比,基于BERT模型在測試集上的分類性能均具有更優(yōu)表現(xiàn)。CNN、BiLSTM-CNN、SVM在測試集的F1值分別為79.21%、81.12%和82.44%。基于BERT模型中表現(xiàn)稍弱的BERT-CNN模型相比傳統(tǒng)分類模型,F(xiàn)1值均有提高且分別提高了3.82%、1.91%和0.59%。而本文提出的SVW-BERT模型相比于其他兩組基于BERT模型的分類模型,在F1值上分別提高了5.14%和2.39%。實驗結(jié)果表明,本文提出的SVW-BERT模型在測試集上都取得了比其他分類模型更好的效果,驗證了本文模型的優(yōu)越性。
4 結(jié)束語
針對短文本情感分析任務(wù),本文基于BERT模型提出一種文本情感值加權(quán)融合字詞向量表示的情感分析模型——SVW-BERT模型?;贐ERT及其變體WoBERT獲取文本的字、詞級別向量表示,一方面,基于BosonNLP情感詞典計算文本情感值并進行簡單數(shù)據(jù)處理,另一方面,分別基于文本的字詞級別的向量表示計算相應(yīng)的句向量,進行基于字詞級別句向量的融合,得到融合字詞特征的語義信息;最后進行情感值加權(quán)融合字詞特征的句向量,利用SVM分類器實現(xiàn)情感分類。實驗結(jié)果表明,相比其他文本向量表示方法,融合字詞特征的文本向量能夠更好地表征語義信息,而情感值的加權(quán)提高了模型獲取文本情感信息的能力,在情感分析任務(wù)中表現(xiàn)更優(yōu)。
參考文獻:
[1]Naragund G H,Santhosh K,Majumdar J.Development of decision making and analysis on customer reviews using sentiment dictionary for human-robot interaction[J].International Journal of Advanced Research in Computer and Communication Engineering,2015,4(8):387-391.
[2]Mullen T,Collier N.Sentiment analysis using support vector machines with diverse information sources[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2004.
[3]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[4]Hutto C J,Gilbert E.VADER:a parsimonious rule-based model for sentiment analysis of social media text[C]//Proc of the 18th International AAAI Conference on Weblogs and Social Media.2015.
[5]王志濤,於志文,郭斌,等.基于詞典和規(guī)則集的中文微博情感分析[J].計算機工程與應(yīng)用,2015,51(8):218-225. ( Wang Zhitao,Yu Zhiwen,Guo Bin,et al.Chinese Weibo sentiment analysis based on dictionary and rule set[J].Computer Engineering and Applications,2015,51(8):218-225.)
[6]Kiritchenko S,Zhu Xiaodan,Cherry C,et al.NRC-Canada-2014:detecting aspects and sentiment in customer reviews[C]//Proc of the 8th International Workshop on Semantic Evaluation.2014.
[7]楊爽,陳芬.基于SVM多特征融合的微博情感多級分類研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2):73-79. (Yang Shuang,Chen Fen.Study on multi-level classification of weibo sentiment based on SVM multi-feature fusion[J].Data Analysis and Knowledge Discovery,2017,1(2):73-79.)
[8]蔣盛益,郭林東,王連喜,等.評價對象抽取研究綜述[J].自動化學(xué)報,2018,44(7):1165-1182. (Jiang Shengyi,Guo Lindong,Wang Lianxi,et al.Review of the research on evaluation object extraction[J].Acta Automatica Sinica,2018,44(7):1165-1182.)
[9]張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評論情感分類研究[J].計算機科學(xué),2016,43(S1):418-421,447. (Zhang Dongwen,Yang Pengfei,Xu Yunfeng.Research on sentiment classification of Chinese reviews based on word2vec and SVMperf[J].Computer Science,2016,43(S1):418-421,447.)
[10]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems.2013.
[11]厙向陽,楊瑞麗,董立紅.基于Sword2vect的中文在線商品評價情感分析[J].西安科技大學(xué)學(xué)報,2020,40(3):132-139. (She Xiangyang,Yang Ruili,Dong Lihong.Sentiment analysis of Chinese online product evaluation based on Sword2vect[J].Journal of Xi’an University of Science and Technology,2020,40(3):132-139.)
[12]Wang Jin,Yu L C,Lai K R,et al.Dimensional sentiment analysis using a regional CNN-LSTM model[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Berlin:Springer,2016:225-230.
[13]戚天梅,過弋,王吉祥,等.基于機器學(xué)習(xí)的外匯新聞情感分析[J].計算機工程與設(shè)計,2020,41(6):1742-1748. (Qi Tianmei,Guo Yi,Wang Jixiang,et al.Sentiment analysis of foreign exchange news based on machine learning[J].Computer Engineering and Design,2020,41(6):1742-1748.)
[14]Pennington J,Socher R,Manning C D.GloVe:global vectors for word representation[C]//Proc of Conference on Empirical Methods in Na-tural Language Processing.2014:1532-1543.
[15]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018).https://arxiv.org/abs/1810.04805.
[16]蘇劍林.提速不掉點:基于詞顆粒度的中文WoBERT[EB/OL].(2020-09-18).https://kexue.fm/archives/7758. (Su Jianlin.Speed up without losing points:Chinese WoBERT based on word granularity[EB/OL].(2020-09-18).https://kexue.fm/archives/7758.)
[17]丁森華,邵佳慧,李春艷,等.文本情感分析方法對比研究[J].廣播電視信息,2020(4):92-96. (Ding Senhua,Shao Jiahui,Li Chunyan,et al.Comparative study of text sentiment analysis methods[J].Radio and Television Information,2020(4):92-96.)
[18]Dai A M,Le Q V.Semi-supervised sequence learning[EB/OL]. (2015-11-05).https://arxiv.org/abs/1511.01432.
[19]Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[EB/OL].(2018).https://arxiv.org/abs/ 1802.05365.
[20]Howard J,Ruder S.Universal language model fine-tuning for text classification[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018.
[21]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.2017:5998-6008.
[22]Zhao H,Wang Liya,Wang W J.Text sentiment analysis based on BiLSTM-CNN serial hybrid model[J].Journal of Computer Applications,2020,40(1):16-22.
[23]Dong Junchao,He Feijuan,Guo Yunchuan,et al.A commodity review sentiment analysis based on BERT-CNN model[C]//Proc of the 5th International Conference on Computer and Communication Systems.2020.