999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的短文本情感分析

2021-08-04 21:51:54周孝輝
中國新通信 2021年8期
關(guān)鍵詞:特征文本情感

周孝輝

【摘要】? ? 近些年中國電影市場飛速發(fā)展,僅2021年春節(jié)檔電影票房就破百億,國內(nèi)用戶選擇影片觀影時會參考豆瓣電影評分,也會表發(fā)影評并打分,由于智能手機的普及,人們大多習(xí)慣在各類手機APP或者網(wǎng)站上發(fā)表評論,這類評論多為短文本,本文旨在通過對影評的情感分析,結(jié)合用戶對電影的評分計算出一個更符合用戶真實想法的電影評分。該評分可以供用戶和影院參考,協(xié)助其做出觀影決策和排片。相比傳統(tǒng)CNN模型,膠囊網(wǎng)絡(luò)在小型數(shù)據(jù)集上可以取得更好的效果,并且有更好的魯棒性以及擬合特征能力。我們先用網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評數(shù)據(jù)并進(jìn)行預(yù)處理,然后將處理好的數(shù)據(jù)輸入到ALBERT層進(jìn)行序列化,再將ALBERT層輸出的文本特征分別輸入到Bi-GRU層和膠囊網(wǎng)絡(luò)層獲取句子全局特征和局部特征并進(jìn)行特征融合,再經(jīng)過全連接層進(jìn)行線性降維,然后將全連接層的輸出結(jié)果輸入到Softmax層進(jìn)行分類得到對應(yīng)情感類別,最后結(jié)合電影的星級評分計算電影的綜合評分。

【關(guān)鍵字】? ? 短文本? ? 情感分析? ? Bi-GRU? ? 膠囊網(wǎng)絡(luò)

引言:

情感分析,也稱為觀點挖掘、意見挖掘、極性分類,本質(zhì)上是一個情感分類問題,主要研究人們對實體的看法、態(tài)度和情感,是自然語言處理領(lǐng)域中的一個重要研究方向。傳統(tǒng)的情感分析方法主要是基于機器學(xué)習(xí),需要復(fù)雜的特征工程,且泛化能力較差,近年來崛起的深度學(xué)習(xí)方法很好的彌補了基于機器學(xué)習(xí)方法的缺陷,成為了情感分析的主流方法。

主流的深度學(xué)習(xí)方法,大多基于CNN模型或者RNN模型,存在著諸多不足:CNN獲取信息能力取決于卷積核窗口長度,捕獲能力有限,且不能學(xué)習(xí)上下文信息;RNN容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。由于這些原因,膠囊網(wǎng)絡(luò)(Capsule Network)、長短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)等變體開始流行。本文提出一種基于深度學(xué)習(xí)的短文本情感分析方法。

一、模型結(jié)構(gòu)

情感分析屬于自然語言處理領(lǐng)域,本文提出的模型結(jié)構(gòu)如圖1所示,主要分為以下模塊:

1.文本預(yù)處理模塊:通過網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評T,進(jìn)行清洗和預(yù)處理操作使文本結(jié)構(gòu)化得到數(shù)據(jù)T1,預(yù)處理操作包括去特殊符號、去英文、去數(shù)字、去停用詞和中文分詞。

2.詞向量嵌入模塊:使用預(yù)訓(xùn)練好的ALBERT模型對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行序列化,得到文本對應(yīng)的序列S。

3.征提取模塊:包括Bi-GRU層、膠囊網(wǎng)絡(luò)層和特征融合層,其中Bi-GRU層提取文本的全局特征,將序列S分別輸入前向GRU層和后向GRU層中進(jìn)行訓(xùn)練得到向量表示和,將兩者疊加得到向量F1;膠囊網(wǎng)絡(luò)層用于提取文本的局部特征,將序列S輸入到膠囊網(wǎng)絡(luò)層,使用動態(tài)路由算法進(jìn)行特征提取,得到特征向量F2;特征融合層,將特征向量F1和F2向量進(jìn)行特征融合,得到新的特征向量F3。

4.全連接層:用于將上一層輸出F3全連接至本層的輸出神經(jīng)元,輸出一個特征向量V。

5.Softmax分類層:用于將全連接層輸出的特征向量V進(jìn)行歸一化,得到文本對應(yīng)每一類的概率矩陣M,M的最大值索引即文本對應(yīng)的情感標(biāo)簽,包括好評,中評和差評,分別對應(yīng)數(shù)值“5”,“3”和“1”。

6.輸出層:綜合用戶對影片的評分和文本對應(yīng)的情感標(biāo)簽對影片進(jìn)行評價,用戶對影片的打分為X1,如果評分缺失設(shè)定X1為0,基于情感分析的影評評分為X2,影片的最終評分計算公式如下:

二、算法介紹

2.1 文本預(yù)處理

2.1.1網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲技術(shù),也叫爬蟲程序,是自動搜索并下載互聯(lián)網(wǎng)資源的程序或腳本。通常可以分為四類:主題網(wǎng)絡(luò)爬蟲、通用網(wǎng)絡(luò)爬蟲、增量式爬蟲和深層網(wǎng)絡(luò)爬蟲。本方法使用的主題爬蟲能只抓取預(yù)定義主題相關(guān)的頁面,避免了無效信息的干擾。

網(wǎng)絡(luò)爬蟲可以用JAVA、PHP、Python等各種語言實現(xiàn),由于Python擁有腳本語言中最豐富的類庫,我們使用Python的Selenium庫模擬主流瀏覽器的運行,實現(xiàn)模擬登陸、自動翻頁,自動點擊等交互操作。

2.1.2去停用詞

文本中存在著大量與文章主題無關(guān)的字母、標(biāo)點、助詞等,如“你”、“了”、“的”等,進(jìn)行預(yù)處理時將這些刪除以免對文本分類結(jié)果造成影響。

2.1.3中文分詞

詞對于中文來說是表示語義的最小單元,和英文用空格隔開不同,詞與詞之間沒有天然分隔,對于計算機理解較困難,分詞尤為重要。我們選用的jieba分詞工具,是一種免費開源的分詞工具,支持精確模式、全模式和搜索引擎模式三種分詞模式:精確模式, 試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對長詞再詞切分,提高召回率,適合用于搜索引擎分詞。

2.2 ALBERT

常用的Word2Vec模型只考慮了文本的局部信息,Pennington等為了克服其缺陷提出的Glove模型,雖然同時考慮了局部與整體信息,但本質(zhì)上仍然是靜態(tài)的詞向量,舍棄了大量的位置信息。Devlin等人2018年提出的BERT(Bidirectional Encoder Representations from Transformers)是一種動態(tài)詞嵌入技術(shù),在NLP領(lǐng)域的11個方向大幅刷新了精度,但是其所需訓(xùn)練時間較長,會導(dǎo)致內(nèi)存不足等問題。

ALBERT(A Lite BERT)模型是基于BERT模型的一種輕量級預(yù)訓(xùn)練語言模型,其和BERT一樣采用雙向Transformer獲取文本特征表示,但通過嵌入層參數(shù)因式分解和跨層參數(shù)共享大幅減少了模型參數(shù),降低了訓(xùn)練時的內(nèi)存開銷并提升了訓(xùn)練速度。

2.3 Bi-GRU

RNN(Recurrent Neural Network)容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象,LSTM(Long Short-Term Memory)和Bi-GRU(Bidirectional Gated Recurrent Unit)通過引入門控機制緩解了這兩個問題。GRU相較LSTM只有更新門zt和重置門rt兩個門控單元,模型訓(xùn)練時間更短。

本方法使用的Bi-GRU,是一種雙向的基于門控的循環(huán)神經(jīng)網(wǎng)絡(luò),由前向GRU和后向GRU組成,通過兩個方向遍歷文本,得到包含文本上下文的信息,解決了GRU模型只能包含上文信息的問題,同時速度相比其他序列模型有一定提升。

2.4 膠囊網(wǎng)絡(luò)

2011年Hinton等首次提出膠囊網(wǎng)絡(luò)的概念,其用向量膠囊代替卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元、動態(tài)路由機制代替池化操作、Squash函數(shù)代替ReLU激活函數(shù),在圖像識別領(lǐng)域取得了很好的效果。

近年來,人們開始嘗試將膠囊網(wǎng)絡(luò)用于自然語言處理領(lǐng)域,并逐步取得不錯的效果,本方法中膠囊網(wǎng)絡(luò)的動態(tài)路由算法可以動態(tài)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)層之間的關(guān)系并保留句子中出現(xiàn)概率較小的語義特征,保證特征信息的完整性,且其相比CNN有更好的魯棒性以及擬合特征能力。

三、結(jié)束語

本文提出了一種基于深度學(xué)習(xí)的短文本情感分析方法,本方法使用ALBERT預(yù)訓(xùn)練的動態(tài)詞向量代替?zhèn)鹘y(tǒng)的靜態(tài)詞向量,提升了詞向量的表征能力,為之后的分類奠定了很好的基礎(chǔ),很大程度上提高了分類的準(zhǔn)確性;本文使用Bi-GRU負(fù)責(zé)全局特征提取,相比常用的單層或者雙層神經(jīng)網(wǎng)絡(luò)可以得到更好的效果;本文使用膠囊網(wǎng)絡(luò)負(fù)責(zé)局部特征提取,保證特征信息的完整性,速度和魯棒性相比傳統(tǒng)方法有一定提高。

參? 考? 文? 獻(xiàn)

[1] Pawe? Cichosz. A Case Study in Text Mining of Discussion Forum Posts: Classification with Bag of Words and Global Vectors[J]. International Journal of Applied Mathematics and Computer Science,2018,28(4).

[2] LAN Z,CHEN M,GOODMAN S,et al.ALBERT:a lite BERT for self-supervised learning of language representation.

[3]冀文光. 基于Attention-Based Bi-GRU模型的文本分類方法研究[D].電子科技大學(xué),2019.

[4]薛煒明,侯霞,李寧.一種基于word2vec的文本分類方法[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2018,33(01):71-75.

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 97在线视频免费观看| 欧美成一级| 国产麻豆永久视频| 无码一区中文字幕| 欧美色图久久| 五月天丁香婷婷综合久久| 高清欧美性猛交XXXX黑人猛交 | 国产黄网永久免费| 伊人色综合久久天天| 一区二区理伦视频| 区国产精品搜索视频| 丰满少妇αⅴ无码区| lhav亚洲精品| 久久久久免费精品国产| 美女无遮挡免费视频网站| 青青草原偷拍视频| 国产av色站网站| 日本午夜视频在线观看| 手机在线看片不卡中文字幕| 国产欧美日韩视频怡春院| 欧美视频在线播放观看免费福利资源| 就去色综合| 精品人妻一区二区三区蜜桃AⅤ | 欧美a√在线| 国产日韩欧美在线视频免费观看| 99视频在线精品免费观看6| 蜜芽一区二区国产精品| 欧美日韩中文国产va另类| 91小视频在线观看免费版高清| 天天综合网色| AV不卡国产在线观看| 国产精品蜜臀| 美女一区二区在线观看| 波多野结衣无码AV在线| 三区在线视频| 91视频日本| 四虎永久在线视频| 狠狠色丁香婷婷综合| 美美女高清毛片视频免费观看| 无码精品国产dvd在线观看9久| 91亚洲免费视频| 国产毛片基地| 亚洲国产欧美中日韩成人综合视频| 亚洲AV无码一区二区三区牲色| 亚洲精品国产首次亮相| 成色7777精品在线| 精品视频第一页| 97无码免费人妻超级碰碰碰| 高清国产va日韩亚洲免费午夜电影| 黄色a一级视频| 欧美精品亚洲二区| 欧美综合区自拍亚洲综合绿色| a在线亚洲男人的天堂试看| 一级毛片免费观看不卡视频| 伊人久久久久久久| 一级毛片免费观看久| 欧美成人a∨视频免费观看| 国产亚洲精品在天天在线麻豆| 97se亚洲综合在线韩国专区福利| 国产视频a| 综合五月天网| 欧美国产日韩在线| 国产第八页| 色综合成人| 久久这里只有精品66| 欧美日韩在线观看一区二区三区| 91小视频在线观看| AV熟女乱| aa级毛片毛片免费观看久| 免费一看一级毛片| 国产色伊人| 高清无码一本到东京热| 亚洲日韩AV无码一区二区三区人| www.亚洲一区| 国产欧美日韩一区二区视频在线| 亚洲国产第一区二区香蕉| 午夜精品久久久久久久2023| 91久久偷偷做嫩草影院| 无码一区18禁| 波多野结衣在线se| 91香蕉视频下载网站| 2021无码专区人妻系列日韩|