999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探討基于神經網絡的商品評論情感分類

2020-10-26 02:23:59孫慶陽劉磊
科學與信息化 2020年29期

孫慶陽 劉磊

摘 要 隨著計算機技術的飛速發展,自然語言處理在日常生活得到了廣泛應用,同時由于神經網絡地開發和應用,自然語言處理技術在電商平臺上大放異彩。實驗內容為基于在某電商平臺上獲取的某一書籍商品的評論數據,從而對該數據進行情感分類工作。實驗首先利用雙向LSTM算法對文本數據信息進行深層提取,再利用Attention機制將雙向LSTM算法的輸出信息進行整合,最終通過全鏈接層進行分類,從而構建了一種準確度更高的分類模型。實驗結果表明,基于Attention機制處理之后的分類算法取得了96.27%的準確度。

關鍵詞 自然語言處理;文本分類;LSTM;Attention機制

Sentiment Classification Of Commodity Reviews Based On Neural Network

Sun Qingyang, Liu Lei

Anhui University of Technology, Anhui Maanshang 243000

Abstract With the rapid development of computer technology,natural language processing has been widely used in daily life. At the same time,due to the fast development and application of neutral network,natural language processing technology has been playing an important role in e-commerce platform. This paper is exactly based on an e-commerce platform to obtain a book review data,so as to work on the sentimental classification of it. In this paper,firstly,it used the two-way LSTM algorithm to extract the text information in depth. Then,the output information of the algorithm was integrated by making use of Attention mechanism. Finally,classifing it through the full link layer,this paper constructed a classification model with higher accuracy. Experimental results showed that the classification which is based on Attention mechanism achieved high accuracy up to 96.27%.

Keywords Natural language processing; Text classification; LSTM; Attention mechanism

引言

當下隨著人工智能技術發展得火熱,自然語言處理逐漸成為人工智能技術和計算機技術最重要的研究方向之一。從計算機問世至今,人類一直希望計算機可以使用人類的語言和人類進行交互,在自然語言處理技術發展成熟之前,人們一直難以讓計算機理解人類語言詞語中所包含的深層意思,而現如今,隨著機器學習技術和自然語言處理技術地發展,人們可以使用計算機對語言或者文字信息進行定量化地研究,從而可以使人與計算機之間共同使用語言描繪。

隨著互聯網技術地高速發展,人們的生活與互聯網緊密聯系在一起,同時隨著淘寶、天貓、京東商城等一眾互聯網購物平臺得新興,越來越多的人習慣于在這些電商平臺上購買商品。而眾多買家對商品的評價也成為人們對該商品的評判標準之一,購買過該商品的買家會對該商品的質量、使用感受和性價比等要素進行評價。所以對商品評論文本進行情感分析研究具有理論和實際應用價值。

1相關研究

文本情感分析[1]是指對包含了感情色彩的文本進行分析和處理,從而提取文本所包含的深層的信息因素,而文本情感分析也具有較為廣泛的應用前景,現如今,文本情感分析廣泛地應用于用戶評論分析、市場變化預測和互聯網輿論分析。

而自然語言處理算法大致包含以下三類:情感字典方法、傳統的機器學習算法、深度學習算法。

情感字典方法就是人為的構建情感字典對文本進行情感計算從而對文本進行分類的方法。劉玉嬌[2]等人利用基礎情感字典和基礎詞對不同領域的文本評論進行分析,從而獲得不同領域帶有情感傾向的特征詞,然后利用這些特征詞計算句子的情感傾向,該模型在不同領域都有著較好的表現。

傳統的機器學習方法首先對文本進行特征提取,再將文本特征轉換為文本向量,再利用機器學習算法進行分類。常用于文本特征分析的機器學習算法有:樸素貝葉斯、支持向量機、邏輯回歸、隨機森林、最大熵等。陳平平[3]等人使用jieba分詞下的TF-IDF技術對電影評論文本進行特征提取,再利用多項式貝葉斯算法建立情感分析模型,從而達到了86.2%的準確率。王崢[4]等人利用決策樹、N-gram算法的特征提取方法結合支持向量機分類器,從而提出了一種情感分析模型,解決了字詞在不同的語境以及表達方式中的多意性問題。

而深度學習方法相較于機器學習方法最主要的是避免了人為構造大量的文本特征。最常見的深度學習方法有循環神經網絡(Recurrent Neural Network, RNN),RNN算法可以有效聯系上下文信息,在處理帶有序列化的文本信息問題上有較好的表現。隨著深度學習算法地發展,由RNN算法所演化的LSTM算法則有效解決了RNN算法天生的梯度消失和梯度爆炸問題。楊云龍[5]等人將門控循環單元GRU與膠囊特征融合結合起來建立情感分析模型G-Caps,G-Caps首先通過門控單元捕獲文本的全局特征,再通過初始膠囊層迭代獲取文本向量化信息,最后利用主膠囊曾求得各特征間的組合,因此G-Caps可以有效提升模型的準確率。霍社平使用帶有注意力機制的雙向LSTM算法對雙語文本進行分析,其首先通過注意力機制對不同詞語賦予不同的權重,再通過雙向LSTM對新的特征進行分析,可以有效解決雙語文本下的情感分析。

2jieba分詞技術及原理

在數據處理過程中,中文文本語言處理與英文語言處理有著較大的不同。在英文文本中,英文的每一個單詞都自然而然的被空格分隔開,如“Hello word”,而中文文本中每句話的詞語卻天然地結合在一起,如“你好世界”。所以在中文文本數據處理階段分詞技術是一個重要的步驟。在中文分詞技術中,jieba分詞有著較高的準確度,也是最為常用的分詞技術之一。jieba分詞其技術原理是基于統計字典,首先jieba分詞構造一個常用字典,然后再根據這個字典對輸入的語句進行切分,從而可以得到語句的所有切分可能,根據不同的切分可能得到有向無環圖,再通過動態規劃算法計算出各種切分可能的概率,從而找出最大概率的切分組合。而對于那些沒有錄入字典的詞語,采用了隱含馬爾可夫模型,并利用維特比算法進行計算和詞性標注。jieba分詞技術[6]有三種不同的模式:精確模式、全模式和搜索引擎模式。下圖1為jieba分詞技術路線:

3Bi-LSTM算法

在自然語言處理領域中,RNN算法有著較好的效果,但是RNN算法在訓練過程中會出現長期依賴性的問題,這是由于RNN模型在訓練過程中會出現梯度消失或者梯度爆炸的問題。而對于梯度爆炸問題,一般可以采用梯度修剪解決,但是對于梯度消失問題卻很難解決。所以由RNN模型的變體模型LSTM模型應運而生,LSTM模型可以很好地解決RNN模型中的長期依賴性問題。下圖2為LSTM模型的結構:

LSTM模型有兩個傳輸狀態,一個是一個是,其中對于傳輸狀態改變得會很慢,一般為上個狀態傳遞來的外加一些數值,而傳輸狀態則在不同的節點下會有較大的區別。

首先LSTM的當前輸入和上個狀態傳遞而來的拼接可以得到四個狀態:

其中、、是根據拼接向量乘以權重矩陣后,再通過sigmoid函數激活轉換為0到1的數值,從而可以成為門控狀態。是通過tanh函數激活轉換為-1到1的數值。下圖3為四個狀態在LSTM中的應用情況。

內部結構的計算過程如下:

LSTM內部有三個階段:

(1)忘記階段。這一階段針對上一節點傳入進來的輸入選擇忘記。即通過計算得到的來作為門控,可以控制上階段的哪些可以遺忘。

(2)選擇記憶階段。這階段對輸入有選擇地進行記憶。此階段由門控信號控制。

(3)輸出階段。此階段可以決定哪些作為輸出。主要用過控制,并且通過tanh函數對上一階段的進行了放縮。

普通的RNN和LSTM模型都是只能根據之前的時序信息來預測下一時刻的輸出,但是在長文本的自然語言處理中,當前的時刻輸出不僅和之前的狀態相關,也可能與之后時刻的狀態相關。所以雙向LSTM可以較好地解決這類問題,雙向LSTM的輸出由前面的輸入與后面的輸入共同決定。下圖4為雙向LSTM的網絡結構。

上述網絡結構的計算過程如下:

該模型在Forward曾從1時刻到t時刻正向計算一遍,得到保存每個時間單元前向隱含層的輸出。在Backward層再從t時刻反向到1時刻計算,得到保存每個時間單元后向隱含層的輸出,最終結合每個時間單元的Forward層和Backward層的輸出得到最終的輸出。

4帶有注意力機制的模型搭建

下圖5為帶有注意力機制的雙向LSTM算法的模型結構。

4.1 Embedding輸入層

在數據進入算法層面之前,我們需要把數據轉化成詞向量的形式,采用word2Vec[7]可以把文本數據中的文本序列轉換為詞向量,并且Embedding層可以把大型稀疏向量轉化為保留語義的低維空間。

4.2 BI-LSTM層

使用雙向LSTM算法[8]對文本進行分類模型的建立。

4.3 Attention機制

注意力機制即attention機制,簡單來說就是模仿人類觀察行為的過程。例如:當人觀看一幅畫的時候,會首先掃描畫的全部內容,然后再獲得需要重點關注的部分,再對這些部分投入更多的注意力資源從而重點關注。因此,模型會自己去學得在不同時刻不同的權重系數。

參數表示當前時刻,表示序列中的第個元素,表示序列長度,表示對元素的編碼。反映了元素對的重要性。反映了待編碼元素和其他元素的匹配度,當匹配度越高說明該元素對其影響越大。

5實驗

5.1 實驗環境

本論文的實驗運行環境為16G內存配備intel(R)Core(TM)i5-6300HQ處理器且GTX1060顯存為6G顯卡的個人計算機上。

5.2 實驗數據

本論文使用的是從某一電商平臺上爬取的對一本暢銷書籍的評價,其中包含10672個正面的積極性評價和10428個負面的消極性評價。語料的前5條數據為圖6,語料中的句子長度分布直方圖和累計分布圖如圖7:

因為LSTM算法接受的序列長度是固定的,所以在數據處理中我們需要將句子裁成一樣的長度。根據預料累計分布情況求得樣本中90%概率的句子長度188作為裁剪后的統一長度。

5.3 語料處理

(1)語料清洗和分詞

首先去除語料中的無效字符對語料進行清刷,然后使用jieba分詞技術對語料進行分詞,再使用停用詞表去除語料中的停用詞,本文使用的是哈工大停用詞表[9]。

(2)創建詞語字典進行詞向量轉化

使用word2vec技術將已經處理好的語料文本轉化為詞向量的形式,并且構建詞語字典,再使用pd_sequences()對詞向量序列進行填充,將所有句子序列長度統一。并對整個語料進行訓練集和測試集地劃分。

5.4 對比實驗

本文使用以下三種模型與本文的模型進行對比:

(1)樸素貝葉斯模型

樸素貝葉斯模型作為自然語言處理技術中最為典型的模型,在文本語料處理中一般都會有很好的表現。

(2)支持向量機模型

支持向量機模型作為最具代表性的機器學習模型,其在二分類問題上一般都有著上佳的表現。

(3)LSTM模型

將由嵌入輸出的數據經過兩層堆疊LSTM模型的處理后,根據LSTM的輸出值與本文的模型進行對比。

(4)BI-LSTM_Att模型

即本文所提出的含有注意力機制的雙向LSTM模型,為了具有實驗的對比度,該模型也含有兩層堆疊的LSTM。

5.5 評價指標

因為本文是對積極性標簽為1和消極性標簽為0的兩個大類進行分類,是一個二分類問題,并且樣本的兩個標簽數也比較均衡,所以本實驗指使用準確度作為評價指標。根據混淆矩陣,準確度precision簡寫為p有以下公式:

混淆矩陣如下表1:

6實驗結果與分析

6.1 實驗結果

各個模型的情感分類結果如下圖所示,可以看出傳統的機器學習算法雖然有著不錯的表現,但是深度學習算法表現得更為強力,相對的深度學習算法每輪的收斂時間要達到4分鐘左右。各個算法的結果和運行時間為下表2。

6.2 結果分析

從上面結果可以看出基于統計方法的樸素貝葉斯算法進行訓練,其速度很快,但是模型的表現能力不足,所以其性能不如其他模型。而基于核模型支持向量機模型準確率有了不錯的提升,但是也遠不如深度學習算法。LSTM模型通過神經網絡聯系上下文的信息,而BI-LSTM_Att模型利用注意力機制提取文本的重要特征,所以BI-LSTM_Att模型比LSTM模型性能要好,同時每輪收斂的時間也要更長。

7結束語

本文使用的是基于注意力機制的雙向LSTM模型,利用注意力機制提取出文本數據中的核心特征,從而使分類的結果更加準確。實驗結果表明,添加了注意力機制之后,模型的表現能力得到了不錯地提升,取得了較好的結果。

本文數據采用于電商平臺上的商品評論數據,這些評論的情感傾向性都比較明顯,所以模型的表現能力都比較好。下一步工作將針對模糊性的語句分類進行深入研究。

參考文獻

[1] 張美頎.基于電商產品評論數據的情感分析[J].電子技術與軟件程,2020(11):186-187.

[2] 劉玉嬌,琚生根,伍少梅,等.基于情感字典與連詞結合的中文文本情感分類[J].四川大學學報(自然科學版),2015,52(1):57-62.

[3] 陳平平,耿笑冉,鄒敏,等.基于機器學習的文本情感傾向性分析[J].計算機與現代化,2020(3):77-81,92.

[4] 王崢,劉師培,彭艷兵.基于句法決策樹和SVM的短文本語境識別模型[J].計算機與現代化,2017(3):13-17.

[5] 翟社平,楊媛媛,邱程,等.基于注意力機制Bi-LSTM算法的雙語文本情感分析[J].計算機應用與軟件,2019,36(12):251-255.

[6] 曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019,31(18):38-39,42.

[7] 蔡慶平,馬海群.基于Word2Vec和CNN的產品評論細粒度情感分析模型[J].圖書情報工作,2020,64(6):49-58.

[8] Qianli Ma. The Key Technology on Chinese Word Segmentation Based on Bi-LSTM-CRF Model[D].武漢:華中師范大學,2019.

[9] 崔彩霞.停用詞的選取對文本分類效果的影響研究[J].太原師范學院學報(自然科學版),2008,7(4):91-93.

作者簡介

孫慶陽(1995-),男,安徽蕪湖人;畢業院校:安徽工業大學,專業:控制工程,學歷:碩士,現就職單位:安徽工業大學 電氣與信息工程學院,研究方向:自然語言處理。

主站蜘蛛池模板: 天堂在线视频精品| 9966国产精品视频| 成人综合网址| 免费高清自慰一区二区三区| 99这里只有精品在线| 国产激爽大片在线播放| 亚洲综合片| 亚洲第一在线播放| 久久精品国产在热久久2019| 天堂网亚洲系列亚洲系列| 四虎在线高清无码| 嫩草在线视频| 97se亚洲综合在线| 国产精品99一区不卡| 国产经典免费播放视频| 免费国产一级 片内射老| 中文字幕亚洲无线码一区女同| 波多野结衣一二三| 岛国精品一区免费视频在线观看| 欧美亚洲日韩不卡在线在线观看| 久久久受www免费人成| 亚洲成a人片在线观看88| 99精品这里只有精品高清视频| 69精品在线观看| 免费观看三级毛片| 国产永久免费视频m3u8| 国产视频资源在线观看| 人妻精品久久无码区| 亚洲av无码专区久久蜜芽| 18禁色诱爆乳网站| 又黄又湿又爽的视频| 久久性妇女精品免费| 久久人人妻人人爽人人卡片av| 亚洲无限乱码| 又猛又黄又爽无遮挡的视频网站| 日本五区在线不卡精品| 一级爆乳无码av| 欧美亚洲国产日韩电影在线| 漂亮人妻被中出中文字幕久久| AV在线麻免费观看网站| 99久久国产综合精品2023 | 久久毛片免费基地| 亚洲人成影院午夜网站| 午夜三级在线| 久久综合色视频| 亚洲国产天堂在线观看| 国产男女免费完整版视频| 夜色爽爽影院18禁妓女影院| 国产理论最新国产精品视频| 在线国产欧美| 麻豆精品在线| 国产精品自在线拍国产电影 | 91午夜福利在线观看精品| 亚洲av片在线免费观看| 欧美国产日产一区二区| 国产成人一区在线播放| 国产成人综合亚洲网址| 久久人与动人物A级毛片| 中文字幕乱妇无码AV在线| 亚洲视屏在线观看| 丰满人妻中出白浆| 国产尹人香蕉综合在线电影| 岛国精品一区免费视频在线观看 | 国产精品任我爽爆在线播放6080| 在线观看国产精美视频| 国产草草影院18成年视频| 中国成人在线视频| 黄色国产在线| 国产aaaaa一级毛片| 国产男人天堂| 日本不卡视频在线| 亚洲大学生视频在线播放| 亚洲无线观看| 九九九国产| av在线人妻熟妇| 国产欧美日韩免费| 国产啪在线91| 在线日本国产成人免费的| 成人年鲁鲁在线观看视频| 久久久久免费精品国产| 欧美成人二区| 日韩麻豆小视频|