999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的電商平臺產品評論情感分析

2023-06-22 17:30:09趙浩博唐非
現代信息科技 2023年5期
關鍵詞:機器學習深度學習

趙浩博 唐非

摘? 要:隨著網絡的蓬勃發展,現代人越來越依賴于網上購物,消費者在購物后留下大量的商品評論文本。為了能讓評論文本為消費者及商家帶來更多的優質信息,利用Python抓取某電商平臺中某個產品的評論,對所得到的文本數據進行預處理,采用機器學習和深度學習算法構建模型并進行分析,找出分析效果最好的模型,并分析產品的不足,給出相應的指導意見。

關鍵詞:用戶評論;文本分析;情感分析;機器學習;深度學習

中圖分類號:TP391.1;F724.6? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0030-04

Emotion Analysis of E-commerce Platform Product Reviews Based on Deep Learning

ZHAO Haobo1, TANG Fei1,2

(1.School of Software, Shenyang University of Technology, Shenyang? 110870, China;

2.School of Artificial Intelligence, Shenyang University of Technology, Shenyang? 110870, China)

Abstract: With the vigorous development of the Internet, modern people increasingly rely on online shopping, and consumers leave a large number of product comments after shopping. In order to make the comment text bring more high-quality information to consumers and businesses, Python is used to capture the comments of a product in an E-commerce platform, preprocess the obtained text data, use machine learning and deep learning algorithms to build model and make analysis, find out the model with the best analysis effect, analyze the shortcomings of the products, and give corresponding guidance.

Keywords: user comment; text analysis; emotion analysis; machine learning; deep learning

0? 引? 言

近年來,國外又掀起一股互聯網熱潮,據《中國互聯網絡發展狀況統計報告》[1]顯示,截至2022年6月,我國在網上購物的人數達到8.41億,占網民總人數的80%。在如此龐大的購物人群中,產品的評論就顯得尤為重要[2]。我們進行了一項實驗,在京東商城中使用Python爬蟲技術,爬取紅米K50手機的評論[3]。由于所爬取的差評文本較少,實驗將中評和差評文本合并,統一標為差評。對數據進行預處理后[4],使用機器學習和深度學習模型進行分類[5],得到一個效果較好的分類模型。一方面消費者可以從評論中提取與自己需求匹配的關鍵信息,另一方面也可以幫助商家對自己產品功能的優勢和劣勢進行區分。

1? 評論的情感分析

1.1? 數據的獲取

使用Python爬蟲技術對京東商城旗艦店某品牌最新款5G手機進行評論的爬取[6]。由于網頁版京東商城設置了反爬機制,實驗將不同型號和不同顏色的k50相互組合,分別進行爬取。首先調用request庫,在京東網站上搜索所需抓取商品的信息,找到自己想要抓取信息的商品并點開其評價信息;復制URL,在Python編輯器中定義URL;使用json庫進行在線分析,尋找規律后對所抓取的代碼進行解析;調用json庫中的函數并將其整合成帶有好評及差評標簽的兩列評論文本,并保存在.csv文件中,一列為評論文本,一列為評價類型,便于后續的使用。所爬取的部分評論如表1所示。

1.2? 數據的預處理

為了避免數據遺漏及數據重復對實驗造成影響,首先對所得到的文本進行預處理。通常,不同用戶對于其所購買產品的評價是不同的,所以他們在平臺留下的評價也各不相同。如果消費者在購買商品后沒有對商品做出評論,平臺會給出默認評論,例如,“此用戶未填寫評價內容”等,所以這類文本數據是沒有任何分析價值的。除此之外,還存在一些購買者的評論內容完全重復的情況,這種評論只有最早的評論才有意義。本實驗對兩條或多條重復的評論進行處理,僅刪除完全重復的評論,以確保保留有用的文本評論信息。

在對評論去重之后,使用Python中的jieba庫對評論文本進行分詞。Jieba的分詞功能和執行準確率相比其他工具更高。當然,在已有的停用詞表基礎上,如果我們還有一些不需要的詞語,也可以自己完善停用詞表。本文依照哈工大停用詞表去掉與實驗不相關的停用詞,例如“我們”“買”“已經”等[7]。同時使用自定義詞典,加入網絡流行詞及長詞,避免在jieba中被默認分割。

由于好評和差評也屬于文本數據,采用數字編碼方法將好評轉碼為1,將差評轉碼為0,方便后續實驗的有序進行。如圖1所示為好評與差評中頻數較高若干詞的柱狀圖。

1.3? 數據可視化

目前,開源工具種類繁多,實驗使用Jieba庫。在編譯器Pytharm中導入jieba庫、wordcloud庫和matplotlib庫。Wordcloud用于繪制詞云圖,而Matplotlib庫用于將圖展示出來。根據分詞之后的詞頻繪制詞云圖。從詞云圖中不難看出,好評中占比較高的詞有“屏幕”“性價比”“電池”等;差評中占比較高的詞有“速度”“效果”“系統”等。如圖2所示為好評與差評中頻數較高若干詞的詞云圖。

2? 詞向量轉換

2.1? 詞袋模型

由于文本數據不能直接使用,需要將文本數據轉換為可以計算的向量[8],可以使用詞袋模型來解決此問題。詞袋模型就是將詞語打亂順序后放入袋子里,按順序編碼,然后取詞語的個數按句子的對應關系構建詞向量。但是one-hot編碼有多少詞語,就要構建多少維的向量,這樣可能會發生維度災難,而且也無法度量詞語之間的相似性。

2.2? 詞嵌入模型

詞嵌入模型(Word to Vector)是表示詞語位置關系的一種模型[9]。Word2vec提出了一種假設,一段話中離得越近的詞語它們的相似度也就也高。使用余弦相似度計算兩個詞語之間的距離,判斷兩個詞語之間的關系,現在常用Word2vec構建詞嵌入模型,它是由CBOW和Skip-Gram算法組成的神經網絡模型。CBOW的主要方法是通過句子中的上下文詞來推測出中心詞,而Skip-Gram則是使用中心詞來預測上下文詞。

詞袋模型的One-Hot表示法、TF表示法等算法都沒有考慮詞與詞之間的關系,比如“的”字的后面只能接名詞性詞語,“地”字的后面只能接動詞性詞語。也就是說,詞袋模型認為一個詞出現的可能性與其他詞出現的可能性無關,詞語的出現是相互獨立的。

詞袋模型最大的缺陷是向量的維度高,維度高造成后續相似度或文本分類的計算量非常大,同時數據稀疏也導致相似度區分不明顯。由于詞袋模型所表示文本向量的每個維度都代表一個詞語,因此可以將聚類后簇中心向量中具有較大值的維度對應的詞語用作簇的關鍵詞。Word2vec是神經網絡的衍生品,在使用淺層神經網絡對文本進行情感分析時,發現在得到分類結果的同時,輸入矩陣剛好可以用來表示詞語。由于詞語是用上下文來表達的,一定程度上反映了詞語的語義,但這并不代表機器真正明白了詞語的含義,只是說明相似詞語之間的向量相似度較大而已。如圖3所示為Skip-Gram網絡結構圖。

3? 算法建立

3.1? 機器學習算法

支持向量機(Support Vector Machines, SVM)是一種傳統的機器學習算法,于1993年被提出。它是一種二分類模型,將數值型的特征向量投影到平面或空間上,尋找區分兩類點的超平面,使得邊際最大,以“最好地”區分這兩類點。SVM稱得上深度學習出現之前最好的機器學習算法之一。調用sklearn中的SVM庫,進行SVM算法的調試和模型訓練,得到準確值和預測值,然后將模型保存。將兩萬多條帶有標簽的數據集按7:3的比例分成訓練集和測試集,實驗之后把測試集導入訓練好的模型進行測驗。

3.2? 深度學習算法

3.2.1? 卷積神經網絡

卷積神經網絡(Convolutional Neural Networks, CNN)是一種深度學習的算法,也是Deep Learning中較為火熱的幾個算法之一,它通常被用于圖像處理。CNN通常由輸入層、卷積層、池化層、全連接層、softmax層組成。使用TensorFlow中的CNN,調整input與卷積核參數,迭代次數為100,epoch次數為5,詞向量的維度為20。在上文分好的訓練集上進行測試,并進行多次訓練。

3.2.2? 長短期記憶網絡

長短期記憶網絡(Long Short-Term Memory, LSTM)是循環神經網絡(RNN)的一種變體,在RNN標準模型的基礎上增加了三個門控單元:遺忘門(Forget Gate)、輸入門(Input Gate)以及輸出門(Output Gate)。三個門恰好可以把LSTM分成三個部分,整個LSTM的實現也是圍繞著這三個門展開的。如圖4所示為LSTM的結構圖。

圖中,C(t-1)為上一次的單元狀態,通過遺忘門有選擇性地遺忘一些信息。假設輸入的x(t)為10個向量,通過四個全連接層計算出新的候選信息值,傳遞到輸入門補充新的信息。最后一層sigmoid函數通向輸出門,與其他“記憶”發生權值交集,一部分從h(t)以隱藏狀態輸出,一部分作為包含歷史信息的長期記憶,繼續從c(t)輸出下去。四個全連接層的權重公式為:

(1)

(2)

(3)

(4)

舉個例子,我們在閱讀或看書的時候,會根據已經讀過的文字來推理和理解后續的文字,而不是看一段忘一段,我們一直保持著一個思考的狀態。

傳統的神經網絡即RNN做不到這一點,LSTM是具有循環的網絡,解決了信息無法長期存在的問題,在工業界普遍使用并取得了良好的效果。使用LSTM,很容易實現對文本的情感分析。針對每一條商品評論,對長度較短的評論進行補充,對長度過長的評論進行裁剪處理,使得每個句子向量的長度相同。然后,利用長短時記憶網絡,按照從左到右的順序讀取每一個句子向量。讀取之后,使用長短時記憶網絡的最后一個輸出記憶,將其當作上一條語句的信息,并且將這條讀取完的信息當作下一條語句的輸入向量,送入一個分類層進行分類和訓練。設置迭代次數為100,epoch次數為5,詞向量的維度為20,完成對LSTM算法模型的建立。

3.3? 情感分析效果驗證

本實驗中情感分類模型的性能評價指標,主要包含準確率、精確率、召回率、F1_score、ROC曲線、AUC等。對于給定的測試集來說,準確度為模型正確分類的樣本數與需要進行分類的總樣本數之比。但是在分類樣本集中如果差距較大,準確率就不能很好地體現分類的優劣。精確度為分類模型將正類樣本預測為正類的數量與整個樣本預測為正類的總數的比例。召回率在實際為正的樣本中被預測為正樣本的概率,而F1值則是前兩種方法所得結果的調和平均數。如表2所示為實驗中三種方法的評價指標。由表2可知,LSTM算法的分類性能要好于其他兩種算法。

4? 結? 論

本文使用爬蟲技術對京東商城某品牌手機進行評論內容的抓取、評論去重、數據清洗、中文分詞、去掉停用詞的預處理,然后將評論文本分為正面評價和負面評價兩類。通過詞頻統計得到出現次數較高的詞,以此得出該款手機在外觀、運行速度方面的優勢,而在屏幕和手機整體外觀上還需要進一步提升,以更好地適應消費者的需求。由于商品評論數據過于龐大,本文未全部獲得并進行分析,只對平臺上34 220條評論進行了處理和分析,在所用數據上難免會存在偶然性。最后使用處理好的數據進行算法的構建,通過對比分類指標得出,LSTM算法的性能明顯優于CNN和SVM,滿足商品評論情感分析的需要。

參考文獻:

[1] 張曉娜.第50次《中國互聯網絡發展狀況統計報告》發布 [N/OL].光明日報,[2022-11-02].http://www.gov.cn/xinwen/2022-09/01/content_5707695.htm.

[2] 王惠,撒海蘭.電商購物平臺追加評論對消費者購買意愿影響的實證分析——基于新疆高校的調查數據 [J].新疆廣播電視大學學報,2021,25(2):45-51.

[3] 彭梅,胡必波.基于大數據人工智能的電商用戶評論情感分析 [J].電腦編程技巧與維護,2022(6):123-126.

[4] 王鵬嶺,應欣慧,梁家瑞,等.網購評論情感分析——以某化妝品為例 [J].電腦知識與技術,2022,18(13):21-23.

[5] 吳淑凡.基于機器學習的電商平臺中用戶價值分析研究 [J].惠州學院學報,2022,42(3):81-86.

[6] 千文.基于Python的旅游網站數據爬蟲分析 [J].電腦編程技巧與維護,2022(9):85-87+118.

[7] 吳昔遙,劉欣凱,王孝杰.基于信息化的酒店評論情感分析 [J].中國新通信,2022,24(4):124-126.

[8] 朱名勛,郭琴.電商平臺中的在線評論情感分析 [J].長江信息通信,2022,35(1):170-171+174.

[9] 凌潔,劉玉林.電商平臺在線評論分析研究綜述 [J].江蘇經貿職業技術學院學報,2019(6):38-41.

作者簡介:趙浩博(1998—),男,漢族,遼寧鞍山人,碩士研究生在讀,主要研究方向:自然語言處理;唐非(1975—),女,漢族,遼寧沈陽人,講師,博士,主要研究方向:數據分析。

收稿日期:2022-11-09

基金項目:遼寧省教育廳項目(LJKZ0145)

猜你喜歡
機器學習深度學習
基于詞典與機器學習的中文微博情感分析
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 日韩精品成人网页视频在线| 欧美一区二区三区国产精品| 99精品久久精品| 国产精品成| 国产一级二级三级毛片| 国产丝袜第一页| 91久久大香线蕉| a免费毛片在线播放| 99在线小视频| 日韩天堂视频| 午夜视频免费一区二区在线看| 日本精品中文字幕在线不卡| 中文字幕亚洲无线码一区女同| 91福利免费| 亚洲第一黄片大全| 国产美女精品一区二区| 朝桐光一区二区| 国产av剧情无码精品色午夜| 中文字幕亚洲精品2页| 91无码视频在线观看| 啪啪免费视频一区二区| 日本人妻丰满熟妇区| 国产日韩欧美成人| 国产视频大全| 91网站国产| 亚洲日韩第九十九页| 日韩欧美国产中文| 国产精品密蕾丝视频| www.精品国产| 国产系列在线| 亚洲精品国产综合99| 亚洲成年人网| 999国内精品视频免费| 欧美日韩一区二区在线免费观看 | 成人福利免费在线观看| 综合人妻久久一区二区精品| a欧美在线| 在线另类稀缺国产呦| 午夜视频免费试看| 国产乱子伦手机在线| 久久久久青草大香线综合精品| 99久久精彩视频| 欧美一级99在线观看国产| 色偷偷男人的天堂亚洲av| 国产二级毛片| 中文字幕在线日韩91| 亚洲V日韩V无码一区二区| 国产成人精彩在线视频50| 91香蕉视频下载网站| 日本一区高清| 九九九精品成人免费视频7| 青青草综合网| 色婷婷天天综合在线| 成人午夜视频免费看欧美| 一本大道东京热无码av | 亚洲日韩精品综合在线一区二区 | 午夜性刺激在线观看免费| 亚洲精品高清视频| 亚洲成人高清在线观看| 在线国产资源| 欧美笫一页| 国产尤物视频在线| 三级视频中文字幕| 九月婷婷亚洲综合在线| 欧美一级99在线观看国产| 福利小视频在线播放| 在线无码九区| 日韩无码视频播放| 国产精品久久精品| 亚洲精品久综合蜜| 亚洲Aⅴ无码专区在线观看q| 亚洲成人在线网| 99re视频在线| 国产精品男人的天堂| 又黄又爽视频好爽视频| 久久国产亚洲欧美日韩精品| 亚洲无码电影| 亚洲国产日韩一区| h网址在线观看| 亚洲人人视频| 又污又黄又无遮挡网站| 成人精品在线观看|