999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用NLP算法和BP神經網絡系統(tǒng)分析商品評論數(shù)據(jù)

2020-09-03 02:26:02謝易宏
無線互聯(lián)科技 2020年12期
關鍵詞:文本情感分析

謝易宏

(上海師范大學,上海 200234)

1 新技術應用的必要性

隨著科技的發(fā)展,網購已經成為人們主流的購物方式之一,據(jù)聯(lián)合國貿易和發(fā)展會議(United Nations Conference on Trade and Development,UNCTAD)2019年3月29日發(fā)布的數(shù)據(jù)顯示,2017年全球電子商務(Electronic Commerce,EC)交易額比上年增加13%,達到29.367萬億美元。通過網購獨有的評級、評論、幫助性評級和評論時間等,來提出在線銷售戰(zhàn)略,確定潛在的重要設計特征,以增強產品的吸引力,成了公司線上銷售部所必須要解決的問題之一。

自然語言處理在實體抽取,情感分析等任務上的準確度不斷提高[1],為精確處理評論數(shù)據(jù)提供了可能。通過對評論的關鍵詞提取以及情感分析,可以有效地從大量的評論數(shù)據(jù)中獲取有效信息,從而獲得對商品的有效反饋,可以針對性地改進產品質量,制定營銷策略。

2 模型設計

2.1 模型概覽

模型首先通過爬蟲在電商平臺上獲取相應的評論數(shù)據(jù),再利用自然語言處理工具(Natural Language Toolkit,NLTK)對數(shù)據(jù)依次進行清洗、分詞,根據(jù)詞頻——逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)算法對關鍵信息進行抽取,最后同樣利用NLTK對關鍵信息進行情感標注,獲取情感傾向。對于時域上的評論數(shù)量的變化,利反向傳播(Back Propagation,BP)神經網絡對未來的數(shù)據(jù)進行預測,從而有效地對評論數(shù)據(jù)進行分析和預測,如圖1所示。

2.2 數(shù)據(jù)來源

本數(shù)據(jù)集來自美國亞馬遜電商平臺,文章利用Python中的request包爬取了2004——2019年吹風機和奶嘴商品的11 417條評論記錄。評論數(shù)據(jù)按照商品編號、購買時間、星級、評論文本存儲在MySQL數(shù)據(jù)庫中。

2.3 關鍵詞提取

NLTK是一套基于Python的自然語言處理工具集,能實現(xiàn)分詞、詞性標注、詞頻分析、情感分析等豐富的功能[3]。將數(shù)據(jù)導入程序,進行文本清洗,分句和分詞處理后,對相應的分詞進行詞形歸一化,去除標點以及去除停用詞,以最大程度地保留有用數(shù)據(jù)。隨后采用TF-IDF算法進行關鍵信息提取。

TF指詞頻,表示在一段文本中單詞出現(xiàn)的頻繁程度。假設在一段文本W={w1,w2,…,wn}中,共n個詞,其中單詞x出現(xiàn)了m次,那么單詞x的詞頻就是:

IDF指逆文檔頻率,表示在所有文本中單詞出現(xiàn)的不頻繁程度。假設N代表語料庫中所有的文本,N(x)表示語料庫中包含詞x的文本總數(shù),那么該詞x的IDF為:

在得到TF和IDF之后,一個詞x的TF-IDF值計算為:通過在scikit-learn中使用TfidfVectorizer實現(xiàn)TF-IDF,從而得到相應的文本關鍵詞。

2.4 情感標注

情感分析或觀點挖掘是通過計算來識別作者對某段文本的態(tài)度是積極、消極還是中性的過程[2]。此反饋可能很有用,比如在自然語言評論中挖掘對某款產品或服務的觀點時。NTLK包含一個簡單的基于規(guī)則的情感分析模型,其中組合了詞匯特征來識別情感強度[3-4]。導入必要模塊(包括Vader情感分析器),創(chuàng)建一個函數(shù)來接受某個句子并呈現(xiàn)情感分類。該函數(shù)首先對SentimentIntensityAnalyzer執(zhí)行實例化,然后使用傳遞的句子來調用polarity_scores方法。結果是一組浮點值,表示輸入文本的正或負價態(tài)。這些浮點值是為4個類別(正、中性、負和表示一個聚合分數(shù)的化合態(tài))而發(fā)出的。該腳本最后調用傳遞的參數(shù)來識別情感,最終得到每一條評論對應的情感指數(shù)。

2.5 數(shù)據(jù)預測

BP神經網絡具有任意復雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力,解決了簡單感知器無法解決的排他性OR,XOR和其他一些問題。在結構上,BP網絡有輸入層、隱藏層和輸出層。本質上,BP算法以網絡的平方誤差作為目標函數(shù),采用梯度下降法計算目標函數(shù)的最小值[5]。

模型統(tǒng)計每一年的評論數(shù)量并繪制趨勢圖,再利用BP神經網絡對數(shù)據(jù)進行擬合,從而可以對未來的數(shù)據(jù)進行預測。

3 實驗部分

3.1 關鍵詞提取

通過TF-IDF算法,得到了相應的關鍵詞,從中抽去了20條并根據(jù)出現(xiàn)頻率進行排序,命名后存入txt文檔中,如圖2所示。

圖2 關鍵詞提取

3.2 情感標注

針對每一條評論,分別給出其相應的情感指數(shù),其中正數(shù)代表正向情感,負數(shù)相反。指數(shù)越接近1,說明傾向性越顯著,如圖3所示。

圖3 情感標注

3.3 趨勢預測

針對按年統(tǒng)計的評論數(shù)量,劃分出訓練數(shù)據(jù)和測試數(shù)據(jù),并對數(shù)據(jù)進行了擬合,結果顯示出不錯的擬合效果,如圖4所示。

圖4 擬合效果

4 結語

該模型較好地對商品評論數(shù)據(jù)進行了分析處理,同時也存在以下一些缺點:(1)情感分析的粒度相對粗糙,缺乏層次分析和對情感因素的深層探討。(2)數(shù)據(jù)量相對較少,容易出現(xiàn)過擬合現(xiàn)象,難以對更長時間的數(shù)據(jù)進行準確預測。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产福利不卡视频| 亚洲精品另类| 欧美日韩精品在线播放| 国内黄色精品| 亚洲a级毛片| 国产99热| 毛片在线播放a| 国语少妇高潮| 国产精品欧美在线观看| av天堂最新版在线| 美美女高清毛片视频免费观看| 在线国产毛片| 欧美激情视频二区| 欧美日韩一区二区三区在线视频| 亚洲精品第一在线观看视频| 狂欢视频在线观看不卡| 免费国产黄线在线观看| 91精品视频在线播放| 午夜福利免费视频| 最新国产精品鲁鲁免费视频| 久久国产拍爱| 毛片免费网址| 亚洲人在线| 国产91视频免费| 国产免费久久精品44| 日韩一区精品视频一区二区| 国产精品香蕉在线| 亚洲系列中文字幕一区二区| 91精品啪在线观看国产| 国产精品亚洲综合久久小说| 亚洲色图综合在线| 精品成人一区二区| 91精品伊人久久大香线蕉| 欧美色综合网站| 国产无人区一区二区三区| 国产aⅴ无码专区亚洲av综合网| 亚洲永久精品ww47国产| 夜精品a一区二区三区| 欧美无专区| 在线观看精品自拍视频| 视频一区亚洲| 综合网天天| 亚洲av无码片一区二区三区| a在线亚洲男人的天堂试看| 亚洲一级毛片免费看| 亚洲欧洲一区二区三区| 日韩视频免费| 日本成人一区| 日本人妻一区二区三区不卡影院 | 亚洲AV一二三区无码AV蜜桃| 国产精品国产三级国产专业不| 996免费视频国产在线播放| 国内丰满少妇猛烈精品播| 福利视频久久| 666精品国产精品亚洲| 高潮毛片无遮挡高清视频播放| 成人亚洲国产| 六月婷婷综合| 欧美精品伊人久久| 欧美成人日韩| 波多野结衣二区| 亚洲中文久久精品无玛| 女同久久精品国产99国| 欧美在线天堂| 午夜电影在线观看国产1区| 国产免费看久久久| 九色最新网址| 国产va在线| 四虎亚洲精品| 日韩美一区二区| 久久人人97超碰人人澡爱香蕉| 首页亚洲国产丝袜长腿综合| 欧美视频在线观看第一页| 欧美影院久久| 国产亚洲精品97AA片在线播放| 黑人巨大精品欧美一区二区区| 色婷婷在线播放| 日韩精品少妇无码受不了| 午夜一区二区三区| 免费A∨中文乱码专区| 国产麻豆va精品视频| 国产成人1024精品下载|