999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于英文情感詞典對跨境電商用戶的情感分析

2021-11-11 08:32:22高航孫嘉恒李霖倪瑞
電子元器件與信息技術 2021年7期
關鍵詞:文本情感

高航,孫嘉恒,李霖,倪瑞

( 寧波財經學院財富管理學院,浙江 寧波 315000)

0 引言

消費者對商品的評價是其真實意愿的反饋,是成為電商平臺決策的重要參考依據。電商平臺可以根據用戶評論來進行建模來對產品和商家的推薦和合作以獲取超額利潤[1]。

1 文本情感分析的介紹

文本情感分析指對情感文本進行的數據分析,挖掘其中蘊含的情感傾向,對情感態度進行劃分[2]。文本情感分析在輿論分析、用戶畫像和推薦系統中有很大的研究意義。文本情感分析的過程包括原始數據的獲取,數據的預處理、特征提取、分類器以及情感類別的輸出[3]。

2 情感詞典的介紹與選取

基于情感詞典的方法,是指根據不同情感詞典所提供的情感詞的情感極性,來實現情感的極性劃分,該方法的一般首先是文本輸入, 接著載入詞典。如果詞語在情感詞典中,則根據不同類型的詞語和情感傾向,進行相應權重的處理。褒義詞權重為正數,貶義詞權重為負數,否定詞權重取相反數,程度副詞則與對應的修飾詞相乘,最終匯總輸出的情感分[4]。

3 模型的建立

3.1 數據獲取

本文利用Python對亞馬遜平臺的吹風機數據進行爬蟲,得到的數據量10207條,數據結構包括商家和產品序列號、商品名稱、用戶評級、用戶具體評論。

3.2 建立評價等級數據的描述性統計分析

為了更好的利用文件數據給的信息,本文將首先考慮是否能從評級的角度來篩選出商家和產品。在Stata中使用detail命令展示關于評級分布的更多細節:

結論:從上述統計來看,用戶評級分布多集中在4-5之間,產品的區分程度不太顯著,且評級分布基本呈現左偏尖峰的性質,基本排除了單單從評級角度來選擇商家和產品不太可能,我們需要在評語中建立更加科學的數學模型。

表1 電商平臺的評價等級的細節

3.3 數據預處理

3.3.1 對產品和商家的數據預處理

一些信息只有個別幾個,少量的好評將會增大偶然性以影響模型的穩健性,故本文將刪除所有數據量在100條以下的內容。文本經過粗預處理后剩余樣本5000余條,相比于原始數據的10207條則更加精簡。

3.3.2 對評論的預處理

把這些不經過預處理的數據進行分析會增加很大工作量,甚至影響實驗結果的準確性。首先需要對原始數據進行去重復和刪除無關信息等預處理。

3.4 使用TF-IDF算法對全文提取關鍵字

為了使評論的數據防止被一般噪聲干擾,我們必須使用一種特殊的算法來提取關鍵字,使數據分析的效率增加。

3.4.1 TF-IDF算法中模型中的符號及其含義

ni,j詞條在文檔中出現的次數,TFi,j詞條在文檔中出現的頻率,IDF表示逆文件率,IDF越大越有區分度,β表示經驗常數,這里取1。

相乘降序并排列:

在詞性中,名詞動詞可能更容易抓住文章的關鍵,詞語位置文本的標題一般是其中心思想,末段可能是對全文的總結,因此需要對其中的詞語增加權重。每段內容的首句可能是文本的統領,所以出現在每段第一句中詞語的權重也應該適當重視。詞語位置的權重設置如表下所示。

對詞性和出現位置進行設置:

表2 變量的標識及其權重設置

一個詞的跨段情況表明它是描述部分還是整體[5]。段落越多,這個詞就越重要,也就越具有中心性。因此,全局關鍵才是目標。然而,在普通的TFIDF算法中,由于其使用頻率高,局部關鍵字往往成為整個文檔的關鍵字,降低了關鍵字提取的準確性,本文利用下式來衡量詞語的跨度權重以體現全局關鍵性:

最終使用多因素的TFI-IDF綜合分數如下:

表3 使用過TF-IDF算法的詞頻統計(示例)

表4 展示了最佳商家和產品(前5位)

本文首先根據評級的不同對評語進行分組,接著使用WordArt對不同分組的產品進行詞云可視化,可以明顯看出不同評級中不同的“重心”不同,例如評級比較低的產品其“DIFFICUT”會比較突出,積極評價中比較強調其功能效果如“DARYER”這樣的詞匯,中性評價則強調“USE”“ONE”等這樣與產品功能完全無關的東西。這種可視化的描述也說明了可以在評語上進行建模來選擇最優的產品與商家。

圖1 對亞馬遜評論的消極、積極、中性詞云的可視化(示意)

3.5 情感模型的建立的流程如下所示

步驟1:數據預處理并使用多因素TFIDF方法對評論提取關鍵字并查找關鍵字的情感值

步驟2:讀取評論數據,對評論進行分詞形成向量詞組

步驟3:檢測句子并把詞語歸類,貶義詞為負,褒義詞為正

步驟4:在情感詞前查找程度副詞,強烈的系數大輕微的系數小

步驟5:在情感詞前查找否定詞,找完全否定詞,若數量為奇數,乘以-l,若為偶數,乘以1

步驟6:計算完一條評論所有分句的情感值并進行記錄,并將結果與步驟1的進行匯總得出結果并排序,計算情感值分數公式如下:

sentiscore表示情感值分數,分數越高平臺最先推薦w表示極性指數,用于衡量情感的強烈程度位于[0,1],k消極詞為-1,中性詞為0,積極詞為+1,ε表示為擾動項。

4 最終結果

通過本文的模型分析可得編號為B0009XH6TG和47684938的商家和產品情感值最高,平臺在推薦商品時應優先選擇該商品以獲得更好的人氣。

5 對比傳統模型的優勢

本文采用簡單詞典方法能夠在字典范圍內有效識別情感值,對于模型經濟解釋也更加易理解。在提取關鍵字選擇了多因素的TF-IDF方法也極大的利用了數據的全部內容。

6 結語

電商上存在許多干擾信息,目前尚且沒有成型的過濾技術?;诓煌闹黝}, 如挖掘和金融方面,其語言規則,詞庫判斷標準都存在不同,需要對情感分析效果進一步提升。

猜你喜歡
文本情感
如何在情感中自我成長,保持獨立
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 手机精品福利在线观看| 色噜噜狠狠狠综合曰曰曰| 国产永久无码观看在线| 亚洲无码视频一区二区三区| 色爽网免费视频| 丰满的少妇人妻无码区| 国产菊爆视频在线观看| 美女被狂躁www在线观看| 精品国产香蕉在线播出| 亚洲侵犯无码网址在线观看| 亚洲日本韩在线观看| 91精品专区国产盗摄| 亚洲中文字幕国产av| 2019年国产精品自拍不卡| 99re精彩视频| 免费一级毛片| 天天色综网| 国产一区三区二区中文在线| 黑人巨大精品欧美一区二区区| 91精品网站| 毛片在线播放网址| 国产亚洲精品va在线| 爆乳熟妇一区二区三区| 日本在线视频免费| 蜜桃视频一区二区| 国产va欧美va在线观看| 亚洲无码免费黄色网址| 国产农村妇女精品一二区| 9966国产精品视频| 久久国产高清视频| 亚洲综合片| 欧美性精品| 91激情视频| 精品无码人妻一区二区| 午夜人性色福利无码视频在线观看| 国产手机在线小视频免费观看| 亚洲伊人电影| 天堂网国产| 久久国产精品娇妻素人| 99在线国产| 欧美色图第一页| 人妻中文字幕无码久久一区| 成人韩免费网站| 亚洲成人一区二区三区| 免费激情网址| 手机在线免费不卡一区二| 一级福利视频| 亚洲香蕉在线| 黄片一区二区三区| 欧美一级在线播放| 国产99精品视频| 亚洲丝袜第一页| 亚洲日本精品一区二区| 久久久久中文字幕精品视频| 99中文字幕亚洲一区二区| 国产理论一区| 亚洲人成在线精品| 青青草原国产av福利网站| 欧美不卡视频一区发布| 麻豆国产原创视频在线播放| 国产精品福利一区二区久久| 欧美日韩在线国产| AV不卡在线永久免费观看| 日韩精品亚洲一区中文字幕| 国产成人精品一区二区秒拍1o| 国产亚洲欧美在线中文bt天堂 | 亚洲中文字幕日产无码2021| 亚洲精选无码久久久| 免费人成视网站在线不卡| 亚洲成人一区二区三区| 大香伊人久久| 国产免费久久精品99re不卡| 大香伊人久久| 99久久精品无码专区免费| 欧美福利在线观看| 国产成人AV男人的天堂| 国产精品久久久久鬼色| 激情无码字幕综合| 久久免费视频6| 亚洲男人天堂网址| 久久综合干| 青青青视频蜜桃一区二区|