基于英文情感詞典對跨境電商用戶的情感分析

2021-11-11 08:32:22高航孫嘉恒李霖倪瑞

電子元器件與信息技術 2021年7期

關鍵詞：文本情感

高航，孫嘉恒，李霖，倪瑞

( 寧波財經學院財富管理學院，浙江寧波 315000)

0 引言

消費者對商品的評價是其真實意愿的反饋，是成為電商平臺決策的重要參考依據。電商平臺可以根據用戶評論來進行建模來對產品和商家的推薦和合作以獲取超額利潤[1]。

1 文本情感分析的介紹

文本情感分析指對情感文本進行的數據分析，挖掘其中蘊含的情感傾向，對情感態度進行劃分[2]。文本情感分析在輿論分析、用戶畫像和推薦系統中有很大的研究意義。文本情感分析的過程包括原始數據的獲取，數據的預處理、特征提取、分類器以及情感類別的輸出[3]。

2 情感詞典的介紹與選取

基于情感詞典的方法，是指根據不同情感詞典所提供的情感詞的情感極性，來實現情感的極性劃分，該方法的一般首先是文本輸入, 接著載入詞典。如果詞語在情感詞典中，則根據不同類型的詞語和情感傾向，進行相應權重的處理。褒義詞權重為正數，貶義詞權重為負數，否定詞權重取相反數，程度副詞則與對應的修飾詞相乘，最終匯總輸出的情感分[4]。

3 模型的建立

3.1 數據獲取

本文利用Python對亞馬遜平臺的吹風機數據進行爬蟲,得到的數據量10207條,數據結構包括商家和產品序列號、商品名稱、用戶評級、用戶具體評論。

3.2 建立評價等級數據的描述性統計分析

為了更好的利用文件數據給的信息,本文將首先考慮是否能從評級的角度來篩選出商家和產品。在Stata中使用detail命令展示關于評級分布的更多細節:

結論:從上述統計來看,用戶評級分布多集中在4-5之間,產品的區分程度不太顯著,且評級分布基本呈現左偏尖峰的性質,基本排除了單單從評級角度來選擇商家和產品不太可能,我們需要在評語中建立更加科學的數學模型。

表1 電商平臺的評價等級的細節

3.3 數據預處理

3.3.1 對產品和商家的數據預處理

一些信息只有個別幾個,少量的好評將會增大偶然性以影響模型的穩健性,故本文將刪除所有數據量在100條以下的內容。文本經過粗預處理后剩余樣本5000余條,相比于原始數據的10207條則更加精簡。

3.3.2 對評論的預處理

把這些不經過預處理的數據進行分析會增加很大工作量，甚至影響實驗結果的準確性。首先需要對原始數據進行去重復和刪除無關信息等預處理。

3.4 使用TF-IDF算法對全文提取關鍵字

為了使評論的數據防止被一般噪聲干擾,我們必須使用一種特殊的算法來提取關鍵字,使數據分析的效率增加。

3.4.1 TF-IDF算法中模型中的符號及其含義

ni,j詞條在文檔中出現的次數,TFi,j詞條在文檔中出現的頻率,IDF表示逆文件率,IDF越大越有區分度,β表示經驗常數,這里取1。

相乘降序并排列:

在詞性中,名詞動詞可能更容易抓住文章的關鍵,詞語位置文本的標題一般是其中心思想，末段可能是對全文的總結，因此需要對其中的詞語增加權重。每段內容的首句可能是文本的統領，所以出現在每段第一句中詞語的權重也應該適當重視。詞語位置的權重設置如表下所示。

對詞性和出現位置進行設置:

表2 變量的標識及其權重設置

一個詞的跨段情況表明它是描述部分還是整體[5]。段落越多，這個詞就越重要，也就越具有中心性。因此,全局關鍵才是目標。然而，在普通的TFIDF算法中，由于其使用頻率高，局部關鍵字往往成為整個文檔的關鍵字，降低了關鍵字提取的準確性,本文利用下式來衡量詞語的跨度權重以體現全局關鍵性:

最終使用多因素的TFI-IDF綜合分數如下:

表3 使用過TF-IDF算法的詞頻統計(示例)

表4 展示了最佳商家和產品(前5位)

本文首先根據評級的不同對評語進行分組,接著使用WordArt對不同分組的產品進行詞云可視化,可以明顯看出不同評級中不同的“重心”不同,例如評級比較低的產品其“DIFFICUT”會比較突出,積極評價中比較強調其功能效果如“DARYER”這樣的詞匯,中性評價則強調“USE”“ONE”等這樣與產品功能完全無關的東西。這種可視化的描述也說明了可以在評語上進行建模來選擇最優的產品與商家。

圖1 對亞馬遜評論的消極、積極、中性詞云的可視化(示意)

3.5 情感模型的建立的流程如下所示

步驟1:數據預處理并使用多因素TFIDF方法對評論提取關鍵字并查找關鍵字的情感值

步驟2:讀取評論數據,對評論進行分詞形成向量詞組

步驟3:檢測句子并把詞語歸類,貶義詞為負,褒義詞為正

步驟4:在情感詞前查找程度副詞,強烈的系數大輕微的系數小

步驟5:在情感詞前查找否定詞，找完全否定詞，若數量為奇數，乘以-l，若為偶數，乘以1

步驟6:計算完一條評論所有分句的情感值并進行記錄,并將結果與步驟1的進行匯總得出結果并排序,計算情感值分數公式如下:

sentiscore表示情感值分數,分數越高平臺最先推薦w表示極性指數,用于衡量情感的強烈程度位于[0,1],k消極詞為-1,中性詞為0,積極詞為+1,ε表示為擾動項。

4 最終結果

通過本文的模型分析可得編號為B0009XH6TG和47684938的商家和產品情感值最高，平臺在推薦商品時應優先選擇該商品以獲得更好的人氣。

5 對比傳統模型的優勢

本文采用簡單詞典方法能夠在字典范圍內有效識別情感值,對于模型經濟解釋也更加易理解。在提取關鍵字選擇了多因素的TF-IDF方法也極大的利用了數據的全部內容。

6 結語

電商上存在許多干擾信息，目前尚且沒有成型的過濾技術?；诓煌闹黝}, 如挖掘和金融方面，其語言規則,詞庫判斷標準都存在不同,需要對情感分析效果進一步提升。