白曉萌



摘要:互聯網時代,參與網購的消費者和銷售商越來越多。商品的網購評論情況不僅可以幫助顧客做出產品購買決策,還可以幫助企業制定銷售策略。基于亞馬遜平臺上的商品銷量和評論信息,本文通過情感分析將評語量化為分數,并用相關性分析找到商品評星、評語和銷量的關系,通過多元線性回歸確定了通過評論衡量產品成功程度的度量方式。
Abstract: In the Internet era, more and more consumers and sellers participate in online shopping. Online comments of goods can not only help customers to make product purchase decisions, but also help enterprises to make sales strategies. Based on the sales and comments of products on the Amazon online market, sentiment analysis is used to transform the textual review into review score. The correlation analysis is used to find out the relationship between commodity ratings, comments and sales volume, and the method to measure the success of commodities through comments is developed based on Multiple Linear Regression.
關鍵詞:網購評論;情感分析;相關性分析;多元線性回歸
Key words: online reviews;sentiment analysis;correlation analysis;Multiple Linear Regression
中圖分類號:F724.6? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)29-0013-03
0? 引言
在線購物網站亞馬遜的用戶無論是否購買,都可以發表對產品的評論。對不同產品的評論各不相同,為市場分析提供了可獲得的和豐富的數據。評論包括星級和評語,此外網站上還可以獲取商品的銷量和評論用戶的部分個人信息。
在過去的幾十年里,解釋和處理用戶意見信息的方法已經完成了許多工作。本文所做的不僅僅是對文字評論進行處理,而是根據所提供的所有與評論相關的數據進行全面的分析,建立衡量產品成功度的評價模型,幫助公司制定合適的銷售策略。
1? 評語量化
1.1 數據過濾
網購平臺上可能存在無效評論,以下幾種數據不做分析考慮。①評論總數少于15條的商品不進行分析。②同一個用戶重復發表多條內容相同的評論,僅保留一條。③評論星級和評語情感色彩明顯相反的評論(可能是誤評),剔除出數據集。
1.2 量化分值的計算
文本形式的評語是一種不能直接參與計算的非數值數據,這給分析其中隱藏的信息帶來了很大的困難。對出現在文本評論中的單詞進行普查,可以發現除了虛詞這類無意義的詞之外,還有兩種經常出現在復習中的詞。一種是表達態度,另一種是描述產品特征。評論中出現的特征詞比態度詞更加多樣化,這可能暗示了人們對具有特定特征的產品的偏好。在對不同類型產品的評論中態度詞幾乎相同,所以在處理文本時態度詞比特征詞更容易識別?;跀祿倪@一特點,可以采用情感分析對文本數據進行處理。
Vader算法[1]是一種基于詞庫和語法規則來進行文本情感識別的方法,其基本思想是通過人工標注為常用情感詞(包括形容詞、名詞、副詞等)進行了情感極性及強度判定。從-4到+4表示從極度負面和極度正面情感,從而構建vader詞庫。該算法還考慮了語法規則對情感判別的影響,如標點會加強句子的情感強度、否定詞導致隨后的情感次極性反轉等,使用該算法處理文本后的量化值比較符合人的情感認知。
對于給定的輸入文本數據,Vader情感分析算法返回一個極性分數百分比的三元組。它還提供了一個單個的評分標準,這是一個在[-1,1]范圍內的實值,即評語量化后的分數,可以作為一種顧客對商品的評分。
1.3 評語和星級的相關性
通常情況下,當人們給予產品高星級時,他們傾向于給予正面評語,使用皮爾遜相關因數來找出評語和星級之間是否存在關系,此過程由SPSS軟件完成。經檢驗,評語與星級之間的相關關系在0.01水平上顯著,說明評語與星級之間存在正相關關系,且相關關系非常顯著。
2? 產品的聲譽
2.1 評論的可信度
不同類型的客戶做出的評論可信度是不同的。一些客戶是亞馬遜會員,這意味著他們更可靠,他們可以從亞馬遜免費獲得產品。有些顧客在發表評論之前并沒有在亞馬遜購買過該產品,這可能表明他們的評論不如那些購買過該產品的人可信。此外,亞馬遜還為顧客提供了為他人評論“點贊”的機會。有些評論得到了很多點贊,但有些沒有得到任何點贊。因此,在綜合考慮所有評論之前,有必要使用一個參數來描述每個評論的可信度。根據上面的分析,每個評論的可信度與客戶是否是亞馬遜會員,是否購買過該產品,以及有多少點贊數有關。
式中wij表示第i件商品的第j條評論的可信度;v1表示每條評論獲得的點贊數;v2表示評論者是否為會員;v3表示評論者是否購買過此商品;β是分配給三個因素的權重。
2.2 聲譽計算
在評論可信度的基礎上,引入產品市場聲譽的計算方法。聲譽一般指顧客對產品的滿意程度,可以從評論中體現,聲譽是評論所蘊含全部信息的高度概括。
實際上,顧客在做出評論時,可能會受到產品已有的評論影響。根據Park和Lee的實驗結論[2],產品已有的好評數量越多,越有可能對后買的顧客產生積極影響。然而,差評的影響與差評數關系較小。一旦出現了差評,無論差評多或少,都會對客戶產生較大的負面影響。據此,把商品的差評率作為單列的一項指標來評價產品聲譽。
衡量產品的市場聲譽時考慮3個因素和1個修正值,3個因素為:評論星級、文本評語量化得分、差評率,1個修正值為評論的可信度,前兩個因素都要乘修正值才能使用。在對三個因素進行賦權時,可以采用簡單的層次分析法。
3? 產品成功度
銷量高的產品就是成功的產品,每個月的銷量數據比較容易直接從購物網站上獲取。
下面將成功程度定義為銷售數量的對數,認為銷量的對數可以由產品評論星級和評語量化值以及差評率的線性組合表示,采用多元線性回歸的方法,確定各項系數,建立由評論信息確定產品成功度的模型。以亞馬遜網站上的電吹風、微波爐和嬰兒奶嘴三類商品為例,用matlab軟件的線性擬合工具進行擬合,可以得到擬合效果較好的一組參數,參數值如表1所示,擬合效果如圖1所示。
經過回歸方程的顯著性檢驗,置信區間為95%,P=0.000028<0.0001,說明模型有效。由此,可以得到基于網絡評論的產品成功度評價模型,如圖2所示。
4? 靈敏度分析
在計算評語可信度時,我們采用了主觀賦權的方法,對可信度的三個指標β1、β2和β3進行賦權,缺乏客觀性。為了使結論更加穩定,對權重進行了靈敏度分析。
根據俞立平等的研究[3],對指標權重的靈敏度分析時,權重之和必須為1,即一個指標權重的增加必然導致其他指標權重的減少。在一個評價體系的n個指標中,當某個指標vj的權重由βj增加到βj+σj時,為了保證所有指標的權重之和為1,其它(n-1)個指標平均每個指標的權重要減少σj/(n-1)。在可信度評價時共選取了3個指標,因此權值調整后的評價體系為:
在計算時,首先設置一個初始權重值,按照一定的步長逐漸增加σj,每改變一次權重都重新進行評價,直到評價后的排序不一致為止。由此可以得到使得評價排序穩定的權重波動范圍。用matlab軟件編寫程序,分析各指標權重的靈敏度,表2是分析結果。
5? 討論與建議
5.1 發現與討論
利用情感分析算法對文本進行處理,并將文本的情感傾向量化為一個值。研究發現,該值與星級評分有密切的關系。這很容易解釋,因為人們傾向于同時給出好的評論和高星級評價,同時給出壞的評論和低星級評價。會員用戶的評論更容易獲得點贊。這可能是因為此類用戶的評論通常比其他人長,他們寫過的評論條數也比其他人多。
特定的星級評分會引發更多的評論。例如,顧客在看到一系列的低星級評價后,更有可能寫一些不好的評論。同樣地,顧客在看到一系列的高星級評價后,更有可能寫出一些好的評論。
5.2 對商家的建議
通過高頻詞的提取和識別,可以發現電吹風、微波爐、嬰兒奶嘴這三種產品在眾多評論中其潛在的重要設計特征,以提高產品的可取性。結果顯示,商家應該集中精力改進產品的以下方面:
①電吹風:功率、熱度、外觀、價格、使用壽命。
②微波爐:外觀、空間、可維護性、發熱性、使用壽命。
③奶嘴:好看、干凈、容量、容納、可愛、洗滌。
另外,這三類產品的年銷售高峰是在12月到次年2月,所以建議商家應該在冬季(圣誕節前后)推出新產品。此外,每款商品從上市起,其評論數量和銷量都隨時間呈現指數式增長,這可以反映市場需求量。所以當商家進入網絡市場時,其生產廠家應該有充足的供應保證滿足市場指數增長的需求。
參考文獻:
[1]C. J. Hutto, Eric Gilbert. VADER: A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text[J]. 2014.
[2]Park N , Lee K M . Effects of online news forum on corporate reputation[J]. Public Relations Review, 2007, 33(3):346-348.
[3]俞立平,潘云濤,武夷山.科技評價靈敏度分析研究——單個指標與組合指標[J].軟科學,2009,23(008):1-4.