鐘丁媛 高崢洲 金皓辰 陶昉昀



摘 要:網上購物的普及,在拉動消費經濟增長的過程中發揮著日益顯著的作用。然而,由于網絡購物的局限性,消費者無法了解商品的質量。因此,探索評論有用性有助于消費者做出購買決策,也有助于商家采取相應的銷售策略。本文對評論文本進行NLP文本處理,通過提取特征詞,建立情感文本語料庫,對評論文本的情感極性和主觀性進行分類,并驗證正確率達到88%。爾后構建評論有用性模型,分析了影響產品口碑的因素,利用亞馬遜11470條評論進行驗證,得到結論:評星極性越強、可讀性越強,有用性越強;幫助度投票與星級之間呈凹形關系。此外,擁有多功能產品的知名品牌更容易受到消費者的青睞。
關鍵詞:NLP情感分析;評論有用性;可讀性;Tobit
一、問題背景
(一)互聯網和網絡購物的快速發展
互聯網的出現和快速發展推動著網絡購物的迅速普及,拉動全球經濟的增長。作為全球最大的電商平臺,截至目前,亞馬遜在全球20多個國家和地區開展業務,引領全球電商的發展。
(二)商品口碑對消費者網購決策的影響
商品的口碑指人們自愿對商品的性能、質量等方面發表的評論。由于網絡購物的局限性,消費者只能通過商品描述、口碑等方式了解商品信息,因此購物存在一定的風險性。
(三)商家競爭不斷加大
由于網絡銷售經營成本低、可復制性強,同行業商家不斷涌入,各個行業的商家已趨近飽和狀態,因此商家間的行業競爭愈發激烈。為了在競爭中拔得頭籌,商家不得不采取相應的銷售策略,贏得競爭優勢。
二、NLP文字情感分析
數據文件提供了亞馬遜市場上微波爐、嬰兒奶嘴和吹風機的銷售狀況和用戶評價。首先,對數據進行處理和分析。
(一)數據預處理
清洗冗余數據,并檢驗是否存在異常數據。由于評論者是否為會員和是否購買商品,只有兩種答案,因此對其歸一化處理,“是”用1表示;“否”用0表示。
(二)評論文本處理
由于評論文本的詞數差異很大,詞數最多的評論達到了1569個詞,因此必須對評論文本進行處理。
首先引入停用詞的概念。停用詞是指處理搜索請求時會自動忽略的詞,大致分為兩類:一是應用廣泛詞,其不能保證搜索結果正是需要的,難以縮小搜索范圍。二是無明確意義的詞,如語氣詞、介詞等,只有放入完整的句子中才有意義。
然后,我們對評論文本進行如下處理:
1.基本特征提取
詞數:詞數影響閱讀時間和內容的理解程度。因此將評論句子切分,得到詞匯數量。
平均詞匯長度:詞匯長度越長,人們的理解難度越大。因此將評論所有的單詞長度除以單詞數,得到平均詞匯長度。
停用詞數量:計算停用詞的數量可以提供額外信息。通過調用NLTK庫計算停用詞的數量。
2.文本處理
小寫轉換:為了避免同一單詞存在多個副本,將評論中單詞均轉換為小寫。
刪除標點:標點在文本中不能提供有效信息,刪除標點將減少數據量。
刪除停用詞:刪除停用詞可以節省文本的存儲空間并提高搜索效率。
分詞與向量化:分詞指將文本劃分成一系列的單詞或詞組。通過分詞,將文本向量化,有助于計算特征詞的個數。
計算詞頻:詞頻指單詞在句子中出現的次數與句子總單詞數的比例。
經過處理,我們減少了特征詞的數目,但是仍然避免不了有些單詞出現頻率很高,但不具有代表性。另一方面,若單詞出現次數過少,具有強獨特性,對特征詞無幫助。因此我們去除出現頻率高于0.8或出現次數小于3次的單詞。經過處理,特征詞的數目降到大約4000個。
3.模型訓練
隨機取75%的評論數據作為訓練集,剩下的作為驗證集,對模型進行訓練。
情感分析:使用TextBlob判斷特征詞的極性和主觀性。其中,極性取[-1,1]間的浮點數,正數表示積極,負數表示消極。同樣地,主觀性取值中,0表示客觀,1表示主觀。我們利用訓練集模擬,并預測了對情感分類標記,將預測結果讀入scikit-learn測量工具集,得出預測準確率為86.51%。
混淆矩陣:可用來評價精度。由于單看準確率不太全面,因此利用混淆矩陣驗證預測的準確率,得出情感分類結果,如圖1所示:
由此得出,特征詞為正向,預測結果也為正的數量為436;負向且預測也為負的數量為2045,這表明預測正確的特征詞數量遠高于預測錯誤的數量。
ROC曲線:反應模型在選取不同閾值時的敏感性和精確性趨勢走向。對訓練集樣本進行排序,計算真正例率和假正例率。AUC是ROC曲線與坐標軸圍成的面積,介于0~1之間,值越大則分類越好。得出ROC曲線圖,如圖2所示:
由此,得到AUC的值為0.88,進一步說明了我們對特征詞的分類效果很好。
經過評論文本處理,我們得出了所有評論文本的正負面評價數和情感數,并計算出這些特征詞的極性和主觀性。如"This item it's been working perfectly fine,I'm glad i ordered!!"中,特征詞11個,包含正面評價數2個、正面情感數1個,該評論極性為0.458,評論主觀性為0.75。
三、評論有用性模型的建立
通常一條完整的商品評論包含:產品ID、評論ID、評星、有用性投票、評論總投票數和評論文本。高質量的評論可以客觀、全面地反應產品的優缺點,直觀反應用戶的使用體驗;低質量的評論對潛在購買者的參考價值不大,還可能存在虛假信息,從而產生誤導。
(一)影響評論有用性的因素
1.評論文本
評論字數:一般而言,評論字數越多,包含商品細節越多。但是細節過多會導致信息超載,降低評論可讀性。評論字數對有用性的影響存在一個臨界點——144個字,一旦超過這個值,字數與有用性的關系變得不顯著。[1]
評星:評星是一個更為直觀的評價商品好壞的標準。
評論可讀性:可讀性是基于評論文本的長度、單詞復雜度等變量的綜合計算,在一定程度上反映評論文本的易理解性。通俗易懂的文字可以提高瀏覽者的理解度和閱讀速度,進而提升評論的有用性。但是,用詞復雜的評論往往看起來更加專業,更容易得到讀者的信任。從單詞極性來看,評論文本特征詞中情感詞的數量和強度也會影響有用性。
與其他評論的交互作用:評論的呈現順序會影響消費者對有用性的判斷,靠前的評論曝光度高,瀏覽量大,有用性高。由于人們的從眾心理,與大眾觀點一致的評論更為可信。但與總體評分偏差較大的評論能提供與眾不同的觀點和體驗,也具有參考價值。
2.評論者因素
評論者的身份:評論者言論的可信度水平直接影響到評論有用性。網絡購物者用戶身份只能通過ID、照片等因素來判斷。一般而言,身份信息越明顯,評論可信度越高。
是否為會員:基于用戶在評論方面所獲得的信任,極有可能被邀請成為亞馬遜會員,其評論會被認為可信度更高,從而更容易幫助潛在消費者做出決策。
購買經驗:亞馬遜平臺允許未購買商品的用戶做出評論,因此用戶是否購買商品也應被考慮。
(二)可讀性測試
可讀性測試的目的是基于文本內容,告訴評論瀏覽者理解評論的難度,一般用比例的形式表達。目前,計算可讀性的主要方式有如下幾種:[2]
Gunning FOG Index
該指數可從詞數、難度、句子數量和平均句長等方面考察文本閱讀難度,將具有兩個以上音節的單詞作為復雜單詞。
以上四個公式均是通過將文本分解成基本結構來評估文本的可讀性,然后使用經驗回歸公式將這些元素組合。FOG和CLI指數衡量的是復雜性,而FK和ARI指數衡量的是閱讀難度。由于在數據處理過程中,我們已經得出了以上變量的值,因此可以很方便地計算。
(三)探究因素的相關性
1.商品總體滿意度
用戶對商品的評星反映了顧客的總體滿意度。吹風機的總體滿意度為4.12分,微波爐為3.44分,奶嘴為4.30分。用戶具體評星分布如圖3所示:
投票中5星的數量最多,然后是4星和1星。在對商品進行評星時,人們、使用單一指標評價,往往會給出極性強的結果。因為極性強的評論,傳達的信息是片面的,比提供雙邊消息容易。
2.幫助度和星級的關系
本文將認為評論有幫助的投票數作為評論的幫助度。并沒有常規地使用幫助率,是因為考慮了主觀性。對于幫助率為75%的評論而言,4人中3人贊同與100人中75人贊同的評論,人們往往認為后者可信度更高。
對于吹風機而言,其11470條評論中,得到幫助度反饋的共有4329條。其幫助率分布如圖4所示:
由圖可知,這些評論中,2280條得到了評論瀏覽者的滿分,占52.67%,這表明超過一半的評論受到高度贊揚。另一方面,630條極端反對,占14.55%,這部分評論被瀏覽評論的人認為沒有幫助。
將幫助率具體劃分到五個評星中,計算各個星級的頻次。其中,認為評論完全幫助的人數遠大于其他人數,認為評論完全沒幫助的人數僅次于它,且不同星級評論的幫助度分布具有一致性。此外,幫助度與星級存在凹評級關系,即極性評星的頻數大,非極性評論的頻數小。
3.因素相關性
Spearman相關系數用來根據等級研究兩個變量間相關性,計算兩列成對等級的各對等級數之差。對于樣本容量為n的樣本,n個原始數據被轉換為等級數據,計算其相關系數。
為了防止文本極性和評星極性不匹配,我們探究評論文本極性、主觀性和評星間的相關性。計算相關系數得出,三者存在較高的相關性。
對樣本進行Spearman非參數項間相關性分析,以評估不同因素間的相互關系。通過計算各指標間間的相關系數,得到這些因素間存在顯著的相關性,其中,星級與其余因素呈負相關,其他均呈正相關。值得注意的是,四個可讀性測試指標間顯示了較高的相關性。也進一步證實了幫助度受文本可讀性影響。
(四)模型建立
1.評論幫助度模型建立
下面進一步探究文本結構對幫助度的影響,及其與評論人數的關系。換句話說,探究極端評論高曝光度對可讀性的影響。為此建立如下模型:
表中r2給出了模型的預測能力。模型1顯示,評分對幫助率的二次效應無顯著性,可能是由于數據中存在過多的強積極性評論,與強消極性評論的差值過大,使得凹關系不顯著。單詞數量顯著卻對幫助率沒有影響;而評價等級有顯著影響。
模型2考慮到評論文本結構和風格對幫助率的影響,評價等級的影響效果略有下降,但模型的擬合度提高,且四個可讀性系數的值都比字數高,這意味著可讀性比評論長度對有用性的影響更大。
模型3的擬合度增加了38.53%。表明雖然總票數和有幫助投票數的二次效應不顯著,但是模型的擬合度增加。
四、評論有用性模型的檢驗
(一)評論特征對有用性影響的檢驗
接下來我們想探究幫助率是否反作用于評論特征。為此,我們將數據按照幫助率和評星數劃分為以下幾類:
(1)評論幫助率低于或高于0.5。
(2)評論幫助率低于0.25或高于0.75。
(3)低星評論(1-2星)或高星評論(4-5星)。
(4)極性強的評論,即一星或五星評論。
1.評論極性和可讀性對有用性的影響
盡管組內的單詞數和均值有一定的差距,但組間差距很小。由此證實了評論長度受評星的影響。從文本中包含的單詞數量可以看出,評星積極的評論往往包含更多的文本信息。
(二)品牌對有用性的影響
網上銷售中,人們往往會注重商品品牌和功能。篩選出吹風機銷量大于100的商品,并根據品牌進行合并,得出位于前四個的品牌是Conair,Andis,Remington和Revlon。其中Conair的銷量為3315,Andis為2162,遠高于其他品牌。這四個品牌中,最熱門的單品銷量分別為535,555,587,297,前三熱銷商品銷量沒有太大區別,但Conair和Andis商品型號多、功能強,造成銷量差距。
考慮到商品口碑的因素,我們根據用戶的評價及評星,統計出詞頻最高的詞,如圖5、6所示:
由此得出商品銷售的啟示:在商品標題中標明功率、顏色、質地等關鍵詞,以便消費者更直觀地做出購買決策。
五、結語
從單個因素來看:評論字數越多,提供細節越多,有用性越強。但評論字數超過144個時,字數與有用性的關系不顯著。評星極性越強、可讀性越高,有用性越強。評論的呈現順序越靠前,曝光度越大,有用性越強??紤]到不同因素的相關性:評論文本的極性、主觀性和評論星級間存在較高的相關性,顯著性強。極性評論可讀性更強,有用性更強。評論幫助度受積極評論影響:隨著評星增加,幫助度有一個顯著的上升趨勢。評論的幫助度與星級具有凹評級關系,即極性星級頻數大,非極性評論頻數小;但評分對幫助度的二次效應沒有顯著性??勺x性測試指標間顯示了較高的相關性。此外,商品品牌和功能也影響著評論有用性。商品型號多、功能豐富,能滿足廣大用戶的購買需求,因此其商品評論有用性強。
這一結論有助于企業采取干預策略,提高自身的市場競爭力,如:加強良好的產品宣傳,打造有吸引力的產品名稱,不斷優化產品設計,更加貼近市場需求;注重售后服務體系的完善和優質客戶的培養。
參考文獻:
[1]Albert H.Huang,Kuanchin Chen,David C.Yen,Trang P.Tran.A study of factors that contribute to online review helpfulness[J].Computers in Human Behavior,2015,48.
[2]NikolaosKoratis,ElenaGarcía-Bariocanal,SalvadorSánchez-Alonso.Evaluatingcontentqualityandhelpfulness of online product reviews:The interplay of review helpfulness vs.review content[J].Electronic CommerceResearchandApplications,2012,11(3).
基金項目:2020年1月國家自然科學基金面上項目“Navier-Stokes-Allen-Cahn方程組的數學理論研究”(項目編號:11971234);2017年5月南京林業大學“國際教育學院中外合作辦學高水平示范”(項目編號:164101005);2017年7月南京林業大學“2017年教學質量提升工程”(項目編號:163101812);2018年7月南京林業大學“高等教育研究所通過數學建模競賽提高創新性人才培養研究”(項目編號:163101147);2018年7月南京林業大學“基于數據分析的“智能化”新莊立交交通的研究和建模”(項目編號:201810298062Z);2019年6月南京林業大學“Imiracle”——多維學習研討與輔助教學小程序的研發”(項目編號:2019NFUSPITP1040);2019年6月南京林業大學“多維學習研討與輔助教學小程序的研發”(項目編號:201910298203T)
作者簡介:鐘丁媛(1999—),女,漢族,江蘇揚州人,南京林業大學理學院2017級在讀本科生,研究方向:應用數學。