999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP文字處理的評論有用性探究

2020-11-23 07:35:18鐘丁媛高崢洲金皓辰陶昉昀
科技風 2020年31期

鐘丁媛 高崢洲 金皓辰 陶昉昀

摘 要:網上購物的普及,在拉動消費經濟增長的過程中發揮著日益顯著的作用。然而,由于網絡購物的局限性,消費者無法了解商品的質量。因此,探索評論有用性有助于消費者做出購買決策,也有助于商家采取相應的銷售策略。本文對評論文本進行NLP文本處理,通過提取特征詞,建立情感文本語料庫,對評論文本的情感極性和主觀性進行分類,并驗證正確率達到88%。爾后構建評論有用性模型,分析了影響產品口碑的因素,利用亞馬遜11470條評論進行驗證,得到結論:評星極性越強、可讀性越強,有用性越強;幫助度投票與星級之間呈凹形關系。此外,擁有多功能產品的知名品牌更容易受到消費者的青睞。

關鍵詞:NLP情感分析;評論有用性;可讀性;Tobit

一、問題背景

(一)互聯網和網絡購物的快速發展

互聯網的出現和快速發展推動著網絡購物的迅速普及,拉動全球經濟的增長。作為全球最大的電商平臺,截至目前,亞馬遜在全球20多個國家和地區開展業務,引領全球電商的發展。

(二)商品口碑對消費者網購決策的影響

商品的口碑指人們自愿對商品的性能、質量等方面發表的評論。由于網絡購物的局限性,消費者只能通過商品描述、口碑等方式了解商品信息,因此購物存在一定的風險性。

(三)商家競爭不斷加大

由于網絡銷售經營成本低、可復制性強,同行業商家不斷涌入,各個行業的商家已趨近飽和狀態,因此商家間的行業競爭愈發激烈。為了在競爭中拔得頭籌,商家不得不采取相應的銷售策略,贏得競爭優勢。

二、NLP文字情感分析

數據文件提供了亞馬遜市場上微波爐、嬰兒奶嘴和吹風機的銷售狀況和用戶評價。首先,對數據進行處理和分析。

(一)數據預處理

清洗冗余數據,并檢驗是否存在異常數據。由于評論者是否為會員和是否購買商品,只有兩種答案,因此對其歸一化處理,“是”用1表示;“否”用0表示。

(二)評論文本處理

由于評論文本的詞數差異很大,詞數最多的評論達到了1569個詞,因此必須對評論文本進行處理。

首先引入停用詞的概念。停用詞是指處理搜索請求時會自動忽略的詞,大致分為兩類:一是應用廣泛詞,其不能保證搜索結果正是需要的,難以縮小搜索范圍。二是無明確意義的詞,如語氣詞、介詞等,只有放入完整的句子中才有意義。

然后,我們對評論文本進行如下處理:

1.基本特征提取

詞數:詞數影響閱讀時間和內容的理解程度。因此將評論句子切分,得到詞匯數量。

平均詞匯長度:詞匯長度越長,人們的理解難度越大。因此將評論所有的單詞長度除以單詞數,得到平均詞匯長度。

停用詞數量:計算停用詞的數量可以提供額外信息。通過調用NLTK庫計算停用詞的數量。

2.文本處理

小寫轉換:為了避免同一單詞存在多個副本,將評論中單詞均轉換為小寫。

刪除標點:標點在文本中不能提供有效信息,刪除標點將減少數據量。

刪除停用詞:刪除停用詞可以節省文本的存儲空間并提高搜索效率。

分詞與向量化:分詞指將文本劃分成一系列的單詞或詞組。通過分詞,將文本向量化,有助于計算特征詞的個數。

計算詞頻:詞頻指單詞在句子中出現的次數與句子總單詞數的比例。

經過處理,我們減少了特征詞的數目,但是仍然避免不了有些單詞出現頻率很高,但不具有代表性。另一方面,若單詞出現次數過少,具有強獨特性,對特征詞無幫助。因此我們去除出現頻率高于0.8或出現次數小于3次的單詞。經過處理,特征詞的數目降到大約4000個。

3.模型訓練

隨機取75%的評論數據作為訓練集,剩下的作為驗證集,對模型進行訓練。

情感分析:使用TextBlob判斷特征詞的極性和主觀性。其中,極性取[-1,1]間的浮點數,正數表示積極,負數表示消極。同樣地,主觀性取值中,0表示客觀,1表示主觀。我們利用訓練集模擬,并預測了對情感分類標記,將預測結果讀入scikit-learn測量工具集,得出預測準確率為86.51%。

混淆矩陣:可用來評價精度。由于單看準確率不太全面,因此利用混淆矩陣驗證預測的準確率,得出情感分類結果,如圖1所示:

由此得出,特征詞為正向,預測結果也為正的數量為436;負向且預測也為負的數量為2045,這表明預測正確的特征詞數量遠高于預測錯誤的數量。

ROC曲線:反應模型在選取不同閾值時的敏感性和精確性趨勢走向。對訓練集樣本進行排序,計算真正例率和假正例率。AUC是ROC曲線與坐標軸圍成的面積,介于0~1之間,值越大則分類越好。得出ROC曲線圖,如圖2所示:

由此,得到AUC的值為0.88,進一步說明了我們對特征詞的分類效果很好。

經過評論文本處理,我們得出了所有評論文本的正負面評價數和情感數,并計算出這些特征詞的極性和主觀性。如"This item it's been working perfectly fine,I'm glad i ordered!!"中,特征詞11個,包含正面評價數2個、正面情感數1個,該評論極性為0.458,評論主觀性為0.75。

三、評論有用性模型的建立

通常一條完整的商品評論包含:產品ID、評論ID、評星、有用性投票、評論總投票數和評論文本。高質量的評論可以客觀、全面地反應產品的優缺點,直觀反應用戶的使用體驗;低質量的評論對潛在購買者的參考價值不大,還可能存在虛假信息,從而產生誤導。

(一)影響評論有用性的因素

1.評論文本

評論字數:一般而言,評論字數越多,包含商品細節越多。但是細節過多會導致信息超載,降低評論可讀性。評論字數對有用性的影響存在一個臨界點——144個字,一旦超過這個值,字數與有用性的關系變得不顯著。[1]

評星:評星是一個更為直觀的評價商品好壞的標準。

評論可讀性:可讀性是基于評論文本的長度、單詞復雜度等變量的綜合計算,在一定程度上反映評論文本的易理解性。通俗易懂的文字可以提高瀏覽者的理解度和閱讀速度,進而提升評論的有用性。但是,用詞復雜的評論往往看起來更加專業,更容易得到讀者的信任。從單詞極性來看,評論文本特征詞中情感詞的數量和強度也會影響有用性。

與其他評論的交互作用:評論的呈現順序會影響消費者對有用性的判斷,靠前的評論曝光度高,瀏覽量大,有用性高。由于人們的從眾心理,與大眾觀點一致的評論更為可信。但與總體評分偏差較大的評論能提供與眾不同的觀點和體驗,也具有參考價值。

2.評論者因素

評論者的身份:評論者言論的可信度水平直接影響到評論有用性。網絡購物者用戶身份只能通過ID、照片等因素來判斷。一般而言,身份信息越明顯,評論可信度越高。

是否為會員:基于用戶在評論方面所獲得的信任,極有可能被邀請成為亞馬遜會員,其評論會被認為可信度更高,從而更容易幫助潛在消費者做出決策。

購買經驗:亞馬遜平臺允許未購買商品的用戶做出評論,因此用戶是否購買商品也應被考慮。

(二)可讀性測試

可讀性測試的目的是基于文本內容,告訴評論瀏覽者理解評論的難度,一般用比例的形式表達。目前,計算可讀性的主要方式有如下幾種:[2]

Gunning FOG Index

該指數可從詞數、難度、句子數量和平均句長等方面考察文本閱讀難度,將具有兩個以上音節的單詞作為復雜單詞。

以上四個公式均是通過將文本分解成基本結構來評估文本的可讀性,然后使用經驗回歸公式將這些元素組合。FOG和CLI指數衡量的是復雜性,而FK和ARI指數衡量的是閱讀難度。由于在數據處理過程中,我們已經得出了以上變量的值,因此可以很方便地計算。

(三)探究因素的相關性

1.商品總體滿意度

用戶對商品的評星反映了顧客的總體滿意度。吹風機的總體滿意度為4.12分,微波爐為3.44分,奶嘴為4.30分。用戶具體評星分布如圖3所示:

投票中5星的數量最多,然后是4星和1星。在對商品進行評星時,人們、使用單一指標評價,往往會給出極性強的結果。因為極性強的評論,傳達的信息是片面的,比提供雙邊消息容易。

2.幫助度和星級的關系

本文將認為評論有幫助的投票數作為評論的幫助度。并沒有常規地使用幫助率,是因為考慮了主觀性。對于幫助率為75%的評論而言,4人中3人贊同與100人中75人贊同的評論,人們往往認為后者可信度更高。

對于吹風機而言,其11470條評論中,得到幫助度反饋的共有4329條。其幫助率分布如圖4所示:

由圖可知,這些評論中,2280條得到了評論瀏覽者的滿分,占52.67%,這表明超過一半的評論受到高度贊揚。另一方面,630條極端反對,占14.55%,這部分評論被瀏覽評論的人認為沒有幫助。

將幫助率具體劃分到五個評星中,計算各個星級的頻次。其中,認為評論完全幫助的人數遠大于其他人數,認為評論完全沒幫助的人數僅次于它,且不同星級評論的幫助度分布具有一致性。此外,幫助度與星級存在凹評級關系,即極性評星的頻數大,非極性評論的頻數小。

3.因素相關性

Spearman相關系數用來根據等級研究兩個變量間相關性,計算兩列成對等級的各對等級數之差。對于樣本容量為n的樣本,n個原始數據被轉換為等級數據,計算其相關系數。

為了防止文本極性和評星極性不匹配,我們探究評論文本極性、主觀性和評星間的相關性。計算相關系數得出,三者存在較高的相關性。

對樣本進行Spearman非參數項間相關性分析,以評估不同因素間的相互關系。通過計算各指標間間的相關系數,得到這些因素間存在顯著的相關性,其中,星級與其余因素呈負相關,其他均呈正相關。值得注意的是,四個可讀性測試指標間顯示了較高的相關性。也進一步證實了幫助度受文本可讀性影響。

(四)模型建立

1.評論幫助度模型建立

下面進一步探究文本結構對幫助度的影響,及其與評論人數的關系。換句話說,探究極端評論高曝光度對可讀性的影響。為此建立如下模型:

表中r2給出了模型的預測能力。模型1顯示,評分對幫助率的二次效應無顯著性,可能是由于數據中存在過多的強積極性評論,與強消極性評論的差值過大,使得凹關系不顯著。單詞數量顯著卻對幫助率沒有影響;而評價等級有顯著影響。

模型2考慮到評論文本結構和風格對幫助率的影響,評價等級的影響效果略有下降,但模型的擬合度提高,且四個可讀性系數的值都比字數高,這意味著可讀性比評論長度對有用性的影響更大。

模型3的擬合度增加了38.53%。表明雖然總票數和有幫助投票數的二次效應不顯著,但是模型的擬合度增加。

四、評論有用性模型的檢驗

(一)評論特征對有用性影響的檢驗

接下來我們想探究幫助率是否反作用于評論特征。為此,我們將數據按照幫助率和評星數劃分為以下幾類:

(1)評論幫助率低于或高于0.5。

(2)評論幫助率低于0.25或高于0.75。

(3)低星評論(1-2星)或高星評論(4-5星)。

(4)極性強的評論,即一星或五星評論。

1.評論極性和可讀性對有用性的影響

盡管組內的單詞數和均值有一定的差距,但組間差距很小。由此證實了評論長度受評星的影響。從文本中包含的單詞數量可以看出,評星積極的評論往往包含更多的文本信息。

(二)品牌對有用性的影響

網上銷售中,人們往往會注重商品品牌和功能。篩選出吹風機銷量大于100的商品,并根據品牌進行合并,得出位于前四個的品牌是Conair,Andis,Remington和Revlon。其中Conair的銷量為3315,Andis為2162,遠高于其他品牌。這四個品牌中,最熱門的單品銷量分別為535,555,587,297,前三熱銷商品銷量沒有太大區別,但Conair和Andis商品型號多、功能強,造成銷量差距。

考慮到商品口碑的因素,我們根據用戶的評價及評星,統計出詞頻最高的詞,如圖5、6所示:

由此得出商品銷售的啟示:在商品標題中標明功率、顏色、質地等關鍵詞,以便消費者更直觀地做出購買決策。

五、結語

從單個因素來看:評論字數越多,提供細節越多,有用性越強。但評論字數超過144個時,字數與有用性的關系不顯著。評星極性越強、可讀性越高,有用性越強。評論的呈現順序越靠前,曝光度越大,有用性越強??紤]到不同因素的相關性:評論文本的極性、主觀性和評論星級間存在較高的相關性,顯著性強。極性評論可讀性更強,有用性更強。評論幫助度受積極評論影響:隨著評星增加,幫助度有一個顯著的上升趨勢。評論的幫助度與星級具有凹評級關系,即極性星級頻數大,非極性評論頻數小;但評分對幫助度的二次效應沒有顯著性??勺x性測試指標間顯示了較高的相關性。此外,商品品牌和功能也影響著評論有用性。商品型號多、功能豐富,能滿足廣大用戶的購買需求,因此其商品評論有用性強。

這一結論有助于企業采取干預策略,提高自身的市場競爭力,如:加強良好的產品宣傳,打造有吸引力的產品名稱,不斷優化產品設計,更加貼近市場需求;注重售后服務體系的完善和優質客戶的培養。

參考文獻:

[1]Albert H.Huang,Kuanchin Chen,David C.Yen,Trang P.Tran.A study of factors that contribute to online review helpfulness[J].Computers in Human Behavior,2015,48.

[2]NikolaosKoratis,ElenaGarcía-Bariocanal,SalvadorSánchez-Alonso.Evaluatingcontentqualityandhelpfulness of online product reviews:The interplay of review helpfulness vs.review content[J].Electronic CommerceResearchandApplications,2012,11(3).

基金項目:2020年1月國家自然科學基金面上項目“Navier-Stokes-Allen-Cahn方程組的數學理論研究”(項目編號:11971234);2017年5月南京林業大學“國際教育學院中外合作辦學高水平示范”(項目編號:164101005);2017年7月南京林業大學“2017年教學質量提升工程”(項目編號:163101812);2018年7月南京林業大學“高等教育研究所通過數學建模競賽提高創新性人才培養研究”(項目編號:163101147);2018年7月南京林業大學“基于數據分析的“智能化”新莊立交交通的研究和建模”(項目編號:201810298062Z);2019年6月南京林業大學“Imiracle”——多維學習研討與輔助教學小程序的研發”(項目編號:2019NFUSPITP1040);2019年6月南京林業大學“多維學習研討與輔助教學小程序的研發”(項目編號:201910298203T)

作者簡介:鐘丁媛(1999—),女,漢族,江蘇揚州人,南京林業大學理學院2017級在讀本科生,研究方向:應用數學。

主站蜘蛛池模板: 波多野结衣中文字幕久久| 午夜视频免费一区二区在线看| 欧美中日韩在线| 在线精品亚洲一区二区古装| 久久毛片网| 真实国产乱子伦高清| 老汉色老汉首页a亚洲| 国产迷奸在线看| 五月婷婷丁香色| 一本大道视频精品人妻| 日韩欧美91| 日本三区视频| 伊在人亞洲香蕉精品區| 香蕉伊思人视频| 国产成人综合在线视频| 四虎免费视频网站| 特级aaaaaaaaa毛片免费视频| 国产丝袜一区二区三区视频免下载| 国产十八禁在线观看免费| 亚洲精品成人7777在线观看| 欧美国产日韩另类| 国产99在线| 精品自窥自偷在线看| 色播五月婷婷| 亚洲伊人久久精品影院| 精品久久久久久中文字幕女| 中文成人无码国产亚洲| 国产午夜无码专区喷水| 97在线免费| 精品国产自在现线看久久| 97成人在线观看| 国产欧美日韩视频一区二区三区| 免费人成黄页在线观看国产| 久久www视频| 亚洲免费黄色网| 九九热精品视频在线| 亚洲乱亚洲乱妇24p| 夜夜高潮夜夜爽国产伦精品| 伊人天堂网| 亚洲精品手机在线| 风韵丰满熟妇啪啪区老熟熟女| 国产精品午夜福利麻豆| 欧美福利在线观看| 亚洲男人天堂网址| 国产永久无码观看在线| 九九九精品视频| 成人午夜视频在线| 熟女视频91| 久久一色本道亚洲| 亚洲男人的天堂在线观看| 精品免费在线视频| 日韩在线成年视频人网站观看| 亚洲免费三区| 秋霞一区二区三区| 国产成人无码AV在线播放动漫| 国产在线视频自拍| 国产人前露出系列视频| 国产麻豆精品手机在线观看| 国产精品久久久久久影院| 毛片一级在线| 国产制服丝袜91在线| 依依成人精品无v国产| 亚亚洲乱码一二三四区| 国产精品亚洲欧美日韩久久| 天天综合色网| 国产乱人免费视频| 国产福利大秀91| 欧美激情第一欧美在线| 日韩一区二区三免费高清| 国产精品永久久久久| 91精品网站| 国产在线拍偷自揄观看视频网站| 国产人碰人摸人爱免费视频| 日韩av在线直播| av一区二区三区高清久久| 2022国产91精品久久久久久| 国产成人a毛片在线| 99国产在线视频| 亚洲一区二区无码视频| 亚洲视频在线网| 国产成人欧美| 国产在线专区|