劉甲學+陶易



[摘要]通過對用戶的滿意度影響因素的分析,能夠幫助商家挖據用戶需求、提升用戶滿意度、從而提高商品銷量。本文使用商業智能軟件PowerBI對用戶評論文本進行數據挖掘,通過提取評論數據中的質量、物流、尺碼、價格、顏色等影響用戶滿意度影響的因素,利用情感分析法進行賦值,然后統計各影響因素的樣本得分,識別出價格和質量是最重要的影響因素。
[關鍵詞]評論數據;情感分析;用戶滿意度;影響因素
伴隨電子商務的蓬勃發展,電商網站下累積了大量用戶在線評論數據,通過對評論數據相關研究的解讀和分析,我們發現:評論數據是用戶表達真實需求和情感極性的重要途徑,故而可以挖掘出其隱藏的用戶偏好以及真實需求。姜巍等人創造性地將評論數據看作一種內容互連的網絡拓撲的形態,利用評論網絡節點的重要性來度量評論的有用性,該方法對用戶需求獲取能夠達到較高的準確率和覆蓋率。評論數據中的情感極性對商品銷量會產生一定程度地影響作用。如Sonnier,G.P.等人驗證了積極的評論數據、中性的評論數據、消極的評論數據都對銷量有著顯著影響作用。因此,通過對評論數據進行情感分析來挖掘用戶需求、提升用戶滿意度最終可以達到提高商品銷量的目的。本文將從用戶評論數據中提取如質量、顏色、服務等具有實體意義的影響因素指標,通過建設多維度數據集進行用戶滿意度影響因素研究。
1數據來源
本文對京東商城的用戶評論數據進行采集,使用網絡爬蟲軟件八爪魚對班尼路官方旗艦店男裝T恤(鏈接https://item.id.COB/1574267931.html)的用戶評論數據進行抓取,對每一條評論數據(如圖1所示)中方框內各字段進行抽取,抽取的字段分別是:用戶名、用戶級別、地區、用戶滿意度(星級好評)、評論文本、價格、商品信息、顏色、尺碼、評論時間、端口。將抽取的字段設置為自動導入數據庫中以備后續分析。
2數據的抽取、清理和加載
由于抽取到數據庫中的用戶名僅顯示首尾字符,中間字符是由星號鍵組成,故而容易出現不同用戶共享同一用戶名的情況或者同一用戶名在不同時期的評論被數據庫禁止讀入的情況發生,因此需要將序號代替用戶名作為表格中的主鍵進行分析以避免數據庫讀取數據失敗的情況發生。截止至2017年3月19日共抓取到7000條評論數據,故而形成一張樣本容量為7000條數據的評論數據總表(如表1所示)。數據庫可實現在線實時更新,抓取的網頁數據會自動加載到數據庫中的評論數據總表中,為減少數據冗余,需要對數據進行清理,減少垃圾數據的讀取。從競爭情報角度考慮,如果用戶名、用戶級別、地區三者完全一致的用戶可被視為同一用戶,因此可以設置聯合主鍵的方式作為同一用戶的判斷條件,如果數據庫中顯示較為接近的時間段內由大批用戶級別較低的評論涌入,則默認為是水軍;如果同一用戶在較為接近的時間段發表多條評論數據,則默認為是重復評論,只保留該用戶的第一條評論;前者的評論數據置信度較低,后者評論數據產生冗余,為保證研究結果的準確可靠性,應將這兩類的評論數據予以清除。
3用戶滿意度的影響因素指標
本文在數據庫存儲設計時創建多維數據集,從評論用戶本身出發,設計以地區、端口(上網設備)、用戶級別三個影響指標;從商品屬性出發,由表征商品特征屬性的特征詞質量、物流、尺碼、價格、顏色五個影響指標,如圖1所示。本文試圖從不同維度對用戶滿意度進行分析,商業智能軟件Power BI能夠實現對多維數據集進行數據處理,通過對用戶滿意度與影響指標間的各項數據進行自動化分析,尋找出用戶滿意度的關鍵影響因素。地區、端口、用戶級別三項指標都能較易地由字符串數據轉化為數值型數據;再利用情感分析法將評論文本中的字符型數據轉化為語義識別后的數值型數據,從而作為用戶滿意度影響指標中的可分析處理的自變量,從而被商業智能軟件識別和分析。
4評論文本的情感分析
4.1通過分詞提取特征詞
提取評論文本中特征詞的方法中,Li,F等人采用句法結構樹Skip-Tree CRFs提取評價特征詞進行情感極性分析。Li,C.w等人利用了情報學專業中常見的逆文本頻率指數(IDF)方法,對關鍵詞權重進行排序后提取重要特征詞并進行情感極性分析。這些方法效率雖高,但是忽略了評論文本中特征詞的同義詞產生的誤差,從而影響研究結果的可靠度。本文采用半自動化提取的方式,設定特征詞同義詞表以提高整個研究的準確度。具體方法是:特征值顯著的特點是詞性為名詞,因此本文通過對評論文本進行分詞并統計詞性為名詞的高頻特征詞即可得到用戶滿意度影響因素指標。分詞軟件采用PHP簡易中文分詞(SCWS)第四版,將7000條評論文本分詞為詞語\詞性(如質量\n)統計匯總后得到的高頻特征詞為以下幾類:質量、物流、尺碼、價格、顏色、活動、品牌、服務等;本文僅選取排名靠前的五項指標進行詳細分析,即將質量、物流、尺碼、價格、顏色作為用戶滿意度的影響因素指標進行后續分析。對出現特征詞的同義詞進行歸類形成一特征詞同義詞表,如表2所示。特征詞同義詞表的作用是避免重復提取特征詞以提高檢索效率。如評論“顏色很好看,色彩很美,價格便宜”,其中“顏色”和“色彩”都屬于顏色類特征詞,數據庫在提取同類型特征詞時設置為僅提取首次出現的特征詞,因此提取結果為特征詞“顏色”、“價格”,將提取結果導人數據庫一抽取詞表表格中,然后該條評論結束讀取跳轉至下一條評論。
4.2情感詞的定位及提取
相關學者將情感分析分為:有監督方法,如Ali,F采用機器學習的方法使用基于支持向量機(SVM)和改進版的模糊領域本體(FDO)方法進行情感極性判斷;無監督方法,如李欣等人采用無監督方法通過多重聚類算法進行情感極性判斷;f情感詞典方法,如馬松岳等人使用ROST EA情感詞典工具進行情感分析。特征詞顯著的標志是詞性為名詞,而情感詞則由多種詞性組成,常見的是由副詞和形容詞組成,本文中采用以對評論文本分詞后確定的特征詞位置為基準,在特征詞附近創建字符區間作為情感詞定位區間,例如“挺好,穿了一天,性價比挺高的?!狈衷~結果為“挺/v好/a穿/v了/v一/m天/n性價比/n挺/v高/a的/ui”。能夠定位到特征詞為“性價比”,屬于“價格”類,情感詞的取值范圍為“一/m天/n、挺/v高/a”,接下來需要通過數據庫的一情感詞表與一抽取詞表進行關聯匹配出情感詞并賦值得分。