基于文本分析的亞馬遜市場數據財富探索

2020-08-19 06:47:29陳富秋張棋黃青松

電腦知識與技術 2020年19期

陳富秋張棋黃青松

摘要：亞馬遜作為全球最大的產品在線零售商，其市場數據集中包含產品、客戶及其評論的詳細信息，若能基于顧客評論和商品信息進行文本分析，對于想要參與亞馬遜平臺的上市公司的產品投放和營銷手段具有極大的商業價值。因此，本文旨在利用自然語言處理分析顧客的評論文本，研究顧客購物的情感傾向，結合商品星級過濾出更加客觀的評價;構建商品的“評論星級”，并基于該星級建立評論的終極星級的時間序列模型，以此來預測某種商品的市場聲譽變化。

關鍵詞：文本分析;自然語言處理;時間序列;市場預測

中圖分類號：TP391文獻標識碼：A

文章編號：1009-3044（2020）19-0196-05

開放科學（資源服務）標識碼（OSID）：

1 問題簡述

在亞馬遜的在線市場中[1]，它為顧客提供了一個評論商品的機會。由亞馬遜公司給出的官方數據可以得知，該數據集包含商品名稱，其中被稱為“星級”的個人評級允許購買者使用1（低評級，低滿意度）到5（高評級，高滿意度）的等級來表達他們對產品的滿意度。此外，顧客還可以提交被稱為“評論”的基于文本的信息，可以具體描述商品體驗感受或缺陷。其他客戶可以在這些評論中提供有幫助或沒有幫助的評級，以幫助他們做出自己的產品購買決定。

通過建立數學模型研究以下問題：

問題一：陽光公司計劃在網上市場推出并銷售三種新產品：微波爐、嬰兒奶嘴和吹風機。該公司的數據中心提供了三種產品的數據文件。這些數據代表了在數據顯示的時間段內亞馬遜市場上銷售的微波爐、嬰兒奶嘴和電吹風的客戶的商品評論信息和商品評級。分析所提供的三個產品數據集，基于顧客評論的文本信息和商品評級建立衡量標準，為陽光公司在其三個新的在線市場產品中取得成功。

問題二：，確定并討論每個數據集內基于時間的度量模式，這些度量模式可能表明一個產品在網上市場的聲譽在增加或減少，以此來考慮產品的發展市場。

2 問題分析

2.1 問題一的分析

如表1所示，是顧客評論集的部分數據展示，針對該數據集中的各個字段，星級表示該顧客對該商品打出的評價等級，以此表達顧客對該商品的滿意程度。針對其余瀏覽該條評論的顧客，他們可以對任意評論做出自己的判斷，如果認為該評論對自己購買該商品有幫助，就投出有用票。此外，在亞馬遜商城中有一類特殊用戶-Vine會員，他們因撰寫準確而有見地的評論而贏得的了信任，并成為會員，亞馬遜會為該類會員提供免費的產品試用機會，該會員可以根據自己的用后體驗編寫評論，并且該會員的評論亞馬遜后臺無法修改或編輯。針對評論的可靠性，可以一定程度上依據該顧客是否真實購買過該產品進行初步判斷。除此之外，該數據集還記錄了每條評論的標題、具體文本內容以及評價時間，供其他顧客考量。

基于上述數據集，我們需要從評論的文本信息和商品星級給出綜合的產品評價標準，因為在現實生活中，不免會出現有顧客惡意打低分或者故意打高分的虛假評論現象，因此我們需要在已有評論的基礎上，結合該商品的星級、評論內容以及該條評論的有用票數，為每一條評論重新定義一個全新的綜合評級，以此更加客觀全面地判斷某類商品所在的顧客市場反響如何。

2.2 問題二的分析

由于在評價過程中，存在商品評級與評論的文本內容不一致的現象，為此我們提出“評論星級”，通過比較“商品星級”和“評論星級”剔除評論內容前后不一致的數據。并在此基礎上綜合考慮“商品星級”和“評論星級”得到評論的終極星級，根據往年數據，基于時間序列，建立綜合星級和時間變化的數學模型，并以此來預測在未來時間內三類商品的市場的聲譽變化趨勢。

3 模型假設

假設1：給出評論的顧客的是否購買記錄對瀏覽商品評價的讀者的購買意向沒有影響。

假設2：在該數據集中，回頭客的現象很少，因此不考慮回頭客對商品評論的影響。

4 符號說明

5 模型—的建立與求解

5.1 模型建立

為了評判評論給定的商品星級與評論的文本內容是否一致，我們需要對評論內容進行自然語言處理（NLP）[2]。我們調用已有的詞典對文本進行分類，首先利用正則表達式按空格和符號分詞符剔除停用詞[3]，這類詞匯會對基于詞頻的算法公式產生很大的干擾。我們需要從評論內容中提取出詞干，比如單詞的單復數形式、動詞時態以及組合單詞，并利用詞典進行歸一化處理。首先，計算一個詞匯的基礎頻率：

由于亞馬遜商城存在Vine用戶，其發表評論的真實度和關注度遠比普通用戶高，故不同種類用戶的評論影響程度可用如下公式表示：

在提供的數據集中，有幫助投票數也會對綜合星級的評定產生影響，我們將其影響程度轉化為百分比Pi。我們規定，當評論沒有獲得任何投票數，該條評論不會對評論的綜合星級評定產生影響，Pi=1;當評論的總投票數不為0時，若有幫助投票數超過總投票數的一半時，將對評價產生積極的影響;當有幫助投票數低于總投票數的一半時，將對評價產生消極的影響，故：

5.2 模型求解

針對三類產品，我們將其用戶評論的文本內容進行文本情感分析后，得到圖2所示結果。

在求解每一類產品評論的綜合星級時，我們根據用戶的不同類型，將其評論數量、評論的總投票數量、評論的影響程度、用戶的影響率做了如表3所示的統計。

在綜合考慮了評論的文本內容、商品星級、有幫助投票數、用戶影響度的基礎上，我們重新制定了三類商品每一條評論的綜合星級，求解結果如圖3-圖5。

從上述結果圖可以發現，三類產品評論的星級都有不同程度的變化，這表明原始的用戶評論，存在部分不實現象，在綜合考慮了評論文本情感、有幫助投票數、用戶影響度等諸多因素后，綜合星級更加客觀準確，也更為其他用戶提供更加真實的參考價值。

6 模型二的建立與求解

6.1 模型建立

在提供的數據集中，我們發現部分評論的商品星級和評論的文本內容不一致。例如，某用戶為某一商品給出的星級是一星，但評價的內容卻是“我喜歡這件商品”，我們將之稱為“低分好評”。與之對應，也會存在“高分差評”的現象，因此我們需要對這類數據進行處理，剔除這部分沒有價值的數據。基于此，我們根據每條評論的文本內容，給每一條評論評定一個星級，稱為“評論星級”記為si，其也屬于1至5星級。

6.2 模型求解

基于上述模型中的多項式，我們利用Matlab中的spline函數對三類產品進行散點圖的擬合并得到較為光滑的曲線，從而求解出36x4的系數矩陣，以此得到三類產品關于時間變化的多項式函數。如圖7-9展示了微波爐、吹風機、奶嘴三類產品的擬合曲線。

針對上述擬合曲線，利用Matlab工具統計出一系列數據驗證擬合曲線的正確性，如表4所示。其中，SSE的值越接近于0，R-square的值越接近于1表明曲線的擬合效果越好。

在擬合曲線的基礎上，我們可以求得三類產品關于時間的終極星級變化多項式，基于該多項式，我們可以分別預測三類產品在未來1月的終極星級變化，如圖10所示。以及以年為單位的終極星級變化趨勢，如圖11所示。由圖10可知，在未來一個月，微波爐的終極星級較之上月有所上升，而吹風機和奶嘴的終極星級均有一定程度下降。而在未來一年，微波爐的終極星級較之往年會有所下降，吹風機和奶嘴的終極星級較之往年均有小幅度的上升。

7 結論

綜上，我們使用自然語言處理對商品評價的文本內容進行情感分析，結合產品星級、文本情感評價以及每條評論的有幫助投票數，建立模型求解每一條評論的客觀評價，以此便于商品市場投放的考量。并且，基于時間序列建立終極星級的變化曲線，并以此預測商品的未來聲譽變化。根據結果，我們發現，在短期內，微波爐具有較為理想的市場反響，具有一定的發展潛力。

參考文獻：

[1] 2020年美國大學生數學建模競賽C題

[2] NLP-文本情感分析https：//blog。csdn.net/weixin_4239865 8/ar-ticle/details/85222547

[3]自然語言處理一停用詞https：//blog. csdn. net/weixin_4215 2696/article/details/86082566

[4]熵值法。 https：//blog.csdn.net/fsfsfsdfsdfdr/article/details/83443562

[5] Spline（三次樣條插值）https：/fblog.csdn.net/zb1165048017/arti-cle/details/48311603

【通聯編輯：梁書】

收稿日期：2020-04-12

作者簡介：陳富秋（1999-），通訊作者，女，四川自貢人，學士，研究方向為計算機科學與技術;張棋，男，學士，研究方向為軟件工程;黃青松，男，學士，研究方向為軟件工程。

電腦知識與技術2020年19期

電腦知識與技術的其它文章: 電子商務領域中計算機數據挖掘技術的應用研究; 論互聯網時代鐵路貨物運輸的蓬勃發展; 高職院校電子商務教研產融合校內生產性實訓基地的建設與實踐; 區域站風向風速故障判斷與維修; 基于體感交互的暴食癥醫療游戲設計; 基于LBS的任務類游戲的設計與實現