朱曙旸 殷麗 史逸興



摘 要:為探究消費者對商品的評論與商品銷售之間的關系,本文首先采用系統聚類分析對消費者進行分類,通過TF-IDF法將消費者對商品的評論量化并構建出消費者評論得分模型,再采用熵權法對模型進行優化,確定出不同商品受消費者歡迎的程度,從而可以幫助企業更有效地調整商品銷售策略。
關鍵詞:TF-IDF法;系統聚類分析;熵權法
一、引言
近年來,隨著互聯網的發展與普及,網絡購物儼然成為一股時代潮流,相較于商品基本信息,消費者在線上選購商品時往往會更加注重其他消費者對于商品的評價。此外,現今海量數據的存儲與處理技術已較為成熟,這不僅奠定了科學的基礎,而且為企業做出重要決策提供了信息。
對于商品銷售與數據挖掘的研究,許姍姍用深度神經網絡等機器學習模型進行建模,實現了對單品的細粒度預測分析;滕樹軍等人通過對商品關注度的劃分建立了多元回歸模型從而確定影響商品銷售的因素;李曉穎等人結合Hadoop與Spark的優點設計出包括HDFS、Tableau等集群的大數據分析與挖掘平臺;陳紅平結合大數據相關理論與方法,探究了孤立點算法和ARIMA模型在商品流通企業經營審計中的應用;曹天擇對評論文本數據通過情感分析技術進行相應分析,探究了消費者再次購買意愿和要素之間的關系。
二、數據及其處理
本文選用2020年MCM/ICM競賽C題中的數據,其中包括消費者對亞馬遜市場上出售的微波爐、嬰兒奶嘴以及吹風機發表的評分和評論。
在數據的預處理方面,對于缺失率超過50%的變量,由于數據完全失真且無法修復,將其剔除以減少偏差,對于丟失小于50%的數據,可以根據相鄰的數據進行補充,如果相鄰數據之間沒有連接,則可以直接刪除,因為丟失的數據只是總數的一小部分。對于異常值,用K近鄰法對它們進行均值校正,以提高結果的準確性。例如,如果某一組件上有缺失或異常點或觀察,則該組件將被移除。利用由其他觀測分量組成的向量作為距離,找到最接近缺失點的K觀測值。對于評論文本,由于評論數據主要由字母組成,彼此之間的關聯程度大大降低,為方便處理,將其中全部都由大寫字母轉化為小寫,并刪除標點和空格。
三、消費者評論得分模型
1.模型設定
為了探究消費者評價數據與商品銷售之間的關系,本文將消費者對商品不同類型的評論進行量化,并用熵權法賦予各類型評論量化后的值以相應的權重,在此基礎上結合這些特定的數據類型得出一個能夠反映商品在市場上銷售情況的綜合指標,即消費者評論得分模型。
2.主要變量說明
(1)星級評定(S):是一種個人評定制度,購買者使用1星(低額定,低滿意)至5星(高額定,高滿意)來表達對商品的滿意程度,它反映了消費者對商品的整體感受和直接評價,直觀地顯示了商品的可取性程度,本文中用“S”表示。
(2)評論(評論得分P):為了表達對商品的進一步意見和信息,客戶提交了基于文本的消息即所謂的“評論”。這些評論不僅表達了客戶決策的具體感受和原因,而且可能引發更多類似的評論。本文用P表示評論得分。
(3)幫助等級(F):考慮到評論的多樣性和具體要求,我們引入了評論有效性的概念,以減少干擾,這也被稱為幫助性評級,本文中用“F”表示。
(4)商品聲譽(H):良好的聲譽是商品的最佳廣告,有助于將潛在消費者轉化為忠誠客戶。因此,商品的聲譽就像商品的生命,反映了商品未來的發展趨勢。本文中用“H”表示。
3.TF-IDF算法描述
IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。如果某一文檔C中包含詞條t的文檔數為m,而其他類包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,然而當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強。但實際上,如果一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好地代表這個類的文本特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞,以區別于其他類的文檔。
實際應用中我們可以改變文檔結構,將短文本合并成一個文檔,增加TF值和IDF值,從而提高算法識別的準確度。
4.模型建立與求解分析
(1)評論得分模型
該模型意在構建一個反映評論的積極和消極意義的評價指標。在對給定的數據預處理后,對各因素進行量化處理。設評論k表示數據表中第k條評論,則有:
從上圖可以看出,雖然吹風機的得分在一些年里被另兩種商品超過了,但一直處于相對穩定的較高的水平。基于文本度量和評級的度量相結合,我們可以確定銷售最成功的商品是吹風機,最不成功的商品是微波爐。因此,為了實現利潤最大化,應適當增加吹風機的供應,同時增加微波爐的宣傳或改進其生產技術。最近結果表明,2015年吹風機、微波爐和嬰兒奶嘴的聲譽評分分別為0.7112、0.6461和0.6944。由此可見,電吹風的聲譽評分最高。
四、結語
本文基于消費者評論數據,探究了星級評定,評論及評論幫助等級對于商品銷售的影響,建立了評論得分模型及商品聲譽評分模型,模型將情感權重和TF-IDF算法結合起來,對評論進行量化,可直觀地反映消費者的情感,采用熵權法確定星級評定和評論得分的權重,可以更加準確地衡量商品的聲譽。由于算法本身的特性,很少需要人工干預,因此可使時間成本大大降低,而通過比較不同商品的得分高低可反映出各商品受市場歡迎的程度,從而幫助企業及時進行銷售策略的調整。本文的研究為衡量商品的銷售情況及商品的市場反響提供了科學有效的方法,可幫助企業高效地進行決策。
參考文獻:
[1]許姍姍.基于機器學習的商品銷售預測的研究[J].統計與管理,2019(04):49-52.
[2]滕樹軍,鄭惠文,劉柏森.基于多元回歸分析的超市商品銷售影響因素的研究[J].全國流通經濟,2018(14):6-9.
[3]李曉穎,趙安娜,周曉靜,楊成偉.基于大數據分析與挖掘平臺的個性化商品推薦研究及應用[J].電子測試,2019(12):65-66+81.
[4]陳紅平.大數據環境下商品流通企業經營審計研究[D].重慶理工大學,2019.
[5]曹天擇.基于情感分析技術的電商商品在線評論數據挖掘研究[D].浙江工商大學,2018.
[6]劉瑩.基于數據挖掘的商品銷售預測分析[J].科技通報,2014,30(07):140-143.
[7]張卉.數據挖掘技術在B2B電子商務商品銷售中的應用研究[D].北方工業大學,2013.
[8]王萍.基于電子商務背景的智能挖掘技術及應用研究[D].湖南大學,2014.
[9]張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應用.計算機工程,2006,32(19):76-78.