劉 哲,馬樂榮
(延安大學數學與計算機科學學院,陜西延安716000)
人類已經進入大數據智能時代,大規模電商平臺匯集了商品、商家、生產廠商、消費者等的海量數據,得到許多知名企業、科研機構和大學專家的持續研究。根據第43次《中國互聯網絡發展狀況統計報告》[1],截至2018年12月,我國網絡購物用戶規模達6.10億,手機網購用戶達5.92億,電子商務平臺收入3667億元,同比增長13.1%。由于一次商品買賣活動,涉及電子商務平臺、商家、用戶、銀行或金融機構、物流等方面的數據[2,3],如此龐大的組織群體和交易收入,使得電商平臺累積了海量數據資源。這些數據具有重要的研究價值,如丁晟春等[4]提出基于電商數據構造產品知識圖譜,來幫助電商平臺改善產品服務水平;Kim[5]利用電商數據構造產品知識圖譜,開發了產品銷售助理,大大提高了用戶購物和使用體驗;楊東紅等[6]基于京東商城商品評論中的好評、中評、差評三種類型評論,比較三者在評論長度、有用性投票和評論回復數方面的異同,補充當前關于在線評論有用性的研究;范穎等[7]通過識別電子商務用戶行為,為優化用戶營銷決策提供科學依據。
數據的采集是通過爬蟲的方式進行的[8],完成筆記本電腦數據采集后,數據庫中共存有19069條筆記本電腦商品信息。對數據進行初步統計可知,其中包含評論共計57萬條,有15萬條評論信息為默認評價,有效評價共計41萬條。而且,在所有的有銷量的8625個商品中,有5842個商品在淘寶出售,天貓上僅有2783個商品,占比僅為32%,但卻擁有351997條評論,占比高達61%,只有淘寶一半筆記本商品數的天貓,卻有著兩倍于淘寶的銷量,具體數據參見表1。
使用沒有預處理的數據,往往產生錯誤的分析結果。例如,在57萬條用戶評論中,有15萬條為默認評論,都為“此用戶沒有填寫評論”等字樣。因此,在進行數據分析之前,需要對數據進行預處理,以剔除無效數據和不完整數據,并將結果格式化后,存入文件或寫回數據庫中,作為進一步分析的數據源。

表1 筆記本電腦爬取數據統計
對于筆記本電腦數據,這里預處理的主要是用戶購買后的評論數據。首先,去除掉默認用戶評論數據。接著,使用分詞工具Jieba[9]對用戶評論數據進行分詞[10-12],為后續的分析準備數據。由于用戶評論記錄簡短、字數少、表達又隨意,直接使用Jieba對其進行分詞,效果不是理想。鑒于筆記本電腦商品對應的評論主要基于電腦、筆記本相關主題,本文使用搜狗提供的電腦詞匯、電腦硬件、電腦軟件、電腦硬件廠商、計算機詞匯大全和淘寶網專用詞匯[13]作為Jieba的生成字典,來提高Jieba對用戶評論數據分詞的準確率。
幾乎所有品牌的筆記本電腦都在線上進行銷售,甚至一部分廠商的產品只在網絡銷售,電商平臺銷售的筆記本電腦的產品種類與品牌遠遠超過任何一家線下實體店。通過對電商平臺淘寶網所售筆記本電腦資源分析,發現在售筆記本電腦品牌有52個。各筆記本電腦品牌商家占有量如圖1所示,其中,聯想、ThinkPad、戴爾、華碩和蘋果為前5的品牌,占有量高達57%。
價格一直是筆記本電腦客戶比較重要的參考因素。筆記本電腦整個銷售市場的價格分布狀態,在一定程度上反應出國內消費者的購買能力與生活經濟水平。對19 069個商品的參考價格按不同區間進行統計分類,經比對發現,依據2000元劃分價格區間是合適的,而且具有說服力。如圖2所示,2000~6000元這一區間的筆記本電腦占全平臺在售商品的57%,其中最受歡迎的是4000~6000元這一價格區間的產品,并且6000~10 000檔的占比與2000~4000檔的占比相持平,這表明人們對高端筆記本電腦的購買能力逐步提高,同時也表明國內人們的生活水平在逐步提高。
在筆記本電腦的索引頁面上,淘寶平臺已經給每款型號打上了熱門參數的標簽。本文對標題中的詞進行抽取,獲得權重排名前600的關鍵詞,其中權重取值在0~1之間。最后對關鍵詞繪制詞云圖,如圖3所示。通過分析,發現鍵盤、內存、處理器、指紋識別、硬盤、顯卡和運行成為消費者比較重視的參考因素。除了運行外,6個熱門參數中內存、處理器、硬盤和顯卡與產品性能有關,而鍵盤和指紋識別則與使用體驗相關。由此可見,消費者在購買筆記本電腦時,優先考慮的是性能而不是諸如智能、音效、指紋等參考因素。
由于用戶在提交評價時,需要進行整理語言并進行文字輸入,甚至拍照或錄制視頻,所以評論時間可以作為用戶活躍的一個標志。統計并分析近兩年消費者對筆記本電腦評論的時間,統計結果如圖4所示。發現晚睡這一社會現象并未在圖4中體現,大多數交易評論的時間是比較符合人們作息規律的。在凌晨,活躍人數最低,上午時曲線上揚較快,中午12點到達峰值,下午活躍人數普遍較高,且在21點后快速下跌。這個發現可以給商家提供安排客服上班的建議。
對于淘寶平臺,筆記本電腦的真實交易數量屬于淘寶后臺數據,爬蟲無法獲取到。由于用戶參與評論需要在收貨以后,所以可以用評論的數量來近似交易的數據。評論時間通常為確認收貨時間,一般在交易后三天確認收貨,這是目前國內物流時效水平決定的。因此需要對評論時間進行預處理,左移三天的偏移量。通過對57萬次交易的日期進行分析,發現在阿里巴巴的購物狂歡日“雙十一”期間,筆記本電腦的銷量大幅度提高。而且每個標志性期間,銷量便會迅猛增加,如圖5所示,實線代表淘寶平臺的歷史銷量曲線,短橫線樣式的虛線代表天貓平臺的歷史銷量曲線,點狀樣式的虛線代表淘寶、天貓的歷史銷量總和曲線。2017年“雙十二”促銷當日,筆記本電腦的銷量甚至比“雙十一”的銷量還要多出240臺。而2018年開學季的銷量幾乎與2017年“雙十一”持平,可見阿里巴巴的每次推廣促銷,對成交量有著非常明顯的積極促進作用,這充分表明促銷的影響力和時機對產品銷售是非常重要的兩個因素。特別是發現開學季的銷量幾乎等于“雙十一”。因此,對于商家和學生來說,開學季也是重要的銷售和購買時段。
本文選取13 684條針對小米品牌的筆記本電腦有效評論進行情感分析[14-17]。使用snownlp[18]的情感分析接口,分析每條評論為正向情緒的概率,圖中情感值在0~1區間內,0代表極端消極情感,1代表極端積極情感,對評論繪制情感值分布的柱狀圖,如圖6所示。從圖6看出,小米品牌的口碑大多是積極的。
對于情感值小于0.3的評論,通過調用百度開放平臺的評論觀點抽取接口[19],自動抽取和分析評論觀點[20,21],繪制評論標簽云圖,如圖7所示??梢缘贸?,負面情緒多數是由于客服與物流導致的,少部分對產品的負面評價為風扇聲音過大、屏幕像素低和電池等問題。因此,建議商家通過著重提高服務質量和合作物流公司水平來有效提升用戶體驗,進一步提高用戶群的滿意度。
本研究以最大的電商平臺——淘寶網的電腦筆記本為例,獲取了2018年5月之前的商品數據和用戶評論數據,對獲取的數據進行分析,發現了品牌分布、筆記本電腦熱點參數、商家和用戶的交易行為以及小米品牌用戶評論負面情感的真實原因等知識。電商平臺可以利用這些知識改進服務,進一步提升用戶體驗。