郭艷艷,任瑩瑩,原白云 GUO Yanyan, REN Yingying, YUAN Baiyun
(河南理工大學 工商管理學院能源經濟研究中心,河南 焦作454000)
(Research Center for Energy Economics, School of Business Administration, Henan Polytechnic University, Jiaozuo 454000, China)
隨著互聯網技術的不斷提升,電商行業和社會化媒體的快速發展,消費者獲得所需物品的方式發生改變,網絡購物已經成為一種新的購物方式。電商平臺為商家與消費者提供了溝通的橋梁,在線顧客評論中更是包含了消費者對電商企業、商品質量、物流服務等因素的購物體驗信息。在線顧客評論是指交易完成后消費者對購買產品進行的即時反饋評價,能夠直接反映出消費者對此次交易產品、服務質量等因素的滿意情況。在線顧客評論不僅為其他消費者的購買決策提供重要參考意見,也為企業及時挖掘消費者的需求信息,提升顧客滿意度,增加企業競爭力提供決策依據[1]。經研究表明,在線顧客評論中的負面評論對消費者行為影響更突出、參考價值更大[2]。根據電商行業發展特點可知,高質量的物流服務對消費者購買決策產生極大影響,提升物流服務質量已經成為電商企業競爭制勝的關鍵[3]。利用大數據、數據分析、機器學習等信息技術,從海量冗雜的評論數據中提取得到物流服務的關鍵信息,并加以有效利用是本文的研究方向。
本文利用文本挖掘的相關方法對京東(簡稱JD) 電商平臺在線顧客評論數據中的中差評物流信息進行分析研究,從中發掘出物流環節的突出問題,分析影響顧客滿意的JD 電商物流服務質量的問題,并提出改進物流服務的意見。
物流服務質量是消費者將感受到的物流服務與預期的物流服務進行對比評價的結果,是用來衡量物流企業滿足消費者物流服務需求能力水平的評價尺度[4]。
有關電子商務背景下的物流服務質量是近年來學者們研究的熱點。謝廣營等[5](2016) 基于SERQUAL(Service Quality)量表和LSQ(Logistics Service Quality) 量表的基礎上,構建了網購物流服務質量量表,并進行實證研究得到人員溝通質量、訂單質量、配送可靠性、配送信息質量、訂貨便利性、貨物質量、退貨質量等7 個維度。權春妮等[6](2018) 以跨境網購為背景,以消費者感知為視角,從跨境物流服務質量的時效性、安全性、經濟性、可靠性、配送人員溝通質量5 個維度出發,探討物流服務質量對顧客滿意度的影響。徐廣姝[7](2019) 以生鮮電商物流為研究對象,基于顧客感知視角構建了以發貨能力、信息服務質量、配送速度、產品質量、配送人員、增值服務、誤差性8 個方面對物流服務質量進行評價。
傳統的服務質量評價通常采用問卷調查收集消費者意見進行研究分析,評價內容很少是真實交易過程后的即時評價和意見反饋,評價結果也與問卷質量、受訪者質量密切相關。隨著社交媒體的發展,在線顧客評論隱含消費者的主要觀點,具有真實性和即時性[8]。利用文本挖掘方法提取在線顧客評論數據中的隱含信息并加以有效利用,已經成為學者們關注的重點。王洪偉等[9](2017) 選取SF 和ST 兩家快遞在線評論數據進行實證研究,利用情感分析方法對快遞物流服務質量進行評價,得到兩家企業在快遞物流服務質量各指標上的差異,為快遞物流企業改進物流服務提供依據。施瀅萍等[10](2019) 基于在線顧客評論語料,利用文本挖掘方法得到相關快遞物流服務要素,研究結果找出了快遞物流服務要素的優劣勢,有助于電商企業篩選合適的快遞物流公司。張振華[11](2019) 基于電商在線評論語料進行文本挖掘分析和研究,構建電商物流服務質量問題挖掘模型,識別出導致物流服務失誤的關鍵問題,進而找到相應的解決方法,推動物流服務創新。
文本挖掘是一個涵蓋多學科方法的新領域,涉及了數據挖掘技術、自然語言處理技術(Natural Language Processing,NLP)、機器學習、信息檢索、圖論等方法,從文本文件中抽取具有潛在價值的知識并組織信息的過程,是數據挖掘的一個分支。文本挖掘主要包括文本獲取、文本預處理、文本挖掘分析、可視化等流程。
TF-IDF(Term Frequency-Inverse Document Frequency,TF-IDF) 是一種用于文本挖掘、特征詞提取等領域的因子加權技術,其原理是某一詞語的重要性隨著該詞在文件中出現的頻率增加,同時隨著該詞在語料庫中出現的頻率成反比下降[12]。
TF(Term Frequency,TF) 是指詞頻,表示關鍵詞(詞條) 在文本中出現的頻率。設tfi,j為詞語ti在文件dj中出現的頻率,TF 計算公式如下:

其中:ni,j為該詞在文件dj中出現的次數。
IDF(Inverse Document Frequency,IDF) 是指逆向文件頻率,用于度量某一詞語的普遍重要性。IDF 越大包含該詞條的文檔數越少,表明該詞條具有很好的類別區分能力。計算公式如下:

TF-IDF 是基于無監督學習算法的關鍵詞提取。若某個詞的TF-IDF 值越大,則該詞越能體現出該文件的特點。TF-IDF 計算公式如下:

本文基于TF-IDF 算法,利用結巴(Jieba) 中文分詞系統實現關鍵詞提取,通過計算得到的TF-IDF 值確定關鍵詞的優先級,以此為依據得到在物流環節過程中影響消費者滿意的物流服務質量問題。
本文以JD 電商平臺在線顧客評論數據為研究對象,以JD 電商物流服務質量問題為研究目標,具體分析3CE 數碼電器、美妝、食品、家電、母嬰產品的中差評評論數據中的物流相關評論文本信息。
本文以顧客感知視角出發,通過JD 電商平臺獲取的在線顧客評論數據作為挖掘物流服務質量問題的依據。基于文本挖掘方法對當前JD 平臺的物流服務進行分析,找出影響消費者滿意的物流服務問題并提出改進意見,從而更好地提升顧客滿意度和提高電商企業市場競爭力。具體的分析流程如圖1 所示。
主要研究內容:(1) 數據獲取。編寫Python 程序對JD 電商平臺選定商品進行中差評評論數據采集。(2) 數據處理:對評論數據進行數據清洗、篩選物流相關評論等。利用結巴分詞對篩選后的物流評論數據進行關鍵詞提取和詞頻統計并繪制詞云圖。根據關鍵詞和詞頻統計結果,運用TF-IDF 算法確定關鍵詞的優先級。(3) 數據分析:運用ROSTCM(6) 對物流評論數據進行社會網絡與語義網絡分析,繪制高頻詞共現網絡圖,發現各個節點在網絡圖中的位置,進而識別出消費者隱含觀點。

圖1 在線顧客評論文本挖掘分析流程圖
本文使用Python 爬蟲程序抓取JD 電商平臺選定的商品評論作為數據源。由于JD 電商平臺在商品評論數據采集中有限制,每款產品評論采集最多為1 000 條,抓取商品評論內容均為最近一年內的評論數據。為保證采集數據的全面性,避免研究對象片面化,本文選取JD 平臺下5 種類型的京東自營品牌商品,分別為3CE 數碼、美妝、零食、母嬰、家電。每種類型各選取兩個銷量靠前商品進行中差評評論數據采集。
本次共采集10 種京東自營商品評論數據,共計17 307 條。通過收集歸納得到包含物流服務特征詞的自定義列表共計208 條,如:“快遞”、“送貨”、“物流”、“包裝”、“退換貨”、“運費”、“配送速度”等,利用編寫的Python 篩選語句與自定義列表進行匹配,進而篩選得到物流服務相關的評論數據共計3 045條。對物流評論數據進一步處理,如數據清洗、去缺失值、去除重復數據、短句過濾等,得到最終評論數據共計3 049 條。篩選結果如表1 所示。

表1 JD 商品評論數據統計
3.2.1 數據可視化。根據篩選得出的3 049 條物流服務相關評論數據進行數據預處理。基本的數據預處理過程包括分詞、去停用詞、數據規范化等,目的是去除數據噪聲,避免影響數據分析結果,提高數據參考價值。進一步通過Python 語句計算得出高頻關鍵詞統計結果并繪制詞云圖如圖2 所示。
數據分詞。本文采用Jieba 中文分詞工具對采集數據進行分詞處理,Jieba 分詞系統自帶詞典但可能不包含一些專業詞匯,為保證分詞結果的準確性添加自定義詞典,如“京東自營”、“上門取件”、“運行速度”、“快遞小哥”、“么么噠”等詞語共計123 條,確保分詞結果準確可信。
去停用詞。添加哈工大停用詞表進行去停用詞處理,然后進行分詞處理。停用詞表中包含無意義的符號和“了”、“哦”、“是”等助詞、形容詞,這些詞語無法表達文本真正含義,去停用詞后可以更精確的進行文本分析。
繪制詞云圖。進行詞頻統計得到高頻關鍵詞統計結果,并利用Python 程序中的Wordcloud 模塊繪制詞云圖(圖2)。高頻關鍵詞是指在物流相關評論中出現頻率較高的詞語,在一定程度上能反映出消費者對商品和服務關注的重點。根據物流相關評論的高頻關鍵詞繪制詞云圖,反映出消費者購物體驗過程中不滿意的重點內容,有助于JD 電商平臺針對性的解決消費者關注的物流服務問題,提高物流服務能力。
詞云圖中字體的大小表明了評論數據中該詞詞頻的高低,詞頻越高,字體越大。由圖2 可知,“京東”、“包裝”、“客服”、“退貨”、“快遞”、“售后”、“問題”、“降價”、“物流”等詞語出現的頻率較高。詞云圖結果表明在物流服務環節影響消費者滿意的因素有物流配送、退換貨、包裝的完好程度、售后服務等。詞云圖有助于直觀展現出在線顧客評論數據的重點,為進一步挖掘出JD 物流服務質量問題提供了思路。
3.2.2 關鍵詞提取。關鍵詞提取是發掘在線顧客評論數據中具有包含文本特征含義的詞語,隱含評論內容觀點。本文采用無監督學習的TF-IDF 關鍵詞提取方法,利用評論文本中的詞語統計信息抽取評論關鍵詞,并進行TF-IDF 值優先級排序。本文選取詞語長度大于1 并且TF-IDF 值前200 的關鍵詞進行歸納,得到含有頻次、權重值的物流關鍵詞詞表(如表2 所示),如“京東”、“包裝”、“客服”、“快遞”、“退貨”、“差評”等。

圖2 物流相關評論詞云圖

表2 物流關鍵詞詞表(部分)
基于ROSTCM(6) 對物流相關評論關鍵詞進行高頻詞共現與語義網絡分析,得到共詞矩陣與語義網絡圖(如圖3 所示),網絡圖中的每個節點代表一個關鍵詞,兩節點之間的數字表示兩個關鍵詞同時出現的頻數,分析物流評論的文檔只取高頻詞前200 的詞語,構建共詞矩陣與語義網絡圖時取高頻詞前100 的詞語。
根據圖3 分析可知,共詞頻詞較高的JD 物流服務詞組有:“京東”與“包裝”(169 次)、“京東”與“服務”(149次)、“售后”與“京東”(127 次)、“包裝”與“打開”(124 次)、“京東”與“退貨”(110 次)、“正品”與“包裝”(106 次)、“包裝”與“快遞”(98 次)、“保價”與“降價”(100 次)、“態度”與“服務”(92 次)、“售后”與“問題”(69 次)、“送貨”與“速度”(62 次)、“退貨”與“問題”(59 次)、“時間”與“京東”(54 次)、“售后”與“聯系”(53 次) 等。
結合前文物流關鍵詞詞表、物流相關評論詞云圖、共現語義網絡圖等,分析物流環節中基于消費者感知的物流服務質量問題如下:第一,在包裝完好程度方面,顧客收到商品時出現包裝是否打開、包裝是否破損、包裝是否簡陋、包裝是否有味道等問題。第二、在人員溝通質量方面,與JD 客服、商家客服人員的溝通效率,消費者反饋問題時是否與客服人員取得有效溝通,能否及時處理消費者的問題。第三,在配送可靠性方面,快遞送貨不及時,快遞從業人員服務態度不好,送貨聯系不規范等問題。第四,在企業整體形象方面,JD 自營產品是否為正品,JD 電商平臺產品保價能否做到,JD 電商平臺給予顧客的承諾能否做到等問題。第五,在售后服務方面,退換貨環節出現問題,如退換貨困難、退貨售后申請未得到同意、退換貨運費誰承擔等。

圖3 物流高頻詞共現語義網絡圖
綜上可知,影響JD 電商平臺消費者滿意的物流服務質量的關鍵因素為包裝完好程度、人員溝通質量、配送可靠性、企業整體形象以及售后服務5 個方面,并以此為依據提出物流服務質量問題改善措施。
第一、規范快遞包裝業務,提高物流從業人員的專業技能確保運輸過程中產品及產品包裝的完好,避免過度包裝,為產品提供最優的合理包裝方案。第二、提高物流從業人員素質,滿足消費者個性化服務需求,JD 電商平臺應重視一線物流服務從業人員專業化培訓,提升服務人員的服務意識與溝通能力,為消費者提供高質量的有效物流服務。第三、在配送過程中提供物流信息實時追蹤服務,規范配送環節的服務方式,以顧客視角出發滿足顧客個性化物流需求;加強JD 自建物流服務體系與第三方物流企業合作,提高偏遠地區物流配送能力,高效整合物流區域資源。第四、JD 電商平臺與商家形成戰略合作,加強平臺規范管理制度,確保平臺售賣的產品質量和產品服務,積極響應JD 保價策略,提高消費者對電商品牌忠誠度,提升企業總體印象。第五、提高JD 電商平臺企業售后服務能力,提高退換貨服務能力,簡化退換貨流程,及時響應消費者退換貨申請,縮短換貨周期。
由于本文研究評論數據來源是JD 電商平臺的5 種類型商品,且有關物流服務的中差評數據較少,研究結果可能出現局限性。在研究方法方面,TF-IDF 算法雖然容易實現,但是關鍵詞提取結果無法考慮語義信息,無法處理一詞多義或一義多詞的詞語,研究結果可能出現偏差。