文/胡迪
物流是暢通國民經濟循環的重要環節,近年來隨著電子商務的快速發展,線上購物逐漸成為消費主流,隨著物流業的井噴式發展,隨之而來的也有一系列的消費問題,網經社電子商務研究中心發布的《2020年度電商物流消費投訴數據與典型案例報告》顯示,在用戶投訴問題類型中,物流問題占比高達42.42%。已有大量研究表明物流是影響生鮮電商發展的重要因素[1-5],因此,為了讓物流快遞企業更多地了解客戶需求,本文基于生鮮電商的在線評論數據,從不同維度對生鮮電商的物流滿意度進行測評研究,根據分析結果,對生鮮電商的物流快遞企業提供相應的意見及建議,以提高消費者對整個物流環節的滿意度。
通過文獻梳理后發現,我國生鮮電商的發展過程中還存在短板和不足,尤其是在物流環節中存在的問題較多,并且對于生鮮電商產品來說,物流因素是影響購買者購買意愿的重要因素。主流的物流客戶滿意度研究中,大多是采用問卷調查法等實證研究方法。目前主流的研究物流客戶滿意度大部分集中在路徑規劃、末端物流節點選址上,而在線評論作為消費者在購買使用過產品后所發表的評論,能夠真實反映出產品及服務的相關情況,因此本文基于生鮮電商平臺的評論數據,提出一種結合文本挖掘和情感分析的物流客戶滿意度深度挖掘分析方法。
本文從詞頻特征衡量詞語與物流屬性之間的相關性,挖掘詞語的隱式語義信息,關鍵詞既包含文本的主題相關性,又能反映詞語的重要性[6]。TF-IDF是用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度的一種統計方法。TFIDF算法的優勢是其能同時考慮到低頻詞和高頻詞對分類過程的影響,因此其特征向量提取的效果相對較好[7]。
TF(Term Frequency)表示樣本關鍵詞i在文檔j中出現的頻率,計算公式如(1)所示:

IDF(Inverse Document Frequency)逆文檔頻率,反映關鍵詞的普遍程度,當有大量文檔包含這個詞時,其IDF值越低;反之,則IDF值越高。計算公式如(2)所示:

其中,N為所有的文檔總數,Y(i,j)表示文檔j是否包含關鍵詞,若包含則為1,若不包含則為0。若詞i在所有文檔中均未出現,則IDiF公式中的分母為0,因此平滑即加一處理。
關鍵詞i在文檔j中的重要程度可用公式(3)表示:

TF-IDF值可以有效度量詞語的重要性程度,越大證明其越重要。
如果一條評論為有用評論,其必定包含用戶關注的物流屬性,即一個評論具有一個或一個以上的物流屬性詞,則認為該評論為有用評論,判斷規則公式如(4)所示:

Vm為第m個評論是否為有效評論的判斷值,取值為0或者1。當m第條評論中含有的屬性詞個數 時,他的有用性 ,則這條評論被選取,否則這條評論被過濾掉。
Word2Vec 通過淺層的神經網絡對模型進行優化,考慮了詞語之間的語義聯系,將單詞轉換成多維向量形式,把對文本內容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度,余弦相似度是通過計算兩個向量的夾角余弦值來評估他們的相似度,余弦值越大則越相似,其計算公式如(5)所示:

其中 , 分別代表提取的關鍵詞向量A和物流屬性B的各分量,如“物流”這個詞語經過向量轉化后為[-0.201,-0.094,0.506,0.356,......],“包裝”這個詞語經過向量轉化后為[ 0.062,-0.108,0.178,0.332,......],通過計算兩個向量之間的余弦相似度,余弦值越接近1,就表明兩個向量越相似,即兩個詞語越相似。
情感分析的主要目的是挖掘評論中蘊含的感情色彩,即分析文本的情感傾向于正面還是負面。Zhang等人[8]提出了一種基于規則的方法:首先根據情感詞典得到句子的情感傾向,再根據句子的情感傾向得到整個文檔的情感傾向。Pang等[9]按照不同的方法提取特征,他們將用戶標記的情感極性或者評分作為標簽,并且使用機器學習算法構建帶有文本特征的情感分類器。本文將情感分析看作是一個分類問題,情感分析旨在預測評論文本的情感標簽,使用Bayes分類器來預測給定評論的傾向性。
貝葉斯模型在文本分類領域應用廣泛,其主要利用文本類別的先驗概率和特征向量對類別的條件概率計算未知文本屬于某一類別的概率。對于有兩個類別的c1和c2的分類問題來說,其特征為 ,特征之間是相互獨立的,則屬于類別c1的貝葉斯計算公式如(6)-(8)所示:

其中:

則公式可化簡為:

主觀評價以傳統調查問卷或訪談形式進行,消耗時間精力較多,數據不具有實時性,調查對象數量有限,且獲得的結論受問題設置影響較大,準確性大打折扣。因此本文利用 Python Request 編寫在線爬蟲程序,爬取京東商城生鮮產品中新鮮水果、海鮮水產、精選肉類、冷凍飲食、蔬菜蛋品5類商品的在線評論,爬取內容包括店鋪名稱、用戶ID、評論內容、滿意度星級等,為保證評論數據的準確性,對爬取的評論數據進行預處理,刪除為空、重復的評論和評論內容只有標點符號或者表情的評論,最終得到838,143條評論。
對初始數據進行清洗和挖掘后,對所有評論進行評論有用性分析,利用中文分詞工具 Jieba 分詞,采用精確模式(lcut)對所獲得的評論進行分詞處理,去除停用詞、標點符號和介詞、代詞等沒有實際意義的詞,進行詞頻統計,并運用TF-IDF算法提取出評論中TDIDF值前100的主題詞,從中篩選出所有和物流相關的屬性,根據主題詞提取結果和特征詞頻統計結果,本文將生鮮產品的物流特征屬性分為11類,即包裝、運輸、發貨、配送員、配送、完整性、配送方式、冷鏈、速度、服務、質量,運用上述所提到的Word2Vec方法構建評論詞向量,計算出生鮮產品物流屬性所包含的屬性詞詞典,建立的詞典如表1所示。

表1 物流屬性及其屬性詞
本文先通過公式4結合TF-ID確定的關鍵詞,初步篩選出和物流相關的評論,然后通過Word2Vec模型生成詞向量并結合余弦相似度,計算其和物流屬性的相似度,從而確定每句話中是否含有物流屬性,取兩個向量之間相似性大于0.5的向量作為物流相關的評論,最終共獲得了21,9571條有用評論,模型參數設置如下:size=100,window=5,sg=1,min_count=1。由物流屬性及其屬性詞確定的每個有效評論中都包含屬性詞且與物流屬性向量的相似度均大于0.5,從而確定評論中和物流屬性相關的評論。
本文分析的內容源于用戶評論,采用專門針對中文文本挖掘的SnowNLP情感分析庫進行情感分析,Sentiment模型是基于貝葉斯分類器進行訓練,針對在線評論中的物流評論進行人工構建研究相關領域的情感語料庫,經專家審核后補充或替換通用語料庫,調用sentiment.train函數訓練新的情感分類器,以提升準確度。對評論數據人工標注1000條正向評論和1000條負向評論,對語料庫進行訓練,并保存訓練模型。
結合本文提出的物流屬性提取方法和SnowNLP模型,計算評論中的物流情感傾向,例如“包裝完好,送貨速度快,這個藍莓已經回購過幾次。日期新鮮。味道還不錯,酸酸甜甜的,家里的小朋友們都很喜歡,下次還會再買的。”這句話,經過計算可得其和物流相關的屬性有:包裝、送貨、速度、質量、完整性。情感傾向值是指該句情感指向為正的概率,經過SnowNLP.sentence模塊的切分,其中包含這些物流屬性的情感正向概率分別為0.6828、0.8964、0.9643、0.5474、0.6828,則這句話中的物流總體傾向取這5項的均值為:0.7548,記為 , 。
用戶的在線評論由評論內容和評論星級兩部分組成,則用戶評論的滿意度最終評分也由評論內容的評論星級得分和情感值得分兩部分而來,因此將用戶評論中的“5星好評”視為正向概率為1,“四星好評”視為正向概率為0.8,以此類推,用戶評論的星級正向概率為 , 。則用戶評論的最終得分由下列公式(9)可得:

其中E為滿意度綜合評分; 為物流屬性情感滿意度傾向值;E2為星級滿意度傾向值,E數值越大,情感越積極,用戶的滿意度越高,取 即 為正向評論,標記為1,E<1.2為負向評論,標記為0。則所有物流評論數據的情感傾向計算結果如表2所示。
表2 物流情感傾向概率計算結果4.結果分析

表2 物流情感傾向概率計算結果
為驗證方法的有效性,設置一組沒有區分物流屬性直接進行情感分析計算的對比實驗,其他所有步驟均相同,實驗中采用分類模型中的常用指標值作為評判標準,其計算公式如(10)-(13)所示。
查準率(精準率):

查全率(召回率):

正確率(準確率):

F值(F1-scores):

其中TP:真正例,實際為正預測為正;FP:假正例,實際為負但預測為正;FN:假反例,實際為正但預測為負;TN:真反例,實際為負預測為負。區分物流屬性和不區分物流屬性的模型評價結果如表3所示。

表3 分類模型評價結果
通過對不同分類模型指標的計算結果對比發現,在對不同物流屬性分別進行測算的情況下,分類的查準率、查全率、正確率和F值均有了不同程度的提升,說明此方法的有效性。ROC作為一種綜合評價指標,經常用于不平衡數據的分類模型性能評估準則,ROC曲線越凸向左上方,則下方面積越大,表示分類模型的泛化能力越強。ROC曲線下面包圍的面積,也就是對ROC曲線進行積分,得到的結果稱為AUC(Area Under Curve)。用metrics.roc_curve函數,繪制二者的ROC曲線圖如圖1所示。可以發現測算了物流屬性的情況下其AUC為0.94,而未測算物流屬性的其AUC為0.888,低于測算物流屬性的AUC,故證明了本文提出方法的有效性。

圖1 ROC曲線示意圖
將在上述研究的基礎上繼續進行深度挖掘,探索生鮮電商物流客戶滿意度情況,對所有物流評論的物流屬性及其情感傾向值分別取均值并繪制雷達圖如圖2所示,進一步探究生鮮電商評論中對物流各屬性的滿意度情況。

圖2 生鮮電商物流總體滿意度
從物流屬性情感傾向圖中可以發現,用戶對生鮮電商的總體滿意度得分差異性較大,用戶對生鮮電商物流客戶滿意度排名依次為:速度>完整性>運輸>質量>服務>包裝>冷鏈>配送員>配送方式>發貨>配送,取情感傾向概率均值大于0.5的為正向評論,可以看到用戶對速度和完整性的滿意度較高,對運輸、質量、服務的滿意度相對較高,對包裝則不是很滿意,對冷鏈、發貨、整個配送環節不滿意,說明物流企業和公司在保持自身優勢的同時,也需要進一步提高對配送環節、發貨環節、冷鏈環節、包裝環節的改進。
加強快遞員隊伍建設,提升末端配送滿意度。加強對快遞員隊伍的建設和管理,完善人才培養和培訓機制,同時也要提高快遞員的福利待遇水平,增強快遞員的安全感和幸福感,不斷增加快遞員的職業成就感,提高物流配送效率和服務質量。
優化產品發貨流程。加強自動分揀系統的建設,對貨物進行自動化分類揀取,同時確保物件的及時跟蹤,為后續作業的完成提供信息支持對商品進行清點、檢驗,按調撥單上的貨號及數量進行盤查,保證貨物的數目核對正確,提高發貨效率和準確性。
加大對冷鏈技術的科技研發和技術創新。改進冷凍水產品貯藏、運輸、流通及消費的過程中,通過采用新型凍結方式以改善解凍后水產品的品質,或者采用涂膜、浸泡、噴淋等形式,通過添加物減緩溫度波動對水產品品質帶來的變化,保證產品的質量和新鮮口感。
加大對快遞包裝的研發投入,提高產品包裝質量。在滿足用戶需求的同時也做好包裝的綠色循環使用,秉承綠色快遞包裝設計理念,避免造成資源浪費和環境污染。要注重快遞包裝減量化、品牌化設計,側重快遞包裝易拆卸性、人性化設計,創新快遞包裝設計,以提高物流客戶對包裝的滿意度。
隨著日益激烈的市場競爭環境和不斷變化的用戶需求,對物流快遞業發展提出了更高的要求。為了促進物流快遞業的健康發展,本文基于生鮮電商評論大數據,結合文本挖掘和情感分析,提出一種提取評論中物流相關評論的方法,并分別對每種物流屬性的情感值進行測算,對比不同物流屬性分別進行測算的情況,通過模型驗證發現,提取物流屬性并分別對物流屬性進行客戶滿意度測算,得到的結果更加準確,論證了本文提出方法的有效性,最后在分析物流環節不足的基礎上,對物流客戶相對不滿的環節提出對策建議。