999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的在線評價物流主題挖掘及可視化分析

2023-02-21 07:35:12忠,樂
物流技術 2023年12期
關鍵詞:物流文本評價

魏 忠,樂 玥

(上海海事大學 經濟管理學院,上海 201306)

0 引言

物流業是推動流通方式轉型、促進消費升級的現代化先導性產業[1]。物流作為商家與消費者之間的第三方,在很大程度上影響了雙方的決策行動。Yang[2]利用SEM-nl集成模型把握用戶物流模式的選擇行為規律以提升物流企業的競爭力。Zhang,等[3]提出了基于熵值的物流企業績效評價模型。Li,等[4]提出了一種基于層次分析法與灰色理論的混合方法,建立了第三方物流的綜合服務能力評價體系,用于第三方物流的評估與選擇。

在電子商務中,在線評論在顧客的購買決策中扮演著非常重要的作用[5]。此類信息包括商品的描述、物流服務以及商家服務態度等。同時,在線評價作為實時的、不受時間、地點、空間限制的評價方式,能夠更加客觀有效地描述消費者傾向以及市場需求實現的程度[6]。因此,對在線評價進行文本內容主題分類可為商家、物流方以及消費者提供所需要的決策信息。圖1展示了從某電商平臺上爬取到的食品類產品的在線評論詞云展示,可以明顯看到消費者在進行在線評價時,運用“口感”“味道”“好吃”等詞匯對于產品的味道進行評價,在這種語言環境中,商家、物流方、消費者都很難挖掘出更深層次的決策信息,因此,如何處理同義詞匯對于決策信息的影響是支持決策的一大難題。

圖1 食品類在線評論詞云

利用文本分類方法對在線評價進行聚類分析可以獲取改進物流服務的決策信息。強大的文本分類功能可以提供信息過濾、信息分類、信息檢索、信息推薦等功能[7]。主題分類模型是文本分類的一個子方法,即從概念主題角度理解詞項語義,例如LSA模型、pLSA 模型和LDA 模型等[8-9]。Sutherland,等[10]為了驗證顧客在選擇住宿場所時所關注的重點,利用潛在狄利克雷分配對消費者在線評論進行主題分析,提出消費者在決定住宿場所時更關注住宿點的競爭性與獨特點。許英姿,等[11]提出了一種基于加權補集的樸素貝葉斯分類模型進行物流主題分類,解決了物流新聞類別分布不均衡問題。張文,等[12]基于LDA模型提出help-LDA模型,從電商評論中抽取消費者評價,有效提高了在線評論有效性的預測性能。Chen,等[13]利用潛在的Dirichlet分配模型對在線用戶評論進行分析,評估了生鮮產品的物流服務質量。Wang,等[14]利用LDA模型對在線評論進行了主題分析,通過主題差異性比較了兩種競爭品的優勢與劣勢。

目前,很多學者都運用LDA模型對商品的在線評價進行主題分析,并獲得了消費者、商家或物流方所需要的決策支持信息。許多專家學者也提出了基于層次分析法、灰色理論等的物流企業選擇方法,但是忽略了真實存在的在線消費者評價中存在的同義誤差。因此,本文對LDA主題模型進行改進,解決LDA模型本身無法處理同義詞的缺陷,挖掘消費者對物流的在線評價,提供電商參與者所需要的決策信息。

1 研究方法與思路

基于LDA主題模型同義主題合并文本分類算法的研究思路主要包含三部分,即:數據聚集與數據預處理、在線評論分詞與同義表達替換、LDA主題挖掘與可視化分析。具體如圖2所示。

圖2 研究思路

首先是數據聚集以及數據預處理,對某電商平臺各品類商品的在線評價進行文本收集,采用python爬蟲以及數據清洗工具得到研究對象生成的語料庫。

分詞部分對LDA主題模型中分詞階段進行優化,首先對在線評論文本進行TF_IDF(Term Frequency Inverse Document Frequency)分詞處理,并計算分詞在總在線評論文本集中的概率分布。在處理特征值時,利用標準庫或行業標準詞匯進行同義替換,得到特征值的概率重新分布。

最后進行LDA主題聚類,將在線評論文本聚類到每個主題下,并繪制多維資源圖譜進行可視化展示。實證研究部分對研究對象的文本分類結果分析,獲取同義詞替換后的在線評論文本主題及主題詞下的特征值概率分布情況,并運用多維資源可視化將分類結果展示出來,提供清晰的可視化決策支持信息。

2 基于LDA主題模型的同義主題合并文本分類算法

2.1 同義主題合并文本分類

同義主題合并在文本分類中有著重要的作用,主要指的是在進行文本分類時,對提取后的文本主題進行同義詞替換。同義詞替換來源是較為權威的組織機構、行業先進或行業中默認的標準。由于個人在語言表達方面有自己習慣的語法、詞語,即使表達相同含義卻擁有語言的不同形式,導致組織與組織之間的知識交流存在障礙,影響了知識在組織與組織之間的流通速度。同義主題合并在文本分類中可以消除大部分由于個人喜好導致的語義表達誤差,通過同義詞替換成行業標準詞匯,使知識文本轉化成為標準的、易于理解的文本內容。

2.2 算法框架

運用基于LDA主題模型的同義主題替換來解決企業中存在的知識文本共享程度低問題。LDA主題模型以Dirichlet 分布為基礎[15]。運用詞袋(bag of words)識別大規模文檔集中潛在的主題信息,但是詞袋方法忽略了詞與詞之間的順序關系,因此,本文算法用TF-IDF方式挖掘文本中的詞匯[16]。在LDA模型中,α、β、K是需要人為確定的參數,改進的基于LDA主題模型同義替換算法在此基礎上需要對文本詞匯進行同義代換。

步驟1 利用python3.9 爬取某電商平臺商品評價文本集D,包括六類電商產品在線評價,并進行基本的數據清洗工作,去除其中的重復數據、缺失數據以及無效評論數據。

步驟2 對在線評論文本集進行數據預處理。利用停用詞對電商產品評價文本整體去噪以及分詞去噪,利用TF-IDF 方式(流程圖如圖3)挖掘文檔詞匯V,其中T 代表文檔集中的單詞總數,T~Poisson(ε)。對文檔詞匯V 進行詞性標注工作,識別其中的名詞(NN)、動詞(VB)、形容詞(JJ)、副詞(RB)等,為后續同義替換打下基礎。TF-IDF模型作為分解文本的加權算法,可以得到詞頻與逆文檔頻率的組合,可用于信息檢索與文本挖掘[17]??梢杂糜谠u估某一字詞對于文本的重要程度,利用TF-IDF模型對資源中心文檔集D進行分詞處理,獲得有關聯關系的文本分詞V,優化LDA模型的輸出結果。

圖3 TF-IDF詞袋矢量生成流程

步驟3 同義詞匯替換。經過TF-IDF分詞處理及詞性標注得到TF-IDF詞袋矢量,利用物流評價中的相關語料建立的標準詞匯庫S 尋找分詞中的近義詞,并使用標準詞匯替代,形成替換后的分詞庫Vs。根據語料同義詞匯相似度計算大于0.600 00 可視作可進行同義替換的詞匯,并進行同義替換操作。

步驟4 進行LDA 模型主題聚類。LDA 主題模型的聚類流程圖如圖4所示。首先需要確定一個θi,表示第i個文檔對應主題的多項分布,服從Dirichlet分布,由θi隨機生成一個主題Z。設置一個β值使其隨機生成主題對應詞語的多項分布φ,也服從Dirichlet分布。綜合主題Z與主題對應詞語分布情況生成詞語w,循環以上步驟生成一個包含m個詞語的文檔。最后生成K個主題下的N篇文檔,與電商平臺在線評論文本進行對比,從而生成聚類結果。

圖4 LDA模型算法流程

K個主題是需要人為設定的參數之一,K的取值大小會影響LDA主題模型的分類結果,因此,采用困惑度取值最佳主題數目K。

Vs為標準詞匯集合,D為文檔數,pwd是文檔生成概率,Dd,i是文檔d中的第i個詞,z為某個特定主題。

3 數據實證與算例分析

3.1 實證研究數據準備及參數設置

利用python3.9爬取某電商平臺中各類商品評價共70 000 條,去除重復數據以及默認評價共15 438條,保留54 562條文本評價數據。根據式(1)、式(2)算出困惑度,當困惑度最低時模型效果最好,實證選取K=6,α=0.1,β=0.01。

首先,對收集的文本評價數據進行分詞處理,利用jieba分詞庫把一句話切分成若干個詞語,采用停用詞進行文本整體去噪和分詞去噪,利用根據物流行業建立的詞向量庫對所得的TF-IDF詞袋矢量進行同義詞標準替換,以“物流”為例,同義詞相似度表見表1。

表1 特征值相似度表

3.2 實驗結果分析

LDA模型與經過同義詞替換的LDA模型獲得的主題詞、主題詞下特征值以及特征值的概率分布見表2、表3??梢钥吹絻蓚€模型對于主題特征值提取大部分都是相同的,經過同義替換后的特征值概率值均大于傳統LDA模型,也可以看到傳統LDA模型中各個特征值的概率均小于10%,而同義詞替換后LDA模型中特征值概率有明顯上升。

表2 傳統LDA模型特征值分布

表3 改進LDA模型特征值分布

根據改進LDA 模型特征值及其概率分布可以看出,在進行同義詞替換后,占比較大的特征值能夠在主題中體現的更加明顯,并且提升了特征值分布的概率分布,對于商家、物流方以及消費者有更有價值的決策信息支持。Topic1 主題為生鮮產品,可以看出消費者更注重生鮮產品的新鮮程度、物流快慢、包裝的完善程度,對于商家來說,在保證自身產品質量的前提下,選擇合適的物流方合作是提升銷量的關鍵點之一。Topic2 主題為大型家電,在消費者的評價中突出了對家電的安裝與否、物流速度以及性價比高低的重視,與其他類別的商品對物流的需求不同,家電產品要求商家選擇提供安裝服務的物流合作商。Topic3、Topic4、Topic5、Topic6 分別為個護類、食品類、日用百貨類以及服務類,對物流的要求并不高,更多關注產品自身的價值程度,因此,商家在選擇物流合作方時,可以將合作重點放在控制成本上,在滿足消費者基礎物流需求前提下減少物流成本。

3.3 “主題-特征值”多維資源可視化分析

根據LDA 主題模型的文本聚類結果可看出,電商平臺上五大類消費產品“生鮮”“電器”“食品”“個護”“服務”“日用”對于物流的需求都不相同。將電商平臺在線評論的聚類結果運用多維資源圖譜展示出來,如圖5 所示,距離主題點越遠表示其在主題中的概率分布越小,相反則在主題中的概率分布越大。多維資源圖譜將概率分布的情況運用可視化展示出來,越靠近主題點表示此類特征對于產品來說更受消費者青睞,可視化為電商各角色提供了更加清晰的決策支持數據。電商平臺商家可據此調整與物流商家的合作。

圖5 改進LDA主題多維資源可視化

3.4 模型有效性評估

以查準率P、查全率R來判斷基于LDA模型的同義合并文本分類方法的有效性。在進行文本分類后,可對分類結果進行劃分,用TP 表示真實情況與預測情況都為正的情況稱為真正例;FN 表示真實情況為正,預測結果為反的案例,稱為假反例;FP表示真實情況為反例,預測結果為正例,稱為假正例;TN表示真實情況與預測結果均為反例的案例,稱為真反例,整體混淆矩陣見表4。

表4 混淆矩陣[18]

根據混淆矩陣得到查準率以及查全率,查準率與查全率之間存在一定的依賴關系,查全率高則查準率下降,反之,查全率低則查準率上升,因此,利用查準率與查全率的調和平均值F 值進行模型的有效性評估[19],見表5。

表5 算法查準率P、查全率R及F值對比

在算法性能對比上可看出,在進行同義文本替換后,模型的查全率顯著提高,解決了某一部分在線評價文本由于同義表達過多導致的文本分類無法聚類問題。根據F值可知改進LDA模型在有效性上超越了傳統的LDA模型,因此,本文提出的物流在線評價主題挖掘的決策信息在一定程度上為商家、消費者以及物流企業提供了更為有效的決策支持信息。

4 總結與展望

物流服務作為電子商務平臺上連接商家與消費者的中間商,了解物流服務在各個產品銷售中的重要性有助于商家為消費者提供更好的服務。本文利用改進的LDA模型對消費者的消費評價進行主題分析,改進LDA模型原本過于分散的特征值,將同義的特征詞進行合并處理,并且用可視化的多維資源地圖展示其聚類結果,為電子商務各級用戶提供了更加明確的聚類決策信息。商家可依據商品評論聚類結果選擇合適的物流合作商來提高商品交易量,物流方也可以根據消費者對于物流的需求改進服務。

本文討論了同義詞、近義詞在商品評論中對聚類結果的影響,在用標準詞匯替換同義詞、近義詞后聚類成果更加集中,相比之下,未進行同義詞、近義詞替換的聚類結果特征值過于分散平均,決策信息不明顯。實證研究發現,生鮮類、食品類、電器類對于物流的要求較高,往往需要快速的物流速度以及完善的物流服務,而個護類、食品類、日用百貨類以及服務類對物流的要求并不高,更多關注產品自身的價值程度。未來研究希望在同義詞替換聚類的基礎上,將商品評論中的情感類詞匯納入考慮范圍,探討在線評論的情感偏向對物流行業決策的影響。

猜你喜歡
物流文本評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
在808DA上文本顯示的改善
本刊重點關注的物流展會
“智”造更長物流生態鏈
汽車觀察(2018年12期)2018-12-26 01:05:44
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
基于低碳物流的公路運輸優化
現代企業(2015年2期)2015-02-28 18:45:09
決戰“最后一公里”
商界(2014年12期)2014-04-29 00:44:03
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 色哟哟国产精品一区二区| 国产精品区视频中文字幕| 亚洲不卡影院| 亚洲一级毛片在线观播放| 国产一线在线| 亚洲无码视频一区二区三区| 色综合日本| 亚洲成a人片7777| 亚洲精品无码在线播放网站| 欧美区一区| 日本日韩欧美| 91伊人国产| 日韩无码视频播放| 久久精品视频一| 亚洲色图欧美| 国产精品美人久久久久久AV| 蜜臀av性久久久久蜜臀aⅴ麻豆| 爽爽影院十八禁在线观看| 国产精品页| 成年免费在线观看| 国产麻豆精品久久一二三| 日本www色视频| 九九香蕉视频| 亚洲国产综合精品一区| 国产大片喷水在线在线视频 | 中文字幕亚洲乱码熟女1区2区| 亚洲欧美自拍一区| 亚洲综合极品香蕉久久网| 9966国产精品视频| 国产成人精品视频一区视频二区| 韩日无码在线不卡| 无码中文字幕乱码免费2| 亚洲欧美天堂网| 色偷偷av男人的天堂不卡| 中国一级特黄视频| 久久久久九九精品影院| 精品人妻AV区| 无码精油按摩潮喷在线播放 | 国产一级视频久久| 欧美国产日本高清不卡| 久久精品中文字幕少妇| 国产精品成人一区二区| 日韩AV无码免费一二三区| 四虎永久免费在线| 污视频日本| 永久免费精品视频| 亚洲无码视频喷水| 2020极品精品国产| 亚洲天堂高清| 久久无码高潮喷水| 91精品人妻一区二区| 国产精品丝袜视频| 日韩欧美中文| 91外围女在线观看| 久久这里只有精品2| 成人综合久久综合| 片在线无码观看| 就去色综合| 国产麻豆va精品视频| 亚洲人成色在线观看| 国产原创第一页在线观看| 欧美福利在线观看| 91麻豆精品国产91久久久久| 日韩欧美91| 国产成人做受免费视频| 国产麻豆永久视频| 国产91丝袜在线观看| 亚洲美女视频一区| 日本在线视频免费| 东京热高清无码精品| 波多野结衣视频一区二区| 成人福利免费在线观看| 中文精品久久久久国产网址 | 青草视频久久| 亚洲品质国产精品无码| 国产精品19p| 亚洲成a∧人片在线观看无码| 国产在线精彩视频论坛| h视频在线播放| 99久久国产精品无码| 日本中文字幕久久网站| 国产精品高清国产三级囯产AV|