999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電商評論的網購商品特征提取及價格預測

2021-07-27 11:13:36普晟昱
科技創新導報 2021年4期
關鍵詞:特征提取

普晟昱

摘? 要:隨著電子商務的不斷革新,網購消費者在眾多同類型商品中挑選一件物美價廉的商品需要耗費大量時間和精力。本文以京東商城羽毛球商品為例,通過LDA主題模型從暢銷商品的電商評論中挖掘用戶購買羽毛球商品的需求信息,據此提取商品特征作為建立模型所需的解釋變量,建立對商品價格的回歸預測模型。得出結論,基于電商評論提取商品特征建立價格預測模型的方法可以較準確地預測商品平均價格,優化消費者購買決策過程,提升電商平臺運營服務能力。

關鍵詞:電商評論? LDA主題分析? 特征提取? 價格預測? 隨機森林

中圖分類號:F713.36? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)02(a)-0124-06

Feature Extraction and Price Forecasting of Online Commodities Based on E-commerce Comments

PU Chengyu

(School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)

Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-commerce platform.

Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest

隨著電子商務技術的不斷革新,網絡購物現如今已經成為百姓購物的主要方式之一。截至2020年6月,我國網絡購物用戶規模達7.49億,較2018年底增長1.39億[1]。電子商務的開放性和便利性讓消費者用戶足不出戶就能“貨比三家”,買到物美價廉的商品,商家也能獲取到傳統線下運營模式不能比擬的市場規模,越來越多的商家進駐電商平臺使得商品數量和類型呈現井噴式增長。研究發現,用戶是否購買商品,主要取決于在線商品性價比與消費者需求訴求[2]。從消費者的角度來看,繁多的同類型商品給消費者的選擇帶來困難,挑選一件性價比高的商品需要耗費用戶大量的時間與精力。從電商平臺的角度看,改善用戶選擇流程,提升用戶購物體驗能夠顯著提升平臺用戶忠誠度和推廣購買轉化率。

數據挖掘在電子商務領域的應用越來越廣泛,在電子商務智能推薦服務中的關聯規則算法[3],基于電商產品評論數據的文本挖掘方法[4],針對不同消費群體網購決策影響因素研究的聚類分析算法[5]等在電商大數據發展中起到重要作用。目前學者在針對電子商務領域的用戶評論研究大多集中于評論本身所包含的信息,鮮有學者將電商評論挖掘出的信息更進一步運用到回歸預測模型中。如嚴建援等針對在線評論內容對評論有用性的影響的研究[6],李涵昱等針對商品評論進行的情感傾向性分析研究[7],國顯達等提出Gaussian LDA主題模型挖掘京東商城等在線評論中用戶所表達可能的主題的研究[8]。

本文以京東商城的羽毛球商品為例,基于暢銷商品評論挖掘用戶需求,提取商品特征作為模型解釋變量,建立商品價格的回歸預測模型。為用戶購買高性價比羽毛球商品提供參考,也為電商平臺改善用戶體驗提供思路。

1? 研究方法介紹

1.1 基于電商評論的商品特征提取及價格預測模型

本文提出了基于電商評論的網購商品價格預測模型,主要包括六個步驟,如圖1所示。

(1)暢銷商品評論抓取:抓取評論過萬的暢銷商品的最近評論,包含評論的內容、評論所屬商品等信息。

(2)評論文本處理:包括文本去重、機械壓縮去詞、短句刪除和文本分詞等步驟。

(3)LDA主題分析獲取用戶需求:運用基于Gibbs抽樣的LDA主題模型分析店商評論中用戶可能的多個主題傾向,即用戶需求。

(4)商品特征抓取:根據得到的用戶需求在電商平臺中抓取所有與之相關的商品特征數據,作為預測模型的解釋變量,包括商品價格、店鋪類型、評論數量等信息。

(5)變量預處理:對響應變量和解釋變量進行預處理,包括正則表達式處理、缺失值處理和異常值處理等。

(6)建立商品價格預測模型:建立預測模型、評價模型。

1.2 LDA主題模型

LDA主題模型是Blei等于2003年提出的無監督生成式主題模型[9],假設待分析文檔集D由M個文檔組成,即;其中每個文檔由個詞組成,即;M個文檔共分布了K個主題。

對于分布方面LDA模型假設主題在文檔中的分布服從一個參數為的多項分布,詞在主題中的分布服從一個參數為的多項分布,參數和分別來自服從超參數和的狄利克雷先驗分布。則可定義一篇文檔的生成過程如下:對于某個文檔,首先從主題分布中抽取一個主題,再從主題z對應的詞分布中抽取一個單詞,如此重復次即得到文檔。該生成過程可由圖2中的模型結構示意圖表示。在文檔 條件下生成詞W1的概率可以表示為:

(1)

其中表示詞w1屬于第s個主題的概率,表示第S個主題在文檔dj中的概率。

基于該原理,利用Gibbs采樣算法對參數和進行估計即可得到主題在文檔中的多項分布和詞在主題中的多項分布[10]:

(2)

其中,表示文檔中包含的主題的個數;表示詞在主題中出現的次數。

2? 實例分析

2.1 暢銷商品的評論獲取

本文數據來源于京東商城體育用品分類下的羽毛球商品,利用八爪魚網絡爬蟲工具爬取用戶評論數據。考慮到評論過萬的暢銷商品包含優質評論的數量更多,更有利于從中提取用戶需求信息,因此分別抓取這些暢銷商品的最近評論,共收集到13419條評論數據,包含評論的內容、評論所屬商品、評論時間等信息。

2.2 商品評論文本處理

文本預處理方法中的文本去重、機械壓縮去詞和短句刪除被廣泛運用于電商評論分析中,圖3所示為上述預處理方法的步驟和示例。預處理后的評論語料用Jieba分詞中的混合模型進行分詞,它結合使用最大概率法和隱式馬爾科夫模型,對中文文本的分詞效果好。分詞后的文本還需刪除停用詞,即刪除“我”、“的”、“說”等不包含實際意義的詞,以提升分析效率,減少噪聲。經過上述評論文本的處理后,根據每個詞在所有評論中出現的頻率做出如圖4所示的詞云圖,圖中詞的字體越大表示該詞在所有文本中出現的頻次越高。

2.3 LDA主題分析獲取用戶需求

由圖4的用戶評論詞云圖可以看出,經過分詞后的評論確實能夠反映出用戶對于產品的需求,例如商品的包裝、外觀,球的飛行、速度、羽毛,物流情況等,因此進一步采用LDA主題分析模型將用戶需求信息提取出來。本文用R軟件topicmodels包中基于Gibbs抽樣的LDA模型實現用戶評論的主題分析。LDA主題模型建立的關鍵是確定主題數量,運用十折交叉驗證方法計算平均困惑度和平均對數似然值,結果見圖5。根據極小化困惑度和極大化對數似然值下減少主題數的原則確定提取主題數為15。

經LDA主題分析后輸出每個主題對應的前十個高頻特征詞,限于篇幅,僅于表1中列出7個主題(每個主題5個詞)的結果。結合實際意義,將每個主題對應的高頻特征詞分別總結凝練為一個主題詞來概括表示該主題,如表1主題1中所示的高頻特征詞“配送、慢、收到”等詞表達了用戶對快遞配送的需求,因此將該主題歸為“快遞”需求。依此類推本文分別得到的15個主題詞(即用戶需求)為快遞、材質、耐打、服務、評價、做工、羽毛、球頭、手感、包裝、球速、飛行、品牌、店鋪和售后。

2.4 商品特征抓取和變量預處理

在LDA主題模型確定的15個用戶需求指導下,可以有目的性地從消費者的角度提取商品特征作為預測模型的解釋變量,優化模型的變量選擇過程。綜合考慮專業運動員對羽毛球性能的解釋和商品特征數據的易獲取性,諸如表1中用戶需求“售后”可由“售后服務分數”來反映;用戶需求“耐打”主要取決于羽毛球的羽毛材質和庫存存放時間長短即上市時間;用戶需求“飛行”主要由羽毛球的羽毛材質、毛片形狀、球頭材質和商品毛重等多重因素決定等等。本文利用八爪魚爬蟲工具從電商平臺商品詳情網頁中共提取到14個反映用戶需求的商品特征作為模型解釋變量,商品特征與用戶需求的對應關系如圖6所示。

由于商品名稱的特殊性,所爬取到的商品詳情信息中存在“羽毛球拍”、“羽毛球服”等無關商品信息,本文利用自然語言處理的正則表達式將這些信息剔除。另外為了分析的量綱一致性,商品售賣單位統一為市面常售的12只一桶裝的鵝毛或鴨毛材質羽毛球。經初步篩選后,共保留1620條羽毛球商品詳情數據。對于數值型變量缺失情況采用均值填充;分類型變量缺失情況將其他變量作為解釋變量,缺失變量作為響應變量建立隨機森林模型,用預測值填充缺失值。對于數據偏斜很大的評論數變量進行離散化,將評論數0~50記為銷量較差、50~200為銷量一般、200~1000為銷量較好、1000~10000為銷量很好、大于10000為暢銷商品。預處理后的變量類型和取值見表2。

2.5 商品價格預測模型

根據LDA主題分析提取的解釋變量對羽毛球商品價格建立回歸預測模型。考慮商品特征中同時包含數值型變量和分類型變量,為確定合適的預測回歸模型,本文分別選用統計上常用的集成學習、核方法和線性方法中最具代表性的隨機森林模型、支持向量回歸模型和多元線性回歸模型對變量進行擬合,評估各模型在實際應用中的表現,選擇最優模型。本文基于十折交叉驗證方法,計算統計回歸中常用的均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)評估模型的泛化能力于表3列出。結果證明基于集成學習的隨機森林模型在表現上優于支持向量回歸和多元線性回歸模型,因此最終建立基于隨機森林的羽毛球商品價格模型,模型擬合優度為0.85,擬合效果較好。

圖7顯示了各解釋變量在模型中的重要性條形圖,可見前五個影響羽毛球商品價格的因素分別是商品品牌、評價數量、毛片分類、售后服務和物流履約。其中羽毛球商品的品牌在模型中重要度最高,其次是商品評價數量。是否京東自營和店鋪類型在模型中重要度較低,說明羽毛球商品的價格與線上經營渠道的相關性不大。結合表2中各變量所描述類別來看,羽毛球商品價格主要由商品自身屬性和售后服務決定,店鋪的銷售渠道和方式對其影響微乎其微。

3? 結論

本文通過LDA主題模型從暢銷商品的電商評論中挖掘用戶購買羽毛球商品的需求信息,據此提取商品特征作為建立模型所需的解釋變量。運用十折交叉驗證方法計算對比隨機森林模型、支持向量回歸模型和多元線性回歸模型的泛化能力,最終建立了基于電商評論的商品特征提取及價格預測模型。模型顯示影響羽毛球商品價格的因素可以分為商品自身屬性和售后服務兩方面。對于商品自身屬性而言,羽毛球品牌對價格影響最大,消費者在網購羽毛球商品時若選購不同品牌的羽毛球其價格差異會比較大,可根據自身水平決定購買何種檔次,如大眾品牌紅雙喜的羽毛球商品主要定位低端市場,價格總體較低,適合業余健身愛好者購買;而如日本品牌尤尼克斯的羽毛球商品主打中高端市場,價格總體偏高。針對水平較高的業余愛好者或者專業羽毛球運動員,可以進一步根據自身對羽毛球如飛行穩定性、耐打程度等性能要求,運用該模型計算出符合相應需求的羽毛球大致價位,對自己的購買提供參考,以達成更優質的運動體驗。對于售后服務而言,商品包裝、商家默認快遞公司的服務、是否包郵等都對商品價格有一定影響,如京東自營的商品物流履約度極高,但價格相對同樣產品的其他商家更高,且需要額外支付郵費。

綜上所述,本文基于電商評論提取商品特征建立價格預測模型的方法可以較準確地給出商品平均價格,消費者在購買羽毛球商品時可以根據自身對售后服務和商品屬性的要求結合預測價格選擇適合自己的羽毛球商品,優化消費者購買決策過程。對電商平臺而言,建立上述預測模型有利于提升用戶購物體驗,增強用戶粘度,有助于提升平臺對商品價格的管控,保質保價的同時提升平臺運營服務能力,也能夠幫助廠家認識消費者需求與價格之間的相關關系,為廠家生產運營升級提供有效支撐。

參考文獻

[1] 中國互聯網絡信息中心(CNNIC). 第46次中國互聯網絡發展現狀統計報告[R]. 2020-09.

[2] 韋建國,王玉瓊.基于網購平臺大數據的電子商務用戶行為分析與研究[J].湖北理工學院學報, 2019, 35(3):34-38,57.

[3] Marcin Szymkowiak, Tomasz Klimanek, Tomasz Józefowski. Applying Market Basket Analysis to Official Statistical Data[J]. Econometrics, 2018, 22(1):39-57.

[4] 陳義.文本挖掘在網購用戶評論中的應用研究[D]. 杭州:浙江工商大學, 2018.

[5] 陳梅梅,薛陽陽.基于消費群體聚類的網絡購買決策關鍵影響因素分析[J].統計與決策,2015(3):49-51.

[6] 嚴建援,張麗,張蕾.電子商務中在線評論內容對評論有用性影響的實證研究[J].情報科學,2012,30(5): 713-716.

[7] 李涵昱,錢力,周鵬飛.面向商品評論文本的情感分析與挖掘[J].情報科學,2017,35(1):51-55.

[8] 國顯達,那日薩,高歡,等.基于Gaussian LDA的在線評論主題挖掘研究[J].情報學報,2020,39(6):630-639.

[9] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research (JMLR), 2003(3): 993–1022.

[10] 張良均,云偉標,王路,等.R語言數據分析與挖掘實戰[M].北京:機械工業出版社,2015.

[11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

[12] 劉敏,郎榮玲,曹永斌.隨機森林中樹的數量[J]. 計算機工程與應用,2015(5):126-131.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 午夜丁香婷婷| 日韩东京热无码人妻| 午夜一级做a爰片久久毛片| 国产精品女同一区三区五区| 国产日产欧美精品| 久久6免费视频| 97在线免费| 欧美三级视频网站| 亚洲Aⅴ无码专区在线观看q| 久久久受www免费人成| 国产精品理论片| 美女啪啪无遮挡| 操国产美女| 97se亚洲综合在线韩国专区福利| 波多野结衣的av一区二区三区| 国产屁屁影院| 午夜久久影院| 日本亚洲欧美在线| 重口调教一区二区视频| 中文字幕人成人乱码亚洲电影| 亚洲欧美日韩中文字幕一区二区三区 | 99国产精品免费观看视频| 成人午夜视频在线| 91蜜芽尤物福利在线观看| 亚洲精品成人福利在线电影| 高清色本在线www| 亚洲日韩AV无码精品| 天天婬欲婬香婬色婬视频播放| 欧美另类视频一区二区三区| 亚洲欧洲日本在线| 亚洲aⅴ天堂| www.国产福利| 国产福利小视频高清在线观看| 成人久久18免费网站| 日韩欧美在线观看| 免费AV在线播放观看18禁强制| 中文字幕亚洲精品2页| 三上悠亚精品二区在线观看| 在线观看免费国产| 亚洲国产综合自在线另类| 欧美影院久久| 国产91精选在线观看| 毛片在线看网站| 国产成人久视频免费| 亚洲精品制服丝袜二区| 国产香蕉一区二区在线网站| 日韩毛片在线视频| 成人一区专区在线观看| 91精品国产91久久久久久三级| 日韩精品欧美国产在线| 日本在线视频免费| 最新国语自产精品视频在| 欧美一区日韩一区中文字幕页| 精品视频在线一区| 久久综合九色综合97婷婷| 国产一区二区免费播放| 精品日韩亚洲欧美高清a| 亚洲精品天堂在线观看| 丁香六月综合网| 这里只有精品在线| 91成人精品视频| 四虎影视国产精品| 99热国产在线精品99| 亚洲午夜福利在线| 免费一级毛片不卡在线播放| 无码国产偷倩在线播放老年人 | 国产精品成人观看视频国产 | 国产黄色爱视频| 91麻豆精品国产91久久久久| 国产香蕉一区二区在线网站| 免费在线色| 日韩高清在线观看不卡一区二区| 97在线视频免费观看| 成人国产精品2021| 国产又粗又猛又爽| 久久精品国产一区二区小说| 国产成本人片免费a∨短片| 欧美日韩免费| 日本在线免费网站| 无码综合天天久久综合网| 亚洲福利一区二区三区| 欧美一级片在线|