999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類算法的用戶評論數(shù)據(jù)挖掘系統(tǒng)設(shè)計

2021-03-25 04:06:04孫含笑
現(xiàn)代計算機 2021年4期
關(guān)鍵詞:詞匯分類用戶

孫含笑

(汕尾職業(yè)技術(shù)學(xué)院信息工程系,汕尾516600)

0 引言

20 世紀(jì)是一個信息爆炸的時代,相比于從前的車馬慢的生活,快節(jié)奏是這個時代的標(biāo)志,為了滿足時代的發(fā)展,電商應(yīng)用而生。相比于傳統(tǒng)的購物方式,網(wǎng)購用戶可以足不出戶在家“逛商店”,訂貨不受時間、地點的限制;并且獲得大量的商品細(xì)節(jié)信息,買到當(dāng)?shù)厝狈Φ纳唐返龋瑯O大地突破了購物的時間和空間限制。同時,商品銷量也因網(wǎng)購獲得極大的提升。此外電商平臺存儲了海量的商品交易信息、用戶評價等,從這些海量的數(shù)據(jù)中采用數(shù)據(jù)挖掘的方式搜索隱藏于其中信息[1],從而做出相應(yīng)的調(diào)整。例如數(shù)據(jù)挖掘經(jīng)典的應(yīng)用案例,“尿布和啤酒的故事”。樸素貝葉斯作為數(shù)據(jù)挖掘的十大經(jīng)典算法,廣泛地應(yīng)用在文本分類面。“樸素”一詞的由來在于假設(shè)特征之間是相互獨立的,即一個特征或者單詞出現(xiàn)的可能性與它和其他單詞相鄰沒有關(guān)系[2]。簡單的理解,給出一段文字,“研表究明,漢字的序順并不定一能影閱響讀,比如你當(dāng)完看段話后,才發(fā)現(xiàn)這里的字全是亂的。”,樸素貝葉斯分類器就是基于這樣的原理,將復(fù)雜的問題進(jìn)一步簡化,進(jìn)而對文本分類,并且達(dá)到比較好的效果。貝葉斯分類器的實現(xiàn)還依賴于貝葉斯定理[3]:

其中P(H|X)表示給定觀測樣本X,假設(shè)H 成立時的概率;

P(H|X)是后驗概率;

P(H)是H 的先驗概率;

P(X)是X 的先驗概率。

當(dāng)假設(shè)樣本具有n 個特征,且假設(shè)各個特征相互獨立時,式子表述為:

基于貝葉斯分類算法,可以對用戶的評論做出文本分類,從不同的分類中可以挖掘出客戶對商品的主要關(guān)注點,客戶對商品的滿意度,以及商品的改進(jìn)點等。相比于傳統(tǒng)的客戶滿意度調(diào)查,采用數(shù)據(jù)挖掘的方式,更容易發(fā)現(xiàn)數(shù)據(jù)的潛在規(guī)律,而且節(jié)省了人力、物力。

1 研究目的與框架

1.1 研究目的

近年來,隨著電子商務(wù)的不斷發(fā)展,電商的競爭力越來越大,為了提升商品的競爭力,商家可謂是百花齊放。挖掘客戶的潛在需求,聆聽客戶的聲音顯得至關(guān)重要。用戶的評論當(dāng)中,蘊含了大量的信息。此次研究以當(dāng)下最火的化妝品行業(yè)為例,近年來女性對于化妝品的期望越來越高,越來越多的女性渴望擁有白凈的皮膚,由此市面上各種化妝品層出不窮,對于商家來說競爭也越來越大。本文采用Python 爬取某知名化妝品的用戶評論,繪制詞云,根據(jù)詞匯出現(xiàn)的頻次,從而找到關(guān)于該商品的敏感詞匯。利用貝葉斯分類器對用戶評論進(jìn)行類別訓(xùn)練,類別有好評、差評、中評三個類別。對于不同類別的評論分類找到敏感詞匯,找到該商品的改善點以及優(yōu)點,從而提升商品的競爭力。

1.2 研究框架

(1)研究設(shè)計的創(chuàng)新點

采用繪制詞云的方式,可以方便非專業(yè)人士讀取有效的信息。將評論內(nèi)容進(jìn)行分類,從不同類別的評論里找到敏感詞匯,從而精準(zhǔn)地找到商品的核心競爭力以及改善點。

(2)研究和試驗設(shè)計的框架

圖1 研究和試驗設(shè)計框架示意圖

2 研究的設(shè)計與實現(xiàn)

2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

登錄天貓網(wǎng)站,進(jìn)行爬取某知名化妝品的現(xiàn)有評論數(shù)據(jù)。將得到的數(shù)據(jù)存儲在數(shù)據(jù)庫當(dāng)中。對評論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,例如有些用戶沒有做出評價,系統(tǒng)會默認(rèn)給出好評,這些評論數(shù)據(jù)對研究意義不大,因此需要進(jìn)行清洗。

2.2 提取詞頻及繪制詞云圖

對清洗之后的數(shù)據(jù),不能直接使用CountVectorizer進(jìn)行詞頻統(tǒng)計,因為中文的分詞較英文分詞有很大的不同,英文里面每個單詞都是用空格隔開,使用Count-Vectorizer 進(jìn)行詞頻統(tǒng)計有很好的效果,但是處理中文效果卻很不理想。因此先利用jieba 分詞進(jìn)行分詞處理,但使用jieba 分詞在處理過程中發(fā)現(xiàn)有一些詞匯,例如:“不油膩”、“不暗沉”等詞匯,在分詞之后是“不”,“油膩”以及“不”,“暗沉”,這樣的分詞結(jié)果顯然不是想要的結(jié)果,因此在使用jieba 分詞進(jìn)行分詞時,自定義字典添加新詞匯,從而避免jieba 分詞處理過程中的弊端。分詞之后利用CountVectorizer 進(jìn)行詞頻統(tǒng)計,在特征詞匯中發(fā)現(xiàn)一些無用詞匯,例如:“一下”,“一下子”等,因此需要去除停用詞,并利用WordCloud 繪制詞云圖。程序中的關(guān)鍵代碼如下:

繪制的詞云圖如圖2。

圖2 詞云圖

由圖2 詞云圖可以得到一些有效的信息,字體的大小和詞匯出現(xiàn)的頻次成正比。大部分用戶對該商品體驗不錯,感到很滿意。客戶關(guān)注該商品的重點是,吸收效果、保濕效果、味道、滋潤度、包裝、活動優(yōu)惠力度、美白效果、清爽度。

2.3 建立貝葉斯分類模型

通過繪制詞云,可以看到客戶對商品的整體評價以及客戶對商品的關(guān)注點。對于該電商來說,不僅僅需要上述信息,還需要從客戶的評價中找到商品的宣傳點、核心競爭力以及商品所存在的問題。貝葉斯分類器對于文本分類問題具有較好的分類效果,因此構(gòu)建貝葉斯分類器模型,將商品評論分為好評、差評、以及中評,現(xiàn)有的評論分類比例為:好評:差評:中評=177:1.2:1,因此大部分客戶對該商品比較滿意,并從現(xiàn)有的分類結(jié)果對模型進(jìn)行訓(xùn)練以及評估,訓(xùn)練集和測試集的比例為:3:1,模型訓(xùn)練的結(jié)果為:訓(xùn)練集的得分0.999611046285492,測試集的分值為測試集的得分1.0,具有較好的分類結(jié)果。

利用貝葉斯分類器測試集的評分如表1 所示,由表1 的結(jié)果可知,差評和中評的準(zhǔn)確率和召回率都為1,因此我們所構(gòu)建的模型能夠準(zhǔn)確地對評論進(jìn)行正確分類。通過構(gòu)建貝葉斯分類器,可以快速將評論數(shù)據(jù)進(jìn)行分類,進(jìn)而能夠準(zhǔn)確地在不同類別中尋找敏感詞匯。

表1 模型分類評價表

2.4 提取各個類別的敏感詞匯

提取評論中好評、差評、中評中的高頻詞匯,如表2所示。

表2 高頻詞匯分類表

圖3 高頻詞匯雷達(dá)圖

通過表2 可以獲得高頻詞匯雷達(dá)圖(如圖3 所示)。從不同類別中提取高頻詞匯可以看到,商品的特點有:保濕效果好、質(zhì)地不錯、滋潤度好、清爽不油膩,包裝精美、味道好聞,具有美白效果好,受到90%以上的用戶喜愛。從差評中提取的高頻詞匯可知,首先是客戶對商品是否是正品存在質(zhì)疑以及味道刺鼻等問題,另外商品在雙十一活動中存在一些問題,客服態(tài)度以及贈送的小樣沒有達(dá)到部分顧客的滿意度。從中評中提取的高頻詞匯可知,商品整體評價不錯,但是沒有贈品問題以及價格不劃算拉低了用戶體驗。

接下來我們來分析主要的消費群體,如表3 所示。

表3 消費群體分類表

除了大部分女性消費群體,一些男士也會買給自己的女朋友和老婆。因此可以將一些年輕的男士也作為重點推廣客戶。

接下來我們來分析消費群體的膚質(zhì)特征,如表4所示。

表4 消費群體膚質(zhì)分類表

由上述結(jié)果可知,該護(hù)膚品適合所有的膚質(zhì),不同膚質(zhì)的用戶體驗都不錯。對于敏感肌和痘肌的用戶也有不錯的體驗。

從上述分析來看,大部分客戶對商品的滿意度高。從少部分的客戶評價來看,商品本身可能存在氣味刺鼻的問題,但是這個問題也存在質(zhì)疑,因為從大部分客戶的評價來看,商品氣味沒有問題,氣味有淡淡的清香。因此商家可以通過樣本測試或者市場調(diào)研來解決這個問題。此外,從獲取的評論數(shù)據(jù)中可知,商家的贈品比較少,打折力度不夠,也是拉低用戶體驗的原因,因此商家可以在一些大型的電商促銷活動中,例如雙十一和雙十二等節(jié)日中加大打折力度或者贈送樣品來回饋顧客。

3 結(jié)語

本文基于通過Python 爬取某知名化妝品的用戶評論,通過對數(shù)據(jù)清洗、詞頻統(tǒng)計以及繪制詞云圖,分析得到客戶對商品的用戶體驗,以及客戶對該商品的主要關(guān)注點。接下來為了更好地得到用戶評價潛在的信息,對評論數(shù)據(jù)進(jìn)行分類,分成中評、差評、好評,并構(gòu)建貝葉斯分類器模型,進(jìn)行模型訓(xùn)練及評估。由結(jié)果可知,訓(xùn)練集和測試集的準(zhǔn)確率都基本達(dá)到100%,各個類別的查準(zhǔn)率和查全率也達(dá)到100%,因此能夠準(zhǔn)確地識別出差評以及中評,表明構(gòu)建的模型有很好的效果。接著對各個類別分別提取敏感詞匯,找到商品的核心競爭力和商品存在的問題。研究實驗表明,該研究易讀性強,成本低,具有潛在的商業(yè)應(yīng)用價值。

猜你喜歡
詞匯分類用戶
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 精品国产一区91在线| 亚洲成人黄色在线| 国产精品亚洲欧美日韩久久| 国产流白浆视频| 四虎精品免费久久| 国产第八页| 国产精品网址你懂的| 精品无码国产自产野外拍在线| 无码高潮喷水在线观看| 亚洲第一网站男人都懂| 欧美日韩午夜| 国产精品99r8在线观看| 蜜桃视频一区二区| 亚洲区一区| 激情综合网激情综合| 日韩精品毛片| 成人综合网址| 亚洲日韩精品伊甸| a毛片免费观看| 伊人色在线视频| 成人福利视频网| 亚洲制服中文字幕一区二区| 国产极品粉嫩小泬免费看| 久久精品人人做人人爽97| 久久精品亚洲热综合一区二区| 一本二本三本不卡无码| 尤物亚洲最大AV无码网站| 亚洲码在线中文在线观看| 四虎影视国产精品| 国产在线一区二区视频| 精品久久国产综合精麻豆| 看国产一级毛片| 亚洲天堂免费在线视频| 欧美在线网| 色呦呦手机在线精品| 欧美亚洲激情| 色丁丁毛片在线观看| 亚洲视频三级| 精品国产91爱| 欧美精品不卡| 国产欧美成人不卡视频| 国产精品亚洲欧美日韩久久| 精品久久蜜桃| 婷婷综合亚洲| 秋霞国产在线| 国产乱视频网站| 国产精品亚洲一区二区在线观看| 国产精品真实对白精彩久久| 欧美国产在线精品17p| 性视频久久| 久久99蜜桃精品久久久久小说| 一级成人a做片免费| 国产精品免费久久久久影院无码| 日韩免费毛片视频| 亚洲国产精品一区二区第一页免| 在线看AV天堂| 免费看美女毛片| 亚洲区第一页| 好吊色国产欧美日韩免费观看| 日韩天堂在线观看| 免费一极毛片| 久久精品亚洲专区| 波多野结衣中文字幕久久| 呦女精品网站| 精品综合久久久久久97超人| 亚洲国产精品不卡在线| 国产精品欧美亚洲韩国日本不卡| 久久精品国产电影| 欧美一区二区三区欧美日韩亚洲| 亚洲综合色区在线播放2019 | 亚洲高清国产拍精品26u| 日韩av高清无码一区二区三区| 国产香蕉97碰碰视频VA碰碰看| 九色综合伊人久久富二代| 无码电影在线观看| 五月天福利视频| 欧美福利在线观看| a级免费视频| 色婷婷色丁香| 福利视频久久| 在线一级毛片| 色婷婷在线播放|