999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類算法的用戶評論數(shù)據(jù)挖掘系統(tǒng)設(shè)計

2021-03-25 04:06:04孫含笑
現(xiàn)代計算機 2021年4期
關(guān)鍵詞:詞匯分類用戶

孫含笑

(汕尾職業(yè)技術(shù)學院信息工程系,汕尾516600)

0 引言

20 世紀是一個信息爆炸的時代,相比于從前的車馬慢的生活,快節(jié)奏是這個時代的標志,為了滿足時代的發(fā)展,電商應(yīng)用而生。相比于傳統(tǒng)的購物方式,網(wǎng)購用戶可以足不出戶在家“逛商店”,訂貨不受時間、地點的限制;并且獲得大量的商品細節(jié)信息,買到當?shù)厝狈Φ纳唐返龋瑯O大地突破了購物的時間和空間限制。同時,商品銷量也因網(wǎng)購獲得極大的提升。此外電商平臺存儲了海量的商品交易信息、用戶評價等,從這些海量的數(shù)據(jù)中采用數(shù)據(jù)挖掘的方式搜索隱藏于其中信息[1],從而做出相應(yīng)的調(diào)整。例如數(shù)據(jù)挖掘經(jīng)典的應(yīng)用案例,“尿布和啤酒的故事”。樸素貝葉斯作為數(shù)據(jù)挖掘的十大經(jīng)典算法,廣泛地應(yīng)用在文本分類面。“樸素”一詞的由來在于假設(shè)特征之間是相互獨立的,即一個特征或者單詞出現(xiàn)的可能性與它和其他單詞相鄰沒有關(guān)系[2]。簡單的理解,給出一段文字,“研表究明,漢字的序順并不定一能影閱響讀,比如你當完看段話后,才發(fā)現(xiàn)這里的字全是亂的。”,樸素貝葉斯分類器就是基于這樣的原理,將復(fù)雜的問題進一步簡化,進而對文本分類,并且達到比較好的效果。貝葉斯分類器的實現(xiàn)還依賴于貝葉斯定理[3]:

其中P(H|X)表示給定觀測樣本X,假設(shè)H 成立時的概率;

P(H|X)是后驗概率;

P(H)是H 的先驗概率;

P(X)是X 的先驗概率。

當假設(shè)樣本具有n 個特征,且假設(shè)各個特征相互獨立時,式子表述為:

基于貝葉斯分類算法,可以對用戶的評論做出文本分類,從不同的分類中可以挖掘出客戶對商品的主要關(guān)注點,客戶對商品的滿意度,以及商品的改進點等。相比于傳統(tǒng)的客戶滿意度調(diào)查,采用數(shù)據(jù)挖掘的方式,更容易發(fā)現(xiàn)數(shù)據(jù)的潛在規(guī)律,而且節(jié)省了人力、物力。

1 研究目的與框架

1.1 研究目的

近年來,隨著電子商務(wù)的不斷發(fā)展,電商的競爭力越來越大,為了提升商品的競爭力,商家可謂是百花齊放。挖掘客戶的潛在需求,聆聽客戶的聲音顯得至關(guān)重要。用戶的評論當中,蘊含了大量的信息。此次研究以當下最火的化妝品行業(yè)為例,近年來女性對于化妝品的期望越來越高,越來越多的女性渴望擁有白凈的皮膚,由此市面上各種化妝品層出不窮,對于商家來說競爭也越來越大。本文采用Python 爬取某知名化妝品的用戶評論,繪制詞云,根據(jù)詞匯出現(xiàn)的頻次,從而找到關(guān)于該商品的敏感詞匯。利用貝葉斯分類器對用戶評論進行類別訓練,類別有好評、差評、中評三個類別。對于不同類別的評論分類找到敏感詞匯,找到該商品的改善點以及優(yōu)點,從而提升商品的競爭力。

1.2 研究框架

(1)研究設(shè)計的創(chuàng)新點

采用繪制詞云的方式,可以方便非專業(yè)人士讀取有效的信息。將評論內(nèi)容進行分類,從不同類別的評論里找到敏感詞匯,從而精準地找到商品的核心競爭力以及改善點。

(2)研究和試驗設(shè)計的框架

圖1 研究和試驗設(shè)計框架示意圖

2 研究的設(shè)計與實現(xiàn)

2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

登錄天貓網(wǎng)站,進行爬取某知名化妝品的現(xiàn)有評論數(shù)據(jù)。將得到的數(shù)據(jù)存儲在數(shù)據(jù)庫當中。對評論數(shù)據(jù)進行數(shù)據(jù)清洗,例如有些用戶沒有做出評價,系統(tǒng)會默認給出好評,這些評論數(shù)據(jù)對研究意義不大,因此需要進行清洗。

2.2 提取詞頻及繪制詞云圖

對清洗之后的數(shù)據(jù),不能直接使用CountVectorizer進行詞頻統(tǒng)計,因為中文的分詞較英文分詞有很大的不同,英文里面每個單詞都是用空格隔開,使用Count-Vectorizer 進行詞頻統(tǒng)計有很好的效果,但是處理中文效果卻很不理想。因此先利用jieba 分詞進行分詞處理,但使用jieba 分詞在處理過程中發(fā)現(xiàn)有一些詞匯,例如:“不油膩”、“不暗沉”等詞匯,在分詞之后是“不”,“油膩”以及“不”,“暗沉”,這樣的分詞結(jié)果顯然不是想要的結(jié)果,因此在使用jieba 分詞進行分詞時,自定義字典添加新詞匯,從而避免jieba 分詞處理過程中的弊端。分詞之后利用CountVectorizer 進行詞頻統(tǒng)計,在特征詞匯中發(fā)現(xiàn)一些無用詞匯,例如:“一下”,“一下子”等,因此需要去除停用詞,并利用WordCloud 繪制詞云圖。程序中的關(guān)鍵代碼如下:

繪制的詞云圖如圖2。

圖2 詞云圖

由圖2 詞云圖可以得到一些有效的信息,字體的大小和詞匯出現(xiàn)的頻次成正比。大部分用戶對該商品體驗不錯,感到很滿意。客戶關(guān)注該商品的重點是,吸收效果、保濕效果、味道、滋潤度、包裝、活動優(yōu)惠力度、美白效果、清爽度。

2.3 建立貝葉斯分類模型

通過繪制詞云,可以看到客戶對商品的整體評價以及客戶對商品的關(guān)注點。對于該電商來說,不僅僅需要上述信息,還需要從客戶的評價中找到商品的宣傳點、核心競爭力以及商品所存在的問題。貝葉斯分類器對于文本分類問題具有較好的分類效果,因此構(gòu)建貝葉斯分類器模型,將商品評論分為好評、差評、以及中評,現(xiàn)有的評論分類比例為:好評:差評:中評=177:1.2:1,因此大部分客戶對該商品比較滿意,并從現(xiàn)有的分類結(jié)果對模型進行訓練以及評估,訓練集和測試集的比例為:3:1,模型訓練的結(jié)果為:訓練集的得分0.999611046285492,測試集的分值為測試集的得分1.0,具有較好的分類結(jié)果。

利用貝葉斯分類器測試集的評分如表1 所示,由表1 的結(jié)果可知,差評和中評的準確率和召回率都為1,因此我們所構(gòu)建的模型能夠準確地對評論進行正確分類。通過構(gòu)建貝葉斯分類器,可以快速將評論數(shù)據(jù)進行分類,進而能夠準確地在不同類別中尋找敏感詞匯。

表1 模型分類評價表

2.4 提取各個類別的敏感詞匯

提取評論中好評、差評、中評中的高頻詞匯,如表2所示。

表2 高頻詞匯分類表

圖3 高頻詞匯雷達圖

通過表2 可以獲得高頻詞匯雷達圖(如圖3 所示)。從不同類別中提取高頻詞匯可以看到,商品的特點有:保濕效果好、質(zhì)地不錯、滋潤度好、清爽不油膩,包裝精美、味道好聞,具有美白效果好,受到90%以上的用戶喜愛。從差評中提取的高頻詞匯可知,首先是客戶對商品是否是正品存在質(zhì)疑以及味道刺鼻等問題,另外商品在雙十一活動中存在一些問題,客服態(tài)度以及贈送的小樣沒有達到部分顧客的滿意度。從中評中提取的高頻詞匯可知,商品整體評價不錯,但是沒有贈品問題以及價格不劃算拉低了用戶體驗。

接下來我們來分析主要的消費群體,如表3 所示。

表3 消費群體分類表

除了大部分女性消費群體,一些男士也會買給自己的女朋友和老婆。因此可以將一些年輕的男士也作為重點推廣客戶。

接下來我們來分析消費群體的膚質(zhì)特征,如表4所示。

表4 消費群體膚質(zhì)分類表

由上述結(jié)果可知,該護膚品適合所有的膚質(zhì),不同膚質(zhì)的用戶體驗都不錯。對于敏感肌和痘肌的用戶也有不錯的體驗。

從上述分析來看,大部分客戶對商品的滿意度高。從少部分的客戶評價來看,商品本身可能存在氣味刺鼻的問題,但是這個問題也存在質(zhì)疑,因為從大部分客戶的評價來看,商品氣味沒有問題,氣味有淡淡的清香。因此商家可以通過樣本測試或者市場調(diào)研來解決這個問題。此外,從獲取的評論數(shù)據(jù)中可知,商家的贈品比較少,打折力度不夠,也是拉低用戶體驗的原因,因此商家可以在一些大型的電商促銷活動中,例如雙十一和雙十二等節(jié)日中加大打折力度或者贈送樣品來回饋顧客。

3 結(jié)語

本文基于通過Python 爬取某知名化妝品的用戶評論,通過對數(shù)據(jù)清洗、詞頻統(tǒng)計以及繪制詞云圖,分析得到客戶對商品的用戶體驗,以及客戶對該商品的主要關(guān)注點。接下來為了更好地得到用戶評價潛在的信息,對評論數(shù)據(jù)進行分類,分成中評、差評、好評,并構(gòu)建貝葉斯分類器模型,進行模型訓練及評估。由結(jié)果可知,訓練集和測試集的準確率都基本達到100%,各個類別的查準率和查全率也達到100%,因此能夠準確地識別出差評以及中評,表明構(gòu)建的模型有很好的效果。接著對各個類別分別提取敏感詞匯,找到商品的核心競爭力和商品存在的問題。研究實驗表明,該研究易讀性強,成本低,具有潛在的商業(yè)應(yīng)用價值。

猜你喜歡
詞匯分類用戶
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 午夜精品福利影院| 亚洲最大情网站在线观看| 一级全免费视频播放| 伊人激情综合网| 亚洲精品欧美日本中文字幕| 久久这里只精品国产99热8| 日韩精品视频久久| 国产欧美自拍视频| 亚洲欧洲AV一区二区三区| 九九热精品视频在线| 国产成人在线小视频| 在线播放国产99re| 在线一级毛片| 免费a在线观看播放| 秘书高跟黑色丝袜国产91在线| 欧美激情视频一区二区三区免费| 久久久久夜色精品波多野结衣| 欧美一级在线播放| 一区二区三区成人| 全午夜免费一级毛片| 啪啪国产视频| 日韩精品毛片| 天堂成人av| 高清乱码精品福利在线视频| 一级做a爰片久久毛片毛片| 国产精品9| a欧美在线| 国产精品福利导航| 国产成人高清在线精品| 91午夜福利在线观看| 在线观看av永久| 国产一线在线| 日本欧美视频在线观看| 亚洲bt欧美bt精品| 欧美日韩久久综合| 欧美日韩理论| 国产99在线观看| 狠狠综合久久| 色哟哟精品无码网站在线播放视频| av在线无码浏览| 国产jizz| 国产精品一线天| 久久天天躁狠狠躁夜夜躁| 亚洲精品777| 亚洲精品视频网| 亚洲欧美不卡中文字幕| 免费全部高H视频无码无遮掩| av在线手机播放| 亚洲日韩Av中文字幕无码| 国产精品页| 四虎国产永久在线观看| 国产美女精品在线| 91啪在线| 欧美激情第一欧美在线| 乱人伦视频中文字幕在线| 亚洲欧美在线综合图区| 亚洲一区免费看| 国产女人在线| 伊人久久婷婷| 亚洲国产精品一区二区第一页免| 国产成人亚洲精品无码电影| 谁有在线观看日韩亚洲最新视频| 日本在线免费网站| 国产资源站| 亚洲欧美h| 国产永久在线观看| 日韩色图在线观看| 波多野结衣一级毛片| 欧美www在线观看| 2021最新国产精品网站| 色综合热无码热国产| 日本人真淫视频一区二区三区| 五月婷婷导航| 国产精品大白天新婚身材| 99在线国产| 国产欧美日韩视频怡春院| 精品福利视频网| 亚洲精品视频免费看| 国产亚洲精品在天天在线麻豆| 国产视频久久久久| 欧美国产在线一区| 九九热精品视频在线|