999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Gensim的LDA主題模型分析在商品評價中的應用

2021-11-28 10:53:41肖自乾陳經優符天
電腦知識與技術 2021年30期
關鍵詞:評價

肖自乾 陳經優 符天

摘要:目前在網上購物已成為大多數人的首選,避免購物途中的勞累并且也節約時間。文章基于LDA主題模型對電商平臺商品的評論數據進行分析,得出用戶正面評價和負面評價分別主要集中在哪些方面,并提出針對性的改進建議,從而提高商品的質量和用戶體驗。

關鍵詞:Gemsim;LDA;文本分析;主題模型;評價

中圖分類號:G642? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)30-0017-03

開放科學(資源服務)標識碼(OSID):

1引言

隨著信息技術的不斷發展革新,線下物流業的蓬勃發展,人們在電商平臺購物已成為生活的一部分。2020年中國網上零售額達11.76萬億元,同比增長10.9%,實物商品網上零售額達9.76萬億元,同比增長14.8%[1]。面對如此龐大用戶群體、如此龐大的交易額,商家如何高效準確地獲取客戶反饋對提高銷售量、提升客戶滿意度及提高服務質量顯得尤為重要。因此課題從電商平臺著手,獲取海量用戶對某一產品的評價,如好評、差評等,接著進行文本主題分析,得到該產品有哪些方面的優點和缺點,進而提供相關的改進建議。

2 LDA主題模型

2.1 文本分析

文本分析是指對文本的表示及其特征項的選取,它把從文本中抽取出的特征詞進行量化來表示文本信息。課題用數學的方法進行選取,找出最具分類信息的特征,這是一種比較精確的方法,尤其適合于文本自動分類挖掘系統的應用[2]。

2.2 LDA的概念和方法

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為三層貝葉斯概率模型,包含詞、主題和文檔三層結構。LDA是一種非監督機器學習技術,可以用來識別大規模文檔集或語料庫中潛藏的主題信息,它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息[3]。課題主要應用Gensim庫中的LDA模型。Gensim是一款開源的第三方Python工具包,用于從原始的非結構化的文本中,無監督地學習到文本隱藏層的主題向量表達。它支持包括TF-IDF,LSA,LDA,和word2vec在內的多種主題模型算法,支持流式訓練,并提供了諸如相似度計算,信息檢索等一些常用任務的API接口。

3抓取筆記本電腦用戶評論

我們選取電商平臺上一款銷售量較高的筆記本電腦產品,查看“商品評論”可以看到分為好評、中評以及差評。在評論數據包含用戶ID、商品名稱、評論內容以及評論時間等。在數據抓取中我們可以使用“requests”庫或者“Scrapy”爬蟲框架來實現。

我們編寫程序抓取“好評”評論,對每條記錄標記為“pos”,抓取“差評”,對每條記錄標記為“neg”。抓取評論頁數設置為50頁。最終獲取正面評論500條,負面評論360條。

4 數據處理分析及LDA模型構建

4.1 語料處理

第一步是進行數據去重和刪除筆記本電腦名稱等無關詞組。抓取到的數據是比較完整的,里面存在諸如商品名、商品型號等重復數據,我們需要對這些數據進行刪除,保留能反映商品優缺點的評論內容。

第二步是進行分詞、刪除標點符號和停用詞。中文分詞是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊,在進行中文自然語言處理時,通常需要先進行分詞。在項目中我們引入jieba庫,jieba分詞算法使用了基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能生成詞情況所構成的有向無環圖(DAG),再采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。下一步是去除停用詞(Stop Words)。停用詞被譯為“電腦檢索中的虛字、非檢索用字”。在SEO 搜索引擎中,為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些詞,這些字或詞即被稱為停用詞。停用詞一定程度上相當于過濾詞(Filter Words),區別是過濾詞的范圍更大一些,包含敏感信息的關鍵詞都會被視作過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞大致可分為如下兩類:一類是使用十分廣泛,甚至是過于頻繁的一些單詞。另一類是文本中出現頻率很高,但實際意義又不大的詞。主要包括了語氣助詞、副詞、介詞、連詞等,通常自身并無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。經過分詞后,評論由一個字符串的形式變為多個由文字或詞語組成的字符串的形式,可判斷評論中詞語是否為停用詞。根據上述停用詞的定義整理出停用詞庫,對評論數據進行處理。

最后一步是合并評論ID、評論中詞的ID、詞、詞性以及評論類型成一張表,提取含有名詞類的評論,最后將語料處理結果寫入數據文件。

4.2 文本情感分析

情感傾向也稱為情感極性。在商品評論中,情感傾向可以理解為用戶對該商品表達自身觀點所持的態度是支持、反對還是中立,即通常所指的正面情感、負面情感、中性情感。由于課題主要是對產品的優缺點進行分析,所以只要確定用戶評論信息中的情感傾向方向分析即可,不需要分析每一評論的情感程度。

首先我們建立負面評價詞語、負面情感詞語、正面評價詞語以及正面情感詞語四個文本庫,用于我們進行目標文本分析的時候用于計算情感值。即正面評價詞和正面情感詞分值為1,負面評價詞和負面情感詞分值為-1;然后是根據否定詞或雙重否定對情感值進行修正;最后是去掉情感值為0的評論,并分別得到正面和負面的評論信息關鍵詞。通過實驗表明,在使用原始的正面負面文本庫的情況下,假設不存在“好評”中給差評,和“差評”中給好評的情況,根據文本情感分析的正確率為0.8763326226012793,此時交叉矩陣如表3所示。

經過查看文本數據,發現較多正面評價詞語被歸到負面,或者一些情感詞沒有被歸類到相應的類別,因此需要進行修正,即添加正面或負面評價詞語到相應的文本庫中,再次運行并得到正確率提高到0.955,此時交叉矩陣如表4所示。

4.3 主題數尋優

在這里我們引入Gensim庫,使用doc2bow方法分別將每個正面評論或負面評論生成一個n維向量即語料庫。應用基于相似度的自適應最優LDA 模型選擇方法,確定主題數并進行主題分析。具體步驟如下:

(1)選擇初始主題數k 值,得到初始模型,計算各主題之間的相似度(平均余弦距離)。

(2)增加或減少k 值,重新訓練模型,再次計算各主題之間的相似度。

(3)重復步驟2 直到得到最優k 值。

利用各主題間的余弦相似度來度量主題間的相似程度。從詞頻入手,計算它們的相似度,用詞越相似,則內容越相近。

對正面評論和負面評論分別執行劃分2~10個主題并計算計算主題平均余弦相似度,生成折線圖如圖1、2所示,從而確定最佳的主題數。

從以圖1和圖2我們可以看出,對于正面、負面評論主題數我們分別選1個和2個較為合適。

4.4 LDA主題模型分析結論

根據主題數尋優結果,進行基于LDA的主題分析,打印前10個詞組,正面評論生成1個主題,結果見表5,負面評論生成2個主題,結果見表6。

通過主題分析我們可以看出,對于正面評論,相對是比較集中在運行速度快、外觀等方面;負面評論有兩個方面,首先是對產品總體評價差、開機慢、卡頓等,其次是客服、售后服務質量差,也存在散熱等問題。

5 結語

課題通過對電商平臺上一款筆記本電腦的正面評論和負面評論進行主題分析,得出相應的結論,具體指出用戶正面評價、負面評價主要體現哪些方面,從而為產品制造商、電商平臺服務等提出針對性的建議,從而提高產品的質量和平臺的服務質量。

參考文獻:

[1] 2020年全年網絡零售市場發展情況[EB/OL].http://www.mofcom.gov.cn/article/i/jyjl/j/202101/20210103033716.shtml.

[2] 曾祥坤,張俊輝,石拓,邵可佳. 基于主題提取模型的交通違法行為文本數據的挖掘[J].電子技術應用,2019(6):47-51.

[3] 程元堃,蔣言,程光. 基于word2vec的網站主題分類研究[J]. 計算機與數字工程,2019(1):174-178.

[4]張厚棟,徐愛民.基于LDA模型的電商用戶評價分析[J].浙江萬里學院學報,2020,33(6):91-96.

[5] 張心悅. 生鮮農產品在線評論文本內容對消費者滿意度的影響研究[D].哈爾濱工業大學,2020.

[6] 陳俊宇. 基于文本挖掘的在線評論應用研究[D].湖北工業大學,2020.

【通聯編輯:王力】

猜你喜歡
評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
自制C肽質控品及其性能評價
寫作交流與評價:詞的欣賞
中學語文(2015年21期)2015-03-01 03:52:11
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應用評價
西南軍醫(2015年1期)2015-01-22 09:08:16
有效評價讓每朵花兒都綻放
模糊數學評價法在水質評價中的應用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉軌20年評價
主站蜘蛛池模板: 91香蕉国产亚洲一二三区| 夜夜操天天摸| 激情六月丁香婷婷| 国产不卡国语在线| 天堂中文在线资源| 国产美女精品一区二区| 精品国产一二三区| 国产视频只有无码精品| 亚洲美女一区二区三区| 亚洲国产黄色| 青草国产在线视频| 久综合日韩| 永久免费无码日韩视频| 精品人妻系列无码专区久久| 亚洲三级色| 久久这里只有精品免费| 欧美第九页| 18禁影院亚洲专区| 欧美日韩v| 国产亚洲精品自在线| 国产精品微拍| a级毛片网| 久久这里只有精品国产99| 精品一区二区三区波多野结衣 | 波多野结衣视频网站| 亚洲免费三区| 免费人成在线观看视频色| 亚洲av无码久久无遮挡| 在线视频亚洲色图| 欧美日韩国产一级| 久久精品91麻豆| 免费av一区二区三区在线| 亚洲一区二区精品无码久久久| 亚洲成a人片在线观看88| 久久国产拍爱| 91在线中文| 欧美视频在线不卡| 91在线丝袜| 亚洲一区无码在线| 欧美中文字幕一区| 香蕉伊思人视频| 精品视频91| 人妻精品久久无码区| 亚洲av无码专区久久蜜芽| 99热这里只有精品5| 欧美日本二区| 99ri精品视频在线观看播放| 国产不卡一级毛片视频| 另类综合视频| 九九香蕉视频| 激情乱人伦| 亚洲国产午夜精华无码福利| 国产亚洲第一页| 欧美亚洲第一页| 日本在线视频免费| 成人一级免费视频| 在线看国产精品| 国产AV无码专区亚洲精品网站| 91福利片| 欧美一区二区啪啪| 久久一日本道色综合久久| 精品视频一区二区观看| 内射人妻无套中出无码| 国产成人精品一区二区三区| 久久综合色播五月男人的天堂| 久久国产拍爱| 亚洲视屏在线观看| 91久久青青草原精品国产| 午夜欧美理论2019理论| igao国产精品| 精品国产一区二区三区在线观看| 尤物特级无码毛片免费| 青青国产成人免费精品视频| 欧美黄网站免费观看| 日韩精品中文字幕一区三区| 午夜少妇精品视频小电影| 国产免费网址| 国产99热| 日韩小视频在线播放| 免费观看男人免费桶女人视频| 日韩在线播放欧美字幕| 国产成人久久综合777777麻豆|