999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的線上評論情感分類研究

2021-09-15 08:52:08任正甜李興東
科學技術創新 2021年26期
關鍵詞:分類文本評價

任正甜 李興東

(蘭州交通大學,甘肅 蘭州 730070)

1 概述

在現代社會中,網絡購物是非常重要的一種購物方式,在購物市場中占據了非常重要的分量。網絡購物用戶也可以通過在線評論表達自己使用產品后的感受,而客戶的在線評價也成為了影響消費者決策的重要因素,對賣家服務能力的提高也有重要的指導作用。單純依靠人工去收集和分類線上評論是不切實際的,故需利用機器學習的途徑對線上評論文本進行分類處理,通過對分析對商戶和顧客提供有效的信息。

在國內外,也已經有很多相關方面的研究,學者TimurSokhin在針對主題模型的基礎上,提出一種半監督情感分析方法[1];E.D'Andrea構建了包括SVM在內的三種模型,并且達到很好的實驗結果[2];楊宇婷等在的特征表達法上進行了創新,結合利用了SVM算法[3];陳子昕采用SVM分類器對新聞評論文本進行分類,并且評價指標準確率也較高[4]。

2 研究方法介紹

利用機器學習進行情感分類已經有了很多的研究成果,但是利用adaboost等多種分類器進行建模分析的研究較少。本文將獲取的評論文本進行分詞、去除停用詞等預處理,特征提取利用TF-IDF算法,再采用NB、SVM、adaboost三種分類器,建立情感分類模型并加以應用,最后通過特定評價指標對三種方法的性能進行比較,對商戶和顧客提供參考。

2.1 特征提取

TF-IDF(Term Frequency-Inverse Document Frequency)翻譯為中文即為“詞頻-逆向文本頻率”。它由TF(詞頻)和IDF(逆向文本頻率)兩部分組成。TF(詞頻)表示在評論文本中某一給定詞 出現的頻率[5]。計算過程見公式:

IDF實際意義:IDF值小,說明評論文本中有該給定詞w的數量多,反之則IDF的值大。在這里,我們容易得到一個極端的情況:如果在所有的評論文本中一個給定詞w均出現過,那么詞w的IDF值即為0,由下面的計算公式看也十分顯然。

TF-IDF算法判斷詞w區分能力的過程可概括為:若給定詞w只在文本c中常出現,而在其他文本中不常出現,則認為該詞w的區分能力很好。TF-IDF算法優點是計算快速,結果也比較符合實際情況。

2.2 樸素貝葉斯(NB)分類器

以貝葉斯公式為架構的基礎上,計算后驗概率P(c|x)是及其困難的,因為由“因”到“果”的概率去推算由“果”到“因”的概率是不容易的。為了解決此類困難,樸素貝葉斯分類器(Naive Bayes classifier)的基礎條件中多了一個假設條件:假設每個能對最后分類的結果產生影響的屬性都是相互獨立的。

2.3 支持向量機(SVM)分類器

支持向量機(英文全稱Support Vector Machine,簡稱SVM):找出一個特定的劃分超平面:該平面在能將訓練數據集正確劃分的基礎上、能夠使幾何間隔盡量最大化。使

2.4 Ada-boost分類器

Ada-boost(Adaptive Boosting)方法是改進了的boosting算法。

在一開始,訓練數據各自均具有相同的權重值,第一個基分類器是通過直接將學習算法用在初始數據分布上得到的。但在循環下一輪回時,將利用不同樣本分布不同權重值得到:加大對錯分樣本的“重視度”-加大權重這樣,難以分類正確的樣本就成了下一輪循環時候的“重點分類對象”,這樣在新一輪訓練時,可得到一個新的分類器。就這樣多次分配權重,多次重復循環,將得到 個不同的弱分類器,將這 個弱分類器進行“融合”,就可以得到一個強分類器。其中,在進行弱分類器組合時,使分類準確度低的分類器權值小一些,相反,分類準確度高的分類器權值大。

3 結果與分析

3.1 數據來源

本文選取購物平臺京東為評論數據來源,使用八爪魚軟件,采集顧客在小米旗艦店中購買小米10S的所有評論情況,共獲得1428條評論,其中正面評價數據1000條,負面評價數據428條。并對數據進行預處理,正面評價標簽為0,負面標簽為1。

3.2 結果對比與分析

通過對三種分類器模型的訓練和應用,利用性能評價指標,對三個不同結果進行對比,結果對比如圖1。

圖1 結果對比圖

通過三個評價指標:準確度、召回率以及F1值可以看出,各個模型中SVM分類器效果極佳,在精度方面略遜色于樸素貝葉斯分類器,而ada-boost分類器在各項指標中表現都不突出,在這三種分類器模型中,SVM有其本身非常強勢的優勢。

3.3 負面文本分析

為了對商戶針對產品提供一定的建議,本文對負面評論進行了分析。通過ROST CM6軟件建立了社會和語義網絡,得到結果圖2。

圖2 社會與語義網絡示意圖

在網絡中,詞匯連線越多,則說明各個詞匯之間的聯系越密切。由結果可看出:反映手機發熱問題的評論較多,手機發熱從而導致的信號不良和使用手感等問題,使得顧客感到不滿;耗電快以及靈敏度的問題,使得客戶使用感受較差;外圍的性價比評論,表達了顧客對該款手機性價比的不滿,使顧客更傾向于高配置的手機。

通過負面評價分析,商戶可以考慮重點解決手機發熱的問題,提高客戶使用手機時的舒適度;對手機電池質量的提升以及屏幕手寫的靈敏度也需要重視;同時,商戶可以提高手機的性價比,給予更好的配置或者更實惠的價格來吸引顧客前來購買。

結束語

本文利用機器學習理論,基于京東中手機產品的在線評論數據,在常用的SVM分類器的基礎上,添加了樸素貝葉斯以及adaboost分類器模型,再根據不同模型進行情感分類,對分類結果也進行了對比以及評價。更加突出了SVM分類器的優良性質。同時,對負面文本分析建立了社會和語義網絡,分析顧客對產品提出的建議,對產品后續開發作出參考。

猜你喜歡
分類文本評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产人成在线视频| 国产亚洲欧美在线中文bt天堂| 国产一级无码不卡视频| 亚洲全网成人资源在线观看| 亚洲二区视频| 91九色国产porny| 国产伦片中文免费观看| 操国产美女| 97se亚洲综合不卡| 不卡无码网| 欧美成人免费午夜全| 国产精品极品美女自在线看免费一区二区| 在线欧美日韩国产| 色婷婷综合激情视频免费看| 亚洲AV一二三区无码AV蜜桃| a级免费视频| 色视频国产| 欧美精品xx| 天天综合天天综合| 国产精品尤物在线| 久久大香伊蕉在人线观看热2| 亚洲色图综合在线| 国产精品无码久久久久久| 中文无码精品A∨在线观看不卡 | 国产靠逼视频| 国产日韩欧美精品区性色| 亚洲国产日韩欧美在线| 久久夜色撩人精品国产| 国内毛片视频| 久久久久久久97| 欧美一区福利| 亚洲日本韩在线观看| 欧美成人精品一区二区 | 国产午夜一级毛片| 国产69囗曝护士吞精在线视频 | 亚洲日韩精品综合在线一区二区| 亚洲不卡av中文在线| 精品無碼一區在線觀看 | 欧美日韩国产系列在线观看| 中文字幕在线欧美| 美女啪啪无遮挡| 精品人妻系列无码专区久久| 国产亚洲视频播放9000| 91欧美亚洲国产五月天| 国产亚洲视频播放9000| 国产美女自慰在线观看| 在线精品自拍| 制服丝袜一区| 国产精品无码翘臀在线看纯欲| 日本在线欧美在线| 国产日韩久久久久无码精品| 久久公开视频| 免费在线看黄网址| 国产香蕉在线| 蝌蚪国产精品视频第一页| 激情综合网激情综合| 国产一区在线观看无码| 在线亚洲精品福利网址导航| 国产精品女同一区三区五区| 在线日本国产成人免费的| 亚洲欧美精品日韩欧美| 久久99国产综合精品1| 网久久综合| 久久综合亚洲色一区二区三区| 日本a∨在线观看| 日本91在线| 久久无码高潮喷水| 午夜毛片免费观看视频 | 波多野结衣国产精品| 欧美影院久久| 亚洲中文字幕久久无码精品A| 亚洲日韩Av中文字幕无码| 亚洲av无码人妻| 国产乱视频网站| 国产精品99在线观看| 青青草91视频| 五月激激激综合网色播免费| 伊伊人成亚洲综合人网7777| 激情视频综合网| 午夜日本永久乱码免费播放片| 日韩无码白| 国产精品无码制服丝袜|