任正甜 李興東
(蘭州交通大學,甘肅 蘭州 730070)
在現代社會中,網絡購物是非常重要的一種購物方式,在購物市場中占據了非常重要的分量。網絡購物用戶也可以通過在線評論表達自己使用產品后的感受,而客戶的在線評價也成為了影響消費者決策的重要因素,對賣家服務能力的提高也有重要的指導作用。單純依靠人工去收集和分類線上評論是不切實際的,故需利用機器學習的途徑對線上評論文本進行分類處理,通過對分析對商戶和顧客提供有效的信息。
在國內外,也已經有很多相關方面的研究,學者TimurSokhin在針對主題模型的基礎上,提出一種半監督情感分析方法[1];E.D'Andrea構建了包括SVM在內的三種模型,并且達到很好的實驗結果[2];楊宇婷等在的特征表達法上進行了創新,結合利用了SVM算法[3];陳子昕采用SVM分類器對新聞評論文本進行分類,并且評價指標準確率也較高[4]。
利用機器學習進行情感分類已經有了很多的研究成果,但是利用adaboost等多種分類器進行建模分析的研究較少。本文將獲取的評論文本進行分詞、去除停用詞等預處理,特征提取利用TF-IDF算法,再采用NB、SVM、adaboost三種分類器,建立情感分類模型并加以應用,最后通過特定評價指標對三種方法的性能進行比較,對商戶和顧客提供參考。
TF-IDF(Term Frequency-Inverse Document Frequency)翻譯為中文即為“詞頻-逆向文本頻率”。它由TF(詞頻)和IDF(逆向文本頻率)兩部分組成。TF(詞頻)表示在評論文本中某一給定詞 出現的頻率[5]。計算過程見公式:

IDF實際意義:IDF值小,說明評論文本中有該給定詞w的數量多,反之則IDF的值大。在這里,我們容易得到一個極端的情況:如果在所有的評論文本中一個給定詞w均出現過,那么詞w的IDF值即為0,由下面的計算公式看也十分顯然。

TF-IDF算法判斷詞w區分能力的過程可概括為:若給定詞w只在文本c中常出現,而在其他文本中不常出現,則認為該詞w的區分能力很好。TF-IDF算法優點是計算快速,結果也比較符合實際情況。
以貝葉斯公式為架構的基礎上,計算后驗概率P(c|x)是及其困難的,因為由“因”到“果”的概率去推算由“果”到“因”的概率是不容易的。為了解決此類困難,樸素貝葉斯分類器(Naive Bayes classifier)的基礎條件中多了一個假設條件:假設每個能對最后分類的結果產生影響的屬性都是相互獨立的。

支持向量機(英文全稱Support Vector Machine,簡稱SVM):找出一個特定的劃分超平面:該平面在能將訓練數據集正確劃分的基礎上、能夠使幾何間隔盡量最大化。使


Ada-boost(Adaptive Boosting)方法是改進了的boosting算法。
在一開始,訓練數據各自均具有相同的權重值,第一個基分類器是通過直接將學習算法用在初始數據分布上得到的。但在循環下一輪回時,將利用不同樣本分布不同權重值得到:加大對錯分樣本的“重視度”-加大權重這樣,難以分類正確的樣本就成了下一輪循環時候的“重點分類對象”,這樣在新一輪訓練時,可得到一個新的分類器。就這樣多次分配權重,多次重復循環,將得到 個不同的弱分類器,將這 個弱分類器進行“融合”,就可以得到一個強分類器。其中,在進行弱分類器組合時,使分類準確度低的分類器權值小一些,相反,分類準確度高的分類器權值大。
本文選取購物平臺京東為評論數據來源,使用八爪魚軟件,采集顧客在小米旗艦店中購買小米10S的所有評論情況,共獲得1428條評論,其中正面評價數據1000條,負面評價數據428條。并對數據進行預處理,正面評價標簽為0,負面標簽為1。
通過對三種分類器模型的訓練和應用,利用性能評價指標,對三個不同結果進行對比,結果對比如圖1。

圖1 結果對比圖
通過三個評價指標:準確度、召回率以及F1值可以看出,各個模型中SVM分類器效果極佳,在精度方面略遜色于樸素貝葉斯分類器,而ada-boost分類器在各項指標中表現都不突出,在這三種分類器模型中,SVM有其本身非常強勢的優勢。
為了對商戶針對產品提供一定的建議,本文對負面評論進行了分析。通過ROST CM6軟件建立了社會和語義網絡,得到結果圖2。

圖2 社會與語義網絡示意圖
在網絡中,詞匯連線越多,則說明各個詞匯之間的聯系越密切。由結果可看出:反映手機發熱問題的評論較多,手機發熱從而導致的信號不良和使用手感等問題,使得顧客感到不滿;耗電快以及靈敏度的問題,使得客戶使用感受較差;外圍的性價比評論,表達了顧客對該款手機性價比的不滿,使顧客更傾向于高配置的手機。
通過負面評價分析,商戶可以考慮重點解決手機發熱的問題,提高客戶使用手機時的舒適度;對手機電池質量的提升以及屏幕手寫的靈敏度也需要重視;同時,商戶可以提高手機的性價比,給予更好的配置或者更實惠的價格來吸引顧客前來購買。
結束語
本文利用機器學習理論,基于京東中手機產品的在線評論數據,在常用的SVM分類器的基礎上,添加了樸素貝葉斯以及adaboost分類器模型,再根據不同模型進行情感分類,對分類結果也進行了對比以及評價。更加突出了SVM分類器的優良性質。同時,對負面文本分析建立了社會和語義網絡,分析顧客對產品提出的建議,對產品后續開發作出參考。