999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感特征向量空間模型的中文商品評論傾向分類算法

2016-09-08 10:41:03
計算機應用與軟件 2016年8期
關鍵詞:分類特征文本

董 祥 和

(天津職業技術師范大學經濟與管理學院 天津 300222)

?

基于情感特征向量空間模型的中文商品評論傾向分類算法

董 祥 和

(天津職業技術師范大學經濟與管理學院天津 300222)

為了能夠快速有效地將中文商品評論識別為好評或差評,提出一種算法。針對不同類別的商品,預先根據其評論語料構建領域情感詞典,評論文本與情感詞典集匹配提取情感特征,構建情感特征向量空間模型SF-VSM(Sentiment Feature Vector Space Model),解決傳統的特征向量空間模型維數較高及特征選擇誤差問題。然后基于該模型結合改進的多項式樸素貝葉斯方法對評論進行情感傾向分類。實驗結果表明,相比分別基于原始特征和基于χ2特征選取的樸素貝葉斯分類算法,該算法分類精度較高且分類速度快。

中文商品評論情感傾向情感詞典情感特征向量空間模型樸素貝葉斯分類

0 引 言

國內多數電子商務銷售平臺的用戶可以對商品及服務發表評價。商品評論信息對商家及購物者都很重要,會影響潛在消費者的購買。通過對商品評論文本的采集分析可以得知用戶對商品的褒貶程度,有助于商家改進生產及銷售策略。隨著電商平臺用戶和商品的不斷增長,針對各種商品的評論文本信息數量激增,要求能夠根據評論情感傾向及時、準確地自動進行分類,統計好評和差評程度是電商平臺需要考慮解決的問題。情感分析語義計算可用于分析商品評論文本的褒貶性。該方法基于情感詞典匹配,適用的語料范圍較廣,無論是手機、電腦這些商品,還是書評、影評都有相應語料。但是詞典匹配需要深入到詞語、句子、語法這些層面,分類結果會由于語義表達的豐富性而出現較大誤差[1]。監督機器學習方法也可用于商品評論文本情感分析。樸素貝葉斯分類算法是常用的統計學習分類方法,需要人工標注訓練文本,將訓練文本分句分詞,如果直接將分詞作為原始特征進行分類學習,會大幅度增加分類器的訓練時間,而且由于分類效果依賴于訓練文本和測試文本之間的相關性,會引入噪聲特征,影響分類性能[2]。文獻[3,4]研究比較了中文文本分類中文檔頻率、χ2(Chi-Square, CHI)統計等特征選取方法對分類效果的影響。由于針對選定的訓練文本進行訓練,可能會篩選掉包含著重要判斷信息的情感特征詞,或保留一些無法體現情感傾向的特征詞,而且待測文本需參與較復雜的特征選擇運算,不利于大規模在線評論統計分類。

本文提出語義分析和監督分類相結合的方法,為不同類別商品根據評論語料構建領域情感詞典。將評論文本與情感詞典集匹配提取情感特征,構建低維數的情感特征向量空間模型SF-VSM,結合改進的多項式樸素貝葉斯分類算法構建分類器。采集國內某電商平臺的三份商品評論文本集作為分析樣本,分別與基于原始特征、χ2特征選擇向量空間模型的樸素貝葉斯分類算法進行了實驗對比。

1 相關知識

語義分析算法在分析商品評論文本情感傾向時,首先需讀取某條評論文本并進行分句;然后查找分句的情感詞并賦予相應分值,查找程度詞、否定詞和感嘆號并賦予相應權重,統計該分句的好評分值p1和差評分值n1,統計所有分句的好評分值和差評分值;最后計算得到該條評論的好評均值pm和方差pv,以及差評均值nm和方差nv,從而可以得到該條評論的褒貶程度[5]。評論文本分詞后需要和情感詞典比對確定情感傾向,情感詞典包括基礎情感詞典、拓展情感詞典。基礎情感詞典包括了一些被廣泛認同的如“好”、“差”等這些情感詞,通常把知網提供的正面/負面評價詞語、正面/負面情感詞語和臺灣大學簡體中文情感極性詞典的positive/negative詞典消重之后組合在一起,構成基礎積極/消極情感詞典,同時需要對知網提供的程度級別詞語進行權值的設置。將基礎情感詞典通過同義詞詞典找到情感詞的同義詞,這樣就拓展了基礎情感詞典,稱為拓展情感詞典[6]。

機器學習方法分類商品評論文本情感時,需先選出一部分表達積極情感的文本和一部分表達消極情感的文本,用概率統計方法進行訓練,獲得一個情感分類器。通過情感分類器對所有文本進行積極和消極的二分分類[7],最終的分類可以為評論文本給出好評/1或差評/0這樣的類別,也可以給出好評或差評的概率值。文本分類最常用的文本特征表示模型是向量空間模型VSM,向量空間模型假設文本中詞條對文本類別所起的作用是相互獨立的,把文本看作一系列無序詞條的集合[8]。如果分類算法直接將訓練文本分詞作為特征,則特征項空間維數太大,會產生稀疏問題和增加計算復雜度;如果僅限于對分類的訓練文本進行特征選擇,將可能會保留一些無情感傾向的無用特征或剔除一些在特定領域有情感傾向的有用特征。本文考慮構建不同類型商品的領域情感詞典,結合基礎和拓展情感詞典,分析提取商品評論文本中的立場、情緒等情感特征,構建相應的情感特征向量空間模型,降低特征向量空間維數,以達到改善分類精度和提高分類速度的目的。

2 基于情感特征向量空間模型的中文商品評論情感傾向分類算法

2.1情感特征向量空間模型

在特定的領域,有些并非基礎的情感詞也有情感傾向,比如“此款手機很耐摔,還防水,挺好!”耐摔、防水是在手機商品這個領域有積極情緒的詞。為確保文本情感特征提取的全面準確,需要針對不同類別的商品構建領域情感詞典。采用基于領域語料的逐點互信息PMI(Point-wise Mutual Information)[9]計算法構建領域情感詞典,在相應的語料庫中循環統計特征詞、特征詞與積極基礎情感詞和特征詞與消極基礎情感詞分別出現的數量。利用這些數據計算積極互信息和消極互信息,求兩個互信息之差,差為正則積極、為負則消極。重復計算不同詞的互信息之差,最后選分值高的特征詞組成領域情感詞,計算方法如下:

(1)

其中word表示被測詞,SO-PMI(word)表示積極互信息和消極互信息之差,Pwords和Nwords分別表示基礎情感詞典中的積極和消極基準詞,PMI計算如下式:

(2)

其中p(w1,w2)表示被測詞w1與基礎情感詞w2同時出現的概率,p(wi)表示wi出現的概率。設N為語料庫所有文本數,df (wi)為詞wi在語料庫出現的文本頻率,p(wi)計算如下:

(3)

為不同類型商品構建的領域情感詞典會有所不同。如通過對手機評論語料庫的統計分析,能夠獲取“流暢、輕薄、模糊”等情感詞,而服裝類商品則有“合身、得體、褶皺”等情感詞。類別不同而具有相似屬性的商品,如手機、筆記本電腦等IT商品,分別為它們構建的領域情感詞典會出現部分相同的情感詞。

基礎情感詞典、拓展情感詞典與領域情感詞典組合而成的情感詞典(L)用三元組描述[10]:

L={C, N, M}

C={ci}i=1,2,…,IN={nj}j=1,2,…,JM={mk}k=1,2,…,K

(4)

其中C代表情感關鍵詞集,N代表否定詞集,M代表修飾詞集,這些詞匯均可從詞典中自動獲取。給定一條評論文本R,分詞表示為:

R={Rl}l=1,2,…,L

(5)

借助情感詞典從R中提取特征詞,得到情感特征詞集合:

W={wv}={ci,v, nj,v, mk,v}

ci,v∈R∩Cnj,v∈R∩Nmk,v∈R∩M

(6)

每條評論文本被提取的所有情感特征構成一個特征向量,所有評論文本中的全部情感特征構成空間向量模型SF-VSM,其每一維對應一個情感特征,定義如下:

(7)

若為某類商品評論構建的原始特征向量空間維數記為DV,構建的情感特征向量空間SF-VSM維數記為DS,則通過(DV-DS)/DV×100%可以計算得到降維程度。

2.2改進的多項式模型樸素貝葉斯分類算法

需利用分類算法基于SF-VSM模型訓練出分類規則,然后根據分類規則判定未知文本的類別。樸素貝葉斯分類是一種常用的文本分類方法,將表示成為向量的待分類文本Di(x1,x2,…,xn)歸到類別集合C={C1, C2,…,Cm}中的某一類。其中Di(x1, x2,…, xn)為待分類文本Di的特征向量,C={C1, C2,…,Cm}為給定的文本類別集合,即求解向量Di(x1, x2,…, xn)屬于給定類別C1, C2,…, Cm的概率值(p1, p2,…, pm),其中pj為Di(x1, x2,…, xn)屬于Cj的概率,則max(p1,p2,…,pm)所對應的類別就是文本Di所屬的類別。假設Di為一任意文本,文本Di屬于Cj的概率為:

(8)

其中P(x1,x2,…,xn)對應所有類值是相同的,所以只需估算P(Cj)P(x1,x2,…,xn|Cj),式(8)可轉化為如下公式:

(9)

樸素貝葉斯分類假設在給定的文本類別下,文本特征項是相互獨立的,則有:

(10)

式(9)可簡化為:

(11)

根據P(Di|Cj)計算方式的不同,樸素貝葉斯分類主要有多變量伯努利模型MBM(Multivariate Bernoulli Model)、多項式模型MM(Multinomial Model)等模型[11]。由于多項式模型考慮了特征項在文本中出現的次數,該信息決定一個文本的類別時具有重要的價值,所以本文采用了多項式模式樸素貝葉斯分類方法。文本屬于類Cj時特征詞xi出現一次的概率為P(xi|Cj),出現nk次的概率為P(xi|Cj)nk,假定共有n個詞,則n=n1+n2+…+nk,則有:

(12)

P(xi|Cj)采用詞頻估算:

(13)

為了避免數據稀疏引起的零概率問題,一般會引入laplace平滑因子[12],如下式:

(14)

式中V是訓練樣本的特征詞表。如果訓練集中某類別包含的特征詞量較大,而其他類別包含的特征詞量相對少,利用式(14)計算可能會造成較大的估計偏差。提出采用修正的平滑因子λ,λ取特征項xi在所有類中出現的概率,即λ=P(xi|C),式(14)調整為下式:

(15)

先驗概率P(Cj)計算如下:

(16)

對于給定的待測文本Di,通過式(11)、式(15)和式(16)表示的模型計算后驗概率分布,將后驗概率最大的類作為Di的類輸出。

2.3算法描述

提出的中文商品評論文本情感傾向分類算法主要步驟描述如下:

(1) 針對要處理的某類商品,利用2.1節式(1)-式(3)基于相應評論語料庫構建領域情感詞典;

(2) 將該類中文商品評論集預處理,人工標注文本所屬類別,標注每條評論屬于好評或差評;

(3) 采用交叉驗證方法,將標注文本分為訓練文本和測試文本;

(4) 將訓練文本分句、分詞,去除停用詞和高頻詞,構成初始文本向量;

(5) 將初始文本向量與基礎情感詞典、拓展情感詞典和領域情感詞典,提取情感詞特征,根據2.1節式(4)-式(7)構建SF-VSM;

(6) 基于SF-VSM和式(15)計算每個情感特征項對類別進行劃分的條件概率,記錄結果;

(7) 根據式(16)計算好評和差評兩個類別在訓練文本集中出現的頻率,記錄結果;

(8) 輸入測試文本,依據(4)、(5)步生成測試文本情感特征向量;

(9) 利用式(7)計算測試文本情感特征向量分別屬于兩個類的概率,將測試文本分配到概率最大的類別中,記錄分配結果;

(10) 針對所有測試文本,重復(8)、(9)步,統計所有測試文本分配結果和實際標注的類別一致次數,計算分類準確率;

(11) 重復(3)-(10)步,多次迭代計算分類平均準確率;

(12) 輸入待分類評論文本,依據(4)、(5)步生成待分類評論文本情感特征向量;

(13) 利用式(7)計算待分類評論文本情感特征向量分別屬于兩個類的概率,將待分類評論文本分配到概率最大的類別中,輸出結果,算法結束。

算法步驟中(4)-(7)步生成分類器,(8)-(11)步測試分類準確率,(12)、(13)步完成待分類評論文本的分類。

3 實 驗

實驗比較三種算法對中文商品評論文本情感傾向的分類效果。算法一是文中提出的基于情感特征向量空間模型的改進多項式模型樸素貝葉斯分類算法。算法二是基于原始特征向量空間模型的多項式模型樸素貝葉斯分類算法,該算法直接將評論文本分詞作為特征項。算法三是基于χ2特征選擇向量空間模型的多項式模型樸素貝葉斯分類算法[13]。χ2統計方法假設詞條和文本類別之間符合具有一階自由度的χ2分布,通過衡量詞條與文本類別之間的相關程度選擇特征以降低特征空間的維數。

3.1實驗數據與評價指標

實驗數據采集自國內某電商平臺指定型號的數碼相機、手機、筆記本的用戶評論,其中數碼相機評論7067條,手機評論11 125條,筆記本評論23 379條。鑒于評論分類是二分類問題,將三份評論進行剔除保留處理,人工分類標注,得到數碼相機評論好評和差評均為2409條,手機評論好評和差評均為4742條,筆記本評論好評和差評均為8653條。

算法一使用的基礎情感詞典由知網提供的情感詞語和臺灣大學簡體中文情感極性詞典消重組合在一起,拓展情感詞典采用哈工大信息檢索研究中心同義詞詞林擴展版。從http://www.datatang.com下載關于數碼相機、手機、筆記本相應的評論語料庫。根據2.1節提出的方法分別構建數碼相機、手機、筆記本對應的領域情感詞典,其中數碼相機領域情感詞典中有502個褒義詞、170個貶義詞,手機領域情感詞典中有810個褒義詞、352個貶義詞,筆記本領域情感詞典中有838個褒義詞、368個貶義詞。

查準率(precision)、召回率(recall)和微平均(F1)作為評價分類效果的指標[14]。查準率是指算法正確分類到某個類別的評論文本數與算法分類到該類別的評論文本數的比率;召回率是算法正確分類到某個類別的評論文本數與人工分類到該類別的評論文本數的比率;F1微平均值綜合考慮了查準率和召回率兩個指標,計算公式如下:

(17)

3.2實驗結果與分析

程序用Java語言實現,采用10折交叉驗證法進行訓練和測試,每次分配訓練文本和測試文本后,交給三種算法運算處理,記錄訓練時間和測試時間,計算評價指標值,并重復10次取平均值。程序在Intel pentium4 3.2 GHz的CPU,內存4 GB的PC機,Windows 7操作系統上運行測試。

實驗中統計對比得到,針對數碼相機評論,相比于算法二為其構建的原始特征向量空間,算法一為其構建的情感特征向量空間維數下降了53.4%。而手機評論特征空間維數下降了51.7%,筆記本評論特征空間維數下降了52.3%。三種算法的分類效果如圖1所示。

圖1 三種算法分類效果

從實驗結果可以看出,算法一的分類精度高于算法二和算法三。當對筆記本評論分類時算法二分類效果最差,說明特征向量維數過高造成噪聲數據過多,影響了分類精度。當對數碼相機評論分類時,由于訓練文本較少,算法三保留了過多的低頻詞,這些低頻詞并非情感特征,大都是噪音詞,不應作為特征,相比于算法二,分類效果提升并不明顯。由于實驗目的是識別評論屬于好評或差評,應主要考慮文本情感特征,而中文商品評論文本的情感特征比較豐富,情感詞與評價對象之間的對應關系比較清晰。算法一能夠較準確地提取情感特征,空間維數相比算法二和算法三都低,而且在計算條件概率時采用了修正的平滑因子,計算準確率較高。當對筆記本評論分類時精度有所下降,但不是特別明顯,說明算法分類性能比較穩定。

鑒于算法需實際運用于電商平臺在線評論分類系統,3種算法的訓練文本訓練時間和測試文本分類時間需要測試,時間開銷如表1所示。

表1 三種算法時間開銷

算法二將所有分詞作為特征項,隨著評論文本的增加,詞匯增多,特征向量維數遠高于算法一和算法三,增加了分類計算復雜度,計算耗時最長。算法三根據χ2分布提取特征的計算復雜度為O(n2),同一類別生成的特征向量維數仍比算法一要高。算法一分詞匹配提取情感特征的計算復雜度為O(m×n),生成的SF-VSM維數均低于算法二和算法三,訓練時間開銷較小,測試文本分類時間短,滿足在線評論分類要求。

3.3存在的問題

針對不同類別商品的中文評論文本,提出的算法在情感傾向分類之前,需要完成相關預備工作,即收集整理不同類別商品評論語料庫,并通過語義分析方法構建領域情感詞典。整理并定期更新完善各類別語料庫,是算法能夠有效運行的前提條件,并且對在線商品評論情感傾向分類時,需要將情感詞典集作為模塊集成到分類程序中,同時需要經常更新領域情感詞典。

4 結 語

基于SF-VSM模型結合改進的多項式樸素貝葉斯算法,能夠快速有效地將中文商品評論文本分類為好評或差評,分類得到的結果可以為推薦系統提供幫助。差評度較高的商品將不會被推薦給用戶,也可以為在線廣告投放系統提供幫助,好評程度較高的商品相關廣告可以被投放。針對差評度較高的商品,需要深入分析挖掘差評評論文本,提取意見較大的商品屬性或服務項目,這樣有助于生產企業改進商品和銷售企業改進服務,這也是進一步的研究方向。

[1] Peter T,Michael L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

[2] Bing Liu.Sentiment Analysis and Opinion Mining[M].California:Morgan & Claypool Publishers,2012:24-28.

[3] 張瑾.基于改進TF-IDF算法的情報關鍵詞提取方法[J].情報雜志,2014,33(4):153-155.

[4] 李曉紅.中文文本分類中的特征詞抽取方法[J].計算機工程與設計,2009,30(17):4127-4129.

[5] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學,2012.

[6] 周詠梅,楊佳能.面向文本情感分析的中文情感詞典構建方法[J].山東大學學報:工學版,2013,43(6):27-33.

[7] 周杰.基于機器學習的網絡新聞評論情感分類研究[J].計算機應用,2010,30(4):1011-1014.

[8] Turney P D.Thumbs up Or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:417-424.

[9] 王振宇,吳澤衡.基于HowNet和PMI的詞語情感極性計算[J].計算機工程,2012,38(15):187-193.

[10] 夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學報,2010,24(1):99-103.

[11] Barber D.Bayesian Reasoning and Machine Learning[M].Oxford:Cambridge University Press,2012:227-237.

[12] 杜選.基于加權補集的樸素貝葉斯文本分類算法研究[J].計算機應用與軟件,2014,31(9):253-255.

[13] 徐明,高翔,許志剛,等.基于改進卡方統計的微博特征提取方法[J].計算機工程與應用,2014,50(19):113-117.

[14] Manning C M.Introduction to Information Retrieval[M].Oxford:Cambridge University Press,2010:151-173.

CLASSIFICATION ALGORITHM FOR CHINESE PRODUCT REVIEWS TENDENCY BASED ON SENTIMENT FEATURES VECTOR SPACE MODEL

Dong Xianghe

(SchoolofEconomicsandManagement,TianjinUniversityofTechnologyandEducation,Tianjin300222,China)

To classify the Chinese product reviews as positive or negative quickly and efficiently, we propose an algorithm. It builds the domain sentiment lexicon in advance according to the review corpus in regard to the products of different categories, and extracts the sentiment features by matching the reviews text with sentiment lexicon set. Then it builds the sentiment feature vector space model (SF-VSM) to solve the problems of traditional vector space model in higher dimensionality and feature selection error. Afterwards, based on SF-VSM and in combination with the improved multinomial naive Bayes method, it classifies the sentiment tendency of reviews. Experimental results show that the proposed algorithm has higher classification accuracy and classification speed than the naive Bayes algorithms based on primitive vector space model or χ2feature selection respectively.

Chinese product reviewsSentiment tendencySentiment lexiconSentiment feature vector space modelNaive Bayes classification

2015-03-03。天津職業技術師范大學科研發展基金項目(SK12-01)。董祥和,副教授,主研領域:Web數據挖掘,智能信息處理。

TP391

A

10.3969/j.issn.1000-386x.2016.08.071

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 日本高清在线看免费观看| 国产无码精品在线播放| 国产主播喷水| 综1合AV在线播放| 精品黑人一区二区三区| 亚洲婷婷丁香| 熟妇丰满人妻| 亚洲成a人片| 国产综合无码一区二区色蜜蜜| 亚洲精品午夜天堂网页| 欧美精品亚洲精品日韩专| 国产一二三区视频| 国产精品久久久久久搜索| 亚洲精品中文字幕无乱码| 日韩一区二区在线电影| 国产日本一线在线观看免费| 啪啪永久免费av| 亚洲高清无码精品| 亚洲五月激情网| 毛片免费网址| 91视频国产高清| 中文国产成人精品久久一| 久久五月视频| 午夜国产不卡在线观看视频| 国产一区二区福利| 久久动漫精品| 国产精品毛片一区视频播| 国产乱子精品一区二区在线观看| 亚洲精品午夜天堂网页| 国产精品视频导航| 一级一级一片免费| 色噜噜狠狠色综合网图区| 99无码熟妇丰满人妻啪啪| 久久国产成人精品国产成人亚洲 | 毛片网站观看| 国产精品99一区不卡| 久久窝窝国产精品午夜看片| 国产毛片久久国产| 天天综合色网| 国产屁屁影院| 18黑白丝水手服自慰喷水网站| 久久九九热视频| 亚洲成a人片77777在线播放 | 国产黄在线免费观看| 88av在线| 日韩免费毛片视频| 日本在线欧美在线| 五月天久久婷婷| 国产对白刺激真实精品91| 亚洲男人天堂网址| 超碰免费91| 日本欧美中文字幕精品亚洲| 日韩激情成人| 亚洲AⅤ无码日韩AV无码网站| 天堂网亚洲系列亚洲系列| 成人在线不卡视频| 性激烈欧美三级在线播放| 成人在线不卡视频| 99在线观看国产| 99久久精品国产麻豆婷婷| 亚洲色图欧美在线| 国产成人麻豆精品| 国产美女精品一区二区| 手机在线看片不卡中文字幕| 91区国产福利在线观看午夜| 91无码国产视频| 五月天在线网站| 久久免费精品琪琪| 久久国产精品波多野结衣| 国产免费高清无需播放器| 欧美午夜在线观看| 欧美另类一区| 伊人天堂网| 亚洲精品另类| 国产成人综合在线视频| 91免费国产高清观看| 四虎永久在线视频| 亚洲—日韩aV在线| 国产99免费视频| 日韩av电影一区二区三区四区| 波多野结衣视频一区二区 | 欧洲欧美人成免费全部视频|