摘 要:由于網絡評論用語的多樣性,常用的文本主題分類方法并不能完全適應情感傾向識別。針對這個問題,從語義理解的角度出發,提出一種基于語義特征的情感傾向識別方法,通過增加語義特征使得原始文本表現出更加明確的情感傾向,并且更加容易區分。實驗結果表明了該方法的有效性。
關鍵詞:語義特征; 傾向識別; 情感分類; 主題分類
中圖法分類號:TP309.7 文獻標志碼:A
文章編號:1001-3695(2010)03-0992-03
doi:10.3969/j.issn.1001-3695.2010.03.050
Text sentiment orientation identification based on semantic feature
HE Kun, LI Wei-sheng, YANG Yong
(Institute of Computer Science Technology, Chongqing University of Posts Telecommunications, Chongqing 400065, China)
Abstract:Because of the diversity of network comments, common method of text topic classification can not completely adapt to the orientation identification. To solve this problem,this paper proposed a method of text orientation identification based on semantic feature from the point of view of semantic understanding. Expressed sentiment orientation of original text definitely and distinguished original text more precisely than that without semantic feature because of increasing semantic feature. The experimental results indicate the validity of the method.
Key words:semantic feature; orientation identification; emotion classification; topic classification
0 引言
互聯網逐漸成為人們生活不可或缺的一部分,隨之而興起的Web已經成為網民發表個人見解的最常用載體。網絡評論反映了網民對熱點事件的觀點,體現了網民興趣所在,對于網絡評論進行挖掘和分析,識別出其情感傾向,可以更好地分析熱點輿情,理解用戶的興趣愛好,給政府和企業提供重要的參考信息。
對于文本情感傾向的挖掘,Turney[1]提出一種基于情感詞組的分類方法,通過計算待定詞與七對褒貶傾向強烈的詞的逐點互信息(pointwise mutual information)來判斷待定詞的情感傾向性。Pang Bo等人[2]利用機器學習的方法,采用nave Baye-sian對由兩個類別組成的電影評論進行分類,取得了較好的分類效果。Hu等人[3]采用一種基于頻繁模式挖掘的方法,即在大量的產品評論中找到產品名,再在評論中查找產品名周圍相關的情感詞,識別評論的情感傾向。王素格等人[4]用多種特征選擇方法,對語料使用不同詞性的停用詞表進行了比較實驗,得出了形容詞、副詞、動詞對情感傾向識別的影響較大的結論。徐琳宏等人[5]利用知網中義原標注為良和莠的詞作為基準詞,利用劉群等人[6]的義原相似度公式計算語料中的待定詞匯與基準詞之間的相似度,從而得出待定詞的褒貶傾向度。最后將選出的傾向度明顯的詞作為特征,用支持向量機進行分類,取得一定識別效果。本文在主題分類的基礎上,通過考察文本中情感傾向的獨特表達方式,提出了一種基于語義特征的情感分類方法。
1 文本的主題分類方法及其用于情感分類的不足
1.1 主題分類框架
本文的情感分類采用一般主題分類的框架,主要分為預處理、特征選擇和文檔表示等步驟。
1.1.1 預處理
王素格等人[4]的實驗表明,采用形容詞、副詞、動詞進行情感分類的效果較好。本文根據王素格的結論設立停用詞表,對原始語料進行停用詞過濾,留下形容詞、副詞、動詞,由于本文實驗要求,將名詞也進行保留,最終留下形容詞、副詞、名詞、動詞,并將每個詞首尾加上空格,以方便查找。
1.1.2 特征選擇
互信息[7](mutual information, MI)這個概念來源于信息論,用于度量一個消息中兩個信號之間的關聯強度。由于評論的情感詞大多是低頻詞,而互信息傾向與選擇低頻詞,符合情感分類的要求,故本文使用互信息作為特征選擇的函數。互信息的計算公式如下:
MI(t)=∑ni=1P(ci)logP(t,ci)P(t)P(ci)(1)
其中:P(t,ci)為類別ci中出現特征項t的文本數與總文本數之比;P(t)為出現特征項t的文本數與總文本數之比;P(ci)為文本屬于類別ci的概率。上述數據均在訓練集中進行統計。
1.1.3 文檔表示
本文的文檔表示采用目前應用較廣泛的向量空間模型(vector space model, VSM)。向量空間模型的思想,就是將一篇文本用若干個特征進行表示,即D(w1,w2,…,wi)。其中:D表示文檔;wi表示第i個特征項的權重。權重的計算采用著名的tfidf[8]公式:
tfidf(tk,dj)=tf(tk,dj)×logNn(tk)(2)
其中:tfidf(tk,dj)表示特征tk在文檔dj中的tfidf值,tf(tk,dj)表示特征tk在文檔dj中出現的次數,N表示總文本數,n(tk)表示出現特征tk的文檔數。由于文檔長度不一致,一般還需要對tfidf值進行歸一化處理,從而得到特征tk在文檔dj中的權值wkj,計算公式為
wkj=tfidf(tk,dj)∑TS=1(tfidf(tS,dj))2(3)
其中:T表示一篇文本中的詞數。
1.2 文本主題分類方法用于情感分類的不足
從特征提取的角度分析,常用的特征提取方法主要有[7~10]:互信息、卡方統計量(Chi-square,χ2),信息增益(information gain,IG),期望交叉熵(expected cross entropy, ECE)等。這些方法對特征打分的方法各有側重,但它們都傾向于選擇滿足如下條件,即在某一類中出現多,而在其余類中出現少的特征。這樣就出現了一個問題:如果滿足上述條件的特征很少,將導致分類效果不佳。
從情感語料的角度來看。通常的文本分類是事先確定若干個主題類別,如汽車、房產、女性、軍事等,再將待分類文本送入訓練好的分類器進行類別判斷。分類的目的在于對待分類文本進行主題類別判斷,一般根據特征主題詞出現的頻度進行判斷。而情感分類則是要對待分類語料進行情感傾向的判斷,如支持、反對、喜、怒、哀、樂。由于網絡評論長度比較短,表達情感的方式多樣,同時受中文分詞的影響,文本中很多表達情感傾向的結構沒有被反映出來,例如:“沒有看過,不過聽說是部好小說”,經過分詞過后變成“沒有/d 看/v 過/u ,/w 不過/c 聽說/v 是/v 部/q 好/a 小說/n”,若直接進行特征選擇,由于各個詞在各類中出現的次數接近,將沒有明顯的特征詞,從而這句評論將不易分類。
針對以上問題,本文提出一種語義特征生成算法,通過引入語義特征來解決上述問題。
2 語義特征生成算法
由于網絡評論表達方式多種多樣,并且有很多特定的表達方式,本文針對這一問題進行了研究。注意到1.2節例句中“好/a 小說/n”單獨作為特征表現并不優秀,并且“好小說”本身就是一個語義塊,于是考慮將“好小說”作為一個語義特征添加到文本中。類似地,對于前面是副詞的,例如:“非常/d 好/a”,“不/d 負責/v”也作類似的處理。基于這種思想,提出一種語義特征生成算法。算法描述如下:
a)語義特征生成算法(generate semanticterm procedure , GSTP)
GSTP (text )
begin
在本算法中, 參數text表示輸入的一篇文檔, m表示文檔中的特征數,flag為條件標志,and表示連接前后兩個詞。
forj = 1 to mif ( 不是最后一個詞 )
flag = -1;
if (倒數第二個詞之前 副詞后接“好”)
flag = 1;
end if
if (倒數第二個詞之前 副詞后接副詞)
flag = 2;
end if
swich (flag)
{
case 1:
在第j + 1個詞后分別增加兩個特征“副詞and好” “好and第j + 2個詞 ”;
j = j + 2;
break;
case 2:
在第j + 1個詞后分別增加兩個特征“副詞and副詞” “第二個副詞and第j + 2個詞”;
j = j + 1;
break;
default:
在第j + 1個詞后增加一個特征“第j個詞and第j + 1個詞”;
j = j + 1;
break;
}
end if
end for
返回增加了語義特征的text;
end
b)主算法
main procedure
begin
在本算法中,n表示文檔集中文檔的數目,text表示一篇當前文檔。
輸入經過停用詞過濾后的文檔集;
for i = 1 to n
if (text中含有副詞或“好”)
GSTP (text);
else
直接保存text;
end if
end for
輸出經過GSTP算法處理過后的文檔集;
end
經過上述算法,原文本中增加了許多語義特征,這些增加的特征對情感分類有兩個好處:(a)這些特征使得文本的情感傾向更加明顯,這點可以很直觀地從文本中看出。(b)從特征提取的角度來看,其中有許多是對分類有益的,這一點可以從圖1中反映出來。
所有特征經過降序排序后,增加的語義特征在特征表中的表現如圖1所示。從圖中可以看出,語義特征大多在特征表中都排名靠前,特征數越少,語義特征所占的比例越大。說明增加的語義特征能夠明確地表達文本的情感傾向。
3 實驗及結果分析
3.1 數據集
實驗原始語料是從網上下載的書評,共5 158篇評論,將其人工分為正面評價和負面評價兩類。其中正面評價,即人工判斷為褒揚、高興或隱含褒揚的共2 600篇,負面評價,即人工判斷為貶低、生氣或隱含貶義的共2 558篇。分詞采用清華大學開發的CsegTag3.0系統。經過分詞,不考慮標點符號,共有111 744個詞(字)。每篇文本平均詞(字)數為21.6個。由于有些評論過短,經過預處理,得到語料5 089篇,其中正面評價語料2 576篇,負面評價語料2 513篇。將每類文本隨機平均分成四份,其中三份作訓練集,一份作測試集。
3.2 評價指標
分類效果評估函數采用主題分類中常用的查準率、查全率和F1值。
查準率P = 分類正確的文本數 / 實際分類的文本數
查全率R = 分類正確的文本數 / 應有的文本數
F1值=查準率×查全率×2查準率+查全率
宏平均(macro) = 各類指標 / 類別數
3.3 分類器
支持向量機(support vector machine, SVM)是一種基于統計的學習方法,它基于VC維理論和結構風險最小化原理,具有很好的泛化能力。RBF (radial basis function) 核能處理類標簽和屬性是非線性的情況,有利于本文實驗,本文選擇RBF核的SVM作為分類器。
3.4 結果與分析
本文使用MI進行特征選擇,使用tfidf公式進行特征的權值計算,在200~800個特征上進行了對比實驗,比較了引入語義特征前后的分類效果。
如圖2所示,在200~400個特征時,引入語義特征后對分類效果的提高較大。分析實驗數據后發現:當特征數較少時,訓練模型的支持向量較少,而增加的語義特征很多是在特征表中排名靠前的,占當前特征數的比例較大,即在特征數不多的情況下,增加的語義特征對分類性能的改善較明顯。隨著特征數的增多,訓練模型的支持向量也隨之增多,此時增加的語義特征對整個模型的影響變小,使得分類性能提高不明顯。
如圖3所示,從圖中可以看出,引入語義特征后查準率提升較大,并且在特征數較少時,查準率提升最為明顯,原因同圖2。查準率提升較大說明語義特征使得文本的情感傾向更加明顯,從而更加清楚地描述了用戶的情感傾向。
對各種特征數下的評價指標求宏平均,結果如表1所示。
表1 各項評價指標的最終宏平均值 %
各項指標主題分類方法引入語義特征
macroF174.7375.88
macroP75.6977.39
macroR74.9876.23
4 結束語
用主題分類方法進行情感傾向識別往往效果不佳,一個重要的原因在于,情感語料表達情感傾向形式多樣,有很多特定的和隱含的表達方式。例如:同樣說文章更新慢,如果是“更新得太慢了”,則評論可能為負面評價;如果是“就是更新得有點慢”,則評論很可能為正面評價。本文在仔細分析了評論的表達方式后,提出了一種基于語義特征的文本情感傾向識別方法,通過增加語義特征,使得文本的優秀特征增多,同時文本的情感傾向性更加明確,有效地提高了情感傾向識別的性能。
然而,用戶情感的表達方式非常多樣,還需要進一步的挖掘用戶的情感表達方式。同時,由于每個人的理解不同,人工判斷情感語料的傾向性有時也容易出現偏差,情感語料庫的進一步完善也是后續工作之一。
參考文獻:
[1]TURNEY P D. Thumbs’up or thumbs down?Semantic orientation applied to unsupervised classification of reviews[C]//Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Morristown,NJ:Association for Computational Lingnistown, 2002:417-424.
[2]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?Sentiment classification using machine learning techniques[C]//Proc of EMNLP’02. Morristown,NJ:Association for Computational Lingnistown,2002:79-86.
[3]HU M, LIU B. Mining and summarizing customer reviews[C]//Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2004:168-177.
[4]王素格,魏英杰.停用詞表對中文文本情感分類的影響[J].情報學報,2008,27(2):175-179.
[5]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學報,2007,21(1):96-100.
[6]劉群,李素建.基于《知網》的詞匯語義相似度計算[EB/OL].[2008-12-11]. www.keenage.com/html/c_index.html.
[7]YANG Yi-ming, PEDERSON J O. A comparative study on feature selection in text categorization[C]//Proc of the 14th International Conference on Machine Learning.Som Francisco,CA:Morgan Kanfmann Publishers Inc,1997:412-420.
[8]ZHANG Qi-rui , ZHANG Ling , DONG Shou-bin, et al. Document indexing in text categorization[C]//Proc of the 4th International Conference on Machine Learning and Cybernetics. Guangzhou:[s. n.], 2005:3792-3796.
[9]YANG Y, LIU X. A reexamination of text categorization methods[C]//Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99). Berkeley: ACM Press, 1999:42-49.
[10]周茜,趙明生,扈曼.中文文本分類中的特征選擇研究[J]. 中文信息學報, 2004,18(3):17-23.