陳岳峰,苗奪謙,李文,張志飛
(1.同濟大學計算機科學與技術系,上海 201804;2.同濟大學嵌入式系統與服務計算教育部重點實驗室,上海 200092)
基于概念的詞匯情感傾向識別方法
陳岳峰1,2,苗奪謙1,2,李文1,2,張志飛1,2
(1.同濟大學計算機科學與技術系,上海 201804;2.同濟大學嵌入式系統與服務計算教育部重點實驗室,上海 200092)
詞匯的語義傾向是文本傾向性分析的基礎課題.現有的詞匯語義傾向計算通常是以詞匯為基準,而詞是包括了多種不同情感傾向概念的粒度范疇,影響分析的精度和效率.據此,提出在更細的粒度下,利用HowNet工具中的“概念”進行傾向性分析,設計了基于概念的語義傾向計算方法.該方法使用聚類的概念,利用K-MEDOIDS算法尋找基準概念.實驗結果表明,基于概念的方法較傳統基于詞匯的方法準確率更高.
文本傾向性分析;HowNet;概念;聚類;K-MEDOIDS
近年來,文本的傾向性分析愈發受到人們的關注.文本傾向性分析是指通過挖掘和分析文本中的立場、觀點、看法、情緒、好惡等主觀信息,對文本的情感傾向做出類別判斷.文本傾向性分析可包含3個粒度:詞匯級別、句子級別以及文檔級別.詞匯的傾向性分析是后2種粒度的基礎.一般的詞匯語義傾向計算都是基于詞匯的.國外學者Hatzivassiloglou和 McKeown[1]、Turney[2-3]以及 Jaap Kamps[4]等的研究具有很大的啟發意義.文獻[1]根據連詞的起承轉合關系,判斷2個詞是同義詞或是反義詞,從而得到形容詞的極性,但此研究并沒有涉及傾向度的度量;文獻[2]利用詞匯與程度強烈的褒義詞(如excellent)的互信息,減去它與程度強烈的貶義詞(如bad)的互信息,來計算詞匯的傾向度;文獻[3]利用搜索引擎的NEAR關鍵字進行類似的研究.在國內,劉挺[5]、王素格[6]對文本傾向性分析做了全面性的研究.此外,朱嫣嵐[7]、楊昱昺[8]以及熊德平[9]等利用HowNet進行了傾向性分析的研究,這些研究都是基于詞匯與詞匯之間的某種關聯.但是文獻[7]采用目標詞與基準詞之間的相似度差值的方法,實驗結果的準確率并不是特別高.同時,HowNet中的概念是可以脫離詞匯而獨立存在的,進而就能剝離出更純粹的褒貶義概念(而不是使用混合有多種概念的褒貶義詞)來進行實驗.
為了提高傾向性分析的精度和效率,在前人的成果和HowNet工具的基礎上,提出了一種基于概念的詞匯語義傾向度分析方法.該方法將HowNet當中存在的褒貶義概念進行聚類分析,將聚類中心作為基準概念進行詞匯的語義傾向計算.
HowNet創始人董振東提到,HowNet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫.關系是詞匯語義的靈魂,只有通過“關系”才可能教會計算機懂得或在某種程度上懂得“語義”,也只有通過“關系”才可能教會計算機對語義進行運算.
在此要特別提到HowNet中2個主要的概念:“概念”與“義原”.“概念”是對詞匯語義的一種描述,又稱為義項.每一個詞可以表達為幾個概念.“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”.“義原”是用于描述一個“概念”的最小意義單位.除了義原,HowNet中還用了一些符號(如!、#、%等)來對概念的語義進行描述.
現今國內利用HowNet的語義傾向度識別方法通常都是基于相似度的,因此先介紹基于HowNet的相似度度量方法.劉群[10]提出了2個層面的相似度度量——概念與概念間的相似度和詞匯與詞匯之間的相似度.
對概念S1、S2,它們的相似度可表示為

式中:βi(1≤i≤4)是可調節的參數,且有:β1+ β2+β3+ β4=1,β1≥ β2≥ β3≥ β4,Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2)分別表示第一獨立義原描述式、其他獨立義原描述式、關系義原描述式和符號義原描述式.
而對于2個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念):S21,S22,…,S2m,則W1和W2的相似度為各個概念的相似度之最大值:

文獻[7]根據若干對褒貶義基準詞,利用How-Net的相似度分析進行詞匯的傾向計算,在思路上同樣是沿用了Turney的方法:設共有k對基準詞,每對基準詞包括一個褒義詞和一個貶義詞.褒義基準詞表示為key_p,貶義基準詞表示為key_n,單詞w的語義傾向值用orientation(w)表示,則

式中:Similarity(key,w)即是利用式(1)來計算.式中的傾向度以0作為默認的閾值,大于0即為褒義,小于0即為貶義.
文獻[7]提出的方法的實驗效果并不十分理想,因此本文作了如下思考:在HowNet的定義中,詞匯包含了若干概念,對于一個基準褒貶義詞,它可能包含了具有褒貶義傾向的概念,也可能包含不具褒貶義傾向的中性概念,舉例如表1所示.基于詞匯的語義傾向計算,實際是希望利用基準詞具有褒貶義傾向的概念來進行計算的,更確切地說,是希望利用褒義詞包含的褒義概念,以及貶義詞包含的貶義概念來進行計算,如圖1所示.圖1中,左右兩邊各是褒義基準詞和貶義基準詞,求候選詞的語義傾向正如虛線箭頭所示,是2組詞與候選詞的相似度之差,但當褒/貶義基準詞中包含了貶/褒義概念和中性概念時,就會造成效率的損失(不必要的求取相似度)以及對實驗效果的負面作用.

表1 帶有不同傾向概念的褒貶義詞舉例Table 1 Examples of sentimental words containing concepts of different orientation

圖1 基于詞匯的詞匯語義傾向計算Fig.1 Orientation computing based on words
于是設想:當基準詞與候選詞進行相似度計算時,這樣的中性概念或者反義概念(即褒/貶義詞中的貶/褒義概念),會不會對語義傾向的計算產生負面的效果,并使得實驗不得不進行許多無意義的、冗余的相似度計算,能否有一種更純粹的使用褒義和貶義概念,避開無意義甚至對實驗結果有反作用的概念的方法呢?
在HowNet這種基于世界知識的工具出現之前,是不能做到的,因為概念的出現必須以詞匯為載體.但在HowNet出現后,概念可以脫離詞匯而獨立存在,使這樣的方法變得切實可行.
此外還需要解決一個問題,即如何沿襲前人的研究思路,尋找若干對基準概念.概念之間的相似度給定之后,可以將相似度看作是距離的反比,利用聚類的方法尋找出若干個聚合,再從每個聚合中找出聚類中心的方法來獲取基準概念.
因此,問題轉化為下2個子問題:1)如何利用聚類算法尋找基準概念;2)如何利用基準概念進行詞匯語義傾向度分析.
對以上2個問題的解決方案分別在2.2和2.3章節進行詳細的介紹.大體思路如圖2所示,先使用聚類算法在褒義概念空間和貶義概念空間中各找出n個聚類中心(如白色圖標所示),再通過這些聚類中心來對候選詞的語義傾向進行計算(如虛線箭頭所示).

圖2 基于概念的詞匯語義傾向計算Fig.2 Orientation computing based on concepts
聚類分析指的是將一種模式的集合(通常表示為向量或者多維空間中的點),基于相似性分成多個組別的過程[11].常用的聚類算法如 K-MEANS 算法、KMEDOIDS算法、CURE算法、DBSCAN算法等.
概念是一個分布在未知高維度空間中的點,無法用一系列的屬性來表征一個概念.由于K-MEANS算法在每次迭代中都需要構造新的聚類中心,這個聚類中心是嚴格意義上類內各樣本距離最小的點,有可能是之前未出現過的點,然而在概念空間中是無法構造出之前未出現過的點,因此類似K-MEANS的算法不適用.相反,K-MEDOIDS算法的聚類中心是聚類中與每一個類內樣本點的相似度總和最高的點,是從已有樣本點中選取出來的,因此是適用的.
另一方面,雖然類似于DBSCAN算法這樣的基于密度的聚類算法也能夠使用,但存在一個明顯的缺陷就是很難控制聚類的數量.
綜上,借鑒K-MEDOIDS的思路,設計一個基于K-MEDOIDS算法的基準概念獲取方法.
一般的K-MEDOIDS算法過程如下(算法1):
輸入:原始數據集以及所求的聚類個數k;
輸出:k個聚類;
1)初始化:隨機選定n數據點中的k個作為中心點(medoids);
2)將每一個數據點聚合到最近的中心點;
3)For each中心點m
For each非中心點o
交換m和o,計算類內總的距離消耗;
4)選擇消耗最低的點作為該聚類的新中心點;
5)重復2)~4)直至中心點不再改變.
根據HowNet的特點,利用算法1提出了基于K-MEDOIDS算法的基準概念獲取方法(算法2):
輸入:

輸出:

1)初始化:隨機選定concept_pos中的n個作為中心點(medoids);
2)根據相似度,將每一個概念聚合到與其相似度最大的中心點;
3)For each中心點m
For each非中心點o
交換m和o,計算中心點與類內非中心點的相似度總和;
4)選擇相似度總和最高的那個點作為該聚類的新中心點;
5)重復2)~4)直至中心點不再改變;
6)輸出各聚類中心點作為基準褒義概念ref_concept_pos;
7)將concept_pos替換為concept_neg(即全體貶義概念),重復1)~6),輸出基準貶義概念ref_concept_neg.
在獲得基準概念對之后,接下來的工作是如何利用它們進行詞匯的語義傾向度分析.本文沿襲了前人的研究思路,提出了2個公式:
對于一個詞匯W和一個概念S,如果W有n個義項(概念):S1,S2,…,Sn,它們之間的相似度是

當 concept_p1,concept_p2,…,concept_pn為褒義基準概念,concept_n1,concept_n2,…,concept_nm為貶義基準概念時,對于一個詞匯W,它的語義傾向度計算公式為

為實驗方便且易于比較,本文僅考慮中文,不考慮其他語言.且需要兩大類數據源,一是褒貶義詞表,二是褒貶義概念表.
實驗中使用的褒貶義詞表是HowNet免費對外提供的4份褒貶義詞表,如表2所示.其中前2份表組成貶義詞組,共計4 559個詞;后2份表組成褒義詞組,共計4 739個詞.

表2 褒貶義詞表Table 2 List of sentimental words
在HowNet概念中有一欄專門的屬性S_C,指明該概念的中文語義傾向(相應還有屬性S_E,指明英文的語義傾向,在此先不作考慮).它共有4種值:MinusFeeling、MinusSentiment、PlusFeeling、PlusSentiment.此外對中性的概念該屬性為空.故將S_C值為前2個值的概念全部作為貶義概念,共計355個概念,將S_C值為后2個值的概念全部作為褒義概念,共計305個概念.
實驗利用算法2和式(2)進行,根據不同的基準概念對數進行實驗并作比較.
需要注意的是,由于K-MEDOIDS的初始中心點是隨機的,對于不同的基準概念對數,本文采用10次實驗求取平均數作為最后的結果.
在評價部分,實驗不僅根據總體準確率來評價實驗效果,還將比較褒義詞和貶義詞的準確率,如果兩者自身的準確率越高,彼此的差距越小,就說明實驗效果越好.
3.3.1 使用基準詞方法的性能
為與基于詞匯的語義傾向度分析方法進行比較,先對文獻[7]中提到的40對基準詞進行統計,發現褒義基準詞中包含99組概念,貶義基準詞中包含127組概念,故實驗1將基準概念對數設置在90~140(這樣的話比較次數相當,時間消耗差不多),并與基于詞匯的語義傾向度分析方法的準確度進行比較,結果如表3所示.

表3 實驗結果Table 3 Results of experiments %
對于總體準確率,運用基準詞的方式獲得了73.9%的準確率,而使用基準概念的方式下最好結果達到了81.9%,比傳統方式高出了8%.基于概念的語義傾向度分析方法效果明顯好于基于詞匯的方法.
出現上述結果有2個主要的原因:
1)基于概念的語義傾向度分析方法使用的都是帶有褒貶含義的概念,針對性更強,對傾向度分析的作用更大、更直接.
2)在HowNet知識庫中,一個褒義詞可能不僅包含褒義概念,還包含貶義概念和無褒貶含義的概念,在進行傾向性分析的時候,僅它的褒義概念會起正面作用,而貶義概念和無褒貶含義的概念則有可能會有反作用或是沒有作用;同樣的問題也存在于一些貶義詞中.使用基于概念的語義傾向度分析方法,可以消除反作用,同時避免不必要的時間損耗.對于褒義詞和貶義詞各自的準確率,不管何種方式褒義詞準確率明顯高于相應的貶義詞準確率,基于相似度的方法似乎很難避免褒、貶義詞準確率偏斜現象的出現.但是相對基于詞匯的方法貶義詞僅有57.7%準確率,基于概念的方法在準確率上有明顯的改進,在一定程度上糾正了準確率偏斜現象.
此外,與基于詞匯的語義傾向度分析方法相比,基于概念的語義傾向度分析方法還體現出2個優點:其一是自動化程度高,在利用聚類算法尋找基準概念的過程中,基準概念是從HowNet所提供的所有褒貶義概念中自動地選取,而非人為指定基準詞,在認同HowNet是一種通用工具的情況下,尋找基準概念的過程可認為是一種只需指定若干參數即可自動化的過程;其二是分析速度更快,在所使用的概念數大致相同,且認為每次HowNet計算2個詞相似度的時間復雜度相同的情況下,基于概念的語義傾向度分析方法減少了分析詞匯、提取概念的過程,因此分析的速度更快.
3.3.2 基準概念數變化趨勢分析
根據表3,基準概念方法的準確率隨著基準概念數的增加而逐漸提高.下面對產生這一現象的原因進行深入的分析.
對使用改進的K-MEDOIDS聚類方法得到的整個概念空間的聚類結果進行統計,得到概念空間的稀疏向量,記為centroids(n),其中n表示基準概念數,即聚類中心個數.為了減少K-MEDOIDS方法中隨機初始化帶來的影響,每次聚類重復m次,在本實驗中m設為10.centroids(n)中每一維向量,即候選概念的權值按如下方式確定:首先將向量centroids(n)每一維初始化為0,對于每次的聚類結果,在每個聚類中心所代表候選概念上的權值增加1/m,重復m次實驗.通過上述方式得到的向量centroids(n)中每一維的權值區間為[0,1],該向量表征了整個空間中每個概念選為基準的概率.
按上述方法統計之后,對相鄰2個聚類個數的聚類中心結果分別進行如下分析:首先計算兩者的相似度,在此使用余弦相似度的計算方法;其次統計在centroids(n)中出現頻數較centroids(n-10)增長最多的10個概念,以及它們在centroids(n)之前的出現次數.統計結果如表4所示,其中△Pcur表示當前出現頻數增長最多的10個概念的平均增加值,Ppre為這10個概念在之前的幾個維度出現的平均次數.例如,△Pcur=0.46,即表示出現頻數增長最多的10個概念在該維度平均多出現了0.46次,而Ppre=0.16,即表示這10個概念在之前幾個維度中分別只出現0.16次.
從表4中可以看出,相鄰基準概念數的相似度非常高,都達到了90%.這說明隨著基準概念數的增加,每組基準概念除了保持與前一組基準概念的大致相似之外,都會穩定地引入一些之前出現不多的概念,擴展了基準概念的空間,從而一定程度上提高了準確率.

表4 聚類中心統計Table 4 Statistics on centroids
本文提出了一種概念粒度層次下的語義傾向度分析方法,一定程度上克服了現有方法中使用詞匯作為基準影響性能的弊端.所提方法從HowNet知識庫中抽取出概念,并使用K-MEDOIDS聚類算法尋找基準概念,與基于詞匯的語義傾向分析方法相比,其自動化程度更高、分類的速度更快、準確度更高.但針對K-MEDOIDS聚類算法中初始點的選定存在隨機性的問題,下一步的研究嘗試使用人工干預的方式,基于可獲取的先驗知識進行初始基準概念的選取.
[1]HATZIVASSILOGLOU V,MCKEOWN K.Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL.New Brunswick,Canada,1997:174-181.
[2]TURNEY P.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40 th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA,2002:417-424.
[3]TURNEY P,LITTMAN M.Measuring praise and criticism:inference of semantic orientation from association[J].ACM Transactions on nformation Systems,2003,21(4):315-346.
[4]JAAP K,MAARTEN M,ROBERT J M,De RIJKE M.U-sing WordNet to measure semantic orientations of adjectives[C]//Proceedings of the Fourth International Conference on Language Resources and Evaluation.Lisbon, Portugal,2004,IV:1115-1118.
[5]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
ZHAO Yanyan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.
[6]王素格.基于Web的評論文本情感分類問題研究[D].上海:上海大學,2008:21-24.
WANG Suge.Research on problems for sentiment classification of review texts based on web[D].Shanghai:Shanghai University,2008:21-24.
[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J]. 中文信息學報,2006,20(1):14-20.
ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.
[8]楊昱昺,吳賢偉.改進的基于知網詞匯語義褒貶傾向性計算[J]. 計算機工程與應用,2009,45(21):91-93.
YANG Yubing,WU Xianwei.Improved lexical semantic tendentiousness recognition computing[J].Computer Engineering and Applications,2009,45(21):91-93.
[9]熊德平,程菊明,田勝利.基于HowNet的句子褒貶傾向性計算[C]//中國人工智能學會第12屆全國學術年會,哈爾濱,2007:910-913.
XIONG Deping,CHENG Juming,TIAN Shengli.Sentence orientation research based on HowNet[C]//Proceedings of the 12th Annual Meeting of Chinese Association for Artificial Intelligence.Harbin,2007:910-913.
[10]劉群,李素建.基于《知網》的詞匯語義相似度的計算[C]//第3屆漢語詞匯語義學研討會.臺北,中國,2002:59-76.
LIU Qun,LI Sujian.Word similarity computing based on How-net[C]//The 3rd Chinese Lexical Semantics Workshop.Taipei,China,2002:59-76.
[11]JAIN K,MURTY M N,FLYNN P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.


陳岳峰,男,1986年生,碩士研究生,主要研究方向為文本傾向性分析、文本信息處理、數據挖掘.苗奪謙,男,1964年生,教授,博士生導師.中國計算機學會理事,中國人工智能學會理事,上海市計算機學會理事等.已主持完成多項國家級、省部級自然科學基金與科技攻關項目,并參與完成“973”計劃項目1項,“863”計劃項目2項等,曾獲國家教委科技進步三等獎、山西省科技進步二等獎、教育部科技進步一等獎、上海市技術發明一等獎、重慶市自然科學一等獎等.主要研究方向為智能信息處理、粗糙集、粒計算、網絡智能、數據挖掘等.發表學術論文140余篇,其中被SCI和EI檢索70余篇,出版教材及學術著作6部,授權專利9項.

李文,女,1980年生,博士研究生,主要研究方向為文本信息處理、粗糙集、粒計算.
Semantic orientation computing based on concepts
CHEN Yuefeng1,2,MIAO Duoqian1,2,LI Wen1,2,ZHANG Zhifei1,2
(1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.The Key Laboratory of Embedded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China)
The semantic orientation of words is the foundation of sentiment analysis.Current methods to compute semantic orientation of words are mostly based on reference words,while words belonging to the granularity category,including various sentiment orientation concepts,affect the analytical precision and efficiency.In this paper,a new method of semantic orientation computing was proposed based on the reference concepts using the HowNet tool to analyze the tendency.The clustering algorithm K-Mediods was used to search for the reference concepts.The experimental results show that the concept-based method outperforms the word-based method.
sentiment analysis;HowNet;concept;clustering;K-Medoids
TP391
A
1673-4785(2011)06-0489-06
10.3969/j.issn.1673-4785.2011.06.003
2011-03-15.
國家自然科學基金資助項目(60970061,61075056,61103067);上海市重點學科建設資助項目(B004);中央高校基本科研業務費專項資金資助項目.
陳岳峰.E-mail:dennislyve@gmail.com.