劉 濤,趙 鵬,劉慧婷,紀 霞
(1.安徽大學計算智能與信號處理教育部重點實驗室,合肥230039;2.安徽大學計算機科學與技術學院,合肥230601)
一種改進的基于核心句的評價搭配抽取方法
劉 濤1,2,趙 鵬1,2,劉慧婷1,2,紀 霞1,2
(1.安徽大學計算智能與信號處理教育部重點實驗室,合肥230039;2.安徽大學計算機科學與技術學院,合肥230601)
目前主流的評價搭配抽取方法以句法依存分析為基礎,由于中文評價文本的不規范性,導致其句法分析結果不穩定,進而影響評價搭配的抽取效果。針對該問題,提出一種改進的基于核心句的評價搭配抽取方法。設計融合核心句和句法依存關系的評價搭配抽取方法,提高評價語句句法分析結果的穩定性,并且在處理復雜的評價語句時,加入對評價對象之間、情感詞之間并列關系的分析。實驗結果表明,該方法能提高召回率和準確率。
核心句;評價搭配;語法模板;并列關系;依存關系
隨著電子商務的蓬勃發展,越來越多的消費者傾向于在網絡上發表自己的觀點和評論,這些網絡上出現的海量評價文本蘊含著大量有價值的信息。快捷高效地挖掘出這些評論中消費者對商品及其屬性的褒貶態度和評價意見,不僅可以指導商家對產品和服務做出有針對性的改進,而且可以幫助消費者選擇合適的商品和服務。情感分析任務日益成為研究者們關注的焦點,評價搭配的抽取是情感分析的關鍵技術。第三屆中文傾向性分析測評已將評價搭配的抽取作為新增的要素級評測任務[1]。評價搭配是指評價對象與其對應的修飾詞的組合[2],因此,本文抽取結果的表現形式為:<評價對象,評價詞>。
近年來,越來越多的研究人員開始關注評價搭配抽取。在面向英文評論的搭配方面,文獻[3]首先對文本進行句法依存分析,然后依據詞性建立模板獲得評價搭配的候選集,再使用最大熵模型的方法篩選候選集合,最后得到評價搭配的集合。但該方法只能抽取在一個單句中的評價對象和評價詞的搭配,且限定了評價詞和評價對象的詞性。文獻[4]首先手工標記出評價文本中的評價對象和評價詞,然后在句法分析的基礎上獲得評價搭配和評價詞之間的句法規則,最后用這些規則識別評價搭配,該方法是以人工標注作為基礎,需要大量的人力和時間,且覆蓋率偏低。文獻[5]先從評價語句中找出評價對象,然后用最近距離進行匹配的方法抽取評價搭配,該方法限定評價詞為形容詞,忽略了具有傾向性的動詞和名詞,同時使用編輯距離的模糊匹配方法抽取評價搭配,在中文語料中效果并不理想。在中文評價文本方面,文獻[6]提出了基于最大熵模型的中文評價搭配的抽取方法,發現程度副詞能明顯的提高抽取性能,但要事先確定產品特征和情感詞匯。文獻[7]也是使用最大熵模型的方法識別評價搭配,取得了不錯的效果,但是該方法需要構建適合語料環境的極性詞表,且單純使用統計模型的方法難以取得良好的效果。文獻[8]在句法分析的基礎上,獲得評價對象和評價詞的路徑,并將其作為語義特征應用于最大熵模型。文獻[9]從特定的情感詞出發,自動獲得情感詞對應的評價對象,利用句法分析的結果獲取依存結構。文獻[10]利用SBV極性傳遞法識別需抽取的評價對象和評價詞(極性詞),并引入ATT鏈算法以及互信息法確定評價對象的邊界,進一步挖掘了評價對象與評價詞的語義關系。
可以看出,目前抽取搭配常用2類方法:一種方法是基于一些語言特征利用最大熵模型等機器學習模型進行訓練獲得模型[3,6,9];另一種方法是基于規則或模板[4-5,10]。不難發現,不管使用以上哪種方法,句法分析都在評價搭配抽取方面起著重要的作用,但是由于中文網絡評價語句的不規范性,導致其句法分析的結果不準確。針對這個問題,文獻[11]提出了用原始語料中評價語句的核心句的方法抽取評價對象,文獻[12]把核心句的思想引入到評價搭配的抽取中,提出了融合核心句和依存關系的評價搭配的抽取方法,但是沒有考慮到語句中并列關系的評價對象和情感詞,且在提取核心句時先對不規范的原始語句進行句法依存分析,影響了核心句的抽取效果。為此,本文提出一種改進的基于核心句的評價搭配抽取方法。
2.1 核心句的抽取
所謂核心句即為依據一定的規則將原句進行處理后得到的新句,新句一般為原句的核心片段,如果原句不符合任何規則,則保持不變[11]。本文中的核心句主要指刪除冗余,保留與評價搭配相關的主干成分。本文旨在利用核心句提高評價文本句法依存分析的準確率。抽取核心句的原則是使評價文本規范化,同時又盡量不丟失原句中與評價搭配相關的成分。基于以上原則,以及對大量語料的觀察,本文確定了5條規則,如表1所示。

表1 核心語句獲得的規則
將句子按照表1的5條規則順序處理后即可以得到所需的核心句。例如“酒店服務員很熱情,環境也很好,尤其是戶外的自然環境非常好,唯一的不足就是房間的設施有點舊。希望酒店能盡快改進?!碧幚聿襟E如下:
步驟1匹配Rule3,例句處理后變為“酒店服務員很熱情,環境也很好,尤其是戶外的自然環境非常好,唯一的不足就是房間的設施有點舊?!?/p>
步驟2匹配Rule4,例句處理后變為“酒店服務員很熱情,環境也很好,尤其是戶外的自然環境非常好,就是房間的設施有點舊?!?/p>
步驟3匹配Rule5,例句變為“酒店服務員很熱情,環境也很好,戶外的自然環境非常好,房間的設施有點舊?!?/p>
上面例句的核心句即為“酒店服務員很熱情,環境也很好,戶外的自然環境非常好,房間的設施有點舊。”需要指出的是,對于不同類型的語料,抽取核心句的規則會有所不同,如果是同一領域的語料,則可以尋找出理想的規則以更好地發揮核心句的作用。
2.2 語法模板的獲取
識別評價搭配模板如表2所示。

表2 識別評價搭配模板
表2中的箭頭表示存在依存關系;箭頭兩端的字母代表具有依存關系的2個詞的詞性;箭頭上方的標識(如“SBV”)表示具體的依存關系;括號中的成分表示是有可能存在的。
在獲得核心句之后,需要對核心句進行句法依存分析,然后根據評價搭配抽取模板抽取評價搭配。通過對語料的觀察和分析,發現評價對象和評價詞之間主要有以下關系:
(1)修飾關系,如:“時尚的外觀”,本文用表2的模板1來識別此類的評價搭配。
(2)主謂關系,如:“房間很干凈?!?根據主語和謂語核心詞的詞性,分為3種情況:
1)用表2的模板2首先識別出核心評價搭配<n,a>,如果主語是復合短語則使用表2的模板5識別出完整的評價對象n+n或者v+n,同樣如果謂語是復合短語則用表2的模板6識別出完整的評價詞d+a。
2)用表2的模板3首先識別出評價對象n,如果主語是復合短語則使用表2的模板5識別出完整的評價對象n1+n2或者v1+n2,再用表2的模板7識別出評價詞n/a/v,最后判斷是否符合表2的模板8,若符合,則獲得完整的評價詞d+v+n/a/v。
3)用表2的模板4首先識別出核心評價搭配<v,a>,然后用表2的模板5識別出評價對象n+v,同樣如果謂語是復合短語則用表2的模板6識別出完整的評價詞d+a。
(3)并列關系,這里分為2種情況:
1)評價對象是并列關系的,如“酒店的環境和設施都很差。”,本文用表2的模板9識別出并列的評價對象n1,然后根據n2識別出評價對象n1完整形態和對應的評價詞;
2)評價詞是并列關系的,如“房間很干凈,也很安靜?!?本文用表2的模板9識別出評價詞a1,然后根據a2識別出a1的評價對象,最后判斷a2是否有前綴修飾詞,有的話就使用表2的模板6識別出完整的評價詞d+a。
本文使用的是哈爾濱工業大學社會計算與信息檢索研究中心提供的語言技術平臺(Language Technology Platform,LTP)進行分詞和依存關系分析的。具體評價搭配抽取算法如下:
輸入評論語句集合StcSet0={s1,s2,…,sm}
輸出評價搭配集合CombinSet1={<obj1,evalu1>,<obj2,evalu2>,…,<objn,evalun>}
Step1掃描集合StcSet0中的每個句子,對于句子sk(k=1,2,…,m),依次使用表1中的5個規則匹配處理,最后獲得sk的核心語句shk。掃描結束后獲得集合StcSet0對應的核心句集合StcSet1,StcSet1= {hs1,hs2,…,hsm}。
Step2掃描集合StcSet1中的每個句子,對于句子hsk(k=1,2,…,m),構造分析器,具體如下:
(1)首先匹配表2中的模板1,若匹配失敗直接進入步驟(2);若匹配成功,先識別出評價搭配<n1,a1>,然后通過a1匹配表2中的模板6,若匹配成功,則獲得評價詞d1a1,再通過a1匹配表2中的模板9,若匹配成功,則獲得評價搭配<n1,a2>,最后通過n1匹配表2中的模板9,若匹配成功,則獲得評價搭配<n2,a1>。
(2)匹配表2中的模板2,若匹配成功,得到評價搭配<n1,a1>,然后通過n1循環匹配表2中的模板5(設定最多循環2次),若匹配成功,得到評價對象x2x1n1(x2x1可能是nn或vn),再通過a1匹配表2中的模板6,若匹配成功,則獲得評價詞d1a1。再通過n1匹配表2中的模板9,若匹配成功,則獲得評價搭配<n2,(d1)a1>。之后通過a1匹配表2中的模板9,若匹配成功,則獲得評價配對<x2x1n1,(d1)a2>。
(3)匹配表2中的模板3和模板7(其中,2個模板中的v是同一個詞),若匹配成功,則得到評價搭配<n,(d)+n/a>,然后通過n匹配表2中的模板5右邊的n2,若匹配成功,獲得評價對象n1/v1+n,若評價詞中有單獨的a,則需要匹配表2中的模板6,獲得評價詞d+a,同上面的步驟(2)一樣,對評價詞a和評價對象n用表2中的模板9進行匹配并作出同樣的處理。
(4)匹配表2中的模板4,若匹配成功,則得到評價搭配<v,a>,然后通過v匹配表2中的模板5右邊的v2,若匹配成功,則獲得評價對象n1+v,再通過a匹配表2中的模板6,若匹配成功,得到評價詞d+a,然后同步驟(2)一樣,對評價詞a用表2中的模板9進行匹配并做同樣的處理。
Step3重復Step2,直至處理完集合StcSet1中的每個句子。
Step4算法結束。
3.1 數據集與評價指標
本文采用的實驗數據是譚松波的中文情感挖掘語料提供的酒店評價語料,選取其中的1200篇,正反各600篇作為實驗的數據集,進行了3組實驗。第1組實驗對原始語料和使用表1規則抽取的核心句分別進行句法依存分析后,再分別使用表2的語法模板抽取評價搭配;第2組實驗對抽取的核心句進行句法依存分析后,分別使用含有并列關系的模板和不含并列關系的模板進行評價搭配抽取;第3組實驗將從1200篇語料隨機選取900篇作為訓練語料,余下的300篇作為測試語料,然后做基于最大熵模型的評價搭配抽取實驗,并與本文方法做對比。本文使用手工標注所有語料中的評價搭配作為實驗結果的對比標準。
本文實驗主要采用召回率(R)、精確率(P)、識別性能(F)這3個評價指標,具體如式(1)~式(3)所示:

3.2 結果對比
3組實驗結果分別如表3~表5所示。

表3 2種實驗方法的結果對比%

表4 是否含有并列關系模板的對比結果%

表5 本文方法與基于最大熵模型的實驗結果對比%
表3表明,使用核心句可以顯著地提高評價搭配的抽取效果,這主要是原始語料中評價語句的不規范性導致的。對原始語料進行句法依存關系分析,其結果的準確性不是很高,因此,使用語法模板抽取評價搭配就很難得到理想的結果。而對原始語句消除冗余,獲得核心句,就會在很大程度上改善這個問題,從而獲得比較理想的抽取效果。
從表4可以看出,加入并列關系的語法模板可以提高評價搭配的抽取效果,當評價語句中含有并列關系的評價對象或評價詞時,只有一對評價搭配表現為修飾關系或主謂關系,此時,用并列關系的模板就可以抽取其余的評價配對,提高了抽取的效果。
從表5可以看出,本文方法與文獻[7]方法相比,在召回率上提高了約3%,在準確率上提前高了約3.2%,從而證明了本文方法的有效性,且具有一定的應用價值。
評價搭配的抽取是文本情感挖掘的一個重要研究方向,本文提出一種改進的基于核心句的評價搭配抽取方法。該方法融合了核心句和句法依存關系,極大地改善中文評價文本的不規范性,并在處理復雜語句時重點分析評價對象之間以及情感值之間的并列關系,提高評價搭配的抽取效果。實驗結果也表明該方法的有效性,具有實際應用價值。但是本文方法也存在不足,對于像“我住的是3棟,不跟前臺一棟房子,很難找?!边@類含有潛在評價搭配的語句無法識別出評價搭配;對不同類型的語料,具體的模板會有所改變。今后將把評價語句的語義角色特性引入到評價搭配的抽取中,同時,將對比較句式的評價語句進行重點探索,進一步提高評價搭配的抽取效果。
致謝:感謝哈爾濱工業大學社會計算與信息檢索研究中心提供的LTP句法分析器。
[1] 許洪波,孫 樂,姚天昉,等.第三屆中文傾向性分析總結報告[C]//第三屆中文傾向性分析評測會議論文集.[出版地不詳]:中國中文信息學會信息檢索專業委員會,2011:1-24.
[2] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[3] Somprasertsri G,Lalitrojwong P.Mining Feature-opinion in Online Customer Reviews for Opinion Summarization[J].Journal of Universal Computer Science, 2010,16(6):938-955.
[4] Feng Sheng,ZhangMing,ZhangYanxing,etal. RecommendedorNotRecommended?Review ClassificationThroughOpinionExtraction[C]// Proceedings of the12th International Asia-Pacific Web Conference.Washington D.C.,USA:[s.n.],2010: 350-352.
[5] Liu Bing,HuMinqing,ChengJunsheng.Opinion Observer:Analyzing and Comparing Opinions on the Web[C]//Proceedingsofthe14thInternational Conference on World Wide Web.New York,USA: ACM Press,2005:342-351.
[6] 章劍鋒,張 奇,吳立德.中文觀點挖掘中的主觀性關系抽取[J].中文信息學報,2008,22(2):55-59.
[7] 方 明,劉培玉.基于最大熵模型的評價搭配識別[J].計算機研究應用,2011,28(10):3714-3716.
[8] 樊 娜,蔡皖東,趙 煜.基于最大熵模型的觀點句主觀關系提取[J].計算機工程,2010,36(2):4-6.
[9] 王素格.基于Web的評論文本情感分類問題研究[D].上海:上海大學,2008.
[10] 顧正甲,姚天昉.評價對象及其傾向性的抽取和判別[J].中文信息學報,2012,26(4):91-97.
[11] 張 莉,錢玲飛,許 鑫.基于核心句及句法關系的評價對象抽取[J].中文信息學報,2011,25(3):23-29.
[12] 陶新竹,趙 鵬,劉 濤.融合核心句與依存關系的評價搭配的抽取[J].計算機技術與發展,2014,24(1): 118-121.
編輯 劉 冰
An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence
LIU Tao1,2,ZHAO Peng1,2,LIU Huiting1,2,JI Xia1,2
(1.Key Laboratory of Intelligent Computing&Signal Processing,Ministry of Education,Anhui University,Hefei 230039,China; 2.School of Computer Science and Technology,Anhui University,Hefei 230601,China)
The mainstreaming evaluation collocation extroction methods are based on syntactic dependency parsing. Because the grammar of most Chinese evaluation text is not normative,the syntax analysis result is unstable and affects the result of extracting evaluation collocation.To solve this problem,this paper presents an improved method of extracting evaluation collocation based on kernel sentences,which extracts evaluation collocation by combining kernel sentences and syntactic dependency.This method can significantly improve the stability of the syntax analysis result,and it also can add the analysis of the coordinative relationship among the emotional words and among the opinion targets when dealing with complex sentences.Experimental result exhibits that this method can improve the recall rate and accuracy.
kernel sentence;evaluation collocation;syntax template;coordinative relationship;dependency relationship
劉 濤,趙 鵬,劉慧婷,等.一種改進的基于核心句的評價搭配抽取方法[J].計算機工程,2015, 41(2):157-160.
英文引用格式:Liu Tao,Zhao Peng,Liu Huiting,et al.An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence[J].Computer Engineering,2015,41(2):157-160.
1000-3428(2015)02-0157-04
:A
:TP391
10.3969/j.issn.1000-3428.2015.02.030
國家自然科學基金資助項目(61202227);安徽省自然科學基金資助項目(1408085MF122);安徽大學青年骨干教師培養基金資助項目(33010017)。
劉 濤(1985-),男,碩士研究生,主研方向:自然語音處理,文本情感挖掘;趙 鵬、劉慧婷,副教授;紀 霞,講師、博士。
2014-01-20
:2014-03-16E-mail:zhaopeng_ad@163.com