陳 炯,張 虎,曹付元,張永奎
(1.山西職業技術學院 計算機工程系,山西 太原030006;2.山西大學 計算機與信息技術學院,山西 太原030006;3.山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原030006;4.山西大學 商務學院,山西 太原030031)
評論挖掘是當前數據挖掘、文本挖掘、自然語言處理等領域的熱點研究課題之一,在電子商務、商業智能、信息監控、輿情分析等方面具有重要的應用。面向網絡用戶評論的產品屬性抽取研究,作為評論挖掘的重要研究方向之一,旨在從客戶評論中挖掘出備受關注的產品特征信息,以便總結出基于這些產品特征的觀點及其情感傾向,從而為用戶提供更為具體和有價值的信息。網絡產品評論中的產品屬性包括產品名稱、產品的組成部分、產品的特點和功能以及產品屬性的特點和功能等[1]。
近年來圍繞產品評論的屬性抽取研究,國內外研究人員進行了大量的探索并取得了一些成效。在英文世界的評論挖掘領域,研究者已經初步取得一些成果[2-4],而針對中文的研究還處于起步階段。為了推動中文傾向性分析理論和技術的研究和發展,我國于2008年開展第一屆中文傾向性分析評測大會 (COAE2008)。張姝等提出將屬性詞和評價詞的識別融合到一個模型中,定義了多種特征并采用條件隨機場 (CRF)模型實現了屬性詞和評價詞的一體化識別,在COAE2008的評價對象抽取的評測結果中,取得了較好的成績[5]。但是單純采用統計學的方法具有很大的不確定性,難以取得理想的效果[6]。有的學者基于評價對象是名詞或名詞短語的假設,采用手工或自動的方法統計語料中屬性詞的詞性序列特征,構建詞性模板并抽取評價對象的屬性,取得了不錯的效果[7-9]。但是屬性詞的詞性序列反映的語言信息非常有限,很難取得較高的精度。婁德成等則通過對觀點句實施依存關系分析,發現主謂依存對可以提供主語和謂語的修飾關系等信息,借助主謂結構識別產品的屬性,并取得了一定的效果[6]。然而依存對僅僅反映了評價語句的局部語言規律,也難取得理想效果。而李實等參考英文世界中基于關聯規則分類的產品特征挖掘算法,通過對產品特征挖掘方法進行技術拓展,把目前主要面向英文的評論挖掘方法拓展到中文世界,在5種產品的評論語料上進行實驗,平均精確率達到了63.6%,平均召回率達到了77.8%[10]。但方法的基礎仍然是面向英文評論,用于中文領域存在一定的局限性。
由于漢語是一種大字符集的孤立語,形態變化少,語法關系靠詞序和虛詞表示,而且句子由詞組成,詞在組成句子時,需要遵守一定的規則和約束[11]。依存語法的描述側重反映語義關系,這種表示更傾向于人的語言直覺,有利于一些上層應用[12]。通過對語料的觀察和分析,句子中的詞性和依存關系序列在多數情況下能夠反映評論語句的語言組合規律,因此本文綜合利用詞法分析、句法分析、同義詞詞林等多項技術和資源,挖掘真實語料中蘊藏的語言知識,從詞法和句法兩個角度綜合分析和歸納評論句的全局語言規則,在此基礎上構建產品屬性模板,指導產品屬性的抽取。
僅從包含觀點詞的句子中提取產品屬性是基于這樣的假設,即語料中包含觀點詞的句子包含評價觀點,并且經常出現在評價句中的屬性才是我們需要抽取的屬性[13]。本文選取評論網站上的主觀句作為訓練語料,并對搜集到的語料進行預處理,然后進行詞法、句法分析構建標注語料集。
語料預處理階段,需要對收集到的評論句進行去噪處理,人工濾除語法錯誤和成分殘缺的句子,修正標點符號錯誤和錯別字詞,得到符合語法規則、表達規范的句子。
使用哈爾濱工業大學研制的語言技術平臺LTP對預處理后的句子進行處理。LTP包括語料資源、語言處理模塊、數據表示和可視化工具等4個模塊。本文使用語言處理模塊對預處理后的句子進行分詞、詞性標注和依存句法分析,獲得輸入句子的分詞、詞性標注結果和依存句法樹。
例1:價格比較之后感覺還是很厚道的。

圖1 例1的分析結果
例1的分析結果如圖1所示。從分析所得的依存句法樹中提取屬性詞 “價格”節點到觀點詞 “厚道”節點的路徑中詞性和依存關系序列為: “n-SBV-d-ADV-nd-ATT-n-SBV-a”,其中小寫字母表示詞性標記,大寫字母表示依存關系。最后按照如下格式生成句子的標注結果。
<tag>
<sentence> 句子內容 </sentence>
<seg> 句子分詞和詞性標注后結果 </seg>
<dps> 依存句法樹中屬性詞節點到觀點詞節點的最短路徑序列 </dps>
<o> 觀點詞在分詞結果中的序號 </o>
<f> 屬性詞在分詞結果中的序號 </f>
</tag>
其中,<sentence> </sentence>標簽的內容是經過預處理后的主觀性句子;<dps> </dps>標簽的內容用詞性標記和依存關系標記表示;<o> </o>、<f> </f>中序號從0開始,小于0的序號表示沒有該項內容。
例1經過上述標注后的結果為:
<tag>
<sentence>價格比較之后感覺還是很厚道的</sentence>
<seg> [0]價格/n[1]比較/d[2]之后/nd[3]感覺/n[4]還是/d[5]很/d[6]厚道/a[7]的/u[8]。/wp</seg>
<dps> n-SBV-d-ADV-nd-ATT-n-SBV-a</dps>
<o>6</o>
<f>0</f>
</tag>
為了提高模板的適用性和有效性,模板應遵循以下幾條原則:①模板應能方便準確地識別評論句中的產品屬性詞。②模板應該便于高效率地檢索。③模板應該具有較好的覆蓋面和適應性。
在產品評論中,不同的用戶往往使用不同的評價詞對同一屬性進行評價,以表達自己的觀點,然而語料的覆蓋面非常有限,標注獲得的觀點詞很難覆蓋真實評論中不同的用詞,為了擴大模板的覆蓋面,使得模板盡可能多地概括同類語言模式,需要對觀點詞進行同義詞擴充。哈爾濱工業大學研制的同義詞詞林 (擴展版)把詞語分為大、中、小類三級,共分為12個大類,94個中類,1428個小類,小類下再以同義原則劃分詞群,每一個詞群以一標題詞立目,共3925個標題詞。采用同義詞詞林擴充觀點詞的方法如下:對于語料中標注的每個觀點詞,在同義詞詞林中查找該詞所在詞群中的同義詞,并將獲得的同義詞連同該詞一起組成同義詞列表,作為對應模板中ops列表節點的內容。模板的結構組成如下:
<template>
<id> 模板編號 </id>
<ops> 觀點詞及其同義詞列表 </ops>
<dps> 依存句法樹中屬性詞節點到觀點詞節點的最短路徑序列 </dps>
<f> 屬性詞在dps序列中的詞性序號 </f>
</template>
其中,<template> </template>標簽標記了一個模板,模板中的第一個節點是模板編號,編號從0開始;<dps> </dps>節點用詞性標記和依存關系標記表示;<f> </f>節點序號從0開始。
由例1所生成的一個候選屬性模板為:
<template>
<id>0001</id>
<ops>厚道忠厚敦厚溫厚仁厚寬厚憨厚篤厚淳厚渾厚人道渾樸淳樸純樸誠樸樸實忠厚老實不念舊惡以德報怨 息事寧人 隱惡揚善 古道熱腸 憨直 厚樸 樸 以直報怨 憨 拙樸 醇樸 淳 惲 </ops>
<dps> n-SBV-d-ADV-nd-ATT-n-SBV-a</dps>
<f>0</f>
</template>
在生成的候選模板中,若兩個模板的dps序列和f序號都相同,說明這兩個模板反映了相似的語言現象,需要考慮這兩個模板是否應當歸并的問題。設模板template_1和template_2的dps序列和f序號都相同,它們的觀點詞列表分別為L1= {w11w12… w1p}和L2= {w21w22… w2k},若L1∩L2≠ ,則將這兩個模板歸并為一個模板,歸并后的模板的ops列表為L=L1∪L2。經過模板的歸并,可以減少模板庫的冗余模板,提高模板檢索的效率。經過歸并后的候選模板中,有些候選模板在訓練語料中出現的次數相對較多,這些候選模板相對比較可信,而那些出現次數較少的候選模板可信度相對較差,因此需要對候選模板進行過濾。過濾閾值設置為式 (1)

式中:α——比例系數,0≤α≤1;pf——所有候選模板在訓練語料中出現的總頻次;pn——候選模板的總數。當α一定時,θ的大小反映了候選模板在語料中出現的平均頻次。
由于中文自然語言文本中表達方式、遣詞造句的多樣性以及句式的復雜性[14],同一個觀點詞可能用于不同的句式,相同的句式也可能使用不同的觀點詞來表達某種情感傾向。為了能夠有效組織模板,將生成的模板組織成陣列形式,每行模板的dps序列相同,而每列模板的ops列表相同。模板庫的邏輯組織結構如圖2所示。

圖2 模板庫的邏輯組織結構
其中,c0,c1,…,cn模板庫中模板的列序號,r0,r1,…,rm為行序號。
由于網絡評論中包含有大量的噪聲,一定程度上會降低處理的效率和識別的準確率,因此需要對待識別的主觀性評論句進行去噪處理。通過對語料中出現的特殊符號的觀察和統計,構建停用符號表。對于給定的主觀性評論句,先采用停用符號表過濾句子中的特殊符號,然后對句子進行分詞、詞性標注和依存句法分析,最后提取句子中的形容詞w和句子的詞性依存序列s。在提取句子中的形容詞過程中,可能存在一個句子中有兩個或多個形容詞的情況,這個句子可能存在兩個或多個屬性,此時需要將這些形容詞分別作為檢索詞進行模板檢索。
以提取的形容詞w為檢索詞,在模板庫中檢索ops列表包含該檢索詞的模板并獲取該模板在模板庫中的列序號c,然后按如下算法檢索匹配的模板:
步驟1 j=0,position=-1。
步驟2 dps=template_jc.dps。
步驟3 若dps是s的一個子序列,則匹配成功,用position記錄s中與dps相同的子序列的起始位置,并記錄模板的行序號j,轉步驟4;否則,j=j+1,若j≤m,轉步驟2。
步驟4 結束。
算法執行后,若position=-1,表明未檢索到匹配模板;否則說明評論句在模板庫中找到匹配的模板template_jc。
利用模板檢索后獲得的模板編號jc和序列匹配的起始位置position,可定位待識別句子中的屬性詞。設匹配模板template_jc的<f> </f>節點值為d,則待識別評論句的分詞結果中序號為position+d的詞即為屬性詞。
例2:清晰的屏幕,漂亮的外觀設計,凸顯了它品質的高貴。
例2詞性標記后結果為:[0]清晰/a[1]的/u[2]屏幕/n[3],/wp[4]漂亮/a[5]的/u[6]外觀/n[7]設計/v[8],/wp[9]凸顯/v[10]了/u[11]它/r[12]品質/n[13]的/u[14]高貴/a[15]。/wp。分析后結果如圖3所示。

圖3 例2的分析結果
句子中出現了3個形容詞 “清晰”、 “漂亮”和 “高貴”,分別以3個形容詞為檢索詞在模板庫中檢索模板,執行檢索算法后,形容詞 “清晰”獲得的檢索結果為:position=0,匹配模板是template_41;同理,形容詞 “漂亮”和 “高貴”獲得的匹配模板分別是template_71和template_60。根據3個模板獲得對應的屬性詞。例如,形容詞 “清晰”的匹配模板template_41為:
<template>
<id>41</id>
<ops> 清晰 明晰 清 清楚 歷歷 分明 鮮明 一清二楚黑白分明 旁觀者清 清清楚楚 明明白白 冥 澄 丁是丁 白紙黑字 清麗 不可磨滅</ops>
<dps>a-DE-u-ATT-n</dps>
<f>2</f>
</template>
則待識別評論句的分詞結果中序號為position+2=2的詞 “屏幕”即為該句的一個屬性詞。同樣的方法可識別另兩個屬性詞分別為 “外觀”和 “品質”。
由于缺乏標準的評測語料可供使用,本文選取了與文獻 [10]來源相同的5種產品評論作為實驗語料,以便于展開對比。從5種產品的網絡評論中各選取150個主觀性評論句作為實驗語料,5種產品分別是一款手機 (HTC A9191),兩款數碼相機 (Nikon D90,Canon IXUS 210),一款MP3播放器 (藍魔RM970)和一本圖書 (《杜拉拉升職記》)。其中手機、數碼相機及MP3播放器的評論從itl68網站下載 (http://www.it168.com/),圖書評論從卓越網下載 (http://www.amazon.cn/)。實驗選取的每一個評論句至少包含一個產品屬性。從750句實驗語料中隨機選取每種產品的100個評論句,共500句評論組成訓練集,其余250句組成測試集。
針對訓練集中每一種產品的評論句,首先進行預處理,然后對訓練集中的語料進行半自動標注,根據標注結果生成了563個候選模板,經過模板歸并和過濾后得到374個屬性模板,最后由374個模板生成模板庫。
采用在文本處理研究領域普遍使用的性能評估指標:精確率P(precision)、召回率R(recall)和F值對實驗結果進行評測

首先將測試集中5種產品的250個評論句子輸入實驗系統,對于每一種產品,不同句子中識別出的相同屬性應當看作是不同的屬性;然后將實驗結果與文獻 [10]進行了對比。雖然兩種方法選取的實驗語料不同,但是所用的語料來源、評論的產品種類和語料規模完全相同,對比結果如表1所示。
D從表1的結果可以看出,本文的平均精確率達到了0.762,平均召回率達到了0.703,與文獻 [10]的抽取方法相比,召回率下降了7.5%,但精確率卻提高了12.6%,綜合評價指標F值提高了3.4%,說明本文方法取得了較好的效果。
分析精確率提高的原因,文獻 [10]繼承并拓展了面向英文評論的產品特征挖掘方法,雖然也針對中文語言特點和中文評論風格對方法局部進行了技術創新,但由于中英文語言在詞匯、語法、語義以及語用等各個層面都上存在著很大的差異,方法的拓展效果比較有限。而本文方法則借助從真實的中文評論語料中提取出的屬性模板識別產品屬性,模板既包含了反映評論句語言組合規律的詞性和依存關系序列,也包含了特定的語言組合序列可能關聯的觀點詞,因而能夠更好地刻畫中文產品評論的語言規律,提高識別準確率。

表1 本文方法與文獻 [10]實驗對比結果
本文的召回率有所降低,主要是因為訓練語料的規模比較小,只有500個句子,模板庫包含的模板數量依賴于訓練語料的規模,模板的覆蓋面仍然比較小,有些測試語料是模板沒有覆蓋到的,可以通過建立更為完備的訓練語料來增加模板的數量,從而提高系統的性能。
為了進一步提高方法識別的準確率,通過對識別錯誤的句子進行分析。引起錯誤的原因主要有以下幾個因素:
(1)分詞、詞性標注及句法分析工具是后續產品屬性識別的基礎,但是目前這些工具本身還有一定的誤差。例如,“性價比”也是一種產品屬性,但在分詞時切分為 “性價/比”,影響了后續屬性識別的準確率。
(2)人工標注的主觀性和隱式產品屬性對識別的準確性有一定的影響。實驗結果對照的是人工標注的屬性,然而對于產品屬性人工標注的主觀性可能會影響到標注結果的客觀性,從而影響實驗結果的準確性。另外,本文對屬性的識別僅是針對產品的顯式屬性進行識別,而對于隱式屬性卻無能為力。
(3)網絡用戶評論的風格及語言的特殊性對實驗結果也產生了影響。由于評論文本風格的特殊性,再加上網絡用語中新詞、新含義、新用法和新句型的不斷出現,降低了識別方法各環節處理的準確率。例如,“超酷”詞性被標記為 “ws”,但它的真實含義卻是一個褒義的觀點詞;“外觀很山寨”中 “山寨”一詞被標記為名詞,但它的真實含義卻轉化為一個貶義觀點詞。
(4)為了提高模板的覆蓋面,采用同義詞詞林對觀點詞進行了同義詞擴展,這種擴展是基于這樣一種假設,即同義詞或近義詞的語法功能也相同,雖然這種假設對于多數情況是正確的,但有時也有例外。
針對句子粒度的中文在線產品評論,在分析現有產品屬性抽取方法的基礎上,綜合采用了詞法分析、句法分析、同義詞詞林等多項技術和資源,提出了一種基于產品屬性模板的方法。考慮到在線產品評論的特點,本文首先對訓練評論語料進行了預處理,并使用哈爾濱工業大學研制的語言技術平臺LTP對預處理后的句子進行分詞、詞性標注和依存句法分析,生成語料標注集。然后采用半監督學習的方法構建了產品屬性模板,最后借助模板實現了對產品屬性的自動識別。實驗結果表明該方法是有效的。
[1]TANG Hui-feng,TAN Song-bo,CHENG Xue-qi.A survey on sentiment detection of reviews [J].Expert Systems with Applications,2009,36 (7):10760-10773.
[2]Popescu A,Etzioni O.Extracting product features and opinions from reviews [C].Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2005.
[3]WEI C P,CHEN Y M,YANG C S,et al.Understanding what concerns consumers:A semantic approach to product feature extraction from consumer reviews [J].Information Systems and E-business Management,2010,8 (2):149-167.
[4]Niklas J,Iryna G.Extracting opinion targets in a single-and cross-domain setting with conditional random fields [C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2010:1035-1045.
[5]ZHANG Shu,JIA Wen-jie,XIA Ying-ju,et al.Research on CRF-based evaluated object extraction [C].Harbin:Proceedings of the COAE,2008(in Chinese).[張姝,賈文杰,夏迎炬,等.基于CRF的評價對象抽取技術研究 [C].Harbin:Proceedings of the COAE,2008.]
[6]LOU De-cheng,YAO Tian-fang.Semantic polarity analysis and opinion mining on Chinese review sentences [J].Journal of Computer Applications,2006,26 (11):2622-2625 (in Chinese).[婁德成,姚天昉.漢語句子語義極性分析和觀點抽取方法的研究 [J].計算機應用,2006,26 (11):2622-2625.]
[7]QIAO Chun-geng,SUN Li-hua,WU Shao,et al.Patternbased Chinese semantic orientation analysis[C].Harbin:Proceedings of the COAE,2008(in Chinese).[喬春庚,孫麗華,吳韶,等.基于模式的中文傾向性分析研究 [C].Harbin:Proceedings of the COAE,2008.]
[8]HE Ting-ting,WEN Bin,SONG Le,et al.Research on sentiment terms’polarities identification and opinion extraction[C].Harbin:Proceedings of the COAE,2008 (in Chinese).[何婷婷,聞彬,宋樂,等.詞語情感傾向性識別及觀點抽取研究 [C].Harbin:Proceedings of the COAE2008,2008.]
[9]SONG Xiao-lei,WANG Su-ge,LI Hong-xia.Research on comment target recognition for specific domain products[J].Journal of Chinese Information Processing,2010,24 (1):89-93 (in Chinese).[宋曉雷,王素格,李紅霞.面向特定領域的產品評價對象自動識別研究 [J].中文信息學報,2010,24 (1):89-93.]
[10]LI Shi,YE Qiang,LI Yi-jun,et al.Mining features of products from Chinese customer online reviews [J].Journal of Management Sciences in China,2009,12 (2):142-152 (in Chinese).[李實,葉強,李一軍,等.中文網絡客戶評論的產品特征挖掘方法研究 [J].管理科學學報,2009,12 (2):142-152.]
[11]ZONG Cheng-qing.Statistical natural language processing[M].Beijing:Tsinghua University Press,2008:147-189(in Chinese).[宗成慶.統計自然語言處理 [M].北京:清華大學出版社,2008:147-189.]
[12]LIU Ting,MA Jin-shan.Theories and methods of Chinese automatic syntactic parsing:A critical survey [J].Contemporary Linguistics,2009,11 (2):100-112 (in Chinese).[劉挺,馬金山.漢語自動句法分析的理論與方法 [J].當代語言學,2009,11 (2):100-112.]
[13]SONG Rui,LIN Hong-fei.DUTIR at COAE2008 [C].Harbin:Proceedings of the COAE,2008 (in Chinese). [宋銳,林鴻飛.DUTIR關于 COAE2008評測報告 [C].Harbin:Proceedings of the COAE,2008.]
[14]ZHOU Li-zhu,HE Yu-kai,WANG Jian-yong.Survey on research of sentiment analysis [J].Journal of Computer Applications,2008,28 (11):2725-2728 (in Chinese).[周立柱,賀宇凱,王建勇.情感分析研究綜述 [J].計算機應用,2008,28 (11):2725-2728.]
[15]ZHENG Jia-heng,ZHANG Hu,TAN Hong-ye,et al.Intelligent information processing-Chinese corpus processing technology and application [M].Beijing:Science Press,2010:112-137(in Chinese).[鄭家恒,張虎,譚紅葉,等.智能信息處理—漢語語料庫加工技術及應用 [M].北京:科學出版社,2010:112-137.]