999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CRFs和領(lǐng)域本體的中文微博評價對象抽取研究

2016-05-03 13:02:36丁晟春吳婧嬋媛
中文信息學(xué)報 2016年4期
關(guān)鍵詞:特征情感實(shí)驗(yàn)

丁晟春,吳婧嬋媛,李 霄

(1. 南京理工大學(xué) 信息管理系,江蘇 南京 210094;2. 江蘇省社會公共安全科技協(xié)同創(chuàng)新中心,江蘇 南京 210094)

基于CRFs和領(lǐng)域本體的中文微博評價對象抽取研究

丁晟春1,2,吳婧嬋媛1,李 霄1

(1. 南京理工大學(xué) 信息管理系,江蘇 南京 210094;2. 江蘇省社會公共安全科技協(xié)同創(chuàng)新中心,江蘇 南京 210094)

微博情感分析是對微博內(nèi)容進(jìn)行細(xì)粒度的挖掘,有著重要的研究價值。微博評價對象的抽取是微博情感分析研究的關(guān)鍵問題之一。為了提高中文微博評價對象抽取的準(zhǔn)確率,該文在中文微博特征分析和微博評論本體構(gòu)建研究的基礎(chǔ)上,嘗試從詞、詞性、情感詞以及本體四個方面進(jìn)行特征選擇,采用CRFs模型對評價對象進(jìn)行抽取。該文將提出的方法運(yùn)用到COAE2014測評的Task5評價對象抽取任務(wù)中,宏平均準(zhǔn)確率達(dá)到61.20%,在所有測評隊伍中居第一。實(shí)驗(yàn)結(jié)果表明,將本體特征引入到CRFs模型中,能夠有效地提高評價對象抽取的準(zhǔn)確率。

CRFs模型;本體;特征選擇;評價對象抽取;信息抽取

1 引言

微博(Microblogs)作為一種基于用戶關(guān)系的信息分享、傳播以及獲取的平臺,是網(wǎng)民發(fā)表對熱點(diǎn)事件或話題看法的主要載體。通過微博的情感分析,可以得到用戶對事物的喜好、情感、態(tài)度等,及時了解群眾對熱點(diǎn)話題的看法,幫助政府機(jī)構(gòu)掌握突發(fā)事件后的社會群體心理,實(shí)現(xiàn)突發(fā)事件預(yù)警以及輿情監(jiān)控;還可以作為企業(yè)進(jìn)行市場分析、客戶管理、產(chǎn)品升級時的重要依據(jù)。由此可見,微博情感分析研究具有重要理論與應(yīng)用價值。評價對象抽取是微博情感分析研究的重要任務(wù)之一,旨在抽取出微博中的結(jié)構(gòu)化信息,如評價對象、屬性等。開展微博評價對象的抽取研究將有助于為上層情感分析任務(wù)提供服務(wù),為深層次的微博評論信息挖掘提供支持。

傳統(tǒng)的評價對象抽取都是針對長文本,而微博作為一種短文本,對其進(jìn)行評價對象抽取面臨的主要難點(diǎn)有: (1)微博評論信息都在140字以內(nèi),其關(guān)鍵詞詞頻低,導(dǎo)致無法使用現(xiàn)有文本處理中常用的特征提取算法進(jìn)行特征選擇與計算;(2)微博作為一種即時信息發(fā)布工具,其內(nèi)容中存在大量的同音詞、同義詞,導(dǎo)致微博評論信息的表示不夠準(zhǔn)確,影響評價對象抽取的結(jié)果;(3)微博用戶發(fā)布的內(nèi)容比較隨意,導(dǎo)致網(wǎng)絡(luò)新詞不斷涌現(xiàn),能否準(zhǔn)確地識別新詞也會影響特征提取的準(zhǔn)確性。

為了提高中文微博評價對象抽取的準(zhǔn)確率,本文研究了微博評論本體的構(gòu)建方法,借助本體的形式化描述和定義來更加準(zhǔn)確地表示微博評論信息,深入分析中文微博的特點(diǎn),嘗試從詞、詞性、情感詞以及本體四個方面選擇特征,采用CRFs模型對評價對象進(jìn)行抽取。

2 相關(guān)工作

2.1 評價對象抽取方法概述

當(dāng)前關(guān)于評價對象的抽取研究一般有三種方法: (1)基于規(guī)則/模板的方法[1-2];(2)基于自然語言處理的方法[3-4];(3)基于機(jī)器學(xué)習(xí)模型的方法[5-7]。基于規(guī)則/模板的方法主要是由專家歸納總結(jié)出抽取規(guī)則,構(gòu)建規(guī)則庫,借助于模式匹配的方式來抽取出評價對象,該方法雖易于理解,但是無法保證規(guī)則庫的完整,并且系統(tǒng)移植性差;基于自然語言處理的方法主要是通過語法分析、語義角色標(biāo)注等來解析句子的構(gòu)成,抽取評價對象,該方法適合處理語義清晰、成分完整的句子,對于處理成分缺失或者長度偏長的文本存在問題;基于機(jī)器學(xué)習(xí)模型的方法則是通過建立統(tǒng)計模型來進(jìn)行評價對象的抽取,依照模型的自動化程度可以分為有監(jiān)督的機(jī)器學(xué)習(xí)、半/無監(jiān)督的機(jī)器學(xué)習(xí)。有監(jiān)督的機(jī)器學(xué)習(xí)模型需要標(biāo)注好的訓(xùn)練語料,評價對象抽取準(zhǔn)確率高、泛化能力好;半/無監(jiān)督的機(jī)器學(xué)習(xí)模型需要較少的訓(xùn)練語料或者無需訓(xùn)練語料,通過聚類、繁殖等方式實(shí)現(xiàn)評價對象的抽取,雖然不需要大量的訓(xùn)練語料,但相對于有監(jiān)督的機(jī)器學(xué)習(xí)模型來說,準(zhǔn)確率比較低。

2.2 CRFs模型在評價對象抽取中的相關(guān)工作

目前,評價對象抽取的研究工作中經(jīng)常使用的是條件隨機(jī)場模型。條件隨機(jī)場(Conditional Random Fields, CRFs)最早是由Lafferty等人[8]于2001年提出來的,其思想主要來源于最大熵模型。我們可以將條件隨機(jī)場看成是一個無向圖模型或馬爾科夫隨機(jī)場,可以用來進(jìn)行標(biāo)記和切分序列化數(shù)據(jù)。CRFs模型是在給定需要標(biāo)記的觀察序列的條件下,計算整個標(biāo)記的聯(lián)合概率,而不是在給定當(dāng)前狀態(tài)的條件下,定義下一個狀態(tài)的分布。其不同于產(chǎn)生式模型,它可以使用豐富的、彼此重疊的觀察序列的特征,而且不需要很嚴(yán)格的前提假設(shè);同時,不同于最大熵馬爾可夫模型等概率模型,不對單個標(biāo)記歸一化,而是在整個觀測序列求解一個最優(yōu)的標(biāo)記序列,避免了標(biāo)記偏置問題。因此,條件隨機(jī)場模型非常適用于中文命名實(shí)體識別等任務(wù)[9]。由于評論對象抽取與命名實(shí)體識別具有相似性,也可將評價對象抽取看作是對中文序列中的每個詞選擇正確的評論對象標(biāo)記的過程,越來越多的研究者借助于CRFs模型來進(jìn)行評價對象抽取研究。

目前關(guān)于CRFs模型在評價對象抽取方面的研究主要分為兩個方面: 1)不同特征的選擇;2)CRFs模型的優(yōu)化。基于CRFs模型的評價對象抽取的主要思路是將評價對象抽取看成是序列標(biāo)注問題,以條件隨機(jī)場為學(xué)習(xí)模型進(jìn)行訓(xùn)練。相關(guān)工作如下: Lafferty J和McCallum A等[8]在2001年首先提出了將條件隨機(jī)場模型應(yīng)用于對序列化數(shù)據(jù)集進(jìn)行切分和標(biāo)記的研究工作。Jakob等[10]采用CRFs學(xué)習(xí)詞、詞性和句法的依賴關(guān)系、最近名詞和句子傾向性特征進(jìn)行評價對象的抽取,并對英文條件下各特征的效用進(jìn)行了分析;徐冰等[11-12]選擇了詞、詞性、上下文特征、位置特征和淺層句法特征,并借助于CRFs模型進(jìn)行評價對象抽取,并將方法運(yùn)用到COAE2008的評價對象抽取任務(wù)中,之后又采用了N-gram、詞性和詞典特征進(jìn)行評價對象的抽取,并將該方法運(yùn)用到在COAE2009任務(wù)4中;王中卿等[13]考慮了詞、詞性、依存關(guān)系等特征,借助CRFs模型對評價對象抽取結(jié)果F值在COAE2011評價搭配的抽取任務(wù)中排名第一;張莉等[14]利用規(guī)則抽取句子的核心句,分析句子的句法結(jié)構(gòu)后采用CRFs結(jié)合詞、詞性和句法結(jié)構(gòu)特征抽取出句子的評價對象,但并未對缺失評價對象的觀點(diǎn)句進(jìn)行處理;王榮洋等[15]通過條件隨機(jī)場模型,研究多種特征在評價對象抽取任務(wù)中的表現(xiàn),并將特征歸納為詞法、依存關(guān)系、相對位置和語義四大類別;鄭敏潔等[16-17]通過特征對比實(shí)驗(yàn)驗(yàn)證了結(jié)合了詞、句子傾向性、詞性、語法依賴關(guān)系、鄰近名詞等特征的條件隨機(jī)場方法對于中文句子評價對象的抽取更有效;之后又提出了一種基于層疊CRFs的中文句子評價抽取方法,該方法通過低層條件隨機(jī)場獲得候選評價對象集,然后通過降噪模型對噪聲進(jìn)行過濾、補(bǔ)充模型對缺失的候選評價對象進(jìn)行補(bǔ)充、合并模型對復(fù)合短語候選評價對象進(jìn)行合并,最后由高層模型抽取出評價對象。

從現(xiàn)有研究中可以看出,特征選擇對于評價對象抽取的結(jié)果有很大的影響,如何選擇有效的特征也成為研究的熱點(diǎn)和難點(diǎn)。本文在現(xiàn)有研究的基礎(chǔ)上,結(jié)合CRFs模型在評價對象抽取方面的優(yōu)勢,嘗試引入本體特征來提高評價對象抽取的準(zhǔn)確率。

2.3 本體

本體的經(jīng)典定義是由Gruber[18]給出的: 本體是一種清晰、明確、規(guī)范的概念化說明。領(lǐng)域本體通常給出一個領(lǐng)域內(nèi)的概念與概念之間關(guān)系的描述,它可以將文本信息轉(zhuǎn)化為計算機(jī)可理解和處理的知識,建立人與機(jī)器間的交流。本體能夠通過定義概念、概念的屬性以及概念間的關(guān)系、公理和約束等對知識進(jìn)行語義層次的表示,提供對領(lǐng)域知識的共同理解,確定能夠被領(lǐng)域共同認(rèn)可的術(shù)語,并且可以被計算機(jī)自動理解和處理。

微博作為一種具有語義特征的信息,其內(nèi)容中包含了關(guān)于評價對象的相關(guān)概念、評價對象所具備的屬性及屬性間可能存在的關(guān)系。首先,借助于本體可以將微博中評論對象及其屬性等進(jìn)行語義層次

的表示,更加準(zhǔn)確地表達(dá)出微博本身的內(nèi)容及其語義,清晰地體現(xiàn)出用戶的觀點(diǎn),有助于微博評價對象的抽取;其次通過構(gòu)建微博評論信息的本體可以使微博評論信息更加容易被計算機(jī)自動理解和識別,有助于更加準(zhǔn)確和深入地挖掘微博評論信息。

本文基于課題組前期提出的基于頂層本體的領(lǐng)域本體構(gòu)建方法[19],從本體工程方法論的成熟度和領(lǐng)域本體構(gòu)建的特點(diǎn)出發(fā),借鑒Mike UschoId &King的“骨架”法和斯坦福大學(xué)的“七步”法,并融合敘詞表和頂層本體(如SUMO)資源,結(jié)合中文微博的特點(diǎn),進(jìn)行相關(guān)領(lǐng)域本體的構(gòu)建,以支持中文微博評價對象的自動抽取。該方法是在確定本體領(lǐng)域和范圍的基礎(chǔ)上,考察復(fù)用現(xiàn)有的相關(guān)本體,選擇本體的詞匯來源,借助相關(guān)的規(guī)范詞表和頂層本體對所選擇的詞匯進(jìn)行規(guī)范化處理;其次,抽象并歸納出本體的核心大類,將核心大類作為本體的頂層類進(jìn)行擴(kuò)展細(xì)化,進(jìn)而確定類的等級體系;同時結(jié)合中文微博本體構(gòu)建的應(yīng)用需求——評價對象抽取,分析并定義本體中類間的關(guān)系。在此基礎(chǔ)上,定義類的屬性來豐富類的內(nèi)容。在定義關(guān)系和屬性的過程中,選擇合適的頂層本體直接復(fù)用其關(guān)系和屬性定義或用標(biāo)準(zhǔn)化本體中自定義的關(guān)系和屬性。

3. 方法

本文提出基于領(lǐng)域本體和CRFs模型進(jìn)行中文微博評價對象抽取方法,該方法的具體思路如圖1所示。

圖1 中文微博評價對象的自動抽取研究思路

評價對象的自動抽取主要包括語料預(yù)處理、特征選擇與轉(zhuǎn)換、CRFs模型的訓(xùn)練與測試三部分工作,具體描述如下。

(1) 語料預(yù)處理

該部分工作首先對微博語料進(jìn)行分詞及詞性標(biāo)注,準(zhǔn)備抽取工作所需要的情感詞典和本體,之后引入標(biāo)注結(jié)果標(biāo)記集,進(jìn)行特征的選擇與轉(zhuǎn)換。

① 語料分詞及詞性標(biāo)注: 使用分詞軟件對語料進(jìn)行分詞及詞性標(biāo)注。

② 情感詞典構(gòu)建: 微博作為社交網(wǎng)站來說,其語言的隨意性強(qiáng),用戶表達(dá)情感的方式也多種多樣。因此,越來越多的情感詞也在不斷涌現(xiàn)。將這些情感詞加入到情感詞典中,將更加有利于評價對象的抽取。

③ 微博評論本體構(gòu)建: 微博評論作為一種具有語義特征的信息,包含了能夠影響用戶的重要信息,如評論對象、評論的情感傾向性等,通過構(gòu)建微博評論本體可以使微博評論信息被計算機(jī)自動理解和識別,有助于研究者對微博評論信息的深入分析與研究。

④ 標(biāo)注結(jié)果標(biāo)記集: 本文引入三類標(biāo)記符號集用于評價對象抽取,L={OBJ,I, O}。其中OBJ表示評價對象或是評價對象的詞開始,I表示評價對象的詞內(nèi)部,O表示非評價對象。在抽取評價對象時,要求抽取出盡可能完整和明確的對象,例如“三星手機(jī)的屏幕很棒!”應(yīng)抽取出“三星手機(jī)的屏幕”,所以本文引用“I”來標(biāo)記此類被分詞軟件切分開的詞組內(nèi)部,完整明確地表達(dá)評價對象。

(2) 特征選擇與轉(zhuǎn)換

微博作為一種短文本,其內(nèi)容簡短,句子結(jié)構(gòu)可能不完整。因此本文選擇了詞、詞性、情感和本體四個特征來表示微博,并通過特征選擇預(yù)實(shí)驗(yàn)分析評價對象抽取的結(jié)果,選擇效果最好的特征組合來完成微博的評價對象抽取。

在特征確定后,依照CRFs模型的特征模板對特征進(jìn)行轉(zhuǎn)換。

(3) CRFs模型的訓(xùn)練與測試

① 語料準(zhǔn)備: 將微博語料分為訓(xùn)練語料與測試語料,并將其轉(zhuǎn)換為CRFs模型所需要的特征模板的格式。

② CRFs模型訓(xùn)練: 將特征轉(zhuǎn)換后的訓(xùn)練語料輸入到CRFs模型中,得到訓(xùn)練后的模型文件。

③ CRFs模型測試: 借助于訓(xùn)練得到的模型文件,對測試語料進(jìn)行測試,得到評價對象抽取的結(jié)果。

4. 實(shí)驗(yàn)與測評

4.1 數(shù)據(jù)集

本文使用COAE2014的評價對象抽取任務(wù)Task5所提供的數(shù)據(jù)集。在該測評任務(wù)中,測評委員會提供了COAE2013中Task4的已標(biāo)注語料作為訓(xùn)練集,該語料是關(guān)于牛奶領(lǐng)域的微博數(shù)據(jù),其樣本約為2 000條。COAE2014中Task5的數(shù)據(jù)集規(guī)模約為40 000篇,其中標(biāo)注樣本約為7 000篇,主要包括手機(jī)、翡翠、保險三個領(lǐng)域,為防止作弊,加入了33 000篇干擾樣本,干擾樣本也可能是含有傾向的,而評測只對其中7 000篇進(jìn)行。

4.2 微博評論本體構(gòu)建

通過對COAE2013以及COAE2014的觀點(diǎn)句評價對象抽取語料的分析,該數(shù)據(jù)集包含了四個領(lǐng)域的微博評論信息,主要包括牛奶、保險、翡翠和手機(jī),本文在課題組之前構(gòu)建手機(jī)領(lǐng)域本體的基礎(chǔ)上主要構(gòu)建了牛奶、保險、翡翠三個領(lǐng)域的本體[20]。下文以牛奶領(lǐng)域的微博評論本體構(gòu)建為例,簡要說明其構(gòu)建過程。

(1) 牛奶領(lǐng)域概念及指示詞的數(shù)據(jù)來源。由于目前牛奶領(lǐng)域缺乏規(guī)范的行業(yè)分類標(biāo)準(zhǔn)以及敘詞表,因此本文的牛奶領(lǐng)域概念來源主要是各個主流牛奶品牌官方網(wǎng)站(例如,伊利官網(wǎng)、蒙牛官網(wǎng)等)與Alex排名靠前的銷售牛奶的電子商務(wù)網(wǎng)站(例如,卓越亞馬遜網(wǎng)、1號店等)。這些網(wǎng)站上關(guān)于牛奶的相關(guān)概念和分類是比較規(guī)范,也是得到公眾一致認(rèn)可的,因此本文選擇這些網(wǎng)站作為本體概念數(shù)據(jù)的主要來源。而指示詞的數(shù)據(jù)來源主要有牛奶詳細(xì)介紹列表中獲取的用于表示牛奶的某些屬性的度量單位,從COAE2014的微博語料中獲取用于表示評論者對牛奶的包裝、口味等屬性進(jìn)行評價的詞匯。

(2) 定義牛奶評論本體的類。在對COAE2014語料進(jìn)行分析后,將微博評論信息的抽象為四類概念,即評論、評論對象、指示詞和評論者。經(jīng)上述過程得到與牛奶相關(guān)的類概念共94個。指示詞類分為參數(shù)指示詞、外觀指示詞以及意見指示詞來自相關(guān)網(wǎng)站與評測語料。

(3) 定義牛奶評論本體中類的屬性。分別針對評論類、評論者類、指示詞類和評論對象類設(shè)置相關(guān)的屬性。

(4) 定義牛奶評論本體中類間關(guān)系。牛奶評論本體中類間關(guān)系包括等級關(guān)系和非等級關(guān)系,等級關(guān)系分為兩類: 種屬關(guān)系(subClassof)和整體-部分關(guān)系(partof),本文直接復(fù)用了SUMO頂層本體中的等級關(guān)系;非等級關(guān)系是指存在于由屬性連接的概念間的關(guān)系,主要包括同義關(guān)系、反義關(guān)系、因果關(guān)系、果因關(guān)系、位置關(guān)系、轉(zhuǎn)指關(guān)系等,本文采用自定義方式進(jìn)行非等級關(guān)系的定義。

最終構(gòu)建的牛奶評論本體包括類58個,數(shù)據(jù)屬性33個,對象屬性三個,等級關(guān)系兩個以及非等級關(guān)系11個。

4.3 特征選擇預(yù)實(shí)驗(yàn)

為了驗(yàn)證本文所選擇的詞、詞性、情感、本體四類特征對評價對象抽取結(jié)果的影響,本節(jié)設(shè)計了五組不同的特征組合實(shí)驗(yàn),實(shí)驗(yàn)的數(shù)據(jù)集來自于COAE2013的Task3。本節(jié)從數(shù)據(jù)集中隨機(jī)選取80篇語料作為訓(xùn)練語料,20篇語料作為測試語料進(jìn)行評價對象抽取,采用準(zhǔn)確率、召回率、F值來進(jìn)行實(shí)驗(yàn)結(jié)果評價。

(1) 特征分析

① 詞特征: 詞特征為實(shí)驗(yàn)語料經(jīng)切分后的詞匯單元本身,即將分詞后的結(jié)果作為一類特征。微博中表達(dá)的顯性評價特征通常都是單獨(dú)的詞匯單元或是多個詞匯單元組成的短語,直接反映了評價對象的構(gòu)成規(guī)則。

② 詞性特征: 詞性特征是將微博語料切分詞后,每個詞匯單元的詞性結(jié)果。微博中評價對象在表述過程中都表現(xiàn)出一些語法規(guī)則,很大一部分評價對象都通過名詞來表達(dá),某些還可能通過動名詞,形容詞+名詞,量詞+名詞(如部+電視劇)來表達(dá)。

③ 情感特征: 情感特征表示的是詞匯單元所具有的情感傾向特征。情感詞不僅表達(dá)了評價者對

評價對象的態(tài)度或是使用心得等評價信息,也在一定程度上反映了評價對象在整條微博中的位置信息。情感詞匯通常作為修飾的成分出現(xiàn)在評價語句中,可放在評價對象前或后,因此該特性能夠反映評價對象的位置信息。本文以HowNet中文情感詞表中的四個詞表集: 正面/負(fù)面情感詞語、正面/負(fù)面評價詞語為情感詞典構(gòu)建基礎(chǔ),并作為情感判斷依據(jù)。

④ 本體特征: 本體特征表示的是詞匯單元所具有的領(lǐng)域及其語義特性,反映了評價對象的領(lǐng)域共識。本文依據(jù)建立的領(lǐng)域本體,判斷當(dāng)前觀察單元在該本體中的概念類別: 類、屬性或是實(shí)例,以輔助評價對象的抽取研究。

每個特征的具體標(biāo)識如表1所示。

表1 四類評價對象抽取特征

(2) 預(yù)實(shí)驗(yàn)及結(jié)果分析

本節(jié)首先將實(shí)驗(yàn)分為五組,并由1至5編號。表2分別說明了五組實(shí)驗(yàn)中選取的具體特征以及特征模板。實(shí)驗(yàn)1到實(shí)驗(yàn)4用來分析詞性特征、 情感特征、本體特征對評價對象抽取的影響,在前四個實(shí)驗(yàn)中除了原子特征模板,還考慮了位置組合復(fù)合特征模板,但沒有設(shè)置屬性組合特征模板。實(shí)驗(yàn)5用來考察組合特征對評價對象抽取的影響,該實(shí)驗(yàn)不僅考慮了位置復(fù)合和屬性復(fù)合兩類復(fù)合特征模板,而且由于情感特征是對商品評論中評價對象的評價,通常作為修飾的成分出現(xiàn)在評論語句中的評價對象前或后,所以在實(shí)驗(yàn)5的模型計算特征函數(shù)時,可以根據(jù)此語義特性設(shè)置如實(shí)驗(yàn)5所示的復(fù)合特征模板,以觀察該復(fù)合特征模板的增加是否會有助于識別評價對象。

表2 評價對象抽取實(shí)驗(yàn)1—實(shí)驗(yàn)5所選特征及特征模板

依據(jù)五組實(shí)驗(yàn)的特征組合,采用CRF++-0.53外部開發(fā)包進(jìn)行模型的訓(xùn)練與測試,得到最終實(shí)驗(yàn)結(jié)果如表3所示。

表3 評價對象抽取實(shí)驗(yàn)結(jié)果

由表3中可以看出,實(shí)驗(yàn)1中考慮詞、詞性、情感特征三個方面,評價對象抽取的準(zhǔn)確率達(dá)到了96.41%,說明情感特征的有效性;在實(shí)驗(yàn)2中加入本體特征后,實(shí)驗(yàn)的準(zhǔn)確率提升到98.66%,說明本體特征的有效性;與實(shí)驗(yàn)3對比,實(shí)驗(yàn)4加入了詞性后的召回率大大提升,因此詞性對于評價對象抽取有很大的影響;而實(shí)驗(yàn)5中增加的特征模板項(xiàng)很好地提高了模型識別的準(zhǔn)確率和召回率。實(shí)驗(yàn)1~實(shí)驗(yàn)5的結(jié)果說明了本文所選四類特征的有效性。

4.4 實(shí)驗(yàn)

COAE2014中Task5任務(wù)要求找出每個觀點(diǎn)句中觀點(diǎn)所針對的評價對象,并對所做評價的傾向性做出判斷。具體的實(shí)驗(yàn)過程如下。

(1) 通過對當(dāng)前主流分詞系統(tǒng)的試用,本實(shí)驗(yàn)采用中國科學(xué)院分詞系統(tǒng)ICTCLAS 5.0進(jìn)行語料的分詞與詞性標(biāo)注;

(2) 本文使用課題組前期的情感詞構(gòu)建研究方法——基于迭代CRFs模型的情感詞獲取[21],在HowNet情感詞的基礎(chǔ)上,對COAE2014中Task5任務(wù)的語料進(jìn)行新的情感詞獲取實(shí)驗(yàn),對于實(shí)驗(yàn)獲取的新詞,例如,“喜刷刷”、“撒花”,進(jìn)行正負(fù)面情感詞的情感傾向性的糾錯,最后得到正面詞583個,負(fù)面詞914個;

(3) 特征選擇與轉(zhuǎn)換: 實(shí)驗(yàn)中選擇詞、詞性、情感特征和本體特征作為模型的四種特征,并用不同的符號表示(具體特征描述如表3所示);在確定特征值之后,對語料進(jìn)行特征轉(zhuǎn)換;

(4) CRFs模型訓(xùn)練與測試: 本實(shí)驗(yàn)選用CRF++-0.53外部開發(fā)包來完成CRFs模型的訓(xùn)練和測試。

4.5 測評結(jié)果及分析

C0AE測評委員會采用準(zhǔn)確率、召回率和F-measure值來進(jìn)行實(shí)驗(yàn)結(jié)果的評價。評價方法有精確評價和覆蓋評價兩種,精確評價是指實(shí)驗(yàn)系統(tǒng)抽取的結(jié)果與答案完全匹配;覆蓋評價是指實(shí)驗(yàn)系統(tǒng)抽取的結(jié)果與答案有重疊就視為正確匹配。本實(shí)驗(yàn)將實(shí)驗(yàn)結(jié)果提交給COAE2014測評委員會后得到表4和表5所示的測評結(jié)果,其中“參評標(biāo)識號”列中的Njust表示本方法參與測評獲得的結(jié)果。

表4 覆蓋評價結(jié)果

注: 微平均是以整個數(shù)據(jù)集為一個評價單元,計算整體的評價指標(biāo);宏平均是以每個領(lǐng)域?yàn)橐粋€評價單元,計算參評系統(tǒng)在該領(lǐng)域中的評價指標(biāo),最后計算所有領(lǐng)域上各指標(biāo)的平均值。

從表4和表5中的數(shù)據(jù)可以看出,本實(shí)驗(yàn)的覆蓋評價結(jié)果和精確評價結(jié)果都遠(yuǎn)遠(yuǎn)高于平均結(jié)果,而且不論是覆蓋評價還是精確評價,本文的方法都取得了最好成績,驗(yàn)證了實(shí)驗(yàn)選擇的四類特征能有效地輔助CRFs模型抽取出微博語料中的評價對象。

表5 精確評價結(jié)果

實(shí)驗(yàn)之所以能取得不錯的效果,我們認(rèn)為有以下幾個方面的原因: (1)本體特征選擇有效。微博評論本體的構(gòu)建將微博中所涉及的概念、屬性及屬性之間的關(guān)系清晰地表示出來。這使微博評論信息的特征表示更加準(zhǔn)確,從而提高評價對象抽取準(zhǔn)確率。(2)情感詞典比較全面。本文借助CRFs模型來自動獲取新的情感詞,并人工對獲取的新的情感詞的情感傾向性進(jìn)行糾正,以保證情感詞典的全面性和準(zhǔn)確性。

雖然實(shí)驗(yàn)結(jié)果不錯,但是對實(shí)驗(yàn)系統(tǒng)進(jìn)行深入分析后,我們發(fā)現(xiàn)系統(tǒng)還存在一定的問題。

(1) 本體構(gòu)建不完善。在對實(shí)驗(yàn)評價對象抽取的結(jié)果與正確答案對比后,例如,“iphone5非常好!”、“5不錯!”、“愛瘋5真心不錯!”,這些句子中“iphone5”、“5”和“愛瘋5”指的是同一個產(chǎn)品,但是在進(jìn)行本體概念收集時,愛瘋并沒有作為一個同義的概念手機(jī)收集,在本體特征轉(zhuǎn)換時,“愛瘋”被忽略了,只是識別“5”作為了評價對象,這就造成了評價對象識別不完整。而一句話中如果只說了“愛瘋不錯!”,那么我們就無法識別出這個評價對象。本實(shí)驗(yàn)構(gòu)建了四個領(lǐng)域的本體,在本體構(gòu)建過程中,課題組雖然選擇了權(quán)威性的網(wǎng)站和實(shí)驗(yàn)語料作為參考,但是并沒有非常完整的收集到同義的關(guān)系,造成了評價對象抽取不完整,甚至是無法識別評價對象。

(2) 分詞不準(zhǔn)確問題。對分詞結(jié)果分析后發(fā)現(xiàn),盡管設(shè)置了不同的類別標(biāo)記來表示評價對象的位置,試圖有效地識別出評價對象,但是在特征轉(zhuǎn)換部分,分詞的錯誤造成部分情感詞的遺漏,例如,“諾基亞手機(jī)有些老土沒能創(chuàng)新,低端山寨手機(jī)在中國鄉(xiāng)村,同時出口外國去了,蘋果占據(jù)了高端市場。”分詞后的結(jié)果為“諾基亞/nz手機(jī)/n 有些/rz老/a 土/n 沒/d 能/v 創(chuàng)新/vi ,/wd低/ad 端/v 山寨/n 手機(jī)/n 在/p 中國/ns 鄉(xiāng)村/n ,/wd同時/c 出口/vn外國/n 去/vf了/y ,/wd蘋果/n 占據(jù)/v 了/ule高/a 端/v 市場/n 。/wj”,其中“低端”是一個負(fù)面情感詞,但是分詞后卻將“低端”分開,導(dǎo)致這個情感詞沒有被正確識別出來,這會影響到復(fù)合特征,影響評價對象抽取的結(jié)果。

5 結(jié)論

本文面向牛奶、手機(jī)、翡翠和保險四個領(lǐng)域,采用CRFs模型,引入了情感特征和本體特征,來提高微博評論對象的抽取效果。之后將本文的實(shí)驗(yàn)方法運(yùn)用到COAE2014評測任務(wù)5中,取得了不錯的效果。但是對實(shí)驗(yàn)結(jié)果進(jìn)行分析后,課題組也發(fā)現(xiàn)存在本體構(gòu)建不完善、分詞不準(zhǔn)確等問題,這也是今后我們努力的方向。而不同的特征對于評價對象抽取模型的影響程度不一樣,本文只考慮了每個特征對模型的影響,并未考慮到不同特征的權(quán)重,這也是我們下一步要研究的重點(diǎn)。

[1] Zhuang Li,Jing Feng,Zhu Xiaoyan. Movie review mining and summarization[C]//Proceedings of the ACM15th Conference on Information and Knowledge Management. Arlington: ACM 2006:43-50.

[2] Xu Ruifeng,Kit Chunyu. Incorporating feature-based and similarity-based opinion mining-CTL in NTCIR-8 MOAT[C]//Proceeding of NTCIR-8 Workshop Meeting. Tokyo 2010:276-281.

[3] Hu Minqing,Liu Bing. Mining opinion features in customer reviews[C]//Proceedings of Nineteenth National Conference on Artificial Intelligence (AAAI-2004). 2004: 755-760.

[4] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: 2004:168-177.

[5] 劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學(xué)報,2010,24(1) : 84-88.

[6] Lu Bin. Identifying opinion holders and targets with dependency parser in Chinese news texts[C]//Proceedings of the NAACL HLT 2010 Student Research Workshop. Los Angeles 2010:46-51.

[7] Ma Tengfei,Wan Xiaojun. Opinion target extraction in Chinese news comments[C]//Proceedings of the 23rd International Conference on Computational Linguistics. COLING. 2010:782-790.

[8] Lafferty J,McCallum A,Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th International Conference on Machine Learning (ICML 2001). 2001:282-289.

[9] 郭劍毅,薛征山,余正濤,等. 基于層疊條件隨機(jī)場的旅游領(lǐng)域命名實(shí)體識別[J].中文信息學(xué)報,2009,23(5):47-52.

[10] Niklas Jakob,Iryna Gurevych. Extracting opinion targets in a single-and cross-domain setting with conditional random fields[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.Massachusetts EMNLP. 2010: 1035-1045.

[11] 徐冰,王山雨.句子級文本傾向性分析評測報告[C].第二屆中文傾向性分析評測會議(COAE2009) 論文集. 2009: 69-73.

[12] 徐冰,趙鐵軍,王山雨,等.基于淺層句法特征的評價對象抽取研究[J].自動化學(xué)報,2011,37(10):1241-1247.

[13] 王中卿,王榮洋,龐磊,等. Suda_SAM_OMS情感傾向性分析技術(shù)報告[C].第三屆中文傾向性分析評測會議(COAE2011) 論文集. 2011: 25-32.

[14] 張莉,錢玲飛,許鑫.基于核心句及句法關(guān)系的評價對象抽取[J].中文信息學(xué)報,2011,25(3): 23-29.

[15] 王榮洋,鞠久朋,李壽山,等. 基于CRFs的評價對象抽取特征研究 [J]. 中文信息學(xué)報,2011,26(2): 56-61.

[16] 鄭敏潔,雷志城,廖祥文,等.中文句子評價對象抽取的特征分析研究[J]. 福州大學(xué)學(xué)報(自然科學(xué)版),2012,40(5): 584-590.

[17] 鄭敏潔,雷志城,廖祥文,等. 基于層疊CRFs的中文句子評價對象抽取[J]. 中文信息學(xué)報,2013,27(3): 69-76.

[18] Gruber T R, Toward Principle for the Design of Ontologies Used for Knowledge Sharing [J]. International Journal of Human-Computer Studies. New York, 1955,43(5-6):907-928.

[19] 丁晟春,李岳盟,甘利人.基于頂層本體的領(lǐng)域本體綜合構(gòu)建方法研究[J]. 情報理論與實(shí)踐,2007(2):236-240.

[20] Neng Wen,Shengchun Ding,Ting Jiang. Research on Ontology Building of Product Reviews in Chinese[C]. International Conference on Machine Learning and Cyberneticsv (ICMLC) 2011, ICMLC,2011:1943,1948, 2011.

[21] 丁晟春,文能,蔣婷,等.基于CRF模型的半監(jiān)督學(xué)習(xí)迭代觀點(diǎn)句識別研究[J]. 情報學(xué)報,2012(10):1071-1076.

Opinion Targets Extraction from Chinese Microblogs Based on Conditional Random Fields and Domain Ontology

DING Shengchun1,2, WU Jingchanyuan1, LI Xiao1

(1. Department of Information and Management of Nanjing University of Science & Technology,Nanjing, Jiangsu 210094, China;2. Jiangsu Collaborative Lnnovation Center of Social Safety Science and Technology, Nanjing Jiangsu 210094, China)

Fine-grained sentiment analysis of Microblogs is very important. The extraction of opinion targets from opinion sentence is the key issue to sentiment analysis of Microblogs. To improve the performance of opinion targets extraction, this paper proposes to select features from words, parts of speech, emotional words and ontology, based on the characteristics of Chinese microblog and the construction of microblogging comment ontology, and then uses CRFs model to evaluate object extraction. At last, we apply the proposed method to Task5 of COAE2014. The accuracy of the evaluation object extraction is 61.20 percent, ranking first in all the evaluation team. The experiment results show that it is possible to effectively improve the accuracy of the evaluation opinion targets extraction to introduce the ontology into CRFs Model.

CRFs model; ontology; feature selection; opinion targets extraction; information extraction

丁晟春(1971-),碩士,副教授,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息挖掘、知識工程。E-mail:todingding@163.com吳婧嬋媛(1992-),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿∨c文本挖掘。E-mail:617334556@qq.com李霄(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿∨c文本挖掘。E-mail:start-wind@163.com

1003-0077(2016)04-0159-08

2014-09-25 定稿日期: 2015-05-12

國家自然科學(xué)基金(71303111,71103085,71403121);國家社會科學(xué)基金(15BTQ063,14AZD084);中央高校基本科研業(yè)計劃(30916011330)

TP391

A

猜你喜歡
特征情感實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
做個怪怪長實(shí)驗(yàn)
不忠誠的四個特征
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 伦伦影院精品一区| 狼友av永久网站免费观看| 欧洲精品视频在线观看| 国产裸舞福利在线视频合集| 色婷婷狠狠干| 天天摸夜夜操| 成人午夜免费观看| 538精品在线观看| 亚洲激情99| 欧美亚洲国产一区| 免费观看三级毛片| 777国产精品永久免费观看| 久久黄色免费电影| аⅴ资源中文在线天堂| 亚洲毛片网站| 精品国产女同疯狂摩擦2| 久久婷婷六月| 国产精品成人第一区| 亚洲日本精品一区二区| 天堂成人av| 欧美成一级| 尤物精品视频一区二区三区| 91成人在线观看| 极品私人尤物在线精品首页 | 亚洲午夜天堂| 亚洲视频免| 中文字幕无码中文字幕有码在线 | 一本大道无码日韩精品影视| 狠狠做深爱婷婷久久一区| 欧美日韩专区| 黄色成年视频| 国产精品自在线拍国产电影| 国产精品久久久久久搜索| 四虎精品国产永久在线观看| 国产色图在线观看| 免费人成网站在线观看欧美| av无码一区二区三区在线| 97se亚洲综合不卡| 在线毛片网站| 2020极品精品国产| 久久香蕉国产线看精品| 亚洲AV一二三区无码AV蜜桃| 欧美特黄一级大黄录像| 大香网伊人久久综合网2020| 91视频青青草| 久久午夜夜伦鲁鲁片不卡| 欧美黄网在线| 亚洲综合婷婷激情| 国产无码精品在线播放| 日本午夜网站| 亚洲欧洲日产无码AV| 日本不卡在线播放| 亚洲日本中文综合在线| 伊人AV天堂| 精品国产自| AV在线麻免费观看网站| 亚洲欧美在线综合一区二区三区| 91精品国产91久久久久久三级| 亚洲男人的天堂在线观看| 高h视频在线| 欧美 亚洲 日韩 国产| 欧美成人一级| 91成人免费观看| 91精品小视频| 国产自在线播放| 国产夜色视频| 99精品欧美一区| 日本爱爱精品一区二区| 一区二区午夜| 综合网天天| 热久久综合这里只有精品电影| 精品国产91爱| 在线观看免费国产| 色婷婷综合在线| 尤物成AV人片在线观看| 国产三级视频网站| 久久 午夜福利 张柏芝| 久草青青在线视频| 亚洲专区一区二区在线观看| 中文字幕中文字字幕码一二区| 日本不卡在线播放| 一区二区三区国产精品视频|