張志遠(yuǎn),趙 越
(中國(guó)民航大學(xué) 計(jì)算機(jī)學(xué)院,天津 300300)
隨著移動(dòng)互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,網(wǎng)絡(luò)購(gòu)物在人們的生活中越來(lái)越普遍。在購(gòu)買(mǎi)商品之前,人們通常會(huì)瀏覽以前用戶(hù)發(fā)表的評(píng)論,了解其優(yōu)劣后再做決定。分析這些評(píng)論數(shù)據(jù)并了解其中的褒貶態(tài)度可為商品購(gòu)買(mǎi)者提供參考依據(jù),同時(shí)對(duì)于商家了解自身所售商品情況、提高商品質(zhì)量、提升服務(wù)水平也具有非常重要的意義。評(píng)論數(shù)據(jù)大多為文本形式,由于文本評(píng)論的數(shù)據(jù)量巨大,信息的實(shí)時(shí)性、不規(guī)范性強(qiáng),僅靠人工方法很難快速地抽取用戶(hù)的觀點(diǎn)信息。因此涉及信息檢索、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)的情感分析應(yīng)運(yùn)而生[1]。本文主要研究情感分析中的評(píng)論對(duì)象抽取問(wèn)題。評(píng)論對(duì)象是指評(píng)價(jià)詞所修飾的實(shí)體本身或者實(shí)體屬性[2],抽取評(píng)論對(duì)象是挖掘數(shù)據(jù)深層價(jià)值的基礎(chǔ),因?yàn)閱螚l評(píng)論中可能涉及褒貶不一的多個(gè)評(píng)論對(duì)象,只有確定了評(píng)論對(duì)象后才能進(jìn)行更準(zhǔn)確的情感分析。例如,句子“The food of this restaurant is good,but not the service.”中對(duì)餐廳食物的評(píng)價(jià)是正面的,而對(duì)其服務(wù)的評(píng)價(jià)則是負(fù)面的,不能簡(jiǎn)單地對(duì)整句話進(jìn)行情感判定。
本文使用條件隨機(jī)場(chǎng)模型,通過(guò)引入語(yǔ)義和句法依存關(guān)系特征抽取評(píng)論對(duì)象,在SEMEVAL競(jìng)賽的評(píng)測(cè)數(shù)據(jù)中取得了不錯(cuò)的效果。盡管涉及某一領(lǐng)域的評(píng)論對(duì)象非常多,但其一般都可歸納為幾個(gè)少量的類(lèi)別,例如,對(duì)于餐廳而言,不管評(píng)論對(duì)象是pizza還是chicken,都屬于food的范疇,兩者在語(yǔ)義上都和food相近,因此如果pizza是評(píng)論對(duì)象的話,則chicken很可能也是。本文設(shè)計(jì)了七種語(yǔ)義相似性特征用于抽取評(píng)論對(duì)象。另外,由于評(píng)價(jià)詞一般都帶有豐富的情感色彩,同時(shí)評(píng)論對(duì)象和評(píng)價(jià)詞之間通常存在某種句法依存關(guān)系,如“The food of this restaurant is good.”中評(píng)論對(duì)象“food”和評(píng)價(jià)詞“good”之間是主謂關(guān)系,“Very nice hotel for business travelers.”中評(píng)論對(duì)象“hotel”和評(píng)價(jià)詞“very nice”之間是形容詞修飾關(guān)系等,因此根據(jù)評(píng)價(jià)詞和句法依存關(guān)系就很可能找到評(píng)論對(duì)象。
本文研究點(diǎn)來(lái)自于SEMEVAL競(jìng)賽*http://alt.qcri.org/semeval2016/,SEMEVAL競(jìng)賽主要關(guān)注不同的文本分析任務(wù),例如,情感分析、語(yǔ)義消歧、關(guān)鍵詞抽取等。其中“Task 12: Aspect Based Sentiment Analysis”提供了評(píng)論對(duì)象抽取研究所需的數(shù)據(jù)和參賽者的研究成果。本文主要研究從評(píng)論文本中獲取用戶(hù)的評(píng)論對(duì)象,屬于情感分析中的觀點(diǎn)挖掘部分[3]。評(píng)論對(duì)象抽取一般采用有監(jiān)督的方法,目前應(yīng)用較多的是基于條件隨機(jī)場(chǎng)的序列標(biāo)注方法,不同之處僅在于文本特征的選擇。Jakob和Gurevyc[4]首次將評(píng)論對(duì)象抽取問(wèn)題建模成序列標(biāo)注問(wèn)題,采用條件隨機(jī)場(chǎng)模型,選取基本的詞形、詞性等作為文本特征,在電影評(píng)論中獲得了較好的抽取效果。Toh和Wang[5]通過(guò)句法依存分析,總結(jié)出評(píng)論對(duì)象與評(píng)價(jià)詞之間常見(jiàn)的依存關(guān)系,如主謂關(guān)系,雖然獲得了不錯(cuò)的效果,但這些依存關(guān)系連接的雙方并不一定是評(píng)論對(duì)象和評(píng)價(jià)詞,也可能是陳述事實(shí),并沒(méi)有評(píng)價(jià)色彩。Hamdan[6]等人在詞形、詞性基礎(chǔ)上,加入了形態(tài)特征(如單詞的前后綴、大小寫(xiě)、是否包含符號(hào)數(shù)字等)、詞根以及情感分?jǐn)?shù),但單個(gè)特征的抽取效果并不顯著,且特征數(shù)量偏多。徐冰、趙鐵軍等[7]通過(guò)對(duì)評(píng)論文本進(jìn)行淺層句法分析,標(biāo)注出句子中每個(gè)詞對(duì)應(yīng)的語(yǔ)塊,即名詞短語(yǔ)、動(dòng)詞短語(yǔ)等,由于語(yǔ)塊邊界偏大,導(dǎo)致一定程度上影響了系統(tǒng)的性能。Toh和Wang[5]則引入了“Head Word”概念,在語(yǔ)言學(xué)中短語(yǔ)的“Head Word”決定短語(yǔ)的句法范疇,如決定“a good place”為名詞短語(yǔ)的“place”就是“Head Word”,但只適用于抽取單詞級(jí)別的評(píng)論對(duì)象。杜麗萍、李曉戈[8]利用基于詞語(yǔ)共現(xiàn)的互信息(PMI)來(lái)識(shí)別評(píng)論對(duì)象,優(yōu)點(diǎn)是沒(méi)有限制評(píng)論對(duì)象的邊界,克服了淺層句法分析和“Head Word”的缺點(diǎn),但PMI需依賴(lài)較大規(guī)模數(shù)據(jù)集,在小規(guī)模數(shù)據(jù)集上的泛化性能較差。Vicente和Saralegi[9]等人則在詞形、詞性的基礎(chǔ)上加入了聚類(lèi)特征,效果提升明顯,但聚類(lèi)特征必須依賴(lài)大量的同領(lǐng)域外部數(shù)據(jù)集才能得到比較好的效果,且聚類(lèi)特征的獲取時(shí)間會(huì)因聚類(lèi)算法的復(fù)雜度和數(shù)據(jù)量的增大而耗時(shí)嚴(yán)重。在2016年的SEMEVAL比賽中,Toh和Su[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),將評(píng)論文本的詞向量作為RNN的輸入,將RNN的隱藏層值與聚類(lèi)特征結(jié)合,但其最終效果與傳統(tǒng)序列標(biāo)注模型相比仍存在差距。本文使用傳統(tǒng)的序列標(biāo)注模型,結(jié)合“評(píng)論對(duì)象與評(píng)價(jià)詞之間的依存關(guān)系”和“情感分?jǐn)?shù)”,提出一種新的“句法情感依存特征”抽取方法,使得提取到的依存關(guān)系更加精確;并首次從語(yǔ)義角度出發(fā),提出六種新的評(píng)論對(duì)象語(yǔ)義特征。兩種新特征在不同領(lǐng)域數(shù)據(jù)上的準(zhǔn)確率、召回率及F1分?jǐn)?shù)均高于SEMEVAL比賽最好的成績(jī)。
充分理解評(píng)論對(duì)象的語(yǔ)義是準(zhǔn)確抽取評(píng)論對(duì)象的關(guān)鍵。以英文語(yǔ)義詞典WordNet為基礎(chǔ),借助詞網(wǎng)中的上下位和同義關(guān)系,提取評(píng)論對(duì)象的語(yǔ)義特征。與以往研究[11]中的語(yǔ)義特征不同的是,本文更注重研究與評(píng)價(jià)對(duì)象相關(guān)的語(yǔ)義特征,即考慮到評(píng)論對(duì)象與其領(lǐng)域信息的密切聯(lián)系,充分利用每種領(lǐng)域數(shù)據(jù)獨(dú)有的視角,同時(shí)考慮到上下文的語(yǔ)義環(huán)境,更有效地提取短語(yǔ)級(jí)別的評(píng)論對(duì)象。圖1展示了單詞“risotto”“pizzza”“battery”“screen”“drive”作為名詞時(shí),在WordNet中的上下位信息及同義信息。我們認(rèn)為詞語(yǔ)的上位詞中隱含著一定的視角信息,如“food”是餐廳評(píng)論中的主要視角,而“risotto”和“pizza”的上位詞中就存在“food”,因此它們很可能是評(píng)論對(duì)象。另外,同義詞意味著同類(lèi)事物,如果“hard drive”是評(píng)論對(duì)象,則與其同義的“RAM disk”很可能也是評(píng)論對(duì)象。

圖1 部分單詞在WordNet中的連接關(guān)系
基于上位詞及同義關(guān)系提出兩個(gè)語(yǔ)義特征S1和S2,如表1所示。
可以看出,單詞的上位詞和同義詞并不唯一,例如,對(duì)于“pizza”的三個(gè)上位詞“dish”“nutriment”和“food”來(lái)說(shuō),我們更關(guān)心第三個(gè)上位詞“food”,因?yàn)樗攀遣蛷d評(píng)論數(shù)據(jù)中的重要視角之一。本文對(duì)訓(xùn)練集中的所有標(biāo)簽進(jìn)行提取,將所有評(píng)論對(duì)象單詞化,去除停用詞,即構(gòu)造一個(gè)評(píng)論對(duì)象詞典。運(yùn)用WordNet找到所有評(píng)論對(duì)象單詞的父節(jié)點(diǎn)和兄弟節(jié)點(diǎn),并統(tǒng)計(jì)其頻率,策略是選擇高頻率父節(jié)點(diǎn)和兄弟節(jié)點(diǎn)。
對(duì)于高頻率父節(jié)點(diǎn)出現(xiàn)在同一路徑上的情況,例如,“dish”“food”“nutriment”,優(yōu)先取頻率最高的父節(jié)點(diǎn)作為視角詞,其余則不列入視角詞集。若頻率相同,則取其中最靠近詞網(wǎng)邊緣的父節(jié)點(diǎn),使父節(jié)
點(diǎn)涵蓋的語(yǔ)義范圍更精確。最終取出頻率最高的七個(gè)上位詞列入語(yǔ)義相關(guān)視角詞集。取兄弟節(jié)點(diǎn)頻率最大的前七個(gè)單詞作為語(yǔ)義相似性視角信息,頻率較高的兄弟節(jié)點(diǎn)代表最常出現(xiàn)的評(píng)論對(duì)象。
其中餐廳的語(yǔ)義相關(guān)性視角為“restaurant”“food” “cut”“plant”“pasta”“condition” “attendant”,語(yǔ)義相似性視角為“pizza” “potato” “place”“atmosphere”“cake”“carte” “salad”;電子產(chǎn)品領(lǐng)域語(yǔ)義相關(guān)性視角為“process” “system” “quantity”“move”“device”“property” “business”,語(yǔ)義相似性視角為“business” “function” “software”“picture”“memory”“screen” “computer”;旅館領(lǐng)域語(yǔ)義相關(guān)性視角為“furniture” “attendant” “region”“meal”“room”“building” “condition”,語(yǔ)義相似性視角為“place” “check”“business”“bed”“breakfast”“room” “bath”。
基于此,提出兩個(gè)視角語(yǔ)義特征S3和S4,如表1所示。其中語(yǔ)義相關(guān)度S3的計(jì)算采用Michael E.Lesk[12]提出的lesk算法,即兩個(gè)單詞在WordNet中詞義解釋的重復(fù)程度,例如,“pizza”和“food”的重復(fù)數(shù)為31。語(yǔ)義相似度S4的計(jì)算采用Leacock和Chodorow[13]提出的lch算法,如式(1)所示。
(1)
其中,Dist(wi,wj)代表兩個(gè)單詞在WordNet中的最短路徑上節(jié)點(diǎn)的個(gè)數(shù),D為常量16,即WordNet中名詞的最深層次。算法規(guī)定,屬于同一個(gè)同義詞集的兩個(gè)詞Dist(wi,wj)為1。
除單詞級(jí)評(píng)論對(duì)象的語(yǔ)義信息外,還需考慮單詞與上下文的語(yǔ)義關(guān)系,用于抽取短語(yǔ)級(jí)別的評(píng)論對(duì)象。不同于基于句法的淺層句法分析[7]和基于詞語(yǔ)共現(xiàn)的PMI[8]方法,本文從語(yǔ)義出發(fā),研究上下文環(huán)境中語(yǔ)義特征在評(píng)論對(duì)象抽取任務(wù)中的影響和效果,提出基于語(yǔ)義相關(guān)/相似度的上下文特征S5和S6,如表1所示。

表1 評(píng)論對(duì)象的語(yǔ)義特征
句法分析揭示語(yǔ)言的內(nèi)部結(jié)構(gòu),它顯示句子中可能存在的各種謂語(yǔ)論元的依存關(guān)系[14]。由于使用機(jī)器學(xué)習(xí)方法對(duì)領(lǐng)域數(shù)據(jù)進(jìn)行建模,單純考慮語(yǔ)義特征很可能導(dǎo)致模型與領(lǐng)域數(shù)據(jù)的過(guò)擬合,而忽略評(píng)論文本特有的句法結(jié)構(gòu),例如評(píng)論文本表述簡(jiǎn)短或句法不規(guī)范的情況。因此,對(duì)文本進(jìn)行句法依存特征提取,可有效解決模型與領(lǐng)域數(shù)據(jù)過(guò)擬合問(wèn)題,增強(qiáng)模型的泛化能力。
以往研究中的句法依存特征提取存在以下問(wèn)題: 第一,默認(rèn)評(píng)價(jià)詞是形容詞,只考慮名詞與形容詞之間的句法依存關(guān)系,忽略了其他詞性作為評(píng)價(jià)詞的可能[15];第二,使用常見(jiàn)的依存關(guān)系分析所有的評(píng)論文本,導(dǎo)致不含任何情感的陳述性語(yǔ)句也被考慮在內(nèi)[5];第三,借助只標(biāo)識(shí)正或負(fù)的情感詞典找到評(píng)價(jià)詞,但并沒(méi)有為不同情感程度的評(píng)價(jià)詞賦予不同權(quán)重,導(dǎo)致微情感詞干擾最終的評(píng)論對(duì)象抽取效果[16]。針對(duì)以上問(wèn)題,本文提出了句法情感依存特征,首次將句法依存分析和評(píng)價(jià)詞識(shí)別結(jié)合,提取評(píng)價(jià)詞與評(píng)價(jià)對(duì)象之間句法依存關(guān)系,從而更精確地找到評(píng)價(jià)對(duì)象。
例句“I like the samosas.”的整體句法依存關(guān)系如圖2所示,其中“dobj”代表“直接賓語(yǔ)”。

圖2 句法依存關(guān)系示例
可以看出,“dobj”所連接的“l(fā)ike”和“somosas”正是評(píng)價(jià)詞和評(píng)論對(duì)象。基于對(duì)自然語(yǔ)言的理解,評(píng)價(jià)詞與評(píng)論對(duì)象的關(guān)系還有可能是D={“iobj”,“nsubj”,“nmod”,“amod”,“comp”,“compound”},分別代表“間接賓語(yǔ)”“名詞性主語(yǔ)”“名詞修飾”“形容詞修飾”“補(bǔ)足語(yǔ)”以及“名詞復(fù)合語(yǔ)”。
僅考慮以上依存關(guān)系并不能精準(zhǔn)地提取評(píng)價(jià)詞與評(píng)論對(duì)象之間的依存關(guān)系,如“The restaurant has pizza.”并沒(méi)有評(píng)論任何事物,只是陳述事實(shí),但卻有“dobj(has,pizza)”。為避免這種情況,在上述可能的依存關(guān)系基礎(chǔ)上,需找到包含評(píng)價(jià)詞的依存關(guān)系。
由于評(píng)價(jià)詞在某種程度上蘊(yùn)含著評(píng)價(jià)者的情感,所以本文借助情感詞典進(jìn)行評(píng)價(jià)詞的判定。SentiWordNet[17]是一個(gè)用于觀點(diǎn)挖掘的情感詞典,它為每一個(gè)同義詞集分配三個(gè)情感分?jǐn)?shù): 正向分?jǐn)?shù),負(fù)向分?jǐn)?shù)和客觀分?jǐn)?shù),三者之和為1。SentiWordNet按詞性不同分配了不同的分?jǐn)?shù),并對(duì)同一意義下的不同單詞進(jìn)行排名。表2為單詞“great”在SentiWordNet中的分布情況。例如,第1行代表great作為形容詞時(shí)的第四種解釋是“非常好”(great#4 very good),該義項(xiàng)下還有not_bad,nifty等單詞。
本文根據(jù)SentiWordNet中單詞的義項(xiàng)分布,使用基于權(quán)重的單詞情感分?jǐn)?shù)計(jì)算方法,如式(2)所示。
(2)
其中,score(wip)表示當(dāng)單詞wi在句中詞性為p時(shí)的情感分?jǐn)?shù),本文只考慮形容詞(a)、名詞(n)和動(dòng)詞(v);nwip表示單詞wi詞性為p時(shí)的義項(xiàng)個(gè)數(shù);Pr和Nr分別表示當(dāng)單詞wi詞性為p且排名為r時(shí)的正向情感分?jǐn)?shù)和負(fù)向情感分?jǐn)?shù),例如“great”的詞性為“a”,并且排名為3(“great#3”)時(shí),Pr和Nr都等于0.25;r代表排名,1/r代表權(quán)重。該文比較了基于權(quán)重的單詞情感分?jǐn)?shù)計(jì)算方法與傳統(tǒng)情感分?jǐn)?shù)計(jì)算方法[18],實(shí)驗(yàn)結(jié)果表明基于權(quán)重計(jì)算規(guī)則的評(píng)論對(duì)象抽取效果更好。

表2 單詞“great”在 SentiWordNet中的義項(xiàng)分布

圖3 句法依存特征的抽取過(guò)程
由于這種計(jì)算方法并不依賴(lài)上下文,若詞語(yǔ)本身是正向詞,但前面有否定詞修飾的話,則計(jì)算的情感分?jǐn)?shù)會(huì)產(chǎn)生較大偏差。為此采用Christopher Potts的否定區(qū)域標(biāo)注算法[19]對(duì)否定詞之后,標(biāo)點(diǎn)符號(hào)(; ,. ! -)之前的詞語(yǔ)情感進(jìn)行取反,即“not great”中“great”的分?jǐn)?shù)為-0.26,不再是0.26。句法依存特征的抽取過(guò)程如圖3所示,其中Dn={“nmod”,“ncomp”,“compound”},分別表示名詞修飾、名詞補(bǔ)語(yǔ)和多個(gè)名詞組成的復(fù)合短語(yǔ),由于其一般不存在評(píng)價(jià)詞修飾(如下句中的“wine list”),所以不需要計(jì)算情感分?jǐn)?shù)。針對(duì)當(dāng)前詞每個(gè)可能的依存關(guān)系,為避免微程度情感詞的干擾,只考慮對(duì)應(yīng)詞情感分?jǐn)?shù)大于0.2或小于-0.2的依存關(guān)系。例如,“The wine list is interesting and has many good values .”中的評(píng)論對(duì)象為“wine list”和“values”,評(píng)價(jià)詞為“interesting”和“good”,對(duì)比情感分?jǐn)?shù): 0.0,0.0,0.0,0.04,0.38,0.0,0.05,0.0,0.63,0.13,可以看到距離評(píng)論對(duì)象“wine list”最近的情感詞是“is”,但“interesting”才是真正的情感詞。針對(duì)上述例句,算法的提取結(jié)果為“compound(list,wine)”,“nsubj(interesting,list) ,amod(values,good)”,不僅包含了評(píng)價(jià)對(duì)象和評(píng)價(jià)詞,對(duì)應(yīng)的依存關(guān)系也可解釋?zhuān)⑶冶苊饬恕癲obj(has,values)”和“amod(values,many)”的干擾。
本文的訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)以及評(píng)價(jià)系統(tǒng)均來(lái)自SEMEVAL競(jìng)賽。由于競(jìng)賽旅館數(shù)據(jù)量較少(527條),因此在評(píng)論網(wǎng)站Yelp*https://www.yelp.com/sf上進(jìn)行旅館評(píng)論爬取,對(duì)旅館數(shù)據(jù)量進(jìn)行擴(kuò)充,并使用MMax*http://sourceforge.net/projects/mmax2/files/對(duì)評(píng)論對(duì)象進(jìn)行標(biāo)注。數(shù)據(jù)信息如表3所示。

表3 歷年SEMEVAL比賽數(shù)據(jù)
原始數(shù)據(jù)為XML格式,使用Stanford NLP Corenlp對(duì)評(píng)論文本進(jìn)行分句、分詞和句法分析。由于系統(tǒng)分詞過(guò)細(xì),可能將一些重要信息分開(kāi),例如“$30”會(huì)被分成“$”和“30”,這樣一個(gè)代表錢(qián)的單詞就被分成了單純的符號(hào)與數(shù)字,在編碼XML文件時(shí)我們將其重新組合成一個(gè)詞。其次,實(shí)驗(yàn)中未去除停用詞,因?yàn)橥S迷~本身有可能是評(píng)論對(duì)象的一部分,如“tuna of gari”中的“of”。
實(shí)驗(yàn)中將詞形、詞性、前后綴作為基礎(chǔ)特征(記為B1),并在特征模板里為詞形和詞性設(shè)置Unigram、Bigram和Trigram,其他特征設(shè)置Unigram,窗口大小為4。
本實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率、召回率和F1分?jǐn)?shù)。2014年和2015年的基線F1分?jǐn)?shù)分別為36%、48%和48%。由于SEMEVAL比賽中并沒(méi)有提供參賽者在旅館數(shù)據(jù)上的測(cè)試結(jié)果,只給出了基線分?jǐn)?shù),所以本文只與基線進(jìn)行比較。
表4顯示了在B1中分別加入單個(gè)語(yǔ)義特征(S1-S6)及句法情感依存特征(D1)后的評(píng)論對(duì)象抽取結(jié)果,以及和其他特征的對(duì)比。對(duì)比特征包括: 詞根(文獻(xiàn)[4],記作M1)、headword(文獻(xiàn)[3],記作M2)、句法依存(文獻(xiàn)[3],記作M3)、情感分?jǐn)?shù)(文獻(xiàn)[4],記作M4)、淺層句法分析(文獻(xiàn)[5],記作M5)和PMI(文獻(xiàn)[6],記作M6)。可以看出,所有特征的結(jié)果均優(yōu)于基線和基礎(chǔ)特征,且本文特征除電子產(chǎn)品數(shù)據(jù)中的準(zhǔn)確率低于M5,旅館數(shù)據(jù)中準(zhǔn)確率低于M1,其他評(píng)價(jià)標(biāo)準(zhǔn)均高于對(duì)比特征。

表4 基于基礎(chǔ)特征的單個(gè)特征測(cè)試結(jié)果
在電子產(chǎn)品數(shù)據(jù)中,本文特征準(zhǔn)確率較B1提高1%~2%,召回率較B1提高1%~4%,F(xiàn)1分?jǐn)?shù)提高1%~3%;餐廳數(shù)據(jù)中,準(zhǔn)確率較B1提高2%~5%,召回率較B1提高1%~4%,F(xiàn)1分?jǐn)?shù)提高1%~4%;旅館數(shù)據(jù)中,召回率較B1提高1%~8%,F(xiàn)1分?jǐn)?shù)提高1%~6%;從表3可以看出,電子產(chǎn)品數(shù)據(jù)量是餐廳數(shù)據(jù)的2.3倍,這說(shuō)明當(dāng)數(shù)據(jù)量明顯降低時(shí),本文特征表現(xiàn)仍良好,當(dāng)數(shù)據(jù)量增大時(shí),各項(xiàng)指標(biāo)平穩(wěn)上升。
視角語(yǔ)義相關(guān)性特征S3在電子產(chǎn)品和餐廳數(shù)據(jù)集中的F1分?jǐn)?shù)最高,在電子產(chǎn)品數(shù)據(jù)中的F1分?jǐn)?shù)較B1高3.64%,較對(duì)比特征的最優(yōu)值高2.43%;在餐廳數(shù)據(jù)集中的F1分?jǐn)?shù)較B1高4.89%,較對(duì)比特征的最優(yōu)值高2.64%。在旅館數(shù)據(jù)集中S2的F1分?jǐn)?shù)較B1高5.47%,較對(duì)比特征的最優(yōu)值高2.91%。注意到S3和S4在電子產(chǎn)品和餐廳數(shù)據(jù)中的召回率和F1分?jǐn)?shù)是所有特征中最高的,在旅館數(shù)據(jù)集中各項(xiàng)指標(biāo)僅次于S2。這是由于利用語(yǔ)義網(wǎng)自動(dòng)選取的視角詞覆蓋了大部分評(píng)論對(duì)象的范疇,因此基于視角的語(yǔ)義特征能提高召回率,與預(yù)期結(jié)果一致。
從抽取評(píng)論對(duì)象是單詞還是短語(yǔ)的角度來(lái)看,M1、M2主要用于抽取單詞級(jí)別的評(píng)論對(duì)象,但其F1分?jǐn)?shù)比S1、S2低2%~3%。這也在情理之中,因?yàn)榛谏衔辉~和同義詞的S1和S2比基于詞根的M1包含了更多的語(yǔ)義信息。M5、M6、S5和S6主要用于抽取短語(yǔ)級(jí)別的評(píng)論對(duì)象,其中S5的F1分?jǐn)?shù)略高于M5和M6,S6的F1分?jǐn)?shù)高于M6但低于M5。M5基于淺層句法分析特別是組塊分析,用于發(fā)現(xiàn)短語(yǔ)級(jí)別的評(píng)價(jià)對(duì)象,而M6基于PMI,在小規(guī)模數(shù)據(jù)集上表現(xiàn)欠佳。
將所有的特征進(jìn)行組合測(cè)試,結(jié)果如表5~表7所示。在電子產(chǎn)品數(shù)據(jù)中,語(yǔ)義和句法情感依存特征組合使B1準(zhǔn)確率上升3.91%,召回率提高7.22%,F(xiàn)1分?jǐn)?shù)提高6.49%,說(shuō)明預(yù)測(cè)數(shù)量和預(yù)測(cè)正確的數(shù)量都大幅增加。在餐廳數(shù)據(jù)中,語(yǔ)義和句法情感依存特征組合使B1準(zhǔn)確率上升6.44%,召回率提高6.1%,F(xiàn)1分?jǐn)?shù)提高6.38%。在語(yǔ)義特征的基礎(chǔ)上,加入句法情感依存特征可進(jìn)一步提高系統(tǒng)性能。在旅館數(shù)據(jù)中,語(yǔ)義和句法情感依存特征組合使B1召回率提高9.35%,F(xiàn)1分?jǐn)?shù)提高7.38%。雖然SEMEVAL比賽中并沒(méi)有提供旅館數(shù)據(jù)的測(cè)試結(jié)果,但不難發(fā)現(xiàn),本文特征組合的F1分?jǐn)?shù)較之基線分?jǐn)?shù)高出18%,且在三個(gè)領(lǐng)域數(shù)據(jù)中F1分?jǐn)?shù)表現(xiàn)平穩(wěn)。

表5 2014年電子產(chǎn)品數(shù)據(jù)特征組合及結(jié)果

表6 2015年餐廳數(shù)據(jù)特征組合及結(jié)果

表7 2015年旅館數(shù)據(jù)特征組合及結(jié)果
條件隨機(jī)場(chǎng)模型的實(shí)現(xiàn)采用CRF++0.53,基于最終特征組合進(jìn)行參數(shù)調(diào)優(yōu),效果詳見(jiàn)表8。其中參數(shù)a代表訓(xùn)練算法選擇,默認(rèn)是CRF。參數(shù)c設(shè)置CRF的hyper-parameter。c的數(shù)值越大,CRF擬合訓(xùn)練數(shù)據(jù)的程度越高。參數(shù)f設(shè)置特征的cut-off threshold。訓(xùn)練數(shù)據(jù)中至少出現(xiàn)f次的特征,默認(rèn)值為1。參數(shù)m設(shè)置CRF中LBFGS算法的迭代次數(shù),默認(rèn)為10K。參數(shù)H設(shè)置迭代變量達(dá)到最優(yōu)前的收縮值,默認(rèn)為20。
需要說(shuō)明的是,SEMEVAL競(jìng)賽中有兩種評(píng)價(jià)對(duì)象系統(tǒng)設(shè)計(jì),一種是非限制性系統(tǒng),即所選特征可以依賴(lài)大量外部領(lǐng)域數(shù)據(jù)或語(yǔ)料,如聚類(lèi)、詞向量等,反之則是限制性系統(tǒng)。如表9所示,電子產(chǎn)品數(shù)據(jù)中,本文最終參數(shù)調(diào)優(yōu)特征組合結(jié)果的F1分?jǐn)?shù)分別高出SEMEVAL競(jìng)賽限制性系統(tǒng)最好成績(jī)4.34%。餐廳數(shù)據(jù)中,組合結(jié)果的F1分?jǐn)?shù)分別高出SEMEVAL競(jìng)賽限制性系統(tǒng)最好成績(jī)3.23%。

表8 特征組合參數(shù)調(diào)優(yōu)結(jié)果
為證明本文特征的穩(wěn)定性和優(yōu)勢(shì),表10顯示了加入聚類(lèi)特征(Brown聚類(lèi)和K-Means聚類(lèi)),即變?yōu)榉窍拗菩韵到y(tǒng)后的評(píng)論對(duì)象抽取結(jié)果。與SEMEVAL競(jìng)賽非限制性系統(tǒng)最高分相比,電子數(shù)據(jù)高出1.8%,餐廳數(shù)據(jù)高出2.57%。并且數(shù)據(jù)分別屬于三個(gè)領(lǐng)域,所以視角語(yǔ)義特征可靈活應(yīng)用于不同領(lǐng)域數(shù)據(jù)上進(jìn)行評(píng)價(jià)對(duì)象抽取。

表9 2014—2015年限制性系統(tǒng)與該文結(jié)果比較

表10 2014—2015年非限制性系統(tǒng)與本文結(jié)果比較
本文重點(diǎn)提出了兩種新的評(píng)論對(duì)象抽取特征: 評(píng)論對(duì)象語(yǔ)義特征和句法情感依存特征。在基于條件隨機(jī)場(chǎng)的多評(píng)論對(duì)象抽取過(guò)程中,兩種特征對(duì)抽取結(jié)果均有不同程度的提高,其中基于視角的語(yǔ)義特征表現(xiàn)最為突出。針對(duì)SEMEVAL競(jìng)賽中電子產(chǎn)品、餐廳和旅館評(píng)論數(shù)據(jù),兩種特征的組合均取得了較好的結(jié)果,無(wú)論是限制性系統(tǒng)還是非限制性系統(tǒng),均優(yōu)于競(jìng)賽最高成績(jī),說(shuō)明正確理解單詞含義在評(píng)論對(duì)象抽取過(guò)程中的作用明顯。