廖祥文 陳興俊 魏晶晶 陳國龍 程學旗
基于多層關系圖模型的中文評價對象與評價詞抽取方法
廖祥文1,3陳興俊1,3魏晶晶2,3陳國龍1,3程學旗4
中文評價對象與評價詞抽取是文本傾向性分析的重要問題.如何利用評價對象與評價詞之間的語法、共現等關系設計模型是提高抽取精度的關鍵.本文提出了一種基于多層關系圖模型的中文評價對象與評價詞抽取方法.該方法首先利用詞對齊模型抽取評價對象與評價詞搭配;然后,考慮評價對象與評價詞的依存句法關系、評價對象內部的共現關系和評價詞內部的共現關系,建立多層情感關系圖,接著利用隨機游走方法計算候選評價對象與評價詞的置信度;最后,選取置信度高的候選評價對象與評價詞作為輸出.實驗結果表明,與現有的方法相比,本文所提出的方法不僅對評價對象和評價詞的抽取精度均有顯著提升,而且具有良好的魯棒性.
傾向性分析,觀點挖掘,依存句法分析,隨機游走
隨著互聯網 Web 2.0和社交媒介的快速發展,用戶更加便捷地在諸如微博、微信等新興媒介上發表自己對某一事件或物品的觀點、情感.文本傾向性分析[1],旨在從網絡文本中分析與挖掘用戶的態度(或稱觀點、情感),已成為近年來自然語言處理領域研究的熱點問題之一.在SIGIR、ACL、WWW、CIKM、WSDM等著名國際會議上,針對這一問題的研究成果層出不窮[2?3].隨著研究的深入展開,更加細粒度地分析與挖掘網絡觀點成為新的研究關注.因此,本文主要研究評價對象與評價詞抽取,評價對象是指網絡文本中評論所針對的對象或對象屬性,評價詞是指修飾評價對象的情感觀點詞.在評論中,評價對象往往是名詞或名詞短語,而評價詞通常為動詞或形容詞.
迄今為止,國內外學者在評價對象與評價詞抽取方面已經開展了一系列研究工作,主要有兩類:基于有監督學習方法和基于無監督學習方法.1)有監督學習方法,通過建立統計模型,基于標注數據集訓練模型,對評價對象與評價詞進行抽取.典型的模型有:最大熵模型[4]、隱馬爾科夫模型[5]、支持向量機模型[6]、條件隨機場模型[7]等.傳統的有監督學習方法雖然能取得不錯的效果,但是在不同領域,需要重新訓練模型,導致模型移植性不強等問題;另外,缺少公開有效的標注數據集也是監督方法的一個瓶頸,人工標注數據集是一項費時費力的工作.2)無監督學習方法,主要借助評價對象與評價詞之間的關系,構建規則或模型直接抽取評價詞對.代表性的工作有:關聯規則[8]、雙向傳播機制[9]、直推式支持向量機[10]、詞對齊模型[11]等.相對于有監督模型,無監督方法不需要人工標注數據的參與、具有移植性更強等優點,更加適合當前日趨開放的網絡環境,因而逐漸成為新的研究點.
基于詞對齊模型的評價詞對抽取[12]能夠有效減少語法、句法等分析錯誤,取得較好的抽取精度和魯棒性,體現對網絡口語化文本的處理優勢.然而,在語言學上,評價對象與評價詞之間除了距離[13]之外,存在著更多可利用的句法關系.兩個典型評論句子的依存句法分析結果,如圖1所示.從圖1上部可以發現,評價對象“屏幕”和評價詞“亮”之間存在著“SBV(Subjective-verb)”(即主謂關系);而對于圖1下部,評價對象“分辨率”和評價詞“高”之間存在著“ATT(Attribute)”(即定中關系).顯然,如果評價對象與評價詞之間存在一條置信度高的句法關系,那么它們也具有較高的置信度.如果評價對象與評價詞本身擁有較高的置信度,那么它們之間句法關系的置信度也較高.另一方面,評價對象往往不是單獨出現的.用戶進行評論時,通常是同時描述多個評價對象.例如“手機很好,但耗電量很大”,“手機”和“耗電量”都是評價對象,并且同時出現在同一個句子中.同樣,在評價詞之間也存在著這樣的共現關系.如果只考慮評價對象與評價詞之間的關系,而忽略評價對象內部、評價詞內部之間的關系,將有可能遺漏掉一些正確的評價對象和評價詞,影響最終的抽取效果.
本文提出了一種基于多層關系圖模型的評價對象與評價詞抽取方法.該方法首先基于詞對齊模型抽取評價對象與評價詞候選關系詞對;接著進行依存句法關系分析,然后基于LRT(Likelihood ratio test)檢驗方法度量評價對象內部、評價詞內部的共現關系,接著建立“評價對象–句法模式–評價詞”的多層情感關系圖;最后基于隨機游走的方法抽取評價對象與評價詞.該方法同時考慮評價對象與評價詞的依存句法關系、評價對象內部、評價詞內部的共現關系,進一步提高了評價對象與評價詞所含信息度量的多樣性.實驗結果表明,與現有的方法相比,本文所提出的方法不僅保持了基于詞對齊模型的魯棒性等優點,而且對評價對象和評價詞的抽取精度均有顯著的提升.

圖1 兩種不同的依存句法關系示例Fig.1 Two di ff erent syntactical dependency examples
接下來文章的結構安排如下:第1節介紹本文的相關工作;第2節詳細說明本文所提出的基于多層關系圖模型的評價對象與評價詞抽取方法;第3節的內容為實驗結果及分析,通過在不同的評價指標下與基準實驗的對比驗證本文方法的有效性;第4節為本文的結論.
近年來,國內外學者在評價對象與評價詞抽取已經開展了一系列研究工作.一般來說,文本評價關系抽取方法大致可以分為有監督模型和無監督模型這兩類.
1)有監督模型
該方法首先通過人工標注得到的數據集對統計模型進行訓練,確定參數,然后將學習后的模型應用于文本評價關系的抽取工作.Kim等[4]首先從句子中識別出所有評價持有者,然后結合句法特征,利用最大熵排序模型抽取評價持有者.Jin等[5]利用Lexicalized-HMM(Hidden Markov model)模型,并結合了語言學特征和上下文特征進行評價對象與評價詞的抽取.Wu等[6]定義了三元組的情感單元(產品特征、情感表達式、情感態度),通過建立短語依存分析樹,抽取產品特征和情感表達式,然后定義核函數,利用SVM(Support vector machine)模型來抽取產品特征和情感表達式之間的關系.Jakob等[7]研究單一領域和跨領域的評價對象抽取問題,在線性鏈條件隨機場模型中加入詞、詞性、最短句法依賴路徑、情感句子等特征.Zhou等[14]針對中英文語料,研究利用已有的英文標注數據訓練條件隨機場模型,結合機器翻譯和特征映射關系,提出一種單語協同訓練算法來抽取中文評價對象,以此解決跨語言的評價對象抽取問題.
2)無監督模型
該方法借助挖掘評價對象與評價詞之間的關系,結合規則和語言學特征直接抽取文本評價關系.該方法相對于有監督模型,具有不需要人工標注數據、移植性更強等優點.Li等[15]在評價對象抽取中利用了淺層語義分析樹,通過參數剪枝和啟發式規則過濾錯誤的抽取結果.Huang等[16]抽取評價表達式(特征、評價短語),首先,利用關聯規則和過濾策略識別特征和評價詞;然后,計算每一對表達式的廣義互信息值;最后,過濾低于閾值的表達式.趙妍妍等[17]提出一種自動獲取句法路徑的方法,結合精確匹配算法來獲取情感評價單元(評價詞語、評價對象),然后通過編輯距離計算句法路徑的相似度改進精確匹配的不足,提高系統抽取性能.Qiu等[9]采用雙向傳播機制,利用人為構造的種子詞典,擴展評價詞,進而抽取出評價對象.Li等[18]提出一個兩階段框架,首先在目標領域內構建一些高置信度(High-con fi dence)種子傾向詞和主題詞,然后利用RAP(Relational adaptive bootstrapping)算法通過源領域的部分標注數據擴展目標領域的種子詞典. Xu等[10]首先根據評價對象與評價詞的依存句法關系,建立一張情感圖,利用隨機游走算法,迭代計算評價對象與評價詞的置信度,接著利用自學習策略,用TSVM(Transductive support vector machine)分類模型來精煉評價對象,最后利用精煉后的評價對象來進一步過濾評價詞,該方法取得了不錯的準確率和召回率.Liu等[11]借助于統計機器翻譯的思想描述對象與詞之間的關系,然后將其與句法分析方式進行了對比,實驗結果表明了詞語翻譯模型對于抽取評價對象與評價詞具有一定的魯棒性.
為了抽取中文評價對象與評價詞,本文利用評價對象與評價詞之間的語法、共現等關系,提出一種基于多層關系圖模型的抽取方法.該方法首先基于詞對齊模型抽取候選評價詞對,其次利用依存句法分析方法抽取評價對象與評價詞之間句法模式,接著基于LRT檢驗方法度量詞間的共現關系,最后構建多層關系圖模型,基于隨機游走的方法抽取評價對象與評價詞.即輸入評論句子集合R={S1,S2,···,Sq},通過分詞與詞性標注后,得到候選評價對象集合T={t1,t2,···,tn},候選評價詞集合W={w1,w2,···,wm},計算候選評價對象的置信度向量Ctc和候選評價詞的置信度向量Cwc,最后選取置信度高的評價對象和評價詞作為輸出.具體介紹如下.
2.1 基于詞對齊模型的候選評價詞對抽取
利用詞對齊模型挖掘評價對象與評價詞之間關系的方法能取得較好的效果,并具有一定的魯棒性[12?13].為了避免兩端不對稱,本文選用文獻[13]所提出的方法同時訓練兩個方向的模型.即將候選評價對象詞、候選評價詞互相作為源語言和目標語言,訓練詞對齊模型得到兩個對齊結果集,并將兩個結果集分別取并集和交集作為候選評價詞對.候選評價關系抽取所采用的方法是基于文獻[19]所提出的IBM模型3,其計算方法如下:

式中,t(wj|waj)為詞wj與詞waj在語料庫中的共現信息;d(j,aj,n)為在aj位的詞與在j位的詞的對齊概率;n(?i|wi)為詞wi可以對齊到?i個詞的概率.
2.2 利用依存句法分析的關系度
對于給定的一個中文句子,利用依存句法分析構建句法關系樹,在樹中抽取評價對象與評價詞之間的句法路徑.本文考慮兩種句法模式,直接依存句法模式和間接依存句法模式,為了泛化表示,本文用“T”表示候選評價對象,“W”表示候選評價詞,“R”表示依存句法關系,“Pos”表示評價對象與評價詞之間相隔詞語的詞性.
對于直接依存句法模式,如果評價對象與評價詞在依存句法關系樹中有直接路徑可達,那么可以得到直接依存句法模式即為“T-{R}-Pos-{R}-W”.
對于間接依存句法模式,我們發現某些評價對象與評價詞在依存句法關系樹中不存在著直接相連的路徑,但是它們最終都會依存于根節點(即Root),因此對于無法得到直接依存句法模式的情況,間接依存句法模式就是尋找評價對象或評價詞到根節點的路徑,即“T-{R}-Pos-{R}-root”和“W-{R}-Pos-{R}-root”.
如圖2所示,句子“手機外殼太笨重,分辨率還行以外,其他沒有什么亮點”的依存句法分析結果.在“分辨率”與“行”之間存在著“SBV”(主謂)的關系,因此,我們就可以得到這樣的一個直接依存句法模式“T-{SBV}-W”.
經過依存句法分析,得到句法模式庫后,為了估算評價對象–句法模式,評價詞–句法模式的關系強度,計算公式如下:

其 中, P(v1|v2) = freq(v1,v2)/freq(v2), P(v2|v1)=freq(v1,v2)/freq(v2),上述公式中, freq(v1,v2)為v1,v2在語料庫中共現的次數,v1為評價對象或評價詞,v2為句法模式;freq(v?)為v?在語料庫中出現的總次數,δ為權重.
2.3 基于LRT檢驗的共現關系度量
評價對象內部、評價詞內部之間的共現關系對評價對象與評價詞抽取有著重要意義.似然比檢驗(LRT)方法[20]是一種用來衡量語料庫中兩個詞共現關系的常用方法,并且能夠有效避免數據稀疏的問題.因此,我們利用似然比檢驗方式來挖掘評價對象之間、評價詞之間的關系.
如下表1所示,LRT檢驗首先從語料庫中計算候選項(評價對象或評價詞)Ti和Tj的統計信息.其中K1(Ti,Tj)表示Ti,Tj在語料庫中的共現頻數, K2(~Ti,Tj)表示不包含Ti,但包含Tj的文本頻數, K3(Ti,~Tj)表示包含Ti但不包含Tj的文本頻數, K4(~Ti,~Tj)表示都不包含Ti和Tj的文本頻數.

表1 語料庫中候選項的統計信息Table 1 The statistics of candidate terms in the corpus
基于表1的統計信息,通過以下方式來計算候選項(評價對象或評價詞)Ti和Tj的共現關系:

其中

另外,為了數據的規范化,將mij的值映射到[0,1]區間范圍內,采用以下方式進行歸一化處理:

Max與Min分別表示mij計算得到的最大值與最小值.
2.4 評價對象與評價詞的置信度估計
為了刻畫評價對象與評價詞之間、評價對象內部、評價詞內部的關系,本文構建了如圖3所示的多層關系圖G=(V,E),其中V=Vt∪Vp∪Vw表示頂點集,Vt={t1,t2,···,tn}為評價對象集,Vp={p1,p2,···,pl}為句法模式庫,Vw= {w1,w2,···,wm}為評價詞集;E=Ett∪Eww∪Etp∪Ewp為邊集,Ett?E為評價對象之間的邊集,Eww?E為評價詞之間的邊集,Etp?E為評價對象與句法模式之間的邊集,Ewp?E為評價詞與句法模式之間的邊集.
從圖3可以看出,該圖可以分為三層:上層頂點Vt為評價對象,下層頂點Vw為評價詞,中間層頂點Vp為句法模式,白色部分表示直接依存句法模式,灰色部分表示間接依存句法模式;Etp、Ewp分別刻畫評價對象、評價詞與句法模式之間的句法依存關系;Ett、Eww則分別刻畫評價對象之間、評價詞之間在文本中的共現關系.因此,邊的權重采用如下方式賦值:基于式(2)定義了矩陣Mtc-p∈R|Vt|×|Vp|和 Mwc-P∈ R|Vw|×|Vw|,基于式 (3)定義了矩陣
Mtt∈R|Vt|×|Vt|和Mww∈R|Vw|×|Vw|.
最后,在圖G上利用隨機游走算法,迭代計算候選評價對象置信度向量Ctc、評價詞置信度向量Cwc與句法模式置信度向量Cp,計算公式如下:


圖2 依存句法分析示例Fig.2 The example of dependency syntactic parsing


圖3 評價對象、句法模式和評價詞的多層關系圖Fig.3 The multi-layer relation graph on opinion target, syntactic pattern and opinion word

Reli(t)表示對象在t領域Di的相關度,num為領域個數:

TF(t)是t在領域Di內的總詞頻,DF(t)為t在領域Di內的文檔頻率.
基于多層關系的評價對象與評價詞抽取算法流程如算法1所示.下一節我們將通過實驗驗證模型的有效性.
算法 1.基于多層關系的評價對象與評價詞抽取算法

3.1 實驗數據
如表2所示,實驗數據使用COAE2011任務三的標注語料,其中的搭配關系包含評價對象、評價詞和傾向性,本文只考慮評價對象與評價詞的抽取.語料有三個不同領域,分別是電子產品、影視娛樂和金融證券.
3.2 實驗設計
為了驗證本文提出模型的有效性,我們與如下方法進行對比:
1)COAE-BEST:COAE2011任務三評測任務中表現最好的結果;
2)LIU:文獻[12]借助統計機器翻譯的思想抽取評價對象的方法;
3)WAN-U和WAN-I:文獻[13]基于Liu方法,對詞對齊模型得到的結果分別取并集(WAN-U)與交集(WAN-I),提出了基于距離函數的關聯強度度量方式代替采用對齊概率的方式來衡量評價對象與評價詞的關聯強度;
4)MULTI:本文所提出的基于多層關系圖的評價對象與評價詞抽取模型.

表2 語料統計表Table 2 The description of dataset
此外,采用LTP(Language technology platform)語言技術平臺對評論句子進行分詞、詞性標注以及依存句法分析工作,利用開源詞對齊工具包(Giza++)進行評價搭配關系抽取.實驗參數α=0.3,β=0.3,迭代次數為20次.
3.3 評價指標
采用信息檢索領域常用的準確率(Precision)、召回率(Recall)和F1值(F1-measure)作為評價指標.計算公式如下:

其中,TP+FP是抽取任務中得到的結果總數,TP是抽取任務得到的正確結果總數,FP是被錯誤抽取出來的結果總數,TP+FN是語料庫中所有正確結果的總數.
3.4 實驗結果分析
從整體上看,中文評價對象與評價詞抽取的性能還是比較低的,主要原因包括:1)本體特征覆蓋不全面,評論中的評價對象類型多樣,并且與領域高度相關,領域之間表達存在較大差異;2)情感標注特征不全面、分詞不精準等原因使得很多評價詞也沒有被正確識別出來,導致了準確率和召回率不高; 3)傾向性表達較為復雜,比如一些句子的評價對象是省略的,但是可以推測出該句具有非常明顯的褒貶義評價.具體結果與分析如下:
1)分領域的抽取效果對比
在抽取評價對象方面,從表3可以看出,在電子產品、金融證券領域,本文方法MULTI在F1值上相較于其他方法都有顯著提升.特別是在金融證券領域,MULTI方法比WAM-I方法在準確率上有接近8%的提高.主要原因在于:a)對金融證券領域,評價對象使用的經常是一些專有的名詞,如股票、證券等專有名詞;b)評價詞也經常是一些特殊形容詞,如“上漲”、“下跌”等;c)評價對象與評價詞固定搭配出現的情況較多.比如,“6日紐約市場黃金價格下跌”.在評價對象(黃金價格)和評價詞(下跌)之間往往能得到較高置信度的句法關系(“TC-{SBV}-WC”),保證抽取結果的正確性.
然而,在影視娛樂領域,本文的方法在評價對象抽取F1值略低于WAM-I的方法.這是因為在該領域中抽取得到的某些句法模式置信度較低,導致最終的抽取效果不理想.例如,句子“邁克爾–杰克遜胡子拉碴,難掩憔悴”,正確的評價對象為“邁克爾–杰克遜”,評價詞為“憔悴”,因為它們相距較近,所以通過距離的方法(WAM-I)能有效識別.但是在本文方法中通過依存句法分析,在該對評價對象與評價詞之間的句法模式“TC-{COO}-n-{COO}-v-{CMP}-WC”(COO指“并列關系”,CMP“指動補結構”)的置信度偏低.另外,在該句中也不存在著評價對象,評價詞內部的共現關系,導致在圖模型上應用隨機游走算法時,不能正確計算該評價對象與評價詞的置信度,最終使得抽取效果下降.不過,本文方法在影視娛樂領域內依然優于COAE-BEST和LIU.

表3 評價對象抽取的對比實驗結果Table 3 The results of our method VS baseline on opinion target extraction
評價詞抽取的對比結果如表4所示.在抽取評價詞方面,本文方法在三種領域上的F1值相比于WAM-U分別有約15%,4.5%,16%的提升.一方面,評價詞的抽取有效避免了由于距離過長而導致關系強度度量錯誤的情況.另一方面,加入共現關系也增強了候選評價詞置信度的計算.例如,句子“現在這款冰箱價格下降,僅為7900元,算是比較優惠的”.評價詞“優惠”距離評價對象“價格”較遠,但由于存在依存句法關系,同時也與另一個評價詞“下降”也存在著共現關系,因此,能正確判斷“優惠”是一個評價詞.
2)整體抽取效果對比
為了衡量整體性能,本文在電子產品、影視娛樂和金融證券等三個領域對抽取結果計算宏平均和微平均,結果如圖4和圖5所示.從圖4中可以看出,在抽取評價對象上,本文方法的抽取精度在宏平均和微平均上都優于其他方法.雖然在影視娛樂領域,本文的方法略低于WAM-I方法,但是從整體效果上看,本文方法在宏F1值、微F1值比WAM-I的方法提升了大約3%.如圖5所示,在抽取評價詞方面上,本文方法整體上也是取得最優的結果,不管是宏平均還是微平均,在召回率上都有將近10% ~11%的提升.因此,本文方法在抽取評價對象與評價詞上相較于其他方法可以有效地提高準確率與召回率,盡可能多地抽取出評價對象與評價詞.

表4 評價詞抽取的對比實驗結果Table 4 The results of our method VS baseline on opinion word extraction
3)模型參數分析
為了評估不同關系對抽取任務的影響,考察了模型參數α,β對抽取效果的影響.本文基于準確率、召回率兩項評價指標,設計了如下對比實驗:
a)onlyLRT:只考慮了評價對象內部、評價詞內部之間的共現關系.即,設置參數α=0;
b)onlyCP:只考慮了評價對象與評價詞之間的句法關系.即,設置參數β=0;
c)combine:融合了共現關系和句法關系的情況,即前面所提到的α=0.3,β=0.3.
從圖6和圖7,結合表3和表4,在評價詞抽取方面onlyCP方法比WAM-U的準確率在電子產品、影視娛樂、金融證券領域分別有約3%,4%, 2%的提升.因此,依存句法關系的引入可以一定程度上解決評價對象與評價詞距離過長產生的問題.典型的例子如:“諾基亞1110有點老,不是智能手機,但是很耐用”.在該句子中,評價對象“諾基亞”與評價詞“耐用”相隔有一定距離,僅從距離因素加以衡量的時候,會導致抽取的錯誤.但是經過依存句法關系的分析后,“諾基亞”與“耐用”之間在依存句法樹中存在直接依存關系,以此來判斷“諾基亞”與“耐用”為正確的評價對象與評價詞.
在評價對象抽取方面,onlyLRT方法在電子產品、影視娛樂、金融證券領域比COAE-BEST的召回率分別提高了約1%、6%和5%.因此,考慮共現關系的情況可以一定程度上減少評價對象或評價詞抽取遺漏的問題.例如,“電腦很卡,CPU太垃圾了!”.句子中,“電腦”和“CPU”均為評價對象,“卡”和“垃圾”分別為其對應的評價詞.但是由于分詞工具的限制,將“垃圾”的詞性標注為名詞,因此,“CPU”與“垃圾”之間并不能找到依存句法關系.但是,可以發現“電腦”與“CPU”之間的存在著強關聯的共現關系,根據該共現關系,可以判斷“CPU”也為評價對象,在某種程度上解決抽取遺漏的問題.

圖4 評價對象抽取的宏平均和微平均結果Fig.4 Micro and macro results of opinion targets extraction
Combine 方法在所有領域都優于 onlyCP、onlyLRT方法,表明融合多種關系(句法關系、共現關系等)來抽取評價對象與評價詞的方法能實現抽取性能的顯著提升,可以抽取出更多的評價對象與評價詞.在電子產品,影視娛樂領域無論是抽取評價對象與評價詞方面,onlyCP方法都比onlyLRT表現得更好一點,說明了在評價關系抽取中句法關系比共現關系的效果更為顯著.其中的一個重要原因是,共現關系比較少:在語料庫中的統計結果表明,評價對象、評價詞出現次數大于1的情況約占7%左右.另外,某些句子中即使存在多個評價對象,但并不是所有的評價對象都有其相應的評價詞.例如,“索尼愛立信700手機超薄的機身,重量僅為78克”.“機身”與“重量”都可能為評價對象,但是只有“機身”有其對應的評價詞“超薄”,而“重量”沒有.在該句中只有“機身”為正確的評價對象,而“重量”并不是正確的評價對象.因此,除了共現關系外,需要結合句法分析等多種關系綜合建模,才能有效提升抽取精度.

圖5 評價詞抽取的宏平均和微平均結果Fig.5 Micro and macro results of opinion words extraction

圖6 不同α,β的評價對象抽取結果Fig.6 Di ff erent results of opinion targets extraction according to α,β

圖7 不同α,β的評價詞抽取結果Fig.7 Di ff erent results of opinion words extraction according to α,β
本文提出了一種基于多層關系圖模型的評價對象與評價詞抽取方法.該方法首先利用詞對齊模型抽取評價對象與評價詞搭配;然后,同時考慮評價對象與評價詞的依存句法關系、評價對象內部的共現關系、評價詞內部的共現關系,建立多層情感關系圖;最后,利用隨機游走方法計算候選評價對象與評價詞的置信度,并選取置信度高的評價對象與評價詞作為輸出.除了評價對象與評價詞的距離關系以外,本文方法充分利用了評價對象與評價詞、評價對象內部以及評價詞內部的多層關系,進一步提高了評價對象與評價詞所含信息度量的多樣性.此外,本文基于統計翻譯模型抽取候選評價對象和評價詞,保持了具有良好的魯棒性.實驗結果表明,與現有方法相比,本文所提出的方法對評價對象和評價詞的抽取精度均有顯著的提升.
1 Huang Xuan-Jing,Zhao Jun.Chinese text sentiment orientation analysis.Communications of the CCF,2008,4(2): 39?47 (黃萱菁,趙軍.中文文本情感傾向性分析.中國計算機學會通訊, 2008,4(2):39?47)
2 Zhuang L,Jing F,Zhu X Y.Movie review mining and summarization.In:Proceedings of the 15th ACM International Conference on Information and Knowledge Management. Arlington,Virginia,USA:ACM,2006.43?50
3 Wang B,Wang H F.Bootstrapping both product features and opinion words from Chinese customer reviews with cross-inducing.In:Proceedings of the 3rd International Joint Conference on Natural Language Processing.Hyderabad,India,2008.289?295
4 Kim S M,Hovy E.Identifying opinion holders for question answering in opinion texts.In:Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains. Pennsylvania,USA:AAAI,2005.1367?1373
5 Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction.In: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris, France:ACM,2009.1195?1204
6 Wu Y B,Zhang Q,Huang X J,Wu L D.Phrase dependency parsing for opinion mining.In:Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2009.1533?1541
7 Jakob N,Gurevych I.Extracting opinion targets in a singleand cross-domain setting with conditional random fi elds.In: Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.Vancouver,British Columbia, Canada:Association for Computational Linguistics,2010. 1035?1045
8 Hu M Q,Liu B.Mining and summarizing customer reviews. In:Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle,USA:ACM,2004.168?177
9 Qiu G,Liu B,Bu J J,Chen C.Opinion word expansion and target extraction through double propagation.Computational Linguistics,2011,37(1):9?27
10 Xu L H,Liu K,Lai S W,Chen Y B,Zhao J.Mining opinion words and opinion targets in a two-stage framework.In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.So fi a,Bulgaria:ACL,2013. 1764?1773
11 Liu K,Xu L H,Zhao J.Syntactic patterns versus word alignment:extracting opinion targets from online reviews. In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.So fi a,Bulgaria:ACL, 2013.1754?1763
12 Liu K,Xu L H,Zhao J.Opinion target extraction using word-based translation model.In:Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,South Korea:Association for Computational Linguistics,2012.1346?1356
13 Chen Xing-Jun,Wei Jing-Jing,Liao Xiang-Wen,Jian Si-Yuan,Chen Guo-Long.Extraction of opinion targets and opinion words from Chinese sentences based on word alignment model.Journal of Shandong University(Natural Science),2016,51(1):58?64,70 (陳興俊,魏晶晶,廖祥文,簡思遠,陳國龍.基于詞對齊模型的中文評價對象與評價詞抽取.山東大學學報(理學版),2016,51(1): 58?64,70)
14 Zhou X J,Wan X J,Xiao J G.Cross-language opinion target extraction in review texts.In:Proceedings of the 12th IEEE International Conference on Data Mining.Brussels, Belgium:IEEE,2012.1200?1205
15 Li S S,Wang R Y,Zhou G D.Opinion target extraction using a shallow semantic parsing framework.In:Proceedings of the 26th AAAI Conference on Arti fi cial Intelligence. Toronto,Canada:AAAI,2012.1671?1677
16 Huang H,Liu Q T,Huang T.Appraisal expression recognition based on generalized mutual information.Journal of Computers,2013,8(7):1715?1721
17 Zhao Yan-Yan,Qin Bing,Che Wan-Xiang,Liu Ting.Appraisal expression recognition based on syntactic path.Journal of Software,2011,22(5):887?898 (趙妍妍,秦兵,車萬翔,劉挺.基于句法路徑的情感評價單元識別.軟件學報,2011,22(5):887?898)
18 Li F T,Pan S J,Jin O,Yang Q,Zhu X Y.Cross-domain coextraction of sentiment and topic lexicons.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.Jeju Island, South Korea:Association for Computational Linguistics, 2012.410?419
19 Brown P F,Della Pietra V J,Della Pietra S A,Mercer R L.The mathematics of statistical machine translation:parameter estimation.Computational Linguistics,1993,19(2): 263?311
20 Shu Wan-Li.Research on Concept and Relation Extraction of Chinese Domain Ontology[Master dissertation], Chongqing University,China,2012 (舒萬里.中文領域本體學習中概念和關系抽取的研究[碩士學位論文],重慶大學,中國,2012)
A Multi-layer Relation Graph Model for Extracting Opinion Targets and Opinion Words
LIAO Xiang-Wen1,3CHEN Xing-Jun1,3WEI Jing-Jing2,3CHEN Guo-Long1,3CHENG Xue-Qi4
Mining opinion targets and opinion words is a fundamental task for the Chinese online media to mine opinion and analyze sentiment.The key to enhancing the e ff ectiveness of opinion target and opinion word is to integrate syntactic relations and co-occurrence relations between opinion target and opinion word into the mining model.A novel approach based on a multi-layer relation graph model is proposed to extract opinion targets and opinion words from Chinese social media.First,the word alignment model is employed to extract the candidates of opinion target and opinion word candidates.Second,a multi-layer relation graph is constructed by the syntactic inter-relations between opinion target and opinion word,the co-occurrence intra-relations among opinion targets,and the co-occurrence intra-relations among opinion words.Third,a random-walk algorithm is adopted to calculate the con fi dence of each opinion target candidate and opinion word candidate.Finally,opinion targets and opinion words are extracted according to their con fi dence values. Experimental results show that the presented method can not only achieve signi fi cant improvement over previous methods, but also have good robustness.
Sentiment analysis,opinion mining,dependency syntactic parsing,random walk

廖祥文 福州大學數學與計算機學院副教授.主要研究方向為文本傾向性檢索與挖掘.E-mail:liaoxw@fzu.edu.cn(LIAO Xiang-Wen Associate professor at College of Mathematics and Computer Science,Fuzhou University. His research interest covers text orientation retrieval and mining.)

陳興俊 福州大學數學與計算機學院碩士研究生.主要研究方向為文本傾向性檢索與挖掘.E-mail:346993131@qq.com(CHEN Xing-Jun Master student at the College of Mathematics and Computer Science,Fuzhou University. His research interest covers text orientation retrieval and mining.)

魏晶晶 福州大學物理與信息工程學院博士研究生.主要研究方向為觀點挖掘. E-mail:weijj@fjjxu.edu.cn(WEI Jing-Jing Ph.D.candidate at the College of Physics and Information Engineering,Fuzhou University. Her main research interest is opinion mining.)

陳國龍 福州大學數學與計算機科學學院教授.主要研究方向為智能信息處理.本文通信作者.E-mail:cgl@fzu.edu.cn(CHEN Guo-Long Professor at the College of Mathematics and Computer Science,Fuzhou University.His main research interest is intelligent information processing.Corresponding author of this paper.)

程學旗 中國科學院網絡數據科學與工程重點實驗室主任.主要研究方向為大數據分析與挖掘.E-mail:cxq@ict.ac.cn(CHENG Xue-QiDirector of Key Laboratory of Network Data Science& Technology,Chinese Science and Technology.His research interest covers big data analysis and mining.)
廖祥文,陳興俊,魏晶晶,陳國龍,程學旗.基于多層關系圖模型的中文評價對象與評價詞抽取方法.自動化學報, 2017,43(3):462?471
Liao Xiang-Wen,Chen Xing-Jun,Wei Jing-Jing,Chen Guo-Long,Cheng Xue-Qi.A multi-layer relation graph model for extracting opinion targets and opinion words.Acta Automatica Sinica,2017,43(3):462?471
2016-01-20 錄用日期2016-06-17
Manuscript received January 20,2016;accepted June 17,2016國家自然科學基金青年項目(61300105),中國科學院網絡數據科學與技術重點實驗室開放基金課題(CASNDST20140X)資助
Supported by National Natural Science Foundation of China (61300105),Key Laboratory of Network Data Science&Technology,Chinese Science and Technology Foundation(CASNDST20140X)本文責任編委張民
Recommended by Associate Editor ZHANG Min 1.福州大學數學與計算機科學學院 福州350116 2.福建江夏學院電子信息科學學院福州 350108 3.福建省網絡計算與智能信息處理重點實驗室(福州大學)福州 350116 4.中國科學院計算技術研究所網絡數據科學與技術重點實驗室北京100190
1.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116 2.College of Electronics and Information Science,Fujian Jiangxia University,Fuzhou 350108 3.Fujian Provincial Key Laboratory of Networking Computing and Intelligent Information Processing,Fuzhou 350116 4.Key
Laboratory of Network Data Science and Technology,Instituteof Computing Technology,Chinese Academy of Sciences,Beijing 100190
DOI10.16383/j.aas.2017.c160060