999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CRF的中文評論有效性挖掘產品特征*

2014-09-14 01:35:40蔡敦波吳云韜
計算機工程與科學 2014年2期
關鍵詞:方法

呂 品,鐘 珞,蔡敦波,吳云韜

(1.武漢理工大學計算機科學與技術學院,湖北 武漢 430070;2.武漢工程大學計算機科學與工程學院,湖北 武漢 430073;3.武漢工程大學智能機器人湖北省重點實驗室,湖北 武漢 430073)

基于CRF的中文評論有效性挖掘產品特征*

呂 品1,2,3,鐘 珞1,蔡敦波2,3,吳云韜2,3

(1.武漢理工大學計算機科學與技術學院,湖北 武漢 430070;2.武漢工程大學計算機科學與工程學院,湖北 武漢 430073;3.武漢工程大學智能機器人湖北省重點實驗室,湖北 武漢 430073)

方面級意見挖掘的任務通常包括從客戶評論中抽取產品的特征、與產品特征相關聯的觀點詞識別以及觀點的極性判斷三個方面。圍繞如何實現中文評論的方面級意見挖掘問題,提出了利用條件隨機場實現中文評論的方面級意見挖掘的四個主要步驟:數據預處理、訓練集準備、為條件隨機場模型定義學習函數、應用模型標注新的評論數據。在此基礎上,通過以五種實際產品的中文評論語料為數據集,對該方法進行了數據實驗。實驗結果表明,該方法針對不同類型觀點元素的抽取在評估性能指標上大部分達到或超過80%。為了進一步驗證所提出方法的有效性,將研究結果進行了差異顯著性檢驗。結果顯示,用CRF對中文評論進行方面級意見挖掘和對英文評論的方面意見挖掘的性能差異不大。最后,比較了三種不同方法的方面抽取精度和情感分類精度,實驗結果表明,CRF方法優于詞典化的隱馬爾可夫模型和關聯規則挖掘方法。

條件隨機場;方面級意見挖掘;觀點元素

1 引言

隨著Web上社會媒體(評論、論壇討論、博客和社會網絡)爆炸性的增長,許多個人和組織都想利用這些媒體上的內容為自己的決策作支持。然而,由于各種各樣的網站大量出現,尋找、監測和抽取這些網站中的信息是一個艱巨的任務。為了解決這一問題,許多研究者提出了各種各樣的Web意見挖掘方法,旨在從這些媒體中發現必要的信息并把它們呈現給用戶。絕大多數意見挖掘方法可以歸為兩大類:篇章級意見挖掘和方面級意見挖掘。方面級意見挖掘中所指的方面可以是被評論產品的某個物理組成部分、功能或性質,亦可以是被評論事件的某一個特征等。篇章級意見挖掘主要解決一篇文檔的總體觀點極性;方面級意見挖掘主要解決從句子中發現方面然后找出與該方面相聯系的觀點。顯然,篇章級意見挖掘不能向用戶提供觀點持有者對某一實體各方面的評價信息。為了獲得這樣的詳細信息,方面級意見挖掘日趨成為情感分析領域的一個研究熱點。

以英文語料為研究對象的方面級意見挖掘早在2004年就被提出,研究者已經取得一些初步成果,而針對中文的研究還處于起步階段。不斷增長的中文評論已經成為互聯網上一個重要的組成部分,為了給企業和個人提供更為方便的工具,自動化和智能化地挖掘中文評論中的有價值信息是非常必要的。但是,由于中英文語言存在著較大的差異,目前針對英文評論的研究成果很多無法直接應用于中文評論。這些差異的主要根源在如下一些問題上:(1)文化差異導致語言表達方式不同;(2)語言結構的差異;(3)中英文詞匯語法的差別。

本文正是在中英文語言存在差異的條件下,探索中文評論中意見挖掘中的信息提取技術。通過研究如何在方面級意見挖掘的三個任務中運用條件隨機場模型,把目前主要面向英文的評論挖掘方法拓展到中文,從而解決中文環境下,如何對客戶評論中所隱含的信息進行自動挖掘的問題。

2 相關研究背景

2.1 基于頻率統計的挖掘方法

此方法是2004年Hu和Liu等人[1]首次提出的。它的基本原理是:(1) 使用關聯規則挖掘算法、壓縮修剪、冗余修剪等技術抽取頻繁名詞或名詞短語作為方面,如“價格”作為被評價實體的方面;(2)識別與這些頻繁方面最近的觀點詞,如價格的“高”或“低”;(3)形成一個基于被評價實體各方面的意見文摘系統。此方法最大的優點是通常領域獨立或語言獨立,思想簡單,易實現,并且不需要訓練數據集。但是,它也有一定的局限性,如:不能自動識別觀點的強度,不能很好處理隱含的方面表達。從2005年至今,許多研究者對該方法進行了各種改進,但這些改進工作由于其針對的對象不同也各有其局限性。

2.2 基于監督學習的挖掘方法

Li等人[2]提出了一種基于依存語法圖的監督學習方法抽取(方面,觀點)信息對。他們在電影評論數據集上評估了該算法,并把得到的結果與Hu等人的方法進行了比較。結果顯示他們所提方法的F-measure為52.9%,高于Hu等人方法的F-measure(48.8%)。CRF(Conditional Random Field)模型是另一種基于監督的挖掘方法,在產品評論挖掘中有潛在的優勢。因為它通過定義最大化條件概率p(Y|X),選擇一個標簽序列Y標注一個觀察序列X。顯然,CRF能考慮被評價實體的任意方面,而且不需要條件獨立假設。該特性使得CRF廣泛使用于傳統的信息抽取任務,如詞性標注和解析、命名實體的識別等。近來,有部分研究者利用CRF處理顧客評論。例如,Zhao等人[3]利用CRF執行句子級和篇章級情感分類。Li等[4]研究者整合了兩個CRF變量:Skip-CRF和Tree-CRF同時抽取方面的觀點詞。與普通的CRF只能利用詞序列學習不同,Skip-CRF和Tree-CRF還可以利用CRF學習結構特征。Choi等人[5]使用CRF從評論數據中識別觀點持有者。他們的錯誤分析報告報道了不精確的觀點識別對挖掘結果有很大程度的負面影響。Miao等人[6]使用CRF執行方面抽取并獲得了合理的結果。他們在電影評論數據集中取得了86%的精度。Jakob等人[7]進一步利用CRF解決跨領域應用問題,例如,判斷在一個領域上訓練的模型是否能在另一個領域上使用。他們還評估了在這種環境下方面抽取的精度。Chen等人[8]利用CRF實現了從評論中抽取多種類型的評論信息,如:實體的組成部分、實體的功能、實體的屬性、觀點和觀點的強度等。并將基于CRF的意見挖掘與基于頻率統計的方法及基于詞典化的HMM進行了深入的比較。結果表明,該方法在同時抽取多種評論信息時的精度超過其它的所有方法。

目前國內有關方面級意見挖掘的研究還處在起步階段。李實等人[9]提出了針對中文客戶評論中的產品特征的抽取方法,并證明了該方法的可行性和有效性,但該方法是基于頻率統計的一種改進的關聯規則挖掘算法。據我們所了解,利用CRF研究中文評論中抽取不同類型的信息還很少有研究。本文針對中文評論的語言特點和風格特征,嘗試利用CRF實現方面級意見挖掘,探索中文客戶評論的意見挖掘方法和理論, 并且通過實驗表明了這一方法的有效性。

3 基于CRF的方面級意見挖掘方法

3.1 方法的基本思路

本文利用CRF在中文評論語料上實現方面級意見挖掘。CRF是一種圖模型[8]。圖中所有結點稱之為狀態。這些狀態包括可以觀察到的狀態集合W和隱藏的狀態集合T。W通常是評論文本,它的詞性標注標簽表示為集合S。T通常是預先定義好的類別集合。圖中的邊表示所有狀態之間的關系,這個關系通常由學習函數定義。利用CRF進行挖掘的目標就是從產品評論中抽取被評價實體的不同方面,識別與不同方面相關的觀點、觀點強度和觀點的極性等。通常把被評價實體的不同方面及與之相關聯的觀點、觀點強度和觀點的極性稱之為觀點元素。利用CRF進行挖掘的方法就是給W中的每一個詞賦予一個T中的標簽。由此可見,利用CRF實現意見挖掘就是一個自動標注過程。此過程主要由四個步驟完成:(1)數據預處理;(2)準備符號標記與訓練集;(3)為CRF定義學習函數,并訓練CRF模型最大化條件概率;(4)應用模型標注新的評論數據中的觀點元素。為了突出預先定義符號標記和訓練集等步驟的準備,將數據預處理置于實驗部分的5.3節。

3.2 準備符號標記與訓練集

這一步驟的主要工作分兩個階段完成:首先為CRF準備預先定義好的類別集合T;然后根據類別集合T準備訓練語料。表1明確給出了從評論中挖掘的具體信息屬于哪一類觀點元素,例如:觀點元素是被評價目標的組成部分、功能、性質或是與之相關的觀點等。觀點元素類別集合T的詳細類別符號標記如表2所示。

Table 1 Class and description of opinion element表1 觀點元素的類別及描述

Table 2 Class and associated symbol tag of opinion element表2 觀點元素的類別與該類別對應的符號標記

符號標記的準備工作完成之后,本文采用中國科學院計算機所的中文分詞與詞性標注工具ICTCLAS對評論語料進行分詞與詞性標注,為人工標注訓練語料中觀點元素的類別作準備。由于二級詞性標注可以標注出更為具體的情況,包括具有名詞功能的形容詞或者動詞、專有名詞、詞素等等目標,為了提高挖掘查準率,采用二級標注。同時,中文客戶評論中所討論的產品的組成部分、功能或屬性等可能由名詞短語構成,但中文評論的詞性標注過程中并不能直接標注出名詞短語(除了專有名詞短語以外,例如,地名、單位名稱) ,再加上基本名詞的定義各不相同,本文采用的是周雅倩等人[10]提出的基本名詞短語定義。它規定基本名詞短語為非嵌套的名詞短語,包括單個名詞、沒有任何修飾成分的名詞短語、難以確定修飾關系的一串名詞、并列名詞性成分、專有名詞、時間、地點等,這種基本名詞短語占語料中所有基本短語的60.8%。根據這個定義,本文在實驗中根據以下兩種簡單情況界定名詞短語:(1)兩個相鄰的名詞連接構成的短語(專有名詞和時間、地點名詞除外,但包含二級分詞標注出來具有名詞功能的形容詞或者動詞,具有名詞功能的形容詞或者動詞);(2)用結構助詞“的”連接的兩個名詞構成的短語。

3.3 定義學習函數

學習函數是觀察狀態詞序列W=w1w2w3…wN,W對應的詞性標注序列S=s1s2s3…sN以及隱藏狀態T=t1t2…ti-1ti+1…tN之間的關系。學習函數的一般形式是fi(tj-1,tj,w1:N,s1:N),它表明了相鄰的狀態tj-1與tj、詞序列W=w1w2w3…wN以及它對應的詞性標注序列S=s1s2s3…sN之間的關系。那么,可以定義一個二值函數:如果當前的詞wj是“照片”,它對應的詞性標注sj為名詞,前一個狀態tj-1是觀點,當前的狀態tj是屬性,那么函數fi的值為1,否則為0。

fi(tj-1,tj,w1:N,s1:N)=

(1)

于是可得到以下條件概率:

(2)

(3)

3.4 訓練CRF模型

(4)

其中,M是評論語料中句子的個數。為了避免模型過度擬合,可通過對參數的先驗分布加入懲罰因子。通常情況下采用均值為0的高斯分布,因而等式(4)變為:

(5)

由于等式(5)是凹的,所以它有一個唯一的全局最優解。可以通過L-BFGS優化算法求解目標函數的梯度學習參數[11]。目標函數的梯度計算如下:

(6)

在等式(6)中,第一項是函數fi在訓練數據集中活動(fi=1)的次數。第二項是在當前訓練模型下對這個函數預測的活動次數。第三項由先驗分布產生。因此,這個派生項測量了精確的頻率與預測頻率的距離。假定在這個訓練數據中,一個函數fk的活動次數是A,在當前模型下,預測活動次數是B:當|A|=|B|,派生項的值為0。因此,訓練過程就是找到能最小化派生項的λk。

4 CRF模型的使用

獲取了使派生項最小化的參數λk后,使用模型的目標就是應用訓練模型給句子中的詞自動標注上最合適的觀點元素類型符號標記。這必須要求每一步的條件概率都是最大的。假定當前詞的位置是j,它有M個不同的候選標記,于是有Viterbi變量αj(m)=p(W,S,tj=m)。Viterbi遞歸式如等式(7)所示:

(7)

其中,φj(W,S,m′,m)是觀察序列為W和S時狀態m′到狀態m的轉換函數。在本文中,轉換函數的定義如下:

(8)

遞歸求解Viterbi變量后,就能識別句子中合適的標記分配。

5 實驗驗證

5.1 數據集

本文選取了五種商品的網絡評論作為實驗語料進行數據實驗, 這五種商品分別是一款手機(蘋果 iPhone 4)、兩款數碼相機(Cannon PowerShot SX210 IS,Cannon PowerShot A3300 IS)、一款MP3播放器(臺電 c700sp)和一本圖書(《達芬奇的密碼》)。其中手機、數碼相機及MP3 播放器的評論從淘寶網下載, 圖書評論從卓越網下載。總共選取了821篇評論(1 775個句子)。然后去除這些評論中無意義的符號和標記信息。為了檢驗CRF方法在中英文評論語料上進行方面級挖掘的差異性,本文在實驗中還準備了與中文評論語料中產品種類相似、評論篇數相同的英文語料數據集,該數據集來自文獻[1]。

5.2 性能評估方法

為了評估利用CRF實現挖掘的性能,本文采取了在文本處理問題研究中普遍使用的性能評估指標:查準率P(Precision)、查全率R(Recall)、F1-measure值F1(F1-measure)、精確度A(Accuracy)。本文中研究的問題主要是判斷利用CRF抽取的觀點元素是否為人工標注的真實類別(如表2所示)。評估采用的混淆矩陣(Confusion Matrix)如表3所示。

Table 3 Confusion matrix of performance measure表3 性能評估混淆矩陣

根據表3有:P=a/(a+b),R=a/(a+c),F1=2PR/(P+R),A=(a+b)/(a+b+c+d)。實驗中分別針對中文語料和英文語料把整個數據集平均分成10個子集,隨機選擇其中一個子集用作每一輪的測試驗證,其它九個子集用作訓練集。這樣的交叉驗證過程執行10次,查全率、查準率、F值和精確度是10次交叉驗證的平均值。

5.3 用CRF挖掘中文評論的實驗結果

表4列出了10次交叉驗證后的比較結果,從中可以看出,用CRF對中文評論進行方面級挖掘也取得了較好的性能指標,大部分性能指標值接近或超過80%。

Table 4 Comparison of performance extracted opinionelements:Component, Function, Feature表4 被抽取的觀點元素:組成部分、功能、屬性的性能比較

為了比較在中文語料中使用名詞短語界定的效果,我們利用CRF只針對中文語料中的功能這一觀點元素的抽取進行了名詞短語的界定。從表4可以看出,該項在中文語料上獲得的三個性能指標值要比針對英文語料的高。其中的主要原因有兩個方面:(1)在中文詞性標注時采用了二級標注。二級詞性標注可以標注出更為具體的情況,包括具有名詞功能的形容詞或者動詞、專有名詞、詞素等,那么在對訓練集進行人工標注時,可以給一些不是名詞但卻具有名詞功能的詞標注〈COMM_Func〉的符號標記。(2)使用了3.2節的名詞短語界定方法,那么在對訓練集進行人工標注時,可以給一些名詞短語標注為〈COMM_Func〉的符號標記。當模型學習到具有這些特點的詞后,就可以對新數據中出現的類似詞進行〈COMM_Func〉標記。然而,其它兩項觀點元素由于沒有使用名詞短語的抽取,在三項性能指標上均比英文語料低。其中的主要原因是利用CRF對英文語料數據集進行挖掘時,考慮了具有名詞詞性的詞或短語表示功能這一觀點元素:組成部分和性質。

對于觀點元素:觀點與觀點強度抽取性能比較,從表5可以看出,用CRF對中文評論進行挖掘也取得了較好的性能指標。每一項的性能指標值都在80%以上,有些值還高出了利用CRF對英文語料的挖掘。例如,觀點的查全率是86.1%,這是因為除了形容詞或副詞明顯地表示觀點之外,一些表示資源的名詞也隱含有觀點,我們在人工標注的過程中也給這樣的名詞賦予了觀點的符號標記。而我們針對英文語料的處理使用的是文獻[8]中的方法,作者在利用CRF進行觀點抽取時并沒有涉及如何從評論中推導出隱藏的觀點,因而我們在處理英文語料時也忽略了隱含觀點的推導。觀點強度的查準率達到92.8%,這其中主要原因是當中文評論中出現了感嘆詞時,在人工標注訓練集時,我們給這樣的感嘆詞一個觀點強度的標注,由于中英文語料的風格差異,英文語料中沒有這樣的處理過程。

Table 5 Comparison of performance extracted opinionelements:Opinion, Opinion Intensifier表5 被抽取的觀點元素:觀點、觀點強度的性能比較

表6給出了觀點句的判斷和句子極性的確定的比較結果。從表6可以看出,所有針對中文語料的性能評估值都在80%以上,這與表5中給出的針對中文語料的實驗結果相吻合。也即抽取的觀點與觀點強度越多越準確,說明對語料中觀點句的判斷和對句子極性的確定就越具有多樣性。因而,針對中文語料句子極性的查全率高。

Table 6 Comparison of performance extractedopinion sentences and sentence polarity表6 觀點句、句子極性的識別性能比較

通過對相同類型產品的中英文語料的實驗研究表明,利用CRF針對中文評論進行方面級挖掘具有一定有效性。為了深入驗證方法的實際性能,本文還進一步針對中英文產品評論的挖掘結果進行了差異顯著性檢驗。

5.4 差異顯著性檢驗

為了進一步確認用CRF方法對中文評論挖掘的有效性,將本文研究結果和文獻[8]的研究結果進行比較,并對兩者差異做顯著性檢驗。如果兩個結果接近(即本文結果顯著好于或與文獻[8]的研究結果的差距不明顯) ,則可以進一步驗證用CRF方法對中文評論挖掘的有效性。檢驗過程中所用實驗數據與文獻[8]中的數據種類相同,評論的篇數相同(注意:文獻[8]中的一個數據集是以文獻[1]中給出的產品種類與評論篇數為標準的),最后將實驗結果與文獻[8]的實驗結果即查準率和查全率分別進行差異T檢驗,同時考慮了與分類隨機比率50%的差異檢驗。

實驗中采用兩個比率之間顯著性差異的T檢驗,具體方法如下:設樣本集S中含量n個樣本,其中有nk個對象具有類別C,即類別C在樣本中出現的比率為p=nk/n。當需要比較該比率與一個給定的比率π是否存在顯著差異時,可以用公式(9)計算T值。

(9)

在實驗中查準率的n就是指利用CRF識別出的某一觀點元素的個數,查全率的n就是人工標注的某一觀點元素的個數。自由度為n-2。隨機比率0.5的p值指的是分類隨機比率50%的差異顯著性檢驗。

最后總體差異顯著性檢驗實驗結果如表7所示。可以看到,本文與文獻[8]的平均實驗結果在觀點元素組成部分的查準率差異在0.05水平上顯著, 查全率不顯著;觀點元素功能的查全率在0.05水平上顯著,查準率不顯著。這說明本文使用CRF對中文評論挖掘和對英文評論挖掘的性能差異不大,進一步驗證了CRF對中文語料挖掘的有效性。

5.5 CRF方法與其它方法挖掘中文評論的比較

根據相關研究工作可知,L-HMM方法[12]與ARM(關聯規則挖掘)方法[1]分別是基于監督挖掘方法與基于頻率統計方法的代表,本節將CRF與這兩種方法進行兩個方面的比較。一個是方面抽

Table 7 Result of difference verification表7 差異檢驗結果

注:上標*,*分別表示結果在0. 01和0. 05水平上顯著,沒有*表示不顯著

取精度的比較,另一個是針對不同方面情感分類精度的比較。由于篇幅的原因,實驗只針對數碼相機(Cannon PowerShot SX210 IS)這一被評價實體。實驗有兩個目的,第一個目的是要觀察用戶給定被評價實體的方面個數,這三種方法的抽取精確度;第二個目的是要觀察針對用戶給定的被評價實體的方面,尋找與該方面相關聯的觀點并按極性(肯定的或否定的)進行分類的情況。從圖1中可以看出CRF方法無論用戶給定被評價實體的方面是多或是少,該方法抽取方面的精度均值在80%以上,高于L-HMM方法且遠遠高于ARM方法。這主要是因為ARM方法只關心頻繁名詞所對應的方面,而忽視了非頻繁出現的名詞以及一些抽象名詞也可能是被評論對象的某一個方面。

Figure 1 Comparison of aspect extraction accuracy圖1 方面抽取精度比較

對于不同抽取方法在情感分類精度上的比較結果如圖2所示。從圖2中可以看出,隨著用戶給定被評價實體的方面越來越多,CRF方法的方面級情感分類精度都遠遠高于ARM方法。這是因為本文在訓練數據集的準備時,對評論中某些暗含有觀點的名詞進行了人工標注,因而訓練模型學習到了這方面的知識,從而使得模型在使用階段能夠發現新的評論中具有這樣特點的詞。然而,由于L-HMM方法與ARM方法都沒有涉及到隱式的觀點詞,所以其分類精度要比CRF低。L-HMM方法高于ARM方法的原因是因為L-HMM方法融合了多個重要的語言特性,如詞性標注、詞的上下文環境暗示等。

Figure 2 Comparison of aspect sentiment classification accuracy圖2 方面情感分類精度比較

6 結束語

方面級意見挖掘的方法主要有兩大類:基于頻率統計的方法與基于監督學習的方法。關聯挖掘算法是典型的基于頻率統計的方法,隱馬爾可夫模型和條件隨機場模型則是基于監督學習的方法。目前這些方法主要針對的研究對象大部分是英文評論語料,并且條件隨機場模型是所有這些方法中精度最優的模型。本文圍繞如何實現中文評論語料的方面級意見挖掘問題,提出了利用條件隨機場實現中文評論語料的方面級意見挖掘的方法與步驟。通過數據實驗分析與差異顯著性檢驗,表明了用條件隨機場實現中文評論的方面級意見挖掘是有效可行的。由于基于監督學習的方法需要大量的人工標注數據,因而如何減少人工標注工作量,提高挖掘的效率是本工作下一步研究的主要目標。

[1] Hu Min-qing, Liu Bing. Mining and summarizing customer reviews[C]∥Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:168-177.

[2] Li Zhuang, Feng Jing, Zhu Xiao-yan. Movie review mining and summarization[C]∥ Proc of the 15th ACM International Conference on Information and Knowledge Management, 2006:43-50.

[3] Zhao J,Liu K,Wang G.Adding redundant features for CRFs-based sentence sentiment classification[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.

[4] Li Fang-tao, Han Chao, Huang Min-lie, et al. Structure-aware review mining and summarization[C]∥ Proc of the 23rd International Conference on Computational Linguistics (COLING-2010), 2010:653-661.

[5] Choi Y, Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification[C]∥Proc of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009:590-598.

[6] Miao Q, Li Q, Zeng D. Mining fine grained opinions by using probabilistic models and domain knowledge[C]∥Proc of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-WI-IAT’10,2010:358-365.

[7] Jakob N, Gurevych I. Extracting opinion targets in a single and cross domain setting with conditional random fields[C]∥Proc of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010:1035-1045.

[8] Chen Li, Qi Luo-le, Wang Feng. Comparison of feature-level learning methods for mining online consumer reviews[J]. Expert Systems with Applications, 2012, 39(10):9588-9601.

[9] Li Shi, Ye Qiang, Li Yi-jun, et al. Research on the approaches of mining product features from Chinese customer reviews on the internet[J]. Journal of Management Sciences in China, 2009,12(2):142-152.(in Chinese)

[10] Zhou Ya-qian, Guo Yi-kun, Huang Xuan-jing, et al. Chinese and English baseNP recognition based on a maximum entropy model[J]. Jouranl of Computer Research and Development, 2003, 40(3):440-446.(in Chinese)

[11] Liu D, Nocedal J. On the limited memory BFGS method for large scale optimization [J]. Mathematical Programming, 1989, 45(3):503-528.

[12] Jin W, Ho H, Srihari R. OpinionMiner:A novel machine learning system for web opinion mining and extraction[C]∥

Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.

附中文參考文獻:

[9] 李實,葉強, 李一軍, 等.中文網絡客戶評論的產品特征挖掘方法研究[J].管理科學學報,2009,12(2):142-152.

[10] 周雅倩, 郭以昆, 黃萱菁, 等. 基于最大熵方法的中英文基本名詞短語識別[ J ]. 計算機研究與發展, 2003, 40(3):440-446.

LüPin,born in 1973,PhD candidate,associate professor,her research interests include text mining, and sentiment analysis.

鐘珞(1957-),男,湖北武漢人,博士,教授,研究方向為智能技術與智能系統,軟件工程,知識發現與數據挖掘。E-mail:zhongluo@netease.com

ZHONGLuo,born in 1957,PhD,professor,his research interests include intelligent technology and system, software engineering, knowledge discover, and data mining.

蔡敦波(1981-),男,吉林長春人,博士,講師,研究方向為智能規劃、自動推理和約束可滿足。E-mail:dunbocai@gmail.com

CAIDun-bo,born in 1981,PhD,lecturer,his research interests include intelligent planning, automated reasoning, and constraint satisfaction.

吳云韜(1973-),男,湖北恩施人,博士,教授,研究方向為統計信號處理中的信號檢測和參數估計、智能信息處理。E-mail:ytwu@sina.com

WUYun-tao,born in 1973,PhD,professor,his research interests include signal detection and parameter estimator of statistical signal processing, and intelligent information processing.

EffectiveminingproductfeaturesfromChinesereviewbasedonCRF

Lü Pin1,2,3,ZHONG Luo1,CAI Dun-bo2,3,WU Yun-tao2,3

(1.College of Computer Science and Technology,Wuhan University of Technology,Wuhan 430070;2.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073;3.Hubei Province Key Laboratory of Intelligent Robot,Wuhan Institute of Technology,Wuhan 430073,China)

The task of aspect-level opinion mining usually include the extraction of product entities from consumer reviews, the identification of opinion words that are associated with the entities, and the determination of these opinion’s polarities. Aiming at realizing aspect-level opinion mining for Chinese reviews, the paper proposes the four major steps: pre-processing; preparing the training set to learn the model; defining learning functions for conditional random field model; and applying the model to label new review data. At the same time, our experiments on the real Chinese reviews of five types of products show that the conditional random field based method can achieve 80% in most of performance indicators of extracted different types of review opinion elements. In order to verify the effectiveness of the proposed method, a test of the significance of difference is involved. Experiments report that there is scarcely difference of performance on conditional random field based method for both Chinese reviews and English reviews. Finally, we compare the precision of aspect extraction and the accuracy of sentiment classification based on three different methods, and the result shows that CRF-based method outperforms the other two such as lexicalized hidden markov model and association rule mining.

conditional random field; aspect-level opinion mining; opinion elements

2012-09-28;

:2013-02-02

國家自然科學基金青年基金資助項目(61103136);湖北省高等學校優秀中青年科技創新團隊計劃項目(T201206);湖北省智能機器人重點實驗室開放基金資助項目(200906)

1007-130X(2014)02-0359-08

TP274

:A

10.3969/j.issn.1007-130X.2014.02.027

呂品(1973-),女,湖北鄂州人,博士生,副教授,研究方向為文本挖掘和情感分析。E-mail:lpwhict@163.com

通信地址:430073 湖北省武漢市武漢工程大學計算機科學與工程學院Address:School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073,Hubei,P.R.China

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 中文字幕免费播放| 国产欧美视频综合二区| 亚洲av无码片一区二区三区| 国产在线精品人成导航| 亚洲综合久久成人AV| 在线观看免费国产| 看国产一级毛片| 3p叠罗汉国产精品久久| 日本人又色又爽的视频| 不卡无码网| 免费无码AV片在线观看中文| www.av男人.com| 免费在线国产一区二区三区精品| 日本人妻丰满熟妇区| 欧美α片免费观看| 视频二区亚洲精品| 中文字幕中文字字幕码一二区| 91欧美亚洲国产五月天| 热久久国产| 欧美激情视频一区二区三区免费| 国产视频大全| 国产美女视频黄a视频全免费网站| 国产95在线 | 全午夜免费一级毛片| 国产女人在线| 日本五区在线不卡精品| 国内精品小视频在线| 少妇极品熟妇人妻专区视频| 国产成人亚洲精品无码电影| 九色91在线视频| 无码福利视频| 国产久草视频| 久久成人国产精品免费软件 | 青青操国产视频| 好吊日免费视频| 国产午夜小视频| 国产真实乱子伦视频播放| 91啦中文字幕| 国产一级在线观看www色| 亚洲国产精品一区二区高清无码久久| 亚洲综合色婷婷中文字幕| 欧美三级视频网站| 国产第一页亚洲| 国产成人无码AV在线播放动漫 | 午夜在线不卡| 日韩精品一区二区三区中文无码| 亚欧乱色视频网站大全| 久久黄色一级片| 四虎AV麻豆| 一区二区三区四区在线| 亚洲欧美一级一级a| 激情六月丁香婷婷四房播| 精品在线免费播放| 一级黄色网站在线免费看| 色悠久久久久久久综合网伊人| 中文字幕永久在线看| 国产精品人成在线播放| 一区二区三区四区日韩| 91精品伊人久久大香线蕉| 日韩av无码DVD| 国产精品国产三级国产专业不| 丝袜美女被出水视频一区| 国产草草影院18成年视频| 亚洲香蕉在线| 99免费视频观看| 亚洲人成人伊人成综合网无码| 国产乱人乱偷精品视频a人人澡| 午夜国产精品视频| 色综合天天视频在线观看| 国产亚洲精品91| 91尤物国产尤物福利在线| 操操操综合网| 国产午夜无码片在线观看网站| 日本在线免费网站| 久久精品波多野结衣| 亚洲欧美精品日韩欧美| 亚洲无码视频一区二区三区 | 欧美综合成人| 波多野结衣一二三| 国产精品一老牛影视频| 国产成人精品视频一区二区电影| 9丨情侣偷在线精品国产|