999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產品評論中領域情感詞典的構建

2016-05-04 02:54:40郗亞輝
中文信息學報 2016年5期
關鍵詞:特征情感產品

郗亞輝

(河北大學 數學與計算機學院,河北 保定 071002)

產品評論中領域情感詞典的構建

郗亞輝

(河北大學 數學與計算機學院,河北 保定 071002)

領域情感詞典是情感分析最重要的基礎。由于產品評論的數量巨大、領域眾多,如何自動構建領域情感詞典已經成為近年來的一個研究熱點。該文提出了一個兩階段的領域情感詞典構建算法。第一階段,利用情感詞間的點互信息和上下文約束,使用基于約束的標簽傳播算法構造基本情感詞典;第二階段,根據情感沖突的頻率來識別領域相關情感詞,并根據其上下文約束以及修飾的特征完善領域情感詞典。實驗結果表明,該方法在實際產品評論數據集上取得了較好的效果。

情感分析;領域情感詞典;上下文約束;基于約束的標簽傳播算法

1 引言

飛速發展的Web技術及電子商務正在極大改變著人們的工作和生活方式,越來越多的人習慣于網上購買商品,網絡也成為各種產品的重要銷售渠道。為了提高消費者的購物體驗,電子商務網站大都允許消費者對其購買的產品發表評論。在這些產品評論中,包含了大量的消費者對產品各方面特征的評價觀點信息。這些信息不僅可以幫助消費者全面、綜合地了解其他消費者對產品的評價,從而挑選出更適合自己的產品;還可以幫助生產廠商通過評論來了解自己產品的優點以及不足,從而改進產品的設計、獲得競爭優勢[1-2]。

網絡上存在著大量的產品評論,有些熱門商品可能包含成千上萬的評論。巨大的評論數量使得消費者和生產廠商很難通過人工對產品評論進行分析和處理,獲取產品評論中包含的大量有用信息。因此,以獲取產品評論中有用信息為目標的非結構化數據挖掘技術——“評論挖掘”,吸引了越來越多學者的關注。

評論觀點的情感分析是產品評論挖掘的基本任務之一[1],其目標是準確識別出消費者對產品不同特征所發表評價觀點的情感傾向——褒義或貶義。情感詞或詞組是人們表達觀點的最基本的語言單元,情感詞典則是情感分析的基礎。近年來,很多學者已經建立了一些情感詞典,例如,General Inquirer[3],Liu提供的情感詞典[1],SentiWordNet[4],知網的情感分析用詞語集[5],臺灣大學的NTU 情感詞典[6]以及大連理工大學的情感詞匯本體庫[7]。這些詞典主要是以手工或半自動的方式編輯生產,其領域適應性受到限制。

有些情感詞在不同領域中具有不同的情感傾向,甚至在同一領域中當修飾不同產品特征時也具有不同的情感傾向。例如,在手機評論中,“高”修飾“價格”時表示褒義,而修飾“屏幕分辨率”時表示貶義。因此,使用通用的情感詞典無法準確獲取這些領域相關情感詞的情感傾向。由于產品評論的數量巨大、領域眾多,不可能依靠領域專家人工建立領域情感詞典。所以如何自動或半自動地建立領域情感詞典已經成為情感分析的重要工作。

本文的主要工作是討論如何利用情感詞的共現信息以及情感詞上下文的先驗知識來自動建立領域情感詞典。我們的工作基于以下兩個假設: (1)在產品評論中,情感詞之間存在一些固有的先驗知識。例如,并列關系的情感詞往往具有相同的情感傾向,而轉折關系的情感詞往往具有相反的情感傾向; (2)領域情感詞典中的情感詞可以分為領域無關和領域相關的兩部分。領域無關的情感詞在不同領域中保持相同的情感傾向,而領域相關的情感詞在不同領域中可能具有不同的情感傾向。依靠一些先驗知識,可以通過上下文中領域無關情感詞的情感傾向來推測領域相關情感詞的情感傾向。例如,在句子“屏幕大,外觀漂亮”中,雖然我們不知道“大”的情感傾向,但我們可以通過“漂亮”來推測“大”的情感傾向。

基于上面的假設,本文在文獻[8]的基礎上提出了一個兩階段的領域情感詞典構造方法。第一階段,利用情感詞間的共現信息和上下文約束關系,使用基于約束的標簽傳播算法構造基本情感詞典,為每一個情感詞分配固定的情感傾向;第二階段,識別領域相關情感詞,并根據其在語料中的上下文信息對情感詞修飾的不同特征分配不同的情感傾向。

2 相關研究

近年來,情感詞典的構建已經成為很多學者關注的問題。情感詞典構建的方式主要分為兩類: 基于詞典資源的方法和基于語料庫的方法。

2.1 基于詞典資源的方法

基于詞典資源的方法主要利用現有的一些詞典資源(例如,英文的WordNet、GI,中文的HowNet、同義詞詞林)中詞之間的同義詞、反義詞等聯系以及詞的注釋來建立情感詞典。

Hu和Liu[9]人工選取了一些褒義和貶義的形容詞作為種子集,并利用WordNet的同義詞和反義詞聯系對種子集進行擴展建立情感詞典。Kamps等[10]利用WordNet的同義詞集構建形容詞之間的聯系,如果兩個形容詞是同義詞則在它們之間建立一條邊,從而構成了一張圖。情感詞的傾向由其在圖中與“good”和“bad”的最短距離決定。Rao和Ravichandran[11]利用WordNet的同義詞、上位詞聯系來構建詞之間的邊,從而形成了一張圖。同時,給出了一個包含褒義和貶義詞的訓練集,使用基于圖的半監督學習算法mincuts、randomized mincuts和label propagation將圖中的點劃分為褒義和貶義兩類。Esuli等[4,12]人工建立了褒義詞、貶義詞、中性詞種子集,利用WordNet的同義詞聯系來擴展種子集,然后利用擴展結果同義詞集的注釋文本作為訓練集建立分類器來判斷詞的情感傾向。

朱嫣嵐等[13]選擇了k對褒義、貶義的基準詞,利用HowNet的語義相似度和語義相關場兩種計算方法,計算一個詞與褒義和貶義基準詞集的相似度的差值作為該詞的情感傾向分值。路斌等[14]利用同義詞詞林中的同義詞詞群,根據褒貶義種子詞進行擴展,從而建立情感詞典。徐琳宏等[7]結合現有的一些詞典、語義網絡資源以及情感語料,采用手工情感分類和自動獲取強度兩種方法構建了情感詞匯本體。周詠梅等[15]首先利用HowNet獲取中文詞語對應的各項英文義元;其次使用SentiWordNet數據庫檢索每個英文義元所處的各個同義詞集合;接著計算這些同義詞集合的平均情感強度值得到每個義元的情感傾向性強度值;最后計算各項義元的平均情感強度值,即得到中文詞語的情感傾向強度值。

2.2 基于語料庫的方法

基于語料庫的方法假設在語料庫中共同出現的情感詞擁有相同的情感傾向,利用語料中的共現信息、上下文信息等計算情感詞的情感傾向。

Turney[16]利用一些特定的語法模式抽取形容詞和副詞作為候選情感詞,然后計算情感詞與“excellent”和“poor”之間的點互信息(PMI)的差值來判別其情感傾向。PMI 使用搜索引擎 AltaVista 返回的 hits 值計算每個詞與種子情感詞的相似度。Turney和Littman[17]進一步將初始的褒義和貶義詞種子集擴展為七個詞,并計算詞和種子集點互信息的綜合值來判斷情感詞的情感傾向。Hatzivassiloglou等[18]利用大規模語料中的連接詞來識別形容詞的情感傾向,首先使用對數線性回歸模型(log-liner regression model)預測由不同連接詞連接的形容詞對是否具有相同或相反的情感傾向,然后根據形容詞之間的聯系利用聚類算法將形容詞聚為褒義和貶義的兩類。Kanayama和Nasukawa[19]提出了一種無監督的算法建立領域情感詞典。首先,他們建立了初始的具有明確情感傾向(詞的情感傾向和領域無關)的情感詞典,然后通過分析領域相關語料中語句內部和語句間的文本和連接詞來獲取新詞的情感傾向從而擴展情感詞典,最終形成特定領域的情感詞典。Ding和Liu[20]考慮了即使在同一領域中,修飾不同產品特征時某些情感詞也具有不同的情感傾向,利用語句內和語句間的文本和連接詞來判斷描述特定產品特征的情感詞的情感傾向。Lau等[21]不僅利用了情感詞之間的上下文關系,而且利用了文檔和情感詞間的關系來建立領域情感詞典。Huang等[8]使用句法分析和主觀線索字典抽取情感詞,然后根據PMI建立情感詞之間的聯系圖,并抽取語言學規則(例如,un、dis等前綴修飾的詞一般和原詞表示相反的情感傾向)以及語料中的并列、轉折關系作為限制條件。結合情感詞間的聯系圖以及限制條件,利用基于約束的標簽傳播算法來獲取情感詞的情感傾向。

王素格,李德玉等[22]在利用PMI計算中文詞的情感傾向時,除了考慮一個詞和褒義詞、貶義詞種子集的關系外,還考慮了該詞和其同義詞集的關系,同時基于詞的類別區分能力提出了特定領域中褒義詞和貶義詞種子集的選取方法。杜偉夫等[23]將詞語情感傾向計算問題歸結為優化問題,首先利用HowNet相似度和PMI值構建情感詞間的無向圖,然后利用以“最小切分”為目標的目標函數對該圖進行劃分,并使用模擬退火算法進行求解。

3 算法描述

本文提出了一個兩階段的領域情感詞典構造方法。第一階段,使用情感詞間的PMI統計值和上下文約束關系建立情感詞間的相似性矩陣,然后利用基于約束的標簽傳播算法在情感詞褒貶義種子集上不斷迭代來構造基本情感詞典,為每一個情感詞分配固定的情感傾向。第二階段,根據情感詞出現情感沖突的頻率來識別領域相關情感詞,并根據其在語料中的上下文信息對修飾的不同產品特征分配不同的情感傾向。

3.1 領域情感詞典

領域情感詞典由一系列特定領域中的情感詞及其情感傾向構成,我們將領域情感詞典的每一個元素定義為一個四元組 (D,W,F,P)。其中,D表示情感詞典的適用領域;W表示情感詞;F表示情感詞修飾的產品特征,如果情感詞在特定領域中表示相同的情感,則F表示為“ALL”;P表示情感詞的情感傾向(褒義為1,貶義為-1)。

3.2 產品特征及其情感詞的獲取

為了構建領域情感詞典,需要抽取產品評論中所包含的產品特征及其對應的情感詞。產品特征及其情感的抽取是產品評論挖掘的基本工作之一,很多學者已經提出了各種算法來完成這項工作[1,24-26]。本文利用雙向傳播算法[26]完成產品特征及其情感詞的抽取工作。雙向傳播算法利用情感詞和產品特征之間、情感詞之間、產品特征之間的句法依存關系模式抽取產品特征和情感詞,不需要標注大量的訓練數據,只需要一部分情感詞種子,利用特定的句法依存關系模式不斷迭代來獲取新的產品特征和情感詞,并對抽取的產品特征和情感詞進行排序以提高準確率。雙向傳播算法定義了四類規則來抽取產品特征和情感詞(表1)。使用規則R1i利用情感詞抽取情感詞,使用規則R2i利用情感詞抽取產品特征,使用規則R3i利用產品特征抽取產品特征,使用規則R4i利用產品特征抽取情感詞。

表1中第二列是產品特征和觀點之間的句法依存關系模式,第三列是抽取規則的限制條件,最后一列是結果。箭頭代表著句法依存關系,例如,“S→S-Dep→F”表示S通過依存關系S-Dep依存于F。

表1 產品特征和情感詞的抽取規則

表中,s(f)表示抽取的觀點(產品特征),{S}({F})和S-Dep(F-Dep)表示已獲取的觀點(產品特征)以及其句法依存關系,H表示任意單詞。POS(S)(POS(F))是S(F)的詞性信息。{JJ}和{NN}、{NN,VV}是觀點和產品特征應滿足的詞性集。本文抽取形容詞作為觀點,名詞和動詞作為產品特征。{MR}代表產品特征和觀點間可能存在的依存關系,例如,SBV,VOB,ATT等。{CONJ}表示并列連詞依存關系。

3.3 產品評論中情感詞的上下文約束

情感詞的上下文約束是指情感詞和其上下文的情感詞間,由于存在并列、轉折等關系,從而保持相同或相反的情感傾向。一些學者已經將這些關系運用到情感分析中[8,18-21]。本文提取了以下四種情感詞間的上下文約束。

(1) 并列關系

具有并列關系的兩個情感詞一般具有相同的情感傾向。例如,“外觀美麗、大方”。

(2) 轉折關系

具有轉折關系的兩個情感詞一般具有相反的情感傾向。例如,“屏幕分辨率雖然比較低,但是顯示效果不錯。”

(3) 語句內情感關系

產品評論中,經常在同一句話中出現對多個產品特征的評價,這些評價的情感詞往往具有相同的情感傾向。例如,“外觀大方,屏幕分辨率很高,價格實惠。”

(4) 語句間情感關系

產品評論中,人們經常在相鄰的句子中表達相同的情感傾向。例如,“屏幕分辨率高,色彩鮮艷。電池續航時間長。”

3.4 基本情感詞典的構造

3.4.1 情感詞聯系圖

(1)

3.4.2 約束傳播

PMI利用了兩個情感詞間的共現統計信息,但是沒有考慮兩個情感詞間的上下文語義約束信息(例如,并列、轉折關系等)。為了利用情感詞間的上下文語義約束,我們提取了四種約束: 并列關系、轉折關系、語句內情感關系、語句間情感關系。我們將一般具有相同情感傾向的并列關系、語句內情感關系、語句間情感關系定義為正向約束關系,一般具有相反情感傾向的轉折關系定義為反向約束關系。

(2)

但這些約束關系只能影響與其相關的局部情感詞,而不能擴展到整個情感詞集[21]。我們將抽取的上下文約束進一步傳播,作為先驗知識以修正情感詞間的相似性矩陣A,其算法如下:

(1) 基于相似矩陣A構造權重矩陣W如式(3)所示。

(3)

(2) 構造矩陣S=Z-1/2WZ-1/2,Z是對角矩陣,其第i行i列的值等于W第i行值的和。

(3) 通過式(4)進行垂直傳播,直到收斂。

(4)

(4) 通過式(5)進行水平傳播,直到收斂。

(5)

3.4.3 基于約束的標簽傳播

標簽傳播算法是一個優秀的基于圖的半監督學習算法,具有很好的效率和收斂性[27]。本文結合經過約束傳播修正的情感詞相似性矩陣A和標簽傳播算法來計算情感詞的情感傾向,構造基本情感詞典。

結合約束傳播的結果,對相似性矩陣A進行式(6)修正。

(6)

(7)

(1) 按如下公式更新情感傾向向量ft的值,每個情感詞的情感傾向都受其相鄰情感詞情感傾向的影響如式(8)所示。

ft+1=Tft

(8)

(2) 將情感詞種子集對應的向量元素值復原如式(9)所示。

(9)

(3) 重復上述過程直到收斂。

收斂后,可以得到情感傾向向量ft。如果情感詞對應的向量元素的值大于0,則認為其情感傾向是褒義的。如果情感詞對應的向量元素的值小于0,則認為其情感傾向是貶義的。

3.5 領域相關情感詞的識別

(1) 獲取所有特征情感詞實例集合FO;

(2) 遍歷FO中的特征情感詞實例對(foi,foi+1);

(3) 如果foi和foi+1的情感詞間不存在正向和反向約束關系,跳轉到(2);

獲取領域相關情感詞集DS后,可以根據這些情感詞修飾的產品特征進一步修正基本情感詞典,從而得到領域相關情感詞典,其算法如下。其中,集合OFS是四元組(W,F,Pos,Neg)的集合,W表示情感詞,F表示情感詞修飾的產品特征,Pos表示褒義傾向的計數,Neg表示貶義傾向的計數。

(1) 獲取所有特征情感詞實例集合FO;

(2) 遍歷FO中的特征情感詞實例foi;

(3) 如果foi的情感詞xm∈DS,尋找foi的前后實例foi-1和foi+1;

(4) 將foi-1和foi+1中優先級較大的賦予fo′,優先級順序為并列關系、轉折關系、語句內情感關系、語句間情感關系;

(5) 如果fo′中情感詞為褒義,則在OFS中尋找與fo′的產品特征和情感詞對應的四元組(W,F,Pos,Neg),并將Pos的值加1,跳轉到(2);

(6) 如果fo′中情感詞為貶義,則在OFS中尋找與fo′的產品特征和情感詞對應的四元組(W,F,Pos,Neg),并將Neg的值加1,跳轉到(2);

(7) 遍歷集合OFS,根據Pos和Neg中較大的值來決定其情感傾向并加入到領域情感詞典中。

4 結果分析

4.1 實驗數據

本文的產品評論數據都取自一些電子商務網站以及評論網站。網絡上存在著大量的電子商務網站以及評論網站,經過分析我們選擇了亞馬遜、京東商城、中關村在線、it168這四個典型的網站作為我們評論數據的來源。電子產品是網絡上評論數量最多的一類產品,本文選擇了以上網站中的手機、數碼相機這兩種典型電子產品的評論來構造實驗用的評論數據集。表2給出了數據集中評論和句子的數量。

表2 實驗數據集

4.2 產品特征和情感詞抽取及約束關系分析

產品特征及其對應情感詞的抽取是構建領域情感詞典的基礎工作。本文利用雙向傳播算法同時抽取產品特征及其情感詞,抽取結果的準確率和召回率見表3。

表3 產品特征及其情感詞的抽取結果

情感詞在上下文中的并列關系、轉折關系、語句內情感關系、語句間情感關系是我們工作的重要基礎。我們在這些關系的基礎上利用基于約束的標簽傳播算法建立基本情感詞典,并進一步利用這些關系完善了領域情感詞典。這四種情感詞上下文約束關系在語料中所占的比例以及置信度見表4。

表4 語料中不同上下文約束關系所占的比例及置信度

4.3 實驗結果

本文提出了一個兩階段的領域相關情感詞典構造方法。為了驗證該方法的有效性,我們在表5中對比了幾種不同算法的結果。其中,HowNet代表文獻[12]中基于HowNet語義相似度的方法;Cilin代表文獻[13]中基于同義詞詞林的方法;PMI代表在當前語料庫中基于PMI的方法;ChConsLP代表針對中文語料改進后的文獻[21]中方法,但只使用了并列和轉折兩種關系;ImChConsLP代表本文提出的方法。為了便于比較,表5的結果都是基于領域內選擇的十對褒貶義種子集。

表5 實驗結果

從表5的結果中可以看出,本文提出的方法在兩個領域中都取得了最好的F-measure值。HowNet和《同義詞詞林》都是手工編制的詞典,包含了大量詞匯,因此HowNet和Cilin這兩種方法的召回率都比較高。但這兩種方法都沒有考慮領域情感詞的情感傾向,因此準確率較低。PMI利用語料上的點互信息統計值來計算情感詞的情感傾向,相對于HowNet和Cilin來說具有更高的準確率。但對于一些語料中出現頻率較少的情感詞存在數據稀疏的問題,因此召回率較低。ChConsLP和ImChConsLP相對于PMI在準確率和召回率上都取得了更好的效果,證明了情感詞的上下文約束關系和標簽傳播算法的有效性。同時,ImChConsLP比ChConsLP在準確率和召回率上都有所提高,證明了本文提出方法的有效性。

本文使用了并列關系、轉折關系、語句內情感關系、語句間情感關系來建立基本情感詞典以及修正領域情感詞典。表6對比了使用不同上下文約束關系以及修正領域情感詞典的效果。其中,ChConsLP使用了并列關系和轉折關系,ChConsLP1在ChConsLP的基礎上增加了語句內情感關系和語句間情感關系,ImChConsLP在ChConsLP1的基礎上利用四種上下文約束關系以及情感詞修飾的特征進行了領域情感詞典的修正。

表6 使用不同上下文約束關系及修正領域情感詞典的結果

從表6的結果中可以看出,加入了語句內情感關系和語句間情感關系后準確率和召回率都有所提高,證明了語句內情感關系和語句間情感關系能有效提高情感傾向計算的效果。ImChConsLP利用四種上下文約束關系計算情感沖突頻率來識別領域相關情感詞,并利用情感詞在語料中的上下文信息對其修飾的不同特征分配不同的情感傾向,從而進一步提高了準確率。但由于修飾不同產品特征時具有不同情感傾向的情感詞在整個語料中所占比例較小,因此準確率的改善較小。

表7對比了褒貶義種子數量對實驗結果的影響。從結果中可以看出: (1)隨著種子數量的增長,準確率和召回率都有所提高,但對召回率的影響較小。(2)當種子由五對變成十對時,在手機語料中準確率提高了1.7%,在數碼相機語料中準確率提高了1.2%。當再增加更多種子時,準確率提高并不顯著。因此,本文提出的算法使用較小的種子集就可以得到較好的效果。

表7 褒貶義種子數量對實驗結果的影響

5 結論和進一步的工作

情感詞典是進行情感分析的基礎。但有些情感詞在不同領域中具有不同的情感傾向,甚至在同一領域中修飾不同產品特征時也具有不同的情感傾向。因此,建立領域情感詞典能更好地識別情感詞的情感傾向。本文提出了一個兩階段的領域情感詞典構建方法,并在手機和數碼相機兩種電子產品評論語料集上驗證了該方法的有效性。同時,使用較小的種子集就可以取得理想的準確率和召回率。本文只判別了情感詞的情感傾向,如何判斷情感傾向的強度將是今后工作的一個重要問題。

[1] M HU, B LIU. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004: 168-177.

[2] A M Popescu, O Etzioni. Extracting product features and opinions from review[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing, 2005: 339-346.

[3] P Stone, D Dunphy, M Smith, et al. The General Inquirer: A Computer Approach to Content Analysis[M]. Cambridge: MIT Press, 1966.

[4] S Baccianella, A Esuli, F Sebastian. SENTIWORDNET3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation, 2010: 2200-2204.

[5] 知網, 董振東: http://www.keenage.com/[EB/OL].

[6] L W Ku, H H Chen. Mining Opinions from the Web: Beyond Relevance Retrieval[J]. Journal of the American Society for Information Science and Technology.2007, 58(12): 1838-1850.

[7] 徐琳宏,林鴻飛,潘宇,等. 情感詞匯本體的構造[J]. 情報學報, 2008, 27(2): 180-185.

[8] S Huang, Z Niu, C Shi. Automatic Construction of Domain-specific Sentiment Lexicon Based on Constrained Label Propagation[J]. Knowledge-Based Systems, 2013, 56: 191-200.

[9] M HU, B LIU. Mining Opinion Features in Customer Reviews[C]//Proceedings of 9th National Conference on Artificial Intelligence, 2004: 755-760.

[10] J Kamps, M Marx, R J Mokken, et al. Using Wordnet to Measure Semantic Orientations of Adjectives[C]//Proceedings of the 4th International Conference on International Language Resources and Evaluation, 2004: 1115-1118.

[11] D Rao, D Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of the 12thConference of the European Association of Computational Linguistics, 2009: 675-682.

[12] A Esuli, F Sebastiani. Sentiwordnet: A Publicly Available Lexical Resource for Opinion Mining[C]//Proceedings of the 5th Conference on Language Resources and Evaluation, 2006: 417-422.

[13] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006, 20(1): 14-20.

[14] 路斌,萬小軍,楊建武,等. 基于同義詞詞林的詞匯褒貶計算[C] . 第七屆中文信息處理國際會議論文集. 武漢, 中國: 電子工業出版社, 2007: 17-23.

[15] 周詠梅,楊佳能,陽愛民. 面向文本情感分析的中文情感詞典構建方法[J]. 山東大學學報(工 學 版), 2013,43(6): 27-33.

[16] P D Turney. Thumbs Up or Thumbs Down?: Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 417-424.

[17] P D Turney, M L Littman. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transaction on Information System, 2003, 21(4): 315-346.

[18] V Hatzivassiloglou, K R McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 8th Conference on European Chapter of the Association for Computational Ling, 1997: 174-181.

[19] H Kanayama, T Nasukawa. Fully Automatic Lexicon Expansion for Domain-Oriented Sentiment Analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006: 355-363.

[20] X Ding, B Liu. The Utility of Linguistic Rules in Opinion Mining[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007: 811-812.

[21] R Y K Lau, C L Lai, P D Bruza, et al. Leveraging Web 2.0 Data for Scalable Semi-supervised Learning of Domain-specific Sentiment Lexicons[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management, 2011: 2457-2460.

[22] 王素格, 李德玉, 魏英杰, 等. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學報, 2009,23(5): 68-74.

[23] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計算方法[J]. 計算機研究與發展, 2009, 46(10): 1713-1720.

[24] G Qiu, B Liu, J Bu et al. Expanding domain sentiment lexicon through double propagation[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence,2009: 1199-1204.

[25] L Zhang, B Liu, S H Lim, et al. Extracting and ranking product features in opinion documents [C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010: 1462-1470.

[26] Y Xi. 產品評論特征及觀點抽取研究[J]. 情報學報, 2014,33(3): 326-336.

[27] F Wang, C Zhang. Label Propagation through Linear Neighborhoods[C]//Proceedings of the 23rd International Conference on Machine Learning, 2006: 985-992.

Construction of Domain-specific Sentiment Lexicon in Product Reviews

XI Yahui

(College of Mathematics and Computer Science, HeBei University, Baoding, Hebei 071002,China)

Domain-specific sentiment lexicon plays an important role in sentiment analysis system. Due to the huge number of the product review in diverse domains , automatic construction of domain-specific sentiment lexicon is a challenging task. This paper proposes a two-phrase automatic construction algorithm of domain-specific sentiment lexicon. In the first phrase, the constrained label propagation algorithm is applied to the construction of base sentiment lexicon by using PMI and contextual constraints. In the second phrase, the domain-specific sentiment words are exacted by the frequency of sentiment conflict, and the domain-specific sentiment lexicon is improved according to the contextual constraints and the product feature modified by the sentiment word. Experiments on diverse real-life datasets show promising results.

sentiment analysis; domain-specific sentiment lexicon; contextual constraints; constrained label propagation algorithm

郗亞輝(1977-),副教授,主要研究領域為文本挖掘、信息檢索。E?mail:xiyahui@hbu.edu.cn

1003-0077(2016)05-0136-09

2014-12-04 定稿日期: 2015-06-09

國家自然科學基金(61170039)

TP391

A

猜你喜歡
特征情感產品
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 日本高清免费一本在线观看| 91免费观看视频| 国产精品入口麻豆| 亚洲AV电影不卡在线观看| 最新国产高清在线| 国产91在线免费视频| 人妻少妇乱子伦精品无码专区毛片| 91欧美亚洲国产五月天| 国产人成网线在线播放va| 九九这里只有精品视频| jizz在线观看| 亚洲国产中文在线二区三区免| 免费不卡视频| 91在线视频福利| 日韩乱码免费一区二区三区| 噜噜噜久久| 无码福利视频| 亚洲综合18p| 欧美一区二区自偷自拍视频| 日韩黄色在线| 99久久精品国产综合婷婷| 91精品专区国产盗摄| www.youjizz.com久久| 97se亚洲综合在线韩国专区福利| 99视频精品全国免费品| 91 九色视频丝袜| 欧美日韩激情在线| 日韩成人免费网站| 亚洲一区毛片| 亚洲va在线∨a天堂va欧美va| 野花国产精品入口| 九九精品在线观看| 亚洲天堂在线免费| 亚洲国产清纯| 国产剧情国内精品原创| 亚洲中字无码AV电影在线观看| 激情乱人伦| 欧美啪啪网| 国产精品成人不卡在线观看 | 日本国产精品一区久久久| 黄色a一级视频| 91精品啪在线观看国产91九色| 国产区免费精品视频| 国模沟沟一区二区三区| 亚洲成人www| 久久久久久高潮白浆| 人人91人人澡人人妻人人爽 | 手机在线国产精品| 亚洲专区一区二区在线观看| 久热这里只有精品6| 亚洲永久视频| 国产精品综合久久久| 99精品高清在线播放| 亚洲人成在线精品| 国产一级毛片高清完整视频版| 亚洲AV成人一区国产精品| 免费毛片a| 亚洲中久无码永久在线观看软件| 国产超薄肉色丝袜网站| 中国国产高清免费AV片| 免费精品一区二区h| 国产欧美精品一区二区| 国产精品一区二区无码免费看片| 亚洲天堂视频网站| 天堂网国产| 呦系列视频一区二区三区| 性色在线视频精品| 亚洲欧洲免费视频| 在线观看无码av五月花| 免费aa毛片| 免费无码网站| 国产三级精品三级在线观看| 大香伊人久久| 青青草原国产一区二区| 日韩欧美中文亚洲高清在线| 国产精品黑色丝袜的老师| 国产欧美高清| 97亚洲色综久久精品| 亚洲资源站av无码网址| 熟妇丰满人妻| 成人福利在线观看| 老熟妇喷水一区二区三区|