999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

領域情感詞典構建方法研究

2020-01-19 03:33:58李楓林范雅嫻武漢大學信息管理學院
圖書館理論與實踐 2019年12期
關鍵詞:情感方法

李楓林,范雅嫻(武漢大學信息管理學院)

情感詞典一般是帶有情感色彩的詞或詞組及其相對應情感極性或強度的集合,如,表示積極態度正向情感詞開心、幸福、漂亮等,表示否定或者消極態度的負向情感詞傷心、難看、害怕等。在文本情感分析中,情感詞典不僅可以取代人工對大規模文本進行自動情感標注,[1-2]提高分詞效率,還可以結合一系列語義規則或機器學習算法進行文本情感分析,[3]領域情感詞典更是在其中發揮著極其重要的作用。

1 研究背景

情感詞典按照應用范圍可以劃分為通用情感詞典和領域情感詞典。通用情感詞典能夠涵蓋大部分語料中的情感詞,可以用來對任一領域的文本語料進行分析,大多是根據詞間關系(如同、反義關系)依賴于已有的開源情感詞典進行構建。Hu等采用此方法對網上銷售產品的客戶評論的情感傾向進行分析,他們先找到出現頻率較多的產品特征,圍繞產品特征找到用來表達意見的相關情感詞,再經過人工構建正、負向兩個情感種子集合,利用WordNet判斷新詞情感極性,通過循環迭代得到(最終完整的情感詞典。[4]Kamps等利用WordNet構建了一個同義詞網絡,針對某一形容詞,通過計算該詞與“good”和“bad”之間的語義距離即迭代次數判斷該詞的情感極性。[5]Andreevskaia等則將詞典中詞的釋義看做是已被標注極性的語料庫,通過遍歷種子詞的釋義并識別其中的情感詞來擴充正、負種子詞集,構建通用情感詞典。[6]

在構建方面,通用情感詞典通常僅根據詞義關系進行擴展,在一系列的迭代過程中,由于詞與詞之間的關系錯綜復雜,所構建的詞典往往準確率不高,需要人工進行篩選審查,費時費力。在應用方面,一方面,由于在不同領域中存在一詞多義的現象,導致通用情感詞典在某一特定領域中的情感分類準確度不高;另一方面,在通用情感詞典中,并未收錄時下的一些新詞或流行詞匯,在用于社交網絡情感分析任務時,可能無法準確判斷情感極性。因此,構建一個全面的領域情感詞典以辨析特定領域情感的性能至關重要。

領域情感詞典是指利用某一特定領域的大量語料所構建的情感詞典,用來對這一領域的文本語料進行分析。目前,在文本分析方面的研究都是針對某一特定領域的語料如微博、商品評論等進行情感分析,與通用情感詞典相比,領域情感詞典在用于特定領域的具體情感分析任務中精確度更高,總體更具實用性。本文對領域情感詞典構建的實現技術或方法進行分析,指出每種方法的優缺點,總結了所構建情感詞典的性能評估方法,為領域情感詞典的構建方法研究提供借鑒,為后續情感分析研究提供良好的基礎。

2 領域情感詞典的構建方法

領域情感詞典大多依賴語料庫進行構建,針對某一領域更具實用性,本文將領域情感詞典的構建方法歸納為基于統計的方法、基于關系圖傳播的方法、基于詞向量的方法等。

2.1 基于統計的方法

基于統計的方法主要是利用一些統計信息(如詞頻等),或者借助統計思想(假設檢驗)來構建情感詞典。本文將基于統計的方法歸納為兩種:基于PMI情感傾向的情感傾向點互信息法和基于卡方統計量的方法。

2.1.1 基于PMI的情感傾向點互信息法

點間互信息(PMI)主要用于計算詞語間的語義相似度,基本思想是統計兩個詞語在文本中同時出現的概率,如果概率越大,其相關性就越緊密,關聯度越高。[7]兩個詞語word1與word2的PMI值計算公式如下式所示。

P(word1&word2)表示兩個詞語 word1與 word2共同出現的概率,P(word1)與P(word2)分別表示兩個詞語單獨出現的概率,若兩個詞語在數據集的某個小范圍內共現概率越大,表明其關聯度越大;反之,關聯度越小。

情感傾向點互信息算法(SO-PMI)是將PMI方法引入計算詞語的情感傾向中,從而達到捕獲情感詞的目的,[8]其計算公式如下式所示。

其中,word1是未確定情感極性的情感詞,Pword和Nword為正負情感種子詞。最終差值大于某一閾值時,word1為正面情感詞;反之則為負面情感詞,從而據此判斷情感詞的情感極性,得到情感詞的情感強度。

在英文微博領域情感詞典的構建中,Mohammad等提出將表情符號作為情感標簽,通過在單詞和表情符號之間計算點相互信息(PMI)來收集情緒詞匯,計算SO-PMI值作為詞的情感值。[9]趙妍妍等基于海量的微博數據,人工選取表情符作為情感種子,選取unigram、bigram、trigram作為候選情感詞語,同樣利用PMI計算候選詞與表情符間相關性,用SO-PMI計算候選詞情感傾向,構建了一個十萬詞語/詞組的大規模情感詞典。[10]

基于PMI的情感傾向點互信息法主要是依據統計思想來度量詞與詞之間的相關性,進而確定某個詞的情感極性及強度,方法對于大多數的語料是通用的。然而,這種方法只是統計詞語共同出現的頻率,并沒有考慮語句間的邏輯關系,如“這本書內容挺好的,但是拿著太重了”,若未考慮句中的轉折關系,在判斷“好”和“重”的情感極性時就會出錯,認為極性一致。還有“這本書內容挺好的,而且一點都不重”,未考慮情感詞前的否定詞,反而會把“好”和“重”劃分為同一極性。另外,此種方法構建情感詞典需事先指定情感種子詞集,并且只適用于正、負兩類情感類別詞典的構建。

2.1.2 基于卡方統計量的方法

卡方統計量在構建情感詞典時,與PMI作用有所不同,往往用來計算情感詞與某一特定情感類別之間的相關性。卡方統計量越大,相關性越強;卡方統計量越小,相關性越弱。檢驗情感詞wi與某類情感cj的相關性計算公式如下式所示:

其中,N表示語料庫中句子的總數量;Aij表示情感類別cj中包含情感詞wi的句子數量;Bij表示包含情感詞wi但不屬于情感類別cj中的句子數量;Cij表示情感類別cj中不包含情感詞wi的句子數量;Dij表示不包含情感詞wi且不屬于情感類別cj中的句子數量。

在情感詞典的構建中,卡方統計值可以計算出情感詞與特定情感類別之間的相關性,從而判斷情感詞的正負極性或情感類別。桂斌等通過識別微博表情符號,從微博平臺中抓取大量帶有表情符號的微博文本,并依據表情符號對微博文本進行情感傾向標注,生成情感語料庫。對語料庫分詞處理,得到候選情感詞,統計每個情感詞在正向和負向語料庫中出現的次數,計算情感詞的卡方統計量,得到詞與正向微博個數的相關性,從而獲得情感強度,再根據情感詞在正負微博文本中出現的概率判定情感詞的傾向性,進而生成情感詞典。[11]

卡方統計量不僅可以用于計算情感詞與正、負二元情感類別的相關性,也可以用于計算與多元情感類別之間的相關性。如王名揚等以大連理工大學本題庫中的高興、喜好、憤怒、悲傷、恐懼、厭惡、驚訝作為七個情感類別。以表情符號作為情感標簽,將微博語料中只包含一種表情符號的句子對應到特定的情感類別中進行預處理,分詞得到候選情感詞。通過計算候選情感詞與七個情感類別的卡方統計量、情感覆蓋度Qcij以及累積覆蓋度 Qcj,將累積覆蓋度Qcj達到90%的候選情感詞加入對應情感類別中,最終構建出一個含有七元情感類別的微博領域情感詞典。[12-13]

基于卡方統計量的方法依據統計思想來度量詞與類之間的相關性,從而確定詞的情感類別及情感強度。與基于PMI的情感傾向點互信息法相比,不僅可以用來構建正、負二元情感詞典,也可以用來構建含有多元情感類別的情感詞典,但使用基于卡方統計量的方法構建情感詞典需事先標注語料類別。

表 基于統計的兩種方法比較

2.2 基于關系圖傳播的方法

基于關系圖傳播的方法通常是指依據現有的通用情感詞典構建情感種子詞集,以情感詞作為圖的頂點,利用現有詞典(WordNet)中的詞義關系,或者計算PMI獲得詞間的相似度,并以此作為連接節點的邊的權重,利用詞語之間的聯系來構建圖,然后在圖上用某種圖傳播的算法從已知極性的情感詞開始,迭代推導出語料庫中未知極性情感詞的情感傾向,從而構建出一個較為完善的領域情感詞典。目前常見的關系圖傳播算法有標簽傳播算法、PageRank算法、隨機游走算法等。本文根據關系圖的頂點特征將基于關系圖傳播的方法分為單一頂點圖傳播的方法和多元頂點圖傳播的方法。

2.2.1 單一頂點圖傳播

單一頂點圖傳播的方法,僅將單一情感詞作為圖的頂點,結合相似度和圖傳播算法進行后續的情感傾向判斷。

Huang等借助現有通用詞典和句法依存關系提取語料中的情感詞作為情感種子詞集,利用PMI構建相似性關系圖,通過定義和提取情感詞之間一些成對的約束關系,主要是上下文約束,即連詞and、but,以及反轉形態約束,如“practical”和“impractical”等對文本情感傾向造成的影響,并將它們合并到標簽傳播算法中,用于判斷情感詞的傾向。[14]

由于WordNet中的詞義關系本身就具備完美的圖形分析特性,Montejo-Ráez等人在構建Twitter領域情感詞典時,直接利用WordNet中的同義詞網絡圖結合SentiWordNet中的情感強度值以及隨機游走算法,以同義詞為節點,以語義關系為邊進行連接,通過反復迭代檢索得到術語中的相關情感詞列表,獲得對應的情感極性。[15]

GlavaSǐ等構建情感圖時,使用潛在語義分析衡量詞間的語義相似性,并設定閾值減少邊緣數量來優化情感圖,同時使用PMI、隨機索引、隨機游走算法得到詞間相關性,并結合PageRank算法判斷位置情感詞的情感極性。[16]

另外,在構建情感詞語義圖時,Xiong等提出通過控制窗口的大小來定義局部和全局信息,用于計算情感詞的相似度作為邊緣權重,能夠更加全面、準確地反映語料庫中詞的相關性。[17]

2.2.2 多元頂點圖傳播

在利用基于關系圖傳播的方法構建領域情感詞典時,還可以將表情符號、語義模式等作為輔助元素加入圖頂點中,構成以情感詞和表情符號等作為圖頂點的多元頂點情感圖。

Song等根據出現頻率對微博數據集中的所有單詞進行排名,結合大連理工大學構建的情感詞本體庫,人工為每種情緒選擇五個高頻率的詞作為種子詞。將種子詞和表情符號作為圖頂點組合在一個三層異構圖中,最后利用隨機游走算法確定候選情感詞的情感極性。[18]

為提高評價對象—情感詞對的提取精度,Xu等提出了一個二階段方法。在第一階段,構建了一個情感圖游走算法,將語義模式與情感詞、評價對象一同作為圖頂點,用隨機游走算法計算詞語的置信度,通過過濾一些低置信度的詞語來排除錯誤的情感詞、評價對象;在第二階段,采用自學習策略優化第一階段的結果,濾除高頻噪聲,捕獲長尾詞,可以去除情感圖中錯誤的情感關系和評價對象—情感詞對。再結合圖傳播算法判斷情感詞的情感傾向,能夠大大提高情感詞典構建的準確度。[19-20]

基于關系圖傳播的方法將詞語間的聯系轉換為直觀的圖模型,將詞與詞的聯系以特征的形式融入圖中,同時考慮了句中連詞依存關系等的約束,使情感詞的極性判斷更加準確。然而基于關系圖傳播的方法中,種子詞及準確的詞語間特征的選取是非常重要的,并且圖傳播的算法過程中也可能會出現很多的噪音。如何進一步優化基于關系圖的算法,以及如何選取高質量的種子詞和詞語間特征是該方法需要考慮的重要問題。

2.3 基于詞向量表示的方法

隨著神經網絡和深度學習的不斷發展和應用,詞向量也成為了自然語言處理領域中的一個研究熱點,并在情感詞典構建中的文本表示及相似度計算上發揮著重要的作用。Mikolov等提出了利用深度遞歸神經網絡的Skip-gram模型,他通過對詞或詞組進行預測從而得到其上下文的詞或詞組的向量表示。[21-23]與Skip-gram不同的是CBOW模型,CBOW是利用當前詞的上下文來預測當前詞。

有學者認為,情感詞典的構建可以看作是詞語或詞組層級的情感分類任務。Tang等通過Urban詞典擴展種子詞庫獲得訓練集,構建了一個神經網絡架構,將Twitter文本的情感信息整合到Skip-gram模型詞組向量中,構建了一個大規模的情感詞典。[24]

針對一些訓練得到的向量出現的語義相似而極性相反的情況,Tang等擴展了傳統的C&W模型,構建了三個神經網絡結構,通過在損失函數中加入情感信息得到情感詞的向量表示,使情感詞相似度的測量更加準確。[25]

詞向量的最大特點便是將語義信息用向量的形式進行分布式表示。在構建情感詞典時往往通過計算詞向量間的余弦值得到詞與詞之間的相似度,進而確定詞語的情感傾向或情感值。也可直接通過計算余弦值得到相似度來發現新詞或篩選情感候選詞,從而得到情感分值。Li等構造了一個旅游評論特定領域情感詞典,他們先從現有通用詞典中選取一部分種子詞語,并人工標注情感值,將語料用Word2vec進行向量表示后,通過計算與種子詞之間的余弦距離來表示詞與種子詞之間的相似性,然后優化函數得到候選詞的情感分值。[26]Wang等將微博語料庫中的表情符號提取出來并分類,以人工標注情感強度作為種子,利用Word2vec構建模型進行文本向量表示,通過計算余弦距離迭代發現新詞,并初步得到詞語情感值,最后結合HowNet中的程度副詞確定情感極性和最終情感值。[27]

胡家珩等認為僅僅根據詞向量的相似度來判斷情感詞傾向并不準確,詞向量保留的僅是語義信息而不是情感信息,有時可能會存在語義相近而情感極性相反的情況,因此他在利用相似度篩選候選詞后,使用一個4層全連接神經網絡構建分類器,選擇ReLU作為前幾層的激勵函數,Softmax作為輸出層的激勵函數,交叉熵作為損失函數,Adam作為優化函數,最后訓練情感分類器得到每個候選詞的情感極性,與直接使用詞向量相似度判斷情感極性相比,其準確度更高。[28]

深度學習是自然語言處理中的研究熱點,通過深度學習網絡訓練得到的詞向量具有很好的性質,可以直接利用向量的相似度度量詞語之間的相似關系。用詞向量表示的方法構建情感詞典具有非常廣闊的應用前景,但如何有效地在神經網絡模型中加入文本的情感信息是未來值得關注的問題。

2.4 多種方法的融合

在領域情感詞典的構建中,為了提高情感詞典構建的準確度,有時還會將上述幾種方法結合來構建情感詞典。

在計算SO-PMI的基礎上,可以通過使用一個簡單的神經網絡,結合基于詞向量表示的方法,能夠使情感詞的極性判斷更加高效、準確。[29]Wang等則提出了一種基于層次情感監督表示學習的情感詞典構建方法,計算PMI、SO-PMI作為詞匯級別的情緒注釋,使用Tweet中的標簽作為文檔級別的情緒注釋,構建一個神經網絡框架,通過在詞語和文檔粒度上整合情感監督來學習情感感知詞的表示作為等級情緒監督,構建分類器進行詞匯學習,通過計算詞語在正負之間的概率作為詞語的情感值。最終構建的情感詞典既可以識別文檔中詞語的情感極性,也可以根據文檔中的詞語判斷文檔的情感極性。[30]

此外,Hatzivassiloglou等人認為語句中連詞如and、but、either-or、neither-nor等所連接的情感詞具有一定的情感極性關系。他們從語料文檔中抽取由連詞連接的形容詞對,并證明了由and連接的形容詞對通常具有相同的情感極性,如“The girl is beautiful and cute”,而由but連接的形容詞對通常具有相反的情感極性,如“The girlisbeautifulbutstupid”。[31]當確定部分情感詞時,可以依據這種連詞關系獲取情感詞,以判斷情感詞的極性。Kanayama等在此基礎上進行擴展,針對句子內部和句子之間的情感進行了一致性判別,認為連續的句子往往具有相同的情感傾向,語句的情感傾向與句中含有情感詞的情感極性一致,他們首先建立了已知情感傾向的情感種子集合,然后通過分析領域相關語料中語句內部和語句間內部的文本和連接詞來確定情感詞間的極性關系。[32]因此,在構建情感詞典時,可以利用連詞關系來擴展情感詞以及補充判別情感詞的情感極性。

張璞等將基于詞向量表示的方法和基于關系圖傳播的方法相結合,從現有通用情感詞典中人工選取部分主觀性強的詞語作為種子詞,通過Word2Vec訓練詞向量選取與種子詞相似度高的詞語做為部分情感候選詞,同時在語料上抽取與種子詞具備連詞依存關系的詞語擴充情感候選詞,通過種子詞與候選情感詞之間的相似度構建語義關聯圖,以種子詞與情感候選詞作為圖中的節點,最后利用標簽傳播算法判斷未知節點情感詞的情感傾向。[33]

多方法融合構建情感詞典,可以利用基于PMI的情感傾向點互信息法來篩選情感候選詞,同時利用連詞關系、基于關系圖傳播的方法以及基于詞向量的方法來擴展情感詞,并確定情感詞的極性,這種結合各種方法來構建的情感詞典,可以使所構建的情感詞典更加全面、準確。

3 領域情感詞典性能評估方法

人們通常使用以下兩種方法來評估所構建情感詞典的性能。① 將構建的詞典直接與通用情感詞典或人工標注的情感詞典進行比較,計算精確率P、召回率R和F1值;② 將情感詞典應用到情感分析任務中,通過衡量分類結果的準確性—精確率P、召回率R和F1值來評估情感詞典的性能。計算公式如下。

由于領域情感詞典中的情感詞具有領域性,在特定領域中具有情感傾向的情感詞在通用情感詞典中可能被確認為沒有情感傾向的中性詞,因此針對領域情感詞典,往往選取情感詞典中的部分詞語,采用人工判斷、人工標注的方式進行性能評估。如張璞等人分別用其自己提出和其他學者提出的幾種情感詞典構建方法作為基線方法進行實驗,選取所構建情感詞典中的一定數量的詞語,人工判斷情感極性的正確率,從而判斷所構建情感詞典的性能。[33]

或者將領域情感詞典應用到文本情感分析任務中,通過與標準數據進行對比,計算精確率P、召回率R和F1值來評估所構建情感詞典的性能。朱軍等將采用了Word2Vec+SVM+情感詞典+樸素貝葉斯的集成學習方法進行文本情感分類,對比未使用情感詞典方法的分類結果精確率、召回率和F1值,情感詞典的應用明顯提高了文本極性分類的性能。[34]李勇敢等利用所構建的領域情感詞庫參與情感要素抽取測評任務實驗,將實驗結果的精確率、召回率和F1值與NLPCC(自然語言處理與中文計算會議)中文微博公開評測情感要素抽取評測結果平均值以及最佳結果等進行對比,證明了所構建情感詞庫在要素抽取上的優越性能。[35]

4 結語

本文對領域情感詞典構建的實現方法和技術進行了梳理和歸納,將領域情感詞典的構建方法歸納為:基于統計的方法、基于關系圖傳播的方法、基于詞向量的方法等,分析了各種方法的優缺點,并對領域情感詞典的性能評估方法進行了總結。目前,領域情感詞典的構建已經取得一定的進展,但仍有許多問題值得我們思考和解決。

猜你喜歡
情感方法
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
學習方法
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 极品性荡少妇一区二区色欲| 无码视频国产精品一区二区| 一级福利视频| 亚洲色图欧美| 亚洲无限乱码一二三四区| swag国产精品| 2022国产无码在线| 国产精品尤物铁牛tv| 香蕉国产精品视频| 欧美国产菊爆免费观看| 亚洲狼网站狼狼鲁亚洲下载| 亚洲精品视频免费| 毛片网站在线看| 国产一区二区三区精品久久呦| 久久国产乱子伦视频无卡顿| 视频二区亚洲精品| 成年人午夜免费视频| 亚洲区第一页| 国产成本人片免费a∨短片| 亚洲综合极品香蕉久久网| 中文成人在线视频| 亚洲视频色图| 国产成年女人特黄特色毛片免| 91午夜福利在线观看| 亚洲AⅤ无码日韩AV无码网站| 青青国产在线| 国产毛片网站| 谁有在线观看日韩亚洲最新视频| 免费网站成人亚洲| 国产区免费精品视频| A级毛片无码久久精品免费| 在线毛片免费| 欧洲熟妇精品视频| 国产丝袜啪啪| 日韩国产一区二区三区无码| 国产精品无码一区二区桃花视频| 无码日韩精品91超碰| 亚洲欧洲日韩综合色天使| 99精品伊人久久久大香线蕉| 免费看av在线网站网址| 毛片网站在线播放| 国产AV无码专区亚洲A∨毛片| 5388国产亚洲欧美在线观看| 日本三级精品| 97在线视频免费观看| 亚洲欧洲天堂色AV| 亚洲人成在线精品| 色综合综合网| 日本高清有码人妻| 中文字幕久久亚洲一区| 91原创视频在线| 亚洲无码高清视频在线观看| 亚洲永久色| 国产农村1级毛片| 国产精品性| 亚洲视频在线网| 国产视频你懂得| 久久精品国产国语对白| 亚洲综合色婷婷中文字幕| 国产特一级毛片| 国产手机在线观看| 亚洲欧洲日韩久久狠狠爱| 91久久偷偷做嫩草影院精品| 亚洲国产欧美国产综合久久| 国产亚洲欧美在线视频| 亚洲人成人无码www| 特级精品毛片免费观看| 亚洲综合专区| 久久综合亚洲色一区二区三区| 尤物视频一区| 国产精品久久久久久久久kt| 色综合五月婷婷| 丝袜久久剧情精品国产| 国产精品白浆无码流出在线看| 国产在线视频二区| 久久人人爽人人爽人人片aV东京热| 91视频免费观看网站| 色婷婷综合激情视频免费看| 欧美激情伊人| 高清不卡一区二区三区香蕉| 亚洲综合中文字幕国产精品欧美| 亚洲色图欧美视频|