999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合上下文特征的中文隱式情感分類模型*

2020-03-04 08:34:36潘東行袁景凌盛德明
計算機工程與科學 2020年2期
關鍵詞:分類機制特征

潘東行,袁景凌,李 琳,盛德明

(武漢理工大學計算機科學與技術學院,湖北 武漢 430070)

1 引言

隨著社交媒體用戶的爆發式增長,網絡上積累了海量的文本信息。針對這些文本數據進行情感分析可以幫助挖掘網民行為規律[1]、幫助決策機構了解輿情傾向[2]和改善商家服務質量[3]。因而,針對社交媒體的文本數據情感分析已經成為國內外研究領域的熱點話題。

情感分類作為情感分析基礎性的研究任務,可以根據不同特點進行劃分。根據任務目標,情感分類可以分為常見的極性分類和多元情緒分類[4]。根據情感詞的出現與否,情感分類任務可分為顯式情感分類和隱式情感分類2種。由于帶有顯式情感詞的文本表述在日常生活中占有極高的比例,顯式文本情感分類任務在自然語言處理NLP(Natural Language Processing)領域中已取得了豐富的研究成果[5],而隱式情感分類的相關任務還處于起步階段。對多個領域多個主題網絡文本進行研究可以發現,隱式情感表達占有一部分比例。與顯式情感表達相比,隱式情感表達多采用比較含蓄的方式,如中立性事實描述和諷刺等等。如微博“再訪故地可能還會有別樣的風景,別樣的感受哦!”中,博主并沒有采用明顯的顯式情感詞如“開心”“快樂”等來表達重游故地的開心,但采用了中立性事實表述表達自己內心積極的感受;如博客“是啊,被瘋狗咬了,反正咱們不能再去咬瘋狗了?!敝?,博主采用諷刺的手法表達內心的消極感受。隱式情感分類作為情感分析的重要組成部分,其研究成果將有助于更全面、更精確地提升在線文本情感分析的性能,可為文本表示學習、自然語言理解、用戶建模、知識嵌入等方面的研究起到積極的推動作用,也可進一步促進基于文本情感分析相關領域的應用和產業的快速發展。

然而針對中文的隱式情感分類任務還存在諸多困難。首先在句子語義特征提取上,隱式情感文本采用了較為含蓄的陳述,這給基于詞袋模型的特征提取方法帶來極大的困難。在表達載體上,中文缺乏一些詞形態上的變化,其語義關系和社會、文化等因素密切相關[6],因而在底層語義關系的捕捉上更加困難。其次,在分類方法選擇上,隱式主觀文本缺乏情感詞,這使得傳統基于詞典的情感分類方法不再適用。在分類模型學習句子有效特征時,情感詞的存在可以直觀地判別整個句子的傾向,如文本“今天天氣真好,我喜歡這樣的天氣?!敝?,顯式情感詞“喜歡”暗示了整個句子積極的情感傾向。在學習句子特征表示時,對顯式情感詞特征突出表示,可以提升整個句子分類效果。采用注意力機制的分類模型也采用類似的思想,增加句子中情感詞的比重,從而達到提升分類效果的目的。隱式情感文本不存在顯式情感詞,這對分類模型有了更高的要求。最后,隱式情感表達中事實性情感表達更加依賴上下文的信息,如主觀表達“桌子上有一層灰”,不包含任何情感詞,但在情感類別中傾向于貶義。查詢句子上下文信息,篇章內部表述中包含諸如“簡直太臟了”和“床鋪也不整潔”等重要信息,上下文特征可以輔助中立性表達的情感判別。

word2vec[7]作為底層的詞嵌入技術,可以從海量的語料庫中訓練出合適的詞向量,這些詞向量可以捕捉詞與詞的語義關系,如詞語之間的相似性和差異性。作為一種詞預訓練方法,word2vec已經被廣泛應用于各種NLP任務[8]。相關研究顯示,高質量的詞向量特征可以提高分類的性能。以預訓練技術為基礎,可以更好地對中文文本特征進行表示,同時使用該技術提取上下文語義特征,將其融入到分類模型中,從而為句子的判別提供更多的特征。

本文采用底層的詞嵌入技術獲取了句子及其上下特征表示,以TextCNN[9]、長短期記憶神經網絡LSTM(Long Short-Term Memory)和雙向門控循環BiGRU(Bidrection Gated Recurrent Unit)神經網絡為基礎對中文隱式情感文本進行傾向分類研究,在各個模型基礎上還研究了融合注意力機制的分類模型。針對句子上下文可以輔助隱式情感分類的特點,設計了一種融合上下文特征與注意力機制的分類模型,采用GRU對標簽句子特征進行編碼,使用BiGRU+Attention的結構組合對上下文語句中的重要特征進行編碼。由于在最終對句子進行分類時,會通過Softmax層獲得各個類別的概率,特征數值越大概率越高,因而在獲得2者特征編碼后,獲取各維度取值最高的特征,再通過一個Softmax層獲取該句子各個類別最終情感傾向。通過監督學習的方式不斷完善模型內部結構,從而達到當句子本身情感傾向分明時,依靠句子本身進行傾向判別;當句子本身情感傾向不明確時,通過Attention機制對句子上下文進行重要信息提取,從而輔助句子情感傾向性判別。本文的主要貢獻如下:

(1)從情感計算的角度出發對隱式情感句的情感計算資源進行了分析,發現隱式情感句本身具備較小比例的情感計算資源。針對隱式情感分類任務困難與研究不足的問題,探索了TextCNN、LSTM和BiGRU基礎模型的中文隱式情感分類效果。

(2)在分類模型基礎上,研究了為輸入分配權重的注意力機制思想,發現在顯式情感句分類研究中取得效果提升的注意力機制模型無法明顯地提升隱式情感分類效果。

(3)使用Attention機制對句子上下文重要特征進行編碼,提出了一種融合注意力機制與上下文特征的分類模型,為上下文特征在隱式情感分類任務中的應用提供了一種新思路。SMP2019評測數據結果顯示,在3個評價指標上,本文提出的模型取得了最優的綜合分類性能。同時還發現了在隱式情感句中,褒義的情感類別分類任務相對于其它2個類別的分類任務更加困難的現象。

2 相關工作

根據顯式情感詞的有無,情感分析可分為隱式情感分析與顯式情感分析。顯式情感分析已經在多個方面取得了顯著的成就,而隱式情感分析還處于起步階段.在以往的研究中,大多數研究忽視了隱式情感分析與顯式情感分析的差別,將2者的分析任務無差別對待。相關統計數據顯示,在不同主題領域中,隱式情感句占據不同的比例。由于情感分類是情感分析的基礎研究領域,本文從隱式情感句分類入手,主要研究社交媒體中隱式情感句的褒貶中三元傾向性分類任務。

用于情感分類的方法大體上可以分為3種:基于情感知識的分類方法、基于特征提取的機器學習方法和深度學習方法?;谇楦兄R的分類方法,大多數通過對文本中情感詞的識別實現整個句子的情感傾向性判別。由于隱式情感文本缺乏顯式情感詞,傳統的基于情感知識的分類方法不再適用。基于特征提取的機器學習方法,需要選取有意義的特征,通過搭建分類器的形式實現情感句的傾向性分類[10]。機器學習方法存在著文本特征不易提取、很難處理文字長度不一的問題以及模型不容易擴展的特點?;谏疃葘W習的方法在情感分類任務中取得了廣泛的應用。首先,深度學習模型在結構上更加靈活,可以更便捷地將多種關系融入到分類模型中。文獻[11]設計了一種結合區域卷積神經網絡和分層長短期記憶網絡的深度分層網絡模型,有效獲取了句子中的局部特征和整個評論中的長距離依賴關系,解決了情感極性表達不清晰、難句的情感極性判斷問題。文獻[12]提出了融合區域卷積神經網絡和LSTM網絡的混合模型,有效獲取了句子的時序關系以及整個評論的長距離依賴關系。在特征融合上,基于深度學習的情感分類方法要比基于機器學習的分類方法更加便捷。為了將上下文特征融入到分類模型中,本文開展了基于深度學習的分類模型研究。其次,深度學習模型可以更好地學習詞語之間的聯系、局部特征或者全局特征。基于LSTM網絡的分類模型[13]可以把握詞語之間的時序關系,獲取不同詞語之間的依賴關系。文獻[13]首次將TextCNN應用于情感分類任務中,采用不同長度的filter對文本矩陣進行一維卷積操作,以獲取不同詞語長度的特征信息,并通過最大池化層完成句子特征的提取。文章還研究了不同詞嵌入技術對分類結果的影響以及靜態(Static)方式和非靜態(Non-static)方式對訓練過程的影響。在后續的研究中,詞嵌入技術與深度學習模型的組合[9,14]成為了情感分類任務中的主流方法。本文以該研究思路為基礎,探索了LSTM模型、靜態方式的TextCNN和非靜態方式的TextCNN對隱式情感句的分類效果。

在顯式情感分類領域中,結合注意力機制的分類模型可以在不同應用方向取得更好的應用效果。文獻[15]最早在NLP領域中應用注意力機制。文獻[16]提出了一種簡化版本的注意力機制。文獻[17]針對文章中重要的句子和句子中重要的詞語,提出了句子級和詞語級2種注意力機制模型。這種注意力機制模型采用BiGRU對不同級別的輸入進行編碼,并為每個輸出分配了不同的權重,從而突出更有價值的特征信息。本文以該思路為基礎,首先搭建了基于BiGRU的基礎分類模型,其次通過句子級的注意力機制為編碼后的特征輸入分配不同權重。

針對中文在語義規則和社會特征因素上有較大差異的特點,文獻[18]以word2vec技術為基礎,將 n-gram 特征引入上下文中,使用詞-詞和詞-字符的共現統計來學習詞向量。由于詞向量的質量會影響到分類的性能,本文以該文獻在維基百科訓練的詞向量為基礎開展中文隱式情感的分類研究。

在中文隱式情感分類領域,文獻[19]對中文隱式情感領域做了基礎性的研究工作。在隱式情感分類方向,該文獻將上下文顯式情感語義背景融入到構建的卷積神經網絡中,并突出了上下文語義特征在隱式情感分類中的重要作用。文獻[20]采用句子內部詞語上下文語境和注意力機制融合的思想來對不同語境的詞特征進行學習。上述研究文獻缺乏循環神經網絡對隱式情感句分類的相關研究,因此本文進行基于循環神經網絡及其變體的隱式情感分類模型研究。循環神經網絡結構可以捕捉句子內部時序關系,并為句子分類提供重要的特征信息。在上下文研究中,文獻[19]將句子內部上下文語義信息融入到模型中,文獻[20]對不同語境下句子內部詞語特征進行學習,本文則從句子外部所在的上下文特征入手,構建了融合句子外部上下文語義特征的分類模型。

3 模型描述

本節主要介紹應用到的基礎模型、注意力機制以及融合注意力機制與上下文特征的分類模型。

3.1 隱式情感分類

人們的情感表達是豐富而抽象的,人們在社交媒體中表達直觀感受時,除采用顯式情感詞表達情感外,還會采用客觀陳述或者修辭方式來隱式地表達自己的情感。相關研究顯示,隱式情感句占總情感句的15%~20%。在隱式情感句中,句子本身不含有顯式情感詞,但表達了主觀情感。對隱式情感句進行劃分,可以分為事實型隱式情感和修辭型隱式情感。修辭型隱式情感又可劃分為隱喻型、比喻型、反問型和反諷型。本文研究目標是對隱式情感句的情感傾向性進行分類,與以往的顯式情感句分類的區別如表1所示。

隱式情感句與顯式情感句最主要的差別在于顯式情感詞的有無。在情感計算中,大規模的情感詞匯本體資源可以輔助文本情感識別。由于隱式情感句中不包含顯式情感詞,本文采用大規模情感詞匯本體庫[21]對隱式情感句中的詞語進行分析。采用分詞技術對隱式情感句進行分詞,查詢各個詞語在情感詞匯本體庫中的詞性、詞語強度以及情感分類。隱式情感句來源于SMP2019中文隱式情感分析評測提供的數據集。數據來源主要包括微博和論壇等媒體,主要領域或者主題包括傳統文化、時事熱點和生活等多個方面。情感詞匯本體庫從詞語詞性種類、情感類別、情感強度及極性等維度對中文詞匯或短語進行了描述。中文隱式情感分析評測數據集中隱式情感句包含的情感詞匯本體,統計結果如表2所示。

Table 1 Sentiment sentence difference comparison 表1 情感句差異對比

Table 2 Statistical results on implicit sentiment vocabulary ontology 表2 隱式情感句詞匯本體統計結果

根據句子中是否包含標記的情感詞匯,句子可以分為2大類:一類為句子中包含1個及以上數量的標記詞匯,另一類為句子中完全不包含標記的情感詞匯。對統計結果進行分析,含有1個及以上數量標記詞匯的句子約占總體的28%,這也證明了傳統的基于情感詞典的分類方法對于隱式情感分類領域并不適用。同時由于含有情感詞匯的句子比例較小,在情感計算中這一特點會加大情感傾向判別的難度。

標記的詞匯所擁有的情感強度從強到弱大小不一,同時詞匯不帶有明顯情感傾向。將情感詞匯的類別與句子整體類別進行比較,當輔助情感詞傾向與句子整體傾向相同時,該詞匯的特征在一定程度上可以幫助句子情感傾向的判別,其中褒義類別詞匯的輔助情感詞傾向與句子整體傾向一致比例最高為25.89%,其中還存在著某情感詞被用于相反的情感表達的情況,如“對法樂第未來而言,在近期遭遇一系列困難之后,這處總部代表了新的未來?!敝?,標記詞匯為遭遇,詞語極性為貶義,詞語強度為5,句子整體表達了褒義的傾向。不含顯式情感詞、句子中較低比例的情感計算資源、標記詞匯類別與句子標簽不一致等問題的出現給隱式情感句的傾向性分類帶來了極大的困難。

在社交媒體中,用戶的表達方式存在口語化和用詞不規范的問題。隱式表達的情感傾向在某種程度上和表情符號的情感傾向具有一致性,如句子“[good]當然還有蔭姐,一直等你回來!”的情感傾向為褒義,表情“[good]”在情感上偏向于褒義情感。同時,由于表達的不規范性,還存在隱式表達的情感傾向與表情符號情感不一致的特點,如句子“[酷]樂視員工的悲劇在于沒有選擇中國銀行的信用卡?!北磉_的傾向為貶義,而表情符號“[酷]”更多地應用在褒義或者中性的詞語表達中,如何處理文本中的表情符號和不規范用詞對于隱式情感文本分析有較為重要的影響。

本文在文本處理的基礎上,使用深度學習模型和添加注意力機制的分類模型對隱式情感分類任務進行研究。

3.2 GRU神經網絡

GRU神經網絡是長短期記憶網絡(LSTM)的一種變體結構[22],可以有效解決循環神經網絡中出現的梯度消失或者爆炸問題,同時保留了LSTM較長距離記憶的能力,并簡化了LSTM結構,縮短了模型訓練的時間。在NLP領域,GRU可以捕獲詞語在句子中的長短依賴關系,被廣泛應用于機器翻譯等任務中。

GRU[23]簡化了LSTM的網絡結構,其主要包括2種門控:循環單元更新門和重置門。GRU使用更新門結構代替了LSTM中的遺忘門和輸入門,使用該結構實現對數據的丟棄和更新,使用重置門結構儲存遺忘信息的步長。如圖1所示,GRU包含重置門和更新門2個門控單元。

Figure 1 Structure of GRU unit圖1 GRU單元結構

在不同時間步內,GRU對輸入信息的計算如式(1)~式(4)所示:

有非常多的案例都是青少年在初次接觸毒品的時候并不知道毒品為何物,不但沒有遠離,反而對它充滿好奇,直到在好奇心的推動下開始吸毒,從此走上不歸路。因此當社會上、學校里介紹關于毒品的知識時,一定要認真學習、牢記于心。平時也可以通過上網、翻閱書籍等方式了解與毒品相關的知識。總之,一定要充分了解毒品的特性以及危害,這樣才能讓自己時刻保持警惕,遠離毒品。

zt=σ(Wz·[ht-1,xt])

(1)

rt=σ(Wr·[ht-1,xt])

(2)

(3)

(4)

3.3 注意力機制網絡

注意力機制可以從眾多信息中選取對當前任務最有價值的信息,在機器翻譯[24]、文本分類等自然語言處理領域中,注意力機制在提升模型效果的同時,還可以對內部有價值的信息進行可視化。在文本分類任務中,注意力機制可以凸顯決定句子傾向分類詞語的重要性。本文使用的注意力機制思想來源于文獻[17]提出的2種分層注意力模型。原文是對文檔級別的句子進行分類,提出的模型可以簡化為如下4個部分:詞語序列編碼器、詞語級別注意力層、句子序列編碼器和句子級別注意力層。在對隱式情感句進行分類時,僅采用了詞語級別的注意力機制。句子情感分類任務也可簡化為2個部分,詞向量編碼器和Softmax處理層。詞向量編碼器可以對詞向量特征進行提取與編碼。Softmax處理層則可以計算各個類別的概率。添加注意力層的句子分類模型主要包括3個部分:詞向量編碼器、Attention注意力層和Softmax處理層。添加的Attention注意力層用于強化句子中有價值信息的權重。在詞向量編碼器部分采用TextCNN、LSTM和BiGRU等不同的神經網絡對句子的向量表示進行編碼。以分類模型中的Attention+BiGRU組合為例,闡述注意力層分配權重的方法,預測模型網絡結構如圖2所示。

Figure 2 Structure of Attention+BiGRU圖2 Attention+BiGRU結構圖

圖2中,wt代表一個句子中每個單詞的詞向量表示,We代表BiGRU結構的權重矩陣,T代表句子的長度,經過式(5)的計算,得到BiGRU結構的輸入xt。

xt=Wewt,t∈[1,T]

(5)

(6)

(7)

μt=tanh(Wwht+bw)

(8)

(9)

s=∑tαtht

(10)

其中,Ww代表注意力層的權重矩陣,bw代表注意力層的偏置項,μw為隨機初始化的數值,在訓練學習階段不斷改變,αt為每個輸入分配的獨立權重,s為分配權重后的輸出。

3.4 融合模型

隱式情感句的上下文信息可以輔助情感分類。如情感句“桌子上有一層灰”是貶義的,對該句進行情感分類,由于該句屬于事實性陳述,會被誤判成中性標簽,而該句的上下文“很不高興”則可以輔助該情感句的極性判別。當句子中不存在有直接情感傾向的詞語時,可以尋找篇章內部與目標句相似的語句,如上下文“簡直太臟了”“床鋪也不整潔”等。文獻[17]證明了BiGRU+Attention的組合在較長語句中獲取重要特征的有效性,本文以此為出發點,采用BiGRU+Attention的組合對標簽句的上下文重要特征進行提取。融合注意力機制與上下文特征的分類模型如圖3所示。

Figure 3 Classification model combining context and attentional mechanisms圖3 融合上下文特征與注意力機制的分類模型圖

(11)

4 實驗與分析

4.1 數據集

本文采用第八屆全國社會媒體處理大會(SMP2019)舉辦的“拓爾思杯”中文隱式情感分析評測數據集進行實驗。由于無法獲得測試集的標注信息,僅采用了測評任務提供的訓練集和驗證集,將訓練集按照4∶1的比例進行劃分,用于模型的訓練過程,將官方提供的驗證集作為測試集,用于評估各個深度學習模型的性能。數據涉及微博、旅游網站、產品論壇等多個領域,主要的主題又包括春晚、霧霾、樂視、國考、旅游、端午節等。情感標簽總共包含褒義、貶義和中性3種,標記的數據詳細數量以及相關上下文信息如表3所示。其中,測評提供的訓練集和驗證集中包含共現的句子33個,本文選擇在測試集中將其移除。

Table 3 Experimental data statistics 表3 實驗數據統計

4.2 基礎實驗

在神經元的輸出部分采用Dropout機制[25]來減弱網絡的過擬合現象,共搭建了如下所述的幾種基礎分類模型:

(1)TextCNN。文獻[9]首次將CNN網絡應用在情感分類中。論文采用了拼接詞向量的方法,將1個句子表示成為1個矩陣,矩陣的每1行表示1個word,構建不同尺寸的filter獲取不同步長的詞語特征,并將卷積后的特征通過最大池化層來進一步編碼。本文在編碼器部分采用了該文獻提出的Static TextCNN和Non-static TextCN 2種模型。

(2)LSTM。由于長短期記憶網絡可以獲取詞語之間的時序關系,文獻[26]將該結構應用到aspect-level的情感分析中。本文采用基礎的LSTM對詞向量特征進行編碼。

(3)BiGRU。雙向GRU模型可以更好地獲取句子雙向編碼特征,本文以其結構為基礎,探索該結構在隱式情感傾向性分類中的表現。

(4)Attention-model。本文為各個基礎模型添加了注意力機制,用于探索添加權重的注意力機制思想是否可以明顯提升隱式情感句的分類效果。Model代表先前提到的Static TextCNN、Non-static TextCNN、LSTM和BiGRU模型。

4.3 實驗流程

4.3.1 文本預處理

對實驗得到的數據集進行初步的規則識別,分別提取出標簽句子以及上下文,由于文本內容來源于網絡,原始數據集中包含大量網絡用語。在實驗中發現,不合理的數據處理方式會降低各個模型的分類準確率,為了最大程度保留原始句子的語義信息,預處理階段僅采用固定規則提取目標句子和句子上下文信息。在句子提取完成后,采用“結巴”分詞工具對句子進行分詞處理。

4.3.2 文本特征表示

使用文獻[18]提供的具有Word+Character+Ngram特征的詞向量集,該詞向量的語料庫來源于維基百科。在使用該向量表示時,未在詞向量集中出現的文本統一用0填充。本文提出的模型輸入為句子以及上下文,當單獨句子無上下文信息時,用句子本身填充上下文。

4.3.3 模型參數設置

官方提供的數據集為訓練集和測試集,訓練集和測試集的比例大約為3∶1。將訓練集按照4∶1的比例劃分訓練集和驗證集,驗證集用于判斷分類模型的訓練效果及調整參數。對所有模型進行3次重復實驗,取平均值評估各模型的分類效果。模型中還包括一些超參數設置,如表4所示,其余參數均為默認值。

Table 4 Parameter setting表4 參數設置

4.3.4 評價標準

模型評估使用文本分類中常用到的準確率(P)、召回率(R)及F1值。在進行重復實驗后,求得3個評價指標的平均值,并將其作為各個分類模型的最終評價標準。

4.4 實驗結果

4.4.1 模型的訓練

在模型訓練過程中,為了選取泛化性較高的分類模型,采用不同的Epoch值訓練各分類模型。首選對各模型進行較大數值Epoch的訓練,根據模型訓練日志確定大致的Epoch取值和模型在驗證集上的準確率。在確定Epoch數值后,丟棄欠擬合與過擬合的訓練模型,進行3次重復實驗獲取每個分類模型的平均性能。以其中1個分類模型為例,訓練過程如圖4所示。

Figure 4 Model training process圖4 模型訓練過程

在第1次訓練時,將Epoch數值設置為20。重復多次實驗,發現當模型經過9次迭代后,驗證集的準確率和損失率穩定在一個區間范圍內。將模型Epoch取值設定為9,多次訓練模型,舍棄其中欠擬合、過擬合以及未達到較好訓練效果的分類模型。在獲得訓練結果較好的3個模型后,在測試集上對該分類模型進行測試,取各類別評價標準的平均值。

4.4.2 實驗結果

本文使用基礎分類模型、在基礎模型上添加注意力的分類模型和融合模型對隱式情感句進行三元傾向性分類實驗。情感傾向類別分別為褒義、中性和貶義。實驗結果如表5所示,其中Static TextCNN和Non-static TextCNN為基礎實驗(1)中提到的模型,Attention-Static TextCNN 和Attention-non-static TextCNN 分別為在上述2種基礎模型后添加注意力機制層;LSTM和BiGRU分別為基礎實驗(2)和(3)中提到的模型,Attention-LSTM和Attention-BiGRU分別為在上述2種基礎模型后添加注意力機制層;Model proposed則為本文提出的模型。

從表5中可以看出,褒義類別的分類相較于其它2個類別更加困難。對比所有的分類模型可以發現,本文的融合上下文特征與注意力機制的分類模型在褒義類別分類上擁有最優的召回率與F1值,其它評價指標雖未達到最優,但均有良好的表現。對比結合注意力機制模型與對應的基礎分類模型實驗結果,可以發現當為句子分配不同權重后,句子的分類效果并未取得較明顯的提升,在基礎分類模型融合注意力機制后,部分評價指標有所提升。為了進一步研究各分類模型對褒義類別識別效果較差的原因,對所有分類模型的預測結果進行混淆矩陣的研究,僅列舉提出的融合模型混淆矩陣,如表6所示。

Table 5 Experiment results of classification model 表5 分類模型實驗結果

Table 6 Confusion matrix of classification model 表6 分類模型混淆矩陣

從表6中可以發現,褒義類別被誤分成其它2個類別的比例大致相同。在實際的研究中發現,所有的分類模型盡管在數值上有所差異,但在褒義類別的識別上有相似的特點,即被誤分成其它2個類別的比例大致相同。對具體的褒義文本進行研究,發現句子本身所帶的褒義情感特征不是很明顯,如表7所示,所有的分類模型在該類別特征識別上都未取得良好的效果。

為了更加直觀地比較各模型的性能,統計各分類模型的平均準確率、召回率和F1值,實驗結果如表7所示。

Table 7 Macro average accuracy,recall rate and F1 value of each classification model 表7 各分類模型宏平均準確率、召回率和F1值

從表7中可以看出,提出的融合上下文和注意力機制的分類模型在準確率、召回率和F1值上取得了最優的效果,在準確率上比最優的基礎分類模型提升了0.72%,在召回率上提升了0.83%,在F1值上提升了1.27%,從而驗證了融合上下文特征和注意力機制分類模型的有效性。

4.4.3 典型難句分析

為了進一步分析本文的融合模型在提取上下文特征輔助隱式情感分類的有效性,從數據集中抽取一些典型的難句進行分類結果對比分析,如表8所示。

表8中,其它模型代表大部分模型識別出的結果,差異結果代表占較小比例分類模型識別的結果。從表8中可以看出,所提出的模型具備一定的優勢與不足。在模型學習過程中,融合模型對句子進行判別時吸納了更多的信息,因而在對某一類別進行判定時可以擁有更好的識別性能,如ID為1、2、4的結果。當標簽句子的上下文與標簽句子類別不同時,上下文內容會對標簽句子的判別產生一定的誤導作用,如ID為3、5的結果。融合模型的兩處設計對這一誤導現象產生一定的抑制作用。在上下文特征與注意力機制思想的融合部分,所使用的注意力機制思想會為上下文特征分配一定比例的權重,其次在Maximum層會取2個特征層中的最大值,當標簽句子特征大于上下文的特征時,上下文特征會被舍棄。實驗結果也表明了本文模型在一定程度上可以提升隱式情感文本的分類效果。

5 結束語

本文提出了一種融合上下文特征與注意力機制的分類模型,并基于TextCNN、LSTM和BiGRU和注意力機制對隱式情感句的分類進行了研究。由于隱式情感句與顯式情感句在表達上的差異,所提出的模型可以提升隱式情感句的分類效果。與普通的分類模型和注意力機制模型相比,本文的融合模型可以提取更多有價值的信息。在公開數據集上的實驗結果表明,本文的融合模型在準確率、召回率和F1值上優于已有的基礎分類模型和注意力機制模型。從實驗結果可以看出,盡管本文模型提升了基礎分類模型的預測效果,但在上下文特征輔助標簽句情感判別上仍具備一定的局限性。所以,接下來的工作將著重研究基于上下文特征語義相似度的分類模型,以達到更好的分類效果。

Table 8 Typical difficult examples表8 典型難句舉例

猜你喜歡
分類機制特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 亚洲欧美在线综合图区| 国产精品福利在线观看无码卡| 成人av手机在线观看| 国产女人在线| 日韩人妻少妇一区二区| 在线观看国产精品日本不卡网| 高清欧美性猛交XXXX黑人猛交 | 91av国产在线| 国产精品片在线观看手机版 | 亚洲Va中文字幕久久一区| 久久综合亚洲鲁鲁九月天| 毛片手机在线看| 亚洲免费成人网| 日韩高清中文字幕| 久久五月天综合| 精品视频一区二区观看| 国产中文一区a级毛片视频| 毛片网站观看| 亚洲高清无码精品| 免费人成黄页在线观看国产| 国产亚洲精品yxsp| 国产自在线拍| 久久精品这里只有精99品| 亚洲精品无码日韩国产不卡| 91 九色视频丝袜| 国产第二十一页| 91无码视频在线观看| 她的性爱视频| 国产欧美日韩18| av在线手机播放| 最新日本中文字幕| 国产人妖视频一区在线观看| 精品一区二区三区自慰喷水| 日韩av在线直播| 秋霞国产在线| 专干老肥熟女视频网站| 香蕉国产精品视频| 日韩精品欧美国产在线| 欧美日韩另类在线| 国产精品自在拍首页视频8| 国产欧美日韩另类| 青青草国产在线视频| 99久久精品免费视频| 国产视频欧美| 亚洲成a人在线播放www| 在线亚洲精品福利网址导航| 福利国产微拍广场一区视频在线| 国产福利一区在线| 99re66精品视频在线观看| 国产夜色视频| 极品国产在线| 国产手机在线观看| 亚洲国产一区在线观看| 日韩成人午夜| 114级毛片免费观看| 2021精品国产自在现线看| 国内老司机精品视频在线播出| 中文字幕亚洲无线码一区女同| 中文字幕66页| 欧美日韩国产高清一区二区三区| 亚洲免费黄色网| 91九色国产在线| 久久免费观看视频| 国产成人亚洲日韩欧美电影| 99伊人精品| www.av男人.com| 亚洲成A人V欧美综合| 怡红院美国分院一区二区| 欧美日在线观看| 国产嫩草在线观看| 精品久久久久无码| 精品在线免费播放| 亚洲欧美日韩中文字幕一区二区三区| 国产黄在线免费观看| 久久99国产视频| 中文字幕无码电影| 四虎免费视频网站| 国产精品亚洲精品爽爽| 日本五区在线不卡精品| 国产成人精品视频一区视频二区| 国产午夜精品鲁丝片| 午夜啪啪福利|