999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征改進卷積神經網絡的文本情感分析?

2021-04-04 07:49:02
計算機與數字工程 2021年3期
關鍵詞:特征情感模型

(江南大學物聯網工程學院 無錫 214000)

1 引言

當今的社會,是一個信息大爆炸的社會。隨著互聯網的接入,智能手機的普及,流量價格越來越低,人們每天花費在網絡上的時間越來越多,而在不知不覺的上網過程中,我們一直產生著驚人的數據信息:在淘寶網上追加自己的購物評價、在美團上發表自己的美食體驗、在微博上對某件社會事件發表自己的看法、在空間曬自己的旅游感受等。這些普通平常的舉動,其實蘊含著豐富的商業價值。淘寶商家可以通過用戶的購物體驗獲得用戶喜好;美團通過用戶對美食評價,獲得用戶口味偏好;微博官方通過搜集網上的評價,可以獲知用戶政治傾向等。如果把這些信息都搜集起來,進行情感分析,加以整理分類,那么就可以了解到整個社會的消費傾向、生活狀態等。

傳統的文本情感分主要采用人工方式進行情感分析,是一種基于規則的方法[1],主要是依賴專家提供的情感詞典或者模板進行文本的情感分析,整個過程需要大量的人工參與,費時費力,效率低下。自從深度學習研究熱潮的興起,不斷有人嘗試把深度學習應用到各個領域中去解決現實中的問題,比如人臉識別、語音識別、場景識別等。同樣,深度學習也已經逐漸應用到文本的情感分析中。目前,已經有諸多的學者進行了大膽的嘗試,如,早期Pang[2]采用機器學習算法,支持向量機,樸素貝葉斯以及最大熵用于電影評論的情感分析,隨著深度學習的發展,Kim[3]等首次嘗試在單層卷積神經網絡的基礎上通過多種特征輸入進行對比實驗;Kalchbrenner等[4]設計了一個動態卷積神經網絡模型進行自然語言的處理;劉龍飛[5]等提出了加入字向量以及詞向量進行微博情感分析,并在COAE2014任務上取得了較好的結果;杜昌順[6]等提出了分段卷積用于文本情感分析,其分段操作主要針對池化階段進行操作,需要說明的是本文提出的分段卷積,主要針對卷積階段進行操作。

本文針對端到端的卷積神經網絡缺乏對罕見詞的處理以及對不同領域的泛化性,提出了一種加入詞典特征以及詞性特征進行特征增強的卷積神經網絡模型。主要包括以下三部分:1)采用字特征、詞典特征以及詞性特征表征句子向量,通過詞典特征以及詞性特征提高模型對罕見詞的處理,提高模型在不同領域的泛化性;2)在卷積神經網絡的卷積層,根據句子的結構采取分段卷積操作,可以最大化保存句子的情感特征;3)采用投票機制對多個模型進行判斷,選擇票數最多的類別作為文本的情感傾向性類別。通過大量對比實驗,該模型相比其他模型而言,具有更高的準確率。

2 多特征改進卷積神經網絡(MFIC?NN)模型

2.1 多特征向量表示

字特征是中文處理的基本單位,本文采用字特征作為模型的基本輸入,字特征可以減弱未登錄詞帶來的分詞錯誤問題,如:蘋果電腦的觸控六六六,其中“六六六”為褒義詞,分詞的話反而會改變句子的語義信息,設句子X=c1,c2,…,cn,每個字符ci的字向量表示為αi=ec(ci),其中ec對應每個字的查找表。一個長度為n的句子的字特征矩陣描述為式(1)所示:

其中⊕表示連接操作符。

詞典特征作為模型的另一輸入,通過對詞典構建Tree樹,對句子中每個字搜索找到所有可能與詞典中匹配的詞進行編碼,如果該詞在詞典中對應的標記為為POS,那么對應詞典編碼為1,如果該詞在詞典中的標記位為NEG,那么對應詞典編碼為-1,如果在詞典中不存在,對應編碼為0。如圖1所示,原始句子為攝像頭很不清楚,其中“清楚”在詞典中的標記位為POS,“很不清楚“在詞典中的標記位為NEG,那么選擇句子中字的最長匹配作為最終的詞典特征編碼,即句子中對應字的詞典編碼為-1。設一個長度為n的句子,那么每個詞ti對應的詞典特征向量表示為βi=et(ti),其中et對應每個詞典特征的查找表。一個長度為n的句子的詞典特征矩陣描述為式(2)所示:

其中⊕表示連接操作符。

圖1 詞典特征示例圖

為了捕獲更多的情感信息,把每個詞的詞性特征轉化成向量,作為句子的特征。在情感分析中,影響句子的情感極性通常是形容詞、副詞、動詞和名詞等。如:我/r很/d喜歡/v這/r本/q書/n,電腦/n太/d差/a。詞性的不同搭配反映了句子的句法信息。詞性不僅包括分詞的詞性信息,而且包含了句子的分詞信息,本文采用BIOES表示每個字在分詞中的位置,B表示分詞的開始,I表示分詞的中間位置,O表示非實體詞,E表示分詞的結尾,S表示單個字,如:“電腦”的詞性特征可以表示為[B-n,E-n],設一個長度為n的句子中的每個字符ci的詞性為si,γ=es(si)為該字的詞性向量,即句子的詞性向量矩陣描述為式(3)所示:

其中⊕表示連接操作符。最終模型的輸入特征矩陣為X=α⊕β⊕γ。

2.2 模型構建

MFICNN模型構建主要包括以下四個部分,分別是多特征輸入層、卷積層、多池層和輸出層。整個模型的構建如圖2,下面對每個部分做詳細說明。

1)多特征輸入層:輸入層部分,融合了三種特征詞向量矩陣,分別是字向量、詞典向量以及詞性詞向量。那么對于長度為n的句子X=c1,c2,…,cn,其特征向量表示如式(4)所示,其中α,β,γ定義如式(1)、式(2)、式(3)所示。

圖2 多特征改進卷積網絡模型

2)分段卷積層:傳統的卷積神經網絡在卷積層部分是把輸入部分作為一個整體進行卷積操作。這種卷積操作在人臉識別、語音識別等領域中都有較好的表現,但是在文本的情感分析中,尤其是在轉折句式部分,對于轉折句式的評論語句,在原始的數據集中占有相當大的比重,據統計至少有17.3%。可以說,轉折句式的識別效果的好壞可以影響到整個模型的情感識別準確率。所以,在模型的卷積層部分加入了分段卷積機制,以實現對轉折句式的準確判斷:

(1)首先定義轉折詞詞表,主要包括:“但是”、“可是”,“不過”,“然而”,“偏偏”等;

(2)判斷該評論語句是否存在轉折詞,如果存在,那么以轉折詞進行句子切分,否則句子整體作為模型輸入;

(3)對輸入向量進行卷積操作,為了充分獲取到句子中更多的上下文信息,采用不同大小的卷積核進行卷積操作,本文默認使用卷積核h=3,h=4,h=5三組不同的卷積核,卷積操作后得到特征圖Chi,計算方式如下:

其中ci表示的是特征圖中第i個特征值;f(·)表示的是非線性激活函數;xi:i+h-1多特征詞向量矩陣;h代表的是卷積核權重的大小,b表示偏置項。

本文使用步幅s=1的卷積,當卷積核在句子長度為n的文本上操作,共得到n-h+1個輸出,則卷積層提取的特征圖為

若識別的句子結構是轉折句式,由于模型采用的是分段卷積,則會進行分段卷積操作。卷積操作方式仍然如式(5)所示,只是p的值會根據模型的分段情況而定,一般都是分成兩段,若p取“1”,代表上分段;若p取“2”,代表下分段。相應的,卷積提取的特征圖也就分為C1j和C2j。若采取的是其他分段,依次類推,句子的卷積層輸出為不同段位的輸出結果串聯,如式(7)所示:

3)多池層:傳統的卷積神經網絡對卷積層輸出的特征矩陣采用最大池化操作,即一個特征矩陣只提取一個最大特征。這種方法的優點就是操作簡單,計算的參數少,訓練時間短。但是這種方法往往忽略了句子中其他隱藏的特征。一個句子中,往往有多個重要特征,而采用單一的最大池化方法,會導致其他重要特征的丟失。所以,模型中采用的是多池化操M-max,即在卷積層輸出的特征矩陣上,根據特征圖的長度,采取動態多池操作:

其中,M是最大池化取樣窗口,Clen是特征圖的長度。假設C1ji的長度為6,則采取的最大池化數量就是M=3。通過多池操作,可以獲取每個特征圖中多個重要的特征,進而綜合考慮多種因素。

4)輸出層:傳統卷積神經網絡的最后一層(一般是輸出層)是全連接層。在最后的輸出層部分,將特征向量作為sigmod的輸入。在全連接層的訓練過程中,模型為防止過擬合,加入Dropout,最后根據模型的情感分類標簽與實際分類結果進行反向傳播梯度更新,則有:

其中,y∈{0,1},Ws∈R|P|,bs為偏置項。

3 模型訓練

本文提出的模型主要用于文本的情感分類,歸根還是分類問題,本文把情感類別分為兩類,積極情感和消極情感,所以模型的目標函數為

當Loss=0時,模型輸出值與實際標簽值較為接近,假設訓練樣本標簽為y=1,可得Loss=-ln(),當模型預測值≈1時,此時Loss=0,當訓練樣本標簽為y=0時,可得Loss=-ln(1-),當模型預測值≈0時,此時Loss=0。

為了進一步防止過擬合現象,使用L2正則[7]表達式,λ為正則化的參數。訓練的過程中采用Ad?am[8]算法最小化目標函數,以提高模型的收斂速度,則目標函數表示為

4 實驗

4.1 實驗數據

為了測試模型的準確性,采用十折交叉驗證的方式訓練模型,數據來自中國科學院譚松波教授搜集的酒店評論語料[9]以及從數據堂等方式下載的文本情感分析語料,數據共16000條,把數據分別劃分待訓練集、測試集兩部分,取10%作為測試集,驗證集每次從待訓練集中抽取。每種數據集中正面情感極性和負面情感極性都約占一半。這里需要指出的是,為了測試本文模型的優越性,待訓練數據集和測試數據中都有至少20%的轉折句式語料。

4.2 評價標準

本文采取兩個評測指標度量文本情感分類效果:準確率(Accuracy)和F1值。對于準確率計算方法,設數據集大小為N,樣本xi的真實標簽為yi,實際分類標簽為,則計算公式為如式(12)所示:

F1計算方式,則是結合精準率和召回率,F1是對精準率和召回率的一個綜合衡量。假設精準率表示為p,召回率表示為R,則計算方式如下:

其中TP表示實際為正例,模型預測為正例的數據;TN表示實際為負例,模型預測為負例的數據;FP表示實際為負例,模型預測為正例的數據;FN表示實際為正例,模型預測為負例的數據。

4.3 實驗參數設定

實驗中主要參數設置如表1所示。

4.4 實驗結果及分析

為了驗證本文模型在性能上的優越性,根據本文提出的模型的特點具有針對性的設計了對比實驗。實驗一,主要針對模型中的多特征部分進行對比,采用相同的卷積神經網絡模型進行測試。實驗二,主要針對比MFICNN模型與當前主流情感分析模型對比,驗證本文算法有效性。

表1 實驗參數設置

實驗一,分別采用MFICNN模型與字特征(CHAR_CNN),詞特征(WORD_CNN)以及字詞特征結合[5](CWCNN)模型對比,分詞器采用jieba分詞[10]。圖3顯示了模型在驗證集上的十折正確率變化結果,表2顯示了十折模型在測試集上情感極性判斷的正確率和F1值。

表2 模型在測試集上正確率與F1值

由圖3可以看出,CHAR_CNN模型在驗證集上的十折結果高于基于分詞特征的WORD_CNN模型,CWCNN模型較于CHAR_CNN模型提高了1%個點,MFICNN模型較于CHAR_CNN模型提高了3%個點。表2顯示了不同模型在測試集上的結果,測試集上,WORD_CNN模型在測試集上的結果最低,導致出現這種情況主要原因是目前的分詞器對未登錄詞識別效果有限,錯誤的分詞導致句子語義信息改變;MFICNN模型取得了0.912的正確率以及0.907的F1值,通過詞典以及詞性進行特征增強,輔助CNN學習相鄰窗口之間的語義關系,這也充分說明多特征方法是有效的。

實驗二,本實驗中MFICNN不僅包括多特征輸入而且卷積部分采用分段多池操作,分別與支持向量機(SVM)、循環神經網絡(RNN)[11]、卷積神經網絡(CNN)、字詞結合的卷積神經網絡(CWCNN)[5]和分段卷積神經網絡(PCNN)[6]對比,基于實驗一結果,RNN以及CNN模型分別采用字特征作為模型輸入,SVM采用向量空間模型(VSM)[12]表示特征,分別使用TF_IDF權重[13]表示以及BOOL權重[14]表示進行對比,實驗結果如表3所示。

表3 實驗對比結果

從表3可以看出,相比其他模型,本文提出的MFICNN模型在測試集上明顯取得了更高的精確度,其中MFICNN取得了0.923的正確率和0.916的F1值,MFICNN+投票機制比MFICNN模型在兩個不同指標下都提高了1%的精度。下面對實驗結果對比進行詳細的分析。

對于傳統的機器學習方法,支持向量機在測試集上的結果低于其他深度學習算法,向量空間表示的方式,詞與詞之間相互獨立,使得句子語義信息缺失,在規模較大的數據集上表現效果較差。RNN在句子級情感分類上效果低于CNN,其主要原因是中文評論語句較短,局部語義信息明顯,CNN模型可以充分利用滑動窗口,提高局部特征識別能力。字詞結合的卷積神經網絡CWCNN在本次實驗中達到了0.891的精確度,較于基本CNN模型提高1%左右。MFICNN模型比SVM高了12%左右,比RNN提高了8%左右,CNN提高了5%左右,比CW?CNN高出了4%,比PCNN模型高出了5%。這足以說明MFICNN模型相比MCCNN模型和PCNN模型更具有優勢。對于CWCNN模型來說,雖然采用了多通道機制對詞向量進行多特征提取,但是因過于注重輸入模型詞向量部分的特征提取,導致了其他一些次要特征被提取出來并放大,影響了最后情感的識別。同時CWCNN模型未對卷積層和池化層進行改進,只是改進了輸入層的詞向量部分,這些也影響了最終識別率。這些都說明了,MFICNN在文本情感分析上的有效性。

為了進一步提高MFICNN模型在測試集上結果,本文采用另外兩組卷積核為(2,3,4)和(1,3,5)訓練MFICNN模型,然后采用三個不同模型進行投票,投票類別數最多的作為最終情感分類類別,由表3可以看出,MFICNN模型+投票機制在測試集上提高了2%的效果。

通過上面的對比試驗可以看出,本文提出的MFICNN模型相比其他網絡模型,取得了最好的實驗效果,情感識別效果最高。說明了MFICNN能夠較好地捕捉多種句子隱含特征,更好地進行情感判斷。

5 結語

本文提出的多特征改進卷積網絡MFICNN情感分析模型,通過加入詞典特征、詞性特征進行特征增強以及分段多池操作提高模型領域泛化性。實驗中,在數據集相同的情況下與多種情感分析網絡模型的進行對比,MFSCNN模型都取得了更好的效果,體現出模型對情感分類的可行性和魯棒性。

本文處理的句子級中文文本情感分析問題,缺乏對評價對象的情感傾向判別,這將是下一步工作內容。

猜你喜歡
特征情感模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
主站蜘蛛池模板: 亚洲性视频网站| 青青草欧美| 日韩欧美中文字幕在线精品| 国产香蕉国产精品偷在线观看| 国产无码性爱一区二区三区| 91网址在线播放| 亚洲国产成人自拍| 99视频精品全国免费品| 国产真实乱人视频| 亚洲第一天堂无码专区| 一区二区三区成人| 中文字幕va| 国产精品三级专区| 免费在线不卡视频| 成人av手机在线观看| 午夜老司机永久免费看片| 奇米影视狠狠精品7777| 97综合久久| 国产91视频观看| 亚洲欧美h| 国产不卡在线看| 国产一区二区三区精品欧美日韩| 久久77777| 国产福利一区在线| 国产成人精品一区二区不卡| 日本精品中文字幕在线不卡| 免费国产黄线在线观看| 真实国产乱子伦高清| 日韩福利在线观看| 91精品国产91久无码网站| 暴力调教一区二区三区| 国产美女丝袜高潮| 五月六月伊人狠狠丁香网| 国产精品自在在线午夜区app| 免费亚洲成人| 日韩a在线观看免费观看| 在线精品自拍| 国产靠逼视频| 国产午夜看片| 老色鬼久久亚洲AV综合| 欧美日韩v| 日韩高清欧美| 永久天堂网Av| 天堂av高清一区二区三区| 国产不卡在线看| 永久免费av网站可以直接看的| 国产一区二区影院| 性激烈欧美三级在线播放| 国产成人亚洲无码淙合青草| 在线精品亚洲一区二区古装| 国产女人18毛片水真多1| 欧美亚洲一区二区三区在线| 亚洲欧洲日产国产无码AV| 国产黑人在线| 九色综合伊人久久富二代| 5555国产在线观看| 日韩一区精品视频一区二区| 亚洲色图欧美| 日韩一区二区三免费高清| 国产在线视频二区| 免费在线国产一区二区三区精品 | 日本午夜网站| 日韩高清在线观看不卡一区二区| 亚洲91精品视频| 欧美成人亚洲综合精品欧美激情| 亚洲成在线观看 | 天天综合网在线| 91无码网站| 国产精品3p视频| 国产成年女人特黄特色毛片免 | 91麻豆国产在线| 蜜桃臀无码内射一区二区三区| 国产真实乱了在线播放| 99人体免费视频| 国产精品毛片在线直播完整版| 97精品伊人久久大香线蕉| 国产精品三区四区| 91蝌蚪视频在线观看| 午夜毛片福利| 成年人视频一区二区| 99热这里只有精品在线观看| 亚洲精品无码专区在线观看|