999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于擴展特征矩陣和雙層卷積神經網絡的微博文本情感分類

2019-12-12 07:06:44李衛疆
計算機應用與軟件 2019年12期
關鍵詞:分類特征文本

李衛疆 伊 靖

(昆明理工大學信息工程與自動化學院 云南 昆明 650000)

0 引 言

隨著移動互聯網的快速發展,人們更愿意通過微博等社交網絡獲取熱點事件信息并發表自己的意見。而如何通過機器學習和自然語言處理等技術,研究用戶對于熱點事件的觀點傾向性和情感極性,是一項具有挑戰性的工作,也是自然語言處理領域的研究熱點之一。此外,相比于長文本分類任務,中文微博文本具有長度短、口語化詞語多、新詞更新快及重復率低等特點,因此更具難度和挑戰性。

傳統的情感分析方法主要包括兩種方法:基于規則的方法和基于統計的方法。其中,基于規則的方法通常需要人工干預,利用經驗或者語言專家提供的建議,從語言學角度編寫情感詞典或模板。基于統計的方法更多地利用機器學習,完成特征提取和統計模型構建,并自動進行情感極性判斷[1]。

近年來,基于深度學習方法的文本情感分類備受研究人員的關注。Kim[2]較先提出了利用卷積神經網絡(Convolution Neural Networks,CNN),對文本的情感極性進行分類,并在電影評論數據集上取得了良好的效果。Severyn等[3]提出了一種深度卷積神經網絡模型,訓練準確模型的同時,避免了附加特征的注入,以解決Twitter推文的極性判斷問題。針對中文微博的特點,劉龍飛等[4]通過引入字級別特征,將單個字作為輸入特征,取得了相較于詞級別特征更高的分類準確率。

與傳統的情感分析方法相比,深度學習方法雖然在圖像和文本分析領域取得了良好的效果,但是已有的研究大多使用了單通道的卷積神經網絡算法,在具有稀疏特征的短文本中無法獲得足夠的語義信息。同時,這些方法大多只考慮了表示形式單一的微博文本內容,而忽略了用戶使用的微博表情所表達的情感傾向。我們通過新浪微博API抓取了微博廣場的微博數據,統計結果顯示,在爬取的5 000條微博數據中,有1 390條微博包含了微博表情。因此,如何使卷積神經網絡算法能夠在短文本中提取足夠的語義信息,并結合微博表情來構建情感詞典,提高微博文本情感極性分類的準確性是本文需要解決的問題。

為此,本文結合中文微博文本的特點,提出了一種基于情感詞典擴充和雙層卷積神經網絡的中文微博情感分類算法(Dual-CNN)。主要創新點在于:(1) 微博用戶常用的微博表情、肯定或否定詞、表達情感的標點符號等多種詞語特征,建立擴展特征矩陣。(2) 利用卷積神經網絡的多通道機制,建立雙層卷積神經網絡,通過不同的詞編碼方式(static,non-static)獲取更多的文本局部特征。對比實驗證明,該算法與前人提出的卷積神經網絡算法相比,分類效果得到了顯著改善。

1 相關工作

1.1 情感分析

情感分析是自然語言處理領域的重要分支之一[5]。通過對用戶發布的文本的分析,獲得文本的情感極性,以分析用戶對事件的看法和態度。情緒分析的主要方法包括基于規則的方法和基于統計的方法[14]。目前的研究主要集中在有監督的機器學習方法,例如支持向量機(Support Vector Machines,SVM)、樸素貝葉斯(Naive Bayes)、最大熵(Maximum Entropy,ME)等。以上方法結合了一元詞特征(uni-gram)、二元詞特征(bi-gram)、詞性特征與情感詞特征等,將文本映射為多維特征向量,并做出分類預測[15]。

對于短文本分類,Ye等通過SVM和基于角色的N-gram模型,對旅游博客評論進行情感分類,當訓練集評論數據量足夠大時,取得了較好的分類準確率[6]。Turney等[7]提出了基于種子詞的非監督學習方法,通過兩個種子詞“excellent”和“poor”來計算情緒極性,在非監督學習領域取得了良好的效果。Mikolov等[8]通過CBOW和改進的Skip-gram模型,對頻繁出現的單詞進行二次采樣,并引入Negative Sampling學習單詞矢量。Liu等[9]提出了一種新的概率生成模型,將多時間尺度模型納入主題模型中,并考慮新聞評論之間的關系,用于在線新聞的情感分析。

1.2 卷積神經網絡

卷積神經網絡由Hubel和Wiesel提出,并提出了感受野(Receptive Field)概念。它主要通過卷積層和池化層來學習數據的局部特征[13]。卷積神經網絡的優點在于它不需要大規模的數據預處理。研究結果證明,基于卷積神經網絡的圖像識別和分類算法,取得了良好的效果。

近年來,卷積神經網絡在情感分類問題上亦取得了相比于傳統的基于統計方法更好的結果。進一步地,Kim提出了經典的Text-CNN模型,將卷積神經網絡用于句子級分類任務上,包括情感分析和文本分類任務,在多個分類任務中取得了優于其他機器學習方法的分類效果[2]。Johnson等[10]將卷積神經網絡應用于高維文本數據,利用詞序對文本數據進行分類,獲得了更高的準確率。劉龍飛等[4]通過在卷積神經網絡在引入字級別特征,探討了中文微博情感分類任務中的有效性和適用性。與傳統的機器學習方法相比,深度學習方法無需人工干預,并且更好地結合了文本中的特征信息,迅速成為情感分類研究領域的熱點之一。本文提出的Dual-CNN模型與文獻[4]的不同之處在于,本文利用了卷積神經網絡的多通道機制,將不同的詞編碼方法輸入到 CNN模型中,以提取更多的局部特征,并獲得了更好的情緒分類結果。

2 Dual-CNN分類模型

為了解決微博短文本數據稀疏的問題,本文提出了一種基于情感詞典擴充和雙層卷積神經網絡的中文微博情感分類算法(Dual-CNN)模型。首先對公開的微博數據集進行文本預處理,然后設計情感擴充詞典,采用Google Word2Vec工具[16],訓練得到Word Embedding,最后將static和non-static兩種不同的詞編碼方式作為Dual-CNN的兩個輸入通道,對微博短文本情感進行分類。

2.1 基本思想和框架

在圖像分類任務中,Karpathy等[11]利用卷積神經網絡的多通道機制,對RGB圖像的不同通道(紅、綠、藍)分別進行卷積操作。這使得CNN可以獲取到更為豐富的圖像特征。同時,多層卷積神經網絡算法在電影評論分類任務中取得了比單層神經網絡更好的效果[12]。

考慮微博短文本特征稀疏的特點,我們使用Google Word2Vec,選取Skip-Gram模型,生成Word Embedding,并使用static和non-static兩種詞編碼方式,防止在卷積神經網絡的兩層采用相同詞編碼方式,造成獲取到的局部特征相同的問題。其中,static方式在訓練過程中不更新詞向量,通常應用于數據量較小的情況。non-static則在訓練過程中更新詞向量,作為CNN訓練過程中需要優化的參數。

進一步地,我們嘗試向詞向量矩陣中添加融合微博表情的擴展特征詞典,將其引入Dual-CNN模型的訓練過程中,以進一步發掘用戶通過微博表情表達的情感。

2.2 雙層卷積神經網絡結構

本文在文獻[2]提出的基于單層卷積神經網絡的文本情感分類算法(Text-CNN)結構基礎之上,將static和non-static兩種編碼分別作為CNN的輸入。算法結構如圖1所示。

圖1 雙層卷積神經網絡結構

圖1中,雙層卷積神經網絡結構總共分為輸入層、卷積層、池化層、全連接層、SoftMax層五層。

(1) 輸入層(Input Layer) 使用Word2Vec,采用static和non-static兩種方式訓練生成的詞向量xi∈X。zero-padding擴展邊界,并簡單拼接成擴展特征矩陣,作為雙層卷積神經網絡的輸入。

(2) 卷積層(Convolutional Layer) 本文采用兩個卷積層,對兩種通道輸入的詞向量xi∈X,分別采用(2,3,4)三種大小的濾波器進行卷積操作得到局部特征值。當卷積核大小為h時,把句子分割成{x0:h-1,x1:h,…,xi:i+h-1,…,xn-h+1:n},然后對每個分量進行卷積,得到卷積Feature-Map:

C=(c1,c2,…,cn-h+1)

式中:ci是對xi:i+h-1卷積后得到的特征信息。進一步地:

ci=f(wcxi:i+h-1+b)

式中:wc代表卷積核矩陣,xi:i+h-1表示文本矩陣的第i+h-1行,b為偏置項,f表示激活函數,此處采用Relu激活函數。ci表示輸出的卷積特征值。

Relu激活函數的公式如下:

(4) 全連接層(Fully Connected Layer) 將池化層生成的特征值進行全連接,并將連接后的特征向量輸出至SoftMax層。

(5) SoftMax層(SoftMax Layer) 輸入全連接層的特征向量,并輸出情感類型:

式中:bi為偏置;Wi為全連接層權重;y為分類結果。y=1為正向,y=-1為負向。

2.3 擴展特征

中文微博評論文本通常在140字以內,內容精簡且口語化[17]。為了進一步提高微博情感分類的準確度,我們提出了一種擴展特征,通過提取微博短文本中可以明顯表達情感傾向的詞語和微博表情,生成擴展特征矩陣,作為Dual-CNN的輸入。擴展特征包括:

(1) 微博表情 通過對微博廣場數據的抓取,我們發現約有27.8%的微博文本中含有微博表情。而相比于傳統方法,本文針對微博的用戶使用習慣,提出了融合微博表情的擴展特征,其特點是可以更加明確的表明用戶的情感。然后,根據統計得到微博用戶常用的14個表情,并參考微博用戶體驗設計(UDC)團隊對于微博表情情緒表達程度的定義[18],對不同的表情所表達出的情感強弱程度分別賦予相應的強度值,如表1所示。在爬取的微博文本中,微博表情是通過“‘[’+‘表情名稱’+‘]’”格式實現的。例如“[失望]”對應的是表1中的“失望”表情。

表1 常用微博表情及賦予的強度值

(2) 特征詞語 微博短文本的特征詞語主要包括正向情感詞、負向情感詞、程度副詞、否定詞、肯定詞,以及感嘆號、問號等標點符號。我們結合上述微博表情所表達的情感強度值,將特征詞語和微博表情映射為一個擴展特征向量,表2為各擴展特征及其強度值。

表2 特征詞語對應的強度值

2.4 模型的訓練

本文提出的雙層卷積神經網絡結構,在模型訓練時進行了反復實驗。模型參數設置如表3所示。

表3 模型訓練參數

2.5 Dual-CNN算法步驟

Dual-CNN算法步驟如算法1所示。

算法1Dual-CNN

輸入:有標簽的中文微博語料集D、無標簽的中文微博語料集U

輸出:微博語料的情感分類,1代表正向,-1代表負向情感

步驟:

使用jieba分詞工具[19],對訓練集D與測試集U中的文本進行分詞處理;

使用Google Word2Vec工具,分別對訓練集D和測試集U構建詞向量矩陣;

利用特征詞語和表情,分別構建擴展特征矩陣;

使用模型訓練參數訓練模型,在雙層卷積神經網絡的兩層上分別采用static和non-static作為編碼輸入,得到分類器C;

將詞向量矩陣和擴展特征矩陣輸入分類器C,得到情感正負向概率P(正)、P(負),當正向概率P(正)大于負向概率P(負)時,判定文本為正向情感,否則為負向情感。

3 實 驗

3.1 實驗環境

實驗環境如表4所示。

表4 實驗環境

3.2 數據集

中文觀點傾向性分析評測2014(Chinese Opinion Analysis Evaluation, COAE2014)數據集,由第六屆中文傾向性分析評測會議提供。主要包含了五大任務,分別對情感關鍵詞、跨語言情感分析、情感傾向性和微博觀點要素識別進行了評測。本文在COAE2014任務4公開微博數據集之上。標注了其中5 000條微博的情感極性,包含正面情緒2 214條,負面情緒2 786條作為訓練集,并為其增加標準格式的微博表情。測試數據為來自不同話題抓取到的5 000條帶有情感極性的微博短文本,其中1 390條帶有微博表情。

3.3 實驗設計與評價指標

本文提出的基于擴展特征矩陣和雙層CNN的中文微博情感分類算法Dual-CNN,在單層CNN模型上提出了雙層CNN模型,并使用微博表情和特征詞語構建了擴展特征矩陣。為了驗證Dual-CNN算法的有效性,本文設計了多個對比實驗模型,具體實驗設計如下:

(1) 擴展特征矩陣的有效性對比實驗 在保證相同的分類模型下,分別采用原始的詞向量矩陣與加入擴展特征矩陣后的矩陣,輸入單層CNN模型,來證明擴展特征矩陣的有效性。

(2) 雙層CNN模型的有效性對比實驗 在保證相同的輸入條件下,使用本文提出的Dual-CNN模型與傳統的Linear SVM、單層CNN模型進行對比實驗。

(3) 雙層CNN模型中不同編碼方式的對比實驗 共設置三次實驗,分別為:兩層CNN均采用static輸入、兩層CNN均采用non-static輸入和兩層CNN分別采用static和non-static輸入。

實驗采用準確率(Accuracy)作為評價指標,計算公式為:

式中:TP表示實際為正,預測為正的樣本數;FN表示實際為正,預測為負的樣本數;TN表示實際為負,預測為負的樣本數;FP表示實際為負,預測為正的樣本數。

3.4 實驗結果及分析

(1) 擴展特征矩陣的有效性對比實驗 實驗結果如表5所示。

表5 擴展特征矩陣的有效性對比實驗結果

可以看出,加入擴展特征詞語和表情矩陣的單層CNN模型,在分類準確性上優于只采用詞向量矩陣作為模型輸入的單層CNN模型。這是因為,擴展特征更準確地體現了用戶使用的微博表情和詞語特征、標點符號特征所表達出的情感傾向,提取到了更多的語義信息。用戶在評論時所添加的表情,較為明確地體現了用戶的情感傾向。傳統方法常常在數據預處理階段將微博表情去除,這樣會損失一定的文本特征。

(2) 雙層CNN模型的有效性對比實驗 實驗結果如表6所示。

表6 雙層CNN模型的有效性對比實驗結果

可以看出,在模型輸入相同的情況下,單層CNN與Dual-CNN均相比傳統Linear SVM取得了更好的分類結果。相比于單層CNN,Dual-CNN由于使用了雙層CNN結構,通過兩層不同方式的文本輸入,得到了更多的局部敏感信息及特征信息之間的聯系,有效彌補了由于微博文本較短,在單層CNN上無法獲取足夠的特征信息的問題,因此獲得了更高的準確度。

與文獻[4]提出的CNN-character模型相比,Dual-CNN亦取得了更高的分類準確率。主要原因在于CNN-character模型沒有考慮微博文本中的微博表情信息,只使用了詞語作為特征矩陣的擴展,對于含有微博表情的微博語料適應性較弱。相比之下,Dual-CNN由于充分考慮了擴展特征詞與和微博表情,因此取得了更好的實驗結果。

(3) 雙層CNN模型中不同編碼方式的對比實驗 實驗結果如表7所示。

表7 雙層CNN模型中不同編碼方式的對比實驗結果

可以看出,相比于static文本編碼,non-static取得了更好的分類效果。原因在于,static的word vector是固定不變的,而non-static中將word vector也作為優化的參數之一。在數據量比較大的情況下,non-static可以加速模型的收斂,取得更好的效果。

在本文提出的雙層CNN模型中,相比于只采用一種文本編碼方式,同時采用static和non-static方式并分別應用于CNN的兩層,可以避免采取同一編碼方式可能引起的局部特征重復的問題。從實驗結果也可以看出,static和non-static組合的文本編碼方式,相比于兩層都采用non-static的Dual-CNN算法,由于獲得了更多的局部特征,因此取得了更好的準確率。

綜上,通過比較是否擴展特征矩陣、單雙層卷積神經網絡、雙層神經網絡中不同編碼方式在中文微博情感分類任務上的表現,證明了本文提出的Dual-CNN模型具有更好的性能。與傳統方法相比,在分類準確度上有明顯的提升。

4 結 語

本文針對現有中文微博短文本分類方法中存在的無法解決數據的稀疏問題、忽略微博文本中的表情和詞語特征等不足,提出了一種基于擴展特征矩陣和雙層卷積神經網絡的微博文本情感分類算法Dual-CNN。首先,針對微博用戶常用的微博表情、肯定或否定詞、表達情感的標點符號等多種詞語特征,建立擴展特征矩陣。然后將詞向量與擴展特征矩陣拼接后的特征,分別使用static和non-static文本編碼輸入卷積神經網絡的兩層,最后得到情感分類結果。從3組對比實驗中可以證明,Dual-CNN模型可以有效提取中文微博文本特征,提升情感分類的準確性。

在下一步的研究中,我們將進一步探索卷積神經網絡的參數調優工作,以及引入更多的情感類型,進一步細分用戶情感,并考慮探究將詞序作為Dual-CNN的第三個通道,進一步提升模型性能。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 伊在人亚洲香蕉精品播放| 亚洲第一精品福利| 国产永久在线视频| 国产一级视频久久| 97国产精品视频人人做人人爱| 蜜桃视频一区二区三区| 国产免费久久精品99re丫丫一| 91av成人日本不卡三区| 国产一区二区网站| 噜噜噜综合亚洲| 国产精品色婷婷在线观看| 国产白浆视频| 72种姿势欧美久久久久大黄蕉| 国产精品任我爽爆在线播放6080| 无码福利日韩神码福利片| 十八禁美女裸体网站| 国产久操视频| 国产精品v欧美| 久久国产精品无码hdav| 精品一区二区三区中文字幕| 国产男女XX00免费观看| 精品福利网| 中国精品久久| 国产1区2区在线观看| 91亚洲免费视频| 国产毛片基地| 国产微拍一区二区三区四区| 欧美日韩综合网| 亚洲最猛黑人xxxx黑人猛交| 亚洲欧美国产五月天综合| 午夜啪啪网| 精品三级网站| 国产午夜无码专区喷水| 欧美成人国产| 欧美成人综合视频| A级毛片无码久久精品免费| 国产一级裸网站| 2021精品国产自在现线看| 粉嫩国产白浆在线观看| 亚洲国产综合自在线另类| 99精品这里只有精品高清视频| 国产精选小视频在线观看| 日韩亚洲高清一区二区| 国产成人一区二区| 色丁丁毛片在线观看| 精品無碼一區在線觀看 | 国产综合精品日本亚洲777| 日韩国产综合精选| 亚洲男人天堂2018| 国产美女无遮挡免费视频网站| 国产真实乱人视频| 日韩a级毛片| 欧美日韩中文国产va另类| AV熟女乱| 国模视频一区二区| 亚洲精品视频免费| 日韩小视频在线播放| 91视频区| 国产在线日本| 精品一区二区三区中文字幕| 国产日韩欧美在线播放| 久久亚洲AⅤ无码精品午夜麻豆| 国产日韩欧美视频| 国产精品毛片一区视频播| 亚洲国产天堂在线观看| 久久天天躁夜夜躁狠狠| 亚洲高清无码久久久| 狠狠做深爱婷婷久久一区| 国产精品爆乳99久久| 国产人成在线观看| 久久人体视频| 亚洲人成网址| 成人免费午夜视频| 黄色三级网站免费| 日韩欧美国产综合| 国产精品免费p区| 丁香五月激情图片| 国产成人福利在线| 在线观看无码a∨| 色综合婷婷| 91无码人妻精品一区| 日韩精品免费一线在线观看|