999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于字粒度多維度特征的深度學習情感分類架構研究

2020-03-23 07:00:18劉哲源
科學咨詢 2020年6期

劉哲源

(陜西省延安中學 陜西延安 716000)

引言

目前,在計算機視覺和自然語言處理等領域,深度學習模型取得了顯著成就。

深度學習對文本等序列數據的有效建模使其快速替代了傳統機器學習在文本分類任務上的地位。采用深度學習進行文本分類的一般思路是使用詞向量化算法對字序列或詞序列結果進行向量化(如采用word2vec技術,將每個詞映射為一個向量),然后作為文本分類模型的輸入[1],如TextCNN。

按照字切分和按照詞切分各有優缺點,在特定領域按照詞切分往往容易因為切錯詞導致性能下降,而按照字切分則不存在切詞錯誤的問題,因為字只有一種切分方式。但按照字切分相比詞切分則會產生更大的參數空間,容易導致性能下降。《Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition》中提及偏旁部首特征是中文的最小語義單位。特征是對現實事物的數字抽象,是模型性能的天花板,特征越有代表性、信息量越豐富,模型表現就會越好。

受以上分析的啟發,本文基于TextCNN和LSTM網絡,從改善特征的角度引入字+偏旁部首多維度特征,完善字的語義信息,優化模型效果。本文采用TextCNN作為文本分類模型,其因穩定和出色的性能表現經常被用作基準模型。本文在情感分類數據集上分別實驗單獨字向量,字向量+偏旁部首的實驗效果。效果表明,采用字+偏旁部首特征比單獨采用字特征有明顯的性能提升。本文的改進可進一步引入拼音特征,輔助糾正情感文本中同音錯別字的問題。本文創新點在于更豐富的底層語義特征的引入,且不局限于深度學習網絡模型的選擇。

一、模型詳解

(一)詞或字的向量化

單詞的向量化表示方法一般有兩種,即獨熱表示和分布式表示。獨熱表示向量中僅有一個維度是1,其假設詞于詞之間的意義互相獨立,如下圖1。而詞的分布表示不像獨熱表示,其是將語義分散在每一維度,如圖2。

圖1 詞的onehot向量表示

圖2 詞的分布式表示

(二) word2vec

上下文相似的詞,其語義也相似,這是word2vec的基礎假設,如圖3。相較于傳統NLP的高維、稀疏的表示法(Onehot Representation),Word2Vec訓練出的詞向量是低維、稠密的。CBOW模型與Skip-gram模型是word2vec的兩種實現方式。

圖3 詞義的上下文表示

(三)TextCNN

圖4 TextCNN模型圖

TextCNN模型是由 Yoon Kim在《Convolutional Naural Networks for Sentence Classification》一文中提出的使用卷積神經網絡來處理NLP問題的模型。論文所提出的模型結構如上圖4所示。

模型分為輸入層、卷積層、池化層、全連接層,與常見CNN結構類似。[2]卷積具有局部特征提取的功能, TextCNN的卷積核有個特點,卷積核的寬度是與詞向量的維度一致,所以可用卷積操作來提取句子中類似 n-gram 的關鍵信息。高度和普通卷積核一樣,可以自行設置(通常取值2,3,4,5),高度n的物理意義類似于n-gram的n。

(四)偏旁部首

“偏旁”是字的各部位的統稱,主要包含形旁和聲旁兩類。“部首”是指表義的偏旁,它是一種特殊的偏旁,最早在《說文解字》為代表的古代字典被提及。常見“偏旁”。

(五)偏旁部首在命名實體識別中的使用

《Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition》提到偏旁部首作為最小語義單元,本身具有一定的語義。

偏旁部首是漢字內部的固有特征,它們帶有語義,能帶來額外的信息。例如,字符“你”(你),(他)“他”和“們”(人)都有偏旁部首“亻”,代表人,是漢字“人”的變種(人類)。漢字通常由較小的基本部首構成,部首是構成漢字意義的最基本單位。從本質上講,這種偏旁部首語義信息有助于使具有相似偏旁部首序列(書寫順序)的字符在向量空間中相互接近,因此可用于豐富字向量的語義信息,提升模型效果。

由于一個字符的每個部首都有一個獨特的位置,因此把一個字符的部首看作是一個寫作順序的序列。圖5顯示了《Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition》中如何按照字的寫作順序將偏旁部首嵌入到向量中。下文將講解如何將字向量和偏旁部首向量進行融合。

圖5 部首輸入示意圖

(六)TextCNN+多維度特征

TextCNN將CNN架構用到了文本分類任務上,通過卷積來獲取句子中n-gram的特征表示。[3]本文將其選擇為基準模型,實驗字+偏旁部首多維度特征的文本情感分類效果。TextCNN模型圖如圖4。

本文將提取到的多維度特征替代字向量特征,添加在TextCNN上,下圖6展示了將字和偏旁部首向量進行拼接,替代TextCNN的中的字向量輸入的過程。偏旁部首類似于英語的詞根詞綴,具有很明顯的語義,所以添加在TextCNN之后對文本語義的分類效果有較明顯的提升。[4]其中,偏旁部首特征的向量化方法采用文中所提到的《Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition》中的方式。其中偏旁部首按照字的書寫順序,將其視為序列輸入采用LSTM進行向量化編碼。

圖6 偏旁部首結合TextCNN示意圖

二、實驗

(一)情感分類數據集

本文的實驗數據采用“豆瓣電影前250名”的短評數據,衡量指標采用precision, recall, F1。

(二)實驗結果

為了進一步分析本文中所提模型中偏旁部首特征的影響,本文還統計了使用字+radical特征時,測試集及測試集中使用字+radical比單獨使用字特征多分類正確的樣本中,占比變化率top5的偏旁部首的情況。文本情感分類評估結果見下表1。多分類正確的樣本中,占比變化率top5的偏旁部首見表2。

表1 文本情感分類評估結果

表2 偏旁部首的變化率Top5情況

(三)實驗結果和討論

偏旁部首是中文語義的最小單位,引入偏旁部首特征,引入了更多的信息量,降低了深度學習模型的參數優化搜索空間。[5]有實驗結果可知,使用字+radical特征的模型,其預測結果確實比只使用字特征的效果要好。此外,注意到,使用字+radical比單獨使用字多分類正確的樣本集合中,“忄”“心”的占比變化率排在最靠前的位置。查閱資料可知,“忄”和“心”這兩個偏旁部首多與心里活動、情感變化有關,與“忄”有關的字如“憶”“懷”“惆”“悵”“恨”“憐”等,與“心”有關的字如“忘”“悶”“忠”“思”“怨”“怒”“戀”“慮”等相關。由此可見,偏旁部首的引入對于情感分析任務的性能提升確實有重要的貢獻。

三、結論

本文采用TextCNN模型,同時配合字+偏旁部首特征進行文本情感分類,實驗結果表明,字+偏旁部首相比單獨使用字特征,能夠取得更好的結果。

本論文的研究意義總結如下:

1.本文通過試驗證明了字粒度特征與漢字偏旁部首相結合對中文文本情感分類的可行性。

2.本文展示了基于TextCNN模型下字粒度特征與漢字偏旁部首結合對文本情感分類的結果。

3.偏旁部首可以輔助豐富字的情感信息。

4.本文提出的多維度特征聯合的方法,為文本情感分類任務做出了一定的啟發性貢獻。

主站蜘蛛池模板: 美女一级毛片无遮挡内谢| 深爱婷婷激情网| 日本黄色不卡视频| 一区二区三区成人| 国产精品手机在线播放| 无码有码中文字幕| 五月天福利视频 | 亚洲中文字幕无码mv| 亚洲国产系列| 国产精品jizz在线观看软件| 国产永久无码观看在线| 国产剧情无码视频在线观看| 欧美有码在线观看| 国产精品久久久久久久久久98| 日本午夜在线视频| 成人福利在线免费观看| 亚洲中文字幕在线观看| 婷婷六月综合网| 老司机精品一区在线视频 | 毛片a级毛片免费观看免下载| 2021国产精品自产拍在线| 亚洲综合色区在线播放2019| 青青青草国产| 一本久道久综合久久鬼色| 日韩精品无码免费专网站| 91无码人妻精品一区| 久久精品人妻中文视频| 中文字幕乱码中文乱码51精品| 性色在线视频精品| 91久久国产热精品免费| 国产成人精品一区二区三区| 国产精品美人久久久久久AV| 久久午夜夜伦鲁鲁片不卡| 71pao成人国产永久免费视频| 99er精品视频| 成年免费在线观看| 色婷婷综合激情视频免费看| 人妻精品久久无码区| 国产在线观看一区二区三区| 亚洲欧美一区二区三区图片| 日韩区欧美国产区在线观看| 专干老肥熟女视频网站| 免费大黄网站在线观看| 老色鬼久久亚洲AV综合| 亚洲黄网在线| 久久亚洲国产最新网站| 日本欧美成人免费| 国产高清自拍视频| 一区二区偷拍美女撒尿视频| 亚洲毛片在线看| 伊人精品视频免费在线| 67194成是人免费无码| 98超碰在线观看| 成人福利在线视频免费观看| 一级毛片a女人刺激视频免费| 999在线免费视频| 久久青草免费91观看| 无码专区国产精品第一页| 热99精品视频| 亚洲国产高清精品线久久| 久久久久人妻一区精品色奶水| 久久久精品无码一二三区| 青青操视频在线| 日本福利视频网站| 国产三级精品三级在线观看| 亚洲一区毛片| 日韩成人免费网站| 国产欧美综合在线观看第七页| 在线观看国产网址你懂的| 视频二区亚洲精品| 亚洲福利视频一区二区| 老司机精品久久| 国产无码在线调教| 欧美日韩北条麻妃一区二区| 中国毛片网| 亚洲香蕉伊综合在人在线| 久久这里只有精品66| 中文字幕欧美日韩| 浮力影院国产第一页| 亚洲中文字幕无码mv| 国产精品免费久久久久影院无码| 浮力影院国产第一页|