999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型和詞嵌入的CNN情感分類方法

2020-01-27 02:26:49翟高粵
錦繡·中旬刊 2020年8期
關(guān)鍵詞:深度學習

翟高粵

摘要:針對one-hot詞嵌入技術(shù)無法表述相關(guān)詞之間的語意和關(guān)系的問題,提出一種基于預訓練模型的詞嵌入(GloVe)和CNN神經(jīng)網(wǎng)絡(luò)相結(jié)合的情感分類方法。首先,讀取要分類的語料并加載中文預訓練詞向量模型;然后使用TensorFlow進行數(shù)據(jù)預處理,生成訓練集和測試集;最后定義兩種詞嵌入矩陣并構(gòu)建CNN模型進行對比。實驗結(jié)果表明,使用預訓練模型的詞嵌入方法比自定義訓練的方式能進行更好的情感分類

關(guān)鍵詞:詞嵌入;深度學習;卷積神經(jīng)網(wǎng)絡(luò);情感分類

中圖分類號:TP183:文獻標識碼:A

0 引言

情感分析是從自然語言中識別人的態(tài)度的一種人工智能方法,現(xiàn)在有很多人通過社交網(wǎng)絡(luò)服務、博客、在線評論和社區(qū)網(wǎng)站上面發(fā)表他們的觀點或看法。由于很多用戶在網(wǎng)絡(luò)上表達自己的情感,因此研究人員可以通過分析現(xiàn)實世界中的情感來了解社會輿論。

1 相關(guān)概念

1.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

CNN模型在計算機視覺處理中獲得了很大的成功。它由輸入層、卷積層、池化層和完全連接層組成。輸入層主要輸入原始像素值的圖像,包括RGB通道。在卷積層中,通過滑動窗口(過濾器)來捕獲像素的局部特征。在池化層中,局部小平移具有不變性的特點,并通過子抽樣的方法減小了參數(shù)維數(shù)。在全連接層中,把高維度圖像進行平展后進行分類。

1.2 詞嵌入技術(shù)(Word-Embedding)

為了數(shù)字化輸入的單詞,我們可以使用k個編碼向量(由若干個0和一個1組成)中的1(one-hot)來表示一個單詞,這種方法非常簡單,但無法表達單詞之間的關(guān)系。為了能表達單詞之間的關(guān)系,我們通常使用詞嵌入方法,這是一種降維技術(shù)。詞嵌入方法就是把每個單詞矢量化表示。它由密集且維數(shù)較低的k維向量表示。研究表明,語義相近的詞向量在向量空間中距離很近,反之語義差距大的詞向量在向量空間距離較遠。目前,許多關(guān)于自然語言處理(NLP)的研究都使用預訓練詞向量。

使用預訓練的詞嵌入,在數(shù)據(jù)集較小的情況下,難以學習到足夠好的embedding層,選擇一些權(quán)威的官方詞嵌入數(shù)據(jù)庫(比如GloVe)能夠有效解決數(shù)據(jù)集的問題。GloVe的全稱叫Global Vectors for Word Representation,它是一個基于全局詞頻統(tǒng)計(count-based & overall statistics)的詞表征(word representation)工具,它可以把一個單詞表達成一個由實數(shù)組成的向量,這些向量捕捉到了單詞之間一些語義特性,比如相似性(similarity)、類比性(analogy)等。我們通過對向量的運算,比如歐幾里得距離或者cosine相似度,可以計算出兩個單詞之間的語義相似性。

1.3 情感分類

情緒分類的目的是識別給定句子(或文檔)的情緒極性(積極或消極)。傳統(tǒng)分類方法大致可以分為基于詞典的分類方法和基于深度學習的分類方法。基于詞典的方法通過人工的方法來提取語言特征。例如,通過在詞典中標注每個單詞的情感極性就被當作語言特征。另一方面,深度學習方法具有自動地從原始數(shù)據(jù)中學習表示的能力。基于深度學習的方法自動從原始文本輸入中提取特征,并使用它們對情緒極性進行分類。因此,基于深度學習的方法在情緒分類任務中越來越受到研究人員的歡迎。

2 數(shù)據(jù)預處理(定義詞嵌入矩陣)

2.1 數(shù)據(jù)集介紹

本文使用的是IMDB電影評論數(shù)據(jù)集,該數(shù)據(jù)集是用于情感分析的國際標準數(shù)據(jù)集之一。數(shù)據(jù)集收集了大約50000條的評論,其中訓練集25000條,測試集25000條。對于預訓練詞嵌入,本文使用的是GloVe。

2.2 讀取語料

打開語料文件,把原始語料劃分為訓練數(shù)據(jù)和測試數(shù)據(jù),把文本信息讀取到texts列表中,標簽信息讀取到labels中,其中文本信息需要使用預處理詞嵌入技術(shù)進行處理,標簽信息本文使用one-hot進行表示。

2.3 加載預訓練詞向量模型

本文采用的詞向量是一個稠密向量,可以理解為將文本的語義抽象信息嵌入到了一個具體的多維空間中,詞之間語義關(guān)系可以用向量空間中的范數(shù)計算來表示。

下載GlOve,進行解壓之后的中文預訓練詞向量模型的文件格式是文本文件,首行只有兩個空格隔開的數(shù)字:詞的個數(shù)和詞向量的維度,從第二行開始格式為:詞 數(shù)字1 數(shù)字2 …… 數(shù)字300,形式如下:

364180 300? [首行]

china 0.003146 0.582671 0.049029 -0.312803 0.522986 0.026432 -0.097115 0.194231 -0.362708

以上364180表示的是詞的個數(shù),300表示的詞的維度,即一個詞用300維的數(shù)字進行表示,”中國”使用了300維的向量進行表示。

2.4 使用tf.keras對語料進行處理

tf.keras是tensorflow中集成的keras處理模塊,通過tf.keras可以直接調(diào)用keras中的各種功能。本文將使用tf.keras中的Tokenizer對語料文本進行處理,每個向量等于每個文本的長度,這個長度在處理的時候由變量MAX_SEQUENCE_LEN(最大句子長度)做了限制,其數(shù)值并不表示計數(shù),而是對應于字典tokenizer.word_index中的單詞索引值,這個字典是在調(diào)用Tokenizer時產(chǎn)生。

長度超過MAX_SEQUENCE_LEN的文本序列會被截斷,長度小于這個值的文本序列則需要補零來達到這個長度,可以使用tf.keras中的pad_sequence()就是用零來填充向量序列。例如:對[1,2,3,4,5,6,7,8],[6,7,8,9],用maxlen=6進行長度的截斷,結(jié)果如下:

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 日本一本正道综合久久dvd| 日韩无码视频专区| 国产一级妓女av网站| 亚洲乱亚洲乱妇24p| 日日碰狠狠添天天爽| 在线观看免费黄色网址| 99久久精品免费看国产电影| 精品欧美视频| 精品色综合| 99免费在线观看视频| 免费在线不卡视频| 一级在线毛片| 欧美午夜在线播放| 激情综合图区| 国产免费精彩视频| 欧美成人手机在线观看网址| 久久青草精品一区二区三区 | 日韩黄色精品| 亚洲中文字幕无码爆乳| 中文无码毛片又爽又刺激| 亚洲欧洲日韩综合| 久久久久国产一区二区| 午夜爽爽视频| 高清大学生毛片一级| 欧美成人国产| 97色伦色在线综合视频| 日韩美一区二区| 国产成人高清精品免费| 久无码久无码av无码| 国产精品第5页| 国产欧美日韩视频怡春院| 欧美人人干| 亚洲国产成人久久77| 欧美国产在线一区| 国产永久免费视频m3u8| 91国内在线视频| 日日噜噜夜夜狠狠视频| 少妇被粗大的猛烈进出免费视频| 好紧太爽了视频免费无码| 国产欧美成人不卡视频| 久久亚洲日本不卡一区二区| 欧美午夜在线观看| 91麻豆精品国产91久久久久| 欧美亚洲国产精品久久蜜芽| 无码有码中文字幕| 中文字幕资源站| 91娇喘视频| 黄色国产在线| 欧美激情福利| 伊人AV天堂| 亚洲最大在线观看| 在线观看国产精品日本不卡网| 国产免费福利网站| 青青草国产在线视频| 乱码国产乱码精品精在线播放| 久久久久亚洲Av片无码观看| 久久美女精品国产精品亚洲| 欧美成人看片一区二区三区 | 亚洲日韩AV无码一区二区三区人| 无码专区在线观看| 欧美亚洲国产精品第一页| 国产内射在线观看| 国产传媒一区二区三区四区五区| 成人一级黄色毛片| 色噜噜狠狠色综合网图区| 国产成人av一区二区三区| 亚洲精品在线91| 亚洲欧美日韩成人在线| 欧美精品v日韩精品v国产精品| 欧美国产日产一区二区| 国产欧美日韩资源在线观看| 青青网在线国产| 精品无码一区二区三区在线视频| 亚洲精品日产精品乱码不卡| 欧美日韩中文国产va另类| 天天躁夜夜躁狠狠躁图片| 国产成人综合在线观看| 日本草草视频在线观看| 试看120秒男女啪啪免费| 亚洲精品国产成人7777| 国产精品xxx| 国产特级毛片|