999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于評論文本的情感分析研究

2018-09-05 10:32:04任高山韓友德
關鍵詞:機器學習

任高山 韓友德

【摘 要】論文基于評論文本語料信息提出Word2vec模型與Doc2vec模型與機器學習相結合比較的評論文本情感分析模型,經過實驗的對比驗證,結果表明了論文提出的方法能夠有效提高分類準確率、精確度、召回率。

【Abstract】Based on the corpus information of comment text, the paper puts forward the emotional analysis mode of comment text from the combination and comparison of Word2vec mode and Doc2vec mode and machine learning. Through the experimental comparison and verification, the results show that the proposed method can effectively improve the accuracy, precision and recall of classification.

【關鍵詞】機器學習;Word2vec;Doc2Vec;情感分析

【Keywords】machine learning; Word2Vec; Doc2Vec; emotional analysis

【中圖分類號】TP391 【文獻標志碼】A 【文章編號】1673-1069(2018)05-0062-02

1 引言

文本情感分析是指分析作者在傳達信息時所隱含的情緒狀態,對作者的意見進行判斷或者評估,給出作者態度是褒義、貶義的結論。企業和商家面對用戶的大量情感評論信息,可以不斷挖掘有傾向的數據,統計用戶對消費產品的反饋,向消費者推薦潛在消費品等用途。

本文的結構是這樣組織的:第一部分介紹了情感分析的相關研究現狀;第二部分對情感分析語料文本的預處理進行了概要闡述;第三部分對不同的特征提取模型和不同的機器學習分類算法做出了實驗驗證,并對結果進行了詳細的分析;第四部分給出了結語。

2 相關研究現狀

基于詞向量表征模型,Mikolov提出了一種基于神經網絡學習方式將詞語映射成連續(高維)向量的Word2vec算法[1],利用中心詞及其上下文建立局部詞嵌入窗口模型,用以進行詞語特征向量的優化訓練[1]。詞向量具有良好的語義特性,是表示詞語特征。基于Word2Vec,Le和Mikolov等人[2]提出了Doc2Vec方法作為一個處理可變長度文本的總結性方法。除了在增加一個段落向量以外,Doc2vec幾乎等同于Word2Vec。相比于Word2Vec,Doc2Vec優勢在于訓練出每一篇文本的向量,更能全面理解文本的語義特征。

3 文本預處理的技術

對于語料文本信息需要進行文本預處理,主要包括規范編碼格式、文本分詞等步驟。

①規范編碼格式,對于評論語料,通常情況下,會統一存儲為規范的編碼格式,如utf-8格式等。

②文本分詞,文本的單詞將會被后續分類操作中作為特征來表征文本,文本分詞是否正確、高效直接影響后續實驗結果。Python中文分詞組件Jieba,可以實現分詞、添加自定義詞典、關鍵詞提取、詞性標注、并行分詞等功能,在全模式下,速度可達到1.5MB/s,本文采取的便是Jieba分詞。

4 關于Doc2vec模型原理概述

Doc2vec是一個無監督框架,學習文本段落的連續分布向量表示。文本可以是可變長度的從句子到文檔。該方法可以應用于可變長度的文本,任何從短語或句子到大型文檔。Doc2vec 有兩種模型:Distributed Bag of Words(DBOW)和Distributed Memory(DM), 分別對應 Word2vec 中CBOW 與Skip-gram。以文本短句“The cat sat on mat”為例,其模型結構如圖1所示。在訓練過程中,文本片段 Paragraph 的ID保持不變,共享著同一個段落向量(即“The cat sat on mat”的向量表示)。DM在給定上下文和段落向量的情況下預測中心單詞的概率;DBOW則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。針對概率的目標函數,DM與DBOW利用隨機梯度下降進行詞向量與段落向量的聯合更新[2]。

5 實驗結果及分析

5.1 實驗數據集及誤差評估標準

本文采用的是譚松波教授整理的酒店評論語料正負平衡語料各3000個和標記好的淘寶網商品評論好評與差評的語料,正向標記文本共17696個,負向標記文本13428個,數據類型為短文本,用以研究情感分析分類的特征選擇算法及分類算法。

本文在評價分類器效果時,引入了信息檢索中的混淆矩陣:傳統的準確率計算公式就是考慮精確度Accuracy,考量了分類器對于兩個類別的總體的分類效果,由于其在不平衡樣本中效果不好,所以提出了精度(precision)和召回率(recall)這兩個。本文采用一種F-measure檢驗的方法。

F=2·■ (1)

式1是經常用到的F1指標,本文采用精確度、召回率、F1值來評估實驗結果。

5.2 實驗

實驗針對正向標記文本共17696個,負向標記文本13428個建立詞向量,選擇80%的數據作為訓練集,20%的作為測試集,先對標記語料進行文本預處理工作,然后分別采用Word2vec的cbow(continuous bag of words, cbow)型和Doc2vec的dbow(distributed bag of words, dbow),同時分別采用支持向量機(Support Vector Machine,SVM)、邏輯回歸(LogisticRegression,LR)、隨機梯度下降(Stochastic Gradient Descent,SGD)、高斯樸素貝葉斯(Gassian Naive Bayes,GassianNB)四種機器學習的分類算法建立預測模型,完成各種模型組合之下的實驗預測效果對比。

實驗將上述2種特征提取方法與4種機器學習算法分別進行組合預測,比較最終的誤差率,其中Word2vec與Doc2vec采用默認參數,模型采用CBOW(DBOW),文本window(表示當前詞與預測詞在一個句子中的最大距離)設為5,詞向量維度100,訓練epoch為10。設置min_count=1,min_count(以下都稱為詞典詞頻)是模型中很重要的一個參數,表示模型在訓練詞向量對詞典做截斷時,少于該參數次數的詞會去掉。將SVM、SGD、GassianNB、LR四種機器學習算法的參數設置成較好預測效果的參數。

由表1可知,采用Doc2vec模型的精確率,召回率,F1值都大于Word2vec模型的。可見Doc2vec提取的特征向量表達了更多的情感傾向信息,原因在于:Word2vec對詞向量進行平均處理,忽略了詞語之間的語序,語序對文本情感傾向信息產生的影響很大,而Doc2vec具有上下文分析的上下文“語義分析”能力。

6 結語

本文首先對情感分析研究現狀和文本語料的預處理做了概述,然后通過實驗驗證了Doc2Vec基于短文本分類的情感傾向性的有效性,證明了Doc2Vec加SVM方法可以有效提高文本傾向性分析的預測精度。

【參考文獻】

【1】Le Q V, Mikolov T, Distributed Representations of Sentences and Documents [J].Computer Science, 2014(4):1188-1196.

【2】潘博,張青川,于重重,等.Doc2vec在薪水預測中的應用研究[J].計算機應用研究,2018,35(01):155-157.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 伊人成人在线| 亚洲人成色在线观看| 日本道中文字幕久久一区| 欧美三级视频在线播放| 999国内精品视频免费| 青青草国产一区二区三区| 亚洲av无码牛牛影视在线二区| 欧美a级完整在线观看| 亚洲成人动漫在线| 亚洲AV无码乱码在线观看裸奔| 亚洲欧美日韩动漫| 色婷婷亚洲综合五月| 国产免费羞羞视频| 91av国产在线| 国产精品私拍99pans大尺度| 亚洲无码久久久久| 久久久久亚洲av成人网人人软件| 秋霞一区二区三区| 亚洲成aⅴ人片在线影院八| 欧洲熟妇精品视频| 澳门av无码| 免费精品一区二区h| 无码国产伊人| 91欧美在线| 91精品啪在线观看国产91九色| 青青草欧美| 人妻一本久道久久综合久久鬼色| 首页亚洲国产丝袜长腿综合| 伊人婷婷色香五月综合缴缴情| 暴力调教一区二区三区| 久久久受www免费人成| 99视频只有精品| 久久久91人妻无码精品蜜桃HD| 国产亚洲欧美另类一区二区| 免费又黄又爽又猛大片午夜| 久久黄色一级视频| 四虎精品黑人视频| 国产熟女一级毛片| 中文字幕资源站| 国产精品第一区| 亚洲精品卡2卡3卡4卡5卡区| 91精品久久久无码中文字幕vr| 伊伊人成亚洲综合人网7777| 国产h视频在线观看视频| 久久婷婷国产综合尤物精品| 色综合久久88| 人妻丰满熟妇AV无码区| 久操中文在线| 国产在线麻豆波多野结衣| 成人毛片免费在线观看| 99一级毛片| 亚洲人成网18禁| 在线免费无码视频| 高清国产在线| 国产成人精品男人的天堂| 国产日韩欧美视频| 波多野结衣亚洲一区| 国产精品污视频| 欧美一级夜夜爽| 日本国产在线| 欧美v在线| 韩国自拍偷自拍亚洲精品| 91综合色区亚洲熟妇p| 久久精品午夜视频| 中国一级毛片免费观看| 一本久道久久综合多人| 国产福利2021最新在线观看| 91年精品国产福利线观看久久| 欧美日韩第三页| 国产一国产一有一级毛片视频| 精品国产一二三区| 三上悠亚精品二区在线观看| 一级福利视频| 国产一区二区三区免费观看| 无码高潮喷水专区久久| 欧美精品v欧洲精品| 伊人成人在线| 亚洲成人网在线播放| 手机在线免费毛片| 国产欧美日韩18| 国产91线观看| 午夜国产不卡在线观看视频|