999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感詞典與機器學習的文本情感極性分析

2018-10-20 18:11:15王思凡
數碼設計 2018年12期
關鍵詞:文本挖掘

王思凡

摘要:“情感極性分析”是對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,是文本情感分析的一個分類。目前廣泛用于產品評估、輿情預控與信息分析。本文將分別采用兩種目前常見的情感極性分析方法,即情感詞典的方法和基于機器學習的方法進行情感分析實驗。

關鍵詞:文本挖掘;情感字典;程度;極性分析

中圖分類號:TP391.1;TP181

文獻標識碼:A

文章編號:1672 - 9129(2018)12 - 0113 - 01

1 情感極性分析法

1.1 原理。

基于情感詞典的情感分析應該是最簡單最基本的情感極性分析方法。其主要判斷思路是:對文檔分詞,找出文檔中的情感詞、否定詞以及程度副詞。其中,找出否定詞是因為其會將評價的情感轉向相反的方向。

因此,在找出情感詞之后,要判斷情感詞之前是否有否定詞及程度副詞,將它之前的否定詞或程度副詞劃分為一個組,如果有否定詞將情感詞的情感權值乘以-1,如果有程度副詞就乘以程度副詞的程度值,最后所有組的得分加起來,大于O的歸于正向,小于0的歸于負向。在實驗中,我們使用的是BosonNLP的情感詞典。BosonNLP是基于微博、新聞、論壇等數據來源構建的情感詞典,其在處理以上來源的評價時比較準確。對否定詞的判斷我們使用了傳統模型中提供的情感極性詞典下載包,對于程度副詞我們使用了《知網》情感分析用詞語集(heta版)。詞典內數據格式可參考如下格式,即共兩列,第一列為程度副詞,第二列是程度數值,>1表示強化情感,<1表示弱化情感。

1.2 實現過程。

1)文本預處理,我們使用“結巴中文分詞”作為分詞工具,分詞并去除停用詞;

2)將分詞結果轉為字典,key為單詞,value為單詞在分詞結果中的索引,如果把單詞作為key的話假如一個情感詞在文中出現了多次,只記錄這個詞最后一次出現的位置;

3)對分詞結果分類,找出情感詞、否定詞和程度副詞;

4)計算得分。設置初始權重W為l,從第一個情感詞開始,用權重W*該情感詞的情感值作為得分(用score記錄),然后判斷與下一個情感詞之間是否有程度副詞及否定詞,如果有程度副詞,此時的W作為遍歷下一個情感詞的權重值,循環直到遍歷完所有的情感詞,每次遍歷過程中的得分sCore加起來的總和就是這篇文檔的情感得分。

5)返回結果。

1.2 運行結果

1.3 存在問題。

簡單使用情感詞典將常用詞打上了唯一分數的辦法存在許多不足之處:

1)不帶情感色彩的停用詞會影響文本情感打分。

2)文本中一些詞性的多變成為了影響模型準確度的重要原因。

一種情況是同一個詞在不同的語境下可以是代表完全相反的情感意義; 3)另外,同一個詞可作多種詞性,那么情感分數也不應相同,例如:“這部電影真垃圾”與“垃圾分類”,在第一句中垃圾表現強烈的貶義,而在第二句中表示中性,單一評分對于這類問題的分類難免有失偏頗。

2 改進——機器學習方法

2.1 原理。

主要通過輸入大量句子以及這些句子的情感標簽,訓練一個句子情感分類器,進而預測新的句子的情感。

機器學習方法的優點包括:機器學習對情感分析會更為精準,深度神經網絡可以很好的分辨出一些反諷語氣的句子。機器學習的前饋過程接受固定大小的輸入,比如二進制數;遞歸網絡可以接受序列數據,比如文本。

2.2 實現方法。

1)導入庫:tflearn是一個深度學習庫,他基于TensorFlow,并且提供了更高級的API。

2)數據導入:選擇pkl形式的數據進行導人(pkl:字節流形式數據,更容易轉換為其他python對象),取10000單詞,10%的的數據作為驗證集。將數據劃分為評論集和標簽集。

3)數據處理:由于不能直接將文本數據中的字符串輸入神經網絡,必須先進行向量化。將數據轉為向量表示。

4)利用pad_sequences把輸入轉換為矩陣的形式,并且對矩陣進行擴充。矩陣的擴充是為了保持輸入維數的一致性。

5)修改參數標明輸入的數列擴充到100的長度,擴充的部分數值為0。把評論集轉為二進制向量(表示評價是積極或消極)

2.3 構造網絡。

1)定義輸入層,輸人數據長度為100

2)定義嵌入層,第一個參數是這一層接受的向量,即上一層輸出的向量,共導入10000個單詞,輸出維度定義為128

3)定義LSTM( Long short term memory)層,使我們的網絡能夠記住序列一開始的數據,將把dropout設置為0.08,這是一種防止過擬合的技術。

4)定義全連接網絡層,激活函數使用softmax。

5)對于輸入做回歸操作,定義優化方法,與學習率,還有損失值計算方法

2.4 訓練網絡。

(1)初始化神經網絡

(2)訓練神經網絡,輸入訓練集與驗證集,show_metric= True可以輸出訓練日志

2.2 運行結果。在本次實驗中,我們詳細研究了在文本挖掘中基于情感詞典與機器學習的情感分析技術與主流算法,并對這些算法的實現進行了實驗和總結。我們使用機器學習的方法將文本中輸入的大量句子添加句子的情感標簽,使用gpu建立出了一個句子情感分類器,進而預測新的句子的情感。在這個過程中,我們明白了,在對文本挖掘的研究的道路上絕對不能單純只學習理論和借鑒別人的成果,還要自己思考,從多方面分析當下模型,并對當下的已有模型進行創新。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 亚洲福利一区二区三区| 2021国产精品自产拍在线| 成·人免费午夜无码视频在线观看 | 国产欧美日韩视频一区二区三区| 97se亚洲综合| 1769国产精品视频免费观看| 午夜不卡视频| av在线手机播放| 天天综合网色中文字幕| 久久人人妻人人爽人人卡片av| 国内a级毛片| 欧美日韩亚洲国产主播第一区| 国产欧美日韩在线在线不卡视频| 亚洲无限乱码| 成人小视频在线观看免费| 亚洲成a人片| 国产欧美专区在线观看| 毛片久久网站小视频| 制服丝袜一区二区三区在线| 精品久久人人爽人人玩人人妻| 在线va视频| 亚洲国产欧美中日韩成人综合视频| 国产麻豆精品在线观看| 欧美一区福利| 一本久道久久综合多人| 亚洲人成网站18禁动漫无码 | 粉嫩国产白浆在线观看| AV无码一区二区三区四区| 亚洲国产精品成人久久综合影院| 波多野结衣一区二区三区88| 22sihu国产精品视频影视资讯| 欧美日韩资源| 亚洲欧美成人影院| jijzzizz老师出水喷水喷出| 91在线无码精品秘九色APP| 欧美日韩中文国产| 亚洲永久精品ww47国产| 午夜综合网| 国产精品污视频| 亚洲无码视频一区二区三区| 中国国语毛片免费观看视频| 午夜视频日本| 波多野结衣在线se| 色网站在线免费观看| 四虎永久在线| 青草91视频免费观看| 国产三级国产精品国产普男人 | 色135综合网| 再看日本中文字幕在线观看| 亚洲欧美日韩精品专区| 国内精自视频品线一二区| 国产精品亚洲va在线观看| 久久久精品国产SM调教网站| 色悠久久久久久久综合网伊人| 国产高清不卡视频| 欧美激情福利| 国产精品lululu在线观看| 福利一区在线| 日韩国产 在线| 青青操国产视频| www.亚洲色图.com| 成人午夜天| 多人乱p欧美在线观看| 国产精品区视频中文字幕| 国产精品污视频| 精品伊人久久久香线蕉| 国产亚洲成AⅤ人片在线观看| 国产激爽爽爽大片在线观看| 国产成人无码AV在线播放动漫| 色偷偷男人的天堂亚洲av| 白丝美女办公室高潮喷水视频| 99青青青精品视频在线| 亚洲码在线中文在线观看| 婷婷亚洲天堂| 久久综合九色综合97网| 国内精品自在欧美一区| 久久亚洲国产视频| 国产亚洲欧美另类一区二区| AV无码无在线观看免费| 成人在线视频一区| 欧美黄网在线| 国产精品亚洲五月天高清|