999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

博客評論的情感傾向性分析

2017-12-15 02:33:36宋芷萱
現代計算機 2017年32期
關鍵詞:分類文本情感

宋芷萱

(沈陽師范大學教育技術學院計算機應用技術系,沈陽 110034)

博客評論的情感傾向性分析

宋芷萱

(沈陽師范大學教育技術學院計算機應用技術系,沈陽 110034)

現如今,隨著網絡的快速發(fā)展,博客逐漸成為一種流行趨勢,人們通過博客來進行交流,那如何來對博客評論進行情感傾向性分析就成為首要解決的問題。博客評論的內容簡短而且有一定的格式,顯然不能用傳統(tǒng)的分類方法進行分類,因此,以對候選人A的個人博客為例,選擇用支持向量機和樸素貝葉斯分類器來進行文本分類,再遵循信息檢索的查準率、查全率和精確度這些指標來評估文本分類和情感分析。

博客評論;文本情感分析;支持向量機;樸素貝葉斯

0 引言

博客,也被稱為網絡日志,是一種在網絡上發(fā)布個人信息的一種形式。從個人角度來說,博客是一種表達個人思想,以及與他人分享有價值的資源和知識的一種方式。隨著博客用戶量的俱增,越來越多的用戶不再面對面的交流,而是通過博客來進行廣泛的交流以及知識的共享。

文本分類已經成為許多數據挖掘技術的主要應用領域,尤其是,從社會網絡、微博、博客或專業(yè)網絡等社交媒體服務中提取數據[1]。參與者利用這些服務來分享自己的觀點、與親友聯系、保持自己的專業(yè)素養(yǎng)或者追蹤相關新聞以及熱門話題。文本情感分析[2]又稱為意見挖掘,是以包含主觀情感和作者觀點的文本作為研究對象,通過識別這些文本的主觀性句子或詞語,來對這些文本進行傾向性分析的問題。

本文對博客評論的情感傾向性作了系統(tǒng)的研究,重點討論博客評論的分析算法。

1 文本預處理

從網頁上收集到的內容較比傳統(tǒng)的文本欠缺的是:形式不規(guī)范,雜亂無章,文本長度較短;內容密集,其中包含許多網絡用語、錯別字、超鏈接等,這些都會影響博客評論分析的準確性。因此,進行情感傾向性分析之前,需要經過一系列的文本預處理。

要對博客評論進行情感傾向性分析,首先,需要通過一系列訓練得到一個分類器[3],這個分類器通過訓練預料的學習,能夠找出該類文本的特征,并通過這些特征來進行傾向性的判斷,最終,將該待分類的博客評論分成褒義和貶義兩類。在進行預處理的時候,要注意停止詞、數字、符號、空格以及英文字母大小寫的處理。Baeza-Yates和Ribeiro-Neto[4]提出,信息和字詞可共同通過字詞-信息矩陣體現出來,C={x1,…,xn}和m維字詞T={t1,…,tn}為例,在這個矩陣中,每一列代表一個信息,與每列信息相對應的每一行代表一個字詞,項(i,j)是在信息xj上字詞ti頻繁項集,下面是一個n維信息和m維字詞的字詞-信息矩陣。如表1:

表1

由于字詞T序列符合字詞詞典,因此,我們能夠把每一列看作Rm與相對于的m維信息,可以使用不同的學習方法一句信息的向量表示法來執(zhí)行。

2 博客評論文本情感傾向性分析方法

我們人類經過系統(tǒng)的學習,可以通過自己的理解來辨別出一句話、一段話,是褒義還是貶義的,那如何能讓計算機自主的進行文本情感分析呢?本文采用的是把文本信息轉變成計算機能夠識別的向量,和使用兩種對文本內容進行情感分析較為準確的方法:支持向量機和樸素貝葉斯。

2.1 支持向量機(SVM)

過去的二十年中,支持向量機技術較于其他算法能夠更好的應用于數據分析問題。本文主要介紹支持向量機的兩類分類版本,其中,兩類分類版本中類通常被定義為{+1,-1}及其主要特征。支持向量機算法是幾何方法[5],這些方法允許通過解決形式的優(yōu)化問題來構建分類函數[6]。

對于SVM分類的情況,損失函數通常被定義為:

L(yi,f(xi))=max(1-yi*,f(xi),0)

如此定義損失函數,就是為了找到一個平滑函數f*(x)屬于HK來解決上述的優(yōu)化問題。因此,屬于HK的平滑函數,有如下形式:

其中,K(x,y)=(x)T(y)是產生HK的核函數。這樣,f*(x)在幾何上是把數據從“輸入空間”映射到“特征空間”。

2.2 樸素貝葉斯(Naive Bayes )

樸素貝葉斯算法是建立在貝葉斯定理和假設特征條件獨立之上的一種應用非常廣泛的文本自動分類方法[7],算法簡單、穩(wěn)定、且在假定特征條件獨立的情況下,準確率很高。

使用樸素貝葉斯進行分類過程可以分為三個階段:

①訓練集準備階段

這個階段主要是根據實際情況來進行特征屬性的選擇,并進行適當的劃分,然后人工對一部分數據進行分類標注,形成訓練數據集。

假設 x={a1,a2,...,an}是一個待分類項,其中,a1,a2,...,an是 x 的特征屬性。

②分類器訓練階段

這個階段是通過計算每個類別在每個特征屬性條件下的條件概率估計以及在訓練樣本中的出現頻率來訓練生成分類器,并將這些結果記錄下來。

類別的集合定義為 T={t1,t2,…,tm},并計算 P(t1|x),P(t2|x),…,P(tm|x)。

③分類階段

這個階段是使用通過訓練的得到的分類器來對未知的分類項進行分類。

通 過 貝 葉 斯定 理,求 出 P(ti|x)=max{P(t1|x),P(t2|x),…,P(tm|x)},那么就可以判斷出 x 屬于哪一個類別y。

2.3 候選人A 的個人博客

以一個參與大學選舉的大學教授為候選人A和可以評論參加選舉過程的人為候選人B,通過兩種學習算法來比較不同的內容分類技術和博客評論的情感傾向性分析。首先,先用樸素貝葉斯分類器把這些信息手動分類,分為{+1,-1}兩個類別,形成訓練樣本,再根據對候選人A和候選人B進行分類的分類消息,計算并估計出該分配給哪個類別,如此重復操作。

3 博客評論文本情感傾向性結論

3.1 分類的績效指標

本文遵循信息檢索[8]的查準率、查全率和精確度這些指標來評估文本分類和情感分析的不同方法。

類別Ci的查準率:類別Ci中實際屬于該類所有信息的分數

類別Ci的查全率:類別Ci中應該正確屬于該類所有信息的分數

類別Ci的精確度:整體的正確分類結果的比例

3.2 結論

本文通過多次使用樸素貝葉斯和支持向量機兩種方法,求其平均值來進行文本分類,再根據信息檢索的三個指標來評估評論的情感傾向性。通過多次實驗看出,傳統(tǒng)的分類方法中推薦消除停止詞這個方法可能會刪除一些情緒分析中的有價值的信息,因此,停止詞不能盲目地去消除,而是應該仔細過濾,來保留提高情感分析的準確性的術語。

博客評論是非常短的消息,當停止詞和其他多余的文本信息被刪除時會變得更短。普通文本的文檔通常較長,并且定義每個主題或類別的特征術語往往更頻繁出現,因此,用來分析文本的情感傾向性的重要詞語的出現頻率遠遠低于文本分類的典型問題。那么我們是否可以通過改進績效指標,以保留通常在傳統(tǒng)文本分類方法中過濾的停止詞。因此,我們決定重復上述實驗,但這次保留停止詞,試圖保留任何可以作為有價值并且可能在我們以前的測試中已經被消除的組成部分來區(qū)分不同的意見趨勢。

4 結語

近年來,隨著網絡的飛速發(fā)展,如何更快速、更準確地分析博客文本的情感傾向性就變得尤為重要。可以通過使用潛在語義分析等情感分析的替代方法,或者通過創(chuàng)建用于情緒分析的特定詞典,此外,還使用從正在研究的語料庫導出的術語等來定制特定的博客文件。我們可以通過對SVM和Naive Bayes得到的結果求平均值,可以提高整體的準確性[9]。這個方法可以在新的法律和公共策略的設計過程中、營銷和促銷的活動、商業(yè)產品和服務相關的自動分類和檢測反饋消息等中進行應用,得到有價值的文本信息。

[1]Li,N.,&Wu,D.D.(2010).Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast.Decision Support Systems,48(2):354-368.

[2]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計算機應用,2008:2725-2728

[3]李浩.基于評論的博客搜索引擎的設計與實現[D].重慶大學,2016

[4]Baeza-Yates,R.,&Ribeiro-Neto,B.(2011).Modern Information Retrieval:the Concepts and Technology Behind Search.Reading:Addison-Wesley.http://www.mir2ed.com.

[5]Moguerza,J.,&Munoz,A.(2006).Support Vector Machines with Applications.Statistical Science,21(3):322-336.

[6]Tikhonov,A.,&Arsenin,V.(1977).Solutions of Ill-Posed Problems.Scripta Series in Mathematics.New York:Winston

[7]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012:229.

[8]Olson,D.L.,&Delen,D.(2008).Advanced Data Mining Techniques(1st ed.).Berlin:Springer.

[9]Dietterich,T.(2000).Ensemble Methods in Machine Learning.In Lecture Notes in Computer Science:Vol.1857.Multiple Classifier Systems(pp.1-15).Berlin:Springer.doi:10.1007/3-540-45014-9_1.

Analysis of Emotional Orientation on Weblog Comments

SONG Zhi-xuan
(Department of computer application technology,College of Educational Technical,Shenyang Normal University,Shenyang 110034)

Nowadays,with the rapid development of the network,the blog has gradually become a popular trend,people through the blog to communicate,then how to comment on the emotional commentary of blog comments has become the primary solution to the problem.The content of blog comment is short and has a certain format,obviously cannot be classified by traditional classification method.Therefore,chooses to use support vector machine and naive Bayesian classifier for text classification,and then follows the information retrieval precision,recall and accuracy of these indicators to assess the text classification and emotional analysis.

Weblog Comments;Naive Bayes;Support Vector Machines;Emotional Orientation

1007-1423(2017)32-0052-03

10.3969/j.issn.1007-1423.2017.32.012

宋芷萱(1991-),女,遼寧省遼陽市人,沈陽師范大學教育技術學院計算機應用技術專業(yè),在讀研究生,研究方向為數據挖掘

2017-08-29

2017-10-23

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲三级视频在线观看| 日韩AV无码免费一二三区| 欧美黄色a| 本亚洲精品网站| 成年看免费观看视频拍拍| 久久黄色影院| 大香网伊人久久综合网2020| 国产福利不卡视频| 国产精品思思热在线| 午夜性刺激在线观看免费| 亚洲开心婷婷中文字幕| 色婷婷在线影院| 秘书高跟黑色丝袜国产91在线| 成人综合在线观看| 人妻21p大胆| 国产剧情国内精品原创| 日本免费福利视频| 婷婷成人综合| 男女性色大片免费网站| 人妻丰满熟妇AV无码区| 亚洲色图另类| 最近最新中文字幕在线第一页 | 99国产精品免费观看视频| 熟女日韩精品2区| 欧美在线天堂| 国产手机在线观看| 手机永久AV在线播放| AV老司机AV天堂| 国产精品制服| 欧洲熟妇精品视频| 国产精品免费p区| 色有码无码视频| 国产在线观看成人91| av在线无码浏览| 欧美亚洲激情| 91青青视频| 国产视频一二三区| 国产亚卅精品无码| 狼友视频一区二区三区| 亚洲天堂精品视频| 久久亚洲黄色视频| 99热精品久久| 欧美a在线视频| 欧美精品导航| 国产一级α片| 国产屁屁影院| 一区二区三区成人| a国产精品| 99精品在线视频观看| 2021国产在线视频| 精品无码一区二区三区电影| 波多野结衣视频一区二区| 国产91小视频在线观看| 欧美成人看片一区二区三区| 欧美无专区| 999国内精品视频免费| 高清乱码精品福利在线视频| 成人福利免费在线观看| 国产欧美日韩免费| 91麻豆精品国产高清在线| 四虎国产精品永久一区| 女同久久精品国产99国| 日韩精品免费在线视频| 欧美福利在线播放| 亚洲第一成年人网站| 欧美高清三区| 亚洲日韩日本中文在线| 99热国产在线精品99| 91视频99| 亚洲an第二区国产精品| 亚洲欧美不卡中文字幕| 99热这里都是国产精品| 欧美伊人色综合久久天天| 992tv国产人成在线观看| 日韩毛片免费视频| 色婷婷成人| 欧美日韩资源| 亚洲swag精品自拍一区| 啪啪免费视频一区二区| 欧美日韩午夜视频在线观看| 2020精品极品国产色在线观看| 天天色综网|