999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校微博話題的情感分析

2014-01-13 08:59:42捷宋正榮
銅陵學(xué)院學(xué)報(bào) 2014年5期
關(guān)鍵詞:詞匯文本情感

翁 捷宋正榮 李 旸

(1.安徽農(nóng)業(yè)大學(xué),安徽 合肥 230036;2.銅陵學(xué)院,安徽 銅陵 244000)

一、引言

在2011年1月發(fā)布的《第27次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》里,中年和青少年成為了網(wǎng)民的最主要組成部分,而其中大多數(shù)是在校大學(xué)生。微博作為一種信息交流平臺(tái),以其短小精悍、傳播速度快、用戶交互性強(qiáng)等優(yōu)勢(shì),逐步成為人們喜愛(ài)的信息交流空間。高校是一個(gè)充滿活力的場(chǎng)所,不僅僅在校學(xué)生,很多老師、部門也都開(kāi)始使用微信參與學(xué)生和學(xué)校的話題交流。

微博的特點(diǎn)在于“微”。和BBS、Blog等相比,用戶發(fā)言的信息長(zhǎng)度很短,語(yǔ)言更加口語(yǔ)化。同時(shí),因?yàn)楸砬榉?hào)的活用,用戶樂(lè)于在微博上用帶有較強(qiáng)情感色彩的語(yǔ)言或表情,來(lái)表達(dá)自己的觀點(diǎn)、情感、興趣和對(duì)事件的看法等等。因此,“情感”成為了微博信息研究中很重要的一環(huán),我們可以通過(guò)數(shù)據(jù)挖掘的方法,對(duì)微博的信息進(jìn)行情感分析,判斷話題的傾向性和情感強(qiáng)度,便于我們了解學(xué)生的情感趨向。

二、分析方法

1.?dāng)?shù)據(jù)預(yù)處理

對(duì)于獲得的微博信息文本,首先要做的工作就是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即通過(guò)中文分詞和排重過(guò)濾,獲得我們需要的數(shù)據(jù)。

首先,基于分詞字典進(jìn)行中文分詞,把文本劃分為一個(gè)個(gè)詞單元,常用的中文分詞字典有《中國(guó)分類主題詞表》和《中科院分詞詞典》等,同時(shí)還可以添加自定義的詞表,比如新生的網(wǎng)絡(luò)詞匯或者特定事件發(fā)生后出現(xiàn)的詞匯等等。中文分詞后,會(huì)出現(xiàn)大量無(wú)意義、重復(fù)的數(shù)據(jù),通過(guò)排重過(guò)濾可以去掉多余的噪聲數(shù)據(jù),僅僅保留需要的關(guān)鍵字,比如帶有情感趨向的關(guān)鍵字、能夠作為該段文本主題詞的關(guān)鍵字等等。

2.基于情感詞字典計(jì)算情感強(qiáng)度和傾向性

情感字典是計(jì)算文本情感強(qiáng)度和情感傾向性的主要依據(jù)。國(guó)內(nèi)外的學(xué)者在對(duì)大量的詞匯進(jìn)行整理、研究后,制作出了專門的情感字典。比較著名的中文情感字典有知網(wǎng)(How Net)的情感詞語(yǔ)集、臺(tái)灣大學(xué)的NTUSD簡(jiǎn)體中文情感極性詞典、大連理工大學(xué)信息檢索研究室的中文情感詞匯本體庫(kù)、哈爾濱工業(yè)大學(xué)信息檢索研究室的情感詞庫(kù)、中科院的漢語(yǔ)情感語(yǔ)料庫(kù)等等。在這些情感字典中,搜集并整理了貶義的負(fù)面情感詞語(yǔ)、褒義的正面情感詞語(yǔ)、情感表達(dá)強(qiáng)度的程度副詞等等,并對(duì)表達(dá)不同強(qiáng)度的詞語(yǔ)做了情感強(qiáng)度的劃分。

和中文分詞的分詞字典一樣,可以根據(jù)需求引入新的情感詞,并且給出這些情感詞匯的情感強(qiáng)度。這些情感詞一般以網(wǎng)絡(luò)中新生的網(wǎng)絡(luò)流行語(yǔ)為主,也包括一些標(biāo)點(diǎn)符合或漢字的特殊組合(即日本網(wǎng)絡(luò)文化中出現(xiàn)的“顏文字”)。一些平常看似毫無(wú)意義的符號(hào)組合,往往在網(wǎng)絡(luò)中會(huì)有著表達(dá)特殊情感的功能,而這些顏文字在我們?nèi)粘5闹形姆衷~、斷句過(guò)程中,往往容易把它們按照無(wú)意義的符號(hào)文本處理,比如“(TДT)”表示傷心,“\(*T△T*)/”表示高興等等。

除了情感詞外,在微博的情感計(jì)算中,還需要考慮到在微博中廣泛使用的表情符號(hào)。微博中的表情往往以“/表情含義”來(lái)表示,因此有人提出只要根據(jù)表情含義對(duì)表情的情感傾向和情感強(qiáng)度進(jìn)行分類和定義即可。但是實(shí)際上的結(jié)果卻是,在微博中出現(xiàn)的絕大多數(shù)的表情,其實(shí)都是中性化的表情,本身并不帶有絕對(duì)化的情感傾向。如果文本本身并沒(méi)有很強(qiáng)的情感傾向,大部分的表情符號(hào)都會(huì)以帶有調(diào)侃性質(zhì)的中性情感出現(xiàn);如果文本本身帶有比較強(qiáng)的情感傾向,表情符號(hào)的情感傾向會(huì)和文本的情感傾向保持一致,所表達(dá)的情感強(qiáng)度也僅僅是對(duì)文本的情感強(qiáng)度進(jìn)行加強(qiáng)。所以,在計(jì)算表情符號(hào)對(duì)微博文本的情感影響時(shí),可以進(jìn)行有取舍的計(jì)算。如果微博文本的情感強(qiáng)度達(dá)到了一定的閥值,可以把表情符號(hào)的情感強(qiáng)度計(jì)算進(jìn)去,否則就忽略表情符號(hào)的情感強(qiáng)度。

根據(jù)從微博文本中提取出來(lái)的情感詞、程度副詞、否定詞,可以在各個(gè)詞單元之間聯(lián)系的基礎(chǔ)上計(jì)算出整段微博文本的情感強(qiáng)度和情感傾向。

三、情感計(jì)算方法

1.微博文本的情感強(qiáng)度計(jì)算

對(duì)于微博文本的情感度進(jìn)行計(jì)算時(shí),思路大致和通常的網(wǎng)絡(luò)文本一致。即先把每個(gè)獨(dú)立的微博文本T分成一個(gè)個(gè)單獨(dú)的句單元,即T={s1,s2,s3……,sn}。根據(jù)情感詞的情感強(qiáng)度和情感趨向、情感程度副詞對(duì)于情感詞情感強(qiáng)度的影響、否定詞對(duì)于情感詞情感傾向的影響,以及表情符號(hào)對(duì)于文本情感強(qiáng)度、情感傾向的影響,求出用戶發(fā)言中每個(gè)句子si的情感得分sentiment(i),再求出該發(fā)言中的整體情感得分。計(jì)算方法如下:

首先計(jì)算詞匯的情感傾向,其中p表示詞匯w的褒義傾向,n表示詞匯w的貶義趨向:

再引入否定詞對(duì)于情感的影響,u表示否定詞n出現(xiàn)的次數(shù):

再引入程度副詞對(duì)于情感的影響,adv表示程度副詞,S(adv)表示程度副詞的強(qiáng)度:

話題T的情感強(qiáng)度計(jì)算方法如下,其中w表示沒(méi)有被否定詞和程度副詞修飾的情感詞,n表示有否定詞修飾的情感詞,adv表示有程度副詞修飾的情感詞:

2.對(duì)于擴(kuò)展情感詞的情感強(qiáng)度和傾向性計(jì)算

由于網(wǎng)絡(luò)上會(huì)經(jīng)常出現(xiàn)新興的網(wǎng)絡(luò)流行語(yǔ),有些流行語(yǔ)是網(wǎng)民新造的詞匯,有些是把原有詞匯的意思做了引申或改變。或者是在某些事件發(fā)生后,和事件相關(guān)的一些詞匯會(huì)出現(xiàn)語(yǔ)義或情感傾向的改變。因此,需要對(duì)情感詞詞典進(jìn)行更新,重新計(jì)算或者賦予某些詞相應(yīng)的情感強(qiáng)度或者情感傾向。

計(jì)算的一種思路是,根據(jù)詞匯中各個(gè)字單元的情感傾向來(lái)計(jì)算該詞匯的情感度。即統(tǒng)計(jì)情感字典中,組成這個(gè)情感詞的各個(gè)字單元在不同情感傾向下出現(xiàn)的概率,再求出字單元各個(gè)情感傾向的權(quán)重,最終求出這個(gè)詞的完整情感傾向。計(jì)算方法如下:

其中,pci是字單元ci在情感字典中作為褒義詞的權(quán)重,nci是字單元ci在情感字典中作為貶義詞的權(quán)重。fpci是字單元出現(xiàn)在褒義詞詞典里的概率,fnci是字單元ci出現(xiàn)在貶義詞詞典里的概率。pn表示褒義詞詞表的字單元個(gè)數(shù),nn表示貶義詞詞表的字單元個(gè)數(shù)。

通過(guò)情感詞的字單元情感強(qiáng)度和情感傾向的統(tǒng)計(jì),可以求出新的情感詞的情感強(qiáng)度和情感傾向。

四、實(shí)驗(yàn)分析

實(shí)驗(yàn)的語(yǔ)料來(lái)自銅陵學(xué)院部份學(xué)生微博信息的收集。對(duì)于各條微博進(jìn)行了情感傾向的分類分析。使用的分詞軟件是中科院的ICTCLAS2014,基礎(chǔ)情感字典是中科院的漢語(yǔ)情感語(yǔ)料庫(kù)。采用了通用的SVM算法進(jìn)行分析。

收集的學(xué)生微博3531條,其中帶有褒義傾向的1274條,帶有貶義傾向的973條,中性的1284條。每次隨機(jī)從褒義傾向和貶義傾向的微博文本集中各抽取200條進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)抽取三次。得出的結(jié)果如下:

第一次 第二次 第三次正面 負(fù)面 正面 負(fù)面 正面 負(fù)面查準(zhǔn)率 73.50%79.00%75.00%78.00%79.00%77.00%查全率 77.78%74.88%77.32%75.73%77.45%78.57%F1值 75.58%76.89%76.14%76.85%78.22%77.78%

查準(zhǔn)率指正確分類的文本數(shù)與實(shí)際分類為該類文本數(shù)的百分比,查全率指正確分類的文本數(shù)與屬于該類別的文本數(shù)的百分比。F1值是由Van Rijsbergen提出的對(duì)查準(zhǔn)率和查全率進(jìn)行評(píng)判的標(biāo)準(zhǔn)指標(biāo)。這三個(gè)數(shù)值越高,表示分類的準(zhǔn)確度越高。

從實(shí)驗(yàn)結(jié)果可見(jiàn),通過(guò)SVM法對(duì)于微博話題情感傾向的判斷準(zhǔn)確度還是比較高的。但是由于用戶在微博里的發(fā)言隨意性很大,新興的網(wǎng)絡(luò)用語(yǔ)層出不窮,需要不斷增加情感字典里的情感詞才能達(dá)到更高的準(zhǔn)確度。但是在一般的情感字典基礎(chǔ)上,現(xiàn)有的傾向性分析已經(jīng)可以作為我們對(duì)微博話題傾向性的一種參考,便于從微博的話題中,自動(dòng)判斷話題的傾向性,作為輿情考量的一種參考。

五、結(jié)語(yǔ)

作為國(guó)家人才培養(yǎng)者的高校,在教授學(xué)生專業(yè)知識(shí)外,還必須了解學(xué)生、引導(dǎo)學(xué)生,使其成為國(guó)家需要的合格人才。隨著網(wǎng)絡(luò)的日益發(fā)達(dá)、電子產(chǎn)品的日益成熟,學(xué)生越來(lái)越多地在網(wǎng)上發(fā)起話題、討論話題,網(wǎng)絡(luò)成為學(xué)校了解學(xué)生的一個(gè)重要舞臺(tái)。因此,高校在原有的學(xué)生管理模式上,需要增加信息化的方法去觀察、收集、處理各類網(wǎng)絡(luò)信息。通過(guò)信息化的方法,尋找更加科學(xué)有效的方法對(duì)學(xué)生進(jìn)行管理和引導(dǎo)。

作為了解學(xué)生網(wǎng)絡(luò)行為的一種途徑,微博話題的情感度分析可以幫助學(xué)校了解學(xué)生對(duì)一些話題的態(tài)度及傾向性,對(duì)一些發(fā)生在學(xué)生身邊的事件進(jìn)行輿情分析,或者對(duì)事件的發(fā)展進(jìn)行預(yù)測(cè),進(jìn)而為學(xué)校處理一些事件提供參考。

目前對(duì)于微博話題的情感傾向研究還處于起步階段。原有的對(duì)BBS、Blog、WEB等平臺(tái)上的文字進(jìn)行的情感傾向研究,雖然適用于微博話題的情感傾向研究,但由于微博話題更加短小明快,更加口語(yǔ)化和無(wú)規(guī)則化,因此還需要對(duì)微博話題的特點(diǎn)做更進(jìn)一步的分析,特別是對(duì)于網(wǎng)絡(luò)用語(yǔ)的探索,將會(huì)是影響到微博話題情感傾向的關(guān)鍵因素。同時(shí),對(duì)于微博話題的情感傾向性研究,也可以延伸到網(wǎng)絡(luò)文本及各種網(wǎng)絡(luò)社交平臺(tái)上,成為人們監(jiān)控、分析輿情的有效輔助手段。

[1]張偉舒,呂云翔.微博情感傾向算法的改進(jìn)與實(shí)現(xiàn)[J].知識(shí)管理論壇,2013,(9):21-27.

[2]曾佳妮,劉功申,蘇波.微博話題評(píng)論的情感分析研究[J].信息安全與通信保密,2013,(3):56-58.

[3]張魯民,賈焰,周斌.基于情感計(jì)算的微博突發(fā)事件檢測(cè)方法研究[J].信息網(wǎng)絡(luò)安全,2012,(8):143-145.

[4]張彬.文本情感傾向性分析與研究[D].鄭州:河南工業(yè)大學(xué)碩士學(xué)位論文,2011.

[5]喻琦.中文微博情感分析技術(shù)研究[D].杭州:浙江工商大學(xué)碩士學(xué)位論文,2013.

[6]張東霞.基于高校學(xué)生微博的輿情熱點(diǎn)分析與發(fā)現(xiàn)[J].東南傳播,2013,(6):87-89.

[7]王振浩.基于情感字典與機(jī)器學(xué)習(xí)相結(jié)合的文本情感分類[D].哈爾濱:哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2011.

猜你喜歡
詞匯文本情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長(zhǎng),保持獨(dú)立
一些常用詞匯可直接用縮寫
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲制服丝袜第一页| 久久黄色一级视频| 亚洲 欧美 日韩综合一区| 国产色婷婷| 欧美一级视频免费| 三级视频中文字幕| 亚洲人成网站色7777| 中国成人在线视频| 亚洲无码免费黄色网址| 福利姬国产精品一区在线| 91在线精品麻豆欧美在线| 国产精品va免费视频| 国产精品30p| 激情无码视频在线看| 一边摸一边做爽的视频17国产| 人妻丰满熟妇αv无码| 亚洲无码日韩一区| 久久亚洲欧美综合| 亚洲国产中文精品va在线播放| 99er这里只有精品| 欧美专区在线观看| 国产手机在线小视频免费观看| 亚洲二区视频| 午夜激情婷婷| 无码日韩人妻精品久久蜜桃| 久久精品视频一| 中国一级毛片免费观看| 久久午夜夜伦鲁鲁片无码免费| 久久窝窝国产精品午夜看片| 免费A∨中文乱码专区| 亚洲精品人成网线在线| 992tv国产人成在线观看| 国产91在线免费视频| 亚洲欧美一级一级a| 中文字幕亚洲综久久2021| 久久久噜噜噜| 久久精品中文字幕免费| 国产又爽又黄无遮挡免费观看| AV熟女乱| 国产91精品久久| 九九香蕉视频| 456亚洲人成高清在线| 一本大道香蕉久中文在线播放| 国产久操视频| 亚洲成人77777| 亚洲色欲色欲www网| 亚洲高清在线播放| 成年午夜精品久久精品| 久久青草热| 亚洲三级影院| 亚洲国产系列| 九九热在线视频| 日本在线欧美在线| 精品日韩亚洲欧美高清a| 亚洲无码高清视频在线观看| 六月婷婷激情综合| 一本一道波多野结衣一区二区| 91小视频在线| 天天爽免费视频| 欧美日韩亚洲国产| 亚洲精品天堂在线观看| 97色伦色在线综合视频| 久久久久人妻一区精品| 国产伦片中文免费观看| 国产精品免费露脸视频| 毛片基地美国正在播放亚洲| 国产第一页亚洲| 色综合婷婷| 九九热精品视频在线| 亚洲欧洲一区二区三区| 无套av在线| 国产黑人在线| 茄子视频毛片免费观看| 青青久久91| 在线观看的黄网| 9999在线视频| 高清无码手机在线观看| 天堂成人在线| 亚洲国内精品自在自线官| 人妻精品久久无码区| 丁香亚洲综合五月天婷婷| 国产地址二永久伊甸园|