999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

群體性事件網絡輿情情感分析的情感詞典構建

2019-06-27 09:39:52呂翔劉陸民
信陽農林學院學報 2019年2期
關鍵詞:文本情感

呂翔,劉陸民

(信陽農林學院 信息工程學院,河南 信陽 464000)

網絡時代的信息爆炸是毋庸置疑的,社交媒體尤其是近幾年“兩微一端”(微信、微博、移動客戶端)為人們提供了網絡溝通、網絡評論、觀點分享等更為便捷和自由的網絡平臺。這給人們生活帶來了極大的便捷性但也孕育著極大的危機。以往群體性事件爆發后消息的傳播有其局限性,地域性事件往往很難有大范圍的傳播。而現在,借助于網絡平臺各種社會矛盾和熱點問題可以在極短的時間內迅速傳播到各個網絡能延伸到的區域。網民們在不明所以的情況下肆意表達自己的觀點,反而對事件的本身起到了推波助瀾的作用。一些負面的“網絡群體性事件”將在短時間內產生嚴重的影響。同樣,一些積極向上的正能量表達也能迅速得到廣大網民的點贊,如近期發生的信陽小學教師李芳為救學生犧牲的事情,迅速在網絡擴散傳播,感動了所有網友。因此,挖掘和分析包含網民情感的網絡群體性事件的輿情信息,可以有效地獲取所需的重要信息,了解網絡輿情的發展動向,從而進行有效的掌握和引導。面對龐大復雜的網絡評論,僅僅依靠人工進行分析已經成為不可能完成的任務,利用計算機自動對文本進行分析成為目前的主流。情感詞典作為文本情感分析的重要工具, 越來越多的組織和研究人員開始關注其構建問題[1]。

構建情感詞典的方法有多種,如Kim等使用詞語資源[2],Hatzivassiloglou等使用大型語料庫[3],Velikovich等使用網絡[4],他們都通過獲取詞語之間的語義關系來構建大規模的情感詞典。在群體性事件爆發后,網絡上會充斥著各式各樣的言論,而微博作為當前最具代表性且擁有數億用戶的一個特色網絡社交平臺,通過簡短卻帶著濃烈的個人感情色彩和強烈的主觀色彩的句子,反映了對某個事件的態度,表達了受眾的真實情感。本文主要通過采集微博評論內容,收集微博情感詞,在已有資源的基礎上,構建一個針對群體性事件網絡輿情的情感詞典。

1 相關詞典的構建

1.1 基礎情感詞典的構建

基礎情感詞典主要是基于現有的知網Hownet情感詞典和臺灣大學簡體中文情感極性詞典(NTSUSD)[5]而構建。知網的“中文情感分析用詞語集”包括6個子文件:“正面情感”詞語,如愛、贊賞、快樂、感同身受、好奇、喝彩、魂牽夢縈、嘉許等;“負面情感”詞語,如哀傷、半信半疑、鄙視、不滿意、不是滋味兒、后悔、大失所望等;“正面評價”詞語,如:不可或缺、才高八斗、沉魚落雁、催人奮進、動聽、對勁兒等;“負面評價”詞語,如丑、苦、超標、華而不實、荒涼、混濁、畸輕畸重、價高、空洞無物等;“程度級別”詞語和“主張”詞語[6]。臺灣大學簡體中文情感極性詞典(NTSUSD)共包含2812個正向情感詞和8278個負向情感詞,是基于二元情感分類劃分的一個中文詞語數據庫。本文將這兩個中文情感詞典進行融合,對相同極性的詞語進行消重,重新分類組合,組成所需要的基礎情感詞典。此外,對知網(Hownet)里面的程度副詞設置了不同的權值。

1.2 網絡用語情感詞典

網絡語言是在網絡上被廣泛使用的一種新的語言形態[7],如QQ中的隱身“潛水”、Thank you用3Q代替,這些都非常口語話。各種俗語和俚語被廣泛使用,如“猴賽雷”、“神馬都是浮云”等,甚至一些粗話、臟話,如“你妹”、“然并卵”、“日了狗”等。網絡用語之所以能夠傳播,在于它被認同,反映某種現實,類似“猴賽雷”這些網絡用語,形象鮮明地反映當時網民的情緒,具有明確的情感傾向。但是網絡用語更新快、傳播迅速,未能及時納入到傳統的情感詞典中,用傳統的情感詞典對這些網絡文本進行分析時往往會出現很多錯誤。基于此,針對網絡文本的情感分析必須構建網絡用語的情感詞典。

網絡語言創新性強,自我更新速度快,易被人們在網絡上使用,其來源也相當復雜,目前也沒有什么有效的方法直接獲取大量的網絡用詞。本文通過人工的方式從近10年的百度熱門網絡流行語和搜狗拼音詞庫網絡流行新詞中抽取、整理得到網絡用語情感詞典。正面網絡用語情感詞典,如“給力”、“碉堡”、“稀飯”、“猴賽雷”等,負面網絡用語情感詞典,如“坑爹”、“尼瑪”、“然并卵”、“次奧”等。

1.3 網絡表情符號情感詞典

圖1微博表情符號

在網絡用語中表情符號使用非常廣泛,表情符號用來生動呈現和描摹日常面對面交際中的非言語信息[8],網民通過使用表情符號形象地表達自己當前的感情,網絡表情符號如圖1所示:

1.4 否定詞詞典

否定詞會對情感傾向起到否定和反轉的作用,會改變情感極性[9]。當否定詞修飾正面情感詞時,會將正向情感變成負面,比如“好”,加一個否定詞“不”變為“不好”。反之,也同樣會將負面的情感反轉。如果仍舊使用情感詞的極性進行文本分析,必然造成結果南轅北轍。因此,為了更加準確地判斷情感極性,需要構建否定詞詞典。本文根據微博文本收集了部分常用的否定詞,如不、沒、未嘗、并非、否、絕不、尚未等。

1.5 領域詞典構建

網絡輿情作為輿情的一個組成部分和主要表現形式,是指網民或媒體以網絡為載體、以事件為核心的情感、態度、意見、觀點的表達、傳播與互動以及后續影響力的集合,以及對某一社會公共事務或焦點問題所表現出的具有某種傾向性的、有一定影響力的意見或言論[10]。這也就要求我們在針對群體性事件的網絡輿情構建情感詞典時,應該考慮領域的特殊性,選擇領域詞匯對情感詞典進行完善補充。信息的主題主要包括:生存危機、公共安全、腐敗、分配差距、時政、法制等[11]。如“石首事件”、“我爸是李剛案”、“郭美美案”、“楊達才手表案”等,反映的都是腐敗、官民矛盾、貧富差距等社會矛盾。本文通過搜集新浪微博事件主題文本得到語料集,提取情感詞,對語料集進行預處理、詞頻統計、關鍵詞提取等。中科院計算所的張華平、劉群所開發的一套獲得廣泛好評的NLPIR-ICTCLAS漢語分詞系統,其主要功能包括中文分詞、英文分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取、支持用戶專業詞典與微博分析。本文利用該系統對事件文本進行分析,得到標注的各類分詞,對其中的情感詞進行篩選,并與前文提到的三個情感詞典中的情感詞匯對比,去掉不相關的詞語和明顯在其他領域都具有普遍情感傾向的詞語,得到本文所需的群體性事件輿情情感詞匯集。

2 情感傾向性計算

對情感詞做了匯總后,再對情感極性強度進行計算和說明。情感傾向性可理解為情感的極性,在群體性事件中用戶發表的微博文本所表達的觀點是正面情感、負面情感還是中性情感,需要經過分析得出。本文采用支持向量機模型(Support Vector Machine)[12]進行情感分析。

2.1 SVM文本特征提取

首先通過詞頻計算出權重,按權重從大到小排序,然后剔除無用詞,這些詞通常是與主題無關的,任何類的微博文本中都有可能大量出現的,比如“的”“是”“在”一類的詞,一般在停詞表中已定義好。去除這些詞以后,有一個新的序列排下來,然后可以按照實際需求選取權重最高的前4個或者更多詞匯來代表該文本的核心內容。

特征項的提取步驟如圖2所示:

圖2 特征項的提取步驟

2.2 文本特征選擇

本文利用改進的TF-IDF公式[13]計算詞的權值,情感詞在某個類別文本出現的次數越多,則對于表征該類別越重要。公式如下:

其中w(i,k)為文本i中特征項k的影響程度表征,tf(i,k)為特征項k在文本i中的頻率,N表示情感訓練數據集總數量,p(k)為情感訓練數據集中出現特征項k的頻率,分母為歸一化因子。

2.3 SVM訓練

本文主要用于研究群體性事件,采集的數據是某群體性事件爆發后網友的微博評論文本。訓練的特征選擇包括情感詞和修飾情感詞的否定詞,以及它們在文本中出現的位置和數量。通過訓練得到關于情感傾向性分類的模型。

3 實驗分析

本文通過采集2018年5月份原央視知名主持人崔永元在微博陸續發文爆料娛樂圈明星“陰陽合同”事件中網友評論,驗證所建情感詞典的有效性。共采集6198條微博評論,從中選取2000條,人工標注情感傾向性用于測試,其中正面情感和負面情感各1000條。

3.1 性能評估指標

性能評估指標主要為準確率和召回率[14-15]。準確率(Precision),記為p,是指通過分類實驗后,該類的正確數目(k)占判斷屬于該類別數目(n)的比值,反應情感分類模型的準確性,其數學公式為:

(1)

召回率(Recall)記為r, 通過分類實驗后,判斷為該類的正確數目(k)占本應判斷為該類別數目(1)的比值,其數學公式為:

(2)

相關文獻表明,這兩個指標在一定程度上是相互制約的關系,故需要引入一個合適的度來衡量,尋求兩者之間的一個平衡點。選用一個綜合度量指標 F1 作為兩者的調和平均數來衡量:

(3)

3.2 實驗結果

利用上節介紹的語料預處理方法對實驗語料進行預處理后,采用傳統的基礎詞典與本文構建的情感詞典進行實驗。首先使用僅包括基礎情感詞典的傳統方式,對預料進行預處理后,采用支持向量機模型(SVM)進行情感分析,得出的實驗結果如表1所示。

表1 傳統的基礎詞典

而后,采用本文的方法,在基礎情感詞典的基礎上,構建針對網絡的網絡用語詞典、網絡表情符號詞典、否定詞詞典以及群體性事件的網絡輿情領域詞典,在此基礎上再針對所選實驗微博語料進行預處理,使用SVM情感分類,結果如表2所示。

表2 本文構建的詞典

從表1和表2可以看出,使用本文構建的情感詞典處理,實驗結果與傳統詞典相比無論是準確率還是召回率都有一定提高。

4 結論

本文針對群體性事件網絡輿情,構建了領域詞典。通過對人工標注后的微博事件評論文本進行驗證,發現本文構建的用于群體性事件輿情詞典,提高了微博文本情感分類的準確率和召回率,達到了預期效果。但是本文所做的工作還遠遠不夠,如對多義性情感詞和隱含性情感句規則的構建并未加以考慮。如同一個詞用在不同的語境下所表達的情感可能截然不同,有些評價詞語也會出現在不帶感情色彩的文本中,等等,這些都會影響對情感傾向的分析和判斷。

猜你喜歡
文本情感
如何在情感中自我成長,保持獨立
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 极品国产一区二区三区| 九色国产在线| 国产一区二区影院| 九色免费视频| 国禁国产you女视频网站| 亚洲男人天堂久久| 久久国产成人精品国产成人亚洲 | 一本色道久久88| 国产精彩视频在线观看| 亚洲第一香蕉视频| 青青草原国产免费av观看| 71pao成人国产永久免费视频 | 欧美一级高清片久久99| 亚洲香蕉伊综合在人在线| 人妻无码一区二区视频| 精品自拍视频在线观看| 无码一区中文字幕| 97一区二区在线播放| 亚洲欧美日韩天堂| 亚洲美女操| 69av免费视频| 麻豆国产原创视频在线播放| 欧美一区二区啪啪| 久久国产精品影院| 久久亚洲综合伊人| 麻豆国产精品一二三在线观看| 91一级片| 欧美成人第一页| 欧美一区福利| 国产成人精品免费视频大全五级| 54pao国产成人免费视频| 美女黄网十八禁免费看| 成人久久18免费网站| 国产成人精彩在线视频50| 国产性生大片免费观看性欧美| 欧美a在线| 五月丁香伊人啪啪手机免费观看| AV老司机AV天堂| 97精品伊人久久大香线蕉| 国产精品浪潮Av| 亚洲精品第一页不卡| 亚洲日本中文字幕天堂网| 无码日韩精品91超碰| 欧美高清日韩| A级毛片高清免费视频就| 伊人成人在线| 成人中文字幕在线| 日韩专区欧美| 久久精品免费国产大片| 欧美自慰一级看片免费| 最新日本中文字幕| 99热亚洲精品6码| 国产乱人伦偷精品视频AAA| 日韩欧美国产中文| 亚洲国产在一区二区三区| 欧美一道本| 激情综合五月网| 亚洲天堂网在线视频| 激情无码视频在线看| 毛片久久久| 午夜影院a级片| 中国一级特黄大片在线观看| 在线另类稀缺国产呦| 99re热精品视频中文字幕不卡| 狠狠做深爱婷婷久久一区| 国产aⅴ无码专区亚洲av综合网| 欧洲在线免费视频| 欧美一区二区自偷自拍视频| a级毛片免费网站| 无码综合天天久久综合网| 国产精品亚洲一区二区三区z| 色网站在线免费观看| 久久99热66这里只有精品一| 538国产在线| 久久精品国产电影| 又粗又大又爽又紧免费视频| 人妻一本久道久久综合久久鬼色| 国产精品亚欧美一区二区三区| 久久黄色一级片| www.日韩三级| 亚洲无线一二三四区男男| 国产精品国产主播在线观看|