999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于“情感-原因配對”方法的青少年輿情系統(tǒng)設(shè)計

2022-11-11 09:35:54李宇圣李柏松楊宜穎
電子測試 2022年19期
關(guān)鍵詞:特征提取文本情感

李宇圣,李柏松,楊宜穎

(南華大學(xué)計算機(jī)學(xué)院,湖南衡陽,421200)

0 引言

情感分析作為輿情分析的一個重要模塊,主要負(fù)責(zé)從大量原始文本數(shù)據(jù)中提取情感文本信息,并將得到的文本情緒用于進(jìn)行下一步文本分類。然而目前的大部分輿情分析系統(tǒng)僅僅考慮了文本的情感,并沒有考慮到文本的情感與產(chǎn)生改情感的內(nèi)容是相關(guān)的,降低了輿情分析系統(tǒng)的準(zhǔn)確性。并且目前得到文本情感產(chǎn)生的原因需要事先對文本的情感進(jìn)行標(biāo)注,這一過程耗費(fèi)了大量的人力,含有一定的誤差。

最近,文獻(xiàn)[1]提出了一種有效提取情感文本并檢測情感,原因子句的新方法。本文首次將這種情感-原因配對方法用于青少年輿情分析系統(tǒng)。受人類邏輯表達(dá)的啟發(fā),情感態(tài)度和對應(yīng)原因句一般會在短文中同時出現(xiàn)。例如,有的學(xué)生發(fā)微博說“我終于找到了失蹤的錢包,今天有點(diǎn)小開心”。這句話的前半部分是情緒產(chǎn)生的原因,后半部分代表的是他的情感態(tài)度。通過進(jìn)行情感-原因的配對和過濾,我們能輕松分析出青少年的(尤其是在校學(xué)生)心理狀況,進(jìn)一步幫助校園決策者正確引導(dǎo)學(xué)生持續(xù)健康發(fā)展。

總的來說,本文基于情感-原因配對方法設(shè)計了一個適用于青少年的輿情分析系統(tǒng),利用爬蟲技術(shù),特征提取,情感分析,注意力機(jī)制和可視化技術(shù)登一系列方法步驟,有效地將情感-原因配對方法融入輿情分析系統(tǒng)。通過分析民眾在社交媒體下的評論或博客,從而提取對應(yīng)所表達(dá)的情感及原因,再將其一一配對并進(jìn)行可視化展示,這將有助于年級管理員更加精準(zhǔn)把握青少年學(xué)生情緒起伏的原因,找出影響校園環(huán)境穩(wěn)定的事件,防止負(fù)面輿論的進(jìn)一步擴(kuò)大。本文的主要貢獻(xiàn)總結(jié)如下:

首先,我們?nèi)嫜芯苛水?dāng)前的輿情分析系統(tǒng)及其不足之處。當(dāng)前的輿情分析系統(tǒng)普遍使用手動標(biāo)注情感,這不但僅導(dǎo)致增加了人力物力的額外開支,還會導(dǎo)致標(biāo)注結(jié)果的偏差,最終致使輿論分析不準(zhǔn)確。

其次,針對上述問題,我們將情感-原因配對分析和注意機(jī)制融入輿情分析系統(tǒng),更好地從輿論信息中探索青少年的情緒及其潛在或直接原因,減少了大量不必要的人力和物質(zhì)資源開銷,進(jìn)一步提高了輿情分析的準(zhǔn)確性。

最后,我們構(gòu)建了一個基于情感-原因配對分析的學(xué)生輿情分析系統(tǒng),其中的輿論分析模塊可以定時自動分析輿論信息。我們對系統(tǒng)進(jìn)行了測試,結(jié)果表明該系統(tǒng)能夠達(dá)到自動智能分析的預(yù)期效果。

1 輿情分析與情感分析

輿情分析系統(tǒng)能夠高效準(zhǔn)確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡(luò)輿情的引導(dǎo)、管理水平,掌握信息傳播的主動權(quán)。而情感提取是網(wǎng)絡(luò)輿情分析技術(shù)的關(guān)鍵步驟之一。通過設(shè)計恰當(dāng)?shù)乃惴▽Λ@取的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)用戶的情感傾向,能夠更好地幫助輿情分析系統(tǒng)得到產(chǎn)生輿情的原因,并對其的傳播影響、輿情等級進(jìn)行評估,采用合理的手段對輿論進(jìn)行引導(dǎo)和管控。在本節(jié)中,我們主要討論輿情分析的相關(guān)工作,我們將這些相關(guān)的工作分為輿情分析的介紹以及情感提取兩類。

1.1 輿情分析

社交媒體用戶在網(wǎng)上發(fā)布的評論可以被有益地用于提取有意義的信息,從而支持決策者在整個政策周期中的行動,提供了一個一個快速而廉價的信息流[2]。文獻(xiàn)[3]等人將輿情監(jiān)測系統(tǒng)分為輿情信息采集、輿情信息處理、輿情信息分析、輿情服務(wù)四個部分。針對基于關(guān)鍵字統(tǒng)計的輿情分析系統(tǒng),文獻(xiàn)[4]提出了一種基于語義內(nèi)容識別的網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)框架,解決了輿情分析系統(tǒng)中的一些關(guān)鍵問題。文獻(xiàn)[5]通過對熱點(diǎn)自動發(fā)現(xiàn)和深入分析技術(shù)的研究,建立了基于數(shù)據(jù)挖掘的敏感信息分析框架,設(shè)計了敏感信息挖掘方法,有效地彌補(bǔ)了傳統(tǒng)輿情監(jiān)測系統(tǒng)難以應(yīng)對輿情變化的缺點(diǎn),增強(qiáng)了實(shí)用性。文獻(xiàn)[6]提出了基于流的實(shí)時主題計算、基于查詢文檔的主題匹配和字段增強(qiáng)等方法,提高了輿情監(jiān)測系統(tǒng)的準(zhǔn)確性。

1.2 情感分析

情感分析和觀點(diǎn)挖掘是從書面語言中分析人們的觀點(diǎn)、情感、評價、態(tài)度和情感的研究領(lǐng)域。它是自然語言處理中最活躍的研究領(lǐng)域之一[7][8],在數(shù)據(jù)挖掘、Web挖掘和文本挖掘中也得到了廣泛的研究。事實(shí)上,這項(xiàng)研究已經(jīng)從計算機(jī)科學(xué)擴(kuò)展到管理科學(xué)和社會科學(xué),因?yàn)樗鼘ζ髽I(yè)和整個社會都很重要[9][10]。文獻(xiàn)[11]提出了一種基于知識的學(xué)習(xí)方法,能夠通過主題模型的選擇偏好,進(jìn)行粗粒度的語義消歧方法,提高了情感分析的準(zhǔn)確性。然而目前互聯(lián)網(wǎng)上的信息有多種呈現(xiàn)形式,因此文獻(xiàn)[12-15]提出了多模態(tài)情感分析的任務(wù),通過視覺、聽覺和文本特征的聯(lián)合使用極大地提高了效率。

情感原因提取(Emotion cause extraction,ECE)是一項(xiàng)旨在提取文本中某些情感背后的潛在原因的任務(wù),近年來由于其廣泛的應(yīng)用而備受關(guān)注。在長文本中根據(jù)事先注釋好的情緒尋找相對應(yīng)的原因,他們構(gòu)建了一個小的中文語料庫進(jìn)行測試。針對于算法存在兩個缺點(diǎn):1)在提取原因之前,必須對情感進(jìn)行注釋,這大大限制了它在現(xiàn)實(shí)場景中的應(yīng)用;2) 先詮釋情感,然后提取原因的方法忽略了它們是相互指示的事實(shí)。文獻(xiàn)[16]提出了一個新的任務(wù):情緒-原因?qū)μ崛。‥CPE),旨在提取文檔中潛在的情緒對和相應(yīng)的原因。通過多任務(wù)學(xué)習(xí)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,很好地解決了ECE中存在的問題。

在輿情分析中,情感分析是極其關(guān)鍵的一個模塊,如果能在情感分析階段將情感以及情感背后潛在的原因提取出來,將極大地提高輿情分析的精度。然而目前的輿情分析系統(tǒng)需要進(jìn)行人工標(biāo)注,首先標(biāo)注情感,再通過神經(jīng)網(wǎng)絡(luò)挖掘出產(chǎn)生情感的原因。然而這需要極大的人力,且忽略了情感和對應(yīng)的原因是相互關(guān)聯(lián)的。因此我們將基于因果分析的情感原因提取加入到輿情分析系統(tǒng)中,使整個輿情分析系統(tǒng)能夠擺脫人工標(biāo)注的難題,提高輿情分析系統(tǒng)的效率,減少經(jīng)濟(jì)上的開銷。

2 基于“情感-原因配對”方法的輿情系統(tǒng)設(shè)計

2.1 總體設(shè)計流程

如圖1所示,首先我們通過聚焦式網(wǎng)絡(luò)爬蟲獲得初步文本數(shù)據(jù),然后對獲取的文本數(shù)據(jù)進(jìn)行特征提取,在處理后的特征集中,提取文本中的關(guān)鍵字來形成特征。在保證文本原有的核心信息的基礎(chǔ)上,減少需要處理的詞匯數(shù)量,在接下來的情感分析任務(wù)中引入注意力機(jī)制,可以使神經(jīng)網(wǎng)絡(luò)更多地關(guān)注文本中包含情感信息較多的部分,最后我們基于因果關(guān)系對處理后的文本信息進(jìn)行分析,通過多任務(wù)學(xué)習(xí)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,提取關(guān)鍵字得出情感等級,最后制成情感等級折線圖和詞云圖進(jìn)行數(shù)據(jù)的可視化展示。

圖1 總體設(shè)計流程

2.2 輿論數(shù)據(jù)采集

大數(shù)據(jù)時代數(shù)據(jù)量突增,數(shù)據(jù)結(jié)構(gòu)復(fù)雜多變,冗余信息占比高,為了更好的解決文本原因情感提取所需要資源來源,本文提出基于聚焦式網(wǎng)絡(luò)爬蟲的輿情獲取技術(shù),并使用webmagic爬蟲框架。WebMagic由四個組件(Downloader、PageProcessor、Scheduler、Pipeline)構(gòu)成,將這些組件結(jié)合并完成多線程的任務(wù)后,你基本上可以對爬蟲的功能做任何定制。

與通用爬蟲不同,聚焦網(wǎng)絡(luò)爬蟲并不追求大的覆蓋,而將目標(biāo)定位抓取與主題相關(guān)的特定網(wǎng)頁,爬取廣度小,精確度高,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源。

我們提出的聚焦式網(wǎng)絡(luò)爬蟲技術(shù)主要分為四個模塊,如圖2所示:(1)瀏覽器模塊,利用該模塊能模擬瀏覽器的一個請求發(fā)送過程,利用不同協(xié)議去獲取URL信息。(2)URL隊列模塊,給爬蟲程序創(chuàng)造隊列,用于存放爬到的URL地址。(3)時間模塊,用于創(chuàng)建進(jìn)程的睡眠時間,使爬蟲程序可以按用戶需求定時執(zhí)行任務(wù)。(4)數(shù)據(jù)庫模塊,通過調(diào)用該模塊,可以連接數(shù)據(jù)庫,并通過編寫數(shù)據(jù)庫語句,使程序能夠?qū)?shù)據(jù)庫進(jìn)行操作。

圖2 基于聚焦網(wǎng)絡(luò)爬蟲的輿論數(shù)據(jù)采集技術(shù)

2.3 特征提取方法

社交媒體帶來了大量的網(wǎng)絡(luò)數(shù)據(jù),其中通常包含復(fù)雜而多樣的文本信息,使得情緒分析難以計算。針對這一問題,我們提出了一種基于注意機(jī)制的深度學(xué)習(xí)特征提取方法。該方法能從大量信息中有選擇地篩選出重要信息并且聚焦到這些內(nèi)容上,同時忽略大多數(shù)不重要的信息,比如從文本中包含的大量詞匯中,抽取出識別度比較高的詞匯,在處理后的特征集中通過相關(guān)技術(shù)可以抽取出關(guān)鍵詞構(gòu)成特征,在保證文本原有的核心信息的基礎(chǔ)上,去除區(qū)分度小的、影響力小的詞匯,減少需要處理的詞匯數(shù)量,從而降低向量空間的維數(shù),簡化計算,提高文本處理的速度和效率。在接下來的情感分析任務(wù)中引入注意力機(jī)制,可以使神經(jīng)網(wǎng)絡(luò)更多地關(guān)注文本中包含情感信息較多的部分。

圖3展示了特征提取方法的總體思路:從整個深度學(xué)習(xí)模型中提取特征向量,編碼器對輸入序列中的每個項(xiàng)進(jìn)行處理,并通過編譯捕獲輸入信息(稱為上下文)。在處理完整個輸入序列之后,編碼器將上下文發(fā)送到解碼器,解碼器逐項(xiàng)開始產(chǎn)生輸出序列;在上下文信息中不妨假設(shè)我們想要得到第i個詞語的表征,對于包含第i個單詞的單詞組合,會生成兩個輸出:一個用于特征提取(綠色圓圈),另一個用于注意力加權(quán)(紅色圓圈)。這兩個輸出可能共享同一個網(wǎng)絡(luò),但在本文中,我們?yōu)槊總€輸出設(shè)立單獨(dú)的網(wǎng)絡(luò)。在得到最后的注意力權(quán)重之前,注意力(紅色圓圈)的輸出通過需要經(jīng)過sigmoid和softmax層的運(yùn)算。這些注意力權(quán)重會與提取出的特征相乘,以得到詞語的表征。

圖3 輿情分析中的特征提取方法

2.4 輿情分析與可視化展示

經(jīng)過聚焦式爬蟲對文本資源的篩選以及對文本進(jìn)一步的特征提取,我們采用情感-原因部分提取技術(shù),把處理過后的文本通過多任務(wù)學(xué)習(xí)(原因提取和情感提取能相互改善)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,提取出關(guān)鍵字和學(xué)生情緒正負(fù)及其強(qiáng)度,最后進(jìn)行數(shù)據(jù)的可視化展示,如圖4。

圖4 輿情分析與可視化展示

具體實(shí)現(xiàn)和流程圖如下:

第一步,將一條博客分成幾個子句或詞組。提取出博客中一系列的情感子句和原因子句。

第二步,將笛卡爾積應(yīng)用于情感子句組和原因子句組,獲得所有可能的情感-原因子句對。所有可能的情緒-原因?qū)Χ加扇齻€特征向量表示:情緒子句、原因子句和兩個子句之間的距離(即相關(guān)性)。然后將訓(xùn)練好的邏輯回歸模型檢測每個可能的情感-原因子句對,篩選出有因果關(guān)系的情感-原因子句對。

第三步,分別從每對情感-原因?qū)Φ那楦凶泳渲杏嬎愠銮楦袕?qiáng)度,原因子句中提取出關(guān)鍵詞或字。

第四步,以月或天為單位作時間—情緒強(qiáng)度折線圖和詞云圖進(jìn)行可視化展示。數(shù)據(jù)的呈現(xiàn)也是一種分析,之后管理人員直接通過這些數(shù)據(jù),結(jié)合當(dāng)下情況做貼合實(shí)際的分析。通過詞云圖,我們可以知道公眾最近在關(guān)注的問題以及生活中的重大事件,以便于更好地了解相關(guān)情況,及時給與回應(yīng)。通過時間—情緒強(qiáng)度折線圖,我們可預(yù)測下一個輿情高漲點(diǎn)在何時出現(xiàn),重點(diǎn)關(guān)注此刻需要留意人群的情況。

3 總結(jié)

本文主要總結(jié)了現(xiàn)有的輿情分析系統(tǒng)中存在的問題。在青少年成長過程中持續(xù)關(guān)注他們的身心健康發(fā)展至關(guān)重要。輿情分析系統(tǒng)能夠高效準(zhǔn)確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡(luò)輿情的引導(dǎo)、管理水平,掌握信息傳播的主動權(quán)。基于因果的情感分析則能減少輿情分析系統(tǒng)中人為標(biāo)注所帶來的問題。根據(jù)目前我們所了解到的研究,我們是首個將基于因果的情感分析結(jié)合注意力機(jī)制融入到輿情分析系統(tǒng)中。在以后的工作中,我們會持續(xù)改進(jìn),利用分析得到的信息為個人提供可靠建議。

猜你喜歡
特征提取文本情感
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 亚洲国产一区在线观看| 久久久久久久久18禁秘| 精品在线免费播放| 女人毛片a级大学毛片免费| 国产新AV天堂| 亚洲精品视频免费观看| 久久熟女AV| 最新国产午夜精品视频成人| 国产精品国产三级国产专业不| 日本久久久久久免费网络| 香蕉国产精品视频| yy6080理论大片一级久久| 亚洲三级成人| 国产成人a毛片在线| 四虎影视库国产精品一区| 亚洲成a人片| 在线国产你懂的| 99激情网| 欧美激情首页| 老司机精品一区在线视频| 免费看美女毛片| 亚洲人成影院午夜网站| 欧美啪啪网| 亚洲精品在线影院| 欧美日韩一区二区三区在线视频| 日韩不卡免费视频| 福利在线一区| 天堂网国产| 日韩欧美国产成人| 99热线精品大全在线观看| 又黄又爽视频好爽视频| 久久精品丝袜| 五月激情婷婷综合| 亚洲欧美国产视频| 日韩精品视频久久| 久久久久亚洲精品无码网站| 91网址在线播放| 色婷婷国产精品视频| 国产精品久久久久久久伊一| 国产欧美精品一区aⅴ影院| 国产视频资源在线观看| 国产又色又爽又黄| 日韩 欧美 国产 精品 综合| 国产精品免费电影| 久久成人18免费| 午夜毛片免费看| 国产精品va免费视频| 欧美一级高清免费a| 亚洲91精品视频| 久久国产毛片| 日韩在线视频网站| 久久久久九九精品影院| 欧美不卡视频一区发布| 国产精品对白刺激| 亚洲欧洲日韩久久狠狠爱| 香蕉久久国产超碰青草| 97国产成人无码精品久久久| 欧美日韩动态图| 白丝美女办公室高潮喷水视频| 中文字幕久久精品波多野结| 国产成人超碰无码| v天堂中文在线| 她的性爱视频| 久久99精品国产麻豆宅宅| 久久国产亚洲欧美日韩精品| 中文字幕 欧美日韩| 自偷自拍三级全三级视频| 国内99精品激情视频精品| 國產尤物AV尤物在線觀看| 成人韩免费网站| 精品一区二区久久久久网站| 精品无码国产自产野外拍在线| 巨熟乳波霸若妻中文观看免费| 91精品综合| 999国产精品永久免费视频精品久久| 十八禁美女裸体网站| 日本不卡在线| 免费又爽又刺激高潮网址| 成人日韩欧美| 中文字幕久久亚洲一区| 亚洲精品va| 欧美 亚洲 日韩 国产|