999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)與情感分析

2021-03-18 02:46:10邱澤國賀百艷
對外經(jīng)貿(mào) 2021年2期
關(guān)鍵詞:文本情感分析

邱澤國 賀百艷

(哈爾濱商業(yè)大學,黑龍江哈爾濱 150028)

一、引言

隨著近幾年互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,微博微信等社交平臺已經(jīng)成為人們獲取新聞信息的重要來源。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2020年3月,我國網(wǎng)民規(guī)模為9.04億,較2019年底新增網(wǎng)民7508萬,互聯(lián)網(wǎng)普及率達64.5%,手機網(wǎng)民規(guī)模為8.97億,網(wǎng)民使用手機上網(wǎng)的比例達99.3%[1],越來越多的人通過網(wǎng)絡(luò)獲取新聞等熱點事件。如新浪微博、微信等已經(jīng)成為人們社交生活中不可或缺的一部分。在社交平臺上,用戶可以通過點贊、評論、轉(zhuǎn)發(fā)等形式參與到發(fā)生的熱點事件中,不受約束的與眾多用戶互動溝通。由于社交平臺具有開放性、便捷性和匿名性等特點,導(dǎo)致新聞信息在社交網(wǎng)絡(luò)中的傳播廣度、傳播深度和傳播速度都有著驚人的潛力,輿論會在短時間內(nèi)發(fā)酵達到最后形成網(wǎng)絡(luò)輿情,引起社會大眾的廣泛關(guān)注。因此,十分有必要動態(tài)跟蹤網(wǎng)民對輿情事件話題討論內(nèi)容以及情感的變化,了解網(wǎng)民對于輿情事件的主觀看法和情感傾向性,對于整體把握輿情事件的發(fā)展方向,引導(dǎo)和控制輿情有重要的意義。

二、研究現(xiàn)狀

關(guān)于微博話題發(fā)現(xiàn),學者們的研究主通過計算機領(lǐng)域,改進經(jīng)典聚類算法來提高主題發(fā)現(xiàn)的有效性。Chen等人設(shè)計開發(fā)了一個增量聚類框架來檢測識別新的主題,并利用文本的內(nèi)容和時間特征來及時發(fā)現(xiàn)熱門主題[2];Stilo等人基于時間序列的相似性,提出了一種在微博中用于詞聚類的新方法[3];Hu等人從用戶評論中挖掘用戶的觀點看法[4];李亞星等人改進了Single-Pass算法,提出一種基于實時共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)模型[5];宋莉娜等人提出了SOM聚類方法用于微博的話題發(fā)現(xiàn),研究表明該方法可以有效改善傳統(tǒng)文本聚類不準確的缺點,從而有效的發(fā)現(xiàn)微博話題[6]。

情感分析,又被稱為觀點挖掘,是一種分析、處理、歸納和推理具有情感色彩的主觀文本的過程[7]。情感分析主要包括機器學習和基于情感詞典兩種方法。分析研究用戶發(fā)布的觀點看法在很多領(lǐng)域有著非常重要的作用,對于用戶情感的挖掘研究具有廣泛的應(yīng)用價值,目前對此國內(nèi)外已有諸多學者開展了研究。在國外,對于網(wǎng)民情感態(tài)度的研究主要集中于Twitter、Facebook等社交平臺上,Bollen等人對發(fā)布在Twitter平臺上的推文進行情感分析,并以日為單位計算時間軸上的情緒向量,進而對網(wǎng)民的情感態(tài)度進行分析與預(yù)測[8]。由于基于中文環(huán)境的微博與基于英文環(huán)境的Twitter在語言表達習慣上存在著很大的差異,因此用于微博文本的情感分析工具與Twitter平臺上的情感分析相比有很大不同。劉智等人從集成學習的角度出發(fā),設(shè)計了一種基于樣本空間動態(tài)劃分的機制,在此機制上構(gòu)建了微博文本情感分類器,通過實驗實現(xiàn)了大規(guī)模評論集的情感分析以及用戶觀點挖掘[9]。史偉等人提出了一種基于KBANN的情感分析方法來解決沒有情感關(guān)鍵詞存在的文本,通過構(gòu)建隱性知識來推測文本的情感狀態(tài)[10]。

眾多研究學者為微博話題發(fā)現(xiàn)和輿情文本情感分析注入了新的研究方法和思想理念。而基于多源數(shù)據(jù)挖掘與融合來研究輿情文本情感與輿情演化規(guī)律的研究很少。故本文從多源數(shù)據(jù)角度出發(fā),利用文本情感分析技術(shù),對不同數(shù)據(jù)源中的網(wǎng)絡(luò)輿情情感狀況進行分析,實現(xiàn)對網(wǎng)民情感的挖掘,為網(wǎng)絡(luò)輿情的引導(dǎo)和控制提供有益借鑒。

三、數(shù)據(jù)采集與預(yù)處理

(一)數(shù)據(jù)源選取

在中文語言環(huán)境中,輿情案例的數(shù)據(jù)源一般都來自新浪微博。它是一個為大眾提供信息交流共享和娛樂休閑的平臺。據(jù)央視財經(jīng)統(tǒng)計,截止 2020年第三季度,微博的月活躍用戶數(shù)達5.11億。因此,以新浪微博為數(shù)據(jù)源進行的研究具有一定的代表性。

(二)數(shù)據(jù)采集

在明確研究對象和數(shù)據(jù)來源后,要對輿情案例的相關(guān)數(shù)據(jù)進行采集。根據(jù)新浪微博平臺的數(shù)據(jù)開放程度和網(wǎng)頁結(jié)構(gòu)特點,采用Python軟件通過網(wǎng)絡(luò)爬蟲的方式獲取文本數(shù)據(jù),并且有針對性的編寫Python腳本抓取微博文本數(shù)據(jù)。

利用新浪微博的高級搜索功能,選定時間范圍為2019年3月1日到2019年8月30日,以“經(jīng)貿(mào)磋商”為搜索關(guān)鍵詞,編寫Python爬蟲程序進行數(shù)據(jù)采集,采集的主要字段包括:用戶名、發(fā)布內(nèi)容、發(fā)布時間。共采集到17436條微博文本數(shù)據(jù)。

(三)數(shù)據(jù)預(yù)處理

由于微博平臺具有大眾化,不受任何的時空限制,靈活度較高的特點,用戶在發(fā)表博文的過程中,不會受到文字格式的約束,因此文本內(nèi)容中往往包含大量噪聲數(shù)據(jù),如網(wǎng)址HTML標簽、話題標簽、無用的表情符號等。這些噪聲數(shù)據(jù)對文本的分詞和詞頻統(tǒng)計都會造成影響,所以在數(shù)據(jù)預(yù)處理階段要對這些無意義的信息進行清洗。

使用正則表達式對文本內(nèi)容數(shù)據(jù)進行清洗,刪除重復(fù)的文本數(shù)據(jù),刪除@、數(shù)字、無用網(wǎng)址、表情等無關(guān)內(nèi)容,提取文本內(nèi)容,再將清洗后的數(shù)據(jù)進行分詞處理,利用python中的JIEBA分詞工具包,對文本內(nèi)容逐條進行分詞,去除停用詞、標點符號等無意義的詞。對處理好的數(shù)據(jù)進行高頻詞統(tǒng)計并繪制詞云圖,其結(jié)果如表1和圖1所示。

表1 微博文本詞頻Top10

由高頻詞可以看出,網(wǎng)民支持國家做出的決定,紛紛為國家加油打氣,表示中國絕不會被此事件嚇倒,此事件的發(fā)生會讓國家變得越來越強大,不畏懼對方提出的挑戰(zhàn),表現(xiàn)出了網(wǎng)民的愛國主義情懷。

三、情感詞典構(gòu)建

情感詞典包含基礎(chǔ)詞典和基于特定事件情境下的情感詞典。利用大連理工大學開發(fā)的情感詞典作為基礎(chǔ)詞典,但在針對某一特定事件的研究,只利用基礎(chǔ)詞典中的情感詞往往不夠準確,因此在研究特定事件中網(wǎng)民的情感態(tài)度時,需要加入有關(guān)于該事件情境下的高頻詞匯。因此,通過人工篩選,對比大連理工大學情感詞典本體庫對情感詞的打分情況,構(gòu)建經(jīng)貿(mào)磋商事件情境下的特定情感詞典。最終統(tǒng)計得到情感詞包括“中國”、“中美”、“經(jīng)貿(mào)磋商”等在大部分文本中都出現(xiàn)的詞語,權(quán)重較高,因此需要去除這些詞語。利用大連理工大學情感詞典本體庫進行對比,如詞庫中某個詞為積極情感詞,而計算后為消極情感詞,則對其分數(shù)進行校正。若校正之后大于0,則歸入積極情感詞典中,若校正后仍然小于 0,則繼續(xù)留在消極情感詞典中。將校正后的分數(shù)作為該詞的最終情感分數(shù)。表2中序號1~10為排名前十的積極情感詞,序號11~20為排名前十的消極情感詞。

表2 積極情感詞Top10(1~10)與消極情感詞Top10(11~20)

四、文本情感分析

(一)微博文本情感強度計算

基于中文文本情感詞典,計算17436條微博文本數(shù)據(jù)的情感得分。情感得分取值范圍為[-1,1],若情感得分大于0則判定該文本情感為積極傾向,情感得分小于0則判定該文本情感為消極傾向,情感得分等于0則判定該文本情感為中性。根據(jù)計算結(jié)果,最終得到13526條積極情感微博,占比為77.6%;消極情感微博3298條,占比為18.9%,中性情感微博612條,占比為3.5%,圖2為微博情感極性分布結(jié)果。

圖2 微博情感極性分布結(jié)果

(二)微博發(fā)文趨勢分析

圖3為微博積極情感強度時序圖,可以從圖中看出2019年5月~2019年8月期間網(wǎng)民對經(jīng)貿(mào)磋商結(jié)果的情感強度高于2019年2月~2019年5月期間的情感強度。且網(wǎng)民的積極情感強度在2019年5月15日達到峰值,當天積極情感博文為2669條。次高峰發(fā)生于2019年5月23日,博文數(shù)量為2352條。

圖3 微博積極情感強度時序圖

圖4為微博消極情感強度時序圖,整體的變化趨勢與積極情感強度時序圖呈現(xiàn)的效果一致,同樣在2019年5月15日消極情感強度到達低谷,當天發(fā)文數(shù)量為1130條。次谷值同上也發(fā)生在2019年5月23日,發(fā)文數(shù)量為1091條。但消極情感強度的分值低于積極情感強度分值,大約為積極情感強度分值的一半,經(jīng)分析得到在經(jīng)貿(mào)磋商期間,微博上網(wǎng)民表現(xiàn)出的積極情感占多數(shù),并且積極情感強度要遠大于消極情感強度。

圖4 微博消極情感強度時序圖

五、網(wǎng)絡(luò)輿情主題聚類分析

(一)主題的確定與發(fā)現(xiàn)

通過上述分析可以發(fā)現(xiàn)在微博平臺上網(wǎng)民的積極情感占多數(shù)。由整個事件可以看出,隨著事件的發(fā)展在主要時間節(jié)點上網(wǎng)民的情感狀態(tài)會產(chǎn)生波動,由于兩國之間存在著文化差異,導(dǎo)致雙方的觀點立場不同,造成情感傾向的主要原因也會不盡相同。

通過對情感分析之后的文本進行主題聚類分析,挖掘每種情感下的子主題。通過構(gòu)建 LDA主題模型,將有關(guān)“經(jīng)貿(mào)磋商”的文本進行聚類和主題提取。LDA主題模型是通過給出每個主題下的高頻詞來確定當前的主題內(nèi)容,利用每個主題的主題詞還原網(wǎng)民討論的熱點話題。由于LDA主題模型沒有明確的主題個數(shù),因此要經(jīng)過不斷調(diào)試與對比分析才能得出最優(yōu)的主題數(shù)量。經(jīng)過調(diào)試最終確定積情感為5個討論主題。表3為LDA主題模型提取的各個主題關(guān)鍵詞。

表3 微博各主題關(guān)鍵詞

從微博積極情感主題1可以看出,國民表示支持華為、華為加油等,為民族企業(yè)加油打氣。主題2反映了鼓勵大眾進行創(chuàng)新,不畏懼挑戰(zhàn)。主題3反映了中國不斷優(yōu)化對外貿(mào)易環(huán)境,營造了良好的對外貿(mào)易氛圍,塑造了大國形象。主題4反映了中國可以克服自身不足,擺脫對其他國家的技術(shù)依賴,在世界經(jīng)濟體系中更加自信自強。主題5反映了中國的產(chǎn)業(yè)結(jié)構(gòu)因此會做出調(diào)整,使得企業(yè)可以快速發(fā)展。

(二)微博信息分析

對爬取到的數(shù)據(jù)分析發(fā)現(xiàn),原創(chuàng)微博的占比為39.7%,轉(zhuǎn)發(fā)占比為60.3%。其中39.7%的網(wǎng)民利用微博平臺,發(fā)表原創(chuàng)信息表達對此事件的看法和意見。對網(wǎng)民的情感分析可以發(fā)現(xiàn),大部分網(wǎng)民能夠理性看待該事件發(fā)生的前因后果,60.3%的網(wǎng)民通過轉(zhuǎn)發(fā)官方微博的方式表達自己對該事件的態(tài)度,將該事件話題傳播的范圍擴大,并引導(dǎo)其他網(wǎng)民支持自己國家所做的決定,進一步提高了該事件的積極影響力和傳播效果。

六、結(jié)論

通過對網(wǎng)民的情感分析可以得到,網(wǎng)民對于事件的情感變化會受到主流媒體報道、周圍用戶和新聞內(nèi)容的影響,因此相關(guān)部門和政府應(yīng)該充分利用主流媒體,把控好網(wǎng)民情感變化的節(jié)點,有針對地對網(wǎng)絡(luò)輿情進行引導(dǎo)管控。輿情信息爆發(fā)快、蔓延廣、消散期后輿情信息不斷,相關(guān)管理部門要加強對突發(fā)事件網(wǎng)絡(luò)輿情的信息管理。在事件輿情突發(fā)期,把握輿論信息導(dǎo)向,引導(dǎo)網(wǎng)民參與正向的、積極的輿論討論中;在蔓延期應(yīng)發(fā)揮意見領(lǐng)袖作用,主流媒體應(yīng)及時發(fā)布信息資訊,避免輿情傳播的過程中謠言的產(chǎn)生;在消散期應(yīng)重視各大網(wǎng)站的信息推送,保證推送信息的準確性,避免出現(xiàn)衍生輿情。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91久久精品日日躁夜夜躁欧美| 伊人久久久久久久| 大香伊人久久| 思思热精品在线8| 白浆免费视频国产精品视频| 自偷自拍三级全三级视频| 亚洲精品无码人妻无码| 欧美日本视频在线观看| 日韩av在线直播| 国产情侣一区二区三区| 亚洲无限乱码| 日韩精品欧美国产在线| 三区在线视频| 成年人午夜免费视频| 日韩天堂网| 成人在线观看一区| 欧美午夜精品| 亚洲精品视频在线观看视频| 久久精品人人做人人综合试看| 人妻丰满熟妇αv无码| 亚洲国产天堂久久综合226114 | 免费人成在线观看视频色| 91在线国内在线播放老师| 女人爽到高潮免费视频大全| 久久综合五月婷婷| 国产午夜一级毛片| 思思99思思久久最新精品| 伊人成人在线视频| 就去吻亚洲精品国产欧美| 国产精品理论片| 5555国产在线观看| 91网址在线播放| 亚洲欧美在线看片AI| 青青草a国产免费观看| 少妇精品在线| 热伊人99re久久精品最新地| 国产免费高清无需播放器 | 国产精品无码影视久久久久久久| 在线精品欧美日韩| 久操线在视频在线观看| 三区在线视频| 日韩国产高清无码| 亚洲精品成人福利在线电影| 国产网站免费观看| 在线观看国产黄色| 亚洲资源站av无码网址| 在线观看国产精品第一区免费| 欧美一级一级做性视频| 成人免费一级片| 欧美在线天堂| 成人国内精品久久久久影院| 国产精品3p视频| 男人天堂伊人网| 热久久综合这里只有精品电影| 伊人国产无码高清视频| 国禁国产you女视频网站| 亚洲视频一区| 精品久久国产综合精麻豆| 丰满少妇αⅴ无码区| 欧美激情综合一区二区| 国产性生大片免费观看性欧美| 一级毛片免费播放视频| 欧美日韩免费在线视频| 手机在线看片不卡中文字幕| 三上悠亚精品二区在线观看| 天堂亚洲网| 国产极品美女在线播放| 国产真实乱人视频| www.99精品视频在线播放| 国产电话自拍伊人| 精品无码一区二区三区在线视频| 日本高清成本人视频一区| 99re在线免费视频| 亚洲美女AV免费一区| 亚洲九九视频| 伊人狠狠丁香婷婷综合色| 午夜福利网址| 2021国产在线视频| 免费在线a视频| 91亚洲精选| 亚洲欧美色中文字幕| 亚洲视频无码|