999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的影視彈幕情感分析研究*

2021-09-08 08:58:04鄒墨馨辛雨璇
科技創新與應用 2021年24期
關鍵詞:分類文本情感

鄒墨馨,辛雨璇

(牡丹江師范學院 計算機與信息技術學院,黑龍江 牡丹江 157000)

在當今網絡高速發展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數據也可能存在限制,因此無法準確搜集得到有關該影視作品的有價值信息。隨著時間的流逝,影評數據具有大數據規模,比如在動態彈幕的評論數據中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導致無法準確對電影做出整體評價。因此,本文在基于大數據的背景下,采用文本挖掘技術[1]對彈幕文本數據進行爬取,從而找到海量評論下隱含的情感問題。

1 數據收集處理和可視化設計

1.1 數據獲取

本文的數據來源于某視頻的彈幕文本,首先對網頁進行頁面分析,找到網頁發送彈幕的異步請求包,并分析目標網頁的URL變化,通過觀察分析發現頁面遵循的規律,利用變化規律就可以快速實現數據的分段爬取處理。其次對目標網頁結構進行分析之后,找到數據的接口,由于網頁返回的數據是JSON格式,我們可以利用json.loads對數據進行直接解析,最后進行數據的存儲。其中存儲的數據內容包含用戶名、會員等級、評論內容等字段。

1.2 數據清洗

其中數據清洗[2]是情感分析中的一個重要環節,主要是對原始數據進行處理。比如:缺失值的處理、重復值的處理等。首先把數據全部讀取進來,然后把讀取完成的數據進行去重處理、表情刪除等清洗,最后將清洗之后的數據重新進行存儲,共計處理了4萬多條彈幕文本數據。

2 數據可視化

數據獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進行數據可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進行可視化展示。

電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數據點來表示單個數據值。根據評論的時間段,讓有關數量之間的關系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現折線圖的設計。電影情感計算值折線圖如圖1所示。

圖1 電影情感計算值折線圖

電影評論分析詞云圖首先要對爬取的評論信息進行處理,使用jieba.cut()方法把文本進行分詞,然后進行文本的分析,根據詞語出現的次數生成詞頻統計,最后在wordcloud模塊,設置詞云圖顯示詞語的個數、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。

圖2 電影評論分析詞云圖

3 基于Bi-LSTM情感傾向性分類模型

3.1 Bi-LSTM模型原理

Bi-LSTM模型是一個雙向的LSTM結構,該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網絡連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產”“國產”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網絡,然后分別進行獨立計算,最后在一起合并輸出[4]。其中在基于更加細粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進行情感極性類別分類時有更好的判斷能力,可以計算出準確的情感傾向相應的分值。

圖3 基于Bi-LSTM的情感分類模型

在20世紀90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結構,分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權重矩陣。其中LSTM模型單元結構如圖4所示。

圖4 LSTM模型單元網絡結構

網絡內部記憶單元:

3.2 實驗數據集

本文利用python網絡爬蟲技術爬取的原始彈幕數據共計46441條,經過一系列數據的預處理之后,得到的數據為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。

3.3 實驗結果展示與分析

本文首先對彈幕文本數據進行讀取,然后進行一系列數據清洗、分詞等操作之后,把處理好的彈幕文本數據通過Bi-LSTM的情感分類模型進行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。

表1 情感傾向分值表

通過計算分析發現該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態度。情感分值的發展趨勢則是從視頻剛開始表現升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質感以及所想要傳承的中國傳統文化精神等各個方面都表現的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產動漫的巨大進步,背后都是工作人員的辛苦付出,才會收獲現在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節產生不滿,所以評論用戶對此發表了一些比較消極的評論。

4 結論

本文將基于文本挖掘技術進行彈幕文本分析,通過對彈幕文本數據的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網絡爬蟲技術對彈幕文本進行爬取,經過一系列數據預處理之后,進行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進行情感分類處理,最后計算出情感傾向性分值。目前,在大數據的背景下,對于用戶選擇哪部電影是否值得進行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲无线国产观看| hezyo加勒比一区二区三区| 欧美视频二区| 国产成年女人特黄特色大片免费| 3344在线观看无码| 久久综合激情网| 中文无码影院| 国产人人乐人人爱| 久久一本精品久久久ー99| 99精品视频九九精品| 香蕉视频在线观看www| 国产视频一区二区在线观看| 香蕉伊思人视频| 久久精品丝袜高跟鞋| 久久久久亚洲AV成人网站软件| 日韩精品亚洲人旧成在线| 在线中文字幕网| 2022国产91精品久久久久久| 欧美精品啪啪| 91亚洲免费视频| 久久精品这里只有国产中文精品| 日韩精品一区二区三区免费| 精品视频在线观看你懂的一区| 国产精品性| 亚洲国语自产一区第二页| 伊人激情久久综合中文字幕| 欧美黑人欧美精品刺激| 日韩精品久久久久久久电影蜜臀| 日韩A∨精品日韩精品无码| 97se亚洲综合| 亚洲天堂高清| 国产精品久久久久久影院| 亚洲,国产,日韩,综合一区| 国内自拍久第一页| 91福利在线看| 国产精品国产主播在线观看| 老司机午夜精品网站在线观看| 亚洲人妖在线| 国产性精品| 亚洲第一区在线| 亚洲国产成熟视频在线多多| 亚洲第一色网站| 欧美日本在线一区二区三区| 婷婷午夜影院| 中文无码精品a∨在线观看| 99激情网| 久久免费看片| 99er这里只有精品| 日本高清视频在线www色| 国产微拍一区| 在线亚洲小视频| 无码日韩视频| 欧美a在线| 女人18毛片水真多国产| 国产人成午夜免费看| 手机精品视频在线观看免费| 不卡无码网| 欧美a在线视频| 欧美a在线看| 亚洲欧美在线看片AI| 日韩一区精品视频一区二区| 国产欧美综合在线观看第七页| 精品无码视频在线观看| 精品国产自在在线在线观看| 精品无码日韩国产不卡av| 中文字幕日韩视频欧美一区| 成人日韩精品| 国产欧美视频一区二区三区| 国产福利免费在线观看| 日本欧美午夜| 午夜天堂视频| 日本欧美一二三区色视频| 国产成人乱码一区二区三区在线| 制服无码网站| 亚洲不卡影院| 久久久久国产一区二区| 日韩国产精品无码一区二区三区 | 香蕉在线视频网站| 日本一区二区三区精品AⅤ| 中文字幕在线播放不卡| 波多野一区| 久久黄色视频影|