999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的影視彈幕情感分析研究*

2021-09-08 08:58:04鄒墨馨辛雨璇
科技創新與應用 2021年24期
關鍵詞:分類文本情感

鄒墨馨,辛雨璇

(牡丹江師范學院 計算機與信息技術學院,黑龍江 牡丹江 157000)

在當今網絡高速發展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數據也可能存在限制,因此無法準確搜集得到有關該影視作品的有價值信息。隨著時間的流逝,影評數據具有大數據規模,比如在動態彈幕的評論數據中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導致無法準確對電影做出整體評價。因此,本文在基于大數據的背景下,采用文本挖掘技術[1]對彈幕文本數據進行爬取,從而找到海量評論下隱含的情感問題。

1 數據收集處理和可視化設計

1.1 數據獲取

本文的數據來源于某視頻的彈幕文本,首先對網頁進行頁面分析,找到網頁發送彈幕的異步請求包,并分析目標網頁的URL變化,通過觀察分析發現頁面遵循的規律,利用變化規律就可以快速實現數據的分段爬取處理。其次對目標網頁結構進行分析之后,找到數據的接口,由于網頁返回的數據是JSON格式,我們可以利用json.loads對數據進行直接解析,最后進行數據的存儲。其中存儲的數據內容包含用戶名、會員等級、評論內容等字段。

1.2 數據清洗

其中數據清洗[2]是情感分析中的一個重要環節,主要是對原始數據進行處理。比如:缺失值的處理、重復值的處理等。首先把數據全部讀取進來,然后把讀取完成的數據進行去重處理、表情刪除等清洗,最后將清洗之后的數據重新進行存儲,共計處理了4萬多條彈幕文本數據。

2 數據可視化

數據獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進行數據可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進行可視化展示。

電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數據點來表示單個數據值。根據評論的時間段,讓有關數量之間的關系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現折線圖的設計。電影情感計算值折線圖如圖1所示。

圖1 電影情感計算值折線圖

電影評論分析詞云圖首先要對爬取的評論信息進行處理,使用jieba.cut()方法把文本進行分詞,然后進行文本的分析,根據詞語出現的次數生成詞頻統計,最后在wordcloud模塊,設置詞云圖顯示詞語的個數、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。

圖2 電影評論分析詞云圖

3 基于Bi-LSTM情感傾向性分類模型

3.1 Bi-LSTM模型原理

Bi-LSTM模型是一個雙向的LSTM結構,該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網絡連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產”“國產”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網絡,然后分別進行獨立計算,最后在一起合并輸出[4]。其中在基于更加細粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進行情感極性類別分類時有更好的判斷能力,可以計算出準確的情感傾向相應的分值。

圖3 基于Bi-LSTM的情感分類模型

在20世紀90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結構,分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權重矩陣。其中LSTM模型單元結構如圖4所示。

圖4 LSTM模型單元網絡結構

網絡內部記憶單元:

3.2 實驗數據集

本文利用python網絡爬蟲技術爬取的原始彈幕數據共計46441條,經過一系列數據的預處理之后,得到的數據為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。

3.3 實驗結果展示與分析

本文首先對彈幕文本數據進行讀取,然后進行一系列數據清洗、分詞等操作之后,把處理好的彈幕文本數據通過Bi-LSTM的情感分類模型進行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。

表1 情感傾向分值表

通過計算分析發現該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態度。情感分值的發展趨勢則是從視頻剛開始表現升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質感以及所想要傳承的中國傳統文化精神等各個方面都表現的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產動漫的巨大進步,背后都是工作人員的辛苦付出,才會收獲現在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節產生不滿,所以評論用戶對此發表了一些比較消極的評論。

4 結論

本文將基于文本挖掘技術進行彈幕文本分析,通過對彈幕文本數據的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網絡爬蟲技術對彈幕文本進行爬取,經過一系列數據預處理之后,進行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進行情感分類處理,最后計算出情感傾向性分值。目前,在大數據的背景下,對于用戶選擇哪部電影是否值得進行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 丝袜美女被出水视频一区| 久久中文无码精品| 国产精品福利尤物youwu | 欧美日韩精品一区二区在线线 | 久一在线视频| 99re66精品视频在线观看| 高清国产va日韩亚洲免费午夜电影| 四虎永久在线| 久久不卡精品| 日韩美毛片| 国产日本视频91| 极品性荡少妇一区二区色欲| 另类重口100页在线播放| 午夜视频在线观看免费网站| 日本黄色不卡视频| A级全黄试看30分钟小视频| 欧美日本在线播放| 26uuu国产精品视频| 天堂成人在线| 美女内射视频WWW网站午夜 | 亚洲人成网站色7777| 亚洲精品国产综合99| 精品成人一区二区三区电影| 国产午夜精品鲁丝片| 国产精品va免费视频| 亚洲精品欧美日韩在线| 国产精品欧美日本韩免费一区二区三区不卡 | 国产精品内射视频| 亚洲最新在线| 亚洲水蜜桃久久综合网站 | 色哟哟精品无码网站在线播放视频| 国产精品无码AV中文| 国产成人精品免费视频大全五级 | 亚洲第一视频网| 亚洲一级毛片免费观看| 日韩精品一区二区三区大桥未久| 99久久精品久久久久久婷婷| 国产精品伦视频观看免费| 久久天天躁狠狠躁夜夜躁| 亚洲av无码成人专区| 久久一本日韩精品中文字幕屁孩| 国产成人AV男人的天堂| 国产高清不卡视频| 一区二区无码在线视频| 毛片最新网址| 国产精品无码翘臀在线看纯欲| 国产高清在线观看| 国产剧情无码视频在线观看| 亚洲成在人线av品善网好看| 亚洲成网777777国产精品| 欧美精品亚洲日韩a| 亚洲国产精品日韩专区AV| 波多野结衣亚洲一区| 成年A级毛片| 精品国产Ⅴ无码大片在线观看81| 国产欧美在线观看视频| 午夜精品一区二区蜜桃| 精品视频在线观看你懂的一区 | 内射人妻无码色AV天堂| 国产二级毛片| 91视频99| 99久久成人国产精品免费| 久久精品视频亚洲| 日韩免费毛片| 9丨情侣偷在线精品国产| 国产xx在线观看| 亚洲第一香蕉视频| 色婷婷综合在线| 午夜福利视频一区| 国产女人在线| 国产精品美女在线| 免费看的一级毛片| 欧美日韩福利| 色哟哟国产精品一区二区| 久久久久亚洲Av片无码观看| 国产成人艳妇AA视频在线| 一级成人a毛片免费播放| 91精品免费高清在线| 少妇极品熟妇人妻专区视频| 福利片91| 久久亚洲综合伊人| 国产黄网永久免费|