999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的影視彈幕情感分析研究*

2021-09-08 08:58:04鄒墨馨辛雨璇
科技創新與應用 2021年24期
關鍵詞:分類文本情感

鄒墨馨,辛雨璇

(牡丹江師范學院 計算機與信息技術學院,黑龍江 牡丹江 157000)

在當今網絡高速發展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數據也可能存在限制,因此無法準確搜集得到有關該影視作品的有價值信息。隨著時間的流逝,影評數據具有大數據規模,比如在動態彈幕的評論數據中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導致無法準確對電影做出整體評價。因此,本文在基于大數據的背景下,采用文本挖掘技術[1]對彈幕文本數據進行爬取,從而找到海量評論下隱含的情感問題。

1 數據收集處理和可視化設計

1.1 數據獲取

本文的數據來源于某視頻的彈幕文本,首先對網頁進行頁面分析,找到網頁發送彈幕的異步請求包,并分析目標網頁的URL變化,通過觀察分析發現頁面遵循的規律,利用變化規律就可以快速實現數據的分段爬取處理。其次對目標網頁結構進行分析之后,找到數據的接口,由于網頁返回的數據是JSON格式,我們可以利用json.loads對數據進行直接解析,最后進行數據的存儲。其中存儲的數據內容包含用戶名、會員等級、評論內容等字段。

1.2 數據清洗

其中數據清洗[2]是情感分析中的一個重要環節,主要是對原始數據進行處理。比如:缺失值的處理、重復值的處理等。首先把數據全部讀取進來,然后把讀取完成的數據進行去重處理、表情刪除等清洗,最后將清洗之后的數據重新進行存儲,共計處理了4萬多條彈幕文本數據。

2 數據可視化

數據獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進行數據可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進行可視化展示。

電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數據點來表示單個數據值。根據評論的時間段,讓有關數量之間的關系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現折線圖的設計。電影情感計算值折線圖如圖1所示。

圖1 電影情感計算值折線圖

電影評論分析詞云圖首先要對爬取的評論信息進行處理,使用jieba.cut()方法把文本進行分詞,然后進行文本的分析,根據詞語出現的次數生成詞頻統計,最后在wordcloud模塊,設置詞云圖顯示詞語的個數、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。

圖2 電影評論分析詞云圖

3 基于Bi-LSTM情感傾向性分類模型

3.1 Bi-LSTM模型原理

Bi-LSTM模型是一個雙向的LSTM結構,該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網絡連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產”“國產”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網絡,然后分別進行獨立計算,最后在一起合并輸出[4]。其中在基于更加細粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進行情感極性類別分類時有更好的判斷能力,可以計算出準確的情感傾向相應的分值。

圖3 基于Bi-LSTM的情感分類模型

在20世紀90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結構,分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權重矩陣。其中LSTM模型單元結構如圖4所示。

圖4 LSTM模型單元網絡結構

網絡內部記憶單元:

3.2 實驗數據集

本文利用python網絡爬蟲技術爬取的原始彈幕數據共計46441條,經過一系列數據的預處理之后,得到的數據為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。

3.3 實驗結果展示與分析

本文首先對彈幕文本數據進行讀取,然后進行一系列數據清洗、分詞等操作之后,把處理好的彈幕文本數據通過Bi-LSTM的情感分類模型進行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。

表1 情感傾向分值表

通過計算分析發現該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態度。情感分值的發展趨勢則是從視頻剛開始表現升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質感以及所想要傳承的中國傳統文化精神等各個方面都表現的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產動漫的巨大進步,背后都是工作人員的辛苦付出,才會收獲現在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節產生不滿,所以評論用戶對此發表了一些比較消極的評論。

4 結論

本文將基于文本挖掘技術進行彈幕文本分析,通過對彈幕文本數據的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網絡爬蟲技術對彈幕文本進行爬取,經過一系列數據預處理之后,進行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進行情感分類處理,最后計算出情感傾向性分值。目前,在大數據的背景下,對于用戶選擇哪部電影是否值得進行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 精品无码一区二区三区在线视频| 黑人巨大精品欧美一区二区区| 成人中文在线| 欧美va亚洲va香蕉在线| 在线观看亚洲精品福利片| 亚洲精品大秀视频| 午夜限制老子影院888| 欧美成人亚洲综合精品欧美激情| 欧美区在线播放| V一区无码内射国产| 露脸一二三区国语对白| 日韩成人在线网站| 五月综合色婷婷| 久久这里只有精品国产99| 欧美一区精品| 亚洲精品国产首次亮相| 激情综合网址| 中国精品久久| 日韩在线1| 欧美成人日韩| 一本大道无码日韩精品影视| 狠狠做深爱婷婷久久一区| 一本一道波多野结衣av黑人在线| 青草视频网站在线观看| 婷婷激情五月网| 国产在线精品人成导航| 香蕉视频在线精品| 亚洲一区二区视频在线观看| 亚洲AⅤ永久无码精品毛片| 色偷偷一区二区三区| 热久久这里是精品6免费观看| 中文字幕欧美日韩高清| 欧美成人精品一级在线观看| 免费av一区二区三区在线| 天天躁夜夜躁狠狠躁图片| a级毛片在线免费| 波多野结衣第一页| 97久久精品人人| 草草线在成年免费视频2| 日本三级欧美三级| 一级黄色网站在线免费看| 欧美福利在线| 99国产精品国产| аⅴ资源中文在线天堂| 免费久久一级欧美特大黄| 国产不卡一级毛片视频| 日韩AV手机在线观看蜜芽| 亚洲丝袜第一页| 欧美另类图片视频无弹跳第一页| 亚洲区一区| 激情国产精品一区| 黑色丝袜高跟国产在线91| 久久综合五月| 国模私拍一区二区三区| 国产精品综合色区在线观看| 亚洲中文字幕无码爆乳| 欧美日本在线一区二区三区 | 中国精品久久| 午夜精品久久久久久久无码软件| www.国产福利| 欧美yw精品日本国产精品| 欧美精品影院| 日韩中文字幕免费在线观看| 国产又大又粗又猛又爽的视频| 91久久精品日日躁夜夜躁欧美| 91精品aⅴ无码中文字字幕蜜桃| 欧美亚洲香蕉| 欧美另类精品一区二区三区| 丁香婷婷综合激情| 日韩毛片视频| 成人福利在线视频| 91视频青青草| 亚洲av日韩av制服丝袜| 日本一本在线视频| 亚洲精品天堂自在久久77| 亚洲成人网在线播放| 国产白浆视频| 国产亚洲男人的天堂在线观看| 美女毛片在线| 亚洲综合中文字幕国产精品欧美 | 国产69精品久久久久孕妇大杂乱| 国产H片无码不卡在线视频|