999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電影網站短評數據的網絡輿情文本挖掘與情感分析

2023-04-29 00:00:00賀海玉
現代信息科技 2023年21期

收稿日期:2023-04-07

DOI:10.19850/j.cnki.2096-4706.2023.21.029

摘" 要:對電影短評數據進行情感分析的目的是為了獲取觀眾對某部電影的情感傾向,同時還可幫助電影制作者通過了解觀眾的情感傾向,從而改善電影的制作。文章采用的方法是通過python代碼爬取電影網站上的評論數據,對爬取的數據進行多項數據預處理技術得到較為規范的評論數據,再利用TF-IDF算法計算出短評數據的關鍵詞及權重并給關鍵字詞云圖,然后使用SnowNLP庫計算出短評數據的情感分值,并運用LDA模型對電影網站短評數據主題分類,最終給出電影網站短評數據情感分析的可視化評價結果。

關鍵詞:情感分析;Jieba分詞;TF-IDF算法;SnowNLP分析;LDA主題模型

中圖分類號:TP391" 文獻標識碼:A" 文章編號:2096-4706(2023)21-0126-06

Text Mining and Emotion Analysis of Online Public Opinion Based on Short Review Data of Film Websites

HE Haiyu

(Information Technology Department of Dazhong Newspaper Group, Ji'nan" 250014, China)

Abstract: The purpose of conducting emotion analysis on film short review data is to obtain the audience's emotional tendencies towards a certain film. At the same time, it can help filmmakers improve film production by understanding the audience's emotional tendencies. The method used in this paper is to crawl the review data on film websites through Python code, perform multiple data preprocessing techniques on the crawled data to obtain more standardized review data, then use TF-IDF algorithm to calculate the keywords and weights of the short review data and give keywords cloud maps. Then, it uses SnowNLP library to calculate the emotional score of the short review data, and uses LDA model to classify the short review data theme of the film websites. Finally, it provides a visual evaluation result of emotion analysis of short review data on film websites.

Keywords: emotion analysis; Jieba participle; TF-IDF algorithm; SnowNLP analysis; LDA topic model

0" 引" 言

國家新聞出版廣電總局公布的數據顯示,2021年中國電影總票房達472.58億元,其中國產片票房399.27 億元,占總票房的84.49%。由此可見,我國在注重經濟發展的同時,也加大了對文化產業的扶持力度,電影市場規模也逐年增長,城市院線觀影人次達11.67億人次,年度總票房和銀幕總數繼續保持全球第一,電影票房、銀幕數量、銀幕數均創歷史新高,電影逐漸融入大眾生活,已成為廣大市民休閑娛樂的重要方式。與此同時,隨著“互聯網+”和大數據技術的迅猛發展,也促使各種網絡社交平臺迅速崛起,越來越多的網民通過網絡社交平臺表達個人的意見看法和情感態度,電影領域的社交平臺也應運而生,比如豆瓣、貓眼等影評網站,順應了中國電影行業的發展。當眾多網民看完影片后,可以在電影網站上對影片進行評價打分,這些評價往往以文字的形式呈現在網絡平臺上,于是就形成了一種線下觀看、線上評論的模式。但觀眾對某一部電影的評價往往帶有明顯的主觀判斷,同一部電影,不同的觀眾有著截然不同的評價,褒貶不一,很難形成統一有效的評價。讓觀眾選擇一部符合自己觀影需求的影片,如果僅憑幾個影評或評分就決定是否觀影,顯然過于片面[1]。因此,研究如何從海量的影評數據中挖掘出觀眾的潛在情感特征進行情感分析是非常必要的,這不僅可以客觀呈現出電影觀眾對某部電影的情感傾向,而且還能幫助電影制作者了解觀眾對電影的情感反饋,為提升電影制作品質提供重要依據。由于豆瓣電影平臺擁有龐大的用戶基數,影評數量多且專業性較強,使之成為海量體現觀眾觀影感受數據的代表網站之一,因而具有較大的研究價值。有鑒于此,本文以豆瓣電影網站短評數據為研究對象進行文本挖掘和情感分析。

1" 研究設計

本文研究設計思路:第一步,對電影網站的影評數據進行采集并進行數據預處理是利用python語言編寫網絡爬蟲程序進行的;第二步,使用Jieba中文分詞庫對影評數據進行分詞、去掉停詞等處理,得到比較規范的影評數據,并將影評數據的高頻關鍵詞和權重按照TF-IDF算法進行提取和計算,然后將經過中文分詞處理過的影評數據通過調用WordCloud庫進行詞云圖可視化呈現;第三步,使用SnowNLP庫計算出影評數據的情感分值并運用LDA模型進行主題詞提取;第四步,根據計算出的情感分數進行統計,得出正面、中性、負面的情緒比例以及影評數據中的主題分類,最終給出可視化的評價結果,如電影網站的短評數據正負傾向統計圖,情感分析占比圖,情感分析直方圖,情感分析波動圖,以及主題分類圖等。具體實現流程如圖1所示。

2" 相關理論

文本數據挖掘(Text Mining)是指利用計算機處理技術將有價值的信息和知識從文本數據中提取出來[2]。而作為文本數據挖掘重要方向的情感分析(又稱觀點挖掘)則是運用自然語言處理、文本挖掘、計算機語言等手段對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,其應用到的相關理論如下。

2.1" Jieba分詞器

中文分詞是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊,在進行中文自然語言處理時,通常需要先進行分詞。Jieba分詞器是目前python中最好的中文分詞組件,它主要利用中文詞庫來確定漢字相互之間的關聯概率,從而產生正確的分詞結果,這種分詞方法的正確率較高,可以很好地幫助用戶完成關鍵詞提取、潛在主題發現等工作,尤其是在中文文本分類。同時,Jieba分詞器也支持用停用詞典和用戶詞典的功能,可以大大提高分詞結果的準確性,對于分詞結果不理想的詞語,可以通過引入自定義詞典進行處理。因此,本文選擇使用Jieba分詞器對影評的文本數據進行分詞,停用詞,統計高頻詞。

2.2" TF-IDF算法

TF-IDF算法的目的是評估一個詞對文本的重要性,如果該詞或短語在一篇文章中出現頻率較高,文檔集中出現頻率較低,則認為該詞或短語具有較好的類別區分能力[3,4]。TF-IDF由兩部分組成:詞頻(TF)和逆文檔頻率(IDF)。

詞頻(TF)是指文件中出現某一具體詞語的頻率:

(1)

逆文檔頻率(IDF)即文檔總數與包含某一具體詞語文檔數比值的對數值:

(2)

假如某個關鍵詞i在文本d中出現的詞頻為tfi(d),ni為含有關鍵詞i的文本數,則TF-IDF函數為:

(3)

因此,本文通過TF-IDF算法可以提取并計算出某篇文本里的關鍵詞以及權重。

2.3" SnowNlp情感分析

SnowNLP是Python編寫的自然語言處理庫,主要可實現中文分詞、詞性標注、情感分析、文字分類、拼音轉換、繁體轉簡體、提取文字關鍵詞、提取摘要、分隔語句、文本相似等功能。它是一個可讀性很好的中文文本處理庫,簡單易懂,易于實現。SnowNLP庫不需要NLTK,它自帶語料庫和情感字典,本身就可以實現所有的算法,不需要下載大量的情感詞庫和構建各種情感詞庫,有一定的準確率。故本文選取SnowNLP進行影評數據的情感分析。

SnowNLP情感分析基本原理如下:假設情感分析的分類有正面評價c1和負面評價c2兩類,且每一條評論中有w1, w2, …, wn共n個相互獨立的文本空間,通過樸素貝葉斯公式分別計算出屬于正面評價P(c1 | w1, …, wn)和負面評價P(c 2 | w1, …, wn)的條件概率,其計算公式可表示為:

(4)

并根據全概率公式P(B) = P(B | A)P(A) + P(B | A′)P(A′),可將P(w1, …, wn)表示為:

(5)

進而可將公式轉換為:

(6)

其計算得到概率值的范圍在0到1之間,當概率值越接近1表示正向,當概率值越接近0表示負向,該式即為SnowNLP在情感分析過程中使用的計算算法[5]。

2.4" LDA主題模型

LDA(Latent Dirichlet Allocation)潛在狄利克雷分布主題模型是一種非監督機器學習技術,可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題并生成分類。它采用了詞袋(bag of words)的方法,通過構建“文檔-主題-詞”三層貝葉斯概率模型,可以獲取每個主題下的詞語分布概率,以及文檔對應的主題概率,從而根據所得的概率進行主題分類,如圖2所示。

在LDA模型中,一個文檔的生成過程如下:

1)從狄利克雷分布(Dirichlet)α中取樣,生成文檔di對應的主題分布θi。

2)文檔i第j個詞的主題Zi, j是從主題的多項式分布θi中取樣生成。

3)從狄利克雷分布(Dirichlet)β中取樣,生成主題Zi, j對應的詞語分布 。

4)綜合主題Zi, j對應詞語多項式分布" 生成詞語Wi, j。

其中,參數α、β和主題對應的主題數K一般事先給出,圖中表示依存關系的是向量邊,表示重復的是長方形,表示重復的是字母M、N、K,在長方形中表示重復的次數。因此,若要生成一個文檔,文檔中每個詞出現的條件概率公式如下:

(7)

表示每個文檔中每個單詞出現的概率為P(w | d);表示每個主題中每個單詞的出現頻率是P(w | z);表示每個文檔中每個主題出現的概率為P(z | d)。當給定文本集,可通過對文本集中的每個文本進行分詞,計算各個文本中每個詞語的詞頻可以得到“文檔-詞語”矩陣。LDA主題模型就是通過“文檔-主題-詞語”三層,以一定的概率推斷文檔的主題[6]。

3" 實驗分析

本文采用2023年1月22日在中國大陸上映,由張藝謀導演,沈騰、易烊千璽、張譯、雷佳音、岳云鵬、王佳怡領銜主演的《滿江紅》電影影評數據作為實驗數據源進行文本挖掘與情感分析。

3.1" 數據采集

對《滿江紅》影評數據的采集是利用Python編寫的網絡爬蟲程序進行的。該網絡爬蟲程序是在window 7操作系統中,利用Anaconda3集成開發環境,通過Python語言進行開發的。其Python作為一種開源軟件,為編譯爬蟲程序提供了大量的完善的基礎代碼庫以及功能強大的第三方資源庫,使得系統開發更為簡單便捷。在編寫的影評網絡爬蟲程序引入了Python語言的Requests、lxml、BeautifulSoup、jieba、csv、SnowNLP等第三方資源庫。該爬蟲程序首先以要訪問的《滿江紅》電影評論頁面URL為入口,通過Requests庫模擬瀏覽器向服務器發送請求獲取響應數據;然后通過lxml庫將獲取的響應數據進行數據格式轉換,再經BeautifulSoup庫進行數據解析和提取,獲得影評數據,包括昵稱、評分、日期、地域、短評、有用等數據;最后將爬取到的1 200條網絡評論數據以.csv格式保存下來,用于后續的情感分析,如圖3所示。

3.2" 數據清洗

一般網絡爬蟲程序采集下來的影評數據,存在較多的臟數據,為了避免數據不夠規范導致結果出錯,需要進行數據清洗、中文分詞、去除停用詞、高頻詞統計等一系列的數據預處理操作。例如我們初次爬取下來的影評數據就存在較多的干擾信息,如重復冗余評論,帶有HTML標簽和帶有emotion(表情)的評論以及空格等。對帶有HTML標簽、表情符號以及空格可使用Python正則表達式的方法re.sub()匹配去除。對重復冗余的文本數據則是使用drop_duplicates()方法將網絡評論數據中重復的部分過濾掉,從而起到去除無用的、重復的網絡評論目的。然后對處理好后的影評數據再使用Jieba分詞庫的cut()方法的精準模式對網絡評論數據進行切句、分詞。經過分詞后的數據還有很多干擾項,在評論數據中還會存在著頻率出現極高一些詞匯,如:“在”“的”“萬一”“?”“!”等,以及一些中文標點符號,這些詞匯本身沒有什么實際意義。因此,選用哈工大停用詞表并將其加載到Jieba分詞庫的停用詞庫中,將沒有具體意義的詞刪去,從而生成較為規范化的數據文本,然后根據TF-IDF算法提取并計算出影評數據的高頻關鍵詞如“反轉、電影、滿江紅、喜劇、劇情”等以及權重,如表1所示。

同時,調用WordCloud庫將經過數據清洗過的影評數據進行詞云圖可視化。如圖4所示。通過詞云圖,可以得出“滿江紅電影最后反轉真的很喜劇”這樣的評論。

3.3" 情感分析

對清洗過的影評數據進行情感分析時,主要是由SonwNLP庫來實現的。通過調用SnowNLP庫的sentiment()方法對文本進行情感分析,就能夠獲取每條評論的對應情感分值,同時還可以通過設定正負評價類型閥值,將情感分值劃分成三個情感類型區間,當情感分值在[0,0.4)區間時為消極,情感分值在[0.4,0.6)區間時為中性,情感分值在[0.6,1]區間時為積極,如圖5所示。

并且通過SnowNLP情感分析,可以得到與“滿江紅”相關的影評數據的情感分析占比圖、直方圖以及波動圖,如圖6~圖9所示。

圖6顯示了觀眾按照一星、二星、三星、四星、五星(即很差、較差、還行、推薦、力薦)的評價標準對該電影的好壞進行評價,其占比值為4.2%,6.9%,18.6%,39.9%,30.4%,其中四星和五星所占比例較大,因此可以看出大多數觀眾對此電影持推薦態度,電影值得一看。圖7顯示了所有影評數據中屬于積極、中性及消極情感分析分類的占比,從此圖可以直觀地看到積極占比為79.3%,中性占比為5.7%,消極占比為15%,屬于積極的占比較大,因此可判斷出觀眾對該電影的評論也是趨于積極的評價。圖8以直方圖的形式呈現出感情分的區間分布,整體的感情分分布由圖中可以看出靠右,這也顯示出觀眾呈現出更積極的態度來評價這部影片。圖9以波動圖的形式呈現了評論數量與情感得分的關系,從圖中可見波動曲線整體分布靠上,且隨著評論數量的增加越發穩定在上側區間,由此可看出觀眾對該電影的評價也大多持積極態度的。

3.4" LDA主題分析

LDA主題分析是對情感分析的進一步解釋,是一種基于詞語語義特征提取文章主題的方法,在各自的主題下,可以根據概率值列舉出對應的特征詞,將具有相同主題的詞語匯聚在一起。在LDA主題分析中,使用第三方工具包Gensim庫將非結構化的文本信息轉化成Gensim模型可以理解的稀疏向量,然后通過LdaModel()方法將影評數據的主題設定為4類,從而得到各主題包含的主題詞分類,如表2所示,圖10為得到的主題1的可視化結果。

通過對比LDA進行主題分析獲取的主題詞與jieba分詞獲得的關鍵詞以及WordCloud繪制的詞云圖,可以看出觀眾對該電影的關注焦點是一致的。

4" 結" 論

隨著電影行業飛速發展,電影已經逐漸融入大眾生活,成為休閑娛樂的重要方式,電影無疑已經進入了全民關注,全民討論時代。因電影評分網站上蘊含了大量的電影評論、排行、評分等主觀傾向性信息,所以通過對用戶評論和評分數據的情感分析,可以給觀眾提供更好的觀影體驗和為電影業帶來更大的商業價值,因此對電影影評數據進行收集和情感分析研究具有非常重要的意義。本文通過對電影影評數據進行網絡爬取、中文分詞、詞頻統計、關鍵詞提取,SnowNLP情感分析和LDA主題分類等步驟后,獲得的詞云圖、情感分析占比圖、直方圖、波動圖及LDA主題分類圖等可視化圖表可以較好地呈現觀眾對電影的情感傾向和關注焦點,同時還能為電影制作者提供觀眾對于國產電影的偏好反饋信息,為國產電影的發展提供決策依據。

參考文獻:

[1] 余洋.豆瓣電影評論文本的情感分析及主題提取研究 [D].昆明:云南財經大學,2018.

[2] 夏海峰,陳軍華.基于文本挖掘的投訴熱點智能分類 [J].上海師范大學學報:自然科學版,2013,42(5):470-475.

[3] 趙亞歐,張家重,李貽斌,等.融合基于語言模型的詞嵌入和多尺度卷積神經網絡的情感分析 [J].計算機應用,2020,40(3):651-657.

[4] 葉雪梅.文本分類TF-IDF算法的改進研究 [D].合肥:合肥工業大學,2019.

[5] 白健,洪小娟.基于彈幕的網絡輿情文本挖掘與情感分析 [J].軟件工程,2022,25(11):44-48.

[6] 劉惠,趙海清.基于TF-IDF和LDA主題模型的電影短評文本情感分析——以《少年的你》為例 [J].現代電影技術,2020(3):42-46.

作者簡介:賀海玉(1977—),男,漢族,河南衛輝人,高級工程師,碩士,研究方向:新媒體大數據技術及分析、網絡輿情。

主站蜘蛛池模板: 亚洲精品无码久久久久苍井空| 欧美五月婷婷| 国产在线观看99| 99久久国产综合精品女同| 精品视频在线观看你懂的一区| 精品伊人久久久香线蕉| 欧美www在线观看| 影音先锋亚洲无码| 色综合中文字幕| 日韩中文字幕免费在线观看| 久久香蕉国产线看观看精品蕉| 91麻豆国产视频| 中文字幕66页| jizz国产视频| 色屁屁一区二区三区视频国产| 69av在线| 亚洲国产成人精品青青草原| 久久亚洲国产视频| 久久综合伊人 六十路| 欧美成人精品高清在线下载| 亚洲精品不卡午夜精品| 91亚洲国产视频| 久久精品只有这里有| 东京热av无码电影一区二区| 国产精品免费电影| 国产视频大全| 原味小视频在线www国产| 国产95在线 | 国产最爽的乱婬视频国语对白| 日本不卡在线| 国产成人精品2021欧美日韩 | 精品久久久久久久久久久| 综合亚洲色图| 亚洲成aⅴ人在线观看| 精品视频福利| 99国产精品免费观看视频| 激情乱人伦| 亚洲中字无码AV电影在线观看| 性色一区| 欧美精品在线观看视频| 中文字幕亚洲第一| 国产无套粉嫩白浆| 国产在线无码av完整版在线观看| 国产高潮视频在线观看| 2048国产精品原创综合在线| 亚洲中文在线视频| 亚洲av无码久久无遮挡| 少妇露出福利视频| 欧美日韩久久综合| 亚洲系列无码专区偷窥无码| 亚洲中文字幕久久精品无码一区| 福利在线不卡一区| 亚洲一级色| 在线毛片免费| 成人欧美日韩| 青青网在线国产| 深爱婷婷激情网| 久久黄色小视频| 久久先锋资源| 中日无码在线观看| 亚洲精品国产自在现线最新| 亚洲福利视频一区二区| 国产精品久久久久久久久久久久| 2022精品国偷自产免费观看| 国产大片喷水在线在线视频| 露脸一二三区国语对白| 亚洲人成色在线观看| 国产99欧美精品久久精品久久| 亚洲综合精品第一页| 久久成人18免费| 亚洲国产在一区二区三区| 欧美日韩va| 国产自产视频一区二区三区| 动漫精品中文字幕无码| 日韩精品一区二区三区swag| 日本在线视频免费| 性色一区| 国产成人夜色91| 精品成人一区二区三区电影 | 日韩亚洲综合在线| 欧美yw精品日本国产精品| 亚洲永久色|