999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的電影信息爬取與數據可視化分析

2021-10-23 04:06:32楊應浩
新型工業化 2021年7期
關鍵詞:可視化分析

楊應浩

(重慶師范大學 數學科學學院,重慶 401331)

0 引言

隨著大數據與人工智能時代的到來,數據分析的影響及重要性越來越凸顯,數據分析日益成為本科生不可或缺的技術與技能,也能更好地培養學生的Python實踐操作和解決實際問題的能力。與此同時,緊跟大數據時代步伐,了解大數據背景下數據分析的特點,進一步拓展視野,實現綜合素質的提高[1]。

1 環境搭建

1.1 安裝Par-Charm軟件

Par-Charm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成。它用于數據的爬取十分便利。

1.2 安裝Anaconda軟件

Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項,提供包管理及環境管理功能,解決了Python多版本并存的安裝問題。它非常適合數據可視化分析。

2 數據爬取

爬取數據的步驟過程:第一,進入愛奇藝網站電影界面,獲取該網頁的URL,通過查看網頁源代碼找到目標數據位置并分析網頁源代碼結構;第二,論文使用Python中的requests庫進行數據采集;Beautiful-Soup是一個HTML/XML的解析器,來解析URL的文本信息[2];第三,根據需要單獨提取出電影的評分、電影的演員、電影年份和電影類型;第四,利用循環進行讀取數據并存入數據庫。

3 數據預處理

在真實世界里,數據來源各式各樣質量良莠不齊,所以原始數據一般是有缺陷的,不完整的,重復的,是極易受侵染的。這樣的數據處理起來不僅效率低下而且結果也不盡人意,這種情況下數據的預處理顯得尤為重要。一方面,數據預處理把原始數據規范化、條理化,最終整理成結構化數據,極大地節省了處理海量信息的時間;另一方面,數據預處理可以使得挖掘愈發準確并且結果愈發真實有效[3]。

4 數據分析及可視化

4.1 數據分析背景

隨著電影行業的不斷發展,必將越來越依靠于數據分析的手段來獲取收益。對演員和其電影口碑分析可以得出演員的的票房號召力;從票房分析影片類型對于觀眾的接受度、導演的人氣指數等等,都具有很強的經濟效益。觀眾群體的廣泛性和個人情感的復雜性都影響著影業的未來發展[4]。

論文從四個角度對電影信息數據進行分析:第一,從評分的占比角度入手分析觀眾對電影市場的認可程度;第二,從評論人數與評分入手分析觀影潮流,第三,從電影年份和評分關系入手分析歷年電影口碑分化趨勢;第四,從電影類型入手分析時下熱門電影素材類型。

4.2 從電影評分角度分析

評分是觀眾從接受的角度對影片進行的評價和回饋,一方面取決于電影本身的藝術質量,另一方面則取決于觀眾本身的需求,即影片在多大程度上與觀眾的期待視域達到融[5]。圖1可以看出評分在8-9分的電影占據49.01%,說明觀眾對于電影市場的認可程度比較高;而9分以上電影僅占比2.12%,表明電影市場高質量電影數量有待提高。而7分以下電影占據9.53%,則說明電影市場質量還有一定的提升空間。

圖1 電影評分餅狀圖

4.3 從評論人數與評分角度分析

評論人數與評分之間呈現正相關關系,相關系數為0.52,屬于中等程度相關(相關系數在[-1,1],在統計學意義成立的基礎上,相關系數越接近于1,評論人數與票房之間正相關性越大)[6],表現為評價人數越多,評分高可能性越大。圖三中評論人數多的電影評分也普遍較高,反映出當下大眾的觀影潮流。

4.4 從電影年份角度分析

電影行業從1950年后開始興起,在90年代后迎來了高潮;80年代后電影的評分有質的飛躍。可能在于電影制作的技術的到了提升,具體體現在畫質、特性等方面;2000年以后的電影評分逐漸傾向于兩極分化的趨勢。總體來說電影年份與電影評分呈正相關關系。

4.5 從電影數量及類型分析

觀眾對于喜劇題材和愛情題材類的電影認可度明顯要高于其他類型。而武俠、功夫類題材的電影觀眾的認可度普遍偏低,說明動作類型電影品質還有很大提升空間,觀眾口味多元化,并不是很喜歡單純的動作片,相比之下,奇幻、科幻類題材的電影更受觀眾追捧。喜劇類影片一直以來都是電影市場的一大支柱,受到了制片商的極大追捧。近年來低成本、高回報的喜劇電影扎堆,其整體質量也不錯,未來喜劇電影任然存在很大的發展前景。愛情題材電影雖然受觀眾認可度相對較高,但比之于喜劇題材電影任然有很大的上升空間,愛情片應該多在多元化和現代化方面下功夫,以更好適應在大眾文化的時代背景下高速增長的觀影需求。驚悚題材和恐怖題材無論在數量還是質量上都明顯低于其他類型的電影,情況堪憂。

5 結語

大數據時代的到來使這個社會中的海量數據變成了巨大的潛在財富,大數據的作用是不可估量的,而且大數據已經滲透到了社會的各個領域。運用網絡爬蟲爬取海量數據在信息繁榮的大數據時代更加行之有效。Python作為一門腳本語言,它有著簡單易學,面向對象,開源和擁有豐富的庫等優點。論文闡述了Python語言在數據爬取及可視化分析中的應用。通過對愛奇藝網站電影信息的可視化分析,可以給影片公司一些制片提示,也可以給觀影者提供重要的參考信息。因此,數據分析觀念無論是概念的本身,還是它對于自身發展都具有很高的價值。

猜你喜歡
可視化分析
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 国产色网站| 日本成人一区| 99视频在线免费观看| 久久国产精品77777| 亚洲国产精品无码AV| 免费一级全黄少妇性色生活片| 99久久精品久久久久久婷婷| 国产成人一区免费观看| 国产黄色爱视频| 色综合成人| 999精品视频在线| 亚洲日本精品一区二区| 91精品久久久无码中文字幕vr| 国产精品综合久久久| 在线看片中文字幕| 国产精品开放后亚洲| 亚洲 成人国产| 一级香蕉视频在线观看| 日韩精品无码不卡无码| 国产成人精品视频一区视频二区| 精品久久人人爽人人玩人人妻| 欧美亚洲一二三区| 1769国产精品免费视频| 国产九九精品视频| 日韩精品一区二区三区免费| 午夜精品久久久久久久2023| a毛片在线播放| 国产麻豆精品在线观看| 91精品国产一区自在线拍| 内射人妻无码色AV天堂| 国产精品专区第1页| 国产导航在线| 国产亚洲一区二区三区在线| 伊人久久综在合线亚洲2019| 日本一区二区三区精品AⅤ| 亚洲一区网站| 国产视频入口| 亚洲男人在线天堂| 一级毛片免费的| 亚洲A∨无码精品午夜在线观看| 国产迷奸在线看| 久久精品只有这里有| 热久久国产| av在线手机播放| 国模视频一区二区| 亚洲香蕉在线| 91在线无码精品秘九色APP| 亚洲制服丝袜第一页| 老司国产精品视频| 中文字幕永久视频| 自拍亚洲欧美精品| a级毛片免费看| 亚洲精品无码抽插日韩| 久久这里只有精品国产99| 欧美色伊人| 日韩AV无码一区| 日韩在线视频网站| 亚洲天堂网2014| 亚洲日韩精品伊甸| 亚洲成人精品在线| 国产一级二级三级毛片| 综合久久五月天| 伊人国产无码高清视频| 精品国产www| 中国国语毛片免费观看视频| 国产精品.com| 亚洲aⅴ天堂| 老司国产精品视频91| 无码国产偷倩在线播放老年人| 沈阳少妇高潮在线| 国产国语一级毛片| 国产综合色在线视频播放线视| 国产日韩精品欧美一区喷| 欧美另类精品一区二区三区| 2020久久国产综合精品swag| 香蕉网久久| 亚洲精品无码日韩国产不卡| 国产精品无码一区二区桃花视频| 欧美一区二区精品久久久| 国产玖玖视频| 女人一级毛片| 亚洲精品不卡午夜精品|