楊應浩
(重慶師范大學 數學科學學院,重慶 401331)
隨著大數據與人工智能時代的到來,數據分析的影響及重要性越來越凸顯,數據分析日益成為本科生不可或缺的技術與技能,也能更好地培養學生的Python實踐操作和解決實際問題的能力。與此同時,緊跟大數據時代步伐,了解大數據背景下數據分析的特點,進一步拓展視野,實現綜合素質的提高[1]。
Par-Charm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成。它用于數據的爬取十分便利。
Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項,提供包管理及環境管理功能,解決了Python多版本并存的安裝問題。它非常適合數據可視化分析。
爬取數據的步驟過程:第一,進入愛奇藝網站電影界面,獲取該網頁的URL,通過查看網頁源代碼找到目標數據位置并分析網頁源代碼結構;第二,論文使用Python中的requests庫進行數據采集;Beautiful-Soup是一個HTML/XML的解析器,來解析URL的文本信息[2];第三,根據需要單獨提取出電影的評分、電影的演員、電影年份和電影類型;第四,利用循環進行讀取數據并存入數據庫。
在真實世界里,數據來源各式各樣質量良莠不齊,所以原始數據一般是有缺陷的,不完整的,重復的,是極易受侵染的。這樣的數據處理起來不僅效率低下而且結果也不盡人意,這種情況下數據的預處理顯得尤為重要。一方面,數據預處理把原始數據規范化、條理化,最終整理成結構化數據,極大地節省了處理海量信息的時間;另一方面,數據預處理可以使得挖掘愈發準確并且結果愈發真實有效[3]。
隨著電影行業的不斷發展,必將越來越依靠于數據分析的手段來獲取收益。對演員和其電影口碑分析可以得出演員的的票房號召力;從票房分析影片類型對于觀眾的接受度、導演的人氣指數等等,都具有很強的經濟效益。觀眾群體的廣泛性和個人情感的復雜性都影響著影業的未來發展[4]。
論文從四個角度對電影信息數據進行分析:第一,從評分的占比角度入手分析觀眾對電影市場的認可程度;第二,從評論人數與評分入手分析觀影潮流,第三,從電影年份和評分關系入手分析歷年電影口碑分化趨勢;第四,從電影類型入手分析時下熱門電影素材類型。
評分是觀眾從接受的角度對影片進行的評價和回饋,一方面取決于電影本身的藝術質量,另一方面則取決于觀眾本身的需求,即影片在多大程度上與觀眾的期待視域達到融[5]。圖1可以看出評分在8-9分的電影占據49.01%,說明觀眾對于電影市場的認可程度比較高;而9分以上電影僅占比2.12%,表明電影市場高質量電影數量有待提高。而7分以下電影占據9.53%,則說明電影市場質量還有一定的提升空間。

圖1 電影評分餅狀圖
評論人數與評分之間呈現正相關關系,相關系數為0.52,屬于中等程度相關(相關系數在[-1,1],在統計學意義成立的基礎上,相關系數越接近于1,評論人數與票房之間正相關性越大)[6],表現為評價人數越多,評分高可能性越大。圖三中評論人數多的電影評分也普遍較高,反映出當下大眾的觀影潮流。
電影行業從1950年后開始興起,在90年代后迎來了高潮;80年代后電影的評分有質的飛躍。可能在于電影制作的技術的到了提升,具體體現在畫質、特性等方面;2000年以后的電影評分逐漸傾向于兩極分化的趨勢。總體來說電影年份與電影評分呈正相關關系。
觀眾對于喜劇題材和愛情題材類的電影認可度明顯要高于其他類型。而武俠、功夫類題材的電影觀眾的認可度普遍偏低,說明動作類型電影品質還有很大提升空間,觀眾口味多元化,并不是很喜歡單純的動作片,相比之下,奇幻、科幻類題材的電影更受觀眾追捧。喜劇類影片一直以來都是電影市場的一大支柱,受到了制片商的極大追捧。近年來低成本、高回報的喜劇電影扎堆,其整體質量也不錯,未來喜劇電影任然存在很大的發展前景。愛情題材電影雖然受觀眾認可度相對較高,但比之于喜劇題材電影任然有很大的上升空間,愛情片應該多在多元化和現代化方面下功夫,以更好適應在大眾文化的時代背景下高速增長的觀影需求。驚悚題材和恐怖題材無論在數量還是質量上都明顯低于其他類型的電影,情況堪憂。
大數據時代的到來使這個社會中的海量數據變成了巨大的潛在財富,大數據的作用是不可估量的,而且大數據已經滲透到了社會的各個領域。運用網絡爬蟲爬取海量數據在信息繁榮的大數據時代更加行之有效。Python作為一門腳本語言,它有著簡單易學,面向對象,開源和擁有豐富的庫等優點。論文闡述了Python語言在數據爬取及可視化分析中的應用。通過對愛奇藝網站電影信息的可視化分析,可以給影片公司一些制片提示,也可以給觀影者提供重要的參考信息。因此,數據分析觀念無論是概念的本身,還是它對于自身發展都具有很高的價值。