黃劍波 何紹榮
(1.上海大學上海電影特效工程技術研究中心,上海200072)
(2.上海中興軟件有限責任公司,上海201203)
自2003年以來,中國電影市場蓬勃發展,年總票房增長了近50 倍。而隨著移動互聯的到來,國人線上購票比例逐年增加,現今已超過90%的電影購票來自線上。人們越來越多地選擇線上下單線下觀影,并會留下評價。這無疑給大數據時代的電影分析研究提供了巨大的可挖掘數據。當今除了影視社交平臺擁有巨量數據外,無其他獨立組織收集、提供中國用戶電影數據,這給電影大數據研究者帶來巨大的困難,因為收集原始數據是一項繁雜而困難的工作。為此,本文運用網絡數據采集技術,致力構建出一個相對全面的中國用戶電影數據庫,最終構建完成了一個包含:電影基礎數據、評價數據、評價者數據、影人數據的電影資料庫。這也為電影數據研究工作解決了源頭問題。本文數據庫信息量大、內容詳實,涵蓋電影各個維度。此基礎之上可進行諸如數據可視化、票房預估、觀眾偏好分析、個性化推薦、影片評論分析、電影立項決策、市場發展趨勢判斷等內容研究。
本文構建了一個相對全面的電影數據庫,大量的電影數據研究可以此為基礎,深入挖掘數據中蘊含的聯系,為中國電影數據研究領域提供一定的基礎數據信息內容。另外,本文根據此數據庫對其中的部分數據進行了可視化分析,直觀地展示了數據中諸如年份、國別、類型、評論內容等信息,分析了各部分呈現規律。
電影數據庫的設計較為復雜,涉及到電影信息、題材類型、國家和地區、演職人員、電影機構等,需要實現大部分信息之間的互動,實現交互式電影數據庫。系統要求實現全面的交互功能,即實現在電影信息中,出品、攝制、發行、引進與電影機構鏈接交互;演職人員如庫中有相關人員資料的實現鏈接交互;劇照、海報、評論文章與相關的電影及電影人員實現交互等,中國電影資料館林飛等人在《電影數據庫設計》中提出了很多建設性意見。制定了一套比較完善的電影數據庫,其組成如表1所示。

表1 數據庫組成表

圖1 研究工作流程
本文數據采集是通過python 語言的requests,包 括 訪 問 各 大 網 站http/https 開 頭 的URL 網頁獲取頁面信息,包括豆瓣電影、貓眼電影、Box office mojo等電影信息網頁。網頁解析需要借助pyquery、xpath及正則表達式等解析庫解析獲取網頁內容。因為大部分商業網站會存在抵抗機器大量密集訪問機制,也就是一定時間單個主機IP 僅能爬取限定次數,如果獲取網頁次數超過限定值就會觸發此機制,頁面展示信息也就不是目標網頁。本文利用VPS云主機進行ADSL動態撥號這一特點獲取動態IP,當訪問網頁時在IP 無法使用時及時更換IP 主機地址,達到連續大量采集信息。
當采集豆瓣電影頁面時,由于其庫中存在大量的電視劇、歌劇及真人秀節目數據,這需要避免進入電影數據庫。豆瓣還無法從電影評論頁獲得超過500 個用戶評論信息,因為其界面從底層進行了限制,因此本文通過獲取大量的用戶瀏覽過的所有電影界面,進而獲取電影評論來擴充電影評論數據,這樣只要獲取用戶量足夠,部分電影就可以做到超過500 個評論文本。目前已有1000 部電影評論數據超過了500 條。另一方面,在獲取電影基本信息時,需要把一些以數字形式在頁面顯示字符串的轉化成短整型或者浮點型,如評分、打分人數、短評數量、長評數量、上映時間等;部分諸如電影類型:“劇情/喜劇”這樣的數據需要拆分成列表;不存在的數據需要設置成默認值,最后保存成便于批量運行分析的數據,統一存儲到MongoDB。
借助MongoDB 數據庫存儲工具進行數據存儲,總共建立四個數據庫:movie_base_data、movie_commenters_data、movie_casts_data、movie_comment_data。movie_base_data 即電影基礎數據,其中建立不同的信息表,如票房、卡司等,表里面的數據以字典形式存儲,主鍵以電影特有的ID 命名;movie_commenters_data,即評論者信息數據,其中主要存儲電影評論者的個人信息,以用戶注冊昵稱為主鍵;movie_comment_data,即電影評論信息,其建表以每部電影唯一ID 命名,每條評論以評論者的昵稱為主鍵;movie_casts_data,即電影影人數據,其建表以每個影人的唯一ID 命名,參演電影ID 為主鍵。
數據分析使用numpy、pandas工具,可視化使用工具為seaborn、matplotlib,地圖生成工具展示通過Geopandas處理并展示,通過可視化可以直觀看到數據庫數據組成狀況和其中隱含的信息。

圖2 不同語言電影占比
圖2 展示了電影基本數據中不同電影所用語言占比,這個數據庫較為龐大,幾乎涵蓋了所有語言。由圖2可看出:大家在選擇電影時,英語電影占比相對最大,其次是中文電影,比較特殊的是粵語電影占比也達到5.05%,可見中國香港在中國電影市場中占據一定席位。這張圖也大致描繪出全球電影產出比例。

圖3 世界各國電影數量在地圖上的熱度顯示
圖3 展示了數據庫中不同國家電影數量對應在地圖上的熱圖,國家產出電影數量越多,顏色越深。此圖也基本反映現在世界上各個國家電影市場大小:美國遙遙領先,中國位居第二,接下來印度、日本、韓國、英國、法國等處于第三階層。總體來說歐洲國家電影產出不是很高,但很多國家在世界占有一席之地;非洲除了南非其余發展中國家普遍在電影產業相對弱后;亞洲國家電影產業最大為中國,印度、東南亞、中東、日本、韓國都存在相對較大的電影產出量。

圖4 電影數量在所有年份上的分布,橫坐標為年份,縱坐標占比情況
圖4 展示了數據庫中對應各個年份電影發行數量,可以看到整體呈數量上升趨勢。可以看到:電影數量在1900 年左右開始,每年上升比例明顯,在2008年有一個小下降,往后一直處于上升階段,這映襯了中國電影從2008 年以來電影市場快速增長這一趨勢。

圖5 數據庫中不同類型電影占比
圖5 可以看出各個類別電影在數據庫中的組成比例,顯然,數據庫中劇情片的比例最大,這也很符合我們的預期;其次是喜劇,這兩個類型電影數量遠超其他類型,愛情、卡通、恐怖片、動作片等比例相差不大。一部電影的類型是可以重合的,既是愛情又是喜劇,還是劇情片,圖5是把電影所屬類型標簽(可以是多個)出現次數進行匯總計算比例。
3.2.1 電影評論者信息分析
圖6顯示了所有電影評分時評論者給出星級所占比例分布,可見大家給電影評分時主要集中在三、四、五星,一、二星相對比例較少。

圖6 數據庫所有電影一到五星占比,橫坐標為單部電影一到五星百分比,縱坐標為出現頻率

圖7 數據庫中所有電影評分分布,橫坐標為評分值
圖7展示了數據庫中所有電影在評分上的分布,可見電影評分主要集中在5.0~8.5 分,基本呈高斯分布,進一步驗證了圖6 的結論。
圖8 顯示了豆瓣Top250 電影中所有評論者來自的國家數量熱圖,顏色越深代表人數越多,很明顯評論者絕大部分居住在中國,其次是美國,然后是英國、日本,對比在中國的人數相差兩個數量級。圖9展示在中國的各個省和直轄市評論者分布情況,旁邊的熱度條數字為ln (數量),即居住省市人數量取e為底數的對數,因為不同省市數量相差較大,直接取值,顏色不容易突出。可以從圖中看出:北京、上海的電影評論者相對大于其他省,推測是由于大城市具有更多電影院、更濃厚的文化氛圍等,其次是廣東、浙江、江蘇,相對來說仍然是經濟較為發達的省份,可見經濟越發達的地區,看電影和評電影的人越多,電影文化更濃厚。

圖8 豆瓣Top250 電影前10 個國家的評論者數量及用戶在世界各地分布熱圖

圖9 中國的前10 個豆瓣Top250 評論者數量及常住地和評論者數量的居住地點的熱圖
3.2.2 單部電影評論分析
(1)單部電影評論詞云
圖10 展示了電影 《復仇者聯盟》的評論詞云,本文從1300 條中文豆瓣評論中提出每個詞的詞頻,其中需要過濾掉一些諸如 “一個”“的”“嗎”等停用詞,因為這些詞頻在展示時幾乎不反應信息,所以進行停用。從圖中可以清楚看到在這些評論中常提及的是:英雄、鋼鐵、綠巨人、隊長、爆米花、超級、特效、大片、喜歡、好看等字樣,基本包含其中的主要人物、電影特色、觀影感受等。由此可見,詞云圖對電影的整體評論覆蓋比較全面,通過詞云基本就可以掌握電影基本相關內容以及大眾對此片的態度。

圖10 基于評論詞頻的電影 《復仇者聯盟》評論詞云
(2)單部電影評論情感分析

表2 根據評分分詞后并貼標簽一星二星為nlike,三星為unknow,四星五星為like

表3 模型在電影評論文本情感分析的準確度
表2 展示了部分評論的標簽,由于人工標注需要大量的時間,設置標簽時進行了比較簡單的處理,電影評價者點評給分為一星、二星時,情感標簽為nlike,當給分為三星時情感標簽為unknow,四星、五星評論標簽為like,即不喜歡、未知、喜歡。表3 為測試集(整體評論的10%)在SVC、樸素貝葉斯、CNN、RNN、GRU 等模型上的準確度,因為在設置標簽時過于簡單,預測結果并不理想,簡單可以看出具有長程記憶的RNN 及其改良的GRU模型具有更好的預測性能。當然這項工作需要更多的實驗來驗證和改善,最重要的是進行準確的情感標記,這需要在未來投入更多的努力,同時單部電影1000條評論對于神經網絡數量也存在不足,可以考慮多部電影評論進行訓練,但這可能又會帶來欠擬合等問題,所以電影評論文本情感分析還存在大量的工作需要去完成。
本文構建了一個包含電影基礎數據、評論數據、評論者數據以及影人數據的電影數據庫,其中包括超過6 萬部電影的類型、出品國別、標題、年份、類型、語言、時長、首映時間、評分等基礎信息,以及超過2000 位評論者的所有評論信息和相應的昵稱、常住地點、年齡、性別等評論者個人信息,還有相關電影超過5 萬位影人信息等,容量已超過國內現有所有公開電影數據集,涵蓋數據維度全面。此外部分數據庫信息已打包成json 和csv 格式數據,可實現共享。通過對數據庫中的數據進行可視化展示與分析,可以看出,目前美國電影市場處于世界領先位置,中國位居第二,遠超其他國家。中國電影評論者大都分布在中國的發達省市,海外發達國家也有少部分定居,可見電影文化的繁榮與經濟情況呈正相關。另外,從電影大數據可以得知,中國電影在2000 年之后產量一直處于增長狀態,世界電影產量也一直處于穩步增長狀態。