楊雨凡



摘要:近年來,中國電影產業迅猛發展,電影票房作為衡量電影商業效益的重要指標,其高低成敗直接影響到了電影后續相關產業的發展與定位。因此,對電影票房數據的分析顯得尤為必要。本文基于2015年至2017年三年在中國上映的1366部電影,結合國內外研究分析了影響電影票房的各個因素,并采用統計學方法和數據挖掘技術,對電影票房進行了匯總分析、聚類分析和關聯規則分析。
關鍵詞:數據挖掘;電影;票房分析;聚類;關聯規則
中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.16723198.2020.25.020
0引言
電影作為文化產業的重要組成部分,已成為人們生活中不可或缺的一種娛樂方式。票房反映了一部電影的商業效益,對后續電影拍攝計劃和方向有著重大影響,也是衡量一部電影是否盈利與是否成功的重要指標。然而,國產電影只有極少數是盈利的,70%的國產電影都面臨虧損,高投入低收益的電影也不在少數,如《上海堡壘》等電影。因此,對電影票房的有效分析將有利于降低電影投資市場的風險,對電影投資、制作及營銷各個階段都有著重要的指導性意義。而目前國內電影票房的研究還處在經驗分析階段,依賴于專家判斷,缺乏數據技術支撐。為引導電影產業的理性決策,對電影票房的數據分析顯得尤為必要。
胡小莉等選取了2007-2009年在國內上映的電影,用SPSS統計分析軟件,分析了影響電影票房的因素。吳發翔等選取了2015年上映的國產電影,運用C5.0決策樹算法構建了票房預測模型。王秋萍利用K-means聚類算法和BP神經網絡,分析了票房影響因素和網絡平臺特征,提出票房預測模型。這些已有的研究選取電影多上映于2015年前,缺乏時效性,同時數據較少,所得出的結論相對缺乏數據支撐。
本文選取2015-2017三年間在中國上映的1366部電影作為數據集,對電影票房數據分別進行了匯總分析、聚類分析和關聯規則分析。
1數據的組成與處理
本文的數據來源于電影票房官方網站——中國票房網(http://www.cbooo.cn/),通過爬蟲抓取了2015年至2017年這三年間在中國上映的1366部電影票房的數據。
為盡可能保證數據的全面性,本文分析的電影數據包括以下10項:
(1)電影名稱;
(2)電影票房;
(3)電影類型。包括愛情、動作、科幻、喜劇等類型;
(4)上映時間;
(5)制式。包含2D、3D、IMAX這三種制式;
(6)國家地區;
(7)發行公司。本文此類數據進行了預處理,將其分為好萊塢八大發行公司、中國十大發行公司和其他發行公司;
(8)導演影響力。本文對電影導演數據進行了預處理,通過計算該導演在此之前所導的前兩部電影票房和來反映導演影響力;
(9)主演影響力。本文對電影主演數據進行了預處理,通過計算該主演在此之前所主演的前兩部電影票房和來反映主演影響力;
(10)同期競爭力。電影票房很大程度會受到同期所上映電影的影響,本文通過計算所有在該電影上映前后一周的電影票房和來表示同期競爭力。
2統計分析
為了統計電影在中國各個季度上映的情況,本文使用Excel表格的分類匯總功能,分別統計了2015年至2017年每季度上映電影數量和票房的總和,結果如圖1所示。2015年至2017年,每年的第三季度都是電影上映數量的高峰,這是因為第三季度包含暑期檔,不少國內外的商業大片通常會選擇在這個檔期上映,以取得更高的觀影量和收入。而每年第一季度上映的電影數量則處于波谷,這可能是因為第一季度包含賀歲檔,上映的電影類型多為喜劇,而動作、科幻等其他類型電影通常不會選擇賀歲檔上映,造成上映電影類型較為單一,因此上映電影數量少。
此外,本文也統計了各季度上映電影的票房總和,結果如圖2所示。在2015年至2017年的三年間,每季度的票房總收入起伏較大,這說明在一年的不同時間段,人們的消費水平和娛樂需求有著較大波動。此外,每年第三季度的票房在全年均處于較高水平,這說明在每年7月至9月的暑期檔,人們的娛樂需求和消費水平均較高。相反,每年第一季度上映的電影數量較少,而票房也較低。通過數據分析可知,票房走勢與上映電影數量的趨勢大致相符。
2.1類型分析
不同電影類型有著不同的目標觀影群體,而不同觀影群體的消費能力也不盡相同。本文統計了2015年至2017年間,不同類型的電影在各個季度取得的票房,結果如圖3所示,動作和喜劇類型的電影取得的票房遠高于其它類型的電影,2017年尤為明顯。相反,藝術片、紀錄片、災難和驚悚類型的電影票房則處于低水平。而動畫、奇幻和愛情類型的電影票房則處于中等水平。這說明,動作、喜劇等適合各年齡段的電影越來越受到人們的青睞,特別是動作類型的商業大片,由于具有強大沖擊力,使得視覺效果較好,深受人們的喜愛。
2.2制式分析
本文統計了2015至2017年間,不同制式的電影在每個季度取得的票房,結果如圖4所示,IMAX電影總體上比 2D、3D電影取得的票房更高。這是因為IMAX電影票價高于 2D和3D電影,而隨著經濟水平的日益提高,人們為了獲得極佳的觀影效果而更愿意體驗高票價的IMAX電影。同時,擅長制作IMAX電影的公司基本都是大型電影公司,使用IMAX技術的電影也都是高投入、高質量的影片,因此票房也較高。
3通過數據挖掘技術分析電影票房
3.1聚類分析
為了更深入地分析電影票房,本文使用了K-means聚類算法對2015年至2017年在中國上映的電影進行了聚類。K-means算法的原理如下:首先,隨機選取K個對象{C1,C2,…,Ck}作為初始化的中心點;然后,計算剩余的對象與這K個聚類中心點之間的距離,把每個對象分配給距離它最近的聚類中心Ck;之后,根據聚類好的對象集合重新計算出K個集合的新中心點;最后,重復分配和劃分新中心點的步驟,直到(1)低于閾值數量的對象被重新分配給不同的聚類,或(2)于閾值數量的聚類中心不再發生變化,或(3)誤差平方和局部最小。
本文采用第2章所述的數據元素,使用IBM SPSS Modeler數據分析軟件進行K-means聚類。通過模型訓練和優化分析,最終選取了K=3的聚類模型將電影數據分成三類(平均輪廓為0.3):第一類(58.6%)為由普通的中國制片公司在普通檔期發行的2D愛情電影,同時主演影響力較低,導演影響力較高,同期競爭力較低,這類電影的電影票房也較低;第二類(25.1%)為由中國十大電影制片公司在普通檔期發行的歐美2D動作電影,主演影響力較高,導演影響力很高,同期競爭力較低,這類電影的票房較高;第三類(16.3%)為由普通的中國制片公司在暑期檔發行的2D愛情電影,主演影響力較高,導演影響力較高,同期競爭力較高,取得的電影票房一般。
3.2關聯規則分析
為了分析影響電影票房的各因素間的關聯規則,本文使用了Apriori算法。關聯規則是形如X→Y的蘊涵式,其中,X為關聯規則的前項,Y為關聯規則的后項。衡量一個關聯規則優劣的指標是支持度和置信度,支持度指所有事務中同時包含X、Y事務的百分比,置信度指包含X的事務中,也包含Y的百分比。
本文對電影票房數據進行了關聯規則分析,結果表明:
(1)若某電影主演影響力低,上映時間為普通檔期,發行國家地區為中國大陸,制式為2D,則該電影票房大概率為非常低(支持度22.474%,置信度9316%)。原因可能是主演知名度低,票房號召力較弱,而在普通檔期上映的電影在宣傳上不占優勢,人們在普通檔期的消費需求較弱,且2D電影票價較低,造成票房較低。
(2)若某電影主演影響力低,導演影響力低,發行國家地區為中國大陸,則該電影票房大概率會較低(支持度29.941%,置信度92.91%)。原因可能是導演技術平平,主演演技一般,導致產出的電影質量不高,造成低票房。
4總結與展望
對電影票房的數據分析可以從一定程度減少電影投資的風險,并對電影各階段的宣發策略有著指導性意義。本文基于2015年至2017年三年間在中國上映的電影票房數據,通過統計分析,發現電影票房與上映數量的相似趨勢,并分析了不同季度類型和制式與電影票房的關系。此外,本文通過聚類分析,將電影分為三類,并分析得出不同級別票房的電影所具有的特征。最后,本文對影響電影票房的因素做了關聯規則分析,結果再次驗證了主演影響力、上映時間、導演影響力等對于電影票房的影響顯著。
然而,本文分析的數據還僅限于在中國上映的電影數據,在今后的工作中,筆者擬抓取國外所上映的電影數據,聚焦于分析國內外電影票房,并探索電影票房預測模型。
參考文獻
[1]王煉,賈建民.基于網絡搜索的票房預測模型——來自中國電影市場的證據[J].系統工程理論與實踐,2014,34(12):30793090.
[2]王艷,金天星.市場營銷與風險評估:雙重視角下的電影票房預測[J].中國電影市場,2012,(3):1112.
[3]胡小莉,李波,吳正鵬.電影票房的影響因素分析[J].中國傳媒大學學報(自然科學版),2013,(01):42+6570.
[4]吳發翔,江西財經大學軟件與通信工程學院,吳發翔,等.一種基于C5.0決策樹算法的票房預測研究[J].科技廣場,2016,(4):186192.
[5]劉華婷,郭仁祥,姜浩.關聯規則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009,26(1):146149.