董永聰 施一梁


摘 ?要:該文基于隨機性原則抽取了1 205個中國大陸電影市場2014年至2019年的電影數據作為樣本,使用離散選擇模型對票房進行預測。最終得到:IP、電影質量得分、票價、演員得分、3D放映技術、地區、電影種類、檔期、電影時長對票房的影響顯著。通過模型的穩健性檢驗和預測效果兩方面證明模型的估計結果是可靠,精確的。根據實證結果,文章為電影制片方面提供一些可行性建議。
關鍵詞:電影票房預測;離散選擇模型;電影質量得分
中圖分類號:TP391.3;J943 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)23-0137-04
Research on Box Office Forecast Based on Discrete Choice Model
DONG Yongcong,SHI Yiliang
(Zhejiang A & F University,Hangzhou ?311300,China)
Abstract:Based on the principle of randomness,the paper selects 1 205 Chinese mainland movie market data from 2014 to 2019 as samples,and uses discrete choice model to predict box office. The final results are as follows:IP,movie quality score,ticket price,actor score,3D projection technology,region,movie type,schedule and movie duration have a significant impact on box office. It is proved that the estimation result of the model is reliable and accurate through two aspects of the models robustness test and the prediction effect. According to the empirical results,this paper provides some feasible suggestions for film production.
Keywords:movie box office forecast;discrete choice model;movie quality score
0 ?引 ?言
近年來,隨著收入水平的提高,人民生活娛樂需求不斷增加,促使國內電影市場繁榮發展。我國電影市場具有規模大,發展快,增長穩的特點,在推動我國經濟發展的過程中展現出蓬勃的動力。票房是衡量電影商業價值的重要指標之一,它是指一部電影的影院放映收益情況。電影票房收入既是制片方最主要的收入來源,也從經濟學角度上反映了大眾對電影的認可程度——一部電影的票房越高,說明有更多人愿意為這部電影票買單。因此在電影市場生產者和消費者雙方決策過程中,票房都起著至關重要的作用。
我國電影票房分布呈正偏態,總體上符合“二八定律”,即20%的電影占據了80%的票房市場[1]。一些電影產生的票房是令人驚異的。2017年的《戰狼2》總票房達到56.39億。而排名第二的《速度與激情8》票房未及其一半,與之同年上映的電影僅有15部票房超過10.00億(數據來自貓眼專業版)。事實上在電影市場中,絕大多數的電影票房難以突破1億大關。故本文對影響電影票房的因素進行研究具有直接的現實意義。
自20世紀80年代以來,票房預測方面的研究有許多,如Litman票房預測模型[2],Sochay票房預測模型[3]。學術界普遍采用普通最小二乘法(OLS),使用多元線性回歸模型對票房進行擬合回歸,分析票房的影響因素。但使用離散選擇模型的研究較少。離散選擇模型能有效解決數據中的極端值對回歸時的影響。由于票房分布為有偏分布,使用離散選擇模型是合理的。
1 ?實證研究
1.1 ?變量設置
本文將電影的一些基本特征設為票房的解釋變量,下文對各變量進行分析、描述。
1.1.1 ?電影質量得分
電影本身的根本屬性是商品[4]。作為商品,電影質量的高低決定電影票房,即“價值決定價格”。縱觀影史,票房轟動一時的電影絕大多數是質量絕佳,廣受人稱贊的。然而電影質量具體表現為人們主觀的觀影感受。所謂“一千個讀者就有一千個哈姆雷特”,每個人的觀影感受都不盡相同。為相對客觀的得出電影質量得分,使用專業電影評分網站的評分進行計算。
本文假定專業電影評分網站常出現“水軍控評”現象并不影響評分結果。在專業電影評分網站為電影打分的人足夠多,以豆瓣為例,熱門電影的評分人數常在百萬級左右。根據大數定理,電影得分最終會趨于一個穩定的值,這個值就是所需要的相對客觀的電影質量得分。
本文選取兩個較為權威的、評分人數足夠多的電影評分網站:貓眼專業版和IMDb。將兩個網站的電影評分的算術平均數作為電影質量得分,該得分為十分制。得分越高,表示電影質量越高。
1.1.2 ?導演和演員得分
知名導演和演員往往意味著更強大的粉絲基礎,更雄厚的資金投入,更可靠的電影質量保障,這些都對高票房電影的產生有正向促進作用。受“馬太效應”影響,一部電影的觀影人數越多,更多人就越容易去觀看這部電影[5]。故總體來看,觀眾流量向導演和演員陣容強大的電影傾斜。導演和演員出名能為電影票房起飛帶來較高的起點。
根據電影界的七個較出名的獎項(分別為奧斯卡獎、金棕櫚獎、金熊獎、歐洲電影獎金雞獎、金馬獎、金像獎)的提名和獲獎次數,設置導演得分。
根據截至2020年12月9日的微博粉絲數,將前三位主演的粉絲總數作為演員得分,單位為百萬,不足百萬的記為0。
在實際搜索中,一些演員(主要為臺灣、香港和國外演員)未注冊微博賬號,導致缺失值的出現。本文根據演員作品和主觀認識計算出近似數據作為粉絲數來彌補缺失值。
1.1.3 ?檔期
在國內,電影放映集中在四個檔期,分別為賀歲檔、五一檔、暑期檔、國慶檔。劃分檔期的主要原因是電影消費者的消費集中在節假日。節假日人們的娛樂需求提高,觀影意愿普遍更強。然而集中放映帶來需求量的提高的同時也會導致同期競爭更加激烈。故電影放映的檔期選擇與票房之間可能具有較強的相關性。本文將檔期分為五種,即五一檔:5月1日至5月8日;國慶檔:10月1日至10月7日;暑假檔:6月1日至9月1日;賀歲檔:1月1日至各年農歷正月十五;其他。
1.1.4 ?電影種類
近年來,我國電影創作的類型化意識越來越強[6]。電影種類繁多,由于消費者的偏好不同,不同類型的電影票房也存在差異。本文根據業界標準將電影分為15種:愛情片、動作片、驚悚片、懸疑片、喜劇片、動畫片、戰爭片、劇情片、災難片、科幻片、奇幻片、冒險片、武俠片、紀錄片、歷史片。根據這14個電影種類分別設置了15個虛擬的0-1變量,值為1表示是,值為0表示否。
1.1.5 ?票價
理論上,票價在電影市場中對觀影人數的影響總體上滿足市場均衡理論,即票價越高,觀影人數越少。2013年,王崢得到的結論是票價與票房正相關,且在1%水平下顯著[1]。但近年來隨著人民生活水平提高,對于大多數人來說,看電影已經不是一種奢侈消費,而是一種尋常的休閑娛樂方式。當人們有觀影需求時,對價格的敏感性大大降低,電影價格彈性較低。
本文選取電影的平均票價作為票價變量的取值。由于2014年至2019年貨幣實際購買力不同,需要使用居民消費價格指數(CPI)對變量取值進行調整。CPI計算公式為:
將2014年1月設為基期,電影的平均票價除以基期至電影上映當月的定基比,最終得到較為準確的票價變量取值。
1.1.6 ?IP
IP,即“知識產權”。諸如漫威的漫威宇宙、DC的DC宇宙、哆啦A夢系列,都是出名的影視IP。近年來,IP熱潮迅速興起,貓眼數據顯示,IP類電影中動畫、漫畫、電影翻拍比重上升,“貓眼想看”觀眾購票指數遠超非IP類電影。有研究表示,IP熱的根本原因在于,IP對核心用戶的聚集能力強以及核心用戶群對其他人群的發散影響能力強[7]。受“品牌效應”影響,對于一些IP電影,觀眾往往對影片表現出更多的消費意向,對影片質量表現出更強的包容性。
本文將IP設為0-1變量,值為1表示影片是IP類電影,值為0表示影片不是IP類電影。
1.1.7 ?電影時長
電影時長是一把雙刃劍。電影時長過長往往使人感覺電影的敘事節奏拖沓。而電影時長過短也不利于完整的講述電影內容。這些都直接影響觀眾的觀影體驗及影片口碑,反映在電影票房的數字上。故研究票房與電影市場之間的關系是有意義的。
1.1.8 ?3D放映技術
3D放映技術在影院的廣泛使用,極大地提高了觀眾的觀影體驗。相較于傳統2D放映,3D放映技術給觀眾帶來的是更深層的沉浸式體驗——更真實的畫面,更震撼的特效,更強的代入感。而觀眾能否獲得滿意的觀影體驗直接影響到影片票房的高低。故研究票房與影片是否采用了3D放映技術之間的關系有意義。
本文將3D設為0-1變量,值為1表示使用3D放映技術,值為0表示未使用3D放映技術。
1.1.9 ?地區
受不同國家文化影響,電影創作在風格、質量等方面均會有明顯差異。這些差異都會反應在票房數據上。國產片可能更加符合中國人的審美標準,票房會更高。
將地區變量根據是否為中國大陸,設置為0-1變量,值為1表示是中國大陸,值為0表示不是中國大陸。
1.2 ?分析流程
使用Stata 16對數據建模進行回歸分析。由于電影票房的解釋變量并不滿足線性假設,且電影票房數據中存在許多極端值,容易影響模型的估計結果,故本文不使用傳統的多元線性回歸模型,而是使用Probit模型作為基準回歸模型進行實證分析。為解決使用Probit模型導致的原數據信息利用不充分的問題,本文還使用到了Oprobit模型。通過對比Oprobit模型與Probit模型回歸結果,進行穩健性檢驗,并使用模型進行預測。
1.3 ?數據描述
本文爬取貓眼專業版中國大陸電影市場2014年至2019年的影片信息,對數據進行清洗,刪除冗余項,補充缺失值,并根據隨機性原則,最終抽取了1 205個樣本。該樣本數據具有時效性,對當下中國大陸電影市場具有實際意義,數據描述表如表1所示。
根據表1中的電影數據分布特征,得到一些初步結論:(1)電影票房方差極大,說明不同電影之間票房差異顯著。(2)IP類電影占比達到了23%,說明IP類電影占比不小。(3)電影評分均值為6.91,且方差較小,說明電影評分相對穩定。(4)電影平均票價為31.92元,且方差較小,說明電影票價相對穩定。(5)采用3D放映技術電影僅占比30%,說明3D放映技術在電影制作中使用不夠廣泛。(6)58%的電影不選擇在五一、國慶、暑假、賀歲這四個熱門檔期上線。說明大多數電影選擇不參與競爭。可能是因為這四個熱門檔期競爭激烈。(7)動作、喜劇、劇情為電影種類的票房前三甲。戰爭、災難、武俠、記錄、歷史占比低。
1.4 ?模型介紹
本文使用的離散選擇模型為Probit模型和Oprobit模型。
電影票房預測的Probit模型使用公式為:
電影票房預測的Oprobit模型使用公式為:
其中,βi為各估計系數,Xi為各解釋變量,復合函數Φ(x)為標準正態分布的分布函數。
probit_bo為Probit模型的被解釋變量。本文分別取分界值為10 000萬元、20 000萬元和60 000萬元建立3個Probit模型。根據給定的分界值設置probit_bo的值,將票房大于分界值的設為1,小于分界值的設為0。
oprobit_bo為Oprobit模型的被解釋變量,取10 000萬元、60 000萬元作為分界值。根據分界值設置oprobit_bo的值,票房小于10 000萬元的設為1,為低票房電影,票房在10 000萬元至60 000萬元之間的設為2,為中票房電影,票房大于60 000萬元的設為3,為高票房電影。
由于引入的電影類型、檔期兩個虛擬變量具有完全的多重共線性,為避免陷入“虛擬變量陷阱”,選擇style1和schedule1作為電影類型和檔期的基準組。
1.5 ?實證結果
注:表中數據為變量估計系數和對應的標準差,*表示在10%水平下顯著,**表示在5%水平下顯著,***表示在1%水平下顯著。下同。設置預測正確的標準:Probit和Oprobit模型將預測發生概率最高的區間作為預測的結果,預測結果與實際票房所在區間相同的視為預測成功。
根據表2得到以下結論:
IP元素對電影票房具有正向影響。電影得分、電影票價、演員粉絲數與電影票房正相關。導演對票房影響不顯著。驚悚片和喜劇片的票房最高,動畫片、武俠片的票房最低。國產片的票房比國外片更高。采用3D放映技術的電影票房更高。電影時長越長,票房越高。賀歲檔的票房最高,國慶檔的票房最低。
Probit模型的預測正確率最高,均在80%以上。說明使用Probit模型進行票房預測是合理的。Oprobit模型正確率其次,但由于Oprobit預測區間劃分的更多,故預測結果相較于Probit模型更加精準。
1.6 ?穩健性檢驗
對基準回歸模型——Probit模型進行穩健性檢驗,本文的思路是更改電影質量得分數據。使用貓眼得分和IMDb得分代替原數據進行回歸。更改數據后的模型結果估計系數符號及顯著性與原基準模型的估計結果無明顯差異,進一步證實了Probit模型的估計結果是穩健的。
2 ?結 ?論
本文使用的幾種票房預測模型適用于目前中國大陸的電影市場,具有時效性和直接的現實意義。由于電影票房分布的二八定律,最終能在同期競爭市場中脫穎而出的影片屈指可數。而影片制作又具有周期長,成本高的特點,故在電影制作過程中制片方常面臨著“收不回本”的挑戰,承擔的風險極大。為了保證電影收益,電影制片方常處于理想與現實的取舍困境。這不利于形成電影創作百家齊放、百家爭鳴的局面。而使用本文的票房預測模型,能為投資方與制片方的決策提供參考依據,起到降低風險的作用。
參考文獻:
[1] 王錚,許敏.電影票房的影響因素分析——基于Logit模型的研究 [J].經濟問題探索,2013(11):96-102.
[2] LITMAN B R. Predicting Success of Theatrical Movies:An Empirical Study[J].The Journal of Popular Culture,1983,16(4):159–175.
[3] SOCHAY S. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.
[4] 鐘淯媛.電影消費需求經濟分析 [J].中國報業,2020(14):44-45.
[5] 王曉通.大數據背景下電影智能推送的“算法”實現及其潛在問題 [J].當代電影,2019(5):64-70.
[6] 劉藩.中國電影的現狀和問題 [J].北京電影學院學報,2014(1):2-11.
[7] 程武,李清.IP熱潮的背后與泛娛樂思維下的未來電影 [J].當代電影,2015(9):17-22.
作者簡介:董永聰(2001—),男,漢族,浙江臺州人,本科在讀,研究方向:應用統計;通訊作者:施一梁(1982—),男,漢族,浙江杭州人,就職于藝術學院,專任教師,導演,碩士,研究方向:紀錄片拍攝。