周如彪 林曉霞 王昱華


摘 要:豆瓣作為目前國內最大的電影評論網絡社區,其豆瓣TOP250的電影被很多電影從業人員和觀眾視為楷模與標桿。這些基于觀眾評分體系誕生的TOP250的影片中是否蘊含著一定的規律和特征呢?運用數據挖掘的方式能從豆瓣電影評分的諸多要素中找到什么規律?本文將以豆瓣TOP250的電影為研究對象,運用多元回歸分析等手段,對影響豆瓣電影評分的各個要素進行剝離,觀察其影響力同時試圖從這250部電影中找到特征與規律,希望能解釋和預測今天某些電影的豆瓣評分。
關鍵詞:豆瓣TOP250;數據特征挖掘;多元回歸分析
1 文獻綜述
1.1 豆瓣數據挖掘相關的探討
目前我國國內有關于豆瓣數據挖掘的文章大致分為兩種類型,第一種重在分析豆瓣用戶,通過調查問卷的形式,重點研究了豆瓣用戶的接受電影營銷的效果問題,其可概括為豆瓣評分系統是豆瓣用戶對于電影觀感較為直接的體現,同時也是觀眾收集信息的來源。第二種分析則是傾向于具體電影上應用文本與數據分析的工具分析研究,這類分析方法,是找到每條評論的情感得分。
本文出發的角度是將豆瓣TOP250的250部電影的評分作為數據訓練集,通過爬蟲工具收集了這250部電影的“類型”“故事梗概”“導演”“編劇”“主演”“制片國家地區”“上映時間”“片長”“評價人數”等九大要素并且轉化為相應指標,引入了20世紀80年代美國的巴里·李特曼(Barry Litman)的李特曼電影預測模型中多元回歸分析的思想,嘗試通過多元回歸分析找到電影評分和“類型”“故事梗概”“導演”“編劇”“主演”“上映時間”“片長”“評價人數”等指標間的線性關系。
1.2 多元回歸的適用性探討
線性回歸模型確實具有廣泛的適用性。最早是20世紀80年代美國的巴里·李特曼(Barry Litman)將線性回歸分析思想引入電影票房預測分析之中,這是因為從邏輯上可以看出,電影票房確實受到諸多要素的影響,但是這些要素孰重孰輕,難以直觀的體現,所以借助回歸分析進行相關的系數確定。[1]
線性回歸模型其本質上是用一條曲線去擬合一個或多個自變量x與因變量y之間關系的模型,若曲線是一條直線或超平面(成直線時是一元線性回歸,成超平面時是多元線性回歸)時是線性回歸,否則是非線性回歸。本文采取線性回歸的分析方法是因為它能夠幫助我們更好地剝離豆瓣評分各個要素的比重,從而清晰地展現結果。
2 數據收集、清洗與標準化
2.1 數據來源
本文所引用的數據來自豆瓣網站TOP250排名頁面(https://movie.douban.com/top250),每部影片的相關數據均來自豆瓣電影主頁(https://movie.douban.com/),并且依據豆瓣電影主頁的信息,將影響一部電影評分的要素分為“故事梗概”“評價人數”“上映時間”“時長”“類型”“導演”“編劇”“主演”。
2.2 “故事梗概”的賦值
關于故事梗概的評價,最早的先行者就是美國20世紀40年代蓋洛普率先展開的針對電影觀眾的片名測試,之后他引入了概念測試、演員陣容測試。蓋洛普早期從事著新聞與媒體方面的商業測試,之后隨著大選中他通過政治民意測試正確預測了里根當選總統而聲名鵲起,40年代好萊塢的雷電華公司請回了鼎鼎大名的蓋洛普為他們制作了電影相關的民意調查和測試。[2]
蓋洛普的概念測試用運的是社會學中社會調查的方法,他通過讓調查員走訪電話等方式調查觀眾,讓觀眾根據16字以內的故事梗概打分,通過大量的收集觀眾打分從而得出該故事梗概是否獲得觀眾歡迎。這種方法受到當時電影界人士的認可,也是早期使用數據的方法分析與預測電影票房走勢的重要方法。所以這從側面證明了,無論是當時還是如今都很難從一種相對客觀的標準,或者機械的標準去衡量一個故事梗概的得分高低,故事梗概衡量的科學性與“客觀”性在于集合了大多數人的觀點,同時保證了這個大多數人群,即被調查群體是滿足整個社會橫截面為呈現。
所以本文所研究的豆瓣評分體系中,考慮到“故事梗概”是一個很重要的指標,但是機械對其量化或者簡單的數值化又是非常不合理的。由于故事梗概其獨特性,不參與回歸分析之中。
2.3 “類型”的數據賦值
本文基于以上兩種類型賦值的方法,采用了豆瓣電影系統內部的類型分類方法,并且通過聚類分析講原本多達十幾種的電影類型大大簡化,從而得出一個基本的類型分布情況(見表1),再根據分布情況進行賦值。這樣即避免了單純的詞頻統計中忽略了類型背后含義的缺點,也被避免了同等權重賦值的與現實情況差距過大的情況,同時兼顧了電影類型作為一種人為分類的成因,類型作為一個“詞”的詞頻問題。
2.4 “導演”“編劇”“主演”賦值
本文的數據基于豆瓣電影數據挖掘產生,研究的目的也是建立豆瓣電影評分與諸要素之間的多元線性回歸關系,所以關于“導演”“編劇”“主演”的賦值評分系統選取了豆瓣最佳作品平均分這個維度,暫未將商業價值潛力、藝術影響力、社會責任、公眾形象等等要素計入。
2.5 “上映時間”“片長”“評價人數”標準化
因為這三個指標已經是數值類型,無須再次賦值,只有需要進行適當取舍即可,對于“上映時間”來講,維持了其年代的數據類型,同時也是默認了當下的年代賦值大于以前的年代賦值,也就是純數值角度2018>1978。“片長”的賦值同理,純數值角度來說片長越長則賦值越大,片長短則賦值小。評價人數也是評價人數越多賦值越高,人數越少賦值越低。
3 多元回歸分析
3.1 線性回歸方程以及檢驗
對“評價人數”“上映時間”“時長”“類型”“導演”“編劇”“主演”等指標經過賦值與標準化后為x1、x2、x3、x4、x5、x6、x7,上述變量符合多元線性回歸的基本條件,且邏輯上線性關系成立。
通過IBM spss25軟件的多元回歸分析的相關計算,豆瓣top250電影訓練集擬合出的線性方程為:Y=6.237E-007x1-0.005x2+0.001x3+-0.029x4-0.019x5+0.094x6+0.017x7
3.2 公式與系數解釋
通過以上的線性公式以及SPSS計算結果可以看過,豆瓣電影評分和豆瓣網站提供的各個信息要素線性擬合程度R2達到0.334,也就說33.4%的豆瓣評分可以被相關要素所解釋。VIF值都小于10,說明不存在多重共線性。
在各個要素之中,可以得出評論人數的多少是最無足輕重的,這可以得出豆瓣TOP250電影的高分情況和評論人數多少也沒有什么過多關系,這也符合我們的邏輯認知,即在豆瓣電影的評分取決于每個用戶的打分,而不是打分用戶的多少。
其次,上映時間的系數為-0.005,代表了越接近當下(2018年)的電影在豆瓣評分越低,越是年代久遠的電影評分越高,也從側面說明,如今電影口碑與評分的趨勢,僅僅從豆瓣評分的角度去看確實是呈現出一種下降的。
再次,時長的系數為0.001,說明了電影時長越長評分越高,越是高分的電影越是片長更長,似乎比較符合我們平時認為的“佳作偏長”的看法。
類型得分系數為-0.029可以看出,因為在賦值過程中,我們人為地將劇情片設定的賦值較高,給其余類型賦值依次較低,所以結論表明越是傾向于單一的劇情片的電影評分越低,反而擺脫了劇情片的電影則有較高的評分,也就是越豐富的類型種類越可以帶來高分評價。
在各個要素之中,理論上應該起到關鍵因素的是導演水平,其次是演員和編劇的水平,也就是他們在豆瓣受到豆瓣用戶的歡迎程度,較大程度上影響了他們的作品在豆瓣上的得分。但是從分析結論來看,“導演得分”“編劇得分”與“演員得分”的相伴概率Sig.為0.506、0與0.655。其中導演得分與演員得分相伴概率Sig.遠遠大于0.005,但編劇的相伴概率Sig.小于0.005。這個結論說明以導演與演員項指標在整體的線性方程中顯著性關系較低,其系數不具有說明性。但編劇的豆瓣評分得分越高者,越能打動影片評分。
4 結論分析
通過本次針對豆瓣top250電影評分的分析可以找到三個規律,其一是時間上越靠近今天的電影,在整體的top250高分榜單上排名越低,說明我們如今的高分電影不僅是越來越少,并且得分也是越來越低,這個現象值得引起我們電影工作者的思考。其二,時間越長的電影越能獲得高分,恰恰說明如今想要拍攝一部高分的電影,還是需要保證質量的同時適當的增加片長,不用被快餐化的風氣所影響。其三還需要進一步加強影片的類型豐富化,如今電影觀眾尤其是對于高分電影的需求是類型豐富的電影,單一類型的影片不僅票房不理想,口碑上面也無法滿足大眾。
參考文獻:
[1] 何曉雪,畢圓夢,姜繩.基于網絡數據預測電影票房的多元線性回歸方程構建[J].新媒體研究,2018?(05):41-48.
[2] 蘇·奧默爾,蘇紋.測定愿望:蓋洛普和好萊塢的觀眾研究[J].世界電影,1992(04):81-119.
[3] 毛良斌.豆瓣電影宣傳營銷效果分析——基于豆瓣用戶的調查[J].電影評介,2014(11):6-8.
[4] 馮莎.豆瓣電影評論文本的情感分析研究——基于2017年電影《乘風破浪》爬蟲數據[J].中國統計,2017(07):30-33.
[5] 劉正山,易婧.“惡評”界定及其存在性檢驗——基于2014—2016年370部電影的實證分析[J].當代電影,2017(05):4-10.
[6] 陳然.我國商業電影票房影響因素研究[D].云南財經大學,2016:68.
[7] 胡曉紅,王紅,基于多元線性回歸的電影票房預測研究[J].信息技術與信息化,2018(Z1):183-185.
作者簡介:周如彪(1993—),男,北京人,研究生,研究方向:電影評價,信息管理。
林曉霞,女,法學博士,北京電影學院管理學院副教授。
王昱華,女,藝術學博士,北京電影學院學工部部長。