程 純
(安徽大學經濟學院,安徽合肥 230601)
近年來,華語電影市場越發呈現出百花齊放的盛態。得益于各種觀影渠道的興盛和視頻播放技術的升級,人們在日常觀影時也有了更大的選擇空間,此時電影評分成為了大多數人選片時考慮的重要指標之一。出于各種需求,國內出現了眾多電影評分平臺,例如豆瓣、貓眼、時光網等。其中豆瓣作為起步最早、用戶粘性最大的平臺,其電影評分一度成為大家評價電影質量的標桿。豆瓣評分機制將用戶總體評分除以評分人數,得到樣本評分均值作為總體均值的估計量,具有較好的統計性質。因此有理由認為豆瓣電影評分反映了電影品質的真實情況,這也是本文選擇豆瓣電影評分的基礎。
學術界對于電影相關預測的研究主要集中在電影票房預測、觀影人數預測、評分預測等。其中大多數研究集中在電影票房預測,其開始時間早,因此取得了很多不錯的研究成果。目前針對電影評分的研究較少,但已經有部分研究者將票房預測的研究方法應用于評分預測中。Matthew Rodrigue(2010)對比了邏輯回歸模型和多項式模型在26個變量上的選擇效果,實驗結果表明前者的預測準確性更高。Karl Persson(2015)收集了IMDb網站上好萊塢電影的屬性特征信息,包括電影類型、預算、制片人和導演、明星影響力等特征,隨后使用隨機森林回歸模型和支持向量回歸機模型對特征信息進行建模,得到電影評分的預測模型,結果表明前者的性能優于后者。
周文樂等(2015)綜合了時間和用戶評分特征,提出了一種基于對分網絡的評分預測模型;文中考慮到了用戶相似性,利用譜聚類方法得到不同的用戶興趣組,最后利用鄰居用戶的評分信息對未知項目做出預測,其原理類似現在常用的推薦系統方法。劉明昌(2017)使用的混合預測模型在電影特征信息指標之外,添加了豆瓣電影用戶評分和相似電影推薦這兩項影響因素,結果表明改進后的模型在預測精度上有了較大幅度的提高。陸君之(2018)從導演、編劇、主演、電影類型、國家地區五個維度來構建電影的特征向量,對比了隨機森林、DT算法及GBDT算法等算法模型的誤差,結果表明隨機森林模型的預測性能明顯優于其他模型。周如彪等(2019)以豆瓣Top250影片為研究對象,通過建立多元線性回歸模型驗證得出:編劇評分對電影評分影響最顯著。
綜合以上文獻可以發現,研究者在電影評分預測方面的創新點主要分為變量選取的創新和算法模型的改進,但是在明確哪些變量對評分影響更為重要時常常表意不清。而本文的創新點主要表現在三個方面:一是變量選取:除大眾廣泛認可的導演、演員、編劇、類型等影響電影評分的因素外,還考慮了大眾關注度、電影語言特征、電影時長等因素。二是使用了特征工程方法對定性變量重新賦值,使之前雜亂的文本特征轉化為可度量的影響因素。三是通過選取不同模型,輸出了各模型的變量重要性排名,綜合各模型結果得到影響電影評分的最主要因素。
目前電影評分機制的研究方法主要分為以下三類:
(1)基于用戶評分。即通過分析用戶的評分信息,得到其觀影偏好和評分習慣,進而對新電影評分做預測。
(2)基于電影特征。收集影響電影評分的相關特征,選擇合適的預測模型。
(3)基于相似電影推薦。電影推薦系統的常用方法,通過計算目標電影與其他電影的相似度,進而得到預測評分。
本文采用第二種方法,首先需找出影響評分的電影特征。目前學界對于影響電影評分因素的研究較少,參考電影票房預測的研究結論并結合日常經驗,本文將影響因素分為以下四類,即:演職人員特征、出品方特征、電影自身特征和大眾關注度特征,具體分析見表2。

表2 電影評分影響因素
通過爬蟲獲得截至2019年3月的豆瓣華語電影數據,共14個變量,13960條記錄。簡單瀏覽華語電影數據集后發現評論人數較少的影片有較多的字段缺失,并且其主創團隊沒有其他的作品;這使得在下一步中對變量賦值時無法計算或計算不正確,因此本次試驗僅選擇影評數量超過300的影片。對華語電影數據集進行數據選擇和數據整理后,總計有552部影片作為最終的建模數據。
結合2.1節的分析選擇相應變量,使用特征工程方法對變量進行處理。
觀察建模數據集可以發現,表1中的特征預處理方式在本次試驗中都有所涉及。其中,電影類型、導演、編劇和主演字段全部以文本形式呈現,此類定性特征不能直接使用,需要將定性特征轉換為定量特征。通過生成新的衍生變量,將文本數據轉化為數值型數據,以便更好地建立模型。
查閱資料后發現,對導演、編劇和主演進行賦值較為困難,常用的賦分方法有兩種:一是根據其獲獎情況進行統計,二是基于其之前執導或者參與的影片評分來統計。在本文中,由于涉及演職人員較多,且近年來對于電影從業人員設立的獎項愈發繁多,筆者也無法明確辨別哪些屬于含金量較高的獎項。基于以上考量,本次實驗選擇“電影評分”作為導演、編劇、主演相關影響力的衡量指標。
各變量解釋和具體賦值過程如下:
(1)導演執導水平
以某導演執導電影所獲得的評分均值作為導演執導水平特征。
(2)編劇水平
對于同一位編劇,選擇由該編劇主創的所有電影劇本的電影均值為該編劇的評分。從數據集可以看出,一部電影的編劇往往不止一人,電影劇本也分為原創劇本和其他成名作品改編。良好作品的呈現靠的是群體的群策群力,因此相對于某一位編劇的重大影響力,取均值似乎更能代表實際情況。選取一部電影排行前五的編劇,計算評分均值。
(3)演員表現力
選用演員參與拍攝的所有電影作品計算該演員評分。

S表示第 i 位主演的評分均值;
ω表示第 i 位主演在此部電影的權重。
考慮到一部影片的參演人數較多,有時可多達十幾位。一來排名靠后的演員對電影的最終評分影響甚微;二來給計算帶來極大的難度。綜合考慮下,本文結合電影宣發時對主演排名的先后,權重設置如表3所示,若參演人數多于 5 位,則從第6位開始不考慮其對電影的影響。

表3 演員權重表
由于導演、編劇、演員三個特征的賦值過程較為相似,我們分別選出10位展示經均值計算處理后的結果,如表4所示。

表4 導演、編劇、演員個人評分表(部分)
從表4中可以看到,各演職人員的個人評分總體上符合大眾認知。其中參演電影次數較多的個人,其評分當然更加準確。如果參與電影數太少,例如《流浪地球》的主演屈楚蕭,他只參演過一部影片,那流浪地球的豆瓣評分就是該演員的個人評分,這可能對接下來的建模造成不良影響。
(4)是否為聯合發行
引入啞變量,制片國家/地區為兩個及以上時,為變量賦值為1。單個地區賦值為0。
(5)發行年份
結合之前的分析,年份較早的電影容易獲得高評分;同時隨著電影技術和經濟水平的不斷發展,大眾審美變化越來越快。根據電影發行年份大致分布情況,將電影發行年份劃分以五個階段:1990年之前,1990至1999,2000至2009,2010至2014及2015年之后。類別編號為1-5。
(6)影片類型
通過爬取豆瓣Top250的影片數據,對受大眾歡迎的電影類型進行可視化分析,從圖1可以清楚看到劇情片遙遙領先。類型前五分別是:劇情、愛情、喜劇、犯罪和冒險。可見人們在觀影選擇方面,一則偏好具有強烈的戲劇沖突、令人腎上腺素飆升的犯罪和冒險片;其次是喜愛給人帶來歡樂、促使多巴胺分泌的喜劇和愛情片。根據圖1表示的觀眾偏好給各類型電影打分,如表5所示。

圖1 豆瓣Top250電影類型

表5 影片類型對應得分
(7)電影時長
根據日常經驗分析可知,合適的電影時長可以改善人們的觀影體驗,時長太長或太短似乎都不太受大家喜愛。將電影時長劃分為如下區間: 0-90,90-120,120-150和150以上,單位為分鐘;所對的類別編號為1-4。
(8)電影語言
華語電影整體以普通話和粵語為主,但也有部分地方方言。方言能夠帶來不一樣的影片效果。從數據集上可以看到該變量多為“普通話/粵語/北京話”形式,為定性變量。對含有方言的電影賦值為1;為粵語/普通話的影片賦值為0。

表6 電影評分影響因素
結合2.1和2.3節對引入回歸模型的變量進行選擇和命名,對分類變量進行因子型轉化,使其在引入回歸模型時會自動轉化為虛擬變量形式。
回歸分析是預測模型的最常用方法之一,其主要目的是確定因變量與自變量之間相互依賴的定量關系,基于變量特征選擇合適的回歸模型。

表7 連續變量相關系數表及其顯著性檢驗
在建立模型之前需探究因變量與自變量的相關關系,連續型變量和分類型變量相關性有不同的分析方法。首先計算本次試驗中連續型變量的相關系數。由于Pearson線性相關系數要求連續變量的取值服從正態分布,本實驗不符合該要求,故選擇Spearman秩相關系數。輸出相關系數矩陣及其對應的相關系數顯著性檢驗表,如表7所示。
從表7可以看出,華語電影評分與演員、編劇和主演相關性較強,同時這三個變量間也存在較強的相關性,這里考慮到特征工程賦值的原因。從相關系數顯著性檢驗結果來看(原假設為變量間不相關,即相關系數為0)。第一列p值皆小于0.01。因此拒絕原假設,有理由認為因變量與所選自變量之間具有相關性。
對于分類變量,本試驗數據不服從正態總體假設,且各類別數據獨立。對于二分類和多分類變量分別使用Wilconxon秩和檢驗和Kruskal-Wallis檢驗,判斷電影評分在各類別組間是否存在差異,輸出結果如表8所示。

表8 組間差異非參數檢驗
可以看出除了publisher(是否為聯合發行)變量不能拒絕電影評分在各類別表現相同的原假設外(p>0.05),其他分類變量皆可拒絕原假設,即認為電影評分均值在語言、發行年份、電影時長變量的各類別間存在顯著差異。
從以上的相關分析中猜測預測變量間存在多重共線性,即使用的多個預測變量之間存在線性相關關系,此時多元線性回歸模型已不再適用,因為其重要假定之一就是回歸模型的解釋變量之間不存在線性關系。


表9 自變量VIF檢驗結果
對多重共線性的處理方法包括:刪除次要變量、改變變量形式、選擇其他回歸方法等。在本次試驗中,存在強多重共線性的三個變量是導演、編劇和演員,這是模型中的重要因素,不可直接刪除。結合相關性分析結果,刪除變量short(短評數量)和publisher(是否為聯合發行),將剩余的9個變量作為最終的預測變量建立回歸模型(處理為虛擬變量后為14個變量)。
一般來說,構建的模型由線性函數組成的回歸問題就可以稱之為線性回歸,即認為輸出值是輸入變量的線性組合。首次從回歸分析中最基礎、最簡單的多元線性回歸模型入手,其優點包括:易于建模、形式簡單、可將因子型變量直接納入模型并具有較好的解釋性。對于多重共線性問題,輕度多重共線性對參數估計的影響較為有限,故而可以嘗試使用多元線性回歸建模。除多元線性模型之外,筆者還希望尋找既可以處理多重共線性問題,又能夠對變量進行篩選、給出變量重要性排序的模型;基于以上分析,本文將使用多元線性回歸、LASSO回歸和隨機森林回歸三種方法進行建模。
3.2.1 多元線性回歸
多元線性回歸使用普通最小二乘法來求解模型的最小損失函數,通過最小化殘差平方和尋找最佳的模型參數。在R中完成下列操作:劃分訓練集和測試集比例為7∶3,訓練集中包含觀測386個,測試集中觀測數為166。生成多元線性模型,輸出結果如表10所示。

表10 多元回歸分析輸出結果
R中對分類變量的處理是將其定義為因子型變量,讀取時以第一類別為比較標準,引入虛擬變量。在發行年份(year)變量中,類別1為1990年之前。根據回歸系數,可得出類別2(1990至1999)的評分略高于類別1外,其后的發行年份(2000至2009,2010至2014及2015年之后)的評分總體表現為逐年走低,這也印證了本文之前的猜想:大眾評分越來越嚴格,新發行電影想要獲得高評分愈加困難。在影片時長(time)變量中,結果顯示電影時長對電影評分為負向影響,與預估的結論不一致。可能的原因包括:變量本身設置不佳、模型設定有誤等。

time1-2.08E-011.37E-01-1.5230.128552 time2-4.05E-011.54E-01-2.6330.008828**time3-4.37E-012.60E-01-1.6790.093908.language3.75E-011.04E-013.6160.00034***comment2.23E-063.78E-075.9087.84E-09***long -5.01E-053.11E-05-1.6090.108518變量顯著性標記(對應不同顯著性水平):0‘***’ 0.001‘**’ 0.01‘*’0.05‘.’0.1‘ ’ 1模型判定系數R2:0.7663, 調整的R2: 0.7575
從多元線性回歸結果來看,模型可以為研究者反映一些信息。但本文目的為篩選出對電影評分預測最有效的指標;由于變量的量綱存在差異,此模型的回歸系數沒有參考意義,因而選用相對權重來衡量變量相對重要性,如表11所示。
3.2.2 LASSO回歸
使用程序包glmnet,glmnet包在計算λ值之前首先對輸入進行標準化,然后輸出非標準化系數。指定響應變量的分布為gaussian,因為它是連續的;指定alpha = 1,表示進行LASSO回歸。使用K折交叉檢驗找到最優的λ,將λ=0.138代入預測,同時輸出LASSO回歸對應的變量系數,見表11。

圖2 LASSO回歸系數收縮圖
圖2展示了LASSO回歸的作用過程,同時反映出變量的重要性排序。其橫軸表示壓縮的懲罰系數(λ值取對數),縱軸表示變量系數的變化,每條線代表一個特征。LASSO回歸可以通過觀察曲線到達0的前后順序,決定選擇哪些特征進入模型。圖2中,最先舍去的變量是9/13/14(year4、comment、long);隨 后 是10/8/4/11/12(time1、year4、type、time2、time3),其 次 是6/5/7(year1、language、year2),最后是3/1/2(starring、director、writer)。
3.2.3 隨機森林回歸
隨機森林算法對于特征之間相關性不敏感,同時可以處理多種類型的變量。這就表明在對電影評分進行預測時,隨機森林回歸有較好的表現。使用randomForest( )函數構建隨機森林模型,同時查看變量重要性。本文選IncMSE為度量標準,等價于均方誤差;輸出結果如表11所示。

表11 變量重要性和模型預測性能比較
基于3.2節的分析,分別列出多元線性回歸、LASSO回歸、隨機森林回歸對變量顯著性的度量指標,分別是:相對權重、變量系數和變量重要性(IncMSE);根據輸出結果,按照變量的重要性程度,為變量排序。同時對比以上三種模型在測試集上的均方誤差MSE和決定系數Rscore,其分別描述了模型的預測精度和擬合優度,結果表明隨機森林回歸作為非參模型,較參數模型具有更好的泛化性能。
在表11中,“.”代表該變量對應的系數為0,即LASSO回歸模型未選擇該變量。綜合三種模型的排序結果,編劇水平、導演執導水平和演員表現力是電影評分的最主要影響因素;并且相對于導演執導水平和演員影響力,編劇水平對電影評分影響更大。這就說明了對于一部好的電影,大家更加關注電影整體情節是否精彩。
模型結果還表明:大眾關注度高和電影中含有方言對評分影響是正向的,但其對最終評分的影響較為有限。此外,是否為聯合發行、電影時長變量對電影評分的影響不大。
最后需要探討的是“電影類型”變量,從模型結果可以發現其對評分的影響似乎沒有文章開頭預想的那么大。重新查閱數據集后筆者思考出現這種情況的主要原因是:數據集中的電影類型為豆瓣官方自動生成,存在不能識別全部電影類型的可能。這就使得一部本來可以有六七種類別標簽的影片,最終只顯示其主要類型(兩種以下);而有些影片,其類型相對完整,所得的類型評分也相對較高,如此就導致了電影類型變量在模型中的作用程度估計錯誤。
本文首先利用特征工程方法為原始數據集中的定性變量賦值,從賦值結果來看,符合大眾預知。在模型變量選擇方面,盡量多地考慮到了影響電影評分的各方面因素,并選擇了合適的變量對相關特征進行衡量。最終選用的三個模型中,隨機森林回歸模型效果最佳,建議研究者選用。
最終結論表明:對電影評分進行預測時,首先應考慮編劇水平、導演執導水平和演員表現力;并且應賦予編劇水平較大的比重。建議未來的電影市場多多發現和創造優秀的電影劇本,培養和鼓勵更多優秀的編劇人才。對于電影創作團隊而言,在電影拍攝中更加注重如何講好電影故事,而非在名導光環、參演明星上下過多功夫,這點在流量明星評分不敵優秀演員上已得到驗證。
其次還需考慮電影的大眾關注度特征、語言特征和發行年份,大眾關注度高及電影中含有方言等其他元素對電影評分影響是正向的。對于新上映和未上映影片,可將“想看人數”作為大眾關注度的衡量指標。相應的,電影制片方和發行方在注重電影宣傳的同時,還需在影片細節、語言新意、多種元素引入等方面下功夫。現今,大眾審美水平不斷提升、觀影口味愈發苛刻已經是既定趨勢,這就要求電影工作者與時俱進,以更嚴格的標準去創作和審視一部作品。