謝荻帆,杜子芳
目前,中國電影線上市場中的評價標準主要有三種,可以概括為官方認可度、口碑影響力和受眾關注度。其中官方認可度指電影作品在主流獎項評選中的提名或者獲獎情況;受眾關注指電影的網絡播放量、收視率以及話題討論熱度;而口碑影響力則直接表現為大眾觀影者對于電影的評價,即電影線上評分。隨著國內外電影線上評分系統的快速發展,電影評分已成為電影消費者重要信息來源,商家可以通過挖掘評分數據分析用戶差異從而尋找更多商機,同時很多研究者都已經基于電影線上評分系統進行過相關研究[1-3],因此,研究中國電影線上評分系統具有一定理論價值和現實意義。
以豆瓣網電影評分系統為例,豆瓣網是中國一個較流行的針對電影、書籍、音樂等的社交型網站,而豆瓣電影是該網站提供的一個主要針對電影進行評論及評分的功能模塊,其中,評分共分為五個檔次,采取十分制平均加權計算方法,數據會實時自動更新。豆瓣電影的評分信息來自消費者主觀體驗,符合口碑影響力的發布主體特征;評論不限定特定人群,參與用戶分布較廣,人群異質性保證評分結果具有代表性;擁有大量活躍用戶使得建立起豐富的數據資料庫[2]。基于此,本文選取豆瓣電影網站中的電影評分信息作為樣本數據。
中國現有的電影線上評分系統主要使用加權平均法計算評分,即認為參與評價的觀影者信息可以反映全體觀影者信息,它的原理是簡單隨機抽樣中樣本信息可以反映總體信息。而實際上,雖然電影線上評分可以很好地量化觀影者對影片的評價,可以被視為消費者群體的自發反饋[2],但每個觀影者對于是否參與評價都擁有自主選擇權,線上評分系統更像是非概率抽樣。因此,本文在原有的一般方法基礎上,加入評價參與率的信息,提出一種對電影線上評分系統進行改進的方法;同時借助斷點回歸設計方法,提出分歧點和分歧效應的概念,并以此為標準對電影線上評分系統進行比較。
針對線上電影評分系統的比較標準,本文提出分歧點與分歧效應的概念。分歧,即意愿不一致而產生的對峙。一般情況下,不同的人給同一部影片評分,其結果不盡相同;同樣,一個人并非愿意參與任何一部影片的評價,由此便會產生“分歧”。
假設影片的真實評分與參與評價該影片的人數之間成正比,可以設計如上兩個情景。對于同一分數段的影片,有的參與評價人數多,有的參與評價人數少,之間存在著一個跳躍(如圖1中的情景一);對于參與評價人數一致的影片,有的評分高,有的評分低,之間存在著一個跳躍(如圖1中的情景二)。以情景一為例,對于真實評分相同的兩部電影參與評分的人數存在差異,可以用式(1)進行表示:
(1)
當τ0的絕對值足夠大時,可以認可這個跳躍的確存在,即該評分系統中存在分歧。由此,X=X0記為一個分歧點,τ0的絕對值反映該點上的分歧效應大小,表示該點上參與評價人數跳躍的程度。情景二可以用同樣的方式進行分析。

圖1 評分系統中產生分歧的兩種情景
對于任何評分系統而言,得到的評分結果都是對電影真實評分的估計值,一方面分歧點越少的評分系統意味著評分與參與評價人數接近于一一對應,評分系統中的得分不僅反映電影的口碑影響力,還在一定程度上反映該影片受眾關注度,該系統對于受眾選擇觀影影片更具有指導作用;另一方面分歧效應越小意味著相同口碑影響力的電影具有更接近的受眾關注度,實際當中分歧點個數為0的評分系統幾乎是不存在的,故分歧效應越小越好。對此,分歧點個數與分歧效應大小可以作為兩個評價評分系統優劣的標準,本文在這兩標準的基礎上對不同電影線上評分系統進行比較。

(2)
實際上,加權平均法的原理是簡單隨機抽樣下樣本信息即可反映總體信息,但對于評分系統而言,這顯然是不夠合理的,因為主動權不再是調查者,而換成了被調查者,每一個觀影者都有權利選擇是否對觀看過的影片進行評價,因此電影線上評分系統需要在原來普通方法的基礎上進行一定的調整。
在估計美國學術能力評估測驗(Scholastic Assessment Test, SAT)平均分的過程中考慮到成績越好的學生越有可能報名參加考試,因此實際的觀測結果與真實結果相比是有偏的[7]。受這樣的啟發,本文設計了加入參與率的評分方法。假設一,參與評價的人均觀看過評分影片;假設二,影片的真實評分越高,一名觀看過該影片的人參與評價的可能性越高。令一部電影的評分為Xi,電影的真實評分由兩部分組成,一部分是可以觀測到的參與評價的觀影者給出的平均評分Xi1,另一部分是觀測不到的未參與評價的觀影者的平均評分Xi0,再設評價參與率(對于第i部電影的參與評價人數占總觀看人數的比重)為pi,則電影評分可以表示如下:
Xi=Xi1·pi+Xi0·(1-pi)
(3)
根據截斷正態選擇模型[7],在電影評分基本服從正態分布,同時參與評分的都是最愿意對電影進行評價的觀影者的假設下,真實評分和觀測評分之間的關系可以表示如下:
Xi1=Xi+σi·z*(pi)
(4)
其中:σi是一個未知的電影評分分布的標準差;z*(pi)是指被上pi分位點Zpi左截尾的標準正態分布的平均值。z*(pi)的計算公式如下:
z*(pi)=φ(zpi)/pi
(5)
而σi與觀測到的評分標準差σi1之間又存在如下關系:
(6)
有些情況下,會假設不同電影評分的標準差一致,即σi=σ。
由于電影的評價參與率與電影的真實評分有關,假設真實評分較高的電影往往比較易于評價,而真實評分較低的電影,觀影者往往選擇不予評價。因此使評價參與率服從下面的這個函數形式:
r(x)=Φ((x-λ)/β); -∞ (7) 其中:Φ為標準正態分布函數;x是電影評分;λ與β是未知參數。由此可以估計出一部電影的評價參與率pi=r(Xi),并可以對觀測評分進行修正。 以上方法均是基于評分指標進行計算,但觀影者的主觀評分與影片的口碑影響力之間仍存在差距,一些研究者選擇向評分系統中添加額外的輔助變量,從而使電影評分與其真實的口碑影響力更加接近。比如標簽類網站Delicious的熱門書簽排行榜中使用過去一小時被收藏次數進行排名,以計算機科學和創業為主題的社會新聞網站Hacker News在評分系統中加入重力因子的概念從而體現出新舊交替的作用,還有基于牛頓提出的冷卻定律公式設計出的排名更新規則[8]。 美國著名互聯網電影資料庫(Internet Movie Database, IMDb)在評選前250部影片時采取排名制度法的評價方法,在觀影者的主觀評分的基礎上增加了是否是經常投票者的標簽,從而計算出一部影片的評價者中經常參與評價的人占全部參與評價人數的比重。具體計算公式如下: (8) 其中:W_Xi表示第i部影片的加權分數;vi表示經常投票者的投票數;m表示進入榜單需要的最少票數;Xi為普通方法計算出的平均分;C為目前所有電影的平均分。這種方法的好處是可以排除掉那些只有極少數投票者但評分極高的電影,同時保留投票數較少但評分較高的小眾電影,而經常投票者的投票數v可以將“刷票行為”排除在最終分數之外。具體來看,W_X是X的一個修正值,而修正幅度是由經常參與評價者占全部參與評價者比重決定。以第i部電影為例,設ui=C/Xi,修正系數Δ,有Δ=W_Xi/Xi,同時設經常參與評價者占全部參與評價者比重為αi,則vi=αi·Yi。由此式(8)可以轉化為: (9) 本文首先確定兩個評價評分系統優劣的標準,即分歧點個數與分歧效應大小;其次,在該評價標準基礎上利用統計學中斷點回歸設計(Regression Discontinuity Design, RDD)的方法對不同的電影線上評分系統進行比較。 斷點回歸的方法作為一種偽隨機實驗方法在社會學、行為學和自然科學中已得到廣泛應用,它最早由Campbell等[9]提出,后被分為清晰斷點回歸和模糊斷點回歸兩個類型[10]。一般情況下,電影評分越高其受眾關注度越高,相應的參與評價人數越多,假設存在分歧點,則將分歧點兩側評分與參與評價人數之間關系存在的跳躍視為存在分歧效應的作用,因此本文使用清晰斷點回歸的方法,電影評分X是指派變量,將不同影片“分配”到臨界值左右兩側;電影參與評價人數Y是結果變量,是重點關注的受分歧作用影響的變量。 斷點回歸的估計方法分為參數估計和非參數估計,本文使用局部多項式估計的方法。該方法具有優良的邊界性質,是斷點回歸研究中非參數估計的首選,使用R中的rdrobust程序包進行算法實現[11],采用均方誤差最優帶寬選擇方法確定τ0的一致漸近最優點估計,并給出顯著性檢驗的p值。 本文的數據均來自豆瓣網(https://www.douban.com/ doulist/),觀測期為2014—2016年,樣本容量分別為323、365和396,總計1 084部電影。以2016年的數據為例,線上評分越高的電影,平均參與評價的人數越多,該分數段參與評價人數的離散程度越高,評分與參與評價人數之間的皮爾遜相關系數為0.52,通過顯著性檢驗,由此可以推斷電影的線上評分與參與評價的人數之間存在正相關關系,且豆瓣電影網上的評分數據可用正態分布進行描述[1]。 圖2 2016年中國上映電影評分與參與評價人數比較箱線圖 為便于分析,本文只討論情景一。由于樣本數據的評分結果是根據平均加權法得到的,屬于10分制評分系統,故通過調整參數利用樣本數據計算得到另外兩種方法的評分結果,評分范圍限制在0~10,考慮到評分極高或極低的影片數量非常少,則將分歧點的尋找范圍限制在3~8。通過尋找分歧點并計算分歧效應來對三種評分系統進行比較,具體步驟如下:首先,在區間[3,8]等間隔確定1 000個點,每個點的坐標可以表示為xs=3+0.005s(s=1,2,…,1 000),以點xs為臨界值,在95%置信水平下判斷X=xs是否為間斷點,以此遍歷1 000個點,其中通過統計學檢驗的點記為分歧點;其次,將通過統計學檢驗的間斷點上的處置效應τ0求絕對值,從而得到每個分歧點上的分歧效應;最后,統計分歧點個數并將分歧效應進行求和,從而對不同的評分系統進行比較。 為了讓不同的評分系統具有可比性,以及通過評分更直觀地得到電影在全部影片中的排序位置,還可以將計算出的結果如式(10)進行離差標準化,將標準化后的評分限定在[0,10]: (10) 對評分系統中參數進行設置:參與率法中,評價參與率分布中的未知參數λ決定評價參與率為0.5的電影對應評分,故令參數λ為全部影片觀測評分的平均值,參數β決定評價參與率為100%的極端評分的范圍,β越小,評價參與率為100%的極端評分范圍越大,通過實驗本文最終設定β=1,使前10%以內的影片評價參與率接近100%;排名制度法中,在缺少經常參與評價者信息情況下需要對經常參與評價者占全部參與評價者比重αi進行估計,設αi=α=1,即該比重不會根據電影真實評分高低而產生差異,且全部參與評價的人均被認為經常參與評價,最少評價人數m用參與評價人數最少的一部影片的數據進行估計;此外,箱體窗寬h的選擇由程序包中的帶寬選擇器實現。 如圖3所示,改進后評分絕大多數超過原來的加權平均法評分,且在同方差假設下,即假設不同電影評分的標準差一致σ=E(σi),電影的評分排序不變,越靠近平均水平的電影其評分調整越多,但在異方差假設下,即假設不同電影評分的標準差不同,電影的評分排序發生變化,尤其是低分段電影,有些改進后評分低于原始評分。如圖4所示,從電影評分的標準差隨評分變化的關系中可以看出,觀影者在評價高分段和低分段電影時存在差異較小,但在評價中間分數段電影時可能存在差異較大,評分為5分左右的電影其標準差取到最大。 圖3 2016年電影改進后評分與原評分的比較 圖4 2016年電影加權評分標準差隨評分的變化情況 以分歧點個數和分歧效應大小為評價標準,比較評分系統間的差異,結果如表1所示,可以得到下面三個結論。 第一,增加輔助信息后的評分系統一定程度上可能具有更多的分歧點和更大的分歧效應,尤其是對于加權平均法的評分系統而言。本文增加的一個輔助信息為是否經常參與評價,若評價人經常參與評價,則該人的評分在計算電影分數時會被賦予更大的權重;另一個輔助信息為全部電影平均分,它使得原始評分較低或較高的電影分數會向平均分方向進行調整,這樣的評分系統改變了原有的評分與參與評價人數之間的關系。實際上,這種評分系統雖然避免了一些極端評分行為對電影分數排名的影響,卻一定程度上削弱了評分系統對于電影口碑影響力與受眾關注度之間的正相關的結構。 第二,對加權平均法計算出的評分進行標準化后,分歧點個數和分歧效應大小會相應增加,但是參與率法計算出的評分在標準化前后,分歧點個數和分歧效應大小變化不大。如圖5所示,以原始分數為橫軸、以標準化后的分數為縱軸繪制散點圖并進行線性擬合,可以看出,加權平均法下直線斜率會超過1,電影的分數分布更加分散,這一定程度上會增加分歧點個數和分歧效應大小。 第三,對評分進行標準化后,利用參與率法計算出的評分的分歧點個數和分歧效應大小可能小于加權平均分的分歧點個數和分歧效應大小。進行標準化的目的是為了讓內部構成不同的評分系統具有可比性,在一個10分制系統中得2分的電影并不意味著它超過了20%的其他電影,經過離差標準化后,數值范圍限定在[0,10],且消除了量綱和變異因素的影響,通過電影評分的大小可以大致判斷該電影在全部電影中的排名。故從產生分歧的角度來看,參與率法相對于加權平均法來說有所改進。 表1 2014—2016年電影線上評分系統基于分歧點個數和分歧效應大小的比較 從理論角度來看,前提假設是分歧效應可以有效區分評分系統的優劣,分歧效應的大小直接反映了參與評價同一分數段(口碑影響力)影片的評價人數(受眾關注度)存在差異的程度。在分歧效應越大的系統中,參與評價人數懸殊的兩部影片取得近似評分的可能性越大,說明該系統存在缺陷;而在分歧效應越小的系統中,評分大小更能反映影片在市場中口碑影響力的真實位置,說明該系統比較完善。 從實際分析結果來看,圖6展示的是觀測期內排名制度法下(加權平均法計算電影分數)分歧點與分歧效應隨參數α改變而變化的情況,當α較大時,經常參與評價者占全部參與評價者比重與分歧效應大小基本成負相關關系,而觀測期內分歧點個數與分歧效應大小又成高度顯著的正相關關系,因此,經常參與評價者占全部參與評價者比重越大,分歧點越少,分歧效應越小。實際上,越是經常參與評價的觀影者,其觀看過的影片可能越多,給出的評分應該越客觀,類似于專家打分,因此,可以認為α越大,電影的觀測評分與真實評分越接近,評分系統越好。 因此,本文評價標準的合理性得到檢驗,即分歧點越少、分歧效應越小的評分系統越好。 圖5 2016年電影線上評分標準化前后對比 圖6 2014—2016年排名制度法產生的分歧效應情況 通過以上分析可以發現,加入參數率后改進的方法相對于加權平均法,一方面考慮到未參與評價的觀影者信息,得到的評分理論上更能反映影片真實的口碑影響力;另一方面消除量綱影響后可能具有更少的分歧效應,更能反映一部電影在全部影片中的排序位置。同時,利用斷點回歸的方法,從分歧點和分歧效應的角度分析不同評分系統間的差異,具有一定合理性和可操作性。 參考文獻(References) [1] 由明陽, 黃飛虎.基于觀點動力學的電影在線評分預測[J]. 現代計算機, 2016(2): 7-11.(YOU M Y, HUANG F H. Online rating score prediction for movie based on opinion dynamics [J]. Modern Computer, 2016(2): 7-11.) [2] 陳素白, 章怡成, 高詩劼.錨定效應在網絡口碑領域中的考察: 以豆瓣電影在線評分為例[J]. 國際新聞界, 2016(3): 34-48.(CHEN S B, ZHANG Y C, GAO S J. An empirical study of anchoring effect in the field of online world-of-mouth: take Douban movies’ online rating system as an example [J]. Journal of International Communication, 2016(3): 34-48.) [3] 王秦英, 閆強.在線評分的交互效應研究: 基于個體評分視角[J]. 中國管理科學, 2013(S2): 440-446.(WANG Q Y, YAN Q. A research about the interactive effects of online scores: from the perspective of individual scores [J]. Chinese Journal of Management Science, 2013(S2): 440-446.) [4] GILBERT E. Widespread underprovision on Reddit [C]// CSCW 2013: Proceedings of the 2013 Conference on Computer Supported Cooperative Work. New York: ACM, 2013: 803-808. [5] HOGG T, LERMAN K. Disentangling the effects of social signals[EB/OL]. [2016- 12- 10]. https://arxiv.org/pdf/1410.6744.pdf. [6] STODDARD G. Popularity and quality in social news aggregators: a study of Reddit and hacker news [C]// WWW 2015: Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 815-818. [7] HOLLAND P W, WAINER H. Sources of uncertainty often ignored in adjusting state mean SAT scores for differential participation rates: the rules of the game [J]. Applied Measurement in Education, 1990, 3(4): 369-377. [8] MILLER E. Rank hotness with Newton’s law of cooling [EB/OL]. [2009- 02- 15]. http: //www.evanmiller.org/rank-hotness-with-newtons-law-of-cooling.html. [9] CAMPBELL D T, STANLEY J C. Experimental and Quasi-Experimental Designs for Research [M]. Boston, MA: Houghton Miffin Company, 1963: 1-88. [10] TROCHIM W M K. Research design for program evaluation: the regression discontinuity approach [J]. Journal of the American Statistical Association, 1984, 81(395): 272. [11] CALONICO S, CATTANEO M D, TITIUNIK R. Rdrobust: anRpackage for robust nonparametric inference in regression-discontinuity designs [J]. R Journal, 2013, 7(1): 38-51.1.3 增加輔助信息


2 研究方法

3 實證分析
3.1 數據來源與研究步驟

3.2 評分系統的比較分析



3.3 評價標準的合理性檢驗


4 結語