【摘 要】近些年來,大數據與電影產業的融合不斷加深,如何在電影業中應用大數據成為相關利益方的熱點議題。然而,國內業界和學界對于大數據的基本問題存在理解不到位的情況,例如對于大數據技術原理、技術缺陷的認識還不充分。本文從分析大數據概念入手,討論大數據在電影業的應用場景以及常見的認識誤區,并提出電影業妥善、充分利用大數據的措施建議。
【關鍵詞】大數據;電影;應用;認識誤區
【基金項目】本文系2019年度江蘇高校哲學社會科學研究重大項目《電影強國視野下中國電影產業支撐體系研究》(項目編號:2019SJZDA123)階段性成果。
大數據通過連接內容、渠道、用戶,打通了影視產業的供給側和需求側,為影視行業的發展帶來了新的可能。從實踐情況看,國內外電影業均有許多利用大數據的成功案例,而學術界也有越來越多的學者關注大數據在影視產業的應用問題,學術生產在近些年也迎來了高峰。然而,盡管大數據與電影產業的結合大有可為,但整體上仍處于探索階段。從現有發表文獻看,討論大數據優勢和應用前景的比較多,關注其缺陷和風險問題的較少,對于大數據普遍存在一種盲目樂觀的傾向。另一方面,部分電影行業的從業者和研究者還沒有準確理解大數據的內涵和原理,迫切需要厘清一些觀念。本文首先在回顧大數據基本概念基礎上,結合現有的中外研究成果,分析大數據對于電影產業的影響。其次,從技術局限性的角度,探討常見的對于大數據技術的認識誤區,并指出大數據技術在電影業應用的未來發展方向。
一、電影大數據核心概念和相關研究
進入信息社會以來,各個行業均產生了大量數據,大數據這一概念應運而生。通常意義上,大數據是指無法在有限時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。與傳統數據集合相比,大數據通常指向非結構化的數據。[1]由于電影行業的從業者和研究者在學科背景上大多和信息科學、統計學缺乏交集,很多人錯誤地以為只要數據量足夠“大”就是大數據,而事實上傳統方式的大樣本問卷調查、內容分析并不屬于大數據的范疇。廣義上講,大數據既包括數字化數據,也包括非數字化的數據。和傳統數據相比,大數據具備特殊的優勢。傳統數據通常樣本量偏小,且收集成本較高,通常幾百、幾千,上萬的樣本比較罕見。而大數據則常常數萬乃至數百萬,在很多情境下樣本幾乎等于總體,沒有抽樣必要而且收集成本偏低。另一方面,傳統數據需要通過問卷調查法獲取,這種方式獲取的數據可信度低,而大數據體現的是現實世界的真實數據,可信度較高。目前常用的電影大數據主要包括電影公司采集的內部數據,專業數據公司提供的數據以及網絡媒體產生的數據,例如Twitter、微博、Facebook、維基百科、IMDB、豆瓣、熱搜等。大數據方法是統計學和計算機科學的結合,未來的發展趨勢是在現有統計學方法基礎上,和數據思維相結合,產生新的、應用范圍更為廣泛的統計方法或大數據算法。[2]大數據著眼于人類在自然和社會中所產生的各種痕跡,最為重要的價值在于對自然和社會的規律及模式的探索,以及對于未來趨勢的預測。圍繞著大數據,科學界形成了一種新的研究范式,即科學研究不再基于模型和假設,而是利用計算挖掘海量數據,去發現變量之間的相關關系。
在探討大數據與電影關系時,海外研究側重強調大數據技術在票房預測、電影生產、營銷策略以及電影獲獎預測等方面的影響,相關文獻以實證研究為主,尤其側重于探索社交媒體數據與電影產業的關聯。還有一些文獻側重于分析信息技術問題,例如算法。[3]近些年來,國內學者也逐漸開始了對于電影大數據問題的探討,相關成果呈現出爆發式增長的態勢。和國外文獻通常分別討論電影和電視不同,國內通常不做區分,其中大部分論文著眼于大數據在影視鏈條各個環節的應用問題。比如,有學者指出大數據在影視產業流程中的應用是比較全面的,無論是通過量化分析以描述受眾群體的輪廓,還是內容創作、演員選擇、營銷方案制定,以及排片和輿情監測方面都可以發揮其作用。[4]除了整體性介紹,部分論文聚焦于某一具體的環節,例如影視投資、票房預測、影視媒資系統、影視劇本開發、電影推薦算法等。特別是聚焦于大數據對于電影內容創作和營銷策略方面。[5][6]還有少量文獻通過案例分析和實證研究進行具體實踐上的分析。例如有論文以《頭號玩家》為案例,分析好萊塢電影工業中是如何利用大數據生產電影并實現精準營銷的。[7]還有論文通過扎根理論分析探索影視大數據對于各生產環節的影響,[8]以及通過大數據指標分析影響中國電影票房的因素。[9]此外,有學者將目光投向西安電視劇版權交易中心及其發起設立的西安影視數據評估中心,以此為個案分析了大數據技術在影視評估領域的本土化實踐。[10]盡管相關研究呈現一片繁榮的局面,但與海外相比,國內研究整體上偏重于理論研究,實證研究和技術應用類研究偏少。少數研究者對于大數據概念和原理認識不到位,部分文獻停留在概念炒作的層面,所提出的問題和觀點其實與大數據并無關系。
二、電影大數據的認識誤區
使用大數據工具,無論是在描述、預測社會現象,或是進行假設檢驗以解釋社會現象時均會存在一定的缺陷。常見問題包括數據收集的法律倫理問題、技術邏輯問題、算法問題、數據代表性和真實性的問題等。在電影行業應用相關技術時,必須考慮到相關風險。
大數據時代,可識別性個人信息界定變得模糊。零散的碎片信息經過組織就可以指向具體個人,造成侵犯個人隱私權的法律風險,牽扯到數據的收集、合成以及分析環節。另一方面,大數據分析的數據很大一部分來自于企業和機構,對于它們來說數據往往是核心財產,牽扯到商業秘密、知識產權,乃至國家安全等方面的問題,而當前對于數據產權的認識并未達成一致。如何合理收集和處理信息,是利用大數據時必須考慮的問題。
以大數據技術為影視行業科學決策提供助力是一種趨勢,但是我們必須意識到大數據仍然存在局限性,其在電影生產和產品運營中雖然具有重要的決策價值,但卻不能過分依賴。就當下而言,在相關技術尚未完善成熟的情況下,如何處理通過大數據技術得到的結論其實是很大的問題。對于通過大數據技術得到的結論,決策者普遍憂慮的是預測準確性問題。如果得到出乎意料的、反常識的結論,那么肯定需要經過綜合其他方式進行決策。此外,大數據技術在面對異常值(指的是樣本中個別值明顯偏離其余的觀測值)時往往表現得力不從心,無法判斷其對與錯。當然,大數據應用于產業分析和學術研究還存在另外一種可能,即通過復雜的技術卻得到人所共知的結論。得到的結論并非不科學,但耗費人力物力卻對決策并沒有很大幫助,因為通過其他方式也可以實現。
大數據技術過于依賴數據,錯誤的數據會導致錯誤的決策,而數據卻存在巨大的“被污染”的風險。影片《航班蛇患》受到網民意見的影響,其出品方新線電影公司在電影制作完成之后,又額外拍攝了5天,增加了很多粗俗內容以迎合觀眾,但實際的票房卻并未達到預期。自此事件之后,好萊塢對于網絡數據的態度變得非常謹慎。這個事件是電影業典型的基于大數據的錯誤決策。數據本身還存在著其他方面的問題。網絡時代的電影行業,網絡口碑是重要的決策判斷依據,經常被用來預測電影票房和制定營銷方案。但網絡口碑數據也未必可信,同一部電影在不同評分網站得分常常差異較大,而網絡口碑又會受到一些偶然事件的干擾。此外,經常被用來做預測、分析市場的社交媒體數據也會受到多方面因素的影響,比如網絡水軍群體的干擾。即便是專業機構發布的影視數據,其真實性也一直飽受質疑,尤以電視收視率和電影票房最為引人注目。準確的預測必然要建立在數據真實基礎之上,種種不確定性也進一步放大了大數據決策的風險。
同樣對于流感的預測,谷歌就經歷了從成功到失敗的起伏,其對于2013流感的數據預測與實際情況差距很大,其原因很有可能是算法的缺陷。大數據對于社會經濟生活的影響,很大程度上依賴算法模型進行的分析。對于非專業人員而言,算法往往是一個“黑箱”,要特別警惕算法缺陷帶來的負面后果。當前的智能推薦系統工作原理是依靠用戶的歷史數據形成“用戶畫像”,根據算法以預測用戶興趣、需求,并將要推薦的電影資源與用戶之間形成匹配關系。常見的算法包括基于內容、協同過濾和基于圖模型的推薦算法,而當前技術在分配指標權重、屬性向量化和興趣三個方面都存在缺陷。算法本身需要審核,需要人工干預監管。[11]
此外,還需要注意的是,當前龐大的數據量通常不是傳統的結構化數據,而是非結構化或半結構化數據。網絡空間存在大量視頻、音頻、圖片、文字,乃至地理位置等信息。從機器的角度來看,能夠分析這些數據的工具比較有限,這意味著很難提取到有意義的信息。大數據技術中,當前相對成熟的是文本數據分析技術,而對于其他類型的信息形式,比如圖片、音頻、視頻處理能力仍顯薄弱。即便是對于文本,大數據也存在信息過載、信息失實、 信息冗余、信息污染的問題,在對文本信息內容、結構以及功能的描述解讀方面并不完美。比如在分詞技術方面,機器面對人類復雜的語言體系,仍然難以依據情景精確處理詞語之間的關系。“武漢市長江大橋”主語的身份究竟是市長還是大橋,對于計算機來說,在識別時往往并不準確。
大數據強調數據驅動,而非理論驅動,崇尚基于數據發現事物之間的規律,重視基于算法發現變量間的相關性。在邏輯思路上,大數據強調的是相關關系而非因果關系思維,相關指的是兩個變量之間的共變關系,而不考慮其他變量的影響,大量經驗研究表明,這種認識方式經常伴隨著錯誤。舉例而言,我們會發現超市雪糕銷量和溺水死亡人數呈現正相關的關系,而我們無法得出結論是雪糕導致了溺水。其背后的真正原因是天氣、溫度。同理,社交媒體上的人氣與電影票房也未見得一定存在正相關關系。另一方面,統計學經常發生的一種不幸現象是,只要樣本足夠大,關系往往都顯著。大數據的海量數據是一把雙刃劍,本來不相關的變量也會相關,數據量越大,越有可能呈現出無意義和無用的相關性。這些相關性的出現只是由于數據的大小,而不是數據的性質,從而造成判斷上的武斷。[12]
大數據方法存在各種風險而并非完美。Simon和Schroeder的研究指出大數據在電影業的應用有六點需要注意的地方:第一,當分析者忽略核心變量時,其模型預測效力并不強。大數據既可以是陳舊的歷史數據,也可以是最近發生的數據。對于影視行業,由于受眾的興趣、品位、偏好往往是變化的,只有及時、動態、準確的數據對于決策和營銷才有意義。這無疑對相關分析工作提出了挑戰。第二,數據分析必須考慮數據獲取的問題。很多數據獲取不易,或者根本無法獲取,即便是社交媒體也存在此類問題。第三,科學研究發現,由于數據量小,大數據在市場變化大、小眾電影和相關信息少時預測效力不佳,而市場表現成功的電影則預測效果較好,但這也意味著模型在最需要它們的時候卻失敗了。第四,數據會存在內在的偏差,社交媒體并不能代表目標的人口總體,而且不同的社交媒體群體特征不同。第五,測量指標的內涵不同,同樣是微博點贊,不同網民的理解并不相同。第六,數據來源、結構和形式不同,整合起來困難很大。[13]國內學者對于大數據的負面作用提出了新的視角,電影是一種藝術形式,有著內在的審美要求,大數據作為市場分析工具過于強化商品性,以此為工具指導電影生產勢必會削弱電影的藝術性。[14]
三、建議和未來展望
(一)正確認識電影產業的大數據技術,避免陷入誤區
大數據是認識復雜世界的新思維和新手段,引發了社會經濟變革。文化大數據的時代已經到來,影視從業者必須要意識到大數據對于產業變革帶來的契機,重視、理解并努力運用大數據。當前大數據技術在電影產業已經得到一定程度的應用,未來發展更是值得期待。可以預料,借助更為先進的數據收集工具、分析工具以及更為廣泛、共享的數據平臺,大數據在電影產業中的價值會得到進一步提升。
人類社會和自然世界一樣都是極端復雜的。和自然科學相比,社會科學的觀察、測量和分析工具準確性及客觀性還不夠理想。近幾年來,大數據技術的發展和應用取得了很多喜人的成果,各行各業均表現出了對于大數據的興趣,但我們仍然意識到大數據不是萬能的,存在很多需要完善的地方。大數據本質上是一種定量分析技術,具有量化的局限,比如在深入理解社會現象方面就顯得力不從心。另外,在數據決策方面要警惕出現“大數據傲慢”思維,即認為大數據可以替代傳統的數據收集和分析方法,而并非僅僅是后者的補充。事實上,大數據相關技術還處在不斷完善的過程之中,在電影領域的應用探索還不充分,相關技術方法本身存在著固有的缺陷。影視行業要重視大數據帶來的契機,妥善利用大數據,推動互聯網、大數據、人工智能和電影業的深度融合。而另一方面,相關研究者和從業者要具備一定的專業素養,從源頭理解相關技術的基本概念、原理和應用,建立真正的大數據理念、意識和思維,無論是產業實踐還是學術研究,均不能過分迷信大數據。
(二)妥善利用各種數據,重視企業數據資源建設和建立大數據聯盟
影視公司應該強化數據意識,認識到大數據的機理和規律,加強數據資源建設和保護,重視對于產業鏈上各方面數據的收集、整理,形成內部數據庫。企業自主搭建大數據平臺要量力而行,一方面是投入較大而短時間內難以獲益;另一方面,大數據發展速度日新月異,很有可能錯失先進技術跟不上形勢發展。除了自己搭建平臺,對于企業來說,還有另外一種方式就是直接與專業大數據公司建立合作關系,并積極展開與海外影視公司、數據公司的交流學習。大數據數量龐大、來源多樣、數據結構也不統一,存在著共享困難和整合困難的問題。結合我國國情,由政府力量牽頭組織,打通數字鏈條是當務之急。浙江、北京目前已經搭建了成熟的文化產業大數據服務平臺,成功構建了信息共享服務平臺以及互聯互通的網絡服務體系。電影產業也期待具有廣泛覆蓋范圍,能夠連接多方參與主體的專業大數據平臺出現。通過大數據平臺,在制度框架下收集、共享、使用大電影產業鏈數據。
(三)謹慎對待以受眾為中心的電影生產和營銷思維
大數據在電影產業中的應用呈現出一種受眾中心論的價值取向。所謂受眾中心論指的是文化生產、經營活動以受眾為中心,其他要素均圍繞受眾展開的思維。經營者在收集和報告來自受眾的可量化的、準確的、即時的反饋時,受眾在某種程度上傳達了他們想要的信息,大數據思維為經營者提供了以受眾為中心內容生產和營銷的決策可能性。大數據時代的電影生產囊括從項目立項、劇本創作到演員陣容選擇。大數據營銷方式融合傳統電影營銷和社交媒體營銷,通過量化受眾和改善營銷策略并制定精確的排片策略。從積極的角度看,大數據幾乎可以應用于電影產業鏈的全部環節,但依托于數據驅動的創作和經營思路卻未必能夠保證作品質量,以受眾為中心常常讓電影陷入娛樂化的陷阱。電影作為藝術產品,不能過分迎合受眾需求而犧牲藝術品質,需要在市場效益和社會效益兩個方面取得平衡。
注釋:
[1]張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013,50(S2):216-233.
[2]游士兵,徐小婷.統計學方法的發展及其在大數據中的應用[J].統計與決策,2020(04):31-35.
[3]Simon, F. M., & Schroeder, R. (2020). Big data goes to Hollywood:The emergence of big data as a tool in the American film industry. Second international handbook of internet research,549-567.
[4]郭強,許妍.淺析影視大數據的應用場景及案例[J].中國電影市場,2019(07):7-12.
[5]郝燁.智能時代的電影評估與決策體系——價值鏈重構下的導向轉型[J].編輯學刊,2022(02):42-48.
[6]范志忠,汪夢菲.大數據視角下影視工業創意評估與生產[J].東岳論叢,2023,44(07):37-44.
[7]余吉安,秦敏,羅健,劉思彤.電影精準營銷的大數據基礎:以《頭號玩家》為例[J].文化藝術研究,2019,12(01):8-16.
[8]方浩,馬雅,楊流,張銳.基于扎根理論的影視大數據應用模型研究[J].聲屏世界,2019(05):11-14.
[9]盧文景,馮曉.大數據時代電影票房影響因素證實分析[J].中國傳媒大學學報(自然科學版),2017,24(01):41-46.
[10]黨雷.影視評估大數據智能分析應用與示范 [J].人文天下,2019(17):2-6.
[11]王曉通.大數據背景下電影智能推送的“算法”實現及其潛在問題[J].當代電影,2019(05):64-70.
[12]Calude C S, Longo G. The Deluge of Spurious Correlations in Big Data [J]. Foundations of Science, 2017,22(3):1-18.
[13]Simon, F. M., & Schroeder, R. Big data goes to Hollywood: The emergence of big data as a tool in the American film industry [M].Second international handbook of internet research, Springer: 549-567.
[14]時繼超.論大數據在電影產業中的作用[J].中國電影市場,2017(12):19-21,18.
(作者:蘇州大學傳媒學院副教授,博士,新聞系副主任)
責編:周蕾