沈祿政
《紙牌屋》的原版是英國的一部迷你電視劇,Netflix買下版權,請來導演大衛·芬奇和老戲骨凱文·史派西在Netflix網絡上做獨播,首次進軍原創劇集就一炮而紅,在美國及 40 多個國家成為最熱門的在線劇集。這部劇也是互聯網從業者討論的重點,不僅僅是劇集劇情和明星,而是其特別的誕生方式。
《紙牌屋》的誕生最重要的一個關鍵詞是大數據。在任何一個國家的電視劇行業都沒有什么是確定的。特別是美國這種競爭充分的市場,即便是找齊了金牌導演、實力演員和時下最流行的題材劇本,結果很可能仍然不受觀眾的待見。但在《紙牌屋》這部劇集上,Netflix通過業務所沉淀的用戶數據判斷用戶喜好,成功催生了熱門劇集。應該說《紙牌屋》的成功得益于 Netflix 海量的用戶數據積累和分析。
對于《紙牌屋》劇集的播放,Netflix采取這樣的策略——一開始就把整季內容全放出來,而不是以前傳統美劇采用的周播制,以每周一集的方式吊足觀眾胃口。可能有人會質疑這樣會剝奪觀眾等待劇集的樂趣。但Netflix的觀點是,由于DVD 和網絡劇集的流行,很多觀眾已經習慣了一下子就能得到整部劇集。總體來說,后者會讓觀眾獲得更大的滿足感。這就是互聯網用戶的觀看習慣。網絡讓用戶有更多選擇的同時,用戶也期望得到更多。顯然Netflix比其他的電視劇制作商更了解用戶。也正是基于用戶大數據的挖掘才讓Netflix有更多的底氣投入一億美元來賭《紙牌屋》的成功。
如今的海量數據中,包括各種各樣的數據類型,最常見的普通文本、照片、視頻等等,還有像位置信息、鏈接信息等XML類型的數據。這些數據很難通過傳統的技術手段進行提煉和分析。這是絕大多數企業面對大數據無所適從的主要原因,這也催生了企業之間的跨界合作,即便是Netflix也不是獨立完成所有的數據挖掘工作,也有賴于Amazon的協作。依靠Amazon,Netflix每天可以分析超過3000萬條播放記錄,包括用戶在何時、何地、何種設備上觀看什么內容,用戶給節目添加的恐怖、必看等個性標簽,并在記錄暫停、倒退、快進、評分、搜索的同時,進行大量截圖,試圖分析用戶在音量、畫面色彩甚至場景選取上的喜好。
大數據時代不可抗拒,應該是毋庸置疑的,但對于絕大多數企業來說大數據本身僅是一個空泛的概念,不僅難以參與,更難于控制。大數據與傳統的數據分析有很大的不同,它有四個特點:第一,數據體量巨大,從TB級別躍升到PB級別;第二,數據類型繁多,網絡日志、視頻、圖片、地理位置信息等等無所不包;第三,價值密度低,商業價值高。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒;第四,處理速度快。這都和傳統的數據挖掘技術有著本質的不同。
大數據技術的意義確實不在于掌握規模龐大的數據信息,而在于對這些數據進行智能處理,從中分析和挖掘出有價值的信息,但前提是擁有大量的數據。這個全局數據的時代很快就會來臨,現在所要做的就是擁有并尊重數據。endprint