文/劉永剛
隨著信息和媒體技術的極大發展,視聽生態迎來了巨變。生態中的兩極,傳統媒體(電視臺)和網絡新興媒體(互聯網公司),從各自領域向對方滲透。最終,涵蓋了手機電視、OTT、IPTV、網絡視頻的“視聽平臺”成為雙方短兵相見的戰場。
視聽平臺被傳統媒體稱為“平臺型媒體”,被互聯網公司稱為“媒體型平臺”,其本質都是提供視聽服務并最大化占領注意力市場。《2018中國網絡視聽發展研究報告》描述了我國網絡視聽發展現狀及趨勢,指出我國網絡視聽用戶規模持續增加,行業蓬勃發展;內容付費收入顯著提升,頭部視頻平臺優勢凸顯;用戶喜好差異化明顯,圈層消費正形成;人工智能算法將優化視聽產品制播流程。而根據《2018中國廣播電視及網絡視聽業發展現狀及前景分析》可以發現,傳統電視媒體也正通過構建“電視+互聯網”雙受眾市場媒介戰略以獲得全新價值增長點。
視聽平臺成為新老媒體鏖戰的陣地,如何基于業務開展深入分析,建立完整的用戶模型,挖掘用戶價值,創造盡可能大的影響力及商業價值將是視聽平臺成敗的關鍵。大數據分析技術是實現這一目標的有力保障。可以說,數據已成為網絡視聽的重要生產資料,數據應用技術和方法成為重要的生產力,數據評估成為網絡視聽行業正導向、助傳播、擴影響的重要抓手。網絡視聽數據越來越受到社會各界的關注,移動化、數據化、智能化正在成為網絡視聽的三大趨勢。在大數據時代,如何應用好大數據,利用數據創造價值,成為視聽平臺整體業務發展、技術轉型、經營支撐的重要工作。
《互聯網視聽節目服務管理規定》中明確了互聯網視聽節目服務的定義,即制作、編輯、集成并通過互聯網向公眾提供視音頻節目,為他人提供上載傳播視聽節目服務的活動。大數據是繼云計算之后信息技術的又一次顛覆性的技術變革。顧名思義,大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。
具體到視聽大數據,是指當媒體作為信息鏈的重要主體時,依附于媒體的、寬泛的數據。視聽大數據涵蓋了媒體的方方面面,如媒體的生產、儲存、傳播等不同階段,如用戶、內容、渠道等不同維度,又如媒體內容的制作、發行、營銷、播出等不同角度。視聽大數據帶給媒體服務最明顯的好處包括用戶行為可跟蹤分析,可定向精準服務;用戶可管可控、黏著度強;市場管理相對有保障。
下面筆者以手機電視為例,闡述針對視聽平臺的經營發展如何構建視聽經營分析大數據系統,如何采集、分析并總結各種經營所需的數據、如何為視聽平臺經營決策提供支撐。
系統架構。基于多年的經營經驗積累,總體設計視聽經營分析大數據系統的系統架構如圖1所示,主要包括數據采集及傳輸層、大數據平臺層、數據分析層、實時/批量應用執行層和應用層。
數據采集及傳輸層主要負責把終端用戶(自有APP及網站)的訪問行為以及第三方經營商的用戶行為統計數據傳輸到大數據平臺,在此基礎上做進一步的分析及應用處理。根據數據采集的時效性,應用數據采集方式分為兩大類:一是自有平臺及APP應用數據實時采集,在網頁及APP應用中嵌入特定代碼,當用戶訪問該網頁或APP應用時,前端應用把用戶訪問行為(如逗留時長、點擊內容等)通過即時通訊協議傳輸到相應的即時通訊服務端,實時傳輸到Hadoop大數據平臺進一步處理;二是第三方平臺及自有平臺數據批量采集,第三方平臺及自有平臺把需要上傳的增量數據按照一定格式存放到數據交換平臺或自有平臺數據緩沖區內,然后由大數據平臺定時把增量數據進行初步清洗和整理后,存儲到數據倉庫。
大數據平臺層包括以Hadoop技術為基礎的大數據存儲及處理服務集群和關系型數據倉庫集群。大數據平臺層結合了Hadoop平臺和關系型數據倉庫的不同優勢,即基于Hadoop平臺對海量數據進行高性能查詢及處理工作,以及關系型數據倉庫處理及存儲復雜處理后的預匯總數據。大數據平臺層通過MQTT服務端實時上傳用戶行為數據,并通過Kafka把實時用戶行為數據發送到存儲實時用戶行為數據的數據倉庫;通過Spark技術對實時用戶行為數據進行流式處理,然后通過相應的實時應用執行服務層輸出相應的實時運算結果,以滿足實時分析需要(如內容主動推薦、事件營銷等)。
數據分析層主要包括三大部分,即可視化分析應用,數據挖掘及文本內容分析。一是數據可視化分析,應用既可以幫助業務人員直接訪問大數據平臺,并通過簡單易用的功能快速完成大部分臨時性業務分析需求,也可以把常用的可視化分析應用予以固化并由前端頁面進行調用并展現。二是數據挖掘,即提供了快速建模功能,也提供了專業建模能力,從而滿足突發性的數據挖掘需求,如臨時性、緊急的精準營銷活動;也可以完成更為專業的預測模型,如事件營銷等,把模型直接部署到執行平臺側。三是文本內容分析,主要負責對非結構化文本進行分析,如視頻內容描述、搜索關鍵字、用戶評論、彈幕等,結合產品內置算法和語義理解結果構建相應的情感分析及主題分類規則,最后實現根據特定的業務需求對新的非結構化數據進行情感分析或主題分類,如正面/負面評論、視頻內容大類分類、篩選敏感視頻等。
實時應用執行層主要包括兩大部分:一是基于自定義業務規則的數據處理及分析,二是基于機器學習模型的數據處理及分析。由于數據脫敏屬于基于自定義業務規則的數據處理,考慮到數據下載量過大可能對系統運行性能造成的影響,因此系統設計時加入下載數據量限制,對超過下載數據量限制的作業采用批量方式進行,即系統等閑時再啟動數據脫敏作業,處理后存儲到交換區供其他用戶進行下載,對下載數據量低于限制的作業則采用實時下載方式進行。基于機器學習模型的數據處理及分析是根據代碼執行率,實時應用部分的模型轉換成Java代碼進行部署,批量應用部分的效模型轉換成該系統代碼進行部署,由服務器在前端閑時進行批處理。實時應用執行層主要對平臺的實際業務需求進行歸納總結,構建靈活的數據處理規則配置方式,從而實現數據處理規則“動態配置,即時實現”,既保證數據處理性能,又能滿足用戶大部分數據處理需求。實時應用執行層對基礎大數據進行復雜處理后基于各前端應用接口,生成相應的數據接口文件,然后由相關前端應用做進一步的處理操作。
應用層既包括整個視聽平臺的管理及分析應用構建的前端展現應用,也包括相應的基于經營執行需要的前端執行應用,如精準營銷平臺、搜索引擎優化等。分析層、應用層既可以采用傳統的B/S及C/S模式部署,也可以采用云服務平臺模式部署。
功能模塊。視聽經營分析大數據系統包括八大模塊。頁面或客戶端埋碼模塊可實現對瀏覽器或移動終端用戶內容瀏覽及播放完整行為的采集,從而幫助相關分析人員進一步了解用戶行為習慣。多數據源數據采集及統一存儲模塊可實現對不同播放渠道提供的數據進行清洗、處理并統一存儲到大數據平臺中,為后續的數據挖掘、文本分析及可視化展現等應用提供高質量的數據基礎。KPI統計及數據挖掘模塊可對大數據平臺中的基礎數據根據管理及分析要求進行描述性統計,形成相應的KPI(包括播放時長、點擊次數、訂購用戶數等);還可結合特定的業務需求及數據挖掘工具構建相應的數據挖掘應用,幫助相關業務人員及時了解用戶行為偏好及潛在需求,從而為個性化推薦、精準營銷及管理優化提供準確的客觀建議。數據可視化展現模塊提供報表、儀表盤等傳統可視化圖表展現功能(展現方式包括大屏、PC端、智能移動端等);提供簡單易用的數據可視化工具幫助業務分析人員能夠根據業務分析需要,快速對大數據分析平臺中的數據,通過各種可視化方式進行呈現,從而及時幫助相關人員發掘企業經營中的潛在問題及商業機遇。
個性化推薦模塊結合數據挖掘模型、協同過濾算法等方式,及時了解用戶行為偏好,并通過相應的推送渠道為用戶主動提供用戶可能感興趣的視頻內容,在提升用戶滿意度的同時,提升平臺整體收入。視頻描述內容及搜索關鍵字分析模塊對用戶搜索關鍵字,視頻內容描述等非結構化數據進行分析,一方面幫助相關分析人員及時從最新上線的海量視頻內容中了解當前熱點,或發現不合規的視頻內容;另一方面幫助相關分析人員了解用戶當前關注的視頻熱點,從而幫助經營人員優化視頻內容,實現精準主動信息推送以及提高輿論導向及管控效率。拆賬及報表輸出模塊對用戶上傳或改編的原創視頻內容訪問及訂閱情況進行統計,根據約定的拆賬規則,對收入進行拆賬及結算(拆賬內容還包括與第三方經營商合作的手機電視視頻業務)。數據脫敏模塊可根據設定的規則對需要輸出的數據進行脫敏,如關聯關鍵字需要保持一致,指標保持同比例關系等,以及脫敏數據結果的還原,并能把相應的脫敏過程形成相應的作業流并進行統一存儲及管理。
數據流程設計。視聽經營分析大數據系統的數據流轉流程設計如圖2所示,主要包括幾個階段:第一階段是數據來源,包括各個內容服務平臺以及相關的播出控制、經營支撐等平臺;第二階段是數據預處理及匯總,形成數據倉庫和集市;第三階段是數據深度處理,包括數據脫敏、挖掘等;第四階段是數據的應用,包括可視化以及對外輸出接口等。
接口設計。視聽經營分析大數據系統的數據接口設計為三大類:一是全量數據采集接口,包括批量加載接口、實時加載接口以及系統日志采集及解析接口等;二是系統內數據共享接口,分為實時接口和批量接口,分別適用兩個應用場景;三是系統外第三方數據共享接口,包括數據脫敏、實時共享和批量共享,其中數據脫敏接口可以設置各種脫敏選項,如目標字段、脫敏算法、關系匹配等。
基于以上視聽經營分析大數據系統構建了各種應用,涵蓋數據的全生命過程。視聽經營分析大數據系統的應用設計比較繁復,以下就其中幾個方面進行舉例說明。
全量數據采集。通過頁面或客戶端埋碼,對頁面或客戶端用戶體驗分析的全量數據采集方式以及對接CDN的數據采集等技術方式,對多終端產品(包括手機客戶端、PC端、頁面等)、播放器等各類信息采集;融合媒體集成播控平臺和視聽平臺等自身數據采集;同步第三方平臺用戶和經營數據等方式實現平臺內容數據、用戶數據、用戶行為數據、產品經營數據等的全量數據采集工作。
數據挖掘及分析。在經營分析系統中,對上述采集到的數據進行統計分析,包括訪問、使用、訂購、收入等經營類數據,產品、渠道、節目等業務類數據以及聚合量、改編量、轉碼量、審核量、分發量等平臺類數據的數據統計分析,建立分析引擎并行處理各種不同的工作流和算法。同時,建立用戶、內容和產品等數據模型,驗證和檢驗這些模型,并通過深度學習來提高模型分析的精準性。實現從數據采集、分析到最終數據應用的整個過程形成良性的閉環式生態循環,讓原始數據對產品的經營提供商業價值參考,同時又反哺于原始數據的采集工作,逐步豐富經營分析系統進而不斷為用戶的使用、內容的質量提升和產品的多元化帶來效益。
數據可視化展現。數據的可視化展現不僅局限于報表、儀表盤、KPI考核等報表展現方式,還可根據實際數據展現需求,定制、設計各類型數據展現模型,支持多種數據展現的可視化場景模板選取,多種數據庫內容的數據源整合,對實時動態業務經營數據、系統實時監控數據以及通過離線方式進行數據加工后的數據等進行展現。支持多終端的數據可視化展現方式,展現終端包含大屏終端、電視終端、PC終端以及不同的移動終端等(如圖3、圖4)。
智能推薦及搜索。基于用戶模型、內容相似性模型等數據模型,以及用戶搜索行為及熱詞分析,挖掘不同人群用戶的同質化觀看習慣,基于用戶行為分析結論,并根據內容的內在相關性,快速生成大量的用戶興趣標簽,為用戶智能推薦其所喜愛的內容,提高用戶黏性,展開精細化內容營銷,個性化推薦,觀眾維系挽留,獲取新的用戶,并進行風險控制,獲得價值的最大化。同時結合元數據標簽等數據,為經營人員及編輯提供視頻素材搜索功能,方便對素材內容進行二次加工(如圖5)。
數據拆賬及報表輸出。基于專業用戶(PGC)上傳或改編的原創內容產生的數據及產生的收入,根據事先約定的拆賬規則,實現PGC用戶的數據拆分及內容結算。基于數據的拆賬同時包含與經營商合作的相關業務的結算數據的拆賬。
數據脫敏。對經營分析平臺數據的數據脫敏是出于對平臺數據輸出的安全性考慮。系統數據脫敏首先對多類型的數據源進行統一管理,然后通過脫敏規則發現數據源中的敏感數據,對數據進行脫敏輸出,同時支持對脫敏流程的作業化管理。
以上視聽經營分析大數據系統已應用在某國家級視聽平臺及其與之合作的多個移動視聽平臺、省網視聽平臺上,實現了從多個渠道、各種終端的數據采集,對多數據源進行整合和管理,對業務進行深入分析,從而建立了用戶模型,挖掘了用戶價值,并最終提升該平臺的影響力及商業價值。