鮮沁雨
(浙江廣播電視集團,浙江 杭州 310005)
近年來,隨著綜藝傳播途徑變得不再單一,對傳播熱度的評估和反饋也不再僅限于大屏收視率。盡管各大中長視頻平臺(如騰訊、愛奇藝、優酷等)已對各自收錄的綜藝形成了熱度指數,但評價的廣度、維度、深度各有不同,缺乏全網傳播的績效反饋,不利于節目的創新突破、提質增效。因此,建立一套更為系統、科學的播后數據反饋系統尤為重要[1]。
浙江廣播電視集團自主設計、開發了播后數據反饋系統(以下簡稱系統)。該系統實現了全網數據采集、多維度熱度評估、熱搜榜單匯聚等功能。系統上線后運行平穩,有效應用于節目生產和宣發。
播后數據反饋系統依托大數據技術、自然語言處理實體關聯、多維度熱度融合模型等技術,設計計算機端和HTML5 頁面,采用前后端分離模式設計整體框架,采用Vue.js 開發的單頁應用(SPA),后端使用SpringBoot 框架,支持快速開發和集成,使用Redis 緩存提高了系統性能。系統利用Kubernetes實現了容器化部署,簡化了應用管理,提供了彈性和高可用性。系統總體架構如圖1 所示,主要包括數據采集層、數據處理層以及應用層。

圖1 播后數據反饋系統架構圖
1.1.1 數據采集層
數據采集包含基礎數據的采集和維護。基礎數據包括內容數據、賬號數據以及平臺數據。系統基于定時任務模塊,通過配置不同平臺的爬取策略,可以定時采集和更新基礎數據。采集的任務包括采集全網榜單數據、基礎知識庫、節目播放數據、社交賬號數據、短視頻數據以及圖文資訊數據等。
1.1.2 數據處理層
數據處理層中,自然語言處理具有詞法分析、實體識別、實體對齊、依存句法分析、情感傾向分析能力;計算模型主要有熱度計算模型和多維度熱度融合模型的處理能力;數據處理能力包含對數據的更新、數據清洗、數據分析能力。數據進入全量內容處理中心對抓取的內容進行實體識別、解析、內容去重、垃圾過濾;處理后的數據進入全量內容庫,對數據進行鏈路處理,包括實體鏈接、特征提取、業務清洗、數據轉換等,提取出精選內容,提取出的內容進入熱度計算中心。
1.1.3 應用層
應用層有榜單應用、知識庫、數據分析及系統管理四大模塊。榜單包含劇集、綜藝、藝人等榜單數據,知識庫包含作品、藝人、賬號等數據,數據分析支持多維度的數據展現和查詢;系統管理是對后臺的管理功能,支持用戶自定義設置節目關鍵詞、導出熱搜及數據信息等。
搭建全網綜藝傳播力評估體系,需要依靠大量的數據支撐。建立一個客觀全面的、能夠覆蓋多屏的數據采集指標平臺,是做好反饋的第一步。
通過對視頻平臺、互聯網數據機構核心指標的分析對比,梳理出評估數據的采集平臺,包括中長視頻平臺的正片播放、互動數據;短視頻平臺的二創數據,社交平臺熱搜熱度及次數,藝人影響力、官方宣發數據,新聞網站的資訊數據等,較為全面地覆蓋了有價值的數據范圍及指標。具體核心范圍及指標如表1 所示。

表1 數據采集范圍及指標
全網采集的數據內容是海量的,因而,需要基于大數據和人工算法技術,對采集所得聚合多個不同平臺的內容聚合的數據進行多維度的處理和深度理解,處理成熱度數據的結構化字段信息,處理到大數據表格OTS 和搜索引擎ElasticSearch 中,以供后續的搜索和查詢[2]。對文本新聞數據或者視頻的關聯文本進行基礎的自然語言處理(Natural Language Processing,NLP),包括正文的清洗和格式化,文本去重、關鍵詞提取、智能標簽識別、實體識別及情感分析等。
(1)文本去重。互聯網上經常會出現一篇話題被多個媒體站點或者賬號進行轉載的情況,被轉載的文本內容相同或者相似,為了避免對同一篇新聞做重復的處理和存儲,需要對話題文本做內容和語義上的重復檢測,并將重復的新聞進行合并處理和存儲。
(2)關鍵詞提取。為了快速獲取話題的主要內容,便于后續的搜索,需要對文本進行關鍵詞的提取。關鍵詞反映文本的主要內容和高頻詞匯,后續搜索時命中關鍵詞會提升權重。
(3)智能標簽識別。對新聞/視頻的文本進行標簽主題的識別,用于熱度數據的組織和搜索。通過智能標簽,可以判別一篇話題的主題是否與監測節目相關。
(4)實體識別。對新聞/視頻的文本進行實體識別,將文中涉及的人物、地域、機構等實體信息識別出來,通過判斷相關實體與關鍵詞的關系來判別話題和短視頻是否涉及監測節目。
(5)情感分析。對用戶評論內容進行情感識別,分析并判斷正負面輿情信息。
前臺系統服務包含全網數據聚合、熱搜數據查詢和多維度數據綜合榜單三大功能。基于各個節目的播出平臺不同,系統根據自主識別和手動配置的方式,獲取節目在不同平臺的播放情況。根據節目基本信息自動生成關鍵詞,匹配全網榜單熱搜上榜情況,用戶根據需要選擇榜單進行一鍵生成。多維度數據綜合榜單則是由原始數據參照技術通過計算公式推導出標準的數值,用以衡量原始數據在其所屬維度的相對表現,結合用戶自定義設定的主觀占比,進而得出綜合熱度指數。將數據標準化后,不同維度的指標之間可以相互比較。同一指數不僅可以用于同一個衛視發布/平臺播放的綜藝的跨期比較,也可以用于與其他全網的綜藝的比較。
系統還構建了影視節目的基礎知識庫和藝人知識庫,為節目熱度計算、數據分析、節目搜索等提供基礎數據支持。節目知識庫中包含影視、綜藝節目的基礎信息,如節目名稱、開播時間、主要演職人員、導演等。藝人知識庫包含藝人的個人基礎信息、社交平臺賬號信息等。同時,知識庫與中國藍云智能中臺打通[3],定時推送人臉庫最新數據,標記敏感藝人,減少宣發輿情風險。
以浙江衛視近期熱播綜藝為例,探討播后數據反饋系統的實際場景應用。以往,節目播出后,需要到各大平臺,人工統計節目的播放量及播放熱度,實時關注節目話題在各大榜單的上榜情況,以及各大媒體報道情況,需要用到大量的人力和時間成本。播后數據反饋系統上線后,可以對全網各平臺有效數據聚合,同時提供一鍵生成熱搜榜單、節目熱度對比等服務[4]。
系統首頁包含正在熱播、熱搜風云、全網綜藝榜3 個板塊,如圖2 所示。正在熱播展示了衛視近期熱播的節目對比,支持通過自定義選擇在播節目,也可以選擇在播與往期節目的比對顯示。通過正在熱播板塊,用戶可以更直觀地參考節目近一周的熱度數據以及熱播趨勢。

圖2 系統首頁圖
對于單個節目,系統主要抓取并展示數據概況、熱搜話題、相關資訊、評論&彈幕、受眾分析五個板塊的內容。
數據概況展示節目熱度情況和多平臺播放數據,熱搜話題匯集節目在全網各榜單的上榜情況,相關資訊匯聚節目基本信息和全網的最新報道;評論和彈幕不僅可以根據語義判斷情感趨勢,還可以根據評論熱度進行排行,指導后續節目制作剪輯;受眾分析主要分析觀眾的年齡、城市、性別等[5]。
例如,在《奔跑吧》第七季中,系統采集到網友熱議第一的評論是“聽說第二期有羅云熙,長月的粉絲們”,排名前5 的評論彈幕都與白鹿的熱播劇有關,可為節目組后續節目策劃和制作提供一些方向。
熱搜是評估節目熱度的重要指標。以微博熱搜榜為代表的榜單,只能查詢實時熱搜,并不公開歷史熱搜數據。播后數據反饋系統上線后,可實時抓取并保存全網所有熱搜榜單數據,并對最高在榜排名和在榜時長進行統計和截圖。針對該功能開發的HTML5 頁面,更方便用戶在手機端實時查看綜藝話題的上榜情況。搜索關鍵詞“奔跑吧”,熱搜結果如圖3 所示。

圖3 HTML5 熱搜榜單查詢結果
多維度融合熱度可以將各節目數據標準化,形成比對榜單。綜合熱度以“節目正片播放熱度”“熱搜”“二次傳播”“圖文資訊”“互動指數”等為主要考量維度,選取多項基礎指標并持續優化指標權重[6],綜合考量同一綜藝各類指數平衡,如《奔跑吧》第七季每一期的綜合熱度對比、衛視播放綜藝節目對比、同全國所有播放的綜藝對比分析等。通過熱度值和多維度值,針對性地分析和提升節目傳播效果。
播后數據反饋系統上線后,為浙江衛視《中國好聲音》《奔跑吧》《無限超越班》等20 余個綜藝提供播后實時數據匯聚及熱搜榜單采集,助于片方進行項目復盤,為提升綜藝的影響力,拓展綜藝網絡傳播途徑和運營提供了有效的反饋和參考。系統采集和處理的全網數據資源還為其他系統提供數據接口服務,提供了有力的技術支撐。