陳舒枝
(浙江廣播電視集團,浙江 杭州 310005)
浙江廣播電視集團建設中國藍融媒體中心,探索“中央廚房”常態化融合傳播機制,積極助推全省市縣融媒體中心建設。集團中央廚房在節目生產過程中,一方面需要采集互聯網輿情,掌握并跟蹤熱點輿情,為節目生產提供線索;另一方面需要監測輿情,將節目傳播效果反饋給節目生產。所以需要在集團內建立輿情大數據中心,利用搜索引擎技術和網絡數據挖掘技術,對互聯網中的海量輿情信息、行業專業數據進行實時的采集分析,實現集團內部節目生產和對相關網絡輿情管控引導的需要。
集團依托中國藍云提供的基礎資源,將建設一套全流程處置輿情數據從互聯網采集、聚類分析、用于節目生產到數據化展示的,具有廣電特色的浙江省內權威的輿情大數據中心。
輿情大數據系統將與集團中央廚房無縫銜接,最短時間內發現關注的全網熱點信息,及時對節目編導、制作片人推送預警信息,及時做出有利的輿論引導,適應集團各頻道節目制作、播出、營銷的需要。輿情大數據系統不僅能夠滿足集團中國藍融媒體中心的業務需求,還能適配市縣租戶的生產要求。通過租戶化的建設,能夠為各級廣電提供個性化的功能,滿足不同單位的實際需求。通過建設該系統將實現以下目標:
具備互聯網新聞、論壇、博客、微博、微信、貼吧、客戶端等數據的采集能力,通過統一的數據格式和標準化的接口與各個業務體系下的數據進行整合,為各應用層面的數據分析奠定基礎。
利用先進的數據挖掘技術對數據進行智能化分析,通過文本相似度比對、網頁信息抽取、語義研判等處理,智能識別熱門輿情事件、追蹤和分析熱點輿情事件,評估熱點輿情的全網影響力等,能夠為各業務領域提供極具參考性或指導性的數據結果。
靈活運用傳播力分析、話題關系分析、工具等多項組合條件進行定制查詢,及時檢索出設定時間范圍內的各項統計指標,實現統計數據的多維度查詢和導出,生成各類統計數據報表或分析報告,實現統計、分析結果的PC端、大屏等多種渠道的可視化展現,能夠為全局決策提供判斷科學的數據依據。
按集團各業務環節需求分別進行定制化的數據采集和分析,為各類業務所涵蓋的產品及實際應用提供及時和充分的數據結果,達到支持業務高效運轉和優化的最終目標。
當前浙江廣電集團依據集團節目制作形態,建設輿情大數據系統將采用“購買服務+自建核心”的模式進行,系統架構如圖1所示。在第三方公有云上購買互聯網輿情采集、定制推送、全網分析等服務?;ヂ摼W的網站、論壇、微博和微信等輿情信息經采集、聚類、過濾、分析,存儲在互聯網輿情庫中。
在集團中國藍云平臺上自建本地輿情定制內容庫、收視庫,互聯網輿情庫推送的定制輿情內容和央視索福瑞、浙江華數等收視數據分別存儲其中。統一接入服務平臺包括新聞線索、傳播分析和輿情引導等功能模塊,對存儲于本地輿情定制內容庫、收視庫以及集團內部新聞生產系統的數據信息進行分析處理,同時與中央廚房選題報題、全媒績效考核、大屏展現和云媒資庫實現數據對接。網評員能通過輿情引導和輿情管控對預警內容進行處理和管理。節目制作人員可以將輿情線索推送到云媒資庫和中央廚房報題選題用于節目生產[1]。

圖1 輿情大數據系統架構
數據采集的范圍主要以國家互聯網信息辦公室2016年公布的可供轉載新聞的新聞單位為數據源,還包括全國各級政務官方微博賬號、微信公眾號等可靠信源,以及浙江省內各大主流網站、微博、微信公眾號、APP等。通過先進的分布式云架構采集技術,實時采集全網媒體數據,由定制分布式爬蟲根據豐富的規則庫以及種子資源抓取數據[2],數據通過ETL數據清洗系統清洗干擾信息(垃圾信息、敏感信息、重復信息等),數據得到純凈化的同時對數據進行結構化處理。處理后數據推送至本地輿情定制庫。
本地輿情定制內容庫建在集團云平臺上,系統擁有海量媒體數據做底層數據支撐,且數據均實現自動采集與標簽化、結構化處理,并且不斷補充新的媒體來源。除了全網實時更新推送的信息,數據源還從中國藍云收集并預處理了數據信息。本地內容數據庫已經建立了一個分布式的全文本搜索引擎,該引擎支持上億級和PB級別的輿情數據的存儲和檢索。
收視庫能夠根據央視索福瑞、浙江華數的收視數據進行解析、對比,并存儲到中國藍云的數據庫供查詢和檢索??梢苑治黾瘓F各頻道的整體收視情況,按照時間、地區的收視率、收視份額等進行具體呈現;也可以設定關鍵詞進行分析,按照排名、實時收視、歷史收視、用戶喜好等進行展現,并通過數據接口在大屏和中央廚房可視化呈現。根據融媒體中心、頻道的不同需要可以生成各種類型的分析報告,為產品評估和領導決策提供依據[3]。
統一接入服務平臺對接互聯網輿情庫、本地定制內容庫和收視庫等數據,能夠為輿情展現、輿情引導、中央廚房、云媒資庫、第三方展現等應用提供數據支撐,是一個承上啟下的應用服務層。包括新聞線索、傳播分析和輿情引導等模塊。
3.4.1 新聞線索
新聞線索模塊將是新聞選題、節目制作的重要來源之一。為記者、編導推送浙江熱點、頭版頭條、全網熱點、地域熱點、醞釀熱點、媒體報道、行業新聞、新聞檢索進行匯聚呈現,并可根據不同的需求進行定制,所有數據均樹結構展現,可以按照民生、經濟、體育篩選標簽,在約定熱點的提取方式后,可以按照分類標簽提取熱點數據?;谙到y龐大的數據中心,可以第一時間掌握全網傳播最快最廣的新聞線索。運用大數據挖掘技術,綜合媒體權重和時間因素,實時監測全網最新最熱的新聞熱點。從而實現對國內主流媒體,包括媒體旗下的報紙、網站、微博、微信、新聞移動客戶端稿件的監測和熱點的挖掘。為了保證熱點新聞的時效性,針對媒體熱點發現的每個熱點新聞,系統每5 min都會更新一次熱度,熱度值受轉載媒體數量、媒體權重和時間等因素影響。
3.4.2 傳播分析
傳播分析主要是針對集團各頻道播出的新聞、綜藝節目、影視劇或其他類型節目,在互聯網上引發的輿情傳播統計分析,及時發現輿情中反映出的觀眾心聲與疑問,在節目的宣推中予以引導和回應;并在當中提取有效信息反哺節目的制作生產。具體包括了網媒報道分析、微博(官方微博)傳播分析、微信(微信公眾號)傳播分析、APP傳播分析、用戶畫像、節目全網傳播力分析等。
3.4.3 輿情引導
輿情引導是對集團各頻道節目在互聯網上新媒體平臺的傳播口碑進行監測,對不利輿情予以及時處置,應及時建立有利于傳播的輿論,以擴大其影響力。對于已經發生的輿論和事件,掌握其在互聯網上傳播的特點和發展趨勢,跟蹤關鍵事件和敏感事件的輿論來源,進行全面監控,引導輿情管控決策,以保持集團的健康和良好形象。
(1)基于ElasticSearch分布式搜索分析引擎和ONEStor分布式對象存儲,實現互聯網數據匯聚、傳播分析、輿情監測和收視統計。采用網絡爬蟲、信息挖掘、文本分析等技術,對互聯網媒體信息、網絡輿情和行業收視率數據進行采集、清洗、分析、聚類,建立覆蓋傳統媒體和新媒體的大數據中心。
(2)基于關鍵字相似度比對的觀點挖掘分析算法,通過情感要素抽取、情感分類和觀點檢索,解析網絡輿情事件的相關情感信息,識別主觀情感趨勢,建立一套完整的輿情監測預警機制。
輿情大數據系統建成后,陸續為集團內各頻道以及市縣臺提供全網輿情監測、新聞選題、收視分析等服務。新冠肺炎疫情期間,集團充分利用藍云大數據獲取和分析能力,實時展示各大官方媒體疫情防控進展及輿情引導,助力浙江衛視《中國藍云搜索》等節目生產。