沈浩
中國移動通信集團上海有限公司 上海 200061
近年來,多元化的多媒體業(yè)務成為IPTV平臺發(fā)展的新熱點,極大促進了IPTV在國內的快速成長,同時還可以為家庭及政企用戶提供一種人性化的服務。IPTV業(yè)務初期,作為寬帶業(yè)務標配業(yè)務,推動寬帶業(yè)務滲透和發(fā)展;在千兆帶寬時代,更是成為家庭娛樂業(yè)務中心。除了直播業(yè)務之外,IPTV業(yè)務借助專網網絡優(yōu)勢,演化了4K、8K、VR/AR等超高清業(yè)務并且積極探索會員、營銷、廣告、電商、政務服務等眾多電視生態(tài)業(yè)務。IPTV多樣化的生態(tài)化的多媒體業(yè)務,不但可以改善傳統(tǒng)電視觀眾的用戶體驗,而且對眾多互聯(lián)網用戶也十分具有吸引力。根據(jù)工信部的統(tǒng)計數(shù)據(jù),2021年一季度,全國IPTV用戶已達3.25億,已經具備龐大的用戶基礎,針對海量IPTV用戶數(shù)據(jù)分析價值潛力無限。但是相比互聯(lián)網電視(OTT而言),IPTV具有明顯的屬地化網格化發(fā)展格局,每個地區(qū)IPTV用戶興趣和行為均有明顯差異,如何挖掘地域用戶特性并且借助IPTV網絡服務優(yōu)勢,建設上海本地業(yè)務精細化運營能力,構筑IPTV精準服務能力是關鍵。
構建IPTV精準服務能力關鍵在于有效數(shù)據(jù)的挖掘和用戶有效觸達。從數(shù)據(jù)挖掘層面來說,IPTV業(yè)務已經構建一套端到端服務體系,從IPTV服務端、傳輸端再到機頂盒終端硬件,對用戶行為數(shù)據(jù)的關鍵數(shù)據(jù)進行了留存,如何對這些用戶行為數(shù)據(jù)進行有效處理和提取成為有效數(shù)據(jù)挖掘的關鍵。隨著業(yè)務分析的深入,數(shù)據(jù)分析的指標和維度呈指數(shù)級增長,如何快速對當前業(yè)務問題進行分析,這成了數(shù)據(jù)爆炸后的“幸福的煩惱”。在有效數(shù)據(jù)挖掘的基礎上,對用戶的不同行為偏好進行分析,形成精準的用戶畫像,從而針對不同用戶進一步完善運營策略,可以促使IPTV的業(yè)務不斷健康的發(fā)展。另一方面,目前IPTV已經不同于發(fā)展之初的內容和服務極度匱乏,對于用戶而言,現(xiàn)在的IPTV內容是海量的,服務是多元化的,如何通過有效的技術手段,使得內容或者服務在用戶需要或者感興趣的時候及時讓用戶感知,同時又不對用戶造成干擾,是十分值得探究的課題。
目前,大數(shù)據(jù)分析平臺主流架構有Lambda架構、Hadoop架構和Kappa架構等[1]。本文的大數(shù)據(jù)平臺使用的是Hadoop,F(xiàn)link等技術對海量數(shù)據(jù)進行實時計算,對于數(shù)據(jù)處理時效要求為秒級,其中實時計算技術難點主要為兩塊,一是實時入庫,二是實時計算。IPTV數(shù)據(jù)平臺在數(shù)據(jù)采集功能上需要保證可以完整的收集到用戶訪問端到端的所有日志記錄數(shù)據(jù),同時為實時應用提供實時數(shù)據(jù),響應時間上要保證實時性、低延遲在1秒左右;同時對于部署的系統(tǒng)穩(wěn)定可靠性要求高。如圖1所示,數(shù)據(jù)采集除了對機頂盒用戶數(shù)據(jù)實時采集外,還需對IPTV服務端進行數(shù)據(jù)挖掘,同時結合互聯(lián)網開放數(shù)據(jù)進行同時處理。
圖1 大數(shù)據(jù)平臺架構
系統(tǒng)利用Flink流處理框架,對采集的數(shù)據(jù)進行流式計算,在流數(shù)據(jù)不斷變化的運動過程中實時地進行處理分析,尋找到可能對用戶有價值的信息,并把結果輸出到業(yè)務端,以便業(yè)務端系統(tǒng)根據(jù)數(shù)據(jù)分析進行及時的反饋。
大數(shù)據(jù)平臺從數(shù)據(jù)的生產到數(shù)據(jù)的應用過程主要分三個階段:數(shù)據(jù)的產生與收集、傳輸與分析處理、對外提供服務[2]。
1.2.1 數(shù)據(jù)采集。
1.2.1.1 采集接口的角度看,數(shù)據(jù)采集層在實際的過程中,需要考慮到多元化業(yè)務的發(fā)展需要。也就是要在多種數(shù)據(jù)格式的情況下,保持對數(shù)據(jù)源的強力介入,滿足對數(shù)據(jù)采集功能模塊的持續(xù)建設和優(yōu)化完善。此外,在業(yè)務開展過程中,還需要考慮到包括直播、點播、回看、電子商務、開機廣告、自主服務等方面的主要業(yè)務形態(tài)。
1.2.1.2 從使用方的角度來看,需要在數(shù)據(jù)采集的時候,構建用戶登錄、鑒權信息,開通的業(yè)務類型,用戶在觀看視頻過程中視頻的播放時長,起始時間和結束時間,以及用戶的操作行為包括觀看訪問路徑,觀看節(jié)目編號、節(jié)目分類屬性信息、增值訂購行為等。在完成多個數(shù)據(jù)來源多樣化的不同格式數(shù)據(jù)的接入并進行合理的數(shù)據(jù)格式轉換及分類處理后,就可以結合實際運營的需求,進行數(shù)據(jù)的輸出供其他模塊使用。
1.2.2 數(shù)據(jù)分析。
1.2.2.1 離線計算的基礎上,需要在Hadoop的分布中,不斷擴展數(shù)據(jù)資源,持續(xù)投入基礎建設,滿足在線數(shù)據(jù)的實時處理和服務要求,如圖2所示,為本次數(shù)據(jù)采集部署架構。也就是說,我們需要在實時數(shù)據(jù)的基礎上保持數(shù)據(jù)的抖動,提高消息的處理速度,保證最大的響應時間。
圖2 數(shù)據(jù)平臺基礎架構圖
1.2.2.2 需要思考到發(fā)送失敗的問題,以及實時數(shù)據(jù)計算的問題等。
1.2.3 數(shù)據(jù)服務。
1.2.3.1 運營數(shù)據(jù)服務的視角上看,需要在各種業(yè)務數(shù)據(jù)接入的基礎上,保持良好的運營效果,加強全面的數(shù)據(jù)掌握[3]。其中,主要包含的維度可以分為以下的幾點:用戶維度,收視排行榜維度,基礎產品維度,增值產品維度,首屏及一二級EPG觸點訪問維度等范疇。另外還需要涉及用戶發(fā)展的問題包括用戶開機活躍率分析的問題,用戶播控卡頓、頻道切換時長、內容播放響應、語音遙控器操控、服務滿意度等多維度分析問題。
1.2.3.2 從個性化數(shù)據(jù)服務的角度,即智能推薦可以在用戶分析的基礎上,形成全方位的精確用戶畫像,對使用用戶的觀看興趣和使用習慣進行特征抽象提煉。此時系統(tǒng)就可以結合使用者的興趣和差異化特質,持續(xù)進行內容可視化推薦,不斷提升用戶的活躍率和增值產品的訂購轉化率。
精準用戶畫像研究是為了科學的形容IPTV用戶的個性化特征和高效的用戶分群的方法。通過在訪問的媒體介質屬性和訪問業(yè)務的時間行為上對用戶使用習慣進行分析和預測,并對用戶群體的行為進行分析總結,對用戶的個性化的行為屬性和習慣特點進行高度抽象概括,結合精細的大數(shù)據(jù)分析與用戶行為的準確理解,挖掘本平臺用戶行為特征,為運營提供行之有效的決策信息。
用戶畫像的生成流程通常為:①IPTV終端機頂盒等植入js日志上報代碼,上報電視的設備ID(如MAC地址、串碼編號)、訪問日志、收視日志、互動日志等到大數(shù)據(jù)采集機群。②大數(shù)據(jù)采集模塊集群將多來源的日志原始數(shù)據(jù)存儲到大數(shù)據(jù)計算集群。③數(shù)倉模塊通過ETL技術將資源庫(頻道、節(jié)目單、點播)、互動庫、電視日志等按維度表和事實表的形式入倉存儲,供后續(xù)畫像模塊使用。④畫像模塊從數(shù)倉的維表或事實表提取數(shù)據(jù),生成畫像標簽。
最終形成的畫像標簽體系,用于形容用戶具體的特征,從而得到平臺的用戶畫像。
2.3.1 在實際應用中,畫像標簽可以分兩類處理方法,一類是基于電視運營經驗或者數(shù)分人員的假設而形成的規(guī)則類標簽,一類是基于分類算法等而形成的算法類標簽。
2.3.2 算法類標簽又有兩種生成形式,一種是在基于已提取的規(guī)則標簽用戶映射的基礎上再結合各種特征組合來訓練得出的分類模型后再預測出的標簽從而用來調整強化或無人工干預的自動化標簽提取,一種是采用直接的無監(jiān)督的聚類算法來做用戶分群的標簽提取。
2.3.3 本系統(tǒng)采用的是分類算法迭代循環(huán)自動強化調整規(guī)則類標簽的設計,即用規(guī)則類提取的畫像標簽作為監(jiān)督學習的標簽,同時在外部特征庫中抽取用戶特征,或結合部分規(guī)則類用戶標簽來構成用戶特征向量,用人工智能算法進行機器學習來形成標簽提取模型,在經過規(guī)則類畫像標簽應用的效果驗證后,采用該驗證后的規(guī)則類生成的用戶標簽映射作為訓練樣本來繼續(xù)學習,最終不斷提高模型的準確率,從而將用戶標簽提取模型應用在實際業(yè)務中來實現(xiàn)自動化分類。
2.3.4 在實際應用中,在形成用戶畫像后,可以對外輸出不同用戶分組,或者根據(jù)畫像標簽對外提供用戶查詢接口,配合外部推送系統(tǒng)實現(xiàn)對用戶在不同場景下的關聯(lián)業(yè)務推送和內容推薦。
圖3 用戶畫像的構建
圖4 智能消息系統(tǒng)部署示意圖
大數(shù)據(jù)消息推送系統(tǒng)(IMOS,Intelligence Message Operation System)在用戶畫像基礎上,對用戶行為與場景進行聯(lián)結,利用關鍵用戶特征通過消息的形式主動連接用戶,從而快速高效建立用戶與物品連接的能力。消息具有能主動對電視全場景觸發(fā)、主動點對點、千人多面、千人千面觸發(fā)、可以承載節(jié)目信息、活動信息、營銷信息等多元化內容,從而能快速響應用戶需求,提升平臺與用戶連接效率,提升物品利用率、付費轉化率、用戶開機率等關鍵指標,進而全面改善平臺對用戶的體驗。
2.5.1 當前運營痛點。傳統(tǒng)IPTV平臺在用戶經營的痛點主要有以下幾點:
2.5.1.1 缺乏主動精準連接用戶的能力。EPG頁面承載內容能力有限,基本為編輯推薦的頭部內容,用戶離開頁面后,平臺就無法連接用戶。現(xiàn)有情況就只能等待用戶到EPG主頁來。
2.5.1.2 平臺流量不均衡,缺乏流量主動干預手段用戶流量分布主要在直播、免費內容等,平臺目前缺乏必要手段將用戶拉入我們希望發(fā)現(xiàn)的內容入口,例如付費內容、特色內容等。
2.5.1.3 物品利用率低,對長尾內容拉動不足。平臺有近20萬部內容,而用戶每月收視過的內容不足5%,但其他內容并非對用戶沒有吸引力,而是無法被用戶發(fā)現(xiàn)。
2.5.1.4 缺乏對用戶實時行為及時高效反饋的能力。用戶需求瞬息萬變,電視也是一個多用戶維度,現(xiàn)有平臺無法識別用戶行為變化并且快速做出反應,引導用戶收視。例如當用戶在不停換臺時就應該主動推薦內容給他,而不是等他自己去找。
2.5.1.5 對區(qū)隔出來的特征用戶缺乏必要手段提升體驗面對用戶的各個特征分組,無法有效的針對性開展必要的營銷和服務,從而提升用戶體驗。例如未續(xù)費用戶、有離網風險用戶等
2.5.2 消息系統(tǒng)解決方案。針對這些問題,本次搭建的消息系統(tǒng)的解決方案如下:
2.5.2.1 IMOS具有全場景主動推送能力。IMOS可以在EPG頁面、直播、點播中主動發(fā)起向用戶的消息推送,推送內容、活動、付費等,不需要等用戶到EPG頁面查找。
2.5.2.2 IMOS通過主動推送將用戶導入目標內容。IMOS可以根據(jù)用戶收視特征,根據(jù)不同場景向用戶主動推送相應內容和業(yè)務,并且支持用戶一鍵跳轉,可將直播等免費流量拉入點播內容或特色內容中。
2.5.2.3 IMOS與推薦算法結合解決內容利用率問題IMOS可以跟推薦算法結合,根據(jù)用戶特征和當前收視場景,直接從媒資庫里調取節(jié)目主動推送給用戶,從而提升長尾物品的點擊率和利用率。
2.5.2.4 IMOS可以快速生成消息及時響應用戶需求IMOS通過對場景的識別和用戶特征結合快速判斷用戶需求,馬上可以觸發(fā)內容推薦、營銷付費、關聯(lián)活動等內容,而不需要編輯專門制作專題內容,大大提升運營效率。
2.5.2.5 IMOS可以針對用戶分組推送針對性服務。IMOS具有用戶分組,點對點觸發(fā)的特征,因此對一些特征用戶組可以專門編制相關消息進行通知。例如可以專門為未續(xù)費用戶策劃優(yōu)惠政策推送給他,非該分組用戶則無法收到。
綜上所述,本文從挖掘出用戶的行為特征、分析用戶偏好的本意出發(fā),提出了一種基于大數(shù)據(jù)平臺的IPTV智能消息推送技術,使得平臺具備了與用戶更加緊密的觸達能力,具有針對性強、實時反映和能夠顯示真實消費需求的特點,實際提升了用戶開機率、開機時長和平臺活躍,更加提升節(jié)目的利用率,讓購買的節(jié)目更加都能產生價值,并且通過精準的業(yè)務推薦促進用戶付費率提升。另外對于發(fā)展廣告、電商類業(yè)務也帶來新的營銷手段。