陳 摯,余 疆
(1.四川外國語大學 黨委宣傳部,重慶 沙坪壩 400031;2.亞信科技(中國)有限公司,北京 100086)
交互性、平臺化已成為媒體融合時代的重要特點之一。在傳統電視媒體向融媒體轉型的過程中,IPTV業務迅速增長,已成為體量最大的新媒體電視平臺以及廣播電視運營的主要形態。IPTV即交互式網絡電視。工業和信息化部發布的截至2020年10月《通信業經濟運行情況》數據顯示,IPTV(網絡電視)用戶較快增長,IPTV總用戶數達3.12億戶,同比增長6.2%,比2019年末凈增1 813萬戶。
IPTV每天為用戶提供幾百個頻率廣播和電視頻道節目,然而,這些海量的內容在滿足了電視用戶需求的同時,也使得用戶尋找所需內容變得困難[1]。除了專業內容的豐富,用戶生成內容(User Generated Content,UGC)更是爆發式發展,每個用戶既是內容的消費者,也成為內容的創造者。大數據技術的迅猛發展為IPTV的運維提供了新的技術和方法,在用戶數據管理、用戶行為分析及內容精準推薦方面,可更好地匹配海量內容和用戶需求。然而,IPTV運營平臺在業務量迅猛增長的同時,也凸顯出對大數據統一管理和運營能力的不足,主要體現在數據缺維和運營缺器兩方面。廣電平臺IPTV運營現狀如圖1所示。

圖1 廣電平臺IPTV運營現狀
現有IPTV運營的數據源主要來源于媒資數據和IPTV數據兩個方面。媒資數據主要為影片數據;IPTV數據包括用戶基礎數據、用戶業務使用數據以及用戶訂購數據等。然而,這些數據源相對較為原始,數據具有局限性,缺乏用戶身份信息數據、用戶家庭信息數據、用戶收入信息數據以及用戶行業信息數據,維度不全、粒度不足,對于IPTV的后臺運營而言遠遠不夠,造成了數據缺“維”的現象。
由于數據缺維,廣電平臺只能按照用戶喜好大類進行推薦和運營,因此實際效果欠佳。此外,目前大多數廣電運營平臺現有的內容推薦主要依賴編輯人工選擇,推薦結果受人為因素影響較大,成效甚微,浪費大量人力資源。
知識圖譜的概念最早由谷歌公司于2012年提出。知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是“實體-關系-實體”三元組、實體及其相關屬性值。實體間通過關系相互聯結,構成網狀的知識結構[2]。目前,基于知識圖譜的推薦算法廣泛應用于互聯網的各個領域。除了傳統的電商和搜索領域外,新型的短視頻、資訊及社交等場景都越來越重視推薦算法。結合特定行業數據和領域知識,可以得到該領域的知識圖譜。知識圖譜在擴展實體信息和強化實體之間的聯系方面具有天然的優勢,如領域知識本體查詢,服務面向用戶的業務交叉營銷與熱點內容營銷,可為推薦系統提供強大而豐富的參考作用[3]。在知識圖譜中,實體包含著豐富的描述性知識,而這些知識可以為推薦結果提供精確性、多樣性及可解釋性,從而實現個性推薦、智能搜索、關聯分析以及智能問答。
知識圖譜工具提供知識抽取的能力,根據知識建模實體、關系及屬性定義,對基礎數據進行抽取、轉換及加載,轉換成三元組加載到圖數據庫進行存儲。知識圖譜的構建流程如圖2所示。
在知識圖譜構建過程中,數據是知識圖譜的基礎。創建知識圖譜之前,必須通過各個方式收集基礎數據用來構建知識圖譜。信息抽取過程是從不同來源、不同結構的基礎數據(包括結構化數據或非結構化數據)中提取出結構化數據。知識映射過程主要建立從基礎數據中抽取的結構化信息與所創建的知識圖譜中的實體、屬性以及實體間相互關系的映射關系。
知識圖譜的構建流程支持編輯知識圖譜數據生成任務信息,包括源數據選擇、信息抽取配置以及知識映射信息配置;支持復制知識圖譜流水線配置;支持建立結構化數據到知識圖譜中的實體、屬性以及實體的映射關系;支持全量和增量數據更新圖譜;支持AI2識別實體模型導入和自動映射。

圖2 知識圖譜構建流程
多元知識圖譜知識融合如圖3所示。知識融合是對眾多分散、異構資源上知識進行獲取、匹配、集成及挖掘等處理,是提升數據質量和獲取隱含的或有價值的新知識的過程[4]。融合技術可以基于規則庫、技術(如指代消解)、實體對齊及實體鏈接等。知識融合工具提供實體規則庫、數據沖突、屬性合并、實體鏈接以及語義歧義等融合方法,以向導方式配置,調用圖數據庫、涉及同義詞比較、中心性算法、相似度計算以及模糊主題聚類等算法,支持參數調整優化。另外,對于不支持的融合算法可以進行在線編輯和上傳。

圖3 多元知識圖譜知識融合
基于用戶及影視知識圖譜的推薦流程如圖4所示。首先構建基于知識圖譜的推薦系統模型,通過推薦引擎向用戶實時推送其感興趣的節目資源,基于用戶反饋,對推薦性能進行評估,進一步調整推薦產生器,以適應用戶偏好[5]。
在用戶端,收集用戶的點擊數據(包括時間、瀏覽數據、上下文數據以及用戶狀態等)上傳至服務器端進行處理。
在服務端,從互聯網及IPTV搜集相關數據,構建影視知識圖譜;同時,實時獲取用戶偏好,建立用戶知識圖譜。
結合河北IPTV影視節目資源庫,爬取百科網站、CCTV以及行業影視網站等互聯網公開信息,包括導演、演員、類型、評分、熱度以及分類欄目等,建立影視知識圖譜,挖掘節目關鍵實體標簽,并利用圖譜確定實體間關系。知識圖譜可以從多角度全面地分析IPTV節目資源,圖譜數據應用于精準營銷、內容推薦以及智能問答等場景數據支撐。
知識圖譜在擴展實體信息和強化實體之間的聯系方面具有天然的優勢,如領域知識本體查詢,服務面向用戶的業務交叉營銷與熱點內容營銷,可為推薦系統提供強大而豐富的參考作用[6]。在知識圖譜中,實體包含著豐富的描述性知識,而這些知識可以為推薦結果提供精確性、多樣性以及可解釋性。基于知識本體推薦的推薦引擎算法案例如圖5所示。
構建了以影視知識圖譜+用戶偏好知識圖譜的融合知識圖譜之后,可以發現更多隱含的知識,實現更加多樣化的營銷。
河北廣電IPTV知識圖譜推薦算法實施分為3個階段。
考慮到媒資數據主要以內容描述為主,缺乏必要的觀眾主觀評價內容,因此在實施過程中使用了第三方百科網站、CCTV以及行業影視網站等互聯網公開信息,用以挖掘節目關鍵實體標簽,并利用圖譜確定實體間關系。最終形成了包括導演、演員、類型、評分、熱度以及分類欄目等的實體數據節點及實體關系(如表1所示),建立了媒資諸元之間的網絡圖譜,從多角度、多方面完善了IPTV節目資源,形成了較為完備的圖譜數據,如圖6所示。

圖4 基于用戶及影視知識圖譜的推薦流程

圖5 基于知識本體推薦的推薦引擎算法案例

表1 知識圖譜實體節點及實體關系表

圖6 基于媒體數據庫結構化抽取建立知識實體模型
通過將用戶行為圖譜、直播節目圖譜以及電影電視圖譜進行知識融合,對實體進行對齊和鏈接等,建立用戶與節目之間的知識關系,幫助推薦引擎獲取隱含的或有價值的新標簽知識,如圖7所示。融合方式包括偏好節目類型鏈接、偏好明星鏈接、偏好頻道鏈接以及偏好電影類型鏈接等。通過實體融合,支持外部系統基于用戶和節目的圖遍歷查詢。

圖7 通過知識圖譜進行知識融合獲取新標簽知識
通過抓取工具實時自動爬取百度熱搜榜、微博熱搜榜、百度收視排行榜、藝恩收視排行榜、金骨朵收視排行榜、視頻網站(如優酷、騰訊及愛奇藝等)收視排行及重點推薦節目等??紤]到多種互聯網視頻網站的流量分布,對內容熱度推薦評分TOP50數據,按照藝恩40%、金骨朵40%、百度熱搜20%的權重進行綜合測算,滿分100分。在內容鮮度評級方面,按上線時間評分,三天以內10分,一周以內7分,一個月以內5分,三個月以內3分,半年以內2分,一年以內1分,超過1年不得分。IPTV數據分析系統示例如圖8所示。
結合IPTV收視及訂購排名數據,根據內容運營規范和原則,綜合推算出內容鮮度榜單和熱度榜單,按權重給出推薦內容排名。通過設定算法對平臺內容進行評分,根據內容得分及推薦效果給出相應頁面位置的推薦內容最優建議。編輯推薦選取,最大限度減少人工工作量,最大限度降低人工選擇的主觀性,實現智能精準推薦。推薦序列流程如圖9所示。
以對家庭IPTV EPG菜單推薦為例,基于統計分析構建不同時段的家庭偏好標簽,從導演、明星及主題3個維度構建。家庭偏好標簽構建采取統計分析的方式,排序輸出顯著的因素作為標簽,考慮時間衰減因素,以明星為例:

式中:α為衰減因子,取0~1間的數;m為統計周/月的個數;n是涉及明星A的總節目數。
家庭偏好標簽會分時段統計(早晨、中午、晚上),對于白天不看電視沒有標簽的家庭,會復用晚上的標簽。
基于節目數據構建知識圖譜,節點為導演、明星、節目和主題,邊為關系,有執導(導演-節目)、參演(明星-節目)、內容(節目-主題)。
通過不同的家庭標簽屬性查詢節目知識圖譜,給予對應推薦。推薦的排序考慮節目評分和時效兩個因素。內容形成結果后,通過可視化界面,媒體運營人員可直接在EPG菜單排布上選擇圖譜分析結果,如圖10所示。

圖8 河北廣電IPTV數據分析系統示例

圖10 推薦位智能排序結果示例圖
目前,系統已上線140多天。自推薦算法和平臺實施以來,系統共發自動發現并分析了14 600個網絡熱點,與媒資節目間共計分析和推薦了27 594個節目。自動化的推薦算法,節省傳統人工編排投入達10 220 min。通過對比,統計結果顯示,推薦算法帶來新增訂購用戶208 907人,新增點播收入687 364元。
通過基于用戶及影視知識圖譜的推薦算法,平臺實現了大數據模型算法賦能編排運營。引入大數據平臺的現有數據和標簽數據,接入媒資庫數據,使用網絡爬蟲補充媒資庫缺失屬性和數據。使用知識圖譜工具篩選高質量標簽,建立圖譜實體節點,再通過實體節點構建圖譜關系,最終形成知識體系(直播、電影、行為、偏好及訂購等)。在實際運營過程中,該模型算法能夠大大提升IPTV推薦效能,實現用戶增長和運營增收,值得推廣。