李培琳,趙 明,王炳飛
(1. 國家新聞出版廣電總局廣播科學研究院,北京 100866; 2. 北京數碼視訊科技股份有限公司,北京 100085)
廣電家庭用戶個性化推薦的難點和解決思路
李培琳1,趙 明1,王炳飛2
(1. 國家新聞出版廣電總局廣播科學研究院,北京 100866; 2. 北京數碼視訊科技股份有限公司,北京 100085)
隨著廣電運營商雙向業務的不斷發展,為解決用戶無法從海量內容中快速找到喜愛節目的問題,個性化推薦技術在廣電領域得到了關注和應用。個性化推薦技術在互聯網等領域已經有了較成熟的應用,并得到了良好的效果,但若具體落實在廣電運營商的業務中并起到良好的作用,還需要解決直播節目元數據關聯、推薦實效性、家庭用戶行為分析等難點問題。對廣電家庭用戶個性化推薦存在的難點進行了總結,并提出解決思路。
個性化推薦;用戶行為分析;廣電運營
近年來,廣電運營在高清、互動電視平臺的建設方面取得了長足的進步,包括點播、時移、回看、資訊信息在內的大量交互業務在各地紛紛上馬,大大改善了各地電視用戶的收視體驗,同時也為運營商平臺化進行了深入的探索和驗證。
事實證明,通過引入新的業務系統和不斷豐富節目內容,通過差異化運營、收費,能夠為廣電運營商帶來新的盈利點。如何對花費巨資引入的業務和內容進行深耕細作,最大化產出,是運營商下一步需要認真思考的問題。雖然運營商為用戶提供了豐富的互動電視內容,但由于類別眾多,層級復雜,用戶難以在海量的內容中快速找到自己感興趣的節目,這樣就會造成內容資源的大量浪費。
個性化推薦技術是解決上述問題的重點方案之一,通過主動把熱點內容、最新內容或者用戶喜好的內容推送給用戶,用戶無需進行繁瑣的內容瀏覽,就能快速定位到自己感興趣的內容,一方面提升了用戶體驗,另一方面也大大增加了運營商投資購入的節目內容的長尾效應[1]。
個性化推薦技術在互聯網行業是一項較成熟的技術,其最早在電子商務領域得到深入應用,經過十余年的發展,逐步應用到互聯網音視頻、音樂、新聞網站等領域。近年來,一些廣電運營商也逐漸將這項技術應用到廣電業務系統中來,取得了一定的效果,但同時也暴露出通用的推薦技術在廣電業務上的不足,需要針對廣電業務的特殊性進行深入研究和改善。
本文主要針對廣電家庭用戶個性化推薦技術的難點和解決思路分析總結,并對未來的應用進行展望。
對個性化推薦技術的研究和應用始于20世紀90年代中期,到目前為止主要經歷了以下4個階段:
1)20世紀90年代中期至90年代末,此期間以研究為主,研究的主要目的是為用戶提供個性化的頁面內容。1996年斯坦福大學推出了首個個性化推薦系統LIRA。
2)2000年至2005年,個性化推薦技術在亞馬遜(Amazon)等電子商務網站開始應用,主要用于為買家提供個性化的商品推薦,增加商品的長尾效應,提高銷售收入。特別需要指出的是,在此期間,美國著名的光碟租賃企業Netflix大力應用該技術進行光碟的推薦,甚至每年投入百萬美金組織推薦算法大賽。
3)2005年至2008年,隨著互聯網廣告的興起,個性化推薦技術在互聯網廣告領域得到應用,并以此演化單獨的技術學科:計算廣告學。個性化推薦技術與廣告相結合,取得了巨大的經濟效益。
4)2008年以后,個性化推薦技術在互聯網等領域得到全面、廣泛的應用,包括網站個性化首頁、視頻網站、音樂網站、App Store個性化推薦等應用層出不窮。
個性化推薦技術的基本原理(見圖1),是模擬商場導購幫助客戶遴選商品的過程,在這個過程中,合格的“導購策略”會結合以下3方面信息預測用戶的消費訴求。
1)用戶行為:對于熟悉的客戶,應該了解客戶的消費歷史,評估出其大致的消費習慣[2]。
2)場景:結合用戶的自然屬性(年齡、性別等),以及當前的環境和社會因素(季節、時間、天氣、節慶等)。
3)商品屬性信息:哪些商品真正貼合客戶的需要。

圖1 個性化推薦技術原理
個性化推薦的相關模型和算法,就是從上述模擬行為演化而來。一般來說,具體的個性化推薦系統需要開發并維護一個用戶模型(user model)或用戶記錄(user profile)保存用戶的偏好,而后結合各種推薦計算模型計算出適于向用戶推薦的內容,這些推薦計算模型包括幾大類:協同過濾推薦、基于內容的推薦、基于知識的推薦以及混合推薦[3]。這些推薦計算模型最終又通過具體的算法和相關參數實現[4]。推薦計算模型的構成如圖2所示。

圖2 推薦計算模型
目前,在網絡視頻領域應用比較多的計算模型是協同過濾和基于內容的推薦[5]。通過個性化推薦,部分視頻網站實現了用戶點擊量5%~20%的提升。
盡管廣電運營商的業務同樣是以視頻服務為主,但在業務模式上,與互聯網視頻服務存在巨大的差異,重點表現在以下3個方面:
1)內容來源。視頻網站運營的視頻節目以從版權商購買為主,部分內容為自營節目,所有節目都具備完整的元數據信息;而廣電運營商運營的視頻節目仍以直播為主,點播為輔,其中直播節目僅有少量的EPG信息。
2)業務實效性。視頻網站的業務主要是點播,節目的生命周期非常長;而廣電運營商主要的節目內容是以直播、回看的形式提供給用戶,且節目內容中受歡迎的新聞、體育賽事、綜藝類節目較多,節目的生命周期短。
3)用戶構成。視頻網站的用戶一定是個人用戶,所有節目的推薦策略都圍繞個人進行;而廣電運營商主要的機頂盒用戶則是以家庭為單位的用戶,對機頂盒的操作包含了整個家庭的行為習慣。
由于以上3個方面的不同,導致了對廣電家庭用戶進行個性化推薦,不能照搬互聯網視頻的推薦模式,必須針對廣電業務的特殊性,解決好以下3個難點:
1)直播節目元數據關聯的問題。對所有直播節目,都應能夠關聯到詳細的元數據信息,否則無法對節目自身屬性進行深度關聯分析,如分析用戶對節目的導演、演員、類型、標簽、角色等內容的偏好情況。
2)推薦內容實效性問題[6]。除點播節目外,對直播、回看節目的推薦都需要保證實效性,特別是新聞、體育類節目,在播出當時、當天進行推薦的實效性最高,如果延期較長時間再做推薦,將不再受用戶關注。
3)家庭用戶興趣偏好分析和推薦計算模型問題。針對包含了多個成員行為的家庭用戶,如果仍按照個人行為來對待分析,其推薦結果將會與實際情況有重大偏差,必須建立更合理的推薦計算模型。
針對上述難點,本文分別提出解決思路,并對其中實效性問題、家庭用戶行為分析問題相關的模型和算法給出概要描述。
3.1 直播節目元數據關聯問題
目前,廣電運營商一般只管理了直播節目的EPG信息,通過短時間描述等方式下發給機頂盒終端顯示。國內的EPG提供商供給的EPG信息一般僅含播出時間、節目名稱兩項內容。如果通過節目名稱擴展更豐富的節目描述信息,一種有效的解決途徑是:采用視頻聚合網站的策略,建設視頻聚合系統,通過網絡爬蟲、與視頻網站合作等方式,從互聯網多個渠道導入節目內容的描述信息,并通過文本分析、模糊匹配等算法,通過節目名稱實現EPG與節目元數據的初步關聯,進一步通過人工審核的方式提高匹配精度。
3.2 推薦實效性問題
廣電直播、回看節目推薦的實效性問題,與新聞類網站推薦實效性問題類似,內容受用戶的關注程度隨時間的延長急劇衰減。特別是在多屏競爭的情況下,哪個屏幕能夠最快讓用戶找到喜愛的節目,哪個屏幕就能夠吸引更多的用戶使用。解決時效性問題的一個有效思路是:在傳統的離線計算推薦結果的推薦技術之上,增加適于廣電業務的近線、場景感知推薦算法,相關原理見圖3。離線計算以天為單位更新用戶的興趣偏好和推薦結果,通過近線、在線推薦算法,將用戶興趣偏好和推薦結果的更新周期提升到分鐘甚至秒級。通過離線、近線、在線3種推薦算法結合的模式,離線分析出具有相近口味的用戶群體,在線上監控節目實時收視情況,對于受歡迎的節目,則立即向有相似口味的用戶群體擴散。

圖3 推薦實效性問題解決思路
一種基于用戶相似度矩陣實現近線分析的算法簡單描述如下:
新物品上線后,通過門戶Portal、選單、榜單及非個性化推薦方式被老用戶收看后,可以基于系統通過用戶協同過濾算法得到的用戶相似度矩陣,將新物品推薦給與收看過該物品的用戶相似的其他用戶[7]。通過這種基于相似群體推薦的方式,可以將新物品的推薦能夠快速推薦給大量老用戶。
采用用戶相似度矩陣的計算方式,通過設置相似度閾值和限定相似用戶數量,從相似度矩陣中可以提取用戶的相似用戶集合。基于相似用戶集合進行推薦的方法有以下3種:
1)如用戶a的“相似用戶集合”為U(a)={U1,U2,…,Ui,…,U30}。則當用戶a收看了物品C,將C推薦給集合U(a)中的其他用戶。
2)用戶b的“相似用戶集合”U(b)={U1,U2,…,Ui,…,U30},若U(b)集合中某一個用戶Ui=a,若a收看了C,則將C推薦給用戶b。
3)遞推推薦:若用戶a收看了C,用戶a在用戶b的相似用戶集合中,則將C推薦給b,若b在用戶c的相似用戶集合中,則將C推薦給用戶c。系統可設置遞推層級,保證新物品能夠通過遞推方式快速推薦給大量用戶,同時不會累積每個遞推的相似性降低程度累積過多。如用戶a和b的相似度為Sim(a,b), 用戶b和c的相似度為Sim(b,c),則用戶a,c的相似度降低為Sim(a,b)×Sim(a,c)。
老用戶的推薦列表中,若存在多個新物品間,物品的排序應按照用戶間的相似度進行排序。如物品C1被用戶a看過,被推薦給用戶b,b與a間的相似度為Sim(a,b),物品C2被用戶c看過,同時也被推薦給用戶b,c與b間的相似度為Sim(c,b), 則按照Sim(a,b)和Sim(c,b)的大小對C1、C2進行排序。
3.3 家庭用戶行為分析問題
對機頂盒終端家庭用戶的行為分析,一直是廣電領域內的難題。傳統的收視率調查公司如央視索福瑞等,在進行入戶調查時同樣需要提供技術、管理手段進行家庭成員的區分,如給測量儀的遙控器增加家庭成員角色按鍵,每次收看電視時,使用人員都需要先選擇自己的角色,而后再進行收視。這樣的方式對實現個性化推薦,甚至大數據條件下的收視行為調查、分析都是不適用的。過去的研究中,有一類基于“分組行為”(group based)的推薦技術,其應用場景與家庭用戶節目推薦類似,但其前提是組內各成員的行為是能夠區分的,顯然也并不適用。
通過線上的方式解決家庭用戶行為分析和推薦的有效思路是:通過大數據分析技術,提取家庭內部各成員的興趣偏好,并結合時間-興趣分布模型,對家庭主要成員的收視習慣進行區分,在不同的時間點,利用時間、用戶短期在線行為識別出當前收視的成員并依口味進行個性化推薦[8]。
一種能夠有效提取家庭內部各成員興趣度的算法是雙聚類算法,該算法最早應用于基因測序領域,用于發現基因序列內部的局部模式[9]。對于家庭用戶來說,每個用戶的收視偏好都有其固有的特點,這種特點在具體的收視行為中就會顯性地表現為局部的收視模式,通過雙聚類算法能夠有效地發現這種局部模式,并作為單個家庭成員的興趣點。雙聚類算法與傳統的行聚類、列聚類的區別如圖4所示。
通過對雙聚類算法提取的用戶興趣點進行時間分布上的

圖4 聚類算法比較
統計,就能夠建立一個家庭收視行為的時間-興趣模型,進而為個性化推薦提供有力的依據。
利用廣電家庭用戶個性化推薦中的3個難點的解決思路,能夠很好地解決通用推薦技術在廣電業務落地的問題,能夠為廣電用戶提供更準確、更豐富的推薦內容,并為廣電運營商帶來更多的收益。
同時,本文僅提出了各難點的解決思路,在實際落地過程中,由于運營商用戶規模的龐大,由此帶來推薦算法計算規模急劇加大,很多傳統的單機算法并不適用于具體的生產環境,需要通過大數據平臺、并行計算等技術,對推薦算法實現并行化來解決。諸如此類實際工程應用問題,本文不再討論,待后續研究中進一步解決。
[1] DUCO D,HERMAN H. Recommender systems for TV[EB/OL].[2014-12-20]. http://aaaipress.org/Papers/Workshops/1998/WS-98-08/WS98-08-008.pdf.
[2] 陳明亮,蔡日梅.電子商務中產品推薦代理對消費者購買決策的影響[J].浙江大學學報:人文社會科學版,2009(3):138-148.
[3] 黎星星,黃小琴,朱慶生,電子商務推薦系統研究[J].計算機工程與科學,2004,26(5):7-10.
[4] 吳麗花,劉魯,個性化推薦系統用戶建模技術綜述[J].情報學報,2006,25(1):57-59.
[5] 徐江山,盧增祥,陶疆,基于顯性用戶特征的數據電視節目推薦系統[J].清華大學學報:自然科學版,2007,47(1):154-156.
[6] 熊馨,王衛平,電子商務個性化產品推薦策略研究[J].科技進步與對策,2005(7):163-165.
[7] 朱巖,林澤楠,電子商務中的個性化推薦方法評述[J].中國軟科學,2009(2):183-192.
[8] 肖東輝,基于主題與情感傾向的信息推薦算法研究[D].北京:北京郵電大學,2003.
[9] 路海明,李衍達,基于控制原理和情感計算的信息推薦[J].自動化學報,2002,28(4):481-487.
李培琳,女,工程師,主研廣播電視業務系統集成、數據分析與數據挖掘技術;
趙 明,高級工程師,主研廣播電視業務系統架構、數據挖掘、系統性能評估技術;
王炳飛,高級工程師,主研廣播電視業務數據分析與數據挖掘、用戶推薦系統架構技術。
責任編輯:許 盈
Difficulties and Solutions for TV Recommender Systems
LI Peilin1, ZHAO Ming1, WANG Bingfei2
(1.AcademyofBroadcastingScience,SARFT,Beijing100866,China; 2.SumavisionTechnologiesCo.,Ltd.,Beijing100085,China)
With the development of radio & television operators two-way business, quickly finding a favorite program to solve the problem of facing mass content, and personalizing recommendation technology has been concerned and applied in the field of broadcasting. Personalized recommendation technology in the Internet and other fields has been mature applications, and obtained good effect, but if the concrete implementation in radio & television operators in the business and play a good role, still need to solve the difficulties of live broadcast metadata association, the effectiveness of recommendation, and problems such as family user behavior analysis. In this paper, on radio & television home users personalized recommendation existing difficulties are summarized, and brought proposed solutions.
TV recommender systems;user behavior analysis;radio & television operation
2014年國家新聞出版廣電總局科研項目“有線電視大數據融合分析平臺設計及關鍵技術研究”
TP301.6;TN943
A
10.16280/j.videoe.2015.18.008
2015-03-06
【本文獻信息】李培琳,趙明,王炳飛.廣電家庭用戶個性化推薦的難點和解決思路[J].電視技術,2015,39(18).