999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的數字電視用戶關機行為預測

2016-12-29 06:04:18王炳飛
電視技術 2016年12期
關鍵詞:用戶模型

萬 倩,謝 峰,趙 明,王炳飛

(1.國家新聞出版廣電總局廣播科學研究院,北京 100866;2.北京數碼視訊科技股份有限公司,北京 100085)

?

基于大數據的數字電視用戶關機行為預測

萬 倩1,謝 峰2,趙 明1,王炳飛2

(1.國家新聞出版廣電總局廣播科學研究院,北京 100866;2.北京數碼視訊科技股份有限公司,北京 100085)

廣電有線運營商利用雙向數字電視機頂盒回傳的用戶收視行為數據,結合廣電BOSS系統提供的媒資數據,通過采用大數據分析技術,為數字電視用戶提供個性化的收視服務,極大提升了用戶體驗并增加了營業收入。然而,回傳數據難以捕捉到電視機的狀態,在機頂盒未關閉而電視機關閉的情況下,通過回傳數據得到的用戶收視行為是無效的,會影響大數據分析系統對用戶收視行為的預估。通過分析已知的數字電視用戶關閉電視機的行為特征,生成用戶關機模型,從而預測無法采集到電視機關機數據的數字電視用戶的關機行為,保證用戶收視行為統計的有效性。

大數據;關機模型;回歸決策樹;GBDT

隨著有線電視網絡雙向改造的加速,及雙向數字電視機頂盒的普及,海量家庭用戶操作機頂盒的行為數據能夠被收集,并通過采集系統回傳至后臺數據存儲服務器,實現海量用戶收視行為數據的采集[1]。同時,得益于大數據技術的發展,一方面將收視率調查和分析的樣本空間擴大為全體用戶,能得到全面精準的分析結果;另一方面還可以針對特定人群進行收視特征分析,幫助運營商實時調整運營決策,為用戶提供個性化的收視服務,從而提高用戶體驗并增加營業收入。如北京歌華有線建立的北京大樣本收視數據研究中心,通過收集百萬級高清交互數字電視雙向用戶對機頂盒的操作行為來進行更全面、更精準的收視率數據調查和分析。

然而,雙向數字電視機頂盒只要在開機的狀態下,就會實時監測并回傳用戶頻道跳轉、交互業務的使用以及頁面停留等行為[2-4]。而在實際生活中,大部分用戶習慣性地只關閉電視機,而機頂盒仍處于開機狀態,此時,機頂盒會繼續回傳用戶收視行為數據,顯然這部分數據是無效的[1]。這部分無效數據在很大程度上會影響廣電有線運營商進行收視率調查和用戶收視行為分析的準確性。

為了得到更準確的結果,本文通過分析部分已知的機頂盒用戶關閉電視機的行為特征,建立電視機關機模型,當用戶操作機頂盒的行為數據時間間隔過大,會利用生成的模型估算該用戶在這段時間間隔內關閉電視機的時刻,提高數據的有效性。最后,在真實的數據集上進行實驗,測試了電視機關機模型的效果,實現基于大數據的數字電視用戶關機行為預測。

1 數字電視用戶關機行為建模方法

1.1 用戶關機模型建立的基礎

如上所述,基于大數據的收視率調查以及用戶個性化收視特征分析都依賴于所收集到數據的有效性,這為用戶關機模型的建立創造了必要性條件。此外,機頂盒能夠捕捉到部分電視機開關機時HDMI管腳的電平變化,回傳電視機開關機數據,為用戶關機模型的建立提供了數據基礎。

1.2 用戶關機行為的定義

數字電視用戶關機行為預測的作用在于,在用戶離開或者關閉電視機,而機頂盒仍處于開機狀態的情況下,從回傳的用戶行為數據中區分出這部分無效數據,并估算出用戶最有可能的關機時刻。

用戶關機行為具體定義為:當用戶操作機頂盒的行為數據時間間隔過大,估算在此期間用戶離開或關閉電視機的可能性,以及最有可能的關機時刻,從而保證用戶收視行為統計的有效性。

1.3 用戶關機規律分析

某省網通過雙向數字電視機頂盒采集到百萬用戶在2016年3月期間的所有行為數據,業務類型涉及直播、點播、時移、回看以及資訊等。其中包含了20多萬用戶的300多萬條電視機關機數據。如果定義關機行為與用戶關機前的最后一條行為數據之間的時間間隔作為關機時長,那么可以得到300多萬個關機時長數據。圖1給出了關機時長分布圖,橫坐標代表關機時長,縱坐標代表關機時長位于對應時間區間內的關機次數,可以看出大部分關機時長小于100 min。如果對圖1中的橫縱坐標取對數,得到的關機時長對數分布圖如圖2所示,近似一條直線,表明用戶關機時長符合Zipf分布。

圖1 關機時長分布圖

圖2 關機時長對數分布圖

1.3.1 直播頻道分布

實驗過程中,還發現用戶關機前的行為超過90%是直播,其他行為如點播、時移、回看以及頁面瀏覽等不足10%,為了更好地了解用戶關機時長的規律,本文統計了用戶關機時長在各直播頻道上的分布情況。圖3~5分別給出了CCTV1、湖南衛視、北京衛視的關機時長分布圖,可以看出關機時長在各直播頻道上同樣表現為Zipf分布的特性。

圖3 CCTV1頻道關機時長分布

圖4 湖南衛視關機時長分布

圖5 北京衛視關機時長分布

1.3.2 直播節目分布

用戶關機時長不僅在直播頻道上呈現出Zipf分布的特性,而且直播節目也具有類似的性質。本文挑選了《饑餓游戲-嘲笑鳥(上)》、《羋月傳》、《開心樂翻天》分別代表電影、電視劇和綜藝節目,用戶在觀看這些節目后關機的時長分布分別如圖6~8所示。對比頻道關機時長與節目關機時長,可以明顯看出,節目關機時長要遠小于頻道關機時長,原因在于節目時長是有限的,用戶進入某頻道的停留時間顯然會比用戶停留在某一節目上的時間要長。

圖6 《饑餓游戲-嘲笑鳥(上)》關機時長分布

圖7 《羋月傳》關機時長分布

圖8 《開心樂翻天》關機時長分布

1.4 用戶關機模型

用戶關機行為很大程度上取決于用戶收視狀態的上下文信息,比如業務類型,用戶在瀏覽頁面或者觀看點播節目后關機可能性要比觀看直播頻道小,特別是長時間停留在某一頻道時;此外,還有收視時段,收視高峰時段關機的概率顯然要比冷門收視時段小。因此,本文將用戶收視的上下文信息歸為3類,即基本類型、節目屬性、收視時段。其中基本類型包括地域和業務類型(頁面瀏覽、點播、直播、時移以及回看);節目屬性包括直播頻道、節目類型(電影、電視劇、綜藝、動漫等)、節目熱度、節目時長等;收視時段包括星期幾、直播收視六時段等。具體分類如表1所示。

表1 用戶收視上下文信息

為了便于表述,地域用R表示,取值為離散整數(R≥1),每一個數值唯一對應某個地市;業務類型用T表示,取值為離散整數(T∈[1,5]),1表示頁面瀏覽,2表示點播,3表示直播,4表示時移,5表示回看;直播頻道用C表示,取值為離散整數(C≥1),每一個數值唯一對應某個頻道,如1表示CCTV1,2表示CCTV2等;節目類型用P表示,取值為離散整數(P∈[1,4]),1表示電影,2表示電視劇,3表示綜藝,4表示動漫,這里僅對節目進行了一級分類,實際應用中可以進一步細分,如電影可以進一步細分為喜劇、動作、愛情等;節目熱度用H表示,取值為離散整數(H≥1),取值越大,即觀看人數越多,說明該節目越熱門,一般情況下,用戶對熱門節目更感興趣,因此在該節目播放時長內關機的可能性較小;節目時長用L表示,取值為連續整數(L>0);星期幾用W表示,取值為離散整數(W∈[1,7]),1表示星期一,2表示星期二,……,7表示星期日;直播收視六時段用I表示,取值為離散整數(I∈[1,6]),1表示0點至6點,2表示6點至9點,3表示9點至12點,4表示12點至15點,5表示15點至19點,6表示19點至24點。因此,給出的用戶關機模型如

t=f(R,T,C,P,H,L,W,I)

(1)

式中:f為關機模型函數,本文使用迭代決策樹算法(Gradient Boosting Decision Tree,GBDT)[5-6]訓練該模型,并用該模型預測無法采集到電視機關機數據的用戶關機行為。

2 數字電視用戶關機行為預測

2.1 決策樹

決策樹包括分類決策樹和回歸決策樹,其中分類決策樹的代表算法是C4.5[7],主要用于多分類標簽值的預測,如用戶的性別、垃圾郵件分類、股市的漲跌等;而回歸決策樹可以用于預測實數值,如用戶的年齡、身高等,代表性算法是GBDT,它在被提出之初就和SVM被認為是泛化能力最強的算法。

作為對比,先說分類決策樹,C4.5在每次分枝時,是窮舉每一個特征的所有分類閾值,找到使得按照特征值小于等于閾值,和特征值大于閾值分成的兩個分枝的熵最大的特征和閾值,按照該標準分枝得到兩個新節點,用同樣方法繼續分枝直到所有樣本都被分入唯一的葉子節點,或達到預設的終止條件,若最終葉子節點中的類別不唯一,則以多數樣本的類別作為該葉子節點的類別。

2.2 GBDT

GBDT作為回歸決策樹的代表性算法,與傳統的回歸決策樹的不同之處在于:GBDT通過梯度迭代多棵樹來共同決策,每一棵樹的輸入是之前所有樹的結論和的殘差,這個殘差就是之前所有樹的預測結果之和與實際結果之差。以年齡預測為例,假如訓練集只有4個人,甲、乙、丙、丁,他們的年齡分別是8,22,26,40。其中甲、乙是在讀學生;丙、丁是公司員工。如果用一棵傳統的回歸決策樹來訓練,得到的結果如圖9所示。

圖9 傳統回歸決策樹工作流程示例

GBDT在相同的樣本空間上訓練出的回歸決策樹模型如圖10所示。

圖10 GBDT回歸決策樹工作流程示例

從圖10可以看出,GBDT的第一棵樹和圖9的第一層分枝一樣,由于甲乙年齡相近、丙丁年齡相近,他們分別被分到樹的左右節點,每節點的平均年齡作為第一棵樹的預測值。此時得到的殘差分別為甲=-7,乙=7,丙=-7,丁=7,然后,用殘差替代第一棵樹的輸入樣本,可以得到第二棵樹,用新的特征進行訓練得到新的殘差分別為甲=0,乙=0,丙=0,丁=0。顯然,經過第二棵樹的迭代學習后,殘差已減為0(真實情況下難以實現),這時可以利用訓練好的模型進行預測:

甲:8歲的學生,喜歡玩電腦游戲,預測年齡是15歲+(-7)歲=8歲。

乙:22歲的學生,喜歡玩手機游戲,預測年齡是15歲+7歲=22歲。

丙:26歲的員工,喜歡玩電腦游戲,預測年齡是33歲+(-7)歲=26歲。

丁:40歲的員工,喜歡玩手機游戲,預測年齡是33歲+7歲=40歲。

2.3 實驗結果

本研究從某省網獲得2016年3月的所有雙向數字電視機頂盒用戶的行為數據,其中包括用戶瀏覽頁面、直播、點播、時移以及回看等業務。數據總量超過300 Gbyte,月活躍用戶數達百萬以上,近30萬機頂盒能夠上傳電視機關機行為,共計300多萬條關機記錄。首先,利用Spark分布式處理技術對海量的行為數據進行預處理,并從中抽取出每條關機數據對應的表1所示特征,本文只提取了地域、業務類型、進入業務的收視時段、關機時刻的收視時段、星期幾這幾個特征,并將這些行為特征完全相同的關機時長求平均得到具有此類特征的關機數據的關機時長,同時把特征完全相同的關機數據條數作為新增特征。以此得到近5 000個樣本。最后,將樣本空間劃分為訓練集和測試集,其中訓練集包含80%的樣本,采用上文介紹的迭代決策樹方法(GBDT)進行關機模型訓練,然后用訓練好的模型預測測試集中樣本的關機時長,實驗結果如圖11所示。

圖11 測試樣本的關機時長預測值與實際值的對比

為便于觀察,圖11的繪圖過程按關機時長從小到大進行排序,可以看出預測值圍繞實際值波動,但整體誤差較小,絕對誤差在20 min之內,說明預測較為準確。

3 總結

基于有線數字電視用戶在結束觀看時,習慣于只關閉電視機而忽略了關閉機頂盒的普遍現象,本文指出了在此期間機頂盒回傳的用戶行為數據在很大程度上會影響廣電運營商對用戶收視行為以及節目和頻道等收視率指標的統計分析結果的準確性。因此,本文提出了電視機關機模型,并采用迭代決策樹算法進行訓練,實現了基于大數據的數字電視用戶關機行為預測,彌補了當前難以采集用戶關機數據的空缺,該模型在某省網提供的真實數據上得到了較好的實驗結果。

本文作者在后續研究工作中,將選取更多的特征參數訓練電視機關機模型,力求得到更加準確的用戶關機行為預測結果,從而保證收視率調查和用戶收視行為分析的準確性。

[1] 尹培培,周文粲.大數據時代的電視收視調查與跨屏收視研究[J].廣播電視信息,2014(3):45-49.

[2] 許春玲,范志剛,鄭小盈,等.有線電視用戶行為分析實踐[J].網絡新媒體技術,2014 (1):45-49.

[3] 孫亮.基于大數據應用的互動電視增強業務研究[J].電視技術,2013,37(22):7-10.

[4] 彭毅弘.雙向機頂盒的用戶收視行為監測的實現[J].中國新通信,2014,16(13):57-58.

[5] LOMBARDO L,CAMA M,CONOSCENTI C,et al. Binary logistic regression versus stochastic gradient boosted decision trees in assessing landslide susceptibility for multiple-occurring landslide events:application to the 2009 storm event in messina (sicily,southern Italy)[J].Natural hazards,2015,79(3):1-28.

[6] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics,2001,29(5):1189-1232.

[7] POLAT K,GUNE S. A novel hybrid intelligent method based on C4.5 decision tree classifier and one-against-all approach for multi-class classification problems[J]. Expert systems with applications,2009,36(2):1587-1592.

責任編輯:許 盈

Prediction of shutdown behavior of digital TV users based on big data

WAN Qian1, XIE Feng2, ZHAO Ming1, WANG Bingfei2

(1.AcademyofBroadcastingScience,SARFT,Beijing100866,China;2.SumavisionTechnologiesCo.,Ltd.,Beijing100085,China)

Radio and television cable operators greatly enhance the user experience and increase operating revenue by providing personalized viewing service for digital TV users, which benifits from the big data techniques and the abundant data collected by two-way digital TV set-top boxes and TV boss system. However, it is difficult to collect TV state for the set-top boxes except rare TV. Therefore, when the set-top box is not closed and the TV is turned off, the user viewing behavior uploades during this period is invalid, which will affect the big data analysis system’s predictions of the user viewing behavior. With the deep analysis of TV shutdown behavior on partial users, this paper buildes an user shutdown model, to predict the shutdown behavior of other digital TV users whose shutdown data cannot be collected. Consequtently, the validity of user viewing behavior statistics is ensured with this model.

big data; shutdown model; regression decision tree; GBDT

萬倩,謝峰,趙明,等. 基于大數據的數字電視用戶關機行為預測[J].電視技術,2016,40(12):68-72. WAN Q, XIE F, ZHAO M, et al. Prediction of shutdown behavior of digital TV users based on big data[J].Video engineering,2016,40(12):68-72.

TN949

A

10.16280/j.videoe.2016.12.013

國家新聞出版廣電總局科研項目“有線電視大數據融合分析平臺設計及關鍵技術研究”

2016-05-15

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 日韩av手机在线| 日本精品视频一区二区| 99在线免费播放| 这里只有精品在线播放| 爆操波多野结衣| 久久免费看片| 精品国产毛片| 亚洲男人的天堂在线| 国产午夜一级毛片| 91精品在线视频观看| 亚洲欧洲一区二区三区| 3p叠罗汉国产精品久久| 国产在线八区| 国产精品青青| 国产区在线观看视频| 亚洲经典在线中文字幕| 中文字幕1区2区| 香蕉eeww99国产在线观看| 69国产精品视频免费| 国产精品中文免费福利| 99久久精品无码专区免费| 26uuu国产精品视频| 91外围女在线观看| 国产一区二区三区夜色| 国产精品亚洲αv天堂无码| 亚洲天堂在线免费| 亚洲欧美一区二区三区麻豆| 99福利视频导航| 亚洲一道AV无码午夜福利| 国产91视频免费观看| 另类综合视频| 亚洲丝袜第一页| 色综合久久88| 成人毛片免费在线观看| 亚洲色图另类| 久久影院一区二区h| 亚洲天堂日韩av电影| 中文无码毛片又爽又刺激| 毛片a级毛片免费观看免下载| 日韩精品一区二区三区免费| 免费在线播放毛片| 狠狠色噜噜狠狠狠狠色综合久 | 操操操综合网| 亚洲精品无码久久毛片波多野吉| 国产丝袜第一页| 老司机午夜精品视频你懂的| 2021无码专区人妻系列日韩| 亚洲码在线中文在线观看| 国产在线视频自拍| 欧美成人区| 成人午夜在线播放| 97se亚洲| 天天躁狠狠躁| 国产精品99久久久久久董美香| 欧美成人a∨视频免费观看| 无码啪啪精品天堂浪潮av| 国产精品无码一区二区桃花视频| 久久免费成人| 国产免费久久精品99re不卡 | 色成人综合| 99热最新在线| 天天干天天色综合网| 精品国产美女福到在线直播| 香蕉视频在线观看www| 天堂va亚洲va欧美va国产| 一本综合久久| 国产熟睡乱子伦视频网站| 毛片基地视频| 美女国内精品自产拍在线播放| 国产欧美专区在线观看| 曰韩免费无码AV一区二区| 国产丝袜无码一区二区视频| 亚洲第一色网站| 国产乱人伦精品一区二区| 亚洲va欧美va国产综合下载| 成人91在线| 三级国产在线观看| 蜜臀AV在线播放| 国产黄网永久免费| 免费一级毛片在线播放傲雪网| 亚洲精品中文字幕午夜| 国产毛片片精品天天看视频|