999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試論基于公共微博數據和收視行為數據的電視用戶畫像

2020-09-27 08:59:41王奧然
數碼設計 2020年10期

王奧然

摘要:以往的電視用戶畫像方法是先從電子節目表單系統獲取節目標簽,然后分析電視節目和用戶之間的關系,進一步得到用戶的畫像標簽,因為EPG的標簽具有強烈的主觀性,所以最后得到的標簽覆蓋面相對較窄。本文從電視用戶收視數據清洗、微博爬蟲實現、微博數據清洗三方面分析收視數據和微博數據處理,進一步研究電視用戶畫像,以供參考。

關鍵詞:微博數據;收視行為;電視用戶

中圖分類號:TP393.092?文獻標識碼:A?文章編號:1672-9129(2020)10-0173-01

引言:隨著社會的進步和時代的快速發展,我國各個領域都取得了一定的發展,基于公共微博數據和收視行為數據的電視用戶畫像技術也獲得的相應的進步,電視技術和互聯網的高速發展,使傳統的單項接受信號變成雙向獲取信息,通過安裝機頂盒來實現,同時還能夠進行實時電視服務,準確獲取到電視用戶的全部操作數據,給電視用戶推薦更適合的節目和廣告,所以通過分析用戶收視行為數據構建準確的用戶畫像十分必要。

1?收視數據和微博數據處理

1.1電視用戶收視數據清洗。為了能夠將不同平臺的電視用戶和微博用戶相融合,需要對電視用戶的收視數據和微博數據進行清洗,使每個電視用戶和微博用戶關注的電視節目進行有效結合,用戶的特征便可通過該集合進行體現。由于電視技術和互聯網技術的發展,很多家庭都已經安裝寬帶,使用智能電視和雙向機頂盒,雖然先進的設備能夠使服務商獲得用戶的具體操作數據,但是服務商獲得的數據相對雜亂,需要進行清洗之后才能得到有效數據。一般來說,采用數據過濾法和新系統計算法,能夠將大量的用戶數據進行篩選,每一個用戶都會有相應的用戶名所命名的文件,在文件中會保存收看節目的時長、在什么時間段收看了什么節目等,得到一個向量。

1.2微博爬蟲實現。微博爬蟲的實現主要依靠關鍵詞搜索、多賬號登錄、分布式存儲和解析頁面等,應用selenium技術,通過一個web自動化的有效測試工具,對頁面進行抓取,可以完全模仿真人的操作行為,不會輕易被反爬蟲策略發現。為了提升爬取的速度,一般采用多種機器進行分布式抓取,將待爬取用戶分配到不同的機器上之后,能夠有效避免重復爬取,最后都會統一存到分布式的MongoDB當中。在登錄之前使用selenium調用瀏覽器,通過使用相應的代碼打開瀏覽器,直接登錄微博首頁,默認情況下是沒有登錄,不登錄的話無法正常使用搜索,也不能查看用戶的基礎信息,想要更好的抓取,需要進一步實現模擬登錄[1]。

1.3微博數據清洗。在微博爬蟲進行數據爬取之后,一個微博用戶能夠得到相應數據,包括性別、年齡、ID名等,在關注目錄就能夠看到用戶關注的所有公眾號,還能夠進一步發現用戶喜歡瀏覽哪些電視節目,想要從微博中有效挖掘出電視節目和微博用戶的關系,操作過程十分復雜,微博用戶具體發送的是非結構性的短文,如果通過單純的切詞方法,不能夠準確判斷用戶是否觀看了相應的節目,例如,在電視劇《奮斗》當中,只采用切詞法,就會被識別成“今天需要好好奮斗啦”[2]。微博的數據量十分龐大,排除掉一些不經常使用的用戶和部分刷廣告的低質量用戶,一般來說,一個用戶的微博總數大概在三百條之上,對所有微博進行逐條分析沒有意義,在微博抓取的過程中,還發現存在一個特殊的情況,即微博中的有效話題機制,能夠通過加入#,兩個#就包含用戶選中的話題,當其他用戶感興趣時,就會搜索到相應的話題。

2?電視用戶畫像研究

2.1利用微博數據構建訓練模型。雖然電視用戶和微博用戶不出在同一個平臺,但是電視用戶能夠通過觀看某個節目,表示出對節目的關注;微博用戶也能夠通過發表對某個電視節目的博文,來表達自己的觀點,二者具有相同的特征集,所以可以將微博用戶帶有準確的畫像數據看成訓練的數據集,對預測的模型進行構建,然后對電視用戶的畫像進一步預測。可以通過性別標簽的模型構造,微博用戶填寫有效的性別信息,作為分類結果,性別與觀看節目有一定的關系,例如,男性一般喜愛收看歐冠、NBA等節目,在推薦相應節目時就有了一定的參考,類似的還有年齡標簽模型、興趣愛好標簽模型等。

2.2使用微博用戶數據模型預測電視用戶的用戶畫像。用戶畫像通過描述用戶的特征和喜好等一些標簽,進一步挖掘微博用戶的各類型數據,對電視用戶構建精準的用戶畫像,對推薦廣告和電視節目起到一定的幫助。通過微博爬蟲能夠添加自身的興趣標簽,自定義興趣標簽是用戶隨機編輯而形成,在用戶注冊賬戶時就會填寫相應的有效信息,不同的興趣標簽說法也不盡相同,例如用戶的標簽是“動漫控”、“音樂”、“體育”、“明星”等,從中能夠看出用戶的喜愛和偏好,其中會將一些不規范的標簽進行有效歸類,防止影響到最后用戶畫像的準確性,能夠用最少的標簽信息將用戶畫像集合。

結論:綜合來看,基于公共微博數據和收視行為數據的電視用戶畫像技術在雙向獲取信息中起到了至關重要的作用,公共微博數據能夠進一步提升電視用戶畫像的準確率,進行準確的用戶畫像預測,主要通過介紹電視用戶畫像的意義和背景,得到畫像信息,設計高效網絡爬蟲來獲取微博數據,對大量的電視用戶數據進行有效清洗等,檢驗了微博數據的電視用戶畫像方法。

參考文獻:

[1]聶毅.S省魔百和業務基于用戶畫像技術的智能運營應用研究[D].電子科技大學,2020.

[2]陳加壽.基于公共微博數據和收視行為數據的電視用戶畫像研究[D].北京郵電大學,2018.

主站蜘蛛池模板: 在线色国产| 性欧美在线| 香蕉网久久| 亚洲一区网站| 国产精品白浆无码流出在线看| 国产精品密蕾丝视频| 亚洲大尺度在线| 久久99热这里只有精品免费看| 日本午夜网站| 欧美亚洲国产精品久久蜜芽| 国产日本欧美亚洲精品视| 99精品一区二区免费视频| 亚洲日韩每日更新| 免费人成在线观看成人片 | 99精品福利视频| 日韩av手机在线| 国语少妇高潮| 久青草免费视频| 久久成人国产精品免费软件 | 国产欧美在线视频免费| 亚洲精品中文字幕无乱码| 欧美色视频在线| 亚洲欧洲日韩久久狠狠爱| 亚洲国产成人无码AV在线影院L| 亚洲侵犯无码网址在线观看| 亚欧乱色视频网站大全| 国产视频入口| 青青网在线国产| 第一页亚洲| 波多野结衣AV无码久久一区| 婷婷久久综合九色综合88| 天堂成人在线| 久夜色精品国产噜噜| 香蕉色综合| 99热国产这里只有精品9九| 欧美精品1区2区| 国产欧美精品专区一区二区| 2020最新国产精品视频| 久久精品66| 欧美一级专区免费大片| 久久国产黑丝袜视频| 久草视频中文| 九九热在线视频| 国产精品乱偷免费视频| 亚洲人成网址| 国产97色在线| 无码精油按摩潮喷在线播放| 国产第一页第二页| 日韩精品免费在线视频| 综合网天天| 欧洲欧美人成免费全部视频| 国产无套粉嫩白浆| 狠狠色婷婷丁香综合久久韩国| 国产精品久久久久无码网站| 久久国产精品娇妻素人| 极品国产在线| 欧美亚洲欧美区| 亚洲欧美综合在线观看| 欧美日韩亚洲综合在线观看 | 国产成人资源| 欧美精品一区二区三区中文字幕| 国产国产人成免费视频77777| 亚洲精品片911| 国产精品亚洲欧美日韩久久| 精品人妻系列无码专区久久| 色九九视频| 亚洲欧美成人综合| 一区二区无码在线视频| 激情影院内射美女| 亚洲三级成人| 日韩乱码免费一区二区三区| 国内精品自在自线视频香蕉| 国产成人综合网在线观看| 欧美成人一区午夜福利在线| 曰AV在线无码| 国产美女无遮挡免费视频| 婷婷午夜影院| 亚洲中文制服丝袜欧美精品| 亚洲欧洲日韩综合| 亚洲制服中文字幕一区二区| 热99re99首页精品亚洲五月天| 国产色网站|