王奧然
摘要:以往的電視用戶畫像方法是先從電子節目表單系統獲取節目標簽,然后分析電視節目和用戶之間的關系,進一步得到用戶的畫像標簽,因為EPG的標簽具有強烈的主觀性,所以最后得到的標簽覆蓋面相對較窄。本文從電視用戶收視數據清洗、微博爬蟲實現、微博數據清洗三方面分析收視數據和微博數據處理,進一步研究電視用戶畫像,以供參考。
關鍵詞:微博數據;收視行為;電視用戶
中圖分類號:TP393.092?文獻標識碼:A?文章編號:1672-9129(2020)10-0173-01
引言:隨著社會的進步和時代的快速發展,我國各個領域都取得了一定的發展,基于公共微博數據和收視行為數據的電視用戶畫像技術也獲得的相應的進步,電視技術和互聯網的高速發展,使傳統的單項接受信號變成雙向獲取信息,通過安裝機頂盒來實現,同時還能夠進行實時電視服務,準確獲取到電視用戶的全部操作數據,給電視用戶推薦更適合的節目和廣告,所以通過分析用戶收視行為數據構建準確的用戶畫像十分必要。
1?收視數據和微博數據處理
1.1電視用戶收視數據清洗。為了能夠將不同平臺的電視用戶和微博用戶相融合,需要對電視用戶的收視數據和微博數據進行清洗,使每個電視用戶和微博用戶關注的電視節目進行有效結合,用戶的特征便可通過該集合進行體現。由于電視技術和互聯網技術的發展,很多家庭都已經安裝寬帶,使用智能電視和雙向機頂盒,雖然先進的設備能夠使服務商獲得用戶的具體操作數據,但是服務商獲得的數據相對雜亂,需要進行清洗之后才能得到有效數據。一般來說,采用數據過濾法和新系統計算法,能夠將大量的用戶數據進行篩選,每一個用戶都會有相應的用戶名所命名的文件,在文件中會保存收看節目的時長、在什么時間段收看了什么節目等,得到一個向量。
1.2微博爬蟲實現。微博爬蟲的實現主要依靠關鍵詞搜索、多賬號登錄、分布式存儲和解析頁面等,應用selenium技術,通過一個web自動化的有效測試工具,對頁面進行抓取,可以完全模仿真人的操作行為,不會輕易被反爬蟲策略發現。為了提升爬取的速度,一般采用多種機器進行分布式抓取,將待爬取用戶分配到不同的機器上之后,能夠有效避免重復爬取,最后都會統一存到分布式的MongoDB當中。在登錄之前使用selenium調用瀏覽器,通過使用相應的代碼打開瀏覽器,直接登錄微博首頁,默認情況下是沒有登錄,不登錄的話無法正常使用搜索,也不能查看用戶的基礎信息,想要更好的抓取,需要進一步實現模擬登錄[1]。
1.3微博數據清洗。在微博爬蟲進行數據爬取之后,一個微博用戶能夠得到相應數據,包括性別、年齡、ID名等,在關注目錄就能夠看到用戶關注的所有公眾號,還能夠進一步發現用戶喜歡瀏覽哪些電視節目,想要從微博中有效挖掘出電視節目和微博用戶的關系,操作過程十分復雜,微博用戶具體發送的是非結構性的短文,如果通過單純的切詞方法,不能夠準確判斷用戶是否觀看了相應的節目,例如,在電視劇《奮斗》當中,只采用切詞法,就會被識別成“今天需要好好奮斗啦”[2]。微博的數據量十分龐大,排除掉一些不經常使用的用戶和部分刷廣告的低質量用戶,一般來說,一個用戶的微博總數大概在三百條之上,對所有微博進行逐條分析沒有意義,在微博抓取的過程中,還發現存在一個特殊的情況,即微博中的有效話題機制,能夠通過加入#,兩個#就包含用戶選中的話題,當其他用戶感興趣時,就會搜索到相應的話題。
2?電視用戶畫像研究
2.1利用微博數據構建訓練模型。雖然電視用戶和微博用戶不出在同一個平臺,但是電視用戶能夠通過觀看某個節目,表示出對節目的關注;微博用戶也能夠通過發表對某個電視節目的博文,來表達自己的觀點,二者具有相同的特征集,所以可以將微博用戶帶有準確的畫像數據看成訓練的數據集,對預測的模型進行構建,然后對電視用戶的畫像進一步預測。可以通過性別標簽的模型構造,微博用戶填寫有效的性別信息,作為分類結果,性別與觀看節目有一定的關系,例如,男性一般喜愛收看歐冠、NBA等節目,在推薦相應節目時就有了一定的參考,類似的還有年齡標簽模型、興趣愛好標簽模型等。
2.2使用微博用戶數據模型預測電視用戶的用戶畫像。用戶畫像通過描述用戶的特征和喜好等一些標簽,進一步挖掘微博用戶的各類型數據,對電視用戶構建精準的用戶畫像,對推薦廣告和電視節目起到一定的幫助。通過微博爬蟲能夠添加自身的興趣標簽,自定義興趣標簽是用戶隨機編輯而形成,在用戶注冊賬戶時就會填寫相應的有效信息,不同的興趣標簽說法也不盡相同,例如用戶的標簽是“動漫控”、“音樂”、“體育”、“明星”等,從中能夠看出用戶的喜愛和偏好,其中會將一些不規范的標簽進行有效歸類,防止影響到最后用戶畫像的準確性,能夠用最少的標簽信息將用戶畫像集合。
結論:綜合來看,基于公共微博數據和收視行為數據的電視用戶畫像技術在雙向獲取信息中起到了至關重要的作用,公共微博數據能夠進一步提升電視用戶畫像的準確率,進行準確的用戶畫像預測,主要通過介紹電視用戶畫像的意義和背景,得到畫像信息,設計高效網絡爬蟲來獲取微博數據,對大量的電視用戶數據進行有效清洗等,檢驗了微博數據的電視用戶畫像方法。
參考文獻:
[1]聶毅.S省魔百和業務基于用戶畫像技術的智能運營應用研究[D].電子科技大學,2020.
[2]陳加壽.基于公共微博數據和收視行為數據的電視用戶畫像研究[D].北京郵電大學,2018.