馬宇洲 陸世翔 王喆
摘 要:電視節目是陪伴人們從小到大的娛樂項目,以前在電視機前收看節目,隨著科技的進步,大家現在紛紛用智能手機或者平板在APP上收看想看的節目,方便易得。與此同時,大數據也慢慢興起,如何根據人們搜索記錄和觀看記錄等信息去自動為人們匹配可能感興趣或愿意收看的節目,也逐漸成為熱門研究之一。
本文中,我們利用python對附件一的數據進行異常值檢測、去重等預處理。基于預處理的數據,初步對附件二中所給的數據與人們對各種類型的電視節目的感興趣程度的相關性。
根據已知數據中用戶所觀看的節目名字,利用python爬取到節目所屬的一級類別,貼上一級標簽,然后對爬取的電視節目信息進行切詞,提取關鍵詞并計算關鍵詞的信息熵,排序貼上二級、三級、四級標簽。對附件一經標簽處理后的節目以及觀看時長進行量化,建立用戶的偏好模型,對用戶的偏好進行打分排序,然后根據協同過濾推薦模型把產品推薦給用戶,并計算出每一個產品的推薦指數,選取TOP20 的推薦給用戶。
關鍵詞:TFIDF;K-means文本聚類;協同過濾推薦模型
一、挖掘目標
本次建模目標是利用產品信息描述和用戶觀看記錄,對觀眾的觀看偏好進行挑選整合,以便于更好的針對他們的收視偏好制定營銷方案,對用戶進行個性化推薦產品。我們首先對數據進行預先分析處理,挖掘數據變化的特征和規律,對用戶偏好和產品之間的相似度建立模型,并檢驗模型的可靠性。然后用協同推薦過濾模型計算每一類的產品對相應用戶的推薦指數,為用戶量身定做符合偏好的個性化推薦。
(一)數據爬取
由于題中所給數據均是影視節目,僅給出節目名無法對用戶的喜好進行判斷,所以需要繼續獲取用戶看過的節目的詳細信息,本文利用python進行網絡爬蟲,將數據進行了補充,并且獲取到了每個影視節目所屬類別。對產品和用戶貼標簽。
獲取網頁后構建正則表達式,目標是對電影天堂進行搜索提取數據,并持續抓取數據。
(二)用戶個性化詞云標簽
由于我們以家庭作為單位,所以用戶的個性化詞云標簽是多維的。根據之前爬取用戶觀看節目的信息內容,對用戶所有的觀看節目的信息寫入文檔,對此進行切詞特征提取,并計算詞頻。
然后可視化用戶肖像,然后根據用戶的肖像對用戶進行貼標簽:
以上是用戶10853的用戶個性化詞云,從中抽取超時空男臣,蠟筆小新,寄生獸,少女魔幻,舌尖上的中國等類型的節目,給用戶貼標簽:劇情、搞笑、奇幻、文化、美少女。
由用戶的標簽可以推斷這個家庭中有個小女孩喜歡看搞笑、奇幻、美少女類的節目,同時這個家庭里的大人也喜歡看搞笑、劇情類的節目以及還喜歡看舌尖上的中國、日本櫻之味,文化美食類的節目。因此在個性化推薦過程中可以向10853這個用戶推薦兔小貝故事、淘氣爺孫、小豬佩奇、魔卡少女櫻、桃花運等節目。
(三)中文切詞,去停用詞
在自然語言處理過程中,為了能夠更好地處理句子,往往需要把句子拆開分成一個一個的詞語,這樣能更好的分析句子的特性。在這里我們利用python中的jieba庫以精準模式對文檔進行切詞操作,篩選文檔中的中文停用詞并將其刪去。
二、推薦模型
(一)算法流程
1.收集用戶的觀看偏好,對不同行為進行分組,然后對不同分組進行加權計算用戶的總喜好。
2.計算相似用戶(基于用戶推薦),以及計算相似節目(基于節目推薦),關于相似度計算有很多種方法:余弦夾角相似度、歐幾里德距離度量、皮爾遜相關系數等,本文我們采用歐幾里德度量,表示相似度如下:
在計算用戶相似度時,我們將一個用戶對所有物品的偏好作為一個向量,而在計算節目相似度時,將用戶對某個物品的偏好作為一個向量,在得到相似度以后,然后計算相似用戶。
3.基于用戶推薦興趣最相近的K個用戶所喜歡的物品,計算如下:
其中,p(u,i)表示用戶u對物品i的感興趣程度,S(u,k)表示和用戶u興趣最接近的K個用戶,N(i)表示對物品i有過行為的用戶集合,Wuv表示用戶u和用戶v的興趣相似度,Rvi表示用戶v對物品i的興趣(這里簡化,所有Rvi都等于i)
然后利用矩陣計算推薦結果,得到物品之間的相似度,ItemCF通過如下公式計算用戶u對物品j的興趣:
基于節目的相似推薦最相近的K個節目,計算如下:
這里N(u)是用戶最喜歡的集合,S(j,k)是和物品j最相似的K個物品的集合,Wji是物品j和i的相似度,Rui是用戶u對物品i的興趣。(對于隱反饋數據集,如果用戶u對物品i有過行為,即可令Rui=1。)該公式的含義是,和用戶歷史上感興趣的物品越相似的物品,越有可能在用戶的推薦列表中獲得比較高的排名。
為了減少熱門節目的權重,給相應的節目加上懲罰因子,因此減輕了熱門節目和較多節目相似的可能性。
4.混合推薦,在度量用戶A和B相似度時,加上時間權重。在計算某用戶對某種節目的偏好程度時,加上這個用戶觀看此節目的總時長權重。
(二)模型結果
根據網絡爬蟲將用戶可得大致分類:
將產品可大致分類:
參考文獻:
[1] 任? 品.基于置信用戶偏好模型的電視推薦系統[D].清華大學,2014
[2] 黃建宇、周愛武、肖? 云、譚天誠等.基于特征空間的文本聚類[D].安徽大學,2017
[3] 華秀麗、朱巧明、李培峰等.語義分析與詞頻統計相結合的中文文本相似度量方法研究[D].蘇州大學,2012