李芳芳 王占剛



摘要:根據用戶觀看的視頻時長與視頻的實際時長信息來計算用戶對該視頻的喜好度,在spark內存計算框架下,以喜好度作為特征項,使用樸素貝葉斯,TF-IDF和改進了的TFC-IDFC分類算法,對視頻用戶屬性進行分析,建立用戶年齡區間的分類模型。此分類模型適合視頻網站運營商將信息準確的推薦給用戶,同時可提高信息的利用率。考慮到傳統的TF-IDF算法沒有體現特征項在類內和類間的分布特點,提出了改進的TFC-IDFC算法,通過正確率和F1值兩個指標對以上三種分類算法的評價,證明了加權的分類算法比不加權的算法分類效果更好,改進的TFC-IDFC算法比傳統的TF-IDF算法效果更優。
關鍵詞:TF-IDF;喜好度;spark;視頻;用戶分類
0引言
在現今的日常生活中,網絡視頻已成為人們學習、娛樂、交流的主要途徑。然而用戶在享受豐富視頻資源的同時,視頻查找過程卻消耗了越來越多的時間和精力。如何充分利用用戶在視頻網站瀏覽行為以及視頻觀看行為信息進行分析,建立用戶標簽,將用戶想要的信息準確的推薦給用戶,實現精準運營,已成為近年數據分析領域的熱門研究之一。
由于視頻與文字、圖片、語音相比數據量大,分析過程復雜,目前基于用戶分析大部分都集中在對微博、手機上網日志,社交網絡等領域的研究,很少對視頻網站數據進行分析。馮婷婷通過用戶瀏覽視頻的行為,利用支持向量機等分類器進行性別推理;張慷通過大數據平臺對DPI上網日志和用戶信息進行深度分析,形成手機用戶畫像;張巖峰等人通過用戶在微博上的言行等信息,提出了對用戶的個性化維度進行分類分析的方法;王雯等人通過關聯規則挖掘的方式對原短文本進行特征補充,提出了一種spark平臺上對短文本特征擴展及分類方法;Francisco等人從用戶關系網絡信息中學習用戶特征,使用PageRank等方法進行分類;Fernandes等人以Twitter為例,用SVM算法對真實用戶和虛假用戶進行分類檢測。
Spark作為一種基于內存計算的分布式計算框架,在計算性能上比Hadoop要快的多,適合于迭代算法和交互式數據分析,能提升大數據處理的實時性和準確性,應用在機器學習、數據挖掘等領域;TF-IDF算法簡單快速,結果比較符合實際情況,但傳統的TF-IDF并沒有考慮特征項與類之間的關聯。所以,本文通過用戶行為分析計算出喜好度作為特征值,利用Spark框架與改進的TF-IDF算法訓練用戶年齡區間的分類模型,計算出每個特征項的權重優化模型,提高分類結果。endprint